O Instituto de Inovação Tecnológica TII-UAE acaba de lançar o Falcon 3: uma família de modelos de IA de código aberto com 30 novos ambientes de teste de modelo de 1B a 10B
Inteligência artificial

O Instituto de Inovação Tecnológica TII-UAE acaba de lançar o Falcon 3: uma família de modelos de IA de código aberto com 30 novos ambientes de teste de modelo de 1B a 10B


O desenvolvimento de modelos linguísticos em larga escala (LLMs) criou oportunidades em todos os setores, desde a criação automatizada de conteúdos até ao avanço da investigação científica. No entanto, permanecem desafios significativos. Os modelos mais eficazes são muitas vezes proprietários, limitando a visibilidade e o acesso a investigadores e desenvolvedores. Métodos alternativos de código aberto, embora promissores, muitas vezes lutam para medir a eficiência computacional e o desempenho em escala. Além disso, a diversidade linguística limitada de muitos modelos limita a sua utilização generalizada. Essas restrições destacam a necessidade de LLMs abertos, eficientes e versáteis que possam funcionar bem em uma variedade de aplicações sem custos excessivos.

Instituto de Inovação Tecnológica dos Emirados Árabes Unidos acaba de lançar o Falcon 3

O Instituto de Inovação Tecnológica (TII) dos Emirados Árabes Unidos enfrentou esses desafios com o lançamento de Flcon 3uma nova versão de sua série LLM de código aberto. Lançamento do Falcão 3 30 modelos de teste dos parâmetros 1B a 10B. Estes incluem modelos básicos e instruções ajustadasassim como versões quantizadas como GPTQ-Int4, GPTQ-Int8, AWQ e novos Variante de 1,58 bits eficiência. Uma adição notável é a inclusão de Modelos baseados em Mambaque usa modelos de espaço de estado (SSMs) para melhorar a velocidade e o desempenho da previsão.

Ao lançar o Falcon 3 sob o Licença TII Falcon-LLM 2.0A TII continua a apoiar o uso comercial aberto, garantindo ampla acessibilidade para desenvolvedores e empresas. Os modelos também são compatíveis com Arquitetura Lhamafacilitando aos desenvolvedores a integração do Falcon 3 em fluxos de trabalho existentes sem sobrecarga adicional.

Detalhes técnicos e principais benefícios

Os modelos Falcon 3 são treinados neste conjunto de dados em grande escala 14 trilhões de tokensum grande salto em relação à iteração anterior. Esse treinamento extensivo melhora a capacidade dos modelos de executar tarefas de maneira consistente e consistente. Falcon 3 suporta um Comprimento de contexto de 32K (8K para a variante 1B), o que permite lidar com entradas longas de forma eficiente – uma vantagem importante para tarefas como resumo, processamento de documentos e aplicativos baseados em conversação.

Os modelos mantêm um Arquitetura baseada em transformador com 40 blocos decodificadores e usá-los atenção agregada à pergunta (GQA) compatível 12 perguntas. Essas opções de design melhoram a eficiência computacional e reduzem a latência sem sacrificar a precisão. A introdução de Versões limitadas de 1,58 bits ele permite que os modelos sejam executados em dispositivos com recursos de hardware limitados, fornecendo uma solução eficiente para implantações sensíveis ao custo.

O Falcon 3 também atende à necessidade de recursos multilíngues com suporte quatro idiomas: Inglês, Francês, Espanhol e Português. Este desenvolvimento garante que os modelos sejam inclusivos e versáteis, atendendo a um público global diversificado.

Resultados e detalhes

Os benchmarks do Falcon 3 mostram seu forte desempenho em todos os conjuntos de dados de teste:

  • 83,1% no GSM8K, que mede raciocínio matemático e habilidades de resolução de problemas.
  • 78% no IFEval, que demonstra suas capacidades de seguir comandos.
  • 71,6% na MMLU, é destacado um forte conhecimento geral e compreensão em todos os domínios.

Estes resultados demonstram a competitividade do Falcon 3 com outros LLMs líderes, enquanto a sua disponibilidade aberta o diferencia. Aumentar os parâmetros de 7B para 10B melhorou o desempenho, especialmente em tarefas que exigem pensamento e compreensão multitarefa. As versões enumeradas oferecem recursos semelhantes, ao mesmo tempo que reduzem os requisitos de memória, tornando-as adequadas para implantação em ambientes com recursos limitados.

Falcão 3 está disponível Um rosto abraçadopermitindo que desenvolvedores e pesquisadores testem, ajustem e usem modelos facilmente. A compatibilidade com formatos como GGUF e GPTQ garante integração suave em cadeias de ferramentas e fluxos de trabalho existentes.

A conclusão

O Falcon 3 representa um avanço cuidadoso no enfrentamento das limitações dos LLMs de código aberto. Com sua gama de 30 testadores de modelos – incluindo variantes básicas, ajustadas por tutorial, limitadas e baseadas em Mamba – o Falcon 3 oferece flexibilidade para uma variedade de aplicações. O forte desempenho do modelo em todos os benchmarks, combinado com a sua eficiência e capacidades multilíngues, fazem dele um recurso valioso para desenvolvedores e pesquisadores.

Ao priorizar a acessibilidade e a aplicabilidade comercial, o Instituto de Inovação Tecnológica dos Emirados Árabes Unidos reforçou o papel do Falcon 3 como um LLM prático e altamente funcional para aplicações do mundo real. À medida que a adoção da IA ​​continua a expandir-se, o Falcon 3 constitui um forte exemplo de como modelos abertos, eficientes e inclusivos podem impulsionar a inovação e criar amplas oportunidades em todos os setores.


Confira eu Modelos abraçando o rosto de novo Detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: Lançamento de pesquisa LG AI EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem comandos incomparáveis ​​de próxima geração e insights de conteúdo de longo prazo para liderança global em excelência em IA generativa….


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *