Modelos Linguísticos de Grande Escala (LLMs) alcançaram avanços notáveis no processamento de linguagem natural (PNL), permitindo aplicações na geração de texto, resumo e resposta a consultas. No entanto, a sua dependência do processamento a nível de token – prevendo uma palavra de cada vez – apresenta desafios. Esta abordagem é o oposto da comunicação humana, que geralmente funciona em níveis mais elevados de produção, como frases ou ideias.
A modelagem em nível de token também enfrenta tarefas que exigem compreensão de conteúdo de longo alcance e podem produzir resultados inconsistentes. Além disso, estender esses modelos para aplicações multilíngues e multiespécies é computacionalmente caro e exige muitos dados. Para lidar com esses problemas, pesquisadores da Meta AI propuseram uma nova abordagem: Large Concept Models (LCMs).
Modelos de grandes conceitos
Os Large Concept Models (LCMs) da Meta AI representam uma evolução das arquiteturas LLM tradicionais. Os LCMs trazem duas inovações importantes:
- Modelo de espaço altamente incorporado: Em vez de trabalhar em tokens separados, os LCMs realizam cálculos em uma incorporação de alta dimensão. Este espaço representa unidades abstratas de significado, chamadas conceitos, que correspondem a sentenças ou expressões. O espaço de incorporação, denominado SONAR, foi projetado para ser independente de idioma e modalidade, suportando mais de 200 idiomas e múltiplas modalidades, incluindo texto e fala.
- Modelagem de linguagem e independente de modalidade: Ao contrário dos modelos vinculados a linguagens ou métodos específicos, os LCMs processam e geram conteúdo em um nível puramente semântico. Esse design permite transições perfeitas entre linguagens e métodos, facilitando a generalização zero shot.
No centro dos LCMs estão codificadores e decodificadores conceituais que mapeiam sentenças para a incorporação do SONAR e decodificam o código incorporado de volta para a linguagem natural ou outros métodos. Esses componentes são congelados, o que garante flexibilidade e facilidade de extensão para novas linguagens ou métodos sem retreinar todo o modelo.
Detalhes técnicos e benefícios dos LCMs
Os LCMs introduzem vários novos recursos para melhorar o modelo de linguagem:
- Arquitetura Hierárquica: Os LCMs usam uma estrutura hierárquica para espelhar os processos de pensamento humano. Este design melhora a coerência do conteúdo de formato longo e permite o planeamento espacial sem interferir no contexto mais amplo.
- Geração baseada em transmissão: Os modelos de difusão foram identificados como o projeto mais eficaz para LCMs. Esses modelos prevêem a próxima incorporação do SONAR com base nas incorporações anteriores. Duas arquiteturas foram testadas:
- Uma torre: Um único gravador Transformer lida com a codificação de contexto e a saída de áudio.
- Duas torres: Ele separa codificação de contexto e eliminação de ruído, com componentes dedicados para cada tarefa.
- Durabilidade e eficiência: A modelagem em nível de conceito reduz o comprimento da sequência em comparação com o processamento em nível de token, aborda a complexidade quadrática dos Transformers convencionais e permite o manuseio eficiente de conteúdo longo.
- Generalização zero-shot: Os LCMs mostram forte adaptabilidade zero-shot, funcionam bem em linguagens e métodos abstratos usando o amplo suporte multilíngue e multimodal do SONAR.
- Critérios de pesquisa e parada: Um algoritmo de busca com um critério de parada baseado na distância até o conceito de “fim do documento” garante uma saída consistente e completa sem a necessidade de ajustes finos.
Detalhes dos resultados do teste
O teste Meta AI destaca o poder do LCM. O LCM de duas torres baseado em difusão com até 7 bilhões de parâmetros mostrou desempenho competitivo em tarefas como resumo. Os principais resultados incluem:
- Resumo multilíngue: Os LCMs tiveram melhor desempenho do que os modelos de linha de base na sumarização abstrata em vários idiomas, indicando adaptabilidade.
- Resumo da expansão da função: Este novo trabalho experimental demonstrou a capacidade do LCM de realizar resumos extensos com consistência.
- Eficiência e precisão: Os LCMs processaram sequências curtas com mais eficiência do que os modelos baseados em tokens, mantendo a precisão. Métricas como conhecimento compartilhado e precisão inversa apresentaram melhora significativa, conforme descrito nos resultados do estudo.
A conclusão
Os modelos de grande conceito Meta AI oferecem uma alternativa promissora aos modelos de linguagem tradicionais baseados em tokens. Ao usar incorporação conceitual de alta dimensão e processamento independente de modalidade, os LCMs abordam limitações importantes dos métodos existentes. Seu design em camadas melhora a compatibilidade e a eficiência, enquanto sua robusta produtividade zero-shot estende seu uso a uma variedade de linguagens e métodos. À medida que a pesquisa sobre esta arquitetura continua, os LCMs têm o potencial de redefinir as capacidades dos modelos linguísticos, fornecendo uma abordagem mais flexível e flexível à comunicação orientada por IA.
Confira eu Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)