Meta AI sugere grandes modelos conceituais (LCMs): um salto semântico além da modelagem de linguagem baseada em tokens

Modelos Linguísticos de Grande Escala (LLMs) alcançaram avanços notáveis no processamento de linguagem natural (PNL), permitindo aplicações na geração de texto, resumo e resposta a consultas. No entanto, a sua dependência do processamento a nível de token – prevendo uma palavra de cada vez – apresenta desafios. Esta abordagem é o oposto da comunicação humana, que geralmente funciona em níveis mais elevados de produção, como frases ou ideias.

A modelagem em nível de token também enfrenta tarefas que exigem compreensão de conteúdo de longo alcance e podem produzir resultados inconsistentes. Além disso, estender esses modelos para aplicações multilíngues e multiespécies é computacionalmente caro e exige muitos dados. Para lidar com esses problemas, pesquisadores da Meta AI propuseram uma nova abordagem: Large Concept Models (LCMs).

Modelos de grandes conceitos

Os Large Concept Models (LCMs) da Meta AI representam uma evolução das arquiteturas LLM tradicionais. Os LCMs trazem duas inovações importantes:

Modelo de espaço altamente incorporado: Em vez de trabalhar em tokens separados, os LCMs realizam cálculos em uma incorporação de alta dimensão. Este espaço representa unidades abstratas de significado, chamadas conceitos, que correspondem a sentenças ou expressões. O espaço de incorporação, denominado SONAR, foi projetado para ser independente de idioma e modalidade, suportando mais de 200 idiomas e múltiplas modalidades, incluindo texto e fala.
Modelagem de linguagem e independente de modalidade: Ao contrário dos modelos vinculados a linguagens ou métodos específicos, os LCMs processam e geram conteúdo em um nível puramente semântico. Esse design permite transições perfeitas entre linguagens e métodos, facilitando a generalização zero shot.

No centro dos LCMs estão codificadores e decodificadores conceituais que mapeiam sentenças para a incorporação do SONAR e decodificam o código incorporado de volta para a linguagem natural ou outros métodos. Esses componentes são congelados, o que garante flexibilidade e facilidade de extensão para novas linguagens ou métodos sem retreinar todo o modelo.

Detalhes técnicos e benefícios dos LCMs

Os LCMs introduzem vários novos recursos para melhorar o modelo de linguagem:

Arquitetura Hierárquica: Os LCMs usam uma estrutura hierárquica para espelhar os processos de pensamento humano. Este design melhora a coerência do conteúdo de formato longo e permite o planeamento espacial sem interferir no contexto mais amplo.
Geração baseada em transmissão: Os modelos de difusão foram identificados como o projeto mais eficaz para LCMs. Esses modelos prevêem a próxima incorporação do SONAR com base nas incorporações anteriores. Duas arquiteturas foram testadas:
- Uma torre: Um único gravador Transformer lida com a codificação de contexto e a saída de áudio.
- Duas torres: Ele separa codificação de contexto e eliminação de ruído, com componentes dedicados para cada tarefa.
Durabilidade e eficiência: A modelagem em nível de conceito reduz o comprimento da sequência em comparação com o processamento em nível de token, aborda a complexidade quadrática dos Transformers convencionais e permite o manuseio eficiente de conteúdo longo.
Generalização zero-shot: Os LCMs mostram forte adaptabilidade zero-shot, funcionam bem em linguagens e métodos abstratos usando o amplo suporte multilíngue e multimodal do SONAR.
Critérios de pesquisa e parada: Um algoritmo de busca com um critério de parada baseado na distância até o conceito de “fim do documento” garante uma saída consistente e completa sem a necessidade de ajustes finos.

Detalhes dos resultados do teste

O teste Meta AI destaca o poder do LCM. O LCM de duas torres baseado em difusão com até 7 bilhões de parâmetros mostrou desempenho competitivo em tarefas como resumo. Os principais resultados incluem:

Resumo multilíngue: Os LCMs tiveram melhor desempenho do que os modelos de linha de base na sumarização abstrata em vários idiomas, indicando adaptabilidade.
Resumo da expansão da função: Este novo trabalho experimental demonstrou a capacidade do LCM de realizar resumos extensos com consistência.
Eficiência e precisão: Os LCMs processaram sequências curtas com mais eficiência do que os modelos baseados em tokens, mantendo a precisão. Métricas como conhecimento compartilhado e precisão inversa apresentaram melhora significativa, conforme descrito nos resultados do estudo.

A conclusão

Os modelos de grande conceito Meta AI oferecem uma alternativa promissora aos modelos de linguagem tradicionais baseados em tokens. Ao usar incorporação conceitual de alta dimensão e processamento independente de modalidade, os LCMs abordam limitações importantes dos métodos existentes. Seu design em camadas melhora a compatibilidade e a eficiência, enquanto sua robusta produtividade zero-shot estende seu uso a uma variedade de linguagens e métodos. À medida que a pesquisa sobre esta arquitetura continua, os LCMs têm o potencial de redefinir as capacidades dos modelos linguísticos, fornecendo uma abordagem mais flexível e flexível à comunicação orientada por IA.

Confira eu Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Modelos de grandes conceitos

Detalhes técnicos e benefícios dos LCMs

Detalhes dos resultados do teste

A conclusão

Você também pode gostar...

CoAgents do CopilotKit: um elo perdido que facilita a conexão de agentes LangGraph a pessoas no circuito

Google AI Research apresenta Caravan MultiMet: uma nova extensão do Caravan para melhorar a previsão hidrológica com dados multimeteorológicos

Podemos desenvolver modelos de linguagem maiores mais rápido do que Adam? Este artigo sobre IA de Harvard revela SOAP para melhorar e parar a lavagem no aprendizado profundo

Deixe um comentário Cancelar resposta