Meta AI sugere grandes modelos conceituais (LCMs): um salto semântico além da modelagem de linguagem baseada em tokens
Inteligência artificial

Meta AI sugere grandes modelos conceituais (LCMs): um salto semântico além da modelagem de linguagem baseada em tokens


Modelos Linguísticos de Grande Escala (LLMs) alcançaram avanços notáveis ​​no processamento de linguagem natural (PNL), permitindo aplicações na geração de texto, resumo e resposta a consultas. No entanto, a sua dependência do processamento a nível de token – prevendo uma palavra de cada vez – apresenta desafios. Esta abordagem é o oposto da comunicação humana, que geralmente funciona em níveis mais elevados de produção, como frases ou ideias.

A modelagem em nível de token também enfrenta tarefas que exigem compreensão de conteúdo de longo alcance e podem produzir resultados inconsistentes. Além disso, estender esses modelos para aplicações multilíngues e multiespécies é computacionalmente caro e exige muitos dados. Para lidar com esses problemas, pesquisadores da Meta AI propuseram uma nova abordagem: Large Concept Models (LCMs).

Modelos de grandes conceitos

Os Large Concept Models (LCMs) da Meta AI representam uma evolução das arquiteturas LLM tradicionais. Os LCMs trazem duas inovações importantes:

  1. Modelo de espaço altamente incorporado: Em vez de trabalhar em tokens separados, os LCMs realizam cálculos em uma incorporação de alta dimensão. Este espaço representa unidades abstratas de significado, chamadas conceitos, que correspondem a sentenças ou expressões. O espaço de incorporação, denominado SONAR, foi projetado para ser independente de idioma e modalidade, suportando mais de 200 idiomas e múltiplas modalidades, incluindo texto e fala.
  2. Modelagem de linguagem e independente de modalidade: Ao contrário dos modelos vinculados a linguagens ou métodos específicos, os LCMs processam e geram conteúdo em um nível puramente semântico. Esse design permite transições perfeitas entre linguagens e métodos, facilitando a generalização zero shot.

No centro dos LCMs estão codificadores e decodificadores conceituais que mapeiam sentenças para a incorporação do SONAR e decodificam o código incorporado de volta para a linguagem natural ou outros métodos. Esses componentes são congelados, o que garante flexibilidade e facilidade de extensão para novas linguagens ou métodos sem retreinar todo o modelo.

Detalhes técnicos e benefícios dos LCMs

Os LCMs introduzem vários novos recursos para melhorar o modelo de linguagem:

  1. Arquitetura Hierárquica: Os LCMs usam uma estrutura hierárquica para espelhar os processos de pensamento humano. Este design melhora a coerência do conteúdo de formato longo e permite o planeamento espacial sem interferir no contexto mais amplo.
  2. Geração baseada em transmissão: Os modelos de difusão foram identificados como o projeto mais eficaz para LCMs. Esses modelos prevêem a próxima incorporação do SONAR com base nas incorporações anteriores. Duas arquiteturas foram testadas:
    • Uma torre: Um único gravador Transformer lida com a codificação de contexto e a saída de áudio.
    • Duas torres: Ele separa codificação de contexto e eliminação de ruído, com componentes dedicados para cada tarefa.
  3. Durabilidade e eficiência: A modelagem em nível de conceito reduz o comprimento da sequência em comparação com o processamento em nível de token, aborda a complexidade quadrática dos Transformers convencionais e permite o manuseio eficiente de conteúdo longo.
  4. Generalização zero-shot: Os LCMs mostram forte adaptabilidade zero-shot, funcionam bem em linguagens e métodos abstratos usando o amplo suporte multilíngue e multimodal do SONAR.
  5. Critérios de pesquisa e parada: Um algoritmo de busca com um critério de parada baseado na distância até o conceito de “fim do documento” garante uma saída consistente e completa sem a necessidade de ajustes finos.

Detalhes dos resultados do teste

O teste Meta AI destaca o poder do LCM. O LCM de duas torres baseado em difusão com até 7 bilhões de parâmetros mostrou desempenho competitivo em tarefas como resumo. Os principais resultados incluem:

  • Resumo multilíngue: Os LCMs tiveram melhor desempenho do que os modelos de linha de base na sumarização abstrata em vários idiomas, indicando adaptabilidade.
  • Resumo da expansão da função: Este novo trabalho experimental demonstrou a capacidade do LCM de realizar resumos extensos com consistência.
  • Eficiência e precisão: Os LCMs processaram sequências curtas com mais eficiência do que os modelos baseados em tokens, mantendo a precisão. Métricas como conhecimento compartilhado e precisão inversa apresentaram melhora significativa, conforme descrito nos resultados do estudo.

A conclusão

Os modelos de grande conceito Meta AI oferecem uma alternativa promissora aos modelos de linguagem tradicionais baseados em tokens. Ao usar incorporação conceitual de alta dimensão e processamento independente de modalidade, os LCMs abordam limitações importantes dos métodos existentes. Seu design em camadas melhora a compatibilidade e a eficiência, enquanto sua robusta produtividade zero-shot estende seu uso a uma variedade de linguagens e métodos. À medida que a pesquisa sobre esta arquitetura continua, os LCMs têm o potencial de redefinir as capacidades dos modelos linguísticos, fornecendo uma abordagem mais flexível e flexível à comunicação orientada por IA.


Confira eu Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *