Meta AI apresenta Cocomix: Uma estrutura feita de beleza inclui previsão de token para conceitos contínuos

A excelente maneira de trabalhar por conta própria de grandes idiomas (LLMs) depende das seguintes previsões, comprovadamente eficaz na captura de padrões de linguagem. No entanto, essa opção vem com limites significativos. Os tokens de idiomas transmitem constantemente informações sobre o nível superior, que exigem que os modelos processem dados de grandes dados para desenvolver habilidades de pensamento profundo. Além disso, os tokens são baseados em uma disputa de longo prazo, o que torna as funções necessárias planejamento e remoção. Os investigadores avaliaram outras estratégias, como a subdivisão e o costume da entrada, mas esses métodos não analisaram completamente o símbolo estimado. Isso levanta uma questão importante: os LLMs serão treinados de uma maneira que inclua o processamento de nível de um token? Meta AI apresenta Misturando conceito contínuo (Cocomix) Como uma solução que pode estar disponível.

Cocomix: Abordagem diferente para

Cocomix inclui previsão de brinquedos para modelo de Conceitos contínuos retirado de regiões ocultas de modelo fabricadas fingindo. O caminho usa um AutoEncoder esparso (SAE) Expandindo a representação semântica de alta qualidade, que é então incluída no processo de separação e incorporação de tokens. O projeto permite que o modelo preserve os benefícios do aprendizado projetado ao atualizar sua capacidade de ver e processar estruturas conceituais abrangentes. Ao enriquecer o Pardigm com base em informações de sinal, a cocomic visa melhorar a eficiência e a degradação do modelo.

Técnico e benefícios

Cocomix trabalha com três elementos principais:

Liberação do conceito com Aucoders esparsos (SAES): Um SAE não melhor aponta para os recursos da semântica acusada de distritos ocultos do modelo, absorvendo o acesso a mais do que os tokens individuais.
A escolha do conceito e encontrar pontuações para mostrar: Nem todos os conceitos são divulgados igualmente em previsão. O Cocomix usa como ser solicitado a sinais para determinar quais conceitos também são influentes e devem ser mantidos.
Atendendo a conceitos em andamento para a apresentação do token: Conceitos selecionados pressionados em um veter contínuo e combinados em distritos ocultos ao lado dos brinquedos, permitindo que o modelo use detalhes e idéias dos tokens.

Esta abordagem está melhorando Trabalhando com amostraOs modelos permitem alcançar as comparações em comparação com alguns tokens de treinamento. Além disso, o Cocomix melhora interpretação Mantendo e ajustando conceitos emitidos, fornecendo uma visão clara de como o modelo processa informações.

Trabalho e avaliação

Meta AI testou no Cocomix em muitos bancos, incluindo OpenWingtixt, Labada, Wikitetxt-103, Hellaswag, PQA, Arc-Easy e Winograve. As descobertas indicam:

O desempenho da amostra aprimorada: Cocomix é como prever a previsão do próximo token, exigindo alguns dos tokens de treinamento.
Melhorar o desenvolvimento normal: Todos os vários tamanhos do modelo (69m, 386m e 1,38b parâmetros, o Conomix mostrou melhoria consistente no baixo desempenho no trabalho.
Transfere em um método funcional: O Cocomix suporta a transferência de informações em modelos menores para estratégias grandes e tradicionais para interromper as informações.
Interpretação: A conceituação integrada permite grande controle e transparência nas decisões do modelo, fornecendo uma compreensão clara de seus processos internos.

Loja

O Cocomix identifica outra maneira de LLM precender, integrando o token token ao conceito baseado em pensamento. Ao instalar representações organizadas com o SAES, o Cocomix promove a eficiência e a interpretação sem interrupção da estrutura de exibição de token básica. Os resultados dos testes sugerem que esse método fornece uma maneira equilibrada de melhorar o desenvolvimento de modelos de idiomas, especialmente em áreas que requerem decisões formais e decisões claras. Pesquisas futuras podem se concentrar nos métodos de esclarecimento do surgimento e integração de outras apresentações em viagens operacionais de desempenho.

Enquete Página e papel do github. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Recomendado para um código aberto de IA' _(Atualizado)

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.

✅ [Recommended] Junte -se ao nosso canal de telégrafo

Source link

Cocomix: Abordagem diferente para

Técnico e benefícios

Trabalho e avaliação

Loja

Você também pode gostar...

Meta AI lança EvalGIM: uma biblioteca de aprendizado de máquina para avaliar modelos gráficos generativos

As 12 principais plataformas para usar SQL

PRIME: uma solução de aprendizagem por reforço on-line de código aberto com recompensas de processo para o desenvolvimento de habilidades de pensamento e modelos de linguagem sem simulação ou aborto

Deixe um comentário Cancelar resposta