Os laboratórios de concerência introduziram um modelo de memória grande (LM2): o cerversão transimedida de memória com memória

Os modelos baseados em Transformmer removeram o processamento do processamento ecológico (PNL), que carimbou em várias atividades. No entanto, eles lutaram com consultas altas, várias etapas e razões para números. Esses desafios surgem de seus problemas permevados, ignorando -os, fingindo se sair bem em uma ordem prolongada e sua escassez clara, o que restringe sua capacidade de desassociar com sucesso informações. As soluções existentes, como memória de memória e a geração de geração de geração de geração de geração de geração de geração reconectada (RAG), fornecem desenvolvimento parcial, mas geralmente doam eficiência ou desempenho regular.

Introdução ao modelo de memória de meme (LM2)

A Concergence Labs lança um grande modelo de memória (LM2), apenas uma construção de transformador somente para decodificador da conversão da próxima memória lidar com os modelos gerais. Em contraste com os convertidos familiares, eles dizem que dependem apenas de suas estruturas bloqueadas, o LM2 inclui um sistema de memória sistemático que interage com o monitoramento. A revisão da memória do modelo é gerenciada pelos planos de gangues, o que permite manter as informações relevantes, mantendo as habilidades regulares. O projeto capacita o LM2 a manter a unidade em ordem em uma longa ordem, fazendo progressos avançados relacionados ao envio.

Visões e benefícios tecnológicos

O LM2 se baseia na criação normal de transformadores com novas informações:

Transformador agitado de memória: O banco de memória dedicado funciona como um esquema de manutenção de longo prazo, retorna informações apropriadas sobre como prestar atenção.
Método de memória híbrida: Ao contrário dos modelos anteriores, o gráfico básico do transformador, o LM2 armazena o fluxo de informações originais enquanto combina o próximo formulário de memória.
Atualização de memória poderosa: O modelo de memória processa seus dados armazenados usando inserções legíveis, e para esquecer, e portões de saída, para garantir o armazenamento a longo prazo sem acomodação desnecessária para dados inadequados.

Esses aprimoramentos permitem que o LM2 processe uma sequência moderada com sucesso, mantendo a eficiência do computador. Ao selecionar o conteúdo da memória relevante, o modelo diminui um processo gradual que é frequentemente visto na formulação tradicional em circunstâncias adicionais.

Pesquisa e compreensão

Avaliação do LM2, testada no Babilong Datataset, projetado para avaliar as habilidades de consulta intencional. Os resultados mostram um ótimo desenvolvimento:

A condição efetiva da situação (duração do status 0k): LM2 atinge a precisão de 92,5%Passando RMT (76,4%) e Vanilla LLA-3.2 (40,7%).
Percepção do certificado longo (duração 1K-4K): À medida que o contexto do contexto aumenta, todos os modelos recebem alguma degradação, mas o LM2 mantém alta precisão. No 4K a duração do contextoLM2 chega 55,9%comparado com 48,4% da RMT incluindo 36,8% da llama-3.2.
O desempenho mais longo a longo prazo (≥8k de comprimento): Embora todos os modelos sejam resgatados com precisão, o LM2 é sempre forte, RMT fora da medição de várias etapas e conflitos relacionados.

Além dos benchmarks especiais de memória, o LM2 testou no banco de dados MMLU, incluindo uma lista de aprendizado abrangente. O modelo mostrou um Melhorias de 5,0% acima da baunilha da baunilha de baunilha anteriormente treinadaEspecialmente destaque da humanidade e da ciência social, quando considerar o conteúdo é importante. Esses efeitos indicam que a memória LM2 do LM2 está permitindo a capacidade de consultar sem comprometer o desempenho normal.

Loja

A introdução do LM2 fornece uma maneira instigante de lidar com convertidos normais para mudanças práticas. Ao integrar um módulo de memória claro, o LM2 desenvolve várias etapas, controvérsias relacionadas e preços, mantendo o bem-estar mantido e flexível. Os resultados dos testes mostram sua beleza acima das estruturas existentes, especialmente em atividades que requerem manutenção adicional. Além disso, o LM2 se sai bem nos bancos gerais de consultoria, sugerindo que a integração da memória não impede a flexibilidade. Como os modelos de memória – os desagradáveis continuam a aparecer, o LM2 representa um longo contexto nos modelos de idiomas.

Enquete o papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Recomendado para um código aberto de IA' _(Atualizado)

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.

✅ [Recommended] Junte -se ao nosso canal de telégrafo

Source link

Visões e benefícios tecnológicos

Pesquisa e compreensão

Loja

Você também pode gostar...

O que é coleta de dados? Tudo que um iniciante precisa saber

Uma maneira melhor e mais rápida de treinar robôs de uso geral | Notícias do MIT

Pesquisadores da MBZUAI e CMU apresentam Bi-Mamba: uma arquitetura Mamba sólida e eficiente de 1 bit projetada para modelos de linguagem grandes com vários tamanhos (parâmetros 780M, 1,3B e 2,7B)

Deixe um comentário Cancelar resposta