Modelos de linguagem em larga escala (LLMs) baseados na arquitetura Transformer revolucionaram o método de sequenciamento por meio de seus incríveis recursos de aprendizagem no contexto e capacidade de escalabilidade eficaz. Esses modelos contam com módulos de atenção que atuam como blocos de memória que integram, armazenam e recuperam associações de valores-chave. No entanto, esta técnica tem uma limitação importante: os requisitos computacionais aumentam quatro vezes com o comprimento da entrada. Essa complexidade quadrática tanto no tempo quanto na memória cria grandes desafios ao trabalhar com aplicativos do mundo real, como modelagem de linguagem, compreensão de vídeo e previsão de séries temporais de longo prazo, onde as janelas de contexto podem ser extremamente grandes, limitando o desempenho prático dos Transformers nestes domínios importantes.
Os pesquisadores exploraram muitas maneiras de enfrentar os desafios computacionais dos Transformers, surgindo três categorias principais. Primeiro, os modelos lineares recursivos têm recebido atenção por meio de treinamento prático e explicação, desde modelos de primeira geração, como RetNet e RWKV, com matrizes de transformação independentes de dados, até estruturas de segunda geração que incluem métodos de entrada, como Griffin e RWKV6. Em seguida, as arquiteturas baseadas em Transformer tentaram aumentar o mecanismo de atenção usando E/S, matrizes de atenção mínima e métodos baseados em kernel. Finalmente, os modelos de memória aumentada concentram-se na criação de memória contínua e contextual. No entanto, estas soluções muitas vezes enfrentam limitações como estouro de memória, restrições de tamanho fixo, etc.
Os pesquisadores do Google propuseram um módulo de memória neural de longo prazo projetado para melhorar os mecanismos de atenção, permitindo o acesso ao contexto histórico e, ao mesmo tempo, mantendo o treinamento e a atenção plena eficazes. A inovação reside na criação de um sistema coerente onde a atenção atua como uma memória de curto prazo para modelagem precisa de dependências dentro de contextos limitados, enquanto parte da memória neural atua como um armazenamento de longo prazo de informações contínuas. Essa abordagem de memória dupla forma a base de uma nova família de arquiteturas chamada Titans, que vem em três variantes, cada uma oferecendo diferentes estratégias de integração de memória. O programa mostra-se promissor no tratamento de instâncias muito longas, tendo processado com sucesso sequências de mais de 2 milhões de tokens.
A arquitetura Titans apresenta um design complexo de três partes para integrar efetivamente os recursos de memória. O sistema consiste em três cabeças hiperdiferenciadas: um módulo Core que usa atenção limitada do tamanho de uma janela para memória de curto prazo e processamento de dados primários, um ramo de memória de longo prazo que usa um módulo de memória neural para armazenar informações históricas e um módulo persistente. Componente de memória. contendo parâmetros de dados independentes e legíveis. A estrutura é implementada com diversas modificações técnicas, incluindo conexões residuais, funções de ativação SiLU e normalização ℓ2 de consultas e chaves. Além disso, ele usa camadas de convolução 1D profundamente separáveis após consulta, chave e previsão de valor, bem como métodos de normalização e controle.
Os resultados dos testes mostram o alto desempenho dos Titãs na maioria das configurações. Todas as três variantes – MAC, MAG e MAL – são modelos híbridos muito eficientes como Samba e Gated DeltaNet-H2, com um módulo de memória neural que parece ser a principal diferença. Entre as variantes, MAC e MAG apresentam forte desempenho, especialmente no tratamento de dependências de longo alcance, superando as combinações de estilo MAL comumente utilizadas em modelos híbridos existentes. Em tarefas de agulha em um palheiro (NIAH), os Titãs superaram as fundações em todos os tokens, variando de 2 mil a 16 mil tokens. Esse desempenho superior vem de três benefícios principais: gerenciamento eficiente de memória, recursos profundos de memória não linear e desempenho eficiente de apagamento de memória.
Concluindo, pesquisadores do Google Research apresentaram um sistema neural de memória de longo prazo que atua como um aprendiz meta-contextual, capaz de memorização dinâmica durante um teste. Este modelo recursivo é muito eficaz na identificação e armazenamento de padrões notáveis em distribuições de dados, oferecendo gerenciamento de memória mais sofisticado do que os métodos convencionais. O sistema provou sua superioridade no tratamento de uma ampla gama de condições com o uso de três variantes diferentes da família de estruturas Titans. A capacidade de processar com eficiência sequências superiores a 2 milhões de tokens, mantendo alta precisão, marca um avanço significativo no campo da modelagem de sequências e abre novas oportunidades para lidar com tarefas cada vez mais complexas.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.
🚨 Recomendar plataforma de código aberto: Parlant é uma estrutura que está mudando a forma como os agentes de IA tomam decisões em situações voltadas para o cliente. (Promovido)
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)