Modelos linguísticos de grande escala (LLMs) tornaram-se o núcleo do processamento de linguagem natural (PNL), que se destaca em tarefas como geração de texto, compreensão e raciocínio. No entanto, sua capacidade de lidar com longas sequências de entrada é limitada por desafios computacionais significativos, especialmente sobrecarga de memória durante suposições causadas por caches de valores-chave (KV). Como os requisitos de memória são dimensionados linearmente com o comprimento da sequência, isso limita a janela de conteúdo máximo que os modelos podem processar com eficiência. As soluções existentes, como métodos de atenção múltipla e armazenamento fora do chip, tentam reduzir este problema, mas muitas vezes introduzem compensações, como aumento da latência ou risco de perda de informações importantes. Abordar o consumo de memória sem comprometer o desempenho do modelo continua sendo um desafio importante no benchmarking de LLMs em aplicações do mundo real.
Uma equipe de pesquisadores da Universidade Tsinghua, do Instituto Shanghai Qi Zhi, da UCLA e da TapTap apresentou Atenção ao produto tensor (TPA)mecanismo de atenção projetado para aliviar o gargalo do cache KV. O TPA move decomposições de tensores para representar consultas, chaves e valores (QKV) juntos, reduzindo bastante o tamanho do cache KV durante a interpretação. Ao usar a fatoração de baixo nível, o TPA consegue economias significativas de memória enquanto mantém ou melhora o desempenho do modelo. Além disso, integra-se perfeitamente com Rotary Position Embedding (RoPE), permitindo compatibilidade com arquiteturas baseadas em atenção amplamente utilizadas, como LLaMA. Esta abordagem permite que a TPA atue como um substituto para a atenção multicabeças (MHA), que constitui a base Transformador de atenção do produto tensor (T6)arquitetura de modelagem sequencial que mostra melhorias significativas de desempenho em tarefas de modelagem de linguagem.
Detalhes técnicos e benefícios
O TPA apresenta uma nova maneira de automatizar operações QKV em componentes de baixo nível. Ao contrário das técnicas de ponderação estática, como LoRA, o TPA gera representações contextuais que se ajustam aos dados de entrada. O componente de cada token Q, K e V é expresso como a soma dos produtos tensoriais de características latentes, obtidos pela projeção direta do estado latente do token. Essa estrutura tensorial facilita a representação eficiente e reduz o uso de memória.
Uma vantagem importante do TPA é a sua integração com o RoPE. Os métodos tradicionais de baixo nível enfrentam desafios com o RoPE devido à sua dependência de flexibilidade posicional limitada. O TPA resolve isso trocando os componentes do tensor antecipadamente, permitindo cache e determinismo eficientes enquanto preserva as informações espaciais.
A eficiência da memória TPA é importante. O MHA padrão depende de um cache KV de tamanho normal proporcional ao número de cabeçotes e seu tamanho, enquanto o TPA reduz esse requisito armazenando em cache apenas as partes fatoradas. Esta redução permite o processamento de sequências muito longas dentro dos mesmos limites de memória, tornando-a particularmente útil para aplicações que requerem janelas de contexto estendidas.
Resultados e detalhes
Os pesquisadores testaram o TPA no conjunto de dados FineWeb-Edu100B em várias tarefas de modelagem linguística. O Tensor Product Attention Transformer (T6) opera continuamente as linhas básicas, que incluem MHA, Multi-Query Attention (MQA), Grouped Query Attention (GQA) e Multi-head Latent Attention (MLA).
Em termos de perda de treinamento e validação, o TPA apresentou convergência mais rápida e menor perda final em comparação com suas contrapartes. Por exemplo, em testes com modelos grandes (parâmetros 773M), o TPA obteve perda de validação significativamente menor do que o MLA e o GQA. Além disso, o TPA apresentou resultados superiores de confusão em múltiplas configurações, destacando sua eficácia e precisão.
Além das métricas de pré-treinamento, o TPA teve um desempenho muito bom nas seguintes tarefas, como ARC, BoolQ, HellaSwag e MMLU. Em termos de disparo zero e disparo duplo, o TPA está consistentemente classificado entre os métodos mais eficientes, alcançando uma precisão média de 51,41% e 53,12%, respectivamente, para modelos de tamanho médio. Estas descobertas enfatizam a capacidade da TPA de integrar eficazmente diferentes funções da linguagem.
A conclusão
O Tensor Product Attention (TPA) aborda os desafios de robustez de grandes modelos de linguagem, introduzindo um algoritmo flexível e de baixo nível que reduz o consumo de memória dos caches KV enquanto mantém um desempenho robusto. Sua compatibilidade com arquiteturas existentes e resultados robustos em vários benchmarks tornam-no uma alternativa viável aos métodos tradicionais de atenção. À medida que aumenta a necessidade de processamento de contexto longo em modelos de linguagem, abordagens como o TPA fornecem um caminho eficiente, combinando eficiência de memória com desempenho robusto para aplicações do mundo real.
Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.
🚨 Recomende uma plataforma de código aberto: Parlant é uma estrutura que muda a forma como os agentes de IA tomam decisões em situações voltadas para o cliente. (Promovido)
Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.
📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)