Pesquisadores da China apresentam INT-FlashAttention: arquitetura de quantização INT8 compatível com FlashAttention melhora a velocidade de quantização de FlashAttention em GPUs Ampere

Modelos Linguísticos de Grande Escala (LLMs) examinam e interpretam ligações entre palavras ou tokens em uma sequência, principalmente por meio de uma abordagem de atenção. No entanto, o tempo e a complexidade da memória deste módulo quadruplicam com o comprimento da sequência, o que é uma desvantagem. Sequências mais longas requerem mais memória e processamento, o que torna o escalonamento de LLMs para aplicações que envolvem contexto longo ineficiente e desafiador.

FlashAttention foi desenvolvido como uma forma de superar essa limitação, acelerando os cálculos de atenção e usando menos memória. Isso é feito usando a classe de memória da GPU, que é o programa e o acesso à memória da GPU. Ao dividir os cálculos em partes pequenas e gerenciáveis que cabem com eficiência na memória da GPU, o FlashAttention otimiza o processo de atenção, resultando em desempenho mais rápido e menos sobrecarga de memória. Isto aumenta a intensidade do caminho da atenção, especialmente em sequências longas.

A combinação de métodos de quantização com FlashAttention é um novo tópico de pesquisa interessante. A quantização utiliza formatos numéricos menos complexos, como INT8 (inteiro de 8 bits), para reduzir a precisão dos dados usados na correspondência de modelos, permitindo um processamento mais rápido e menos uso de memória. Isso pode levar a benefícios de alto nível quando combinado com FlashAttention, especialmente na fase de inferência, onde o modelo gera previsões com base em dados previamente aprendidos.

Em pesquisas recentes na China, foi proposto o INT-FlashAttention, que é uma inovação importante a esse respeito. Como o primeiro design foi criado especialmente para GPUs Ampere, como a série A100 da NVIDIA, ele integra totalmente a calibração INT8 com o processo avançado FlashAttention. INT-FlashAttention usa caracteres de multiplicação geral de matrizes (GEMM) INT8 de alto desempenho em vez dos pontos flutuantes normalmente usados no módulo de atenção. Em comparação com formatos de ponto flutuante como FP16 ou FP8, as funções INT8 requerem significativamente menos recursos de processamento, aumentando significativamente a velocidade de processamento e economizando energia.

INT-FlashAttention é o único que pode processar totalmente a entrada INT8, incluindo matrizes de consulta (Q), chave (K) e valor (V) que são importantes para o método de atenção para todos os cálculos relacionados à atenção. Para manter a precisão mesmo com precisão reduzida, o INT-FlashAttention mantém informações específicas do token usando um processo de estimativa de nível pós-treinamento. Além de flexível, essa abordagem em nível de token torna o framework compatível com diversos formatos de baixa precisão, como INT4 (números inteiros de 4 bits), proporcionando mais memória e economia integrada sem comprometer o desempenho.

A equipe compartilhou que, ao testar o uso de INT-FlashAttention em vez da implementação padrão FP16 (ponto flutuante de 16 bits) do FlashAttention, a velocidade de decisão é 72% mais rápida. Comparado ao FlashAttention baseado em FP8, ele pode eliminar o erro de quantização em até 82%, o que significa que além de ser mais rápido, também mantém maior precisão. Essas descobertas mostraram que o INT-FlashAttention pode aumentar significativamente a robustez e a eficiência dos LLMs em hardware de alto desempenho, como GPUs Ampere.

A equipe resume suas principais contribuições da seguinte forma.

O estudo apresentou o INT-FlashAttention, uma arquitetura exclusiva de quantização em nível de token que melhora a eficiência sem comprometer o mecanismo de atenção primária. Ele se integra perfeitamente ao fluxo de trabalho líder do FlashAttention.

A equipe usou a versão INT8 do protótipo INT-FlashAttention, que é um grande avanço nas técnicas de computação de atenção e avaliação.

Testes extensivos foram realizados para verificar os resultados dos testes, mostrando que o INT-FlashAttention atinge velocidades de decisão muito mais altas do que as soluções de linha de base. Ele também apresenta melhor precisão de medição do que as soluções anteriores, o que significa que, além de ser mais rápido, mantém uma representação dos dados mais precisa do que as implementações FlashAttention FP16 ou FP8.

Concluindo, o lançamento do INT-FlashAttention é um passo importante para melhorar a eficiência e a acessibilidade de LLMs de alto desempenho em uma ampla gama de aplicações, especialmente em data centers onde arquiteturas de GPU mais antigas, como Ampere, ainda são amplamente utilizadas. Ao usar quantização e FlashAttention juntos, INT-FlashAttention fornece uma maneira poderosa de melhorar a velocidade e a precisão da interpretação do modelo de linguagem.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso SubReddit de 52k + ML.

Convidamos startups, empresas e institutos de pesquisa que trabalham em modelos de microlinguagem para participar deste próximo projeto Revista/Relatório 'Modelos de Linguagem Pequena' Marketchpost.com. Esta revista/relatório será lançada no final de outubro/início de novembro de 2024. Clique aqui para agendar uma chamada!

Tanya Malhotra está em seu último ano na Universidade de Estudos de Petróleo e Energia, Dehradun, cursando BTech em Engenharia de Ciência da Computação com especialização em Inteligência Artificial e Aprendizado de Máquina.
Ele é um entusiasta de Data Science com forte pensamento analítico e analítico, e grande interesse em adquirir novas habilidades, liderar equipes e gerenciar o trabalho de forma organizada.

Source link

Você também pode gostar...

Os 4 principais desafios de reconhecimento de fala em 2024 e soluções eficazes

torchao: A biblioteca nativa PyTorch torna os modelos mais rápidos e menores usando tipos de bits baixos, quantização e dispersão

STGformer: um transformador gráfico espaçotemporal que alcança desempenho computacional e desempenho incomparáveis ​​em aplicações de previsão de tráfego em grande escala

Deixe um comentário Cancelar resposta

STGformer: um transformador gráfico espaçotemporal que alcança desempenho computacional e desempenho incomparáveis em aplicações de previsão de tráfego em grande escala