Block Transformer: Melhorando o Desempenho em Grandes Modelos de Linguagem com Modelagem Hierárquica Global para Local
Inteligência artificial

Block Transformer: Melhorando o Desempenho em Grandes Modelos de Linguagem com Modelagem Hierárquica Global para Local


Modelos linguísticos de larga escala (LLMs) ganharam grande popularidade, mas seu processo de geração de tokens é muito caro devido à abordagem atencional. Este mecanismo requer a manutenção de todos os tokens anteriores, o que acarreta grandes custos computacionais. Embora o armazenamento em cache dos estados de valor-chave (KV) em todas as camadas durante a decodificação automática seja agora uma prática comum, ainda envolve o carregamento das regiões KV de todos os tokens anteriores para calcular as pontuações de atenção. Este IO de cache KV controla o custo de suposições dos LLMs. Apesar das várias técnicas propostas para reduzir o custo do componente de atenção, o desenvolvimento de arquiteturas LM baseadas em transformadores que evitem a atenção indireta ainda é um grande desafio.

Pesquisadores da KAIST AI, LG AI Research e Google DeepMind propuseram a arquitetura Block Transformer para resolver os gargalos de autorreflexão em transformadores autorregressivos. Este método usa modelagem hierárquica global para local para reduzir o gargalo de IO do cache KV, que é importante para simulação em lote. O Block Transformer divide a modelagem terrestre cara em camadas inferiores enquanto usa modelagem local rápida de camadas superiores. A arquitetura então agrega os tokens de entrada em blocos de tamanho fixo e usa a autoatenção nesse nível grosseiro para reduzir o custo das camadas inferiores. Além disso, mostra ganhos de 10 a 20 vezes em eficiência computacional em comparação com conversores vanilla com a mesma confusão, marcando uma nova maneira de melhorar a interpretação do modelo de linguagem usando modelagem global para local.

A arquitetura do Block Transformer tem duas fases distintas: compreensão do contexto global e interações detalhadas locais. As camadas inferiores capturam o contexto global com granularidade grosseira em nível de bloco e as camadas superiores resolvem dependências espaciais. Além disso, a modelagem em solo sólido reduz as restrições do cache KV, enquanto a gravação local praticamente elimina o cache KV e os custos de pré-preenchimento. Ele permite que o decodificador de token use mais FLOPs para criar um modelo de linguagem mais refinado com menos impacto na saída. Os benefícios de eficiência da arquitetura são evidentes tanto nas fases de pré-enchimento como de terminação, abordando as principais restrições nos modelos de transformadores convencionais.

Block Transformer mostra desempenho de modelo de linguagem comparável a modelos vanilla com os mesmos parâmetros, alcançando confusão e precisão semelhantes para tarefas de teste triviais. Ele mostra um aumento de 25 vezes na produção tanto em condições de alto preenchimento quanto de decodificação. Essa melhoria vem de uma redução significativa na memória cache KV, permitindo tamanhos de heap até seis vezes maiores. A arquitetura também reduz a latência em cenários com muito pré-preenchimento. Além disso, o Block Transformer mantém alto desempenho com modelos vanilla longos, rápidos e de alto desempenho com entradas curtas. Melhora continuamente o desempenho em instâncias com contextos superiores a um milhão de tokens.

Os pesquisadores também compararam o transformador proposto com o modelo MEGABYTE, mostrando um aumento de desempenho de mais de 1,5 vezes em relação ao MEGABYTE. Este desenvolvimento foi projetado para melhorar a capacidade do ambiente computacional. Além disso, a abordagem de modelagem global para local é compatível com estudos recentes de algoritmos de compressão de cache KV que armazenam apenas tokens lógicos baseados em pontos de atenção acumulados. Block Transformer mostra um padrão de atenção semelhante, com mais atenção voltada para o primeiro sinal. Esta visualização sugere a possibilidade de otimização adicional usando incorporação global ou incorporação contextual da janela anterior.

Concluindo, os pesquisadores apresentaram o projeto do Block Transformer para lidar com os problemas de atenção em transformadores autorregressivos. Ele fornece um método para transformadores autorregressivos usando um modelo global para local, que mostra vantagens significativas do tempo de previsão. Este artigo destaca os papéis importantes dos componentes globais e locais na representação da linguagem, trabalhando com as vantagens cognitivas anteriormente negligenciadas do decodificador de tokens. O Block Transformer alcança uma melhoria significativa de desempenho em comparação com os transformadores vanilla de desempenho equivalente com a ajuda do design de arquitetura estratégica. As amplas implicações deste desenho enfatizam o seu potencial para influenciar o uso diversificado de modelos de linguagem em diferentes domínios.


Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

Quer chegar a mais de 1 milhão de leitores de IA? Trabalhe conosco aqui


Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA ​​com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *