Desenvolvimentos recentes em modelos de linguagem automática trouxeram uma revolução dramática no campo do Processamento de Linguagem Natural (PNL). Esses modelos, assim como o GPT e outros, têm apresentado excelente desempenho em tarefas de criação de texto, incluindo resposta a perguntas e resumos. No entanto, a sua elevada latência representa um obstáculo significativo à sua aplicação geral, especialmente para modelos muito profundos com centenas de milhares de milhões de parâmetros. Esse atraso se deve à sua natureza porque modelos independentes geram texto, um token por vez na cadeia. Isto leva a um enorme aumento na demanda computacional, o que limita a capacidade dos modelos serem executados em tempo real.
Para resolver este problema, uma equipe de pesquisadores do KAIST e do Google desenvolveu Blockwise Parallel Decoding (BPD), uma técnica projetada para acelerar a inferência desses modelos. Conhecido como block draft, o BPD permite a previsão simultânea de vários tokens futuros, diferentemente dos métodos convencionais de contabilidade. Vários cabeçotes de previsão constroem esse rascunho de bloco em paralelo, e o modelo automatizado então seleciona e aceita condicionalmente os tokens que melhor se ajustam.
Como vários tokens são apresentados ao mesmo tempo, esta técnica acelera bastante a velocidade da inferência, reduzindo o tempo gasto na espera pela previsão de tokens sucessivos. Mas o BPD apresenta seu próprio conjunto de dificuldades, especialmente para garantir que o rascunho do bloco seja preciso e estruturado o suficiente para que o modelo o aceite.
A equipe compartilhou duas maneiras principais de melhorar a eficácia da elaboração de blocos. A distribuição de tokens gerados por vários chefes de predição no BPD foi examinada pela primeira vez. O objetivo desta análise é entender melhor como o modelo gera vários tokens simultaneamente e como melhorar essas previsões para melhorar a suavidade e a precisão. Ao analisar esta distribuição de tokens, podem ser identificadas tendências ou anomalias que podem afetar o desempenho do bloco de rascunho.
Em segundo lugar, usando esta pesquisa, a pesquisa desenvolve algoritmos que melhoram os rascunhos de blocos. A equipe sugeriu especificamente o uso de modelos de linguagem neural e modelos de n-gramas para melhorar a qualidade dos rascunhos de blocos antes da validação automática do modelo. Embora os modelos de linguagem neural forneçam reconhecimento de contexto sofisticado, o que ajuda a tornar os blocos de rascunho mais consistentes com as expectativas do modelo, os modelos n-gram ajudam a garantir a consistência local na previsão de tokens.
Os testes de pesquisa forneceram resultados encorajadores, com uma melhor preparação de blocos aumentando a eficiência do bloco, que é uma medida de quantos tokens de um rascunho de bloco são eventualmente aceitos pelo modelo autorregressivo em 5-21%. Esses benefícios foram demonstrados em diversos conjuntos de dados diferentes, demonstrando a robustez do método.
A equipe resume suas principais contribuições da seguinte forma.
- O estudo analisa como as cabeças de previsão se comportam em modelos linguísticos paralelos (BPD), encontrando evidências de uma diminuição na confiança na previsão de tokens recentes e na repetição de tokens consecutivos importantes (20% a 75%). Isto chama a atenção para a baixa qualidade do calado do bloco.
- A equipe propôs a ideia de eficiência de bloco top-k da Oracle. Eles mostram que a eficiência do bloco pode ser bastante aumentada reduzindo a iteração e a incerteza e considerando os k tokens mais prováveis em cada cabeça.
- Dois algoritmos são apresentados – recuperação global usando modelos n-gram, que recuperam vários rascunhos candidatos, e recuperação local usando LMs neurais, que refinam rascunhos de blocos até ficarem completos e consistentes. Essas estratégias maximizam a utilização de recursos e aumentam a eficiência do bloco em até 21,3%.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Quer chegar a mais de 1 milhão de leitores de IA? Trabalhe conosco aqui
Tanya Malhotra está em seu último ano na Universidade de Estudos de Petróleo e Energia, Dehradun, cursando BTech em Engenharia de Ciência da Computação, com especialização em Inteligência Artificial e Aprendizado de Máquina.
Ele é um entusiasta de Data Science com forte pensamento analítico e crítico e grande interesse em adquirir novas habilidades, liderar equipes e gerenciar o trabalho de maneira organizada.