Acelerar o raciocínio de modelos linguísticos de grande escala (LLMs) é um desafio devido aos seus elevados requisitos computacionais e de memória, levando a grandes custos financeiros e energéticos. As soluções atuais, como dispersão, quantização ou poda, geralmente exigem hardware especial ou resultam na redução da precisão do modelo, dificultando sua implantação.
Pesquisadores da FAIR at Meta, GenAI at Meta, Reality Labs e várias universidades lançaram o LayerSkip, uma nova solução que combina uma receita de treinamento única e autoexplicativa. O método proposto combina treinamento com um método de dropout que utiliza baixas taxas de dropout nas camadas anteriores e altas taxas de dropout nas camadas posteriores, ao mesmo tempo que incorpora perda de dropout precoce que permite que as camadas do transformador compartilhem o mesmo espaço de saída. Isso ajuda o modelo a ser mais robusto contra saídas prematuras durante o processo de predição, sem a necessidade de camadas auxiliares.
Além disso, o LayerSkip introduz uma solução de autopredição, onde as previsões são feitas nas primeiras camadas e a verificação e correção são feitas nas camadas restantes. A computação compartilhada e a ativação entre as etapas de rascunho e validação garantem redução de memória em comparação com outros métodos de gravação preditiva.
LayerSkip consiste em três componentes principais:
- Receita de treinamento: usa regressão de camada e perda antecipada de saída para criar submodelos separados dentro do modelo principal.
- Estratégia de Inferência: permite a saída antecipada das camadas anteriores para reduzir o custo de computação sem comprometer a precisão.
- Gravação Auto-Reflexiva: as previsões iniciais são verificadas e corrigidas usando as camadas restantes do modelo.
Essa abordagem otimiza os pesos distribuídos, possibilitando pular camadas e obter resultados de alta qualidade, garantindo ganhos de eficiência. É importante ressaltar que o LayerSkip é de código aberto, permitindo que pesquisadores e desenvolvedores acessem e usem o código disponível no GitHub.
Os resultados dos testes do LayerSkip mostram melhorias significativas na velocidade para todos os diferentes modelos do Llama e diversas tarefas, como resumo, codificação e análise semântica. Por exemplo, o LayerSkip alcançou aceleração de até 2,16× na sumarização CNN/DM, aceleração de 1,82× em tarefas de codificação e aceleração de 2,0× na tarefa de análise semântica TOPv2. Ao usar a regressão de camadas e a perda de saída antecipada durante o treinamento, a precisão da saída antecipada nas camadas anteriores foi melhorada, mantendo ao mesmo tempo um desempenho comparável aos modelos de linha de base nas camadas posteriores. O método de auto-adivinhação também demonstrou memória e eficiência computacional, permitindo a implantação prática de LLMs.
LayerSkip apresenta uma solução promissora para melhorar a eficiência dos LLMs no tempo de estimativa enquanto reduz o cabeçote computacional e a memória. Ao combinar redução de camada, perda de saída antecipada e autoexplicação, os pesquisadores propuseram um novo método que não apenas acelera o design, mas também reduz os requisitos de memória, tornando possível executar modelos grandes em hardware comum. Com o lançamento do LayerSkip, a comunidade de pesquisa agora tem acesso a uma ferramenta eficiente e eficaz para melhorar o pensamento LLM, o que pode abrir caminho para implantações de IA mais acessíveis em aplicações do mundo real.
Confira Artigo, série de modelos sobre Hugging Face e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] Melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (avançado)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️