Modelos de linguagem em larga escala (LLMs) são a espinha dorsal de muitas aplicações, como agentes de conversação, criação automatizada de conteúdo e tarefas de compreensão de linguagem natural. Sua eficácia reside na capacidade de modelar e prever padrões linguísticos complexos em vários conjuntos de dados. Porém, a criação de LLMs apresenta um grande desafio devido ao alto custo computacional do treinamento. Isso envolve a otimização de modelos com bilhões de parâmetros em uma grande empresa, exigindo muito hardware e tempo. Como resultado, há necessidade de novos métodos de formação que possam reduzir estes desafios, mantendo ou melhorando a qualidade dos LLMs.
No desenvolvimento de LLMs, os métodos de formação tradicionais não funcionam bem, pois tratam todos os dados igualmente, por mais complexos que sejam. Estes métodos não priorizam partes específicas dos dados que possam acelerar a aprendizagem, nem utilizam modelos existentes para auxiliar na formação. Isso muitas vezes resulta em esforço computacional desnecessário, pois casos simples são processados e casos complexos ficam sem classificação. Além disso, a aprendizagem autodirigida convencional, em que os modelos prevêem o próximo token numa sequência, não consegue aproveitar o poder de modelos mais pequenos e menos dispendiosos que podem informar e orientar o treino de modelos maiores.
A destilação de conhecimento (KD) é frequentemente empregada para transferir conhecimento de modelos grandes e bem treinados para modelos menores e mais eficientes. No entanto, este processo raramente é revertido, onde modelos menores ajudam a treinar modelos maiores. Esta lacuna representa uma oportunidade perdida, uma vez que pequenos modelos, apesar da sua capacidade limitada, podem fornecer informações importantes sobre determinadas regiões da distribuição de dados. Eles podem identificar com eficácia condições “fáceis” e “difíceis”, que podem ter um impacto significativo na flexibilidade de treinamento dos LLMs.
Os pesquisadores do Google Research e do Google DeepMind introduziram um novo método chamado Smodelo de varejo UMeu ia eumodelo grande Tchuva (SAL) para enfrentar os desafios acima. Este método utiliza de forma inovadora pequenos modelos linguísticos (SLMs) para melhorar a eficácia do treinamento LLM. O SALT melhora os SLMs de duas maneiras: fornecendo rótulos suaves como uma fonte adicional de supervisão durante a fase inicial de treinamento e selecionando subconjuntos de dados que são mais importantes para a aprendizagem. Esta abordagem garante que os LLMs sejam guiados pelos SLMs na priorização de sequências de dados informativas e desafiadoras, reduzindo assim os requisitos computacionais e melhorando a qualidade geral do modelo treinado.
SALT funciona em duas etapas:
- Na primeira etapa, os SLMs atuam como professores, transferindo suas distribuições preditivas para os LLMs por meio da filtragem de informações. Este programa se concentra em alinhar as previsões do LLM com as do SLM em áreas onde o SLM se destaca. Além disso, os SLMs identificam pequenas partes dos dados que são ao mesmo tempo desafiadoras e aprendíveis, permitindo que o LLM se concentre nestes exemplos importantes no início do treinamento.
- A segunda fase faz a transição para a aprendizagem geral de automonitoramento, o que permite ao LLM ajustar de forma independente sua compreensão de distribuições complexas de dados.
Este processo de duas etapas equilibra o aproveitamento dos pontos fortes dos SLMs e a maximização das capacidades inerentes dos LLMs.
Nos resultados do teste, um Um LLM de 2,8 bilhões de parâmetros treinado com SALT no conjunto de dados Pile teve um desempenho melhor do que um modelo de linha de base treinado usando métodos convencionais. Notavelmente, o modelo treinado pelo SALT obteve melhores resultados em parâmetros de referência como compreensão de leitura, raciocínio lógico e orientação de linguagem natural, utilizando apenas 70% das etapas de treinamento. Isso se traduziu em uma redução de aproximadamente 28% no tempo de treinamento do relógio de parede. Além disso, o LLM pré-treinado usando SALT mostrou uma precisão de 58,99% na previsão do próximo token em comparação com 57,7% da linha de base e mostrou uma menor confusão de log de 1,868 em comparação com 1,951 da linha de base, indicando melhor qualidade do modelo.
As principais conclusões do estudo incluem o seguinte:
- O SALT reduziu os requisitos computacionais para treinamento de LLMs em aproximadamente 28%, principalmente pelo uso de pequenos modelos para orientar os estágios iniciais do treinamento.
- O método produziu consistentemente LLMs com melhor desempenho em uma variedade de tarefas, incluindo resumo, raciocínio aritmético e previsão de linguagem natural.
- Ao permitir que os micromodelos selecionassem dados desafiadores, mas legíveis, o SALT garantiu que os LLMs se concentrassem em pontos de dados de alto valor, acelerando o aprendizado sem comprometer a qualidade.
- Esta abordagem é mais promissora para instituições com recursos computacionais limitados. Ele usa modelos pequenos e de baixo custo para ajudar a construir grandes LLMs.
- Após a orientação supervisionada, os modelos treinados com SALT apresentaram melhores habilidades de generalização no teste multi-shot e nas tarefas abaixo.
Concluindo, o SALT redefine com sucesso o paradigma de treinamento LLM, transformando micromodelos em valiosos recursos de treinamento. Seu processo inovador de duas etapas alcança um raro equilíbrio entre eficiência e eficácia, tornando-o a primeira abordagem ao aprendizado de máquina. O SALT contribuirá para superar as restrições de recursos, melhorar o desempenho do modelo e democratizar o acesso a tecnologias de IA de ponta. Esta investigação enfatiza a importância de repensar os processos tradicionais e utilizar as ferramentas existentes para conseguir mais com menos.
Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)