Nvidia AI apresenta Nvidia Transformer (nGPT): um transformador baseado em Transformer alcança treinamento 4-20x mais rápido e estabilidade aprimorada para LLMs
Inteligência artificial

Nvidia AI apresenta Nvidia Transformer (nGPT): um transformador baseado em Transformer alcança treinamento 4-20x mais rápido e estabilidade aprimorada para LLMs


A ascensão dos modelos baseados em Transformer avançou muito no campo do processamento de linguagem natural. No entanto, o treinamento destes modelos é muitas vezes muito intensivo, exigindo grandes recursos e tempo. Este estudo aborda a questão de melhorar a eficiência de treinamento de modelos Transformer sem comprometer seu desempenho. Especificamente, procura testar se os benefícios da adaptação, que são frequentemente utilizados como um componente separado, podem ser integrados em todo o design do Transformador de forma integrada.

Pesquisadores da NVIDIA propõem uma nova construção chamada Normalized Transformer (nGPT), que integra o aprendizado de representação na hiperesfera. Desta forma, todos os vetores envolvidos na incorporação, MLP, matrizes de atenção e estados ocultos são normalizados para a unidade comum. Essa regularização permite que os tokens de entrada se movam pela hiperesfera, cada camada do modelo contribuindo de forma incremental para a previsão do resultado final. Ao considerar todo o processo de transformação como um movimento na hiperesfera, os pesquisadores pretendem tornar o processo de formação mais rápido e estável. É relatado que o modelo nGPT reduz o número de etapas de treinamento exigidas por um fator de 4 a 20, dependendo do comprimento da sequência.

A estrutura do Transformador Normalizado gira em torno de um processo sistemático de normalização. Todos os embeddings, assim como as matrizes de atenção e MLP, são forçados a ficar na hiperesfera, o que garante a mesma representação em todas as camadas da rede. Especificamente, a incorporação e a saída da máquina de atenção e do MLP são normalizadas, tratando cada função vetorial como um produto escalar representando a similaridade do cosseno. Além disso, em vez de usar decomposição de peso normal e camadas de normalização adicionais, como LayerNorm ou RMSNorm, os autores introduzem parâmetros de escala legíveis para controlar o efeito da normalização. O processo de normalização e otimização no nGPT é projetado como uma otimização variável da métrica na hiperesfera, com etapas de atualização controladas por autovalores legíveis que ajustam dinamicamente as contribuições de cada camada.

Os resultados do estudo são impressionantes. Os autores realizaram experimentos usando o conjunto de dados OpenWebText, treinando tanto o modelo GPT básico quanto o novo modelo nGPT. Para o mesmo orçamento de treinamento, o nGPT mostrou uma redução significativa na perda de validação em comparação ao GPT, especialmente para comprimentos de contexto mais longos. Por exemplo, com um comprimento de contexto de 4k tokens, o nGPT obteve a mesma perda de autenticação que o GPT em um décimo da iteração. Os testes também confirmaram que o nGPT continuou a superar o GPT de linha de base em uma série de funções downstream, proporcionando não apenas uma convergência mais rápida, mas também uma generalização melhorada. A introdução da aprendizagem da representação hiperesférica conduziu a uma melhor classificação de incorporação, o que está associado a uma maior precisão do teste de benchmark.

Concluindo, o Transformador Normalizado (nGPT) apresenta um avanço significativo no treinamento eficiente de grandes variedades linguísticas. Ao combinar resultados de estudos anteriores sobre representação e incorporação, os autores criaram um modelo mais eficiente em termos de recursos computacionais, mantendo alto desempenho. O método de utilização da hiperesfera como base para todas as transformações permite um treinamento estável e consistente, o que pode abrir caminho para futuras melhorias no design de modelos Transformer. Os pesquisadores sugerem que este método pode ser estendido ao projeto de codificadores-decodificadores complexos e outras estruturas de modelos híbridos.


Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

[Upcoming Live Webinar- Oct 29, 2024] Aprenda como aumentar o rendimento de inferência em 4x e reduzir os custos de provisionamento em 50% com Turbo LoRA, FP8 e escalonamento automático de GPU (atualizado)


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *