Sakana AI apresenta o Transformer²: um sistema de aprendizado de máquina que ajusta dinamicamente seus pesos para diversas tarefas

Os LLMs são importantes em setores como educação, saúde e atendimento ao cliente, onde a compreensão da linguagem natural desempenha um papel importante. Embora altamente flexível, o desafio dos LLMs é adaptar-se a novos empregos. Muitos métodos de bom planejamento consomem muitos recursos e tempo. Além disso, a abordagem de ajuste fino muitas vezes leva ao fracasso ou à negligência das variáveis normais de desempenho específicas da tarefa. Isto é um obstáculo para os LLMs enfrentarem empregos novos e inesperados com potencial e cria uma barreira para a aplicação como um todo.

Uma abordagem proeminente para esses desafios é a Adaptação de Baixa Classificação (LoRA), que atualiza matrizes pequenas e específicas de tarefas, enquanto mantém fixos outros parâmetros do modelo. Embora isso reduza o custo computacional do ajuste fino, tem limitações, como maior sensibilidade ao sobreajuste e incapacidade de dimensionar bem as funções. Além disso, o design do LoRA carece de estrutura inerente, o que limita a sua capacidade de integrar múltiplas capacidades específicas de domínio.

Pesquisadores da Sakana AI e do Institute of Science Tokyo apresentaram o Transformer², uma nova estrutura de aprendizado de máquina para grandes modelos de linguagem. O Transformer² usa uma técnica fundamental chamada Singular Value Fine-tuning (SVF), que adapta LLMs em tempo real a novas tarefas sem extenso treinamento. Ao focar no ajuste selecionando componentes exclusivos das matrizes de peso do modelo, o Transformer² permite o ajuste específico da tarefa. Esta inovação reduz a carga computacional associada à otimização, fornecendo uma solução confiável e eficiente para adaptação.

No coração do Transformer² está o método SVF, que ajusta os valores singulares das matrizes de peso. Este método reduz significativamente o número de parâmetros treináveis em comparação com os métodos tradicionais. Em vez de modificar todo o modelo, o SVF aproveita o aprendizado por reforço para criar vetores conjuntos “especializados” selecionados para tarefas específicas. No processo de pensamento, o Transformer² funciona em duas etapas: a primeira é analisar o que a tarefa pode ser e o que ela precisa, e a segunda, combina dinamicamente os diversos vetores apropriados para gerar o comportamento adequado. Com o tempo, esse método garante eficiência no tratamento de uma ampla gama de tarefas com o Transformer².

O Transformer² teve um desempenho admirável em extensos testes de benchmark. Por exemplo, o framework mostra uma melhoria de mais de 39% em comparação com o básico nos domínios virtuais de resposta a perguntas. Na resolução de problemas relacionados com estatística, quando o teste foi realizado no conjunto de dados GSM8K, este modelo mostrou a sua força ao vencer qualquer método de ajuste fino, atingindo cerca de 4% de melhoria no seu desempenho. Em tarefas de programação sob o benchmark MBPP-pro, o Transformer² mostrou melhorias significativas na precisão de tarefas específicas de domínio e no seu desempenho geral em uma variedade de domínios. Como resultado, o Transformer² está bem adaptado a tarefas abstratas como ARC-Challenge e Humaneval, mantendo ou excedendo métricas básicas de desempenho.

Um resultado geral importante foi a eficiência do método SVF. Isso melhorou os tempos de treinamento e reduziu a necessidade de requisitos computacionais significativos, já que o método utilizou menos de 10% dos parâmetros exigidos pelo LoRA. Por exemplo, para o conjunto de dados GSM8K, apenas 0,39 milhões de parâmetros foram necessários para o treinamento SVF, contra 6,82 milhões usando LoRA para alcançar alto desempenho. Além disso, o modelo apresentou boa convergência; vetores treinados para uma tarefa podem ser reutilizados e somados com outros para criar uma tarefa diferente e não relacionada, mostrando a capacidade de escalar esta estrutura do Transformer².

Os pesquisadores alcançaram esse avanço ao abordar as principais limitações dos métodos existentes, como o uso excessivo e a ineficiência. Ao usar a aprendizagem por reforço, o método SVF fornece generalização sistemática, evitando a degradação do desempenho em pequenos conjuntos de dados ou pequenos domínios de tarefas. Isso permitiu que o Transformer² se destacasse apesar dos dados de treinamento limitados, mantendo a flexibilidade operacional.

Conclusão: A equipe de pesquisa da Sakana AI forneceu uma solução confiável e eficaz para familiarização profissional em LLMs. O Transformer², em sua forma SVF, é um desenvolvimento significativo na área que abrirá caminho para sistemas computacionais de IA altamente versáteis. Esta abordagem responderá aos desafios existentes e lançará as bases para o desenvolvimento futuro de tecnologias dinâmicas de IA.

Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.

🚨 Recomende uma plataforma de código aberto: Parlant é uma estrutura que muda a forma como os agentes de IA tomam decisões em situações voltadas para o cliente. ^(Promovido)

Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.

📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)

Source link

Você também pode gostar...

TensorOpera AI lança Fox-1: série de modelos de linguagem pequena (SLMs), incluindo Fox-1-1.6B e Fox-1-1.6B-Instrut-v0.1

OCR (Ocline Character Recognition) – Definição, vantagens, desafios e casos de uso [Infographic]

GaLiTe e AGaLiTe: métodos transformadores eficazes para estudar o reforço da Internet de baixo nível

Deixe um comentário Cancelar resposta