A fusão de modelos é uma técnica avançada de aprendizado de máquina que visa combinar o poder de vários modelos especializados em um modelo único e mais poderoso. Esta técnica permite que o sistema se beneficie do conhecimento de vários modelos, ao mesmo tempo que reduz a necessidade de treinamento de modelos individuais em larga escala. A combinação de modelos reduz os custos computacionais e de armazenamento e melhora a capacidade do modelo de integrar diferentes funções. Em combinação, os engenheiros podem usar a otimização distribuída, onde diferentes equipes constroem modelos profissionais de forma independente, que são combinados para formar um sistema geral robusto.
Um grande desafio é a estimativa da integração do modelo. A maioria das pesquisas concentra-se em modelos de pequena escala com modelos especializados limitados combinados, geralmente dois ou três. À medida que os modelos crescem em tamanho e o número de modelos profissionais aumenta, a complexidade da integração torna-se maior. O principal problema é como combinar modelos grandes com sucesso sem sacrificar o desempenho. Outra preocupação é como fatores como a qualidade do modelo básico – se o modelo básico é pré-treinado ou otimizado para tarefas específicas – afetam o desempenho do modelo conjunto. Compreender esses aspectos é importante à medida que a comunidade cresce com modelos cada vez maiores e complexos.
As abordagens atuais para integração de modelos incluem técnicas simples, como ponderação de modelos especializados, e técnicas complexas, como aritmética de tarefas, onde parâmetros específicos de tarefas são ajustados. No entanto, estes métodos só foram testados em modelos pequenos, geralmente com menos de 7 mil milhões de parâmetros, e geralmente envolvem o ajuste de apenas alguns modelos. Embora estes métodos tenham mostrado algum sucesso, o seu desempenho em modelos de grande escala não foi testado sistematicamente. Além disso, a capacidade destes métodos para integrar funções abstratas permanece inexplorada, especialmente quando se trata de muitos modelos grandes.
Uma equipe de pesquisadores da Universidade da Carolina do Norte em Chapel Hill, Google e Virginia Tech apresentou um extenso estudo para testar a convergência do modelo em larga escala. Os pesquisadores testaram modelos de conjunto variando de 1 bilhão a 64 parâmetros, usando até oito modelos especialistas em diversas configurações. Quatro métodos de integração foram testados: Estimativa, Aritmética de Tarefas, Dare-TIES e TIES-Merging. Eles também testaram dois modelos básicos, PaLM-2 e PaLM-2-IT (a versão ativada por instrução do PaLM-2). O seu objectivo era examinar como factores como a qualidade do modelo subjacente, o tamanho do modelo e o número de especialistas integrados afectam o desempenho global do modelo integrado. Este teste em larga escala é uma das primeiras tentativas de testar a convergência do modelo nesta escala de forma sistemática.
Os pesquisadores usaram modelos especializados treinados para tarefas específicas em sua metodologia. Estes são então combinados para avaliar seu desempenho em tarefas no trabalho (tarefas para as quais os profissionais são treinados) e fora de tarefas (tarefas não óbvias para generalização zero-shot). As técnicas de clustering envolvem o ajuste de parâmetros específicos da tarefa ou o uso de uma aproximação simples aos modelos de cluster. PaLM-2-IT, uma variante configurada instrucionalmente do modelo básico, foi usada como ponto de referência para verificar se os ajustes instrucionais melhoram a capacidade de produção do modelo após a montagem. Esta abordagem permitiu uma análise sistemática do efeito do tamanho do modelo, do número de especialistas e da qualidade do modelo subjacente no sucesso da convergência.
Os resultados do estudo revelaram vários insights importantes. Primeiro, descobriram que modelos grandes, como aqueles com 64 mil milhões de parâmetros, eram mais fáceis de montar do que os mais pequenos. A integração melhorou muito as capacidades de modelagem, especialmente ao usar modelos baseados em instruções, como o PaLM-2-IT. Por exemplo, se você combinar os oito principais modelos especialistas, os modelos combinados superam os modelos treinados em múltiplas tarefas, alcançando maior desempenho em tarefas abstratas. Especificamente, os resultados mostraram que a combinação de modelos do PaLM-2-IT resultou em uma melhor generalização de disparo zero do que os do PaLM-2 previamente treinado. Além disso, a diferença de desempenho entre os diferentes métodos de agrupamento diminui à medida que o tamanho dos modelos aumenta, o que significa que mesmo técnicas simples, como a aproximação, podem ser aplicadas a modelos grandes. Os pesquisadores também notaram que a combinação de vários modelos especialistas, até oito, resultou em uma melhor generalização sem perda significativa de desempenho.
As métricas de desempenho mostraram que modelos grandes e ativados por instrução têm uma clara vantagem. Por exemplo, a combinação de oito modelos especializados do modelo PaLM-2-IT de 64 mil milhões alcançou resultados que excederam os do treino básico multitarefa, que normalmente é utilizado para melhorar a generalização. O estudo destacou que os modelos ativados por instrução tiveram melhor desempenho em todas as análises, apresentando resultados superiores na integração implícita em tarefas não observadas. Os modelos combinados mostraram melhor adaptação a novas tarefas do que especialistas ajustados individualmente.
Concluindo, a pesquisa da equipe de pesquisa mostra que o agrupamento de modelos, especialmente em grande escala, é uma forma promissora de construir modelos de linguagem mais gerais. As descobertas sugerem que os modelos ativados por instrução beneficiam muito o processo de montagem, especialmente na melhoria do desempenho do disparo zero. À medida que os modelos evoluem, métodos de integração como os explorados neste estudo serão críticos para o desenvolvimento de sistemas escaláveis e eficientes que possam integrar múltiplas funções. O estudo fornece insights práticos para profissionais e abre novos caminhos para futuras pesquisas em técnicas de modelagem em larga escala.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.