A aprendizagem automática está a avançar rapidamente, especialmente em áreas que exigem um processamento extensivo de dados, como a compreensão da linguagem natural e a IA generativa. Os pesquisadores estão constantemente se esforçando para projetar algoritmos que maximizem a eficiência computacional e, ao mesmo tempo, melhorem a precisão e o desempenho de grandes modelos. Esses esforços são importantes para a construção de sistemas que possam lidar com a complexidade da representação da linguagem, onde a precisão e a otimização de recursos são críticas.
Um desafio contínuo neste campo é equilibrar a eficiência computacional e a precisão do modelo, especialmente à medida que as redes neurais são dimensionadas para lidar com tarefas cada vez mais complexas. As arquiteturas Sparse Mixture-of-Experts (SMoE) têm se mostrado promissoras no uso da seleção dinâmica de parâmetros para melhorar o desempenho. No entanto, estes modelos muitas vezes precisam de ajuda para processar múltiplos espaços de representação de forma eficaz, o que limita a sua capacidade de utilizar plenamente os dados disponíveis. Essas ineficiências criaram a necessidade de novas maneiras de usar diferentes ambientes de proxy sem comprometer os recursos computacionais.
As arquiteturas SMoE tradicionalmente usam métodos de registro para distribuir tokens a especialistas específicos, otimizando o uso de recursos computacionais. Esses modelos tiveram sucesso em uma variedade de aplicações, especialmente usando os métodos principais 1 e 2 principais. No entanto, embora estes métodos sejam excelentes em eficiência de parâmetros, eles não podem explorar todo o potencial dos dados multiobjetivos. Além disso, o método convencional de incorporar camadas sobrepostas na estrutura do Transformer limita sua capacidade de escalar de forma eficaz, mantendo a eficiência.
Pesquisadores da Microsoft apresentaram uma nova implementação da estrutura MH-MoE. Este design baseia-se nos fundamentos do SMoE, ao mesmo tempo que aborda as suas limitações. A implementação do MH-MoE permite o processamento eficiente de vários espaços de representação, introduzindo uma abordagem multicabeças e combinando camadas de projeção. Esta abordagem garante que a eficiência estatística e paramétrica dos modelos SMoE tradicionais seja preservada, ao mesmo tempo que melhora significativamente a sua capacidade representativa.
A metodologia por trás do MH-MoE concentra-se em melhorar o fluxo de informações por meio de uma máquina refinada com vários cabeçotes. Os tokens de entrada são divididos em tokens menores, direcionados para cabeçalhos diferentes e processados em paralelo. Este processo é facilitado por camadas de projeção linear que transformam os tokens antes e depois de passarem pela camada de mistura especializada. Ao ajustar o tamanho médio e melhorar o método de entrada, o modelo garante a equivalência dos FLOPs com os modelos SMoE tradicionais. Em uma configuração, os pesquisadores usaram duas cabeças com uma média de 768 e gating top-2, aumentando o número de especialistas para 40. Outra configuração emprega três cabeçotes com tamanho médio de 512, utilizando os 3 primeiros e 96 especialistas. Este ajustamento mostra a adaptabilidade do MH-MoE na compreensão da sua eficiência estatística e objectivos operacionais.
Experimentos mostraram que o MH-MoE supera consistentemente os modelos SMoE existentes em vários benchmarks. Nas tarefas de modelagem de linguagem, o modelo obteve uma melhoria significativa na confusão, uma medida da precisão do modelo. Por exemplo, após 100.000 etapas de treinamento, o MH-MoE de três cabeças obteve uma confusão de 10,51 no conjunto de dados RedPajama em comparação com 10,74 para o SMoE refinado e 10,90 para o SMoE normal. No conjunto de dados Wiki, o MH-MoE de três cabeças obteve uma confusão de 9,18, o que enfatiza ainda mais o seu alto desempenho. Além disso, em testes envolvendo aproximação de 1 bit usando BitNet, o MH-MoE manteve sua vantagem de desempenho, alcançando 26,47 de confusão após 100.000 passos no conjunto de dados RedPajama em comparação com 26,68 para o SMoE bem corrigido e 26,78 para o SMoE padrão.
Os estudos de ablação conduzidos pela equipe de pesquisa destacaram a importância das camadas da cabeça e das articulações na formação do MH-MoE. Esses estudos mostraram que ambos os componentes contribuem significativamente para o desempenho do modelo, com a camada principal proporcionando maior melhoria do que a camada de integração. Por exemplo, adicionar uma camada head reduz a confusão no conjunto de dados RedPajama de 11.97 a 11.74. Estas descobertas enfatizam o importante papel destas camadas na melhoria da capacidade do modelo de integrar e utilizar dados multi-representativos.
Os esforços dos investigadores resultaram num modelo que aborda as principais limitações dos quadros tradicionais de SMoE, ao mesmo tempo que estabelece um novo padrão de eficiência e eficácia. MH-MoE fornece uma solução robusta para dimensionar redes neurais com eficiência usando métodos multi-head e otimizando o design computacional. Esta inovação marca um passo importante no desenvolvimento de modelos de aprendizado de máquina eficientes e poderosos.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
🎙️ 🚨 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de técnicas de clustering vermelho' Leia o relatório completo (Promovido)
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)