Pesquisadores da Universidade de Tsinghua propõem ReMoE: uma arquitetura MoE totalmente diferente com roteamento ReLU
Inteligência artificial

Pesquisadores da Universidade de Tsinghua propõem ReMoE: uma arquitetura MoE totalmente diferente com roteamento ReLU


O desenvolvimento dos modelos Transformer conta com a mais avançada inteligência artificial, o que traz um desempenho incrível nas diversas tarefas. No entanto, estes avanços muitas vezes acarretam requisitos de computação mais elevados, que apresentam desafios em termos de escalabilidade e eficiência. As arquiteturas Mixture-of-Experts (MoE) parcialmente configuradas oferecem uma solução promissora, que permite o escalonamento de modelos sem custo computacional limitado. No entanto, a abordagem tradicional TopK+Softmax para modelos MoE enfrenta limitações significativas. A natureza discreta e fragmentada do canal TopK prejudica a escalabilidade e o desempenho, ao mesmo tempo que garantir o uso equilibrado de especialistas continua a ser um problema constante, levando a ineficiências e baixo desempenho.

Pesquisadores da Universidade de Tsinghua propuseram o ReMoE (ReLU-based Mixture-of-Experts), uma nova estrutura que aborda essas limitações. O ReMoE substitui o roteador convencional TopK+Softmax por um mecanismo baseado em ReLU, que permite um processo de roteamento totalmente separável. Este projeto simplifica o projeto e se integra perfeitamente aos sistemas MoE existentes.

ReMoE usa funções de ativação ReLU para determinar dinamicamente o estado ativo de um especialista. Ao contrário do método TopK, que ativa apenas os principais especialistas com base em diferentes distribuições de probabilidade, a rota ReLU transita suavemente entre os estados ativo e inativo. O número de especialistas ativados é controlado por meio de normalização L1 dinâmica, garantindo uma computação eficiente e mantendo alto desempenho. Esse design escalável também permite a alocação flexível de recursos entre tokens e camadas, adaptando-se à complexidade de cada entrada.

Detalhes técnicos e benefícios

A inovação ReMoE está a caminho. Ao substituir a operação descontínua do TopK por uma operação contínua baseada em ReLU, o ReMoE elimina mudanças repentinas no uso do especialista, garantindo atualizações suaves de gradiente e maior estabilidade durante o treinamento. Além disso, a abordagem flexível da rota ReMoE permite ajustar o número de especialistas ativos com base na complexidade do token, o que incentiva o uso eficiente dos recursos.

Para resolver o desequilíbrio onde outros especialistas podem permanecer subutilizados, o ReMoE incorpora uma estratégia de balanceamento de carga dinâmico em sua configuração L1. Esta melhoria garante a distribuição correta dos tokens a todos os especialistas, o que melhora a capacidade e o desempenho geral do modelo. O dimensionamento arquitetônico é caracterizado pela capacidade de lidar com um grande número de especialistas e por melhores níveis de granularidade em comparação com os modelos tradicionais de MoE.

Detalhes de desempenho e resultados de testes

Testes extensivos mostram que o ReMoE é consistentemente mais eficiente do que as arquiteturas MoE convencionais. Os pesquisadores testaram o ReMoE usando a arquitetura LLaMA, treinando modelos de vários tamanhos (parâmetros de 182M a 978M) com diferentes números de especialistas (4 a 128). As principais conclusões incluem:

  • Desempenho aprimorado: ReMoE alcança melhor perda de validação e precisão de função inferior em comparação com modelos MoE guiados por TopK.
  • Escalabilidade: A lacuna de desempenho entre o ReMoE e o MoE convencional aumenta com o aumento do número de especialistas, indicando a robustez do ReMoE.
  • Alocação Eficaz de Recursos: O ReMoE aloca dinamicamente recursos computacionais para tokens complexos, melhorando o desempenho e mantendo a eficiência.

Por exemplo, em tarefas downstream como ARC, BoolQ e LAMBADA, o ReMoE mostrou melhorias mensuráveis ​​de precisão em modelos densos e MoE roteados por TopK. A análise de desempenho de treinamento e inferência revelou que o design separável do ReMoE introduz uma sobrecarga computacional mínima, tornando-o adequado para aplicações práticas.

A conclusão

ReMoE marca uma melhoria conceitual no design da Mistura de Especialistas, abordando as limitações da rota TopK+Softmax. O mecanismo de roteamento baseado em ReLU, combinado com mecanismos de adaptação dinâmica, garante que o ReMoE seja eficiente e flexível. Esta inovação destaca a capacidade de repensar as escolhas básicas de design para alcançar melhor escalabilidade e desempenho. Ao fornecer uma abordagem eficiente e consciente dos recursos, o ReMoE fornece uma ferramenta importante para o desenvolvimento de sistemas de IA para atender às crescentes necessidades de computação.


Confira eu Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….


Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *