O Ensemble of Experts (MoE) representa um avanço importante no aprendizado de máquina, fornecendo uma maneira eficiente de lidar com modelos grandes. Ao contrário dos modelos densos, onde todos os parâmetros estão ativos durante a especificação, os modelos MoE abrem apenas uma fração dos seus parâmetros. Esta abordagem equilibra eficiência computacional e escalabilidade, tornando os modelos MoE muito atraentes para uma variedade de casos de uso. Os modelos MoE ganham eficiência ajustando menos parâmetros enquanto mantêm uma contagem geral maior de parâmetros. Este projeto introduz uma compensação diferente, incluindo mais complexidade arquitetônica, mas oferece maior flexibilidade para desenvolvedores e pesquisadores.
Vamos dar uma olhada nos principais modelos de MoE lançados até agora, com foco em seu design, capacidades e desempenho relativo. Todos esses modelos estão disponíveis publicamente e excedem 100 bilhões de parâmetros. As análises são ordenadas cronologicamente por data de lançamento, com taxas fornecidas quando disponíveis na tabela de classificação LMSYS em 4 de novembro de 2024.
O Switch-C Transformer do Google é um dos modelos originais no espaço do MoE. Lançado no Hugging Face em novembro de 2022, tem incríveis 1,6 trilhão de parâmetros, apoiados por 2.048 especialistas. Apesar de ser um inovador neste domínio, o Switch-C é agora considerado desatualizado, visto que está classificado em benchmarks modernos como o LMSYS. No entanto, continua a ser notável como o modelo fundamental do MoE e continua a influenciar as inovações subsequentes. Uma versão menor do Switch-C Transformer também está disponível, fornecendo portas de teste mais acessíveis.
Em março de 2024, a iX AI lançou o Grok-1, um modelo com 314 bilhões de parâmetros e 86 bilhões de parâmetros ativos no momento da projeção. Ao contrário do seu antecessor, o Grok-1 utiliza um grupo menor de especialistas, oito no total, com apenas dois trabalhando para cada função de mira. Seu comprimento de núcleo de 8k é adequado para sequências de entrada de comprimento médio, embora não concorra com modelos mais recentes. Embora o Grok-1 tenha adoção limitada e não esteja listado no LMSYS, seu sucessor, Grok-2, mostrou-se promissor nos primeiros benchmarks. Grok-2, ainda a ser lançado publicamente, ficou em quinto lugar geral em algumas tarefas do LMSYS, sugerindo que futuras iterações deste modelo podem redefinir os benchmarks de desempenho no ambiente do MoE.
Pouco depois do Grok-1, a Databricks lançou o DBRX no final de março de 2024. Este modelo inclui 132 bilhões de parâmetros, com 36 bilhões de parâmetros ativos, distribuídos entre 16 especialistas. Seu comprimento de núcleo de 32k excede em muito muitos contemporâneos, permitindo processar longas sequências de entrada com eficiência. DBRX é compatível com muitos back-ends, incluindo llamacpp, exllama v2 e vLLM, tornando-o uma escolha versátil para desenvolvedores. Apesar da sua forte estrutura, a sua classificação LMSYS coloca-o apenas na 90ª posição geral e na 78ª posição no ensino intensivo de inglês, indicando espaço para melhoria na qualidade e aceitação.
Em abril de 2024, o Mixtral 8x22b da Mistral AI foi lançado. Este modelo se destaca pelos 141 bilhões de parâmetros e 39 bilhões ativos no momento da criação. Inclui oito especialistas, dois dos quais são selecionados dinamicamente com base nas contribuições. Com um comprimento de núcleo de 64k, o Mixtral é adequado para tarefas que exigem gerenciamento extensivo de entradas. Embora sua classificação LMSYS, 70º no geral e 66º em dificuldade, apresente desempenho médio, sua compatibilidade com muitos back-ends garante usabilidade em várias plataformas.
Também lançado em Abril foi o Snowflake's Arctic, um modelo MoE com um total de 480 mil milhões de parâmetros, mas apenas 17 mil milhões em funcionamento durante o período de projecção. O desenho único do Ártico inclui componentes pequenos (7 mil milhões) e densos (10 mil milhões) distribuídos entre 128 especialistas. No entanto, seu desempenho diminui, ficando em 99º lugar no LMSYS e 101º em dados concretos. O comprimento limitado do quadro de 4k também limita seu desempenho, tornando-o uma opção menos competitiva, apesar de sua inovação.
Skywork juntou-se ao espaço MoE em junho de 2024 com o lançamento do Skywork-MoE. Este modelo inclui um total de 146 mil milhões de parâmetros, dos quais 22 mil milhões estão activos, e utiliza 16 especialistas durante o processo de previsão. Com um comprimento de núcleo de 8k, ele suporta operações moderadamente longas, mas não possui padrões LMSYS, sugerindo testes ou descobertas limitadas. O modelo básico é a única versão disponível, pois a variante de chat prometida ainda não foi lançada.
Em agosto de 2024, AI21 Labs lançou o Jamba 1.5 Large, um modelo híbrido que combina MoE e arquitetura de transformador mamba. Com 398 bilhões de parâmetros e 98 bilhões de operandos, o Jamba 1.5 Large oferece um comprimento de contexto especial de 256k, tornando-o ideal para tarefas que exigem amplo processamento de entrada. Sua classificação LMSYS reflete seu alto desempenho, ficando em 34º lugar geral e 28º em instruções difíceis. Além disso, os modelos Jamba são líderes em benchmarks de contexto, especialmente o benchmark de contexto RULER, o que reforça sua reputação em operações de conteúdo longo.
DeepSeek V2.5, lançado em setembro de 2024, atualmente lidera o espaço MoE na prática. Este modelo inclui 236 bilhões de parâmetros, sendo 21 bilhões ativos no momento da interpretação. Sua composição conta com 160 especialistas, sendo seis selecionados à força e dois compartilhados, resultando em oito parâmetros ativos. Com um comprimento de conteúdo de 128k, o DeepSeek V2.5 mostra fortes capacidades para operações de conteúdo longas. Classificado em 18º lugar no LMSYS e 6º em robustez, supera todos os modelos MoE disponíveis. Iterações anteriores, como DeepSeek V2, lançaram as bases para seu sucesso.
A adição mais recente à família MoE é o Hunyuan Large da Tencent, lançado em novembro de 2024. Com 389 bilhões de parâmetros e 52 bilhões de parâmetros ativos, o Hunyuan Large usa um design exclusivo, onde um especialista é selecionado dinamicamente e o outro é compartilhado. Isto resulta em dois parâmetros que estão ativos durante a determinação. Seu comprimento de núcleo de 128k é o mesmo do DeepSeek V2.5, tornando-o um forte candidato. Embora ainda não tenha sido dimensionado para LMSYS, as primeiras indicações sugerem que pode competir ou superar o desempenho do DeepSeek.
Entre os modelos MoE discutidos, DeepSeek V2.5 é o método mais poderoso disponível atualmente. No entanto, novos modelos como o Hunyuan Large e o Grok-2, que deverão mudar em breve, poderão alterar os padrões. Modelos como o Jamba 1.5 Large também destacam o poder da arquitetura integrada, especialmente para tarefas que exigem gerenciamento extensivo de conteúdo. O padrão LMSYS, embora útil para comparações iniciais, não captura toda a gama de modelos operacionais, particularmente operações especializadas.
Concluindo, os modelos MoE representam uma fronteira crescente em IA, oferecendo soluções simples e eficientes projetadas para diversas aplicações. Engenheiros e pesquisadores são incentivados a testar esses modelos com base em casos de uso específicos, utilizando suas propriedades exclusivas para melhorar o desempenho. À medida que o campo evolui, o espaço do MoE provavelmente testemunhará mais ideias novas, ultrapassando os limites do que estas estruturas podem alcançar.
Este artigo é baseado nisso Postagem reddit. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliárias– Da estrutura à produção
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.