Os LLMs revolucionaram a inteligência artificial com sua incrível escalabilidade e flexibilidade. Modelos como GPT-4 e Claude, construídos com bilhões de parâmetros, apresentam desempenho excepcional em uma ampla gama de tarefas. No entanto, seu design monolítico apresenta desafios significativos, incluindo alto custo computacional, flexibilidade limitada e dificuldade de ajuste fino de requisitos específicos de domínio devido a riscos como esquecimento catastrófico e taxa de alinhamento. LLMs de código aberto como Llama3 e Mistral, apoiados por uma comunidade ativa de código aberto, criaram modelos pequenos e específicos para tarefas. Estes modelos respondem eficazmente às necessidades de nicho e muitas vezes superam os modelos monolíticos em domínios especializados, embora muitas vezes exijam recursos para serem amplamente aceites.
Os avanços nos métodos de design e integração do LLM buscaram melhorar o desempenho e a eficiência. Os modelos Mixture of Expert (MoE) usam métodos de entrada para delegar tarefas a especialistas especializados, melhorando a precisão específica do domínio. Da mesma forma, métodos de combinação, como o LLMBlender, combinam resultados de vários modelos para melhorar o desempenho geral. Outras técnicas, como roteamento guiado por recompensa e aprimoramentos de rótulos baseados em marcadores, são questões simples nos modelos mais apropriados, mas seu alto custo computacional apresenta desafios práticos. Estas inovações destacam os esforços contínuos para superar as limitações dos grandes LLMs, equilibrando a eficiência computacional e a experiência.
Os pesquisadores da SambaNova Systems apresentaram a Composição de Especialistas (CoE). Essa estrutura modular de IA roteia dinamicamente a entrada para LLMs especializados usando um processo de duas etapas: uma rota de categoria divide a entrada em categorias predefinidas, seguida pelo mapeamento de categoria para especialista que atribui o especialista mais apropriado. Esta abordagem melhora a modularidade, escalabilidade e eficiência computacional em comparação com LLMs monolíticos, permitindo fácil integração de novas habilidades. Aproveitando o hardware SN40L do SambaNova, o CoE mostra forte desempenho, alcançando 59,4 pontos no Arena-Hard e 9,06 no MT-Bench com os parâmetros operacionais mais reduzidos, demonstrando muito seu potencial para sistemas de IA eficientes e de baixo custo.
A estrutura do CoE utiliza um subconjunto de LLMs especializados selecionados de um grande grupo, informados pelo encaminhamento do trabalho até o especialista mais adequado para produzir o resultado. O sistema minimiza perdas ao mesmo tempo que segue um orçamento de parâmetros. Um processo de roteamento em duas etapas separa as informações e fornece o melhor especialista da categoria, melhorando a flexibilidade e a interpretação. A estrutura usa conjuntos de dados rotulados para treinamento e métodos semissupervisionados para otimização rápida. A eficiência da memória é controlada por modelos de carga nas CPUs ou escalonamento entre GPUs, garantindo flexibilidade e desempenho contínuo, apesar de um número crescente de especialistas.
A estrutura CoE é testada em vários benchmarks, incluindo Arena-Hard para interações de turno único, MT-Bench para conversas dinâmicas e tarefas exigentes como GSM8k CoT e MMLU-Pro. Estes benchmarks testam a capacidade do CoE de medir a eficiência e a eficácia da computação. No Arena-Hard, o CoE mostra estimativa e utilização de recursos melhoradas, os modelos especialistas individuais apresentam melhor desempenho à medida que o parâmetro do orçamento total (B) aumenta. A versão robusta do CoE, que otimiza o roteamento para incertezas, também melhora a estabilidade e a precisão, alcançando pontuações competitivas com muito menos parâmetros operacionais do que os modelos de código fechado. Seu design modular permite fácil integração de novos modelos profissionais para aprimorar ainda mais a funcionalidade.
Em vários testes no MT-Bench, o CoE demonstra eficiência ao fornecer informações dinâmicas e histórico de conversas ao especialista mais adequado em cada momento, alcançando resultados semelhantes a modelos grandes e que consomem muitos recursos. Devido a lacunas de formação na distribuição de dados, o CoE precisa de recorrer a especialistas individuais para executar tarefas especializadas em todos os diferentes campos, mas também recupera o desempenho utilizando o Robust-CoE. Isto é conseguido através da estimativa da incerteza, o que garante um roteamento preciso para os generalistas. Ao usar LLMs abertos, como Qwen e Llama, o CoE alcança pontuações competitivas com parâmetros operacionais reduzidos, demonstrando sua eficácia como um sistema de IA modular, escalável e econômico.
Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)