Modelos de Linguagem em Grande Escala (LLMs) têm recebido atenção significativa por sua versatilidade em uma variedade de tarefas, desde processamento de linguagem natural até raciocínio complexo. Uma aplicação promissora desses modelos é o desenvolvimento de sistemas multiagentes autônomos (MAS), que visam utilizar a inteligência coletiva de múltiplos agentes baseados em LLM na resolução colaborativa de problemas. No entanto, o MAS baseado em LLM enfrenta dois desafios importantes: alcançar uma comunicação eficaz entre os agentes para reduzir os custos computacionais e melhorar o desempenho coletivo do sistema como uma unidade coesa. Os métodos atuais não conseguem resolver estes desafios, levando a transações mais detalhadas que aumentam a utilização de tokens, tempos de liquidação mais longos e custos computacionais mais elevados.
Os métodos existentes discutidos neste artigo incluem MAS baseado em LLM e Refinamento Iterativo de LLMs. A dramatização baseada no LLM do MAS em raciocínio complexo, desenvolvimento colaborativo de software e interação unificada de agentes mostrou-se promissora. A pesquisa atual mostrou que aumentar o número e a diversidade de agentes pode levar a ganhos de desempenho. Além disso, paradigmas de otimização iterativo, como métodos subjetivos e revisões de parâmetros, como ReST e STARR, foram desenvolvidos para LLMs individuais. No entanto, o refinamento iterativo ainda precisa ser testado no contexto do MAS baseado em LLM. Esses métodos funcionam bem em cenários de agente único, mas não estão bem adaptados para melhorar o desempenho coletivo de sistemas multiagentes.
Pesquisadores da Universidade de Tsinghua e da Universidade de Correios e Telecomunicações de Pequim propuseram o OPTIMA, uma nova estrutura projetada para melhorar a eficiência da comunicação e do trabalho em MAS baseado em LLM. Ele usa um paradigma repetido de geração, classificação, seleção e treinamento, usando uma função de recompensa que mede o desempenho da tarefa, a eficiência do token e a legibilidade da comunicação. OPTIMA usa técnicas de dados inspiradas na Árvore de Monte Carlo, tratando a conversa como nós de árvore para explorar diferentes interações. A abordagem aborda desafios fundamentais no MAS baseado em LLM, potencialmente levando a sistemas multiagentes altamente escaláveis, eficientes e eficazes.
OPTIMA é testado na troca de informações (IE) e as configurações multiagentes são discutidas. A configuração do IE usa conjuntos de dados como HotpotQA, CBT, etc., que possuem um contexto compartilhado entre agentes para apoiar a troca de informações. O cenário do debate usa GSM8K, MATH, ARC-C e MMLU, com um agente como árbitro e o outro como crítico. OPTIMA é comparado a métodos de agente único, como Chain-of-Thought e Self-Consistency, bem como estruturas multiagentes, como Multi-Agent Debate e AutoForm. O Llama 3 8B funciona como um modelo básico, com foco em cenários de dois agentes e sem ferramentas externas, permitindo uma análise clara dos principais elementos da comunicação e interação multiagentes.
A OPTIMA excede consistentemente os benchmarks em eficiência e eficácia em uma ampla gama de operações. Suas variantes apresentam grandes vantagens em operações de troca de informações (IE), principalmente em situações de comunicação multi-hop. A variante iSFT-DPO se destaca, oferecendo excelente desempenho e reduzindo significativamente o consumo de tokens em comparação com a linha de base. Por exemplo, melhora a pontuação F1 em 38,3% no 2WMHQA enquanto usa apenas 10% dos tokens exigidos pelo Debate Multiagente. Nas tarefas de debate, OPTIMA apresenta melhor desempenho e desempenho de token para ARC-C e MMLU, mantendo desempenho comparável e alto desempenho para tarefas MATH e GSM8k.
Concluindo, os pesquisadores apresentaram OPTIMA, um método para melhorar a eficiência da comunicação e do trabalho em MAS baseado em LLM. Ele mostra superioridade consistente sobre bases de agente único e multiagentes em uma ampla gama de tarefas. As principais inovações do quadro, incluindo técnicas de formação iterativas, actividade de recompensa equilibrada e a abordagem inspirada no MCTS para a geração de dados, contribuem para o seu sucesso na melhoria da eficiência da comunicação e do desempenho no trabalho. A capacidade da OPTIMA de desenvolver regras de escalonamento preditivas e de adaptação a tarefas não distributivas destaca a importância da comunicação eficaz em sistemas multiagentes e LLM. Pesquisas futuras deverão investigar a otimização do OPTIMA em grandes modelos e cenários complexos, abrindo as portas para sistemas multiagentes mais avançados.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17, 2024] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.