Avanços recentes em modelos generativos abriram caminho para inovação em chatbots e design gráfico, entre outras áreas. Esses modelos têm demonstrado desempenho impressionante em uma série de tarefas, mas tendem a falhar quando confrontados com situações complexas de tomada de decisão com vários agentes. Este problema deve-se em grande parte à incapacidade dos modelos generativos de aprender por tentativa e erro, o que é uma parte essencial da cognição humana. Em vez de lidar com situações reais, baseiam-se mais em factos existentes, levando a soluções inadequadas ou incorrectas em contextos cada vez mais complexos.
Uma abordagem única foi desenvolvida para superar essa limitação, incluindo um simulador direcionado à linguagem em uma estrutura de aprendizagem multiagente (MARL). Este paradigma procura melhorar o processo de tomada de decisão através da utilização de experiências simuladas, melhorando assim a qualidade das soluções produzidas. O simulador serve como um modelo global que pode capturar dois conceitos importantes: recompensa e poder. Enquanto o modelo de recompensa examina as consequências dessas ações, o modelo dinâmico prevê como o ambiente mudará em resposta a diversas atividades.
O transformador causal e o tokenizador de imagem modelam a dinâmica. Um transformador causal cria transformações interativas automaticamente, enquanto um token gráfico transforma a entrada visual em um formato estruturado que o modelo pode analisar. Para simular como os agentes interagem ao longo do tempo, o modelo prevê cada etapa da sequência de comunicação com base nas etapas anteriores. Por outro lado, um transformador bidirecional é utilizado no modelo de recompensa. O processo de treinamento desta parte envolve o desenvolvimento de oportunidades para demonstrações profissionais, que servem como exemplos de treinamento de comportamento adequado. O modelo de recompensa alcança a capacidade de vincular tarefas específicas a recompensas usando descrições de tarefas em linguagem simples como guia.
Em termos práticos, um modelo de mundo pode simular a interação de um agente e gerar uma série de imagens que mostram o resultado dessa interação quando dada uma imagem do ambiente tal como ele é naquele momento e uma descrição da tarefa. O modelo global é utilizado para treinar a política, que controla o comportamento dos agentes, até convergir, indicando que encontrou um caminho eficiente para a tarefa determinada. A solução do modelo para o problema de tomada de decisão é a sequência de imagens resultante, que mostra visualmente o andamento da tarefa.
De acordo com resultados empíricos, este paradigma melhora significativamente a qualidade das soluções para problemas de tomada de decisão multiagentes. Testado com o conhecido benchmark StarCraft Multi-Agent Challenge, que é usado para testar sistemas MAR. A estrutura funciona bem nas tarefas para as quais é treinado e faz um bom trabalho na integração de tarefas novas e não treinadas.
Uma das principais vantagens deste método é a sua capacidade de produzir sequências de comunicação consistentes. Isso mostra que o modelo produz resultados razoáveis e consistentes ao simular interações entre agentes, levando a uma tomada de decisão confiável. Além disso, o modelo pode explicar claramente porque determinados comportamentos foram recompensados, o que é importante para compreender e melhorar o processo de tomada de decisão. Isso ocorre porque as funções de recompensa são definidas em cada estágio da interação.
A equipe resumiu suas principais contribuições da seguinte forma,
- Novos conjuntos de dados MARL para SMAC: com base em um determinado cenário, o analisador gera automaticamente imagens de baixa fidelidade e descrições de tarefas para o StarCraft Multi-Agent Challenge (SMAC). Este trabalho introduziu um novo conjunto de dados SMAC.
- O estudo apresentou o Learning before Interaction (LBI), um simulador interativo que melhora a tomada de decisões multiagentes, gerando respostas de alta qualidade por meio de experiências de tentativa e erro.
- Desempenho superior: com base em descobertas empíricas, o LBI tem melhor desempenho em treinamento e tarefas abstratas do que métodos alternativos de aprendizagem offline. O modelo proporciona transparência na tomada de decisões, o que cria suposições consistentes e proporciona recompensas transparentes em cada situação de interação.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Tanya Malhotra está em seu último ano na Universidade de Estudos de Petróleo e Energia, Dehradun, cursando BTech em Engenharia de Ciência da Computação com especialização em Inteligência Artificial e Aprendizado de Máquina.
Ele é um entusiasta de Data Science com forte pensamento analítico e crítico e grande interesse em adquirir novas habilidades, liderar equipes e gerenciar o trabalho de maneira organizada.