Os sistemas de distribuição de energia são frequentemente considerados modelos de otimização. Embora a otimização de agentes para executar tarefas funcione bem em sistemas com áreas de avaliação limitadas, as coisas começam a dar errado quando a heurística lida com muitas tarefas e agentes. O escalonamento aumenta muito a complexidade dos problemas de atribuição, que geralmente são NP-difíceis e não lineares. Os métodos de otimização tornam-se os elefantes brancos na sala, proporcionando alto desempenho com alta utilização de recursos. Outro grande problema com esses métodos é que a definição do problema é dinâmica, exigindo uma estratégia de alocação iterativa baseada em estado. Quando se pensa na situação da IA, a aprendizagem por reforço é a primeira coisa que vem à mente. No caso dos pedidos de atribuição, dada a sua natureza temporária e dependente do Estado, os investigadores veem um potencial atrativo e enorme para a aprendizagem sequencial para reforçar a tomada de decisões. Este artigo discute pesquisas recentes sobre uma função baseada em estado, que melhora sua solução por meio de RL.
Pesquisadores da Universidade de Washington, em Seattle, introduziram um novo método de aprendizagem por reforço multiagente para problemas de sequenciamento de satélites. O Multi-Agent RL fornece soluções para cenários grandes e realistas que, de outra forma, seriam extremamente complexos. Os autores apresentam um novo algoritmo cuidadosamente projetado e baseado em teoria para resolver atribuições de satélites que garante recompensas específicas, garante objetivos globais e evita restrições conflitantes. Esta abordagem combina algoritmos MAR egoístas apenas para otimizar sua solução de planejamento de longo prazo. Os autores também fornecem aos leitores novos insights sobre sua funcionalidade e arquitetura de convergência global por meio de testes e comparações simples.
A característica distintiva é que os agentes primeiro aprendem o valor esperado da transação; esse valor serve como entrada para o método de alocação de trabalho bem distribuído. Isto permite que os agentes façam atribuições conjuntas que satisfaçam as restrições de atribuição enquanto aprendem uma política coletiva aproximadamente ideal no nível do sistema. Este artigo segue uma abordagem geral às constelações da Internet, onde os satélites atuam como agentes. Este problema de atribuição de satélite é resolvido pelo algoritmo de atribuição distribuída (REDA) habilitado para RL. Neste caso, os autores inicializam a política a partir da política gananciosa irrestrita onde o fazem no início da probabilidade de treinamento ε. Além disso, para realizar novos experimentos, os autores adicionam ruído distribuído aleatoriamente a Q . Outra característica do REDA que reduz sua complexidade é a especificação da meta de aprendizagem, que garante que a meta satisfaça as restrições.
Para avaliar, os autores realizaram experimentos em um ambiente SAP simples, que posteriormente compararam a um ambiente complexo de alocação de trabalho de constelação de satélites com centenas de satélites e tarefas. Os autores direcionam o experimento para responder a algumas questões interessantes, como se o REDA promove comportamento altruísta e se o REDA pode ser aplicado a problemas maiores. Os autores relataram que a REDA rapidamente moveu o grupo para uma política coletiva mais apropriada, ao contrário de outros métodos que promoviam o egoísmo. Para SAP com medições mais complexas, o REDA revelou menor variância e superou consistentemente todos os outros métodos. No geral, os autores relataram um aumento de 20% a 50% em relação a outros métodos modernos.
A conclusão: Este artigo discutiu REDA, um novo método de aprendizado por Reforço Multiagente para resolver problemas complexos de atribuição dependente de estado. O documento aborda problemas de satélites e ensina os agentes a agir de forma altruísta enquanto aprendem soluções eficazes, mesmo em grandes cenários de problemas.
Confira Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.
🧵🧵 Siga-nos no X (Twitter) para pesquisas gerais sobre IA e atualizações de desenvolvimento aqui…