Os sistemas Agentic são um ramo progressivo da inteligência artificial que visa criar soluções que possam gerenciar automaticamente tarefas complexas e de várias etapas em vários ambientes. Esses sistemas vão além do escopo típico dos modelos de aprendizado de máquina, incorporando capacidades que lhes permitem perceber e agir em ambientes digitais do mundo real, integrando informações, raciocínio e processos flexíveis de tomada de decisão. Com grandes avanços em modelos de linguagem de grande escala (LLMs), como aqueles que permitem navegação na web, análise de dados e codificação, os sistemas de agentes prometem libertar os usuários de tarefas repetitivas ou técnicas. Esses modelos encontraram aplicações práticas em áreas tão diversas como engenharia de software e pesquisa científica, adaptando-se a interações em tempo real que a maioria dos sistemas estáticos não consegue lidar com eficácia.
A principal questão de investigação envolve permitir que os sistemas de IA operem de forma fiável em ambientes imprevisíveis e complexos. Os métodos tradicionais de agentes independentes enfrentam limitações significativas quando alternam facilmente entre tarefas como recuperação de dados, codificação e interação com plataformas da Internet. Essas áreas exigem ações específicas e flexibilidade para adaptação a situações baseadas em alterações de insumos ou erros operacionais. Com essa flexibilidade, os sistemas de agente único podem realizar tarefas com eficiência. No entanto, muitas vezes eles ficam presos ou repetem tarefas devido a métodos inadequados de tratamento de erros ou à incapacidade de integrar múltiplas etapas dinamicamente.
Muitas das atuais abordagens de agente único tentam combinar essas tarefas, mas muitas vezes não conseguem lidar com a variedade de tarefas em ambientes altamente abertos. Os sistemas de agente único podem enfrentar fluxos de trabalho complexos e mudanças dinâmicas de trabalho, apesar de integrarem LLMs com habilidades multimodais. A incapacidade de planejar e reprogramar adequadamente à medida que as tarefas mudam ou encontram erros limita a eficácia desses agentes em situações que exigem diversos conjuntos de habilidades, como navegação de arquivos, codificação ou pesquisa baseada na web. Os métodos existentes tendem a consolidar o controle em uma estrutura monolítica, o que causa gargalos que impedem a flexibilidade e a adaptabilidade.
Microsoft Research AI Frontiers apresentado por pesquisadores Magentic-One, um sistema modular e multiagente projetado para superar esses obstáculos. Magentic-One apresenta uma arquitetura multiagente orientada por núcleo “O orquestrador”Agente, responsável pela programação e comunicação com todos os agentes especiais, como WebSurfer, FileSurfer, Coder e ComputerTerminal. Cada agente é especialmente configurado para lidar com uma carga de trabalho exclusiva, como navegar na web, gerenciar arquivos ou executar código. A orquestração atribui tarefas a esses agentes especiais, coordenando suas ações com base no progresso da tarefa e reavaliando estratégias quando ocorrem erros. Esse design permite que o Magentic-One lide com tarefas ad-hoc de maneira simplificada e modular, tornando-o ideal para aplicações flexíveis.
O funcionamento interno do Magentic-One revela um método cuidadosamente planejado. O Orchestrator funciona em dois níveis de gerenciamento de tarefas: laço externoque organiza um grande fluxo de trabalho, e laço internoque atribui tarefas aos agentes e verifica seu progresso. Esses loops permitem que o orquestrador monitore as ações de cada agente, reinicie processos quando necessário e redirecione tarefas para outros agentes quando ocorrer um erro ou gargalo. Esse design oferece uma vantagem sobre os sistemas de agente único, pois o Magentic-One pode adicionar ou remover agentes conforme necessário, sem interromper o fluxo de trabalho. Por exemplo, se uma tarefa precisar navegar por determinadas informações, o Orchestrator pode atribuí-las ao agente WebSurfer, enquanto o FileSurfer pode estar envolvido no processamento de documentos relacionados.
Magentic-One foi testado em três benchmarks exigentes: GAIA, AssistantBench e WebArena. No benchmark GAIA, o Magentic-One alcançou uma taxa de conclusão de tarefas de 38%, enquanto no WebArena atingiu 32,8%. No AssistantBench, o Magentic-One alcançou 27,7% de precisão, apresentando desempenho competitivo com sistemas modernos projetados para esses benchmarks. A capacidade do sistema de lidar com essas tarefas com alguns pequenos ajustes demonstra seu potencial como uma solução de IA flexível e personalizável. Além disso, a modularidade do Magentic-One mostrou-se benéfica em experimentos de ablação, onde o desempenho foi mantido mesmo quando determinados agentes foram removidos de determinadas atividades. Esta abordagem modular destaca o potencial de criação de sistemas multiagentes flexíveis que podem ser produtivos em todos os tipos de tarefas e domínios.
Principais conclusões do estudo Magentic-One:
- Desempenho: Atingiu taxas competitivas de conclusão de tarefas em GAIA (38%), WebArena (32,8%) e AssistantBench (27,7%), estabelecendo-o como um sistema multiagente robusto para tarefas complexas e de várias etapas.
- Arquitetura Modular: Cada agente no Magentic-One está focado em um domínio de tarefa específico (por exemplo, navegação na web, gerenciamento de arquivos), permitindo um gerenciamento de tarefas flexível e estruturado.
- Gerenciamento de projetos poderoso: O Orchestrator usa um sistema de loop externo e interno para atribuição e monitoramento de tarefas, garantindo flexibilidade no tratamento de erros ou na reconfiguração de tarefas conforme necessário.
- Sucesso de referência: O poder foi demonstrado nos benchmarks GAIA, AssistantBench e WebArena sem ajustes extensos, demonstrando seu potencial como uma solução de IA não padrão.
- Elasticidade e elasticidade: O design modular facilita a adição ou remoção de agentes, abrindo caminho para aplicações futuras que exijam uma variedade de capacidades funcionais sem alterar todo o sistema.
Concluindo, Magentic-One é um exemplo de avanço na criação de sistemas de IA dinâmicos e multiagentes que podem resolver tarefas complexas automaticamente. Ele utiliza um design modular onde cada agente se especializa em uma tarefa diferente, coordenado por um orquestrador central que reatribui tarefas dinamicamente com base na complexidade e nos requisitos da tarefa. Ao atingir níveis mais elevados de conclusão e desempenho em comparação com sistemas modernos em todas as três dimensões principais, o Magentic-One demonstra a eficiência das arquiteturas modulares e multiagentes. Seu design atende à necessidade de tratamento de erros e adaptabilidade e permite fácil expansão para incluir novos agentes e capacidades.
Confira Papel, Detalhesde novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️