O desafio reside na automatização de tarefas informáticas através da replicação de interações semelhantes às humanas, incluindo a compreensão de várias interfaces de utilizador, a adaptação a novas aplicações e a gestão de sequências complexas de ações como um ser humano faria. As soluções atuais lutam para gerenciar interfaces complexas e diversas, encontrar e atualizar informações específicas de domínio e organizar tarefas de várias etapas que exigem uma sequência precisa de ações. Além disso, os agentes devem aprender com diversas experiências, adaptar-se a novas situações e lidar com eficácia com interações dinâmicas e inconsistentes do usuário.
A Simula Research apresenta o Agent S, uma estrutura de agente de código aberto projetada para operar computadores como um ser humano, especificamente por meio de interações automatizadas e GUIs. Esta estrutura visa revolucionar a interação humano-computador, permitindo que agentes de IA usem mouse e teclado como humanos fariam para concluir tarefas complexas. Ao contrário dos métodos tradicionais que requerem scripts ou APIs especiais, o Agente S concentra-se na interação com a própria GUI, proporcionando flexibilidade em diferentes programas e aplicações. A principal inovação do Agente S está no uso de escalonamento hierárquico com realidade aumentada, permitindo-lhe aprender tanto com a memória interna quanto com informações online externas para dividir grandes tarefas em tarefas menores. A Advanced Agent-Computer Interface (ACI) facilita a interação eficaz por meio de entrada multimodal.
A arquitetura do Agente S é composta por vários módulos interligados que funcionam em uníssono. No coração do Agent S está o módulo Manager, que combina informações de pesquisas na Internet e experiências anteriores de trabalho para planejar planos abrangentes para concluir uma tarefa. Essa técnica de planejamento sequencial permite a divisão de uma tarefa grande e complexa em subtarefas menores e gerenciáveis. Para implementar esses programas, o módulo trabalhador utiliza memória episódica para encontrar a experiência apropriada para cada subtarefa. Um componente de autoavaliação também é usado, resumindo a conclusão bem-sucedida da tarefa em memórias e episódios narrativos, permitindo que o Agente S continue aprendendo e se adaptando. A integração avançada da ACI facilita ainda mais a interação, fornecendo ao agente um método de entrada duplo: informações visuais para entender o contexto e uma árvore de acessibilidade para basear suas ações em elementos específicos da GUI.
Os resultados apresentados no artigo destacam o desempenho do agente S em diversas tarefas e benchmarks. Os testes de benchmark da OSWorld mostraram uma melhoria significativa nas taxas de conclusão de tarefas, com o Agente S alcançando uma taxa de sucesso de 20,58%, representando uma melhoria média de 83,6% em comparação com a linha de base. Além disso, o Agente S foi testado no benchmark WindowsAgentArena, mostrando sua integridade em diferentes aplicativos sem um retreinamento óbvio. A pesquisa em ablação revelou a importância de cada componente na melhoria das habilidades do agente, sendo a ampliação da experiência e da classificação essencial para alcançar os benefícios de desempenho observados. Em particular, o Agente S foi muito eficaz em tarefas que envolviam casos de uso quotidiano ou profissional, superando as soluções existentes devido à sua capacidade de recuperar informação relevante e organizar de forma eficiente.
Concluindo, o Agente S fornece um avanço significativo no desenvolvimento de agentes GUI autônomos, combinando programação hierárquica, uma interface Agente-Computador e uma abordagem de aprendizagem baseada em memória. Esta estrutura mostra que, ao utilizar uma combinação de inputs multimodais e ao beneficiar de experiências passadas, os agentes de IA podem utilizar eficazmente computadores como seres humanos para realizar uma variedade de tarefas. Esta abordagem não só facilita a automatização de tarefas em várias etapas, mas também expande o âmbito dos agentes de IA, melhorando a sua flexibilidade e capacidades de generalização em diferentes ambientes. Trabalhos futuros visam abordar o número de etapas e a eficiência do tempo das ações dos agentes para melhorar continuamente seu desempenho em aplicações do mundo real.
Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.