Os agentes de navegação na Web giram em torno da criação de sistemas autônomos que podem realizar tarefas como pesquisar, comprar e recuperar informações na Internet. Esses agentes utilizam modelos de linguagem avançados para interpretar instruções e navegar em ambientes digitais, tomando decisões para realizar tarefas que normalmente requerem intervenção humana. Apesar dos avanços significativos nesta área, os agentes ainda enfrentam tarefas complexas e demoradas que envolvem uma sequência de ações interdependentes. Estas tarefas exigem um nível de adaptabilidade e aprendizagem que os sistemas atuais ainda não são capazes de alcançar com sucesso.
Outro grande desafio no desenvolvimento destes agentes é a sua incapacidade de aprender com operações anteriores. Embora possam ter um bom desempenho com exemplos para os quais foram especialmente treinados, muitas vezes falham quando confrontados com tarefas desconhecidas. Os agentes trabalham individualmente, resolvendo cada tarefa individualmente, sem reutilizar o conhecimento passado para informar decisões futuras. Esta limitação reduz a eficiência e a flexibilidade, especialmente em áreas que exigem a gestão de múltiplas tarefas em diferentes domínios.
Tradicionalmente, as ferramentas e métodos para abordar estas questões têm-se baseado em exemplos de formação focada ou na aprendizagem integrada no conteúdo. Esses métodos permitem que os agentes tenham um bom desempenho em sequências de ações predefinidas, mas falhem ao lidar com situações ou tarefas novas que sejam diferentes de seus dados de treinamento. Por exemplo, agentes treinados em tarefas específicas de compras podem falhar quando solicitados a navegar para um novo site ou a concluir uma tarefa diferente, como reservar um voo ou recuperar informações de redes sociais. A complexidade desses métodos reduz a capacidade de atuação dos agentes em todas as funções e locais.
Uma equipe de pesquisadores da Carnegie Mellon University e do Massachusetts Institute of Technology (MIT) introduziu um novo método chamado Agent Workflow Memory (AWM) para enfrentar esses desafios. O AWM ajuda os agentes a aprender fluxos de trabalho reutilizáveis a partir de experiências anteriores, que podem ser aplicados em tarefas futuras. Essa abordagem permite que os agentes gerem e mantenham fluxos de trabalho – sequências comuns de ações – a partir de tarefas previamente resolvidas, possibilitando sua reutilização em diferentes contextos. O AWM pode ser usado em ambientes offline e online, onde os fluxos de trabalho são pré-treinados ou gerados em tempo real a partir de consultas de teste, fornecendo uma solução flexível para tarefas de navegação na web.
Em detalhes, o AWM trabalha analisando a experiência passada do agente e derivando um fluxo de trabalho para a conclusão bem-sucedida da tarefa. Este fluxo de trabalho consiste em rotas direcionadas a objetivos armazenadas na memória do agente para uso futuro. Por exemplo, um agente pode aprender um fluxo de trabalho básico para encontrar um local pelo nome em um mapa. Ele pode então aproveitar isso aprendendo fluxos de trabalho mais complexos, como recuperar um CEP local. Essa abordagem baseada em memória permite que o agente se adapte a tarefas cada vez mais complexas, usando fluxos de trabalho previamente aprendidos para informar ações futuras.
Em termos de desempenho, o AWM foi testado em dois benchmarks principais – Mind2Web e WebArena – cobrindo mais de 1.000 tarefas em mais de 200 domínios, incluindo viagens, compras e mídias sociais. AWM melhorou muito a funcionalidade da base. No benchmark Mind2Web, a taxa de sucesso da tarefa aumentou 24,6%, enquanto no WebArena, a taxa de sucesso relativo melhorou 51,1%. Além disso, o AWM reduziu o número de etapas necessárias para concluir tarefas no WebArena, alcançando uma melhoria de 22,5 pontos em relação aos métodos tradicionais após processar apenas dezenas de exemplos. Estes resultados demonstram a capacidade do AWM em melhorar a eficiência e flexibilidade dos agentes em diversas tarefas digitais.
Os pesquisadores também descobriram que o AWM melhorou a familiaridade com tarefas, sites e domínios. Em testes multitarefa e entre domínios, o AWM superou outros benchmarks em um total de 8,9 a 14,0 pontos. Esta capacidade de integração é particularmente digna de nota, pois mostra que o AWM pode adaptar-se a tarefas muito diferentes daquelas para as quais o agente foi originalmente treinado. Por exemplo, um agente treinado para tarefas que envolvam websites de compras pode ser eficazmente adaptado a outros domínios, como redes sociais ou turismo, sem necessitar de dados adicionais de formação específicos do domínio.
Concluindo, a introdução do Agent Workflow Memory fornece uma solução promissora para as limitações dos agentes de navegação na web existentes. Ao permitir que os agentes aprendam e reutilizem fluxos de trabalho de experiências anteriores, o AWM melhora a eficiência e a flexibilidade do trabalho, tornando esses sistemas mais versáteis no gerenciamento de tarefas complexas e demoradas. Os resultados dos testes no Mind2Web e WebArena mostram claramente o poder do método para transformar a navegação na web, permitindo que os agentes gerenciem uma ampla gama de tarefas com melhor desempenho e menos etapas. Esta abordagem marca um avanço significativo no desenvolvimento de agentes digitais altamente inteligentes e flexíveis que podem ser generalizados para uma variedade de tarefas e domínios.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)