O planejamento estratégico em inteligência artificial atingiu níveis significativos, especialmente na obtenção de desempenho sobre-humano em jogos complexos como Go. Modelos de linguagem em larga escala (LLMs) combinados com algoritmos de programação avançados mostraram melhorias significativas em tarefas complexas de raciocínio. No entanto, surgem vários desafios significativos quando estas capacidades são utilizadas em ambientes baseados na Web para executar tarefas complexas em vários websites. As principais preocupações incluem riscos de segurança durante interações ao vivo no site, como a transmissão acidental de informações confidenciais ou transações não intencionais. A natureza irreversível de muitas ações on-line, como confirmações de compra ou envio de e-mail, impõe obstáculos significativos ao uso de algoritmos de agendamento tradicionais que dependem do poder reverso.
Várias abordagens surgiram para enfrentar os desafios da programação baseada na web. Outra maneira pela qual os agentes reativos tomam decisões com base em observações imediatas sem simular ações futuras é usando a estrutura ReAct. Esses agentes se desenvolveram aproveitando modelos de código fechado, treinando em HTML e capturas de tela de páginas da web e desenvolvendo uma base de recursos com dados de emparelhamento de ações. Em seguida, métodos baseados em pesquisa em árvore, como Search Agent e AgentQ, usam a primeira pesquisa em árvore e a Pesquisa em árvore Monte Carlo (MCTS), para permitir avaliação e planejamento em várias etapas. Finalmente, os Modelos Globais oferecem uma forma alternativa de prever situações e recompensas futuras, mas requerem formação específica para tarefas e concentram-se principalmente na melhoria da eficiência dos dados na aprendizagem dos agentes.
Pesquisadores da Ohio State University e da Orby AI propuseram o WEBDREAMER, um método para desenvolver agentes de linguagem por meio de programação baseada em modelos usando LLMs como modelos mundiais em ambientes web. Ele usa o conhecimento inerente do LLM sobre arquitetura e funcionalidade de sites para simular os resultados de cada ação candidata (por exemplo, “O que acontece se eu clicar neste botão?”), usando descrições em linguagem natural. Esta abordagem baseada em simulação permite que o sistema avalie diferentes possibilidades e escolha a ação correta em cada etapa. Usando LLMs como modelos globais, WEBDREAMER apresenta uma estratégia de interface web automatizada para abordar a segurança e desafios irreversíveis em métodos de programação tradicionais.
WEBDREAMER utiliza programação complexa com uma estrutura de simulação em vários estágios. Inicialmente, o sistema gera ações candidatas usando uma abordagem em dois estágios: amostrando as principais ações e depois usando LLM para refiná-las e remover opções de simulação desnecessárias. WEBDREAMER simula as trajetórias possíveis de duas etapas e usa LLM para simulação e funções de pontuação para cada ação candidata. Esta dupla funcionalidade permite que o sistema preveja e avalie os resultados de forma eficaz. O processo continua até que uma condição de término seja alcançada, que pode ser acionada por uma ação de parada, número máximo de etapas atingido ou ação repetida mais de três vezes. Esta estrutura garante testes completos mantendo a eficiência através da otimização da ação selecionada.
WEBDREAMER mostra melhorias significativas de desempenho em vários benchmarks, alcançando 33,3% de desempenho relativo em relação aos agentes ativos no conjunto de dados VWA. No conjunto de dados ao vivo Mind2Web, a melhoria é mais modesta, de 13,1%, principalmente devido ao baixo poder de discriminação do conjunto de dados, conforme mostrado pela pequena diferença no desempenho entre os LLMs básicos. Embora a taxa de sucesso geral do WEBDREAMER fique um pouco abaixo da linha de base da pesquisa em árvore, ele fornece uma solução muito útil para interações em sites do mundo real. Além disso, os pesquisadores realizaram uma análise mais granular comparando o método proposto com o desempenho da linha de base no conjunto de dados VWA em múltiplas dimensões.
Concluindo, os pesquisadores apresentaram o WEBDREAMER, um método que usa LLMs como modelos globais para planejar ambientes web complexos e representa um grande avanço na navegação web orientada por IA. O WEBDREAMER apresenta uma melhoria significativa em relação às bases funcionais, proporcionando maior utilidade do que os métodos tradicionais de busca em árvore. No entanto, este método enfrenta duas limitações principais: a relativa simplicidade do seu algoritmo de programação e o alto custo computacional, com cada operação no VWA exigindo cerca de US$ 1 usando GPT-4. Esses desafios destacam oportunidades para pesquisas futuras para melhorar a eficiência do LLM e desenvolver algoritmos de planejamento mais avançados e econômicos para lidar com tarefas de longo horizonte.
Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'