Os agentes de IA tornaram-se ferramentas essenciais para navegar em espaços web e fazer compras online, gerenciar projetos e navegar em conteúdo. Normalmente, esses agentes imitam ações humanas, como clicar e rolar, em sites projetados principalmente para visualização e interação humana. Embora útil, esse método de navegação na web impõe limites à eficiência da máquina, especialmente quando as tarefas envolvem a interação com interfaces complexas e com muitos gráficos. O campo do design de agentes de IA enfrenta, portanto, uma questão importante: como esses agentes podem executar tarefas da web com alta velocidade e alta precisão, especialmente quando a interface do site é inconsistente ou inadequada para uso da máquina? Este desafio levou os investigadores a explorar alternativas às técnicas tradicionais de navegação.
Os agentes de IA que trabalham com navegação na web muitas vezes encontram obstáculos, como a necessidade de várias etapas para recuperar informações ocultas na estrutura de um site. Um dos principais desafios é que os serviços baseados na Web devem ser concebidos da mesma forma que as máquinas. O problema é agravado por plataformas que não possuem pontos de acesso específicos e compatíveis com máquinas. Como resultado, os agentes dependem de sequências de ações complexas para simular a navegação, criando ineficiências que reduzem a precisão e exigem grandes recursos computacionais. Um grande problema é que os agentes de navegação na web existentes não são flexíveis quando trabalham com dados concebidos principalmente para a interação humana, o que afeta a eficiência do trabalho e limita a gama de possíveis atividades na Internet.
Os métodos de navegação de IA existentes são principalmente baseados em GUI, o que significa que dependem de árvores de acessibilidade para interpretar e agir em elementos da web, como botões e links. Esta abordagem, embora eficaz, limita os agentes a sequências de navegação centradas no ser humano. Os agentes podem acessar versões simplificadas de estruturas HTML DOM, mas aparecem limitações ao lidar com conteúdo carregado dinamicamente, links com muitas imagens ou tarefas que envolvem ações extensas e repetitivas. Os navegadores, projetados para tarefas simples e diretas, muitas vezes precisam de ajuda para navegar em links da web que exigem várias etapas sequenciais para encontrar dados específicos, muitas vezes levando a limitações de desempenho.
Pesquisadores da Carnegie Mellon University introduziram dois novos tipos de agentes para melhorar o desempenho da web:
- Agente de chamada de API: Um agente de chamada de API conclui operações apenas por meio de APIs, interagindo diretamente com dados em formatos como JSON ou XML, ignorando a necessidade de ações de navegação semelhantes às humanas.
- Agente Híbrido: Devido às limitações dos métodos somente API, a equipe também criou um Agente Híbrido, que pode alternar facilmente entre chamadas de API e navegação padrão na Web com base nas necessidades da tarefa. Essa abordagem híbrida permite que o agente use APIs de forma eficiente, recuperando dados específicos quando disponíveis e alternando para navegação quando o suporte da API é limitado ou incompleto. Ao combinar os dois métodos, esse modelo flexível melhora a velocidade, a precisão e a flexibilidade, permitindo que os agentes naveguem na web com mais eficiência e executem diversas tarefas em vários ambientes da Internet.
A tecnologia por trás do agente híbrido foi projetada para melhorar a recuperação de dados. Ao confiar em chamadas de API, os agentes podem ignorar a sequência de navegação tradicional e obter os dados estruturados diretamente. Este método também suporta comutação dinâmica, onde os agentes mudam para a navegação GUI quando encontram conteúdo aleatório ou sem script da Internet. Essa adaptabilidade é especialmente importante para sites com suporte de API inconsistente, pois o agente pode recorrer à navegação para executar ações quando as APIs não estão disponíveis. Os recursos de ação dupla melhoram a interação do agente, permitindo-lhe lidar com uma ampla variedade de tarefas na web, ajustando seu caminho com base nos formatos de interação disponíveis.
Em testes realizados no benchmark WebArena, uma simulação de tarefas web do mundo real, o agente híbrido superou consistentemente os agentes de navegação convencionais, alcançando uma precisão média de 35,8% e uma melhoria na taxa de sucesso de mais de 20% para tarefas complexas. No GitLab, por exemplo, o agente alcançou uma taxa de conclusão de 44,4%, em comparação com 12,8% do agente somente de navegação. O modelo híbrido também se mostrou muito eficaz para tarefas com alta disponibilidade de API, como serviços GitLab e Map, para concluir tarefas rapidamente e com menos etapas de navegação. Essa eficiência permite que o agente faça mais do que métodos apenas web, demonstrando o poder do método híbrido na obtenção de resultados de última geração.
A partir destas descobertas, emergem vários insights importantes sobre a eficácia e diversidade do agente combinado:
- Eficiência de benefícios: A abordagem baseada em API do agente híbrido permite a recuperação direta de dados, melhorando a velocidade de operação em mais de 20% em plataformas suportadas por API.
- Adaptabilidade: Com recursos de comutação dinâmica, o agente se adapta a dados estruturados e não estruturados, reduzindo a dependência de sequências de navegação complexas.
- Alta precisão: O modelo híbrido alcançou uma taxa de conclusão de 35,8% no teste de benchmark, estabelecendo um novo padrão para agentes de diagnóstico operando em diversos ambientes de Internet.
- Carga de computação reduzida: Ao contornar etapas desnecessárias de navegação, o agente híbrido reduz a demanda do computador, tornando-o econômico e rápido.
- Desempenho amplo: Este método oferece suporte a uma variedade de tarefas, desde a simples recuperação de dados até ações complexas que exigem interações em várias etapas.
Concluindo, este estudo destaca desenvolvimentos promissores na navegação na web orientada por IA, combinando a navegação com métodos baseados em API. O modelo híbrido mostra que a estratégia combinada proporciona maior desempenho, adaptabilidade e eficiência do que os agentes de navegação sozinhos. Essa abordagem equilibrada permite que os agentes de IA acessem rapidamente dados estruturados, mantendo a flexibilidade em ambientes web que não possuem suporte completo de API, estabelecendo uma nova referência para agentes de navegação web.
Confira Papel, projeto e código. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️