ServiceNow lança AgentLab: um novo pacote Python de código aberto para desenvolvimento e teste de agentes web
Inteligência artificial

ServiceNow lança AgentLab: um novo pacote Python de código aberto para desenvolvimento e teste de agentes web


O desenvolvimento de agentes web é uma área desafiadora de pesquisa em IA que tem atraído atenção considerável nos últimos anos. À medida que a web se torna mais poderosa e complexa, são necessários recursos avançados para agentes que interagem automaticamente com plataformas da Internet. Um dos maiores desafios na construção de agentes web é testar, medir e avaliar eficazmente o seu comportamento em vários ambientes online e físicos. Muitas estruturas existentes para o desenvolvimento de agentes têm limitações, como escalonabilidade deficiente, dificuldade na condução de experimentos reproduzíveis e desafios na integração com diferentes modelos linguísticos e cenários de comparação. Além disso, conduzir testes uniformes e em grande escala costuma ser difícil, especialmente para equipes com recursos computacionais limitados ou ferramentas diferentes.

A ServiceNow enfrenta esses desafios por meio da terceirização AgenteLabum pacote de código aberto projetado para simplificar o desenvolvimento e o teste de agentes web. AgentLab oferece uma variedade de ferramentas para simplificar o processo de criação de agentes web que podem navegar e interagir com diversas plataformas web. Construído com base no BrowserGym, outro desenvolvimento recente da ServiceNow, o AgentLab oferece um local para treinar e testar agentes em todos os tipos de benchmarks da web, incluindo o popular WebArena. Com o AgentLab, os desenvolvedores podem executar grandes testes em paralelo, permitindo-lhes testar e melhorar o desempenho de seus agentes em diferentes tarefas de forma mais eficaz. O pacote visa tornar o processo de desenvolvimento de agentes mais acessível tanto para pesquisadores individuais quanto para equipes de negócios.

Detalhes técnicos

O AgentLab foi projetado para abordar pontos problemáticos comuns no desenvolvimento de agentes web, fornecendo uma estrutura compacta e flexível. Um de seus destaques é a integração com Ray, biblioteca para computação paralela e distribuída, que facilita a execução de grandes testes paralelos. Esse recurso é especialmente útil para pesquisadores que desejam testar a configuração de vários agentes ou treinar agentes em locais diferentes ao mesmo tempo.

O AgentLab também fornece os blocos de construção essenciais para a criação de agentes usando o BrowserGym, que oferece suporte a dez benchmarks diferentes. Esses benchmarks servem como um ambiente padronizado para testar as capacidades dos agentes, incluindo o WebArena, que avalia o desempenho dos agentes em tarefas baseadas na Web que exigem interação humana.

Outro benefício importante é a API Unified LLM fornecida pelo AgentLab. Esta API permite integração perfeita com modelos de linguagem populares, como OpenAI, Azure e OpenRouter, e oferece suporte a modelos automatizados usando Text Generation Inference (TGI). Essa flexibilidade permite que os desenvolvedores escolham e alternem facilmente entre diferentes tipos de linguagens de grande escala (LLMs) sem configuração adicional, acelerando assim o processo de desenvolvimento do agente. O recurso de placar integrado também agrega valor ao fornecer uma maneira consistente de comparar o desempenho dos agentes em diversas operações. Além disso, o AgentLab enfatiza a reprodutibilidade, fornecendo ferramentas integradas para ajudar os desenvolvedores a recriar testes com precisão, o que é importante para validar resultados e melhorar a durabilidade do agente.

Desde o seu lançamento, o AgentLab tem se mostrado eficaz em ajudar os desenvolvedores a acelerar o processo de criação e teste de agentes web. Usando o Ray, os usuários foram capazes de realizar experimentos paralelos em grande escala que, de outra forma, exigiriam extensa configuração manual e grandes recursos de computação. O BrowserGym, que serve de base para o AgentLab, apoiou testes em dez benchmarks, incluindo WebArena – um benchmark projetado para testar o desempenho do agente em ambientes web dinâmicos que simulam sites do mundo real.

Os desenvolvedores que usam o AgentLab relataram melhorias na eficiência e na eficácia de seus testes, especialmente ao usar a API Unified LLM para alternar facilmente entre diferentes modelos de linguagem. Esses recursos não apenas aceleram o desenvolvimento, mas também fornecem comparações significativas por meio de um quadro de classificação integrado, detalhando os pontos fortes e fracos de diferentes arquiteturas de agentes web.

A conclusão

O AgentLab da ServiceNow é um pacote de código aberto pensado para desenvolver e testar agentes web, abordando os principais desafios da área. Ao integrar BrowserGym, Ray e a API Unified LLM, o AgentLab simplifica testes e marcações em grande escala, garantindo consistência e reprodutibilidade. A flexibilidade para alternar entre diferentes modelos de linguagem e a capacidade de executar testes extensivos em paralelo fazem do AgentLab uma ferramenta valiosa tanto para desenvolvedores individuais quanto para grandes equipes de pesquisa.

Recursos como um placar integrado ajudam a padronizar os testes dos agentes e incentivam uma abordagem orientada pela comunidade para a classificação dos agentes. À medida que a automação e a colaboração web se tornam cada vez mais importantes, o AgentLab fornece uma base sólida para o desenvolvimento de agentes web capazes, eficientes e flexíveis.


Confira Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *