A inteligência artificial (IA) tem avançado no desenvolvimento de agentes capazes de realizar tarefas complexas em plataformas digitais. Esses agentes, muitas vezes alimentados por modelos linguísticos de larga escala (LLMs), têm o potencial de melhorar drasticamente a produtividade humana ao executar tarefas dentro de aplicativos. Agentes de IA que podem ver, programar e agir em um ambiente semelhante ao sistema operacional (SO) Windows fornecem um valor significativo à medida que as tarefas pessoais e profissionais passam cada vez mais para o ambiente digital. A capacidade destes agentes de comunicarem entre múltiplas aplicações e interfaces significa que podem lidar com tarefas que normalmente requerem supervisão humana, com o objetivo final de tornar as interações homem-computador mais eficientes.
Uma questão importante no desenvolvimento de tais agentes é testar com precisão o seu desempenho em ambientes semelhantes às condições do mundo real. Embora funcione bem em determinados domínios, como navegação na web ou tarefas baseadas em texto, muitos benchmarks existentes não conseguem capturar a complexidade e a diversidade de tarefas que usuários reais enfrentam todos os dias em plataformas como o Windows. Esses benchmarks concentram-se em tipos limitados de interações ou sofrem de tempos de processamento lentos, tornando-os inadequados para testes em larga escala. Para colmatar esta lacuna, são necessárias ferramentas que possam avaliar as capacidades dos agentes em tarefas altamente dinâmicas e de múltiplas etapas em diferentes domínios, de uma forma altamente escalável. Além disso, as ferramentas atuais não conseguem corresponder às tarefas de forma eficaz, fazendo com que uma avaliação completa demore dias em vez de minutos.
Vários benchmarks foram desenvolvidos para testar agentes de IA, incluindo o OSWorld, que se concentra principalmente em tarefas baseadas em Linux. Embora essas plataformas forneçam informações úteis sobre o desempenho do agente, elas não são adequadas para ambientes multimodo, como o Windows. Outras estruturas, como WebLinx e Mind2Web, examinam os recursos do agente em ambientes baseados na Web, mas exigem mais profundidade para examinar minuciosamente o comportamento do agente em fluxos de trabalho complexos baseados em sistema operacional. Essas limitações destacam a necessidade de um benchmark para capturar toda a gama de interações da computação humana em um sistema operacional amplamente utilizado, como o Windows, garantindo ao mesmo tempo testes rápidos com simulações baseadas em nuvem.
Pesquisadores da Microsoft, Carnegie Mellon University e Columbia University apresentaram este WindowsAgentArenaé um benchmark abrangente e reproduzível projetado especificamente para testar agentes de IA em um ambiente de sistema operacional Windows. Esta ferramenta revolucionária permite que os agentes trabalhem no sistema operacional Windows real, interagindo com aplicativos, ferramentas e navegadores da web, replicando as tarefas executadas por usuários humanos. Utilizando a infraestrutura de nuvem escalável do Azure, a plataforma pode simular testes, permitindo que um benchmark completo seja executado em apenas 20 minutos, em comparação com testes que normalmente levam dias dos métodos anteriores. Essa uniformidade aumenta a velocidade dos testes e garante um comportamento realista dos agentes, permitindo-lhes interagir com diversas ferramentas e ambientes simultaneamente.
O conjunto de benchmarks inclui mais de 154 tarefas diferentes cobrindo vários domínios, incluindo edição de documentos, navegação na web, administração de sistema, codificação e consumo de mídia. Essas funções são cuidadosamente projetadas para corresponder aos fluxos de trabalho diários do Windows, com agentes necessários para executar tarefas de várias etapas, como criação de atalhos de documentos, navegação em sistemas de arquivos e personalização de configurações em aplicativos complexos, como VSCode e LibreOffice Calc. O WindowsAgentArena também introduz um novo critério de avaliação que recompensa os agentes com base na conclusão da tarefa, em vez de simplesmente seguir demonstrações humanas pré-gravadas, permitindo uma execução flexível e realista da tarefa. O benchmark pode ser integrado perfeitamente aos contêineres Docker, fornecendo um ambiente seguro para testes e permitindo que os pesquisadores dimensionem suas análises em vários agentes.
Para demonstrar a eficácia do WindowsAgentArena, os pesquisadores desenvolveram um novo agente de IA multimodal chamado Navi. O Navi foi projetado para ser executado automaticamente no sistema operacional Windows, usando uma combinação de cadeia de pensamento e visão de múltiplos processos para concluir tarefas. Os pesquisadores testaram o Navi no benchmark WindowsAgentArena, onde o agente alcançou uma taxa de sucesso de 19,5%, muito inferior à taxa de sucesso de 74,5% alcançada por humanos não assistidos. Embora este desempenho destaque os desafios que os agentes de IA enfrentam na replicação da eficiência semelhante à humana, também sublinha o potencial de melhoria à medida que esta tecnologia evolui. A Navi também apresentou forte desempenho em um segundo benchmark baseado na web, Mind2Web, continuando a provar sua adaptabilidade em todos os níveis.
Destacam-se os métodos utilizados para melhorar o desempenho do Navi. O agente depende de marcadores visuais e técnicas de análise de tela, como Set-of-Marks (SoMs), para compreender e interagir com os recursos gráficos da tela. Esses SoMs permitem que o agente reconheça com precisão botões, ícones e campos de texto, tornando-os mais eficientes na conclusão de tarefas que envolvem várias etapas ou exigem navegação detalhada na tela. O Navi se beneficia da divisão de árvore UIA, um método que abstrai objetos da árvore Windows UI Automation, permitindo interações mais precisas entre agentes.
Concluindo, o WindowsAgentArena é um desenvolvimento importante no teste de agentes de IA em ambientes reais de sistema operacional. Ele aborda as limitações dos benchmarks anteriores, fornecendo uma plataforma de teste escalonável, repetível e realista que permite testes rápidos e consistentes de agentes no ecossistema Windows. Com seu conjunto diversificado de funções e novas métricas de teste, este benchmark fornece aos pesquisadores e desenvolvedores ferramentas para ampliar os limites do desenvolvimento de agentes de IA. O desempenho da Navi, embora ainda não corresponda ao desempenho humano, demonstra a capacidade do índice de referência para acelerar o progresso na investigação de agências multimodais. Seus métodos avançados de visualização, como SoMs e classificação UIA, continuam abrindo caminho para agentes de IA mais capazes e eficientes no futuro.
Confira Papel, O códigode novo Página do projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)