Conheça o Android Agent Arena (A3): um sistema de testes online completo e independente para agentes GUI

O desenvolvimento dos principais modelos linguísticos (LLMs) conta com a inteligência artificial (IA) mais avançada em diversos campos. Entre esses desenvolvimentos, os agentes GUI móveis – projetados para automatizar tarefas em smartphones – apresentam grande potencial. No entanto, testar estes agentes apresenta desafios significativos. Os conjuntos de dados e benchmarks atuais geralmente dependem de testes de quadros estáticos, que fornecem instantâneos de interfaces de aplicativos para que os agentes possam prever a próxima ação. Esta abordagem não consegue simular a natureza dinâmica e interativa das tarefas móveis do mundo real, criando uma lacuna entre as capacidades testadas e o desempenho real. Além disso, as plataformas existentes muitas vezes limitam a diversidade de aplicações, a complexidade das tarefas e a interoperabilidade em tempo real, enfatizando a necessidade de uma estrutura de testes abrangente.

Para responder a esses desafios, pesquisadores da CUHK, do vivo AI Lab e da Shanghai Jiao Tong University lançaram o Android Agent Arena (A3), uma plataforma projetada para melhorar o teste de agentes móveis GUI. A3 fornece um ambiente de teste poderoso com tarefas semelhantes a situações do mundo real. A plataforma inclui 21 aplicativos de terceiros comumente usados e abrange 201 tarefas, desde encontrar informações on-line até a conclusão de tarefas em várias etapas. Além disso, o A3 inclui um sistema de testes automatizado que utiliza LLMs empresariais, o que reduz a necessidade de intervenção manual e conhecimento de codificação. Esta abordagem visa colmatar a lacuna entre o desenvolvimento orientado para a investigação e as aplicações práticas dos agentes móveis.

Principais recursos e benefícios do A3

A3 é construído na estrutura Appium, que facilita a interação perfeita entre agentes GUI e dispositivos Android. Suporta uma ampla área de atuação, garantindo compatibilidade com agentes treinados em diversos conjuntos de dados. As tarefas são divididas em três tipos – tarefas práticas, questões de quadro único e questões de vários quadros – e divididas em três níveis de dificuldade. Esta diversidade permite uma avaliação abrangente das capacidades do agente, desde a navegação básica até à tomada de decisões complexas.

A metodologia de avaliação da plataforma inclui atividades específicas e o processo de avaliação LLM para nível empresarial. As tarefas específicas do trabalho usam critérios predefinidos para medir o desempenho, enquanto o processo de avaliação LLM usa modelos como o GPT-4o e o Gemini para autoavaliação. Essa combinação garante testes e dimensionamento precisos de um número crescente de trabalhos.

Detalhes do teste original

Os pesquisadores testaram vários agentes no A3, incluindo modelos ajustados e LLMs de nível empresarial, revelando as seguintes descobertas:

Desafios em testes de energia: Embora os agentes tenham tido um bom desempenho no teste estático, eles enfrentaram dificuldades no ambiente dinâmico do A3. Por exemplo, tarefas que exigem questões multidimensionais conduzem frequentemente a baixas taxas de sucesso, realçando os desafios de situações do mundo real.
O papel dos LLMs na avaliação: O teste baseado em LLM alcançou uma precisão de 80–84%, com erros de minimização de validação cruzada altamente variáveis. No entanto, às vezes, tarefas complexas exigiam supervisão humana para garantir a precisão.
Erros Comuns: os erros observados incluem cliques errados em links, ações indesejadas e dificuldade em corrigi-los. Estas questões enfatizam a necessidade de agentes que possam aprender de forma dinâmica e compreender o contexto.

A conclusão

Android Agent Arena (A3) fornece uma estrutura importante para testar agentes móveis GUI. Ao fornecer um conjunto diversificado de funções, uma grande área de ação e sistemas de teste automatizados, o A3 aborda muitas das limitações das medições existentes. A plataforma representa um passo em frente na compreensão dos desenvolvimentos da investigação e das aplicações práticas, permitindo o desenvolvimento de agentes de IA competentes e fiáveis. À medida que a IA continua a evoluir, a A3 estabelece uma base sólida para inovações futuras em testes de agentes móveis.

Confira Papel de novo Página do projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🧵🧵 Siga-nos no X (Twitter) para pesquisas gerais sobre IA e atualizações de desenvolvimento aqui…

Source link

Principais recursos e benefícios do A3

Detalhes do teste original

A conclusão

Você também pode gostar...

GRAF: uma estrutura de aprendizado de máquina que transforma redes heterogêneas multiplex em redes homogêneas para torná-las mais adequadas para o aprendizado de representações gráficas

DeepSeek AI lança Janus: um modelo multimodal 1.3B com poder de geração de imagens

Hugging Face lança FineWeb2: 8 TB de dados de texto compactados com quase 3T de palavras e 1.000 idiomas supera outros conjuntos de dados

Deixe um comentário Cancelar resposta