Projetar agentes GUI que executam tarefas semelhantes às humanas em uma interface gráfica enfrenta um obstáculo crítico: coletar dados de trajetória de alta qualidade para treinamento. Os métodos existentes dependem de supervisão humana cara e demorada ou da geração de dados sintéticos, que dificilmente refletem a diversidade e o potencial dinâmico do mundo real. Essas restrições limitam severamente a robustez e a eficácia dos agentes GUI e os impedem de operar de forma autônoma e de se adaptar a ambientes diversos e dinâmicos.
A aquisição de dados convencional para agentes GUI geralmente é baseada em métodos orientados a tarefas. A anotação humana é um processo trabalhoso que envolve o design de tarefas e linhas de anotação. Embora os dados sintéticos reduzam a dependência das pessoas, dependem de funções predefinidas de alto nível, o que limita o âmbito e a escala dos dados. A presença de erros em etapas intermediárias ou objetivos conflitantes na tarefa leva a caminhos não lineares e assim reduz a qualidade dos dados de treinamento. Como mencionado acima, estas limitações limitam as capacidades dos agentes para operar eficazmente em ambientes dinâmicos ou incomuns.
Pesquisadores do Laboratório de IA de Xangai, da Universidade de Hong Kong, da Universidade Johns Hopkins, da Universidade Jiao Tong de Xangai, da Universidade de Oxford e da Universidade de Ciência e Tecnologia de Hong Kong propõem o OS-Genesis, uma estratégia básica para enfrentar esses desafios por meio da síntese colaborativa de tarefas reversas . Ao contrário das funções predeterminadas, o modo de teste dos agentes GUI inclui interação clicando, rolando e digitando sobre elementos GUI do ambiente. Na análise reversa, essas interações são convertidas em instruções de baixo nível e contextualizadas como funções de alto nível. Mantém a qualidade dos dados através do TRM, obtendo trajetórias integradas com dimensões de consistência, fluxo lógico e completude. Mesmo dados imperfeitos, mas significativos, podem ser treinados dessa forma. Ao preencher a lacuna entre as instruções abstratas e a natureza dinâmica das GUIs, esta estrutura melhora muito a qualidade e a diversidade dos dados de treinamento, ao mesmo tempo que elimina a necessidade de supervisão humana.
O processo OS-Genesis consiste em vários componentes importantes. Primeiro, o sistema avalia automaticamente os elementos dinâmicos da GUI, registrando as transições entre os estados pré e pós-ação para coletar dados básicos para integração de tarefas. Essas variáveis são então convertidas em comandos detalhados de baixo nível com a ajuda de modelos como o GPT-4o. Essas instruções estão incluídas nos objetivos gerais de alto nível relacionados à intenção geral dos usuários, alcançando assim profundidade semântica. As abordagens combinadas são então avaliadas com um Modelo de Recompensa de Trajetória que usa uma estrutura de metas escalonadas que se concentra em aspectos de relevância significativa e na conclusão bem-sucedida da tarefa. Isto garante diversidade e alta qualidade de dados, proporcionando assim uma base sólida para o treinamento.
Testes extensivos foram realizados usando benchmarks como AndroidWorld e WebArena, que simulam ambientes complexos e dinâmicos. Modelos de linguagem visual, nomeadamente Qwen2-VL e InternVL2, foram utilizados como frameworks básicos para o processo de treinamento. O treinamento se concentra no desenvolvimento de planejamento de tarefas complexas e execução de ações de precisão de baixo nível para permitir o aprendizado profundo de habilidades para agentes GUI.
OS-Genesis foi verificado com sucesso em vários benchmarks. Na AndroidWorld, as taxas de sucesso são quase o dobro das dos métodos orientados a tarefas em termos da capacidade de melhorar o planejamento e a execução de tarefas. Para o AndroidControl, o método teve um desempenho muito bom em um alto nível de programação automática, mas também em um baixo nível de implementação passo a passo, incluindo exemplos fora da distribuição; isso mostra resiliência. No WebArena, a metodologia superou consistentemente o framework tradicional, ganhando assim uma base para o gerenciamento de ambientes complexos e interativos. Em resumo, estes resultados demonstram a capacidade do OS-Genesis de gerar trajetórias de alta qualidade de todos os tipos, melhorando assim enormemente a eficiência geral dos agentes GUI em situações gerais.
OS-Genesis é um passo revolucionário no treinamento de agentes GUI, pois supera as limitações dos métodos atuais de coleta de dados. Sua abordagem orientada à interação com testes baseados em recompensas garante dados de treinamento diversificados e de alta qualidade que preenchem a lacuna entre comandos de tarefas abstratas e ambientes GUI dinâmicos. Essa abordagem abre caminho para um progresso significativo na automação digital e na pesquisa de IA, permitindo que os agentes GUI aprendam e se adaptem automaticamente.
Confira eu Papel, GitHub e a página do projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.
🧵🧵 Siga-nos no X (Twitter) para pesquisas gerais sobre IA e atualizações de desenvolvimento aqui…