InfiGUIAgent: um novo agente GUI multimodal generalista com pensamento e reflexão nativos

Desenvolvendo uma interface gráfica de usuário (GUI) Os agentes enfrentam dois desafios principais que prejudicam sua eficácia. Primeiro, os agentes existentes carecem de fortes capacidades de raciocínio, baseiam-se principalmente em operações de uma só etapa e não conseguem incorporar métodos de aprendizagem reflexivos. Isso geralmente leva a erros repetidos na execução de tarefas complexas e com várias etapas. Muitos sistemas atuais dependem fortemente de anotações textuais que representam dados GUI, como árvores de acessibilidade. Isto leva a dois tipos de resultados: perda de informação e ineficiência estatística; mas também causam incompatibilidades entre plataformas e limitam a sua flexibilidade em situações reais de implementação.

As abordagens modernas para automação de GUI são modelos de linguagem em grande escala usados e codificadores conceituais para compreender e interagir com as configurações de GUI. Iniciativas como ILuvUI, CogAgent e Ferret-UI-anyres avançaram no campo melhorando a compreensão da GUI, usando codificadores visuais de alta resolução e técnicas de resolução de problemas. No entanto, estes métodos apresentam desvantagens significativas, incluindo alto custo computacional, dependência limitada de dados visuais em vez de representações textuais e poder computacional insuficiente. As restrições metodológicas colocam grandes restrições à sua capacidade de executar tarefas em tempo real e à complexidade da execução de sequências complexas. Isto limita enormemente a sua capacidade de adaptação flexível e correção de erros durante os processos de trabalho devido à falta de um método forte de pensamento sequencial e reflexivo.

Pesquisadores da Universidade de Zhejiang, Universidade de Tecnologia de Dalian, Reallm Labs, ByteDance Inc. e Universidade Politécnica de Hong Kong apresentam o InfiGUIAgent, um novo agente de interface de usuário que aborda essas limitações. A metodologia baseia-se em habilidades de pensamento complexo com uma estrutura de ajuste fino supervisionada por dois estágios para adaptabilidade e eficácia. O treinamento na primeira fase concentra-se no desenvolvimento de habilidades básicas usando vários conjuntos de dados que podem melhorar a compreensão dos gráficos da interface do usuário, layout e flexibilidade de trabalho. Os conjuntos de dados utilizados, como Screen2Words, GUIEnv e RICO SCA, incluem funções como interpretação semântica, modelagem de interação do usuário e aprendizagem baseada em consultas, permitindo que o agente seja equipado com conhecimento operacional completo.

Na fase seguinte, as capacidades avançadas de raciocínio são combinadas com o conhecimento integrado da trajetória, apoiando assim processos de raciocínio sequencial e antecipatório. A estrutura de raciocínio sequencial consiste em uma arquitetura de duas partes: uma parte estratégica focada na regressão de tarefas e uma parte estratégica na escolha da ação correta. O raciocínio antecipatório permite que o agente se ajuste e se ajuste avaliando o que era esperado versus o que aconteceu, melhorando assim o desempenho em situações únicas e mutáveis. Essa estrutura de dois estágios permite que o sistema lide nativamente com operações de várias etapas sem scripts adicionais, permitindo assim alta robustez e eficiência computacional.

O InfiGUIAgent é implementado otimizando Qwen2-VL-2B usando a tecnologia ZeRO0 para gerenciamento eficiente de recursos em todas as GPUs. Um formato de anotação avançado foi usado para modificar e melhorar a qualidade do conjunto de dados para que os elementos da GUI possam ser localizados com precisão. A filtragem de conjuntos de dados aumenta a compreensão da GUI, a localização e os recursos de controle de qualidade para tarefas como interpretação semântica e modelagem de interação. Os dados agregados foram então usados para raciocínio para garantir que toda a cobertura de tarefas fosse agregada com anotações baseadas em rotas semelhantes às interações do mundo real com a GUI. Tal modularidade no desenho do espaço de ação permite ao agente responder dinamicamente a múltiplas plataformas, conferindo-lhe maior flexibilidade e desempenho.

O InfiGUIAgent teve um desempenho muito bom em testes de benchmark, superando em muito os melhores modelos em precisão e flexibilidade. Ele conseguiu atingir 76,3% de precisão no benchmark ScreenSpot, o que mostra a capacidade superior de configurar a GUI em plataformas móveis, desktop e web. Em ambientes dinâmicos como o AndroidWorld, o agente conseguiu uma taxa de sucesso de 0,09, que é superior a outros modelos semelhantes com contagens de parâmetros mais altas. Os resultados confirmam que o sistema pode executar tarefas complexas e de múltiplas etapas com precisão e adaptabilidade, ao mesmo tempo que enfatiza a eficácia dos seus modelos de raciocínio sequencial e inferencial.

O InfiGUIAgent representa um avanço na área de automação de GUI e resolve os principais motivos pelos quais as ferramentas existentes sofrem de limitações significativas de lógica e adaptabilidade. Sem exigir qualquer aprimoramento textual, esta funcionalidade moderna é alcançada através da combinação de métodos hierárquicos de decomposição de tarefas e aprendizagem visual em uma estrutura multimodal. Os novos benchmarks fornecidos aqui criam uma abertura para o desenvolvimento de agentes GUI de próxima geração que podem ser facilmente incorporados em aplicativos do mundo real para um fluxo de trabalho eficiente e robusto.

Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)

Source link

Você também pode gostar...

FinSafeNet: Melhorando a segurança bancária digital com aprendizado profundo para detecção de fraudes e proteção de eventos em tempo real

Microsoft AI lança modelo OmniParser no HuggingFace: um módulo compacto de análise de tela que pode transformar capturas de tela da interface do usuário em objetos editáveis

A estrutura MCSFF: uma nova estrutura de alinhamento de entidades multimodais projetada para capturar consistência e informações claras entre modalidades

Deixe um comentário Cancelar resposta