ScreenSpot-Pro: a primeira referência para impulsionar LLMs multimodais em agentes GUI profissionais de alta resolução e ambientes de desktop

Os agentes GUI enfrentam três desafios principais em ambientes profissionais: (1) a maior complexidade das aplicações profissionais em comparação com software de uso geral, que requer uma compreensão detalhada de estruturas complexas; (2) alta resolução de instrumentos profissionais, levando a alvos menores e menor precisão da linha de base; e (3) dependência de ferramentas e documentação adicionais, o que acrescenta complexidade ao fluxo de trabalho. Esses desafios destacam a necessidade de melhores benchmarks e soluções para melhorar o desempenho do agente GUI nesses ambientes desafiadores.

Os atuais modelos de GUI e benchmarks são insuficientes para atender às necessidades dos ambientes profissionais. Ferramentas como o ScreenSpot são projetadas para tarefas de baixa resolução e não têm versatilidade para simular situações do mundo real com precisão. Modelos como OS-Atlas e UGground são computacionalmente ineficientes e falham quando o alvo é pequeno ou a interface é rica em ícones, o que é comum em aplicações profissionais. Além disso, a falta de suporte multilíngue limita a sua eficácia em fluxos de trabalho globais. Esta lacuna realça a necessidade de uma referência abrangente e realista para melhorar o campo.

Uma equipe de pesquisadores da Universidade Nacional de Cingapura, da East China Normal University e da Hong Kong Baptist University apresenta o ScreenSpot-Pro: uma nova estrutura projetada para cenários de desempenho de alta resolução. Este benchmark tem um conjunto de dados de 1.581 empregos em 23 aplicações em setores como desenvolvimento, ferramentas criativas, CAD, plataformas científicas e suítes de escritório. Possui alta resolução, visualização em tela cheia e anotações especializadas que garantem precisão e realismo. Guias multilíngues incluem inglês e chinês para uma ampla gama de testes. O ScreenSpot-Pro é único porque documenta um fluxo de trabalho real que leva a anotações reais e de alta qualidade, por isso funciona como uma ferramenta para testes completos e desenvolvimento de modelos básicos de GUI.

O conjunto de dados ScreenSpot-Pro captura cenários realistas e desafiadores. A base deste conjunto de dados é composta por imagens de alta resolução, onde as regiões alvo representam em média apenas 0,07% da tela total, identificando assim recursos sutis e pequenos da GUI. Os dados foram coletados por usuários profissionais com experiência nas aplicações relevantes, que utilizaram ferramentas especiais para garantir anotações precisas. Além disso, o conjunto de dados suporta competências multilingues para avaliar o desempenho bilingue e contém vários fluxos de trabalho para capturar as subtilezas de tarefas profissionais reais. Esses recursos o tornam particularmente útil para testar e melhorar a precisão e a flexibilidade dos agentes GUI.

Uma análise dos atuais modelos básicos de GUI usando o ScreenSpot-Pro revela grandes deficiências em sua capacidade de lidar com configurações profissionais de alta resolução. OS-Atlas-7B alcançou a maior taxa de precisão de 18,9%. No entanto, os métodos iterativos, exemplificados pelo ReGround, mostraram potencial para melhorar o desempenho, atingindo 40,2% de precisão através do ajuste fino das previsões usando uma abordagem em várias etapas. Componentes pequenos, como ícones, apresentaram dificuldades significativas, e tarefas bilíngues também destacaram as limitações dos modelos. Essas descobertas enfatizam a necessidade de estratégias aprimoradas que apoiem a compreensão e a robustez do conteúdo em contextos complexos de GUI.

ScreenSpot-Pro estabelece uma referência dinâmica para testar agentes GUI em ambientes de alta resolução para profissionais. Ele aborda desafios específicos em fluxos de trabalho complexos, fornecendo um conjunto de dados diversificado e preciso para orientar inovações no suporte de GUI. Esta oferta constrói a base para agentes mais inteligentes e eficientes que apoiam a eficiência das operações profissionais, aumentando drasticamente a produtividade e a inovação em todos os setores da indústria.

Confira eu Papel de novo Os dados. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

🧵🧵 Siga-nos no X (Twitter) para pesquisas gerais sobre IA e atualizações de desenvolvimento aqui…

Source link

Você também pode gostar...

Uma maneira melhor e mais rápida de treinar robôs de uso geral | Notícias do MIT

E11 Bio lança PRISM: revolucionando a conectômica cerebral para neurociência escalonável e aplicações de IA

FactAlign: uma nova estrutura de IA de alinhamento projetada para melhorar a precisão de respostas longas para LLMs, mantendo sua utilidade

Deixe um comentário Cancelar resposta