Em uma área artificial do artificialismo, fazer com que os modelos de grande idioma passem e interajam com as instalações de teste do usuário (GUIs) como um desafio significativo. Enquanto a capacidade de processar os dados de texto, eles geralmente atendem às dificuldades ao interpretar material como símbolos, botões e menus. Esse limite impede sua eficácia nas atividades que exigem comunicação sustentável com sites de comunicação de software, que são altamente visualizados.
Lidando com esse problema, a Microsoft lançou o Omniper V2, uma ferramenta projetada para melhorar a compreensão da GUI sobre o LLM. O Omniper V2 converte capturas de tela da interface do usuário em dados formais e mecânicos, permite que o LLMS entenda e vinculado a vários sites de software de maneira eficaz. Esse desenvolvimento pretende fechar a lacuna entre documentos e visuais, facilitando os aplicativos completos da IA.
Omniper V2 funciona com dois componentes principais: descoberta e palavras. O módulo de adoção usa uma versão bem organizada do modelo Yolov8 para encontrar itens práticos na captura de tela, como botões e ícones. Ao mesmo tempo, o módulo de proposta usa o modelo formal-2 para produzir rótulos descritivos nesses casos, fornecendo contexto para suas funções dentro da tela. Esse método combinado permite que o LLMS construa um entendimento detalhado da GUI, o que é importante na comunicação precisa e funcional.
Grande melhoria no Omniper V2 é o desenvolvimento de suas informações de treinamento. A ferramenta é treinada tão ampla quanto um amplo conjunto de iCon Chinninging e os dados definidos, obtidos nas páginas da web amplamente utilizadas e aplicativos. Esses são dados ricos para aprimorar a precisão do modelo para encontrar e explicar coisas menos eficazes e importantes na interação bem -sucedida da GUI. Além disso, ao fazer bem o tamanho da imagem do ícone, o Omniper V2 atingiu uma redução de 90% em comparação com sua versão anterior, com tempo de valução apressado e 0,8 segundos no RTX One 4090 GPU.
A operação Omniper V2 é mostrada em suas operações no benchmark da Screenspot Pro, uma estrutura de avaliação de terra da GUI. Quando combinado com o GPT-4O, o Omniper V2 recebeu entre 39,6% de precisão, observou aumentos da fundação GPT-4O de 0,8%. Esse desenvolvimento destaca a ferramenta de capacitar o LLMS para traduzir e participar com precisão com um GRIC complexo, mesmo nos principais sinais e pequenos ícones.
Apoiando a integração e avaliação, a Microsoft desenvolveu Omnitol, um sistema de janela refinado, incluindo Omniper V2 e agentes importantes. O omnitol é compatível com vários LLMs, incluindo o 4O / O1-mini do Openai, o Deep's 2.5VL e o soneto do Anthropic, com o soneto do Anthropic. Essas flutuações permitem que os aprimoramentos usem o Omniper V2 em todos os modelos e aplicativos, para facilitar a criação da GUI.
Em resumo, o Omnipaser V2 representa um desenvolvimento significativo em combinação do LLMS, incluindo o usuário. Ao converter capturas de tela da interface do usuário em dados formais, permite que o LLMS entenda e interaja com a integração de software. Aprimoramentos tecnológicos com precisão de precisão, redução de latência e referência, e a operação da Benchmark é uma ferramenta importante para os desenvolvedores que visam criar agentes inteligentes. Como a IA continua a aparecer, ferramentas como o Omniper V2 são importantes no bloqueio de gap entre o processo escritral e visual, o que resulta em sistemas de IA precisos e apropriados.
Enquete Informações técnicas, modelo na página de HF e Gitity. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 75k + ml subreddit.
🚨 Pesquisa recomendada recomendada para nexo

Sana Hassan, um contato em Marktechpost com um aluno do estudante de dual-grau no IIIT Madras, adora usar a tecnologia e a IA para lidar com os verdadeiros desafios do mundo. Estou muito interessado em resolver problemas práticos, traz uma nova visão da solução de IA para a IA e soluções reais.
