Pesquisadores da Universidade de Tsinghua acabam de abrir o CogAgent-9B-20241220: a versão mais recente do CogAgent

As interfaces gráficas do usuário (GUIs) são essenciais para a forma como os usuários interagem com o software. No entanto, construir agentes inteligentes que possam navegar com sucesso em GUIs tem sido um desafio constante. A dificuldade vem da necessidade de compreender o contexto visual, aceitar designs de GUI flexíveis e diversos e integrar esses sistemas e modelos de linguagem para funcionar com precisão. Os métodos tradicionais muitas vezes enfrentam dificuldades com a flexibilidade, especialmente ao lidar com layouts complexos ou alterações frequentes nas GUIs. Essas limitações retardaram o progresso na automação de tarefas relacionadas à GUI, como testes de software, melhorias de acessibilidade e automação de tarefas gerais.

Pesquisadores da Universidade de Tsinghua encontraram recentemente código aberto e introduziram CogAgent-9B-20241220versão mais recente do CogAgent. CogAgent é um modelo de agente GUI de código aberto desenvolvido com modelos de linguagem visual (VLMs). Esta ferramenta supera as deficiências dos métodos convencionais, combinando recursos visuais e de linguagem, capazes de navegar e interagir com GUIs de forma eficaz. O CogAgent apresenta um design modular e extensível, tornando-o um recurso inestimável para desenvolvedores e pesquisadores. Hospedado no GitHub, o projeto promove acessibilidade e colaboração dentro da comunidade.

Basicamente, o CogAgent interpreta componentes GUI e suas funcionalidades usando VLMs. Ao processar propriedades físicas e informações semânticas, ele pode executar tarefas como clicar em botões, inserir texto e navegar em menus com precisão e confiabilidade.

Detalhes técnicos e benefícios

A arquitetura do CogAgent é construída em VLMs avançados, otimizados para lidar com dados visuais, como capturas de tela, e informações de texto simultaneamente. Ele incorpora um mecanismo de atenção de fluxo duplo que mapeia recursos físicos (por exemplo, botões e ícones) para seus rótulos de texto ou descrições, melhorando sua capacidade de prever a intenção do usuário e executar ações apropriadas.

Uma das características marcantes do CogAgent é a capacidade de gerar várias GUIs sem exigir um extenso treinamento. As técnicas de aprendizagem por transferência permitem que o modelo se adapte rapidamente a novas estruturas e padrões de interação. Além disso, incorpora aprendizagem por reforço, permitindo melhorar seu desempenho com feedback. Seu design modular oferece suporte à integração perfeita com ferramentas e conjuntos de dados de terceiros, tornando-o versátil para diferentes aplicações.

Os benefícios do CogAgent incluem:

Precisão aprimorada: Ao combinar dicas visuais com linguagens, o modelo atinge maior precisão em comparação com soluções GUI automatizadas tradicionais.
Flexibilidade e escalabilidade: Seu design permite que funcione em vários setores e plataformas com manutenção mínima.
Desenvolvimento orientado para a comunidade: Sendo um projeto de código aberto, o CogAgent incentiva a colaboração e a inovação, incentivando uma ampla gama de aplicações e desenvolvimentos.

Resultados e detalhes

O teste CogAgent destaca sua eficácia. De acordo com seu relatório técnico, o modelo obteve o melhor desempenho em benchmarks de interface GUI. Por exemplo, é altamente bem sucedido em tarefas de navegação de software, superando os métodos existentes tanto em precisão como em velocidade. Os testadores notaram sua capacidade de lidar com estruturas complexas e situações desafiadoras com habilidade notável.

Além disso, o CogAgent demonstrou grande eficiência no uso de dados. Experimentos mostraram que são necessários até 50% menos exemplos rotulados em comparação com modelos tradicionais, tornando-o econômico e prático para aplicações do mundo real. Também melhorou sua adaptabilidade e desempenho ao longo do tempo, à medida que o modelo aprendeu com as interações do usuário e cenários de aplicativos específicos.

A conclusão

O CogAgent fornece uma solução prática e cuidadosa para desafios de longa data na interação com GUI. Ao combinar o poder dos modelos de linguagem visual com o design centrado no usuário, os pesquisadores da Universidade Tsinghua criaram uma ferramenta eficiente e acessível. A sua natureza de código aberto garante que a comunidade em geral possa contribuir para o seu desenvolvimento, abrindo novas oportunidades para automação e acessibilidade de software. Como uma inovação na interação GUI, o CogAgent marca um passo à frente na criação de agentes inteligentes e flexíveis que podem atender a uma variedade de necessidades do usuário.

Confira eu Relatório técnico e página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Detalhes técnicos e benefícios

Resultados e detalhes

A conclusão

Você também pode gostar...

Uma nova abordagem de IA para redes de simulação múltipla para hipergrafos restritos

Principais cursos de IA para Inteligência Artificial Gerativa em 2024

Tokenformer: a arquitetura de transformador de próxima geração que aproveita parâmetros tokenizados para escalonamento contínuo e rápido em aplicativos de IA

Deixe um comentário Cancelar resposta