Tipo Os agentes querem fazer empregos reais em áreas digitais com entendimento e comunicação com sites de navegação, como botões e caixas de texto. Os maiores desafios que estão deitados nos ezisáveis abertos a áreas complexas, expressam materiais práticos, organizam atos práticos e usam atividades inteligentes que incluem encontrar áreas opostas ou preencher as caixas de texto. Esses agentes também precisam de programas de memória para lembrar ações passadas e se adaptar a novas circunstâncias. Um problema vital lida com modelos modernos, combinou o final do final da indisponibilidade de compreensão, pensamento e verbos dentro das costuras de trabalho sem costura que consistem nas informações da mais alta qualidade que incluem a opinião. Falta de tais informações, esses programas não podem se adaptar à variedade de medidas e medições poderosas.
Maneiras atuais Tipo As agências mais amplamente baseadas e depende em grande parte das regras especificadas nas estruturas e engajamento prescritas, consistentes ou inacreditáveis. As articulações baseadas no cluster, como O robô Probs Auckhead (processo RPA), eles se aplicam em áreas formais que usam as heurísticas definidas e exigem acesso direto aos programas, o que os mantém inapropriados para áreas poderosas ou restritivas. Agentes baseados em fracos usam modelos básicos como GPT-4 Com várias etapas de muitas etapas, mas depende do trabalho do trabalho, o que é encorajador e escrituras externas. Esses métodos são frágeis, requerem atualizações infinitas para expandir trabalhos e não têm uma integração perfeita de aprender com a comunicação do mundo real. Os modelos de agentes tradicionais tentam combinar, pensar, memória e verbos sob o mesmo teto, reduzindo a engenharia da educação humana, aprendendo. No entanto, esses modelos dependem das informações selecionadas e orientações de treinamento, reduzindo assim seus contextos. Os métodos não permitem que os agentes estudem independentemente, organizem ou tratem um estado informal sem subsidiárias.
Lidando com os contrastes voltados Tipo Desenvolvimento de agentes, pesquisadores de Sementes de Booktance e Universidade Tsinghuaproposto Quadro de alcatrões da interface do usuário Para aumentar os modelos de agentes na GUI nativa. Inclui entendimento avançado, a modulação do ato combinado, o pensamento avançado e o treinamento emergente, o que ajuda a reduzir a intervenção pessoal com o desenvolvimento melhorado. Ativa o entendimento detalhado do material correto que usa as grandes telas da GUI. Isso está lançando um espaço de ação combinado para medir o encontro do falante e usa grandes traços de rastreamento para melhorar a morte de muitas medidas. O quadro também inclui Programa-2 Raciocínio por decisões deliberadamente e executando suas habilidades através de suas chamadas usando os traços de comunicação on -line.
Os investigadores projetaram uma estrutura para vários objetivos importantes. O entendimento avançado é usado para garantir que os objetos da GUI sejam reconhecidos com precisão usando informações de trabalho selecionadas, como a descrição do elemento e a carootion grossa. O modelo de ação combinado vincula as definições de eventos com links de localização para obter base precisa. Programa – 2 Raciocínio incluído na apresentação de uma variedade de padrões e processos lógicos, que você deliberadamente Guil. Ele usa a mudança de dados de uma forte reunião e comunicação de dados, uma identificação de erros e adaptabilidade e adaptabilidade e adaptação de uma pessoa forte.
Os investigadores verificam Ui-tars treinado em corpus sobre 50b Os tokens atingem eixos diferentes, incluindo entendimento, propriedade e agente de energia. O modelo foi desenvolvido de três maneiras diferentes: UI-Tars-2b, alcatrão-7bao lado Tars-72be um exame amplo para garantir seus benefícios. Comparado às fundações como esta GPT-4O incluindo Claude-3.5As tiras da interface do usuário se saem melhor na medição de benchmarks de intervalos de interface do usuário, modelos similares de referência Baro v1-7b Ao limitar e muitos conjuntos de dados, ele mostra grandes habilidades nas condições mais difíceis. Em termos de empregos de agente, os t-alas são encaminhados para o controle multimodal Mind2Web e Android e lugares como estes Osworld incluindo Androidakdd. Os resultados destacaram a importância de Sistema-1 incluindo Programa-2 Raciocínio, em um programa – 2 benéficos de raciocínio, as condições do mundo real, apesar de exigirem muitos efeitos da operação. Avaliar o tamanho do modelo é atualizado para exibir e tomar decisões, especialmente em atividades on -line.
Em conclusão, o método proposto, Ui-tarsINOVE A automação da GUI integrando o entendimento avançado, a modulação da ação integrada, um plano de consulta e o raciocínio. Ele alcança o desempenho do reino, passando por sistemas passados como Claude e GPT-4O, e usa os trabalhos mais complicados da GUI por um cara um pouco preciso. Este trabalho estabelece uma base sólida para pesquisas futuras, especialmente nas agências que se aproximam e ao longo da vida que podem melhorar a continuidade real do mundo, beneficiando como desenvolver uma melhoria contínua na automação da GUI.
Enquete o papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 70k + ml subreddit.
🚨 [Recommended Read] O Nebius AI Studio está aumentando em modelos de observatório, novos modelos de idiomas, incorporação e Lora (Atualizado)
Divyesh é um contato no MarkteachPost. Perseguindo a BTECH para engenheiros agrícolas e alimentares no Instituto Indiano de Tecnologia, Kharagpur. Ele é um amante científico científico e típico que deseja combinar essa tecnologia líder no histórico agrícola e resolver desafios.
📄 Multiate 'Equipment': uma ferramenta para gerenciar projetos privados (patrocinados)