Os smartphones são ferramentas essenciais na vida cotidiana. No entanto, a complexidade das tarefas em dispositivos móveis muitas vezes leva à frustração e à ineficiência. Navegar pelos aplicativos e gerenciar processos de várias etapas exige tempo e esforço. Os avanços na IA introduziram grandes modelos multimodais (LMMS) que permitem que assistentes móveis executem tarefas complexas de forma autônoma. Embora estas inovações visem simplificar a tecnologia, muitas vezes não conseguem satisfazer as exigências práticas. A resolução destas lacunas requer capacidades avançadas de IA e sistemas dinâmicos.
Os assistentes móveis de hoje lutam para gerenciar tarefas complexas que exigem planejamento, reflexão e flexibilidade de longo prazo. Atividades como criar um itinerário ou comparar preços envolvem múltiplas etapas em todas as plataformas. Esses sistemas tratam cada tarefa como isolada, sem a capacidade de aprender com a experiência ou a eficiência de tarefas repetitivas, levando à eficiência. Além disso, alocar os mesmos recursos para todas as tarefas, independentemente da dificuldade, reduz a eficiência nas condições desejadas.
Algumas agências enfrentam estes desafios, mas permanecem limitadas no planeamento e na tomada de decisões. Agentes móveis como appagent e agent-agent-v1 concentram-se em tarefas curtas e predefinidas. Sistemas como o agente móvel-V2, apesar de serem mais bem organizados, não incluem uma estrutura hierárquica para atribuição e refinamento eficazes de tarefas. Estas estimativas destacam a necessidade de projetos de apoio móvel de alta qualidade.
Pesquisadores da Universidade de Illinois Urbana-Champaign e do Grupo Alibaba desenvolveram Agente Móvel-eum novo assistente móvel que aborda esses desafios em uma estrutura de agente multivívico. O sistema conta com um gestor responsável por planejar e dividir as tarefas em subobjetivos, apoiado por quatro subagentes: Perceptual, operador, indicador de ação e anotador. Esses agentes são especializados em percepção visual, ação rápida, verificação de erros e integração de informações. O destaque do Agent-e é seu módulo evolutivo, que inclui um sistema de memória de longo prazo. Esta memória é dividida em dois componentes:
- Dicas, que fornecem orientação geral com base em atividades anteriores
- Atalhos, que são funções sequenciais que correspondem a sub-rotinas específicas que são repetidas
O Agent-Agent-e trabalha continuamente para melhorar cuidadosamente seu desempenho usando ciclos de feedback. Após a conclusão de cada tarefa, a experiência do programa atualiza suas dicas e sugere novos atalhos com base no histórico de comunicação. Esta revisão é inspirada nos processos cognitivos humanos, onde a memória episódica fornece decisões futuras e o conhecimento processual proporciona o desempenho adequado da tarefa. Por exemplo, se um usuário realiza uma sequência de ações, como procurar um local e criar uma nota, o programa cria uma interrupção para realizar esse processo futuramente. O Mobile-Agent-e equilibra o planejamento de alto nível e a ação de baixo nível, incorporando esses assuntos em sua estrutura soberana.
O desempenho do agente-e e-agent-e foi testado usando um novo benchmark chamado Avaliação móvel-eque testa a capacidade de um programador de lidar com tarefas complexas do mundo real. Em comparação com os modelos existentes, os e-agentes alcançam pontuações significativamente mais altas, com um aumento de 15% nos pontos de conclusão de tarefas. Além disso, dicas e atalhos emergentes reduzem mais sobrecarga computacional, permitindo uma execução mais rápida sem comprometer a precisão. Por exemplo, um único verbo combinando um verbo é o mesmo “Toque”, “Digite” e “Enter” Pode economizar dois ingredientes que tomam decisões, melhorando a eficiência. O Design Hierárquico melhora a recuperação de erros, permitindo a adaptação a desafios inesperados durante a execução de tarefas.
As principais conclusões deste estudo incluem o seguinte:
- Agent-agent-e apresenta um agente gerenciador apoiado por quatro subagentes, permitindo delegação e execução eficiente de tarefas.
- O sistema atualiza continuamente conselhos e atalhos, inspirados em processos cognitivos humanos, para melhorar o desempenho e reduzir erros indesejados.
- Os atalhos reduzem mais sobrecarga computacional, resultando em processamento mais rápido com menos recursos. Por exemplo, o tempo para concluir uma tarefa diminuiu 20% em comparação com os modelos anteriores.
- O Mobile-Agent-e alcançou um aumento de 15% nas pontuações de satisfação em comparação aos modelos estaduais, demonstrando sua eficácia em aplicações do mundo real.
- O poder do programa se estende a diversas situações, como planejamento, gerenciamento de notas e comparação de preços entre aplicativos, mostrando sua flexibilidade e adaptabilidade.
Concluindo, o agente móvel faz a ponte entre as necessidades do usuário e as habilidades técnicas, abordando desafios críticos no gerenciamento de tarefas, planejamento e tomada de decisões. Sua estrutura real e capacidades evolutivas melhoram a eficiência e estabelecem um novo padrão para assistentes móveis inteligentes. Este estudo destaca o potencial das soluções baseadas em IA para transformar as interações com dispositivos humanos, tornando a tecnologia acessível e intuitiva para todos os usuários.
Confira Artigo, página GitHub e página do projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Meio teimoso então junte-se ao nosso Estação Telegráfica e LinkedIn Gro assunto. Não se esqueça de se juntar ao nosso Subreddit de 70 mil + ml.
🚨 [Recommended Read] Nebius AI Studio está se expandindo com modelos de visão, novos modelos de linguagem, incorporação e lora (Criado)
AsifAzzaq é o CEO da MarktechPost Media Inc.. como empresário e engenheiro visionário, Asifi está comprometido em aproveitar o poder da inteligência social para o bem. Seu esforço mais recente é o lançamento de uma plataforma de inteligência de mídia, MarktechPpost, que se destaca por seu profundo conhecimento de aprendizado de máquina e histórias de aprendizado profundo que são tecnicamente sólidas e facilmente compreendidas por um público amplo. A plataforma atinge mais de dois milhões de visualizações mensais, o que mostra sua popularidade entre o público.
📄 Conheça 'elevação': ferramenta independente de gerenciamento de projetos (patrocinada)