No campo emergente dos robôs domésticos, surgiu um grande desafio na execução de tarefas organizacionais pessoais, como organizar mantimentos na geladeira. Essas tarefas exigem que os robôs equilibrem as preferências do usuário e as restrições visuais, evitando colisões e mantendo a estabilidade. Embora os Modelos de Linguagem em Grande Escala (LLMs) permitam a comunicação em linguagem natural das preferências do usuário, essa abordagem pode ser difícil e demorada para que os usuários expressem especificamente suas necessidades. Embora os Modelos de Visão-Linguagem (VLMs) possam aprender com as exibições do usuário, os métodos atuais enfrentam duas limitações importantes: a ambigüidade de preferências específicas de exibições limitadas, uma vez que muitas preferências podem descrever o mesmo comportamento, e o desafio de traduzir preferências vagas em preferências físicas. locais que respeitem as barreiras naturais. Estas restrições conduzem frequentemente a execuções falhadas ou a possíveis conflitos em novas situações.
As abordagens existentes para enfrentar estes desafios enquadram-se principalmente em duas categorias: aprendizagem ativa e programação baseada em LLM. Os métodos populares de aprendizagem ativa muitas vezes dependem de perguntas comparativas para compreender as preferências do usuário, usando demonstrações por telefone ou comparações baseadas em recursos. Embora algumas abordagens tenham integrado LLMs para traduzir vetores de recursos em consultas de linguagem natural, elas lutam para se adaptar às preferências de clustering complexo. Na frente do planejamento, surgiram vários sistemas, incluindo planejadores de tarefas interativos, planejadores de custos e planejadores de código, mas muitas vezes faltam maneiras robustas de melhorar as preferências com base no feedback do usuário. Além disso, embora alguns métodos tentem quantificar a incerteza em previsões informais, enfrentam limitações devido à necessidade de extensos conjuntos de dados de medição, que muitas vezes são impossíveis de obter em ambientes domésticos. Estes métodos podem não conseguir lidar eficazmente com a ambiguidade de preferências ou ter dificuldade em incorporar restrições materiais no seu processo de planeamento.
Pesquisadores da Universidade Cornell e da Universidade Stanford estão lá APRICOT (Aprendizado de preferência ativa com planejador de tarefas com reconhecimento de restrições)a solução perfeita para preencher a lacuna entre a aprendizagem popular e a robótica prática. O sistema inclui quatro componentes principais: um modelo de visão-linguagem que traduz exibições visuais em instruções baseadas em linguagem, um módulo de aprendizagem de preferência ativa baseado em Bayesian LLM que identifica eficientemente as preferências do usuário fazendo perguntas guiadas, um agendador de tarefas com reconhecimento de restrições que gera desempenho . sistemas, respeitando as preferências e restrições físicas, e um sistema robótico para implementação no mundo real. Esta abordagem única aborda limitações anteriores, combinando aprendizagem de preferências eficiente com o poder de aplicações práticas, exigindo interação mínima do usuário e mantendo alta precisão. O desempenho do sistema foi verificado através de testes de benchmark em todas as 50 preferências e aplicações de robôs do mundo real em nove cenários diferentes.
A arquitetura da APRICOT possui três seções principais que funcionam em harmonia para conseguir a personalização do trabalho. A primeira fase consiste em um módulo de aprendizagem de preferências ativas baseado em Bayesian LLM que processa representações visuais através de VLM, que gera representações baseadas em linguagem. Este módulo utiliza três componentes principais: a proposta preferida do candidato, a determinação das perguntas e a seleção apropriada das perguntas, trabalhando em conjunto para ajustar previamente as preferências. A segunda etapa utiliza um escalonador de tarefas complexo que funciona de três formas principais: a geração de um programa semântico utilizando LLMs, o desenvolvimento de um programa geométrico utilizando modelos globais e a otimização da busca de feixes, e um sistema de refinamento baseado em luz que combina feedback de funções de recompensa e violações de limites. . O estágio final gerencia a execução no mundo real usando dois componentes principais: um sistema de visão que usa Grounding-DINO para detecção de objetos e um CLIP para planejamento e execução de políticas que transforma comandos de alto nível em sequências de habilidades de baixo nível por meio de treinamento em RL. políticas e algoritmos de planejamento de caminho. Este sistema integrado garante um desempenho robusto, mantendo as restrições físicas e as preferências do usuário.
Testes experimentais mostram o alto desempenho do APRICOT em todas as múltiplas medições. Para precisão de aprendizagem preferida, o APRICOT alcançou uma taxa de precisão de 58,0%, superando significativamente os métodos de linha de base, incluindo Não Interativo (35,0%), LLM-Q/A (39,0%) e Cand+LLM-Q/A (43,0% ). O sistema mostrou notável eficiência na interação do usuário, exigindo 71,9% menos perguntas em comparação ao LLM-Q/A e 46,25% menos perguntas do que Cand+LLM-Q/A. Em situações difíceis, a APRICOT manteve excelente desempenho com 96,0% de planos possíveis e 89,0% de satisfação de preferência em situações desafiadoras. A capacidade de adaptação do sistema foi particularmente notável, conforme demonstrado pela sua capacidade de manter o desempenho mesmo em ambientes cada vez mais estressantes e de ajustar eficazmente os planos em resposta às mudanças ambientais. Estes resultados destacam a eficácia do APRICOT na medição da satisfação das preferências e das restrições físicas, ao mesmo tempo que minimizam a interação do utilizador.
DAMASCO representa um avanço significativo na robótica personalizada, combinando com sucesso aprendizagem adaptativa e programação consciente. O programa demonstra eficácia em tarefas organizacionais do mundo real através de sua abordagem de três fases, que combina interação mínima do usuário com fortes capacidades de aplicação. No entanto, existe uma limitação significativa na componente de aprendizagem de preferências activas, que pressupõe que as preferências da verdade fundamental devem estar entre os candidatos gerados, o que pode limitar a sua eficácia em determinadas situações onde as preferências do utilizador são muito diferentes ou complexas.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade
Asjad é consultor estagiário na Marktechpost. Ele está cursando B.Tech em engenharia mecânica no Instituto Indiano de Tecnologia, Kharagpur. Asjad é um entusiasta do aprendizado de máquina e do aprendizado profundo que pesquisa regularmente a aplicação do aprendizado de máquina na área da saúde.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️