Quando alguém aconselha você a “conhecer seus limites”, provavelmente está sugerindo que você faça coisas como exercícios com moderação. Porém, em um robô o lema representa os limites de aprendizagem, ou as limitações de uma determinada tarefa no ambiente da máquina, para realizar as tarefas domésticas de forma segura e correta.
Por exemplo, imagine pedir a um robô para limpar sua cozinha quando ele não entende a física do ambiente. Como uma máquina pode criar um plano eficaz em várias etapas para garantir um ambiente impecável? Modelos linguísticos de grande escala (LLMs) podem aproximá-los, mas se o modelo for treinado apenas em texto, poderá perder conclusões importantes sobre as restrições físicas do robô, como a distância que pode alcançar ou se existem obstáculos próximos a evitar. Atenha-se apenas aos LLMs e você poderá acabar limpando manchas de massa do piso.
Para orientar os robôs na execução dessas tarefas abertas, os pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) do MIT usam modelos de visão para ver o que está ao redor da máquina e modelar suas restrições. A estratégia do grupo passa pelo LLM elaborar um programa que é testado em simulador para garantir que seja seguro e realista. Caso essa sequência de ações não seja possível, o modelo de linguagem irá gerar um novo programa, até atingir o que o robô pode utilizar.
Este método de tentativa e erro, que os pesquisadores chamam de “Programação de Robôs com Código de Satisfação de Restrições Contínuas” (PROC3S), testa estratégias demoradas para garantir que satisfaçam todas as restrições e permite que o robô execute várias tarefas, como escrever. letras individuais, desenhando uma estrela e classificando e colocando blocos em lugares diferentes. No futuro, o PROC3S poderá ajudar os robôs a completar tarefas mais complexas em ambientes dinâmicos, como casas, onde podem ser solicitados a realizar uma tarefa simples de várias etapas (como “preparar o café da manhã”).
“LLMs e sistemas robóticos clássicos, como planejadores de tarefas e movimentadores, não podem executar esses tipos de tarefas sozinhos, mas juntos, sua colaboração torna possível a resolução de problemas abertos”, disse o estudante de doutorado Nishanth Kumar SM '24, autor principal. autor de um novo artigo sobre PROC3S. “Estamos construindo uma simulação onde o robô está e experimentando muitas aplicações possíveis. Os modelos de visão nos ajudam a criar um mundo digital virtual que permite que um robô pense em possíveis ações para cada etapa de um horizonte de longo plano.”
O trabalho da equipe foi apresentado no mês passado em um artigo apresentado na Conferência sobre Aprendizagem Robótica (CoRL) em Munique, Alemanha.
Reproduza o vídeo
Ensinando ao robô seus limites para tarefas abertas
MIT CSAIL
O método dos pesquisadores utiliza LLM previamente treinado em textos de toda a internet. Antes de pedir ao PROC3S para realizar uma tarefa, a equipe forneceu ao seu modelo de linguagem um exemplo de tarefa (como desenhar um quadrado) relacionada a um alvo (desenhar uma estrela). Um exemplo de trabalho inclui uma descrição do trabalho, um plano de longo prazo e detalhes relevantes sobre a natureza do robô.
Mas como foram esses planos? Nas simulações, o PROC3S desenhou estrelas e letras com sucesso oito em cada dez vezes cada. Também pode colocar blocos digitais em pirâmides e linhas, e colocar objetos com precisão, como frutas em um prato. Em todas as demonstrações digitais, o método CSAIL concluiu a tarefa solicitada de forma mais consistente do que métodos comparáveis, como “LLM3” e “Code as Policies”.
Em seguida, os engenheiros da CSAIL trouxeram sua abordagem para o mundo real. Seu método desenvolveu e implementou projetos para o braço do robô, ensinando-o a colocar blocos em linhas retas. O PROC3S também permitiu que a máquina colocasse os blocos azuis e vermelhos nos mesmos recipientes e aproximasse todos os objetos do centro da mesa.
Kumar e o coautor Aidan Curtis SM '23, que também é estudante de doutorado e trabalha no CSAIL, dizem que as descobertas mostram como o LLM pode criar sistemas seguros nos quais as pessoas podem confiar para usar. Os pesquisadores imaginam um robô doméstico que possa receber um pedido simples (como “Eu trago os chips”) e encontrar com segurança as etapas necessárias para iniciá-lo. O PROC3S pode ajudar um robô a escanear projetos no mesmo ambiente digital para encontrar um curso de ação – e o mais importante, entregar um lanche saboroso.
Para trabalhos futuros, os pesquisadores pretendem melhorar os resultados usando um simulador de física mais avançado e expandir para operações de horizonte mais detalhadas com técnicas de busca de dados mais escaláveis. Além disso, eles planejam usar o PROC3S em robôs móveis quadrúpedes para tarefas que incluem caminhar e escanear o ambiente.
“Usar modelos básicos como o ChatGPT para controlar as ações dos robôs pode levar a comportamentos inseguros ou inadequados devido a alucinações”, disse o pesquisador do AI Institute, Eric Rosen, que não esteve envolvido no estudo. “O PROC3S aborda esse problema fornecendo modelos fundamentais para orientação de tarefas de alto nível, ao mesmo tempo em que usa técnicas de IA do mundo real para garantir ações seguras e corretas. Esta combinação de abordagens baseadas em programação e orientadas por dados pode ser fundamental para o desenvolvimento de robôs que possam compreender e executar de forma confiável uma gama mais ampla de tarefas do que é atualmente possível.”
Os coautores Kumar e Curtis também são afiliados do CSAIL: o pesquisador graduado do MIT Jing Cao e os professores do Departamento de Engenharia Elétrica e Ciência da Computação Leslie Pack Kaelbling e Tomás Lozano-Pérez. Seu trabalho foi apoiado, em parte, pela National Science Foundation, pelo Escritório de Pesquisa Científica da Força Aérea, pelo Escritório de Pesquisa Naval, pelo Escritório de Pesquisa Militar, pelo MIT Quest for Intelligence e pelo AI Institute.