Para os roboticistas, um desafio está acima de todos os outros: adaptabilidade – a capacidade de criar máquinas que possam se adaptar a qualquer ambiente ou situação. Desde a década de 1970, o campo evoluiu da escrita de programas complexos para o uso de aprendizagem profunda, ensinando robôs a aprender diretamente com o comportamento humano. Mas permanece um gargalo importante: a qualidade dos dados. Para melhorar, os robôs precisam enfrentar situações que ultrapassam os limites de suas capacidades, operando nos limites de seu controle. Este processo tradicionalmente requer supervisão humana, com os operadores desafiando cuidadosamente os robôs para aumentar as suas capacidades. À medida que os robôs se tornam mais sofisticados, esta abordagem atinge um problema crescente: a necessidade de dados de treino de alta qualidade ultrapassa em muito a capacidade dos humanos para os fornecer.
Agora, uma equipe de pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) desenvolveu um novo método para treinar robôs que poderia acelerar enormemente a implantação de máquinas flexíveis e inteligentes em ambientes do mundo real. O novo programa, denominado “LucidSim”, utiliza os mais recentes avanços em IA generativa e simuladores de física para criar ambientes de treinamento diversos e realistas, ajudando os robôs a alcançar desempenho de nível especializado em tarefas complexas sem quaisquer dados do mundo real.
LucidSim combina simulação física com modelos generativos de IA, abordando um desafio persistente na robótica: transferir habilidades aprendidas por meio de simulação para o mundo real. “O maior desafio no aprendizado de robótica é criar uma 'lacuna de precisão' – a diferença entre ambientes de treinamento simulados e o mundo real complexo e imprevisível”, disse Ge Yang, pós-doutorando do MIT CSAIL, pesquisador principal do LucidSim. “Os métodos anteriores frequentemente dependiam de sensores profundos, o que simplificava o problema, mas perdia recursos importantes do mundo real.”
Um sistema multidimensional é uma combinação de diferentes tecnologias. Basicamente, o LucidSim usa modelos de linguagem em grande escala para gerar uma variedade de descrições espaciais estruturadas. Essas descrições são então convertidas em imagens usando modelos generativos. Para garantir que essas imagens reflitam a física do mundo real, um simulador de física subjacente é usado para orientar o processo de produção.
O nascimento de uma ideia: dos burritos ao sucesso
A inspiração para o LucidSim veio de um lugar improvável: uma conversa fora da Beantown Taqueria em Cambridge, Massachusetts. “Queríamos ensinar robôs equipados para ver como podem melhorar usando o feedback humano. “No entanto, percebemos que, para começar, não tínhamos uma política baseada na visão”, disse Alan Yu, estudante de graduação em engenharia elétrica e ciência da computação (EECS) no MIT e coautor do LucidSim. “Continuamos conversando sobre isso enquanto caminhávamos pela rua, depois paramos em frente à taqueria por cerca de meia hora. Foi onde tivemos nosso tempo.”
Para preparar os dados, a equipe criou imagens realistas extraindo mapas de profundidade, que fornecem informações geométricas, e máscaras semânticas, que rotulam diferentes partes da imagem, da cena simulada. Eles rapidamente perceberam, porém, que com um controle rigoroso sobre a composição do conteúdo da imagem, o modelo produziria imagens idênticas que não eram diferentes umas das outras usando as mesmas informações. Então, eles criaram uma maneira de obter diversas informações de texto do ChatGPT.
Este método, no entanto, resultou em apenas uma imagem. Para criar vídeos curtos e interativos que funcionam como “experiências” em miniatura para o robô, os cientistas combinaram um pouco da magia da imagem em um romance criado pela equipe, chamado “Dreams In Motion”. O programa calcula o movimento de cada pixel entre os quadros, para transformar uma única imagem gerada em um vídeo curto e com vários quadros. Dreams In Motion faz isso considerando a geometria 3D da cena e as mudanças relacionadas à perspectiva do robô.
“Estamos indo além da randomização de domínio, uma técnica desenvolvida em 2017 que usa cores e padrões aleatórios em objetos no espaço, que ainda é considerada a melhor opção atualmente”, disse Yu. “Embora esse método produza diversas informações, ele não tem autenticidade. LucidSim aborda problemas de variabilidade e realismo. É emocionante que mesmo sem ver o mundo real durante o treinamento, o robô possa ver e procurar obstáculos em ambientes reais.”
A equipe está entusiasmada com o potencial de usar o LucidSim em domínios fora da locomoção quadrúpede e do parkour, seu principal banco de testes. Um exemplo é a manipulação móvel, onde um robô móvel tem a tarefa de manusear objetos em um espaço aberto; Além disso, a visão das cores é importante. “Hoje, esses robôs ainda estão aprendendo com demonstrações do mundo real”, disse Yang. “Embora coletar demonstrações seja fácil, dimensionar uma configuração de robô do mundo real para milhares de habilidades é um desafio porque alguém precisa configurar cada plataforma. Esperamos tornar isso mais fácil, aumentando assim a qualidade, transferindo a coleta de dados para um ambiente virtual. “
Quem é o verdadeiro especialista?
A equipe colocou o LucidSim à prova, onde um professor especialista demonstra a capacidade do robô de aprender com ele. Os resultados foram surpreendentes: os robôs treinados por especialistas tiveram dificuldades, obtendo sucesso apenas em 15% das vezes – e mesmo duplicar a quantidade de dados de treinamento de especialistas não mudou o rumo. Mas quando os robôs coletaram seus dados de treinamento com o LucidSim, a história mudou drasticamente. Apenas dobrar o tamanho do conjunto de dados aumentou a taxa de sucesso para 88%. “E fornecer mais dados ao nosso robô melhora seu desempenho – em última análise, o aluno se torna um especialista”, disse Yang.
“Um dos principais desafios na transferência de robótica de simulação para real é alcançar propriedades visuais em ambientes simulados”, disse Shuran Song, professor assistente de engenharia elétrica da Universidade de Stanford, que não esteve envolvido na pesquisa. “A estrutura LucidSim oferece uma ótima solução ao usar modelos generativos para criar dados visuais diversos e altamente realistas para qualquer simulação. Este trabalho poderia acelerar enormemente a implantação de robôs treinados em ambientes virtuais em tarefas do mundo real.”
Das ruas de Cambridge à vanguarda da pesquisa robótica, LucidSim está abrindo caminho para uma nova geração de máquinas inteligentes e flexíveis – aprendendo a navegar em nosso mundo complexo sem nunca pisar nele.
Yu e Yang escreveram o artigo com quatro colaboradores do CSAIL: Ran Choi, pós-doutorado em engenharia mecânica do MIT; Yajvan Ravan, graduando do MIT em EECS; John Leonard, Samuel C. Collins Professor de Engenharia Mecânica e Oceânica no Departamento de Engenharia Mecânica do MIT; e Phillip Isola, professor associado do MIT em EECS. Seu trabalho foi apoiado, em parte, por uma bolsa Packard, uma bolsa de pesquisa Sloan, o Office of Naval Research, o Instituto de Defesa e Tecnologia de Cingapura, a Amazon, o Laboratório Lincoln do MIT e o Instituto da Fundação Nacional de Ciência para Inteligência Artificial e Interações Fundamentais. Os pesquisadores apresentaram seu trabalho na Conferência sobre Aprendizagem Robótica (CoRL) no início de novembro.