Imagine ter que navegar por uma cozinha bagunçada, começando com um balcão cheio de pacotes de molho. Se o seu objetivo é limpar o balcão, você pode varrer os bolsos em grupo. Porém, se você quiser selecionar primeiro os pacotes de mostarda antes de descartar os demais, pode classificá-los por discriminação, por tipo de molho. E se, entre as mostardas, você está procurando um Poupon Cinzento, encontrar esta espécie em particular envolverá uma busca cuidadosa.
Os engenheiros do MIT desenvolveram um método que permite aos robôs tomar as mesmas decisões intuitivas e relevantes para as tarefas.
O novo método da equipe, denominado Clio, permite ao robô identificar partes importantes de uma cena, dadas as tarefas em questão. Com o Clio, o robô pega uma lista de tarefas definidas em linguagem natural e, com base nessas tarefas, determina o nível de granularidade necessário para interpretar o ambiente e “lembrar” apenas as partes relevantes da cena.
Em experimentos do mundo real, desde uma cabana desordenada até um prédio de cinco andares no campus do MIT, a equipe usou o Clio para segmentar automaticamente uma cena em diferentes níveis de granularidade, com base em um conjunto de funções especificadas no reconhecimento de linguagem natural como “movimento”. rack. revista” e “primeiros socorros”.
A equipe também correu com o Clio em tempo real com um robô de quatro rodas. À medida que o robô explorava o prédio de escritórios, Clio identificou e desenhou apenas as partes da cena relacionadas às tarefas do robô (como encontrar um brinquedo para cachorro enquanto ignora uma pilha de objetos de escritório), permitindo ao robô capturar objetos de interesse.
Clio recebeu o nome do museu grego de história, devido à sua capacidade de identificar e lembrar apenas os elementos que são importantes para uma tarefa. Os pesquisadores acreditam que o Clio pode ser útil em muitas situações e locais onde o robô precisará avaliar rapidamente e entender o que está ao seu redor no contexto de sua tarefa específica.
“Busca e resgate são um sistema motivacional para esta missão, mas o Clio também pode alimentar robôs domésticos e robôs que trabalham no chão de fábrica ao lado de pessoas”, disse Luca Carlone, professor associado do Departamento de Aeronáutica e Astronáutica (AeroAstro) do MIT, diretor do MIT. investigador. Laboratório de Sistemas de Informação e Decisão (LIDS) e diretor do Laboratório MIT SPARK. “Trata-se realmente de ajudar o robô a compreender o ambiente e o que ele precisa lembrar para realizar seu trabalho.”
A equipe detalha suas descobertas em um estudo publicado hoje na revista Livros sobre Robótica e Automação. Os coautores de Carlone incluem membros do SPARK Lab: Dominic Maggio, Yun Chang, Nathan Hughes e Lukas Schmid; e membros do Laboratório Lincoln do MIT: Matthew Trang, Dan Griffith, Carlyn Dougherty e Eric Cristofalo.
Campos abertos
Grandes avanços nas áreas de visão computacional e processamento de linguagem natural permitiram que robôs identificassem objetos em seu ambiente. Mas até recentemente, os robôs só conseguiam fazer isso em “situações fechadas”, onde eram programados para trabalhar num ambiente cuidadosamente selecionado e controlado, com um número limitado de objetos que o robô foi pré-treinado para ver.
Nos últimos anos, os pesquisadores adotaram uma abordagem “aberta” para permitir que os robôs vejam objetos em situações do mundo real. No campo do reconhecimento de conjuntos abertos, os pesquisadores usaram ferramentas de aprendizado profundo para construir redes neurais que podem processar bilhões de imagens da Internet, junto com o texto associado a cada imagem (como a foto de um cachorro de um amigo no Facebook, a legenda ” Conheça meu novo cachorrinho!”).
A partir de milhões de pares de imagens de texto, uma rede neural aprende e identifica os segmentos da cena que apresentam certas palavras, como cachorro. O robô pode usar essa rede neural para reconhecer o cão em um ambiente completamente novo.
Mas ainda existe o desafio de como analisar uma cena de uma forma útil e relevante para uma tarefa específica.
“Os métodos típicos escolherão algum nível de granularidade fixo e arbitrário para encontrar uma maneira de combinar partes de uma cena no que você consideraria um único 'objeto'”, diz Maggio. “No entanto, a granularidade do que você chama de ‘coisa’ está, na verdade, relacionada ao que o robô deve fazer. Se essa granularidade for ajustada sem levar em conta as tarefas, o robô pode acabar com um mapa que não é útil para suas tarefas.”
Bloqueio de informações
Com o Clio, a equipe do MIT teve como objetivo permitir que os robôs interpretassem seu ambiente em um nível de granularidade que pudesse ser automaticamente ajustado às tarefas existentes.
Por exemplo, se for dada a tarefa de mover uma pilha de livros em uma prateleira, o robô deve ser capaz de determinar que toda a pilha de livros é um objeto relevante para a tarefa. Da mesma forma, se a tarefa fosse apenas mover um livro verde em uma pilha, o robô deveria classificar o livro verde como um único alvo e ignorar o resto do ambiente – incluindo os outros livros na pilha.
A abordagem da equipe combina visão computacional de última geração e modelos linguísticos de grande escala, incluindo redes neurais que fazem conexões entre milhões de imagens de código aberto e texto semântico. Eles também incluem ferramentas de mapeamento que dividem automaticamente uma imagem em muitos segmentos menores, que podem ser alimentados em uma rede neural para determinar se determinados segmentos são semelhantes. Os pesquisadores aplicaram então uma ideia da teoria clássica da informação chamada “gargalo de informação”, que usaram para comprimir uma série de segmentos de imagem de uma forma que seleciona e retém as partes mais relevantes para uma tarefa específica.
“Por exemplo, digamos que há muitos livros na cena do crime e meu trabalho é encontrar o livro verde. Nesse caso empurramos todas essas informações sobre o cenário do problema e acabamos com uma coleção de peças que representam o livro verde”, explicou Maggio. “Todas as outras peças não essenciais são apenas coletadas em uma coleção que podemos simplesmente remover. E ficamos com algo com a granularidade certa necessária para apoiar meu trabalho. “
Os pesquisadores demonstraram o Clio em vários ambientes do mundo real.
“O que pensámos seria tentar usar o Clio na minha casa, onde nunca tinha limpado antes”, disse Maggio.
A equipe criou uma lista de tarefas em linguagem natural, como “guardar a pilha de roupas” e depois usou o Clio para capturar imagens da casa em ruínas de Maggio. Nesses casos, Clio conseguiu dividir rapidamente as cenas do apartamento e alimentar as peças usando o algoritmo Information Bottleneck para identificar as partes que compõem o grosso das roupas.
Eles também correram com o Clio no robô quadrúpede da Boston Dynamic, Spot. Eles deram ao robô uma lista de tarefas a serem concluídas e, enquanto o robô explorava e mapeava o interior do prédio de escritórios, Clio corria em tempo real para um computador de bordo montado no Spot, para selecionar partes das cenas mapeadas. visualmente relacionado à tarefa em questão. O método criou um mapa de sobreposição mostrando apenas os objetos alvo, que o robô usou para se aproximar dos objetos identificados e completar fisicamente a tarefa.
“Operar o Clio em tempo real foi uma grande conquista para a equipe”, disse Maggio. “Muito trabalho anterior pode levar algumas horas para ser executado.”
No futuro, a equipe planeja adaptar o Clio para lidar com tarefas de alto nível e aproveitar os mais recentes avanços na representação gráfica de cenas visuais.
“Ainda estamos dando ao Clio certas funções, como 'encontrar cartas'”, disse Maggio. “Para busca e resgate, você precisa dar-lhes tarefas de alto nível, como ‘encontrar sobreviventes’ ou ‘obter poder’. Portanto, queremos alcançar uma compreensão de nível humano sobre como realizar as tarefas mais difíceis. “
Esta pesquisa foi apoiada, em parte, pela Fundação Nacional de Ciência dos EUA, pela Fundação Nacional de Ciência da Suíça, pelo Laboratório Lincoln do MIT, pelo Escritório de Pesquisa Naval dos EUA e pelo Laboratório de Pesquisa do Exército dos EUA, Sistemas Inteligentes Distribuídos e Colaborativos e Aliança de Pesquisa Colaborativa de Tecnologia.