Uma maneira melhor e mais rápida de treinar robôs de uso geral | Notícias do MIT
Inteligência artificial

Uma maneira melhor e mais rápida de treinar robôs de uso geral | Notícias do MIT

No clássico desenho animado “Os Jetsons”, Rosie, a empregada robótica, transita facilmente entre limpar a casa, preparar o jantar e levar o lixo para fora. Mas na vida real, treinar um robô de uso geral ainda é um grande desafio.

Normalmente, os engenheiros coletam dados específicos de um robô e de uma tarefa, que usam para treinar o robô em um ambiente controlado. No entanto, a recolha destes dados é dispendiosa e demorada, e o robô terá dificuldade em adaptar-se a um ambiente ou tarefas que nunca viu antes.

Para treinar melhores robôs de uso geral, os pesquisadores do MIT desenvolveram um método flexível que combina grandes quantidades de dados diversos de múltiplas fontes em um único sistema que pode ensinar a qualquer robô uma ampla gama de tarefas.

A sua abordagem envolve o alinhamento de dados de vários domínios, tais como simulações e robôs reais, e múltiplas modalidades, incluindo sensores de visão e codificadores de posição do braço do robô, numa “linguagem” partilhada que um modelo generativo de IA pode processar.

Ao combinar uma quantidade tão grande de dados, este método pode ser usado para treinar um robô para realizar diferentes tarefas sem a necessidade de começar a treiná-lo do zero a cada vez.

Esta abordagem pode ser mais rápida e menos dispendiosa do que as técnicas tradicionais porque requer muito menos dados específicos da tarefa. Além disso, melhorou o treinamento desde o início em mais de 20% em simulações e testes do mundo real.

“Na robótica, as pessoas costumam dizer que não temos informações de treinamento suficientes. Mas, na minha opinião, outro grande problema é que os dados vêm de muitos domínios, métodos e hardware de robô diferentes. Nosso trabalho mostra como você pode treinar um robô como um todo”, disse Lirui Wang, estudante de graduação em engenharia elétrica e ciência da computação (EECS) e autor principal do artigo.

Os co-autores de Wang incluem Jialiang Zhao, estudante de pós-graduação do EECS; Xinlei Chen, cientista pesquisador da Meta; e o autor sênior Kaiming He, professor associado do EECS e membro do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL). A pesquisa será apresentada na Conferência de Sistemas de Processamento de Informação Neural.

Inspirado em LLMs

A “política” do robô faz observações de sensores, como imagens de câmeras ou medições diretas que rastreiam a velocidade e o posicionamento do braço do robô, e informa ao robô como e onde se mover.

As políticas são frequentemente treinadas usando aprendizagem simulada, o que significa que uma pessoa mostra ações ou usa um robô por telefone para gerar dados, que são alimentados em um modelo de IA que aprende a política. Como esse método utiliza uma pequena quantidade de dados específicos de tarefas, os robôs tendem a falhar quando sua posição ou tarefa muda.

Para desenvolver uma abordagem melhor, Wang e seus colaboradores inspiraram-se em grandes modelos de linguagem, como o GPT-4.

Esses modelos são pré-treinados usando uma grande quantidade de dados linguísticos e depois ajustados alimentando-os com uma pequena quantidade de dados específicos da tarefa. O pré-treinamento com tantos dados ajuda os modelos a se adaptarem para um bom desempenho em diferentes tarefas.

“Nos campos da linguagem, todos os detalhes são apenas frases. Nos robôs, dada toda a heterogeneidade dos dados, se quisermos pré-treinar da mesma forma, precisamos de uma arquitetura diferente”, afirmou.

Os dados do robô assumem muitas formas, desde imagens de câmeras até comandos de linguagem e mapas de profundidade. Ao mesmo tempo, cada robô é mecanicamente único, com um número e formato diferente de braços, punhos e sensores. Além disso, os locais onde os dados são coletados variam muito.

Os pesquisadores do MIT desenvolveram uma nova estrutura chamada Transformadores Pré-treinados Heterogêneos (HPT) que combina dados desses vários métodos e domínios.

Eles incluíram um modelo de aprendizado de máquina conhecido como transformador no centro de sua estrutura, que processa informações de visão e propriocepção. Um transformador é o mesmo tipo de modelo que forma a espinha dorsal dos modelos de linguagem maiores.

Os pesquisadores combinam os dados da detecção de visão e identidade com o mesmo tipo de entrada, chamado token, que o transformador pode processar. Cada entrada é representada com o mesmo número fixo de tokens.

Em seguida, o transformador processa todas as entradas em um espaço compartilhado, crescendo em um modelo maior e pré-treinado à medida que processa e aprende com mais dados. Quanto maior o transformador, melhor funcionará.

O usuário só precisa alimentar o HPT com uma pequena quantidade de dados sobre o design, a configuração e a tarefa do robô que deseja que ele execute. Em seguida, o HPT transfere as informações que o transformador adquiriu durante o treinamento anterior para aprender uma nova tarefa.

Permite movimentos hábeis

Um dos maiores desafios no desenvolvimento do HPT foi criar um grande conjunto de dados para pré-treinamento do transformador, que inclui 52 conjuntos de dados com mais de 200.000 trajetórias de robôs em quatro fases, incluindo vídeos de demonstração humana e simulações.

Os pesquisadores também precisam desenvolver uma maneira eficiente de converter os sinais brutos de propriocepção do conjunto de sensores em dados que o transdutor possa manipular.

“A propriocepção é essencial para permitir muitos movimentos inteligentes. Como o número de fichas nos nossos edifícios permanece o mesmo, damos a mesma importância à propriedade e à percepção”, explicou Wang.

Quando testaram o HPT, ele melhorou o desempenho do robô em mais de 20% em simulações e tarefas do mundo real, em comparação com o treinamento do zero a cada vez. Mesmo quando a tarefa era muito diferente dos dados de treinamento, o HPT ainda melhorou o desempenho.

“Este artigo fornece uma nova maneira de treinar uma política única para todos os tipos de robôs. Isso permite o treinamento em diversos conjuntos de dados, permitindo que os métodos de aprendizagem de robôs aumentem significativamente o tamanho dos conjuntos de dados nos quais eles podem treinar. Também permite que o modelo se adapte rapidamente a novos ambientes robóticos, o que é importante à medida que novos designs de robôs continuam a ser produzidos”, disse David Held, professor associado do Instituto de Robótica da Universidade Carnegie Mellon, que não esteve envolvido no trabalho.

No futuro, os pesquisadores querem aprender como a diversidade de dados pode aumentar o desempenho do HPT. Eles também querem melhorar o HPT para poder processar dados não rotulados como GPT-4 e outros modelos de linguagem importantes.

“Nosso sonho é ter um cérebro robótico genérico que você possa baixar e usar em seu robô sem qualquer treinamento. Embora estejamos nos estágios iniciais, continuaremos a pressionar fortemente e a aumentar a esperança de que as políticas de robótica sejam bem-sucedidas, como é o caso das principais línguas”, disse ele.

Este trabalho foi financiado, em parte, pela Amazon Greater Boston Tech Initiative e pelo Toyota Research Institute.



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *