No atual zeitgeist da IA, a popularidade dos modelos de sequência cresceu devido à sua capacidade de analisar dados e prever o que fazer a seguir. Por exemplo, você pode usar modelos de previsão de token como ChatGPT, que esperam que cada palavra (token) em sequência gere respostas às consultas do usuário. Existem também modelos de difusão linear, como o Sora, que transforma palavras em visuais brilhantes e realistas ao “reduzir o ruído” de toda a sequência de vídeo.
Pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) propuseram uma mudança simples no esquema de treinamento de distribuição que torna essa sequência mais flexível.
Quando aplicados a campos como visão computacional e robótica, os seguintes modelos de distribuição de tokens e sequências completas têm potencial comercial. Os seguintes modelos de token podem gerar sequências que variam em comprimento. No entanto, eles realizam essas gerações sem realizar estados desejados em um futuro distante – como direcionar suas gerações sucessivas para uma determinada meta de 10 tokens à distância – e, portanto, requerem métodos de planejamento de horizonte adicional (longo prazo). Os modelos de distribuição podem modelar o estado futuro, mas não têm o poder dos modelos de token subsequentes para modelar sequências de comprimento variável.
Os pesquisadores do CSAIL queriam combinar os pontos fortes de ambos os modelos, então desenvolveram um método de treinamento de modelo sequencial chamado “Forçamento de Difusão”. O nome vem de “Forcing Teachers”, um esquema de treinamento comum que divide uma produção sequencial completa em etapas pequenas e simples para a próxima geração de tokens (como um bom professor simplificando um conceito complexo).
O Diffusion Forcing encontrou algo em comum entre os modelos de difusão e de forçamento do professor: ambos usam esquemas de treinamento que envolvem a previsão de tokens mascarados (ruidosos) a partir de tokens descobertos. No caso dos modelos de difusão, eles gradativamente adicionam ruído aos dados, o que pode ser considerado mascaramento parcial. O método dos pesquisadores do Diffusion Forcing do MIT treina redes neurais para limpar um conjunto de tokens, removendo diferentes quantidades de ruído dentro de cada um e, ao mesmo tempo, prevendo os próximos tokens. O resultado: um modelo flexível e confiável que resultou em vídeos sintéticos de maior qualidade e tomadas de decisão mais precisas para robôs e agentes de IA.
Ao filtrar dados ruidosos e prever com segurança as próximas etapas de uma tarefa, o Diffusion Forcing pode ajudar um robô a ignorar distrações visuais para concluir tarefas manipulativas. Ele também pode gerar sequências de vídeo estáveis e consistentes e guiar um agente de IA através de labirintos digitais. Esta abordagem pode permitir que robôs domésticos e de fábrica executem novas tarefas e aprimorem o entretenimento gerado por IA.
“Os modelos sequenciais visam contextualizar o passado conhecido e prever o futuro desconhecido, uma forma de dupla máscara. No entanto, o mascaramento não precisa ser binário”, disse o autor principal, estudante de doutorado em engenharia elétrica e ciência da computação (EECS) do MIT e membro do CSAIL, Boyuan Chen. “Com o Diffusion Forcing, adicionamos diferentes níveis de ruído a cada token, atuando efetivamente como uma forma de mascaramento parcial. Durante os testes, nosso sistema pode “fechar” uma coleção de tokens e transmitir a sequência em um futuro próximo com baixo nível de ruído. Ela sabe em que confiar em seus dados para superar insumos fora de distribuição. “
Em vários testes, o Diffusion Forcing conseguiu ignorar dados enganosos para executar tarefas enquanto antecipava ações futuras.
Quando utilizado por um braço robótico, por exemplo, ajudou a trocar duas frutas de brinquedo em três tapetes circulares, um pequeno exemplo de uma família de tarefas horizontais que exigem memórias. Os pesquisadores treinaram o robô controlando-o remotamente (ou telefonando) fisicamente. O robô é treinado para imitar os movimentos do usuário em sua câmera. Apesar de começar de forma não planejada e ver distrações como uma sacola de compras bloqueando os marcadores, ela colocou os itens nos locais pretendidos.
Para criar os vídeos, eles treinaram Diffusion Forcing na jogabilidade do jogo “Minecraft” e nos ambientes digitais coloridos criados no DeepMind Lab Simulator do Google. Quando dado um único quadro de vídeo, o método produziu vídeos mais estáveis e de maior resolução do que estruturas comparáveis, como o modelo de distribuição sequencial completo de Sora e modelos de token subsequentes, como ChatGPT. Esses métodos faziam os vídeos parecerem inconsistentes e, às vezes, não conseguiam produzir um vídeo funcional com apenas 72 quadros.
O Diffusion Forcing não apenas produz lindos vídeos, mas também pode servir como um editor que o orienta em direção aos resultados ou recompensas desejados. Devido à sua flexibilidade, o Diffusion Forcing pode gerar programas de forma diferente em diferentes horizontes de tempo, realizar pesquisas em árvores e incorporar a sensação de que o futuro distante é menos certo do que o futuro próximo. Na tarefa de resolver um labirinto 2D, o Diffusion Forcing teve um desempenho melhor que as seis bases ao produzir programas mais rápidos que levam à área objetivo, indicando que pode ser um escalonador eficaz para robôs no futuro.
Em cada demonstração, o Diffusion Forcing serviu como um modelo de sequência completa, um modelo para prever o próximo token, ou ambos. De acordo com Chen, esta abordagem dinâmica poderia servir como uma poderosa espinha dorsal para um “modelo mundial”, um sistema de IA que pode simular a dinâmica do mundo através do treino em milhares de milhões de vídeos da Internet. Isso permitirá que os robôs executem tarefas inovadoras, pensando no que precisam fazer com base em seu ambiente. Por exemplo, se você pedisse ao robô para abrir uma porta sem treinar como fazê-lo, o modelo poderia gerar um vídeo para mostrar à máquina como fazê-lo.
A equipe está atualmente procurando ampliar sua abordagem para conjuntos de dados maiores e os modelos de transformadores mais recentes para melhorar o desempenho. Eles pretendem expandir seu trabalho para criar cérebros robóticos como o ChatGPT, que ajudam os robôs a realizar tarefas em novos ambientes sem intervenção humana.
“Com o Diffusion Forcing, estamos dando um passo mais perto da produção de vídeo e da robótica”, disse o autor sênior Vincent Sitzmann, professor assistente do MIT e membro do CSAIL, onde lidera o grupo de Representação de Cena. “Em última análise, esperamos utilizar todas as informações armazenadas nos vídeos online para que os robôs possam ajudar no dia a dia. Há muitos desafios de investigação interessantes pela frente, como por exemplo a forma como os robôs podem aprender a imitar os humanos, observando-os mesmo quando os seus corpos são muito diferentes dos nossos!”
Chen e Sitzmann escreveram o artigo ao lado do recente pesquisador visitante do MIT, Diego Martí Monsó, e dos embaixadores do CSAIL: Yilun Du, estudante de pós-graduação do EECS; Max Simchowitz, ex-pós-doutorado e professor assistente da Carnegie Mellon University; e Russ Tedrake, Professor Toyota de EECS, Aeronáutica e Astronáutica e Engenharia Mecânica no MIT, vice-presidente de robótica do Toyota Research Institute e membro do CSAIL. Seu trabalho foi apoiado, em parte, pela Fundação Nacional de Ciência dos EUA, pela Agência de Ciência e Tecnologia de Defesa de Cingapura, pela Atividade de Projetos de Pesquisa Avançada de Inteligência do Departamento do Interior dos EUA e pelo Amazon Science Hub. Eles apresentarão suas pesquisas no NeurIPS em dezembro.