Os dados visuais e de ação estão vinculados às ações do robô, formando um ciclo visual-ação. Os robôs dependem de parâmetros de controle para se moverem, enquanto os VFMs são excelentes no processamento de dados visuais. No entanto, existe uma lacuna metodológica entre os dados observacionais e empíricos decorrente de diferenças fundamentais nos seus métodos sensoriais, níveis de abstração, dinâmica temporal, dependência do contexto e suscetibilidade ao ruído. Estas diferenças tornam difícil relacionar diretamente a percepção visual com o controle da ação, exigindo representações intermediárias ou algoritmos de aprendizagem para preencher a lacuna. Atualmente, os robôs são representados por primitivas geométricas, como malhas de triângulos, e as propriedades cinemáticas definem sua morfologia. Embora os VFMs forneçam sinais de controle gerais, transmitir esses sinais aos robôs tem sido um desafio.
Pesquisadores da Universidade de Columbia e da Universidade de Stanford propuseram o “Dr. Robot”, uma técnica de renderização de robô de segmentação que combina Gaussians Splatting, blend skinning linear implícito (LBS) e transformação de forma para permitir o controle segmentado do robô. Uma inovação importante é a capacidade de calcular gradientes em imagens de robôs e transferi-los para parâmetros de controle de ação, tornando-os compatíveis com várias formas e graus de liberdade do robô. Esta abordagem permite que os robôs aprendam ações a partir de VFMs, preenchendo a lacuna entre a entrada visual e as ações de controle, o que antes era difícil de conseguir.
Os principais componentes do Dr. Robot inclui splatting gaussiano para modelar a aparência e geometria do robô no espaço canônico e LBS difuso para adaptar este modelo a diferentes posturas do robô. A visibilidade do robô é representada por um conjunto de Gaussianas 3D, que são transformadas e deformadas com base na posição do robô. Um modelo cinemático direto separável permite que essas alterações sejam rastreadas, enquanto a função dinâmica adapta a aparência do robô em tempo real. Este método produz gradientes de alta qualidade para aprender o controle do robô a partir de dados visuais, conforme mostrado ao fazer um melhor trabalho de postura do robô para reconstruir tarefas e planejar ações do robô com VFMs. Em vários testes, o Dr. O robô mostra melhor precisão na reconstrução da postura do robô a partir de vídeos e supera os métodos existentes em mais de 30% na estimativa de ângulos articulares. O quadro também é mostrado em aplicações como programação da ação de um robô usando entrada de linguagem e movimento reverso.
Concluindo, a pesquisa apresenta uma solução robusta para controle de robôs usando modelos básicos visuais, criando uma representação de robô completamente diferente. Dr. Robot atua como uma ponte entre o mundo virtual e o espaço de ação do robô, permitindo edição eficiente e controle direto sobre imagens e pixels. Ao desenvolver um método eficiente e flexível que combina cinemática direta, Gaussians Splatting e LBS difuso, este artigo estabelece uma nova base para a aplicação de aprendizagem baseada em visão em tarefas de controle de robôs.
Confira Artigo e Projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] Melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (avançado)
Pragati Jhunjhunwala é estagiário de consultoria na MarktechPost. Atualmente, ele está cursando bacharelado em tecnologia no Instituto Indiano de Tecnologia (IIT), Kharagpur. Ele é um entusiasta de tecnologia e tem grande interesse em uma ampla gama de aplicativos de software e ciência de dados. Ele está constantemente aprendendo sobre os desenvolvimentos nos vários campos de IA e ML.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️