Meta AI lança Sparsh: o primeiro codificador de uso geral para audição tátil baseada na visão
Inteligência artificial

Meta AI lança Sparsh: o primeiro codificador de uso geral para audição tátil baseada na visão


A detecção tátil desempenha um papel importante na robótica, ajudando as máquinas a compreender e interagir de forma eficaz com seu ambiente. No entanto, o estado atual dos sensores táteis baseados na visão apresenta desafios significativos. A variedade de sensores – que variam em forma, brilho e características de superfície – torna difícil criar uma solução universal. Os modelos tradicionais são frequentemente desenvolvidos e projetados especificamente para tarefas ou sensores específicos, tornando impraticável dimensionar essas soluções para todas as aplicações. Além disso, a obtenção de dados rotulados para propriedades importantes, como força e deslizamento, é demorada e consome muitos recursos, além de limitar o potencial da tecnologia de sensores táteis em aplicações generalizadas.

Meta AI lança Sparsh: o primeiro codificador de uso geral para audição tátil baseada na visão

Para responder a esses desafios, a Meta AI introduziu o Sparsh, o primeiro codificador de uso geral para detecção tátil baseada na visão. Nomeado após a palavra sânscrita para “toque”, Sparsh representa apropriadamente uma mudança de modelos de sensores específicos para uma abordagem flexível e escalável. Sparsh usa os mais recentes avanços em aprendizagem supervisionada (SSL) para criar representações de gestos que funcionam em uma ampla gama de sensores de toque baseados em visão. Ao contrário dos métodos anteriores que dependem de dados rotulados específicos de tarefas, o Sparsh é treinado usando mais de 460.000 imagens táteis, não rotuladas e coletadas de vários sensores táteis. Ao evitar a dependência de etiquetas, a Sparsh abre a porta para aplicações além do que os modelos táteis tradicionais podem oferecer.

Detalhes técnicos e benefícios do Sparsh

O Sparsh é baseado em modelos SSL de última geração, como DINO e Joint-Embedding Predictive Architecture (JEPA), que foram adaptados ao domínio relevante. Essa abordagem permite que Sparsh generalize uma variedade de sensores, como DIGIT e GelSight, e alcance alto desempenho em múltiplas tarefas. Uma família de codificadores pré-treinados em mais de 460.000 imagens relevantes serve como base, reduzindo a necessidade de dados rotulados manualmente e permitindo um treinamento altamente eficiente. A estrutura Sparsh inclui o TacBench, um benchmark que inclui seis funções centrais, como medição de potência, detecção de suavidade, estimativa de pose, estabilidade, reconhecimento de tecido e manipulação inteligente. Esses trabalhos testam o desempenho dos modelos Sparsh em comparação com soluções tradicionais específicas de sensores, destacando ganhos de desempenho significativos – 95% em média – enquanto usam 33-50% menos dados rotulados do que outros modelos.

Importância do Sparsh em Robótica e IA

As implicações de Sparsh são importantes, especialmente na robótica, onde os sentidos táteis desempenham um papel importante no desenvolvimento da interação física e da criatividade. Ao superar as limitações dos modelos tradicionais que exigem dados rotulados, o Sparsh abre caminho para aplicações mais avançadas, incluindo manipulação manual e programação dinâmica. Os testes mostram que o Sparsh supera os modelos completos de tarefas específicas em mais de 95% em casos limitados. Isto significa que os robôs equipados com sensores táteis Sparsh podem compreender melhor o que os rodeia, mesmo com menos dados rotulados. Além disso, o Sparsh provou ser muito eficaz em diversas tarefas, incluindo detecção de suavidade (obtendo a maior pontuação F1 entre os modelos testados) e reconhecimento de tecido, fornecendo uma solução robusta para tarefas de manipulação de robôs no mundo real.

A conclusão

A introdução do Meta de Sparsh marca um passo significativo no desenvolvimento da inteligência física com IA. Ao lançar esta família de codificadores de toque de uso geral, a Meta pretende capacitar a comunidade de pesquisa para construir soluções escaláveis ​​para robótica e IA. A confiança de Sparsh no aprendizado de automonitoramento permite que ele evite o processo caro e trabalhoso de coleta de dados rotulados, proporcionando assim uma abordagem mais eficiente para a criação de aplicativos interativos complexos. A sua capacidade de integrar todas as funções e sensores, demonstrada pelo seu alto desempenho no benchmark TacBench, sublinha o seu potencial revolucionário. À medida que o Sparsh se torna mais amplamente utilizado, poderemos ver avanços em vários campos, desde robôs industriais até automação residencial, onde a inteligência física e a precisão tátil são essenciais para uma operação eficaz.


Confira Papel, Página GitHubde novo Modelos no HuggingFace. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *