DELTA: um novo método de IA que rastreia com eficácia (10x mais rápido) cada pixel no espaço 3D a partir de vídeos monoculares

Rastrear movimentos 3D densos a partir de vídeos monoculares continua sendo um desafio, especialmente quando se busca precisão no nível de pixel em sequências longas. Os métodos existentes enfrentam desafios na obtenção de rastreamento 3D detalhado porque geralmente rastreiam apenas alguns pontos, o que requer mais detalhes para compreender a cena completa. Eles também exigem muito poder de processamento, o que dificulta o processamento adequado de vídeos longos. Além disso, muitos deles devem ser ajustados para manter a precisão de sequências estendidas, pois problemas como movimento da câmera e oclusão de objetos fazem com que o modelo perca o controle ou introduza erros.

Os métodos atuais incluem vários métodos para medir movimento em sequências de vídeo, cada um com pontos fortes e limitações exclusivos. Os métodos de fluxo óptico fornecem rastreamento denso em pixels, mas lutam pela robustez em cenas complexas, especialmente quando estendidos por sequências longas. O Scene Flow normalmente executa fluxo visual para medir movimentos 3D densos, usando dados RGB-D ou nuvens de pontos, mas continua sendo um desafio para uso eficaz em sequências de longa distância. O rastreamento de pontos captura trajetórias de movimento rastreando pontos específicos, com desenvolvimentos recentes combinando atenção espacial e temporal para um rastreamento ideal. No entanto, os métodos de rastreamento de pontos ainda precisam de melhorias para alcançar um monitoramento denso devido ao alto custo computacional. Os métodos de rastreamento com reconstrução usam um campo dinâmico para estimar o movimento, o que os torna ineficazes em aplicações em tempo real.

Uma equipe de pesquisadores da Mass Amherst e MIT-IBM Watson AI Lab, Snap Inc. eles têm proposto DELTA (Dense Long-Distance 3D Tracking in Any Video), o primeiro método projetado para rastrear com precisão cada pixel no espaço 3D em longas sequências de vídeo. DELTA funciona começando com um traço de resolução reduzida com atenção espaço-temporal e usando um upsampler baseado em atenção para maior precisão de resolução. As principais inovações incluem um upsampler para parâmetros de movimento mais nítidos, resolução espacial eficiente para rastreamento denso e uma representação de profundidade de registro que melhora o desempenho do rastreamento. DELTA alcança resultados de última geração em conjuntos de dados CVO e Kubric3D, mostrando melhoria de mais de 10% em métricas como Average Jaccard (AJ) e Average Position Difference in 3D (APD3D), e tem desempenho competitivo em benchmarks de rastreamento 3D, como TAP-Vid3D e LSFOdyssey. Ao contrário dos métodos existentes, o DELTA traz o rastreamento 3D denso em escala, executando mais de 8x mais rápido que os métodos anteriores, ao mesmo tempo que alcança precisão de última geração.

Os testes realizados mostraram que o DELTA é altamente eficaz em tarefas de rastreamento 3D, superando os métodos anteriores em velocidade e precisão. Treinada no conjunto de dados de Kubric com mais de 5.600 vídeos, a função de perda DELTA inclui correlação 2D, profundidade e perda de visibilidade.

Nos benchmarks, o DELTA obteve pontuação alta em CVO para rastreamento 2D de longo alcance e Kubric3D para rastreamento 3D denso, concluindo tarefas muito mais rápido do que as alternativas. As opções de design do DELTA, incluindo representação de profundidade de perfil, atenção espacial e amostragem baseada em atenção, melhoram muito sua precisão e eficiência em uma variedade de cenários de rastreamento.

Concluindo, DELTA é um método muito eficiente para rastrear cada pixel em cada quadro de vídeo, alcançando precisão em rastreamento 2D e 3D denso com um tempo de execução mais rápido do que os métodos existentes. O modelo pode precisar de ajuda com pontos ocluídos há muito tempo e tem melhor desempenho em vídeos com menos de algumas centenas de quadros. Este método tem as mesmas limitações dos métodos anteriores, pois utiliza janelas curtas de processamento temporal. Além disso, a precisão do método de rastreamento 3D depende da precisão e estabilidade temporal da medição de profundidade monocular utilizada. Espera-se que o desenvolvimento da pesquisa de medição de profundidade monocular melhore ainda mais o desempenho do método.

Confira Papel de novo O projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade

Nazmi Syed é estagiária de consultoria na MarktechPost e está cursando bacharelado em ciências no Instituto Indiano de Tecnologia (IIT) Kharagpur. Ele tem uma profunda paixão pela Ciência de Dados e está explorando ativamente a ampla aplicação da inteligência artificial em vários setores. Fascinada pelos avanços tecnológicos, a Nazmi está comprometida em compreender e aplicar inovações de ponta em situações do mundo real.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Avaliação de vulnerabilidade de agentes LLM: benchmark AgentHarm para resiliência contra ataques de jailbreak

ADOPT: um método adaptativo padrão para variáveis ​​confiáveis ​​sem ajuste de hiperparâmetros

33 principais conjuntos de dados de PNL para melhorar seus projetos de aprendizado de máquina

Deixe um comentário Cancelar resposta

ADOPT: um método adaptativo padrão para variáveis confiáveis sem ajuste de hiperparâmetros