MBA-SLAM: uma nova estrutura de IA para SLAM visual RGB-D denso e robusto, usando campos de radiação implícitos e respingos gaussianos explícitos

SLAM (Localização e Mapeamento Simultâneo) é uma das técnicas importantes utilizadas em robótica e visão computacional. Ajuda as máquinas a entender onde estão e a criar um mapa do ambiente ao seu redor. Imagens em movimento desfocadas enfrentam dificuldades em sistemas SLAM visualmente densos por dois motivos: 1) Estimativa de pose imprecisa durante o rastreamento: uma visualização densa da imagem atual BATA algoritmos dependem de imagens nítidas para estimar a posição da câmera, garantindo iluminação consistente em toda a visualização. Isto afeta o processo de mapeamento, resultando em múltiplas visualizações de geometria inconsistente. 2) Geometria multivisualização inconsistente no mapa: A má qualidade da imagem em diferentes visualizações pode levar a feições incorretas, causando erros 3D geometria e reconstrução de baixa qualidade 3D mapa. Combinando esses dois fatores, os sistemas SLAM densos existentes são frequentemente ineficientes ao lidar com imagens em movimento.

Os métodos SLAM convencionais usam pequenas nuvens de pontos para reconstruir o mapa. Programas recentes de SLAM densos baseados em aprendizagem concentram-se na geração de mapas densos, úteis para tarefas posteriores. Campos de Radiância Neural (NeRF) de novo Respingos Gaussianos 3D (3DGS) usado com programas SLAM para criar cenas 3D realistas, melhorar a qualidade do mapa e texturas. No entanto, os métodos existentes são altamente dependentes de resultados precisos e de alta qualidade. RGB-D inputs, que representam um desafio ao trabalhar com quadros desfocados por movimento, frequentemente encontrados em condições de pouca luz ou de longa exposição, resultando em baixa precisão e baixo desempenho de localização e mapeamento de várias maneiras.

Para resolver estes problemas, um grupo de investigadores da China realizou um estudo detalhado e propôs MBA-SLAMum pipeline SLAM RGB-D robusto de imagem projetado para lidar com entrada com redução de movimento de maneira eficaz. Este método combina um processo de imagem para desfocar o movimento físico nas etapas de rastreamento e mapeamento. O principal objetivo desta estrutura é reconstruir cenas 3D densas e de alta qualidade e estimar com precisão as trajetórias de movimento da câmera, conseguidas pela combinação de dois componentes principais: um rastreador com reconhecimento de desfoque de movimento e um mapa de desfoque baseado em massa. NeRF ou Respingos Gaussianos 3D.

O método usou um modelo de movimento contínuo para rastrear o movimento da câmera durante a exposição. O sistema processou o ponto onde a câmera inicia e lida com cada imagem desfocada por movimento. No acompanhamento, uma imagem de referência nítida foi fornecida, desfocada para corresponder à imagem atual e comparada para melhorar a medição do movimento. As trajetórias da câmera e as cenas 3D são otimizadas para mapeamento para reduzir erros de correspondência de imagens. Duas representações de cena foram testadas: campos de radiância neural (NeRF) e Splatting Gaussiano 3D discreto (3D-GS). NeRF alcançou taxas de quadros mais altas, mas qualidade de renderização inferior, enquanto 3D-GS forneceu melhor qualidade com taxas de quadros mais baixas.

O método mostrou uma redução na taxa de erros de rastreamento, com o conjunto de dados ScanNet rendendo ATE O REMSE de 0,053muito eficiente ORB-SLAM3 (0,081) e SUD-SLAM (0,071). Você tem TUM RGB-D conjunto de dados, MBA-SLAM alcançou um ATE RMSE de 0,062mostrando sua alta precisão de rastreamento. Na reconstrução de imagens, o MBA-SLAM se destaca com PSNR de 31,2dB nos conjuntos de dados ArchViz e SSIM de 0,96 para ScanNetmétodos mais eficientes, como ORB-SLAM3 e DSO em termos de qualidade. EU LPIP pontuação de MBA-SLAM também é relatado que 0,18indicando uma melhor qualidade de visão. Os campos de luz e os respingos gaussianos melhoraram a qualidade da imagem, enquanto CUDA aceleração permitiu processamento em tempo real, para fazer 5 vezes mais rápido que outros. O MBA SLAM proporcionou maior precisão de rastreamento, melhor qualidade de imagem e velocidade em comparação com outros, e parece ser uma aplicação promissora em cenários SLAM com desfoque de movimento devido a flutuações ambientais.

Em resumo, o quadro proposto MBA-SLAM lida efetivamente com problemas em BATA sistema. Com seu modelo de design cinematográfico, muito CUDA– rastreador com reconhecimento de desfoque otimizado e mapa de desfoque, o MBA-SLAM rastreia trajetórias precisas do movimento da câmera durante a exposição e reconstrói um mapa nítido com a imagem original para uma determinada sequência de vídeo de entrada. Ele teve um desempenho significativamente melhor do que os métodos anteriores em conjuntos de dados existentes e do mundo real. Este trabalho marca um avanço importante na área de sistemas SLAM e pode ser usado como base para futuros desenvolvimentos e pesquisas!

Confira Papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

🎙️ 🚨 'Avaliação de vulnerabilidade de um grande modelo de linguagem: uma análise comparativa dos métodos da Cruz Vermelha' Leia o relatório completo _(Promovido)

Divyesh é estagiário de consultoria na Marktechpost. Ele está cursando BTech em Engenharia Agrícola e Alimentar pelo Instituto Indiano de Tecnologia, Kharagpur. Ele é um entusiasta de Ciência de Dados e Aprendizado de Máquina que deseja integrar essas tecnologias avançadas no domínio agrícola e resolver desafios.

🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)