A previsão de geometria densa em visão computacional envolve a estimativa de propriedades como a profundidade e a normalidade de cada pixel na imagem. A previsão precisa da geometria é importante para aplicações como robótica, direção automatizada e realidade aumentada, mas os métodos atuais geralmente exigem treinamento extensivo em conjuntos de dados rotulados e têm dificuldade para generalizar em várias tarefas.
Os métodos existentes para previsão de geometria densa geralmente dependem de métodos de aprendizagem supervisionada que usam redes neurais convolucionais (CNNs) ou estruturas de transformadores. Esses métodos exigem grandes quantidades de dados rotulados e muitas vezes não funcionam bem em situações ingênuas, onde se espera que os modelos executem novas tarefas sem treinamento específico para a tarefa. Além disso, muitos modelos atuais são projetados para tarefas específicas de previsão de geometria e não possuem flexibilidade para se adaptarem a outras tarefas relacionadas.
Para superar esses desafios, uma equipe de pesquisadores da HKUST (GZ), da Universidade de Adelaide, do Ark Lab da Huawei e da HKU apresentou o Lotus, um novo modelo de base visual que visa melhorar as previsões de geometria densa de alta qualidade. O Lotus foi projetado para lidar com uma variedade de tarefas de detecção de geometria, como profundidade Zero-Shot e medição geral, usando uma abordagem unificada. Ao contrário dos modelos tradicionais que dependem de design específico para tarefas, o Lotus utiliza processos distribuídos para gerar previsões visuais, tornando-os flexíveis e adaptáveis a uma variedade de tarefas de previsão densas, sem exigir um extenso treinamento.
Lotus é um modelo visual baseado em propagação, o que significa que usa um processo de distribuição de probabilidade para gerar projeções geométricas detalhadas a partir de informações visuais. Neste modelo, as imagens são transformadas através de uma série de camadas adicionadas de ruído e depois subtraídas gradativamente para produzir previsões de profundidade e generalidade da área. Essa abordagem permite que a Lotus capture detalhes geométricos ricos que são frequentemente ignorados pelos modelos baseados em CNN.
Os pesquisadores projetaram o Lotus para operar em um cenário de disparo zero, permitindo integrar novas funções de previsão geométrica sem a necessidade de treinamento específico para tarefas. Isso torna o Lotus uma ferramenta versátil para projeção visual densa, adequada para diferentes aplicações onde a adaptabilidade é fundamental. Nos testes, a Lotus alcançou desempenho de última geração (SoTA) em duas tarefas principais de reconhecimento de geometria: Profundidade Zero-Shot e Medição Geral. O modelo superou as estruturas existentes, demonstrando sua eficácia na produção de previsões geométricas de alta qualidade, mesmo em situações abstratas e desafiadoras.
Além de alcançar alto desempenho, o Lotus também vem com ferramentas fáceis de usar para testar seus recursos. Os autores lançaram dois aplicativos Gradio no Hugging Face Spaces, que fornecem uma maneira interativa para os usuários testarem o Lotus e verem seu desempenho em dados do mundo real.
No geral, o lótus representa um grande avanço no campo da projeção de geometria densa. Ao utilizar um método baseado em distribuição, ele supera efetivamente as limitações dos métodos tradicionais, fornecendo uma solução flexível e poderosa para uma variedade de tarefas de previsão visual. Seu impressionante desempenho de disparo zero destaca seu potencial como modelo visual básico para uma ampla gama de aplicações.
Confira Papel de novo Demonstração. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Interessado em promover sua empresa, produto, serviço ou evento para mais de 1 milhão de desenvolvedores e pesquisadores de IA? Vamos trabalhar juntos!
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.