Introdução
Os métodos tradicionais de estimativa de profundidade geralmente exigem metadados, como intrínsecos da câmera, ou incluem etapas de processamento adicionais que limitam sua aplicabilidade em situações do mundo real. Essas limitações tornam um desafio produzir mapas de profundidade precisos e adequados, especialmente para diversas aplicações, como realidade aumentada, realidade virtual e processamento avançado de imagens. Para enfrentar esses desafios, a Apple lançou o Depth Pro, um modelo avançado de IA projetado para medição de profundidade monocular métrica de disparo zero, redefinindo o campo de visão 3D ao fornecer mapas nítidos e de alta resolução em uma fração de segundo.
Preenchendo a lacuna na medição profunda
O Depth Pro visa preencher a lacuna nos métodos tradicionais, produzindo mapas de profundidade métrica que são totalmente dimensionados em situações de disparo zero, o que significa que pode criar informações detalhadas de profundidade a partir de uma imagem bruta sem treinamento adicional em dados específicos do domínio. Inspirado em trabalhos anteriores como MiDaS, o Depth Pro é eficiente, gerando um mapa de profundidade de 2,25 megapixels em apenas 0,3 segundos em uma GPU V100 padrão, demonstrando sua eficácia em aplicações em tempo real, como edição de imagens, realidade virtual e realidade virtual adicional. .
Construção e Treinamento
A arquitetura do Depth Pro é centrada em um transformador de visão multiescala (ViT) projetado para equilibrar imagens globais enquanto preserva estruturas finas. Ao contrário dos transformadores convencionais, o Depth Pro usa um núcleo ViT simples em múltiplas escalas e combina as projeções em um único resultado de alta resolução, beneficiando-se de melhorias adicionais no pré-treinamento do ViT. Este método multiescala garante um delineamento nítido mesmo em casos complexos que envolvem pequenas estruturas, como cabelos e pelos, o que muitas vezes é um desafio para modelos de medição de profundidade monoculares.
Para treinar o modelo, a Apple usou conjuntos de dados reais e sintéticos, utilizando um currículo de treinamento em duas etapas. Inicialmente, o Depth Pro foi treinado em uma combinação diversificada de conjuntos de dados sintéticos e do mundo real para obter um aprendizado robusto de recursos com bom desempenho em todos os domínios. Na segunda etapa, conjuntos de dados artificiais com pixels perfeitos foram usados para refinar os mapas de profundidade, com foco no traçado de limites de alta qualidade. Esse currículo exclusivo ajudou o Depth Pro a obter precisão de borda superior, eliminando artefatos como “pixels voadores” que degradam a qualidade da imagem em outros modelos.
Distância focal média de disparo zero
Uma das características mais notáveis do Depth Pro é a capacidade de medir a distância focal em disparo zero. Ao contrário de muitos métodos anteriores que dependem de recursos conhecidos na câmera, o Depth Pro estima as distâncias focais diretamente dos recursos da rede de profundidade, melhorando sua flexibilidade para uma variedade de aplicações do mundo real. Isso permite que o modelo combine visualizações de imagens específicas, como especificar uma distância de renderização desejada, sem exigir metadados.
Avaliação de desempenho
As contribuições dos modelos são validadas através de testes extensivos, mostrando desempenho superior em comparação aos métodos anteriores em todas as múltiplas dimensões. O Depth Pro se destaca especialmente em precisão e latência de limites, com testes mostrando que ele fornece precisão incomparável no rastreamento de estruturas e limites finos, superando outros modelos de ponta, como Marigold, Depth Anything v2 e Metric3D v2. Por exemplo, o Depth Pro produziu mais mapas de profundidade e limites de oclusão rastreados com mais precisão, resultando em uma visão nova e mais limpa em comparação com outros métodos.
Desempenho e Limitações
A eficiência do conversor de visão também é destacada na comparação de velocidade: o Depth Pro é uma a duas ordens de magnitude mais rápido do que modelos focados na previsão de limites bem analisados, como Marigold e PatchFusion. Ele gerencia isso sem comprometer a precisão, tornando-o adequado para aplicações em tempo real, como geração de gráficos interativos e realidade aumentada.
Apesar de seu forte desempenho, o Depth Pro tem algumas limitações. O modelo luta com contraste e dispersão de volume, onde definir a profundidade de um único pixel se torna complicado. No entanto, o seu desenvolvimento marca um importante passo em frente na estimativa de profundidade monocular, fornecendo um modelo base robusto que é altamente preciso e computacionalmente eficiente.
A conclusão
No geral, a combinação do Depth Pro de medição de profundidade métrica de disparo zero, alta resolução, rastreamento preciso de limites e capacidade de processamento em tempo real o tornam o modelo líder para uma variedade de aplicações em visão 3D, desde edição de fotos até realidade virtual. Ao eliminar a necessidade de metadados e permitir mapas de profundidade nítidos e detalhados em menos de um segundo, o Depth Pro estabelece um novo padrão para a tecnologia de medição de profundidade, tornando-o uma ferramenta essencial para engenheiros e pesquisadores na área de visão computacional.
Confira Papel de novo Modelo em HF. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Interessado em promover sua empresa, produto, serviço ou evento para mais de 1 milhão de desenvolvedores e pesquisadores de IA? Vamos trabalhar juntos!
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.