Vista3D: uma nova estrutura de IA para geração rápida e detalhada de objetos 3D a partir de uma única imagem usando difusão prévia

A geração anterior de modelos 3D a partir de imagens únicas enfrentou desafios. As estruturas de alimentação produziam objetos simples devido aos dados 3D limitados. Os respingos gaussianos forneceram geometria grosseira rapidamente, mas careciam de detalhes finos e consistência de visualização. O limiar de gradiente ingênuo resultou em apinhamento excessivo e inchaço da geometria. Os métodos estacionários melhoraram a precisão, mas o deslocamento levou a problemas estruturais. A investigação dos utilizadores revelou consistência de pontos de vista e questões de qualidade, sublinhando a necessidade de quadros robustos. A disponibilidade de dados, a preservação de dados e as limitações de consistência destacaram a necessidade de métodos avançados. O Vista3D aborda esses desafios, introduzindo velocidade e qualidade na taxa de quadros na geração de modelos 3D a partir de imagens únicas.

Pesquisadores da Universidade Nacional de Cingapura e da Huawei Technologies Ltd apresentam o Vista3D, uma nova estrutura para gerar representações 3D a partir de uma única imagem. O sistema enfrenta o desafio de revelar as dimensões de objetos ocultos usando uma abordagem de dois estágios: um estágio grosseiro usando Gaussian Splatting da geometria original e um estágio fino para refinar a geometria com extração e otimização de Signed Range. Este método melhora a qualidade do modelo capturando objetos visíveis e invisíveis. Vista3D sincroniza valores de distribuição 2D e 3D, equilibrando consistência e diversidade. A estrutura alcança uma produção 3D rápida e consistente em cinco minutos e permite a edição orientada pelo usuário por meio de informações textuais, melhorando potencialmente campos como jogos e realidade virtual.

A abordagem do Vista3D para gerar objetos 3D a partir de uma única imagem usa uma abordagem de vários estágios. O processo começa com a geração de geometria sólida usando 3D Gaussian Splatting, proporcionando uma estrutura 3D rápida. Esta geometria é melhorada convertendo-a em campos de distância sinalizados e introduzindo diferentes representações de isosuperfícies. Essas etapas melhoram a precisão espacial e o apelo visual. A estrutura incorpora o melhor da difusão para permitir uma renderização 3D versátil, usando restrições de tamanho de gradiente e modelagem angular para manter a consistência enquanto explora a diversidade de objetos.

O método segue uma estratégia de geração de malha grossa a fina, usando densidade top-K. Este método melhora gradualmente a geometria inicial para obter resultados de alta fidelidade. Ao combinar técnicas avançadas de renderização geométrica, refinamento e mapeamento de texturas, o Vista3D aborda os desafios da modelagem 3D tradicional. O uso inovador de pré-processamento de quadros e renderização por difusão melhora o detalhe, a consistência e a diversidade da saída, resultando em modelos 3D de alta qualidade produzidos com sucesso a partir de uma única imagem. Esta abordagem abrangente mostra uma melhoria significativa na criação de objetos 3D a partir de entradas 2D limitadas.

Os resultados da estrutura Vista3D mostram uma melhoria significativa na criação de objetos 3D a partir de imagens únicas. O Vista3D-L alcançou desempenho de última geração em todas as métricas, incluindo PSNR, SSIM e LPIPS, os métodos mais eficientes disponíveis. As pontuações CLIP correspondentes de 0,831 para Vista3D-S e 0,868 para Vista3D-L indicam alta concordância entre as visualizações 3D geradas e as imagens de referência. O framework gera objetos 3D em cerca de 5 minutos, uma melhoria significativa no tempo de processamento. Testes apropriados revelam alta qualidade de textura, especialmente em casos com visualizações de referência menos informativas. Estudos de ablação confirmam o desempenho dos principais componentes, enquanto comparações com métodos como One-2-3-45 e Wonder3D destacam o desempenho superior do Vista3D em textura, qualidade geométrica e consistência visual.

Concluindo, a estrutura Vista3D apresenta uma maneira robusta de avaliar as propriedades 3D de uma única imagem, permitindo a edição orientada pelo usuário e melhorando a qualidade da produção usando legendas de imagens. Um processo eficiente começa com o Gaussian Splatting da geometria sólida, seguido pelo refinamento usando representação de isosuperfícies e texturas discretas, produzindo malhas esculpidas em cerca de 5 minutos. A estrutura angular dos anteriores de difusão melhora a diversidade enquanto mantém a consistência 3D. A técnica de densidade top-k e os métodos de normalização contribuem para uma geometria precisa e detalhes finos. O Vista3D supera os métodos anteriores em realismo e detalhes, equilibrando o tempo de produção e a qualidade da malha. Os autores esperam que seu trabalho estimule o progresso na pesquisa 3D de uma geração.

Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

⏩ ⏩ WEBINAR GRATUITO DE IA: 'Vídeo SAM 2: Como sintonizar seus dados' (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Shoaib Nazir é estagiário de consultoria na MarktechPost e concluiu dois cursos de M.Tech no Instituto Indiano de Tecnologia (IIT), Kharagpur. Com uma forte paixão pela Ciência de Dados, está particularmente interessado nas diversas aplicações da inteligência artificial em vários domínios. Shoaib é movido pelo desejo de explorar os mais recentes desenvolvimentos tecnológicos e suas implicações práticas na vida cotidiana. Sua paixão pela inovação e pela solução de problemas do mundo real alimenta seu aprendizado e envolvimento contínuos no campo da IA.

⏩ ⏩ WEBINAR GRATUITO DE IA: 'Vídeo SAM 2: Como sintonizar seus dados' (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Source link

Você também pode gostar...

Descobrindo biomarcadores de AVC isquêmico: o aprendizado de máquina encontra a transcriptômica unicelular

DreamHOI: uma nova abordagem de IA para a geração de interfaces humanas virtuais em 3D usando descrições de texto e tipos de classificação

Voyage AI apresenta voyage-multimodal-3: um novo modelo de incorporação multimodal de última geração que melhora a precisão de recuperação em uma média de 19,63%

Deixe um comentário Cancelar resposta