DreamHOI: uma nova abordagem de IA para a geração de interfaces humanas virtuais em 3D usando descrições de texto e tipos de classificação
Inteligência artificial

DreamHOI: uma nova abordagem de IA para a geração de interfaces humanas virtuais em 3D usando descrições de texto e tipos de classificação


Os primeiros esforços em modelagem 3D focaram na reconstrução de visão única usando modelos específicos de fase. Desenvolvimentos recentes utilizam geradores de imagem e vídeo pré-treinados, especialmente modelos de distribuição, para permitir a geração de código aberto. O ajuste fino de conjuntos de dados de múltiplas visualizações melhorou os resultados, mas persistiram desafios na geração de composições e interações complexas. Os esforços para melhorar o design de modelos geradores de imagens têm enfrentado dificuldades na transferência das técnicas para a geração 3D. Outros métodos estenderam os métodos de abstração para a geração 3D integrada, melhorando objetos individuais e relações espaciais, ao mesmo tempo que aderem às restrições físicas.

A integração interpessoal continua com métodos como o InterFusion, que produz interações baseadas em texto. No entanto, continuam a existir limitações ao controlo da propriedade e dos bens pessoais. Muitos métodos lutam para preservar a identidade e a estrutura da malha individual durante a geração da comunicação. Esses desafios destacam a necessidade de técnicas mais eficientes que permitam maior controle do usuário e integração eficiente em pipelines de produção de ambientes virtuais. Este artigo baseia-se em esforços anteriores para resolver essas limitações e melhorar a reprodução das interações humanas em ambientes 3D.

Pesquisadores da Universidade de Oxford e da Universidade Carnegie Mellon introduziram um método de disparo de ovos para integrar a interação humana em 3D usando descrições textuais. Esta abordagem suporta modelos de difusão de texto para imagem para enfrentar os desafios decorrentes de vários conjuntos de dados geométricos e limitados. Melhora a especificação da malha humana usando gradientes de amostragem de destilação de pontuação desses modelos. O método usa uma representação dupla de transparência, combinando campos de radiação neural e densidade de malha orientada por esqueleto para preservar a identidade do personagem. Esta abordagem inovadora vai além da extensa coleta de dados, permitindo a geração realista de HOI de uma variedade de objetos e interações, avançando assim no campo da modelagem interativa 3D.

DreamHOI usa uma representação dupla transparente, incluindo campos de radiação neural (NeRFs) e falando sobre uma malha orientada por esqueleto. Este método melhora os detalhes da malha da pele, preservando a identidade do personagem. O método usa Score Distillation Sampling para derivar gradientes de modelos de difusão de texto para imagem pré-treinados, que orientam o processo de otimização. A configuração alterna entre formas transparentes e transparentes, ajustando os parâmetros da malha para alinhar com as definições de texto. Atribuir uma malha com skin ao redor da malha do objeto permite o ajuste preciso dos parâmetros de forma transparente, o que melhora o desempenho devido ao número reduzido de parâmetros.

Testes extensivos confirmam a eficácia do DreamHOI. Os estudos de ablação examinam o efeito de vários componentes, incluindo reguladores e técnicas de administração. Testes qualitativos e quantitativos mostram o desempenho do modelo em relação às linhas de base. Vários testes rápidos mostram a sinergia de métodos na produção de interações de alta qualidade em todas as diferentes situações. A implementação da combinação estratégica de orientação também melhora a compatibilidade do desenvolvimento. Esta metodologia abrangente e testes rigorosos estabelecem o DreamHOI como um método robusto para gerar interações humanas realistas e contextualmente relevantes em ambientes 3D.

DreamHOI é muito eficaz na geração de interações de objetos humanos em 3D a partir de informações textuais, tendo melhor desempenho em bases com altas pontuações de similaridade CLIP. Sua representação de dupla exposição combina NeRFs e definição de malha orientada por esqueleto, permitindo otimização dinâmica de pose enquanto mantém a identificação dos caracteres. Um processo de otimização em dois estágios, incluindo 5.000 etapas de refinamento NeRF, contribui para resultados de alta qualidade. Os controles desempenham um papel importante na manutenção do tamanho e alinhamento adequados do modelo. O regressor facilita a conversão entre NeRF e a representação da malha skinned. DreamHOI supera as limitações de métodos como DreamFusion na manutenção da identidade e estrutura da malha. Esta abordagem mostra a promessa de aplicações na produção de filmes e jogos, facilitando a criação de um ambiente de realidade virtual com pessoas interativas.

Concluindo, DreamHOI apresenta uma nova maneira de gerar interação humana 3D realista usando instruções textuais. O método usa uma representação de dupla transparência, que inclui NeRFs e parâmetros de forma transparente para malhas com skin. Este método, juntamente com o Score Distillation Sampling, otimiza os parâmetros de pose de forma eficaz. Os resultados dos testes mostram o desempenho superior do DreamHOI em comparação aos métodos básicos, com estudos de retirada confirmando a importância de cada componente. O artigo discute os desafios no uso preciso de parâmetros de pose e destaca o potencial do DreamHOI para facilitar a criação de ambientes virtuais. Este desenvolvimento abre novas possibilidades para aplicações na indústria do entretenimento e além.


Confira Página do artigo e do projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)


Shoaib Nazir é estagiário de consultoria na MarktechPost e concluiu dois cursos de M.Tech no Instituto Indiano de Tecnologia (IIT), Kharagpur. Com uma forte paixão pela Ciência de Dados, está particularmente interessado nas diversas aplicações da inteligência artificial em vários domínios. Shoaib é movido pelo desejo de explorar os mais recentes desenvolvimentos tecnológicos e suas implicações práticas na vida cotidiana. Sua paixão pela inovação e pela solução de problemas do mundo real alimenta seu aprendizado e envolvimento contínuos no campo da IA.

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *