A criação de modelos 3D realistas para aplicações como realidade virtual, produção de filmes e projetos de engenharia pode ser um processo difícil que requer muitas tentativas e erros.
Embora os modelos gráficos de inteligência artificial possam orientar os processos artísticos, permitindo que os criadores produzam imagens 2D realistas a partir de informações textuais, esses modelos não são projetados para produzir formas 3D. Para preencher a lacuna, um método recém-desenvolvido chamado Score Distillation aproveita modelos de geração de imagens 2D para criar formas 3D, mas a saída muitas vezes acaba ficando borrada ou em forma de desenho animado.
Os pesquisadores do MIT examinaram a relação e as diferenças entre os algoritmos usados para gerar imagens 2D e estruturas 3D, identificando a causa raiz dos modelos 3D de baixa qualidade. A partir daí, eles fizeram um ajuste simples para Score Distillation, que permite a produção de formas 3D nítidas e de alta qualidade com qualidade próxima das melhores imagens 2D modeladas.
Outras abordagens tentam resolver esse problema retreinando ou ajustando o modelo de IA, o que pode ser caro e demorado.
Em contraste, o método dos pesquisadores do MIT alcança qualidade de forma 3D igual ou melhor do que esses métodos, sem treinamento adicional ou pós-processamento complexo.
Além disso, ao identificar a causa do problema, os pesquisadores melhoraram a compreensão estatística da Score Distillation e técnicas relacionadas, permitindo que trabalhos futuros continuem a melhorar o desempenho.
“Agora sabemos onde procurar, o que nos permite encontrar soluções mais rápidas e eficientes”, disse Artem Lukoianov, estudante de graduação em engenharia elétrica e ciência da computação (EECS) e principal autor do artigo. este processo. “No longo prazo, nosso trabalho pode ajudar a facilitar o processo de nos tornarmos um impulsionador colaborativo para designers, facilitando a criação de ambientes 3D realistas”.
Os coautores de Lukoianov são Haitz Sáez de Ocáriz Borde, estudante de graduação na Universidade de Oxford; Kristjan Greenewald, cientista pesquisador do MIT-IBM Watson AI Lab; Vitor Campagnolo Guizilini, cientista do Toyota Research Institute; Timur Bagautdinov, cientista pesquisador da Meta; e os autores seniores Vincent Sitzmann, professor assistente de EECS no MIT que lidera o Grupo de Representação de Cena no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e Justin Solomon, professor associado de EECS e líder do Grupo de Processamento de Dados Geométricos CSAIL. A pesquisa será apresentada na Conferência de Sistemas de Processamento de Informação Neural.
De imagens 2D para 3D
Modelos de difusão, como DALL-E, são um tipo de modelo generativo de IA que pode gerar imagens realistas com ruído aleatório. Para treinar esses modelos, os pesquisadores adicionam ruído às imagens e depois ensinam o modelo a reverter o processo e remover o ruído. Os modelos usam essa técnica aprendida de “remoção de ruído” para criar imagens com base nos comandos de texto do usuário.
Mas os modelos de difusão não funcionam bem na geração direta de formas 3D reais porque não há dados 3D suficientes para treiná-los. Para resolver esse problema, os pesquisadores desenvolveram uma técnica chamada Score Distillation Sampling (SDS) em 2022, que usa um modelo de difusão pré-treinado para combinar imagens 2D em representações 3D.
A metodologia envolve começar com uma representação 3D aleatória, renderizar uma visão 2D do objeto desejado a partir de um ângulo de câmera aleatório, adicionar ruído a essa imagem, descrevê-la com um modelo de difusão e, em seguida, ajustar a representação 3D aleatória para corresponder à imagem ruidosa. Estas etapas são repetidas até que o objeto 3D desejado seja produzido.
No entanto, as formas 3D produzidas desta forma tendem a parecer desfocadas ou superlotadas.
“Isso é um problema há muito tempo. Sabemos que o modelo subjacente é capaz de funcionar melhor, mas as pessoas não sabiam por que isso acontece em situações 3D”, disse Lukoianov.
Os pesquisadores do MIT examinaram as medidas SDS e identificaram discrepâncias entre a fórmula que constitui uma parte fundamental do processo e sua contraparte nos modelos de difusão 2D. A fórmula informa ao modelo como atualizar a representação aleatória adicionando e removendo ruído, um passo de cada vez, para torná-la mais parecida com a imagem desejada.
Como parte desta fórmula envolve uma equação que é muito complexa para ser resolvida adequadamente, o SDS a substitui por ruído amostrado aleatoriamente em cada etapa. Pesquisadores do MIT descobriram que esse ruído causa desfoque ou formações de desenhos animados em 3D.
A resposta é provavelmente
Em vez de tentar resolver com exatidão esta difícil fórmula, os pesquisadores experimentaram técnicas de estimativa até identificarem a melhor. Em vez de amostrar aleatoriamente uma palavra sonora, sua abordagem utiliza o termo que falta na renderização atual da forma 3D.
“Ao fazer isso, como prevê a análise do artigo, são produzidas formas 3D que parecem nítidas e realistas”, diz ele.
Além disso, os pesquisadores aumentaram a resolução da renderização da imagem e ajustaram alguns parâmetros para melhorar a qualidade do formato 3D.
Finalmente, eles foram capazes de usar um modelo de difusão de imagem pré-treinado e pronto para uso para criar formas 3D suaves e de aparência realista, sem a necessidade de um novo treinamento caro. Os objetos 3D são tão nítidos quanto aqueles produzidos usando outros métodos que dependem de soluções ad hoc.
“Tentar testar cegamente com parâmetros diferentes, às vezes funciona e às vezes não, mas você não sabe por quê. Sabemos que esta é a equação que precisamos resolver. Agora, isso nos permite pensar em maneiras eficazes de resolvê-lo”, disse ele.
Como o seu método depende de um modelo de distribuição pré-treinado, ele herda os preconceitos e as deficiências desse modelo, tornando-o propenso a falsos positivos e outras falhas. O desenvolvimento de um modelo básico de distribuição melhorará seu processo.
Além de estudar a fórmula para ver como podem resolvê-la com sucesso, os pesquisadores estão interessados em explorar como essas informações podem melhorar as técnicas de edição de imagens.
Este trabalho foi financiado, em parte, pelo Toyota Research Institute, pela US National Science Foundation, pela Singapore Defense Science and Technology Agency, pela US Intelligence Advanced Research Projects Activity, pelo Amazon Science Hub, pela IBM, pelo US Military Research Office, pelo Programa de -CSAIL Future of Data, Wistron Corporation e MIT-IBM Watson AI Laboratory.