LLaMA-Mesh: um novo método de IA que integra geração de malha 3D com grandes modelos de linguagem, representando malhas como texto simples
Inteligência artificial

LLaMA-Mesh: um novo método de IA que integra geração de malha 3D com grandes modelos de linguagem, representando malhas como texto simples


Um grande desafio no campo da inteligência artificial é ajudar modelos linguísticos em larga escala (LLMs) a gerar malhas 3D diretamente a partir de descrições de texto. As técnicas convencionais impedem que os LLMs funcionem como componentes baseados em texto e eliminam fluxos de trabalho multimodais que incluem a criação de texto e conteúdo 3D. A maioria das estruturas existentes requer arquitetura adicional ou grandes recursos computacionais, tornando-as difíceis de usar em áreas interativas em tempo real, como videogames, realidade virtual e design industrial, por exemplo. A falta de sistemas integrados que integrem a compreensão interativa de texto e a produção 3D complica ainda mais a criação de conteúdo 3D eficaz e acessível. Por outro lado, as soluções para esses problemas podem mudar o cenário da IA ​​multimodal e tornar o fluxo de trabalho do design 3D mais intuitivo e escalável.

Os métodos de modelagem 3D existentes podem ser amplamente divididos em modelos de inversão automática e métodos de extração de pontos. Modelos de regressão automática, como MeshGFT e PolyGen, tokenizam dados de malha 3D e usam transformadores para criar malhas de objetos. Eles funcionam bem, mas são treinados do zero e não vêm com nenhuma integração de linguagem natural; além disso, exigem grandes recursos computacionais. Os métodos de destilação pontuada incluem DreamFusion e Magic3D; eles usam um único modelo de distribuição pré-treinado para criação de objetos. Esses métodos dependem de representações intermediárias, como campos de distância sinalizados ou grades de voxels, que envolvem mais processamento e são computacionalmente caros e, portanto, pouco eficientes para aplicações em tempo real. Nenhum dos formatos permite a flexibilidade necessária para incorporar facilmente recursos baseados em texto e 3D em uma estrutura compacta e eficiente.

Pesquisadores da NVIDIA e da Universidade de Tsinghua apresentam o LLAMA-MESH, a primeira estrutura que integra representações de texto e métodos 3D em uma única arquitetura. O formato de arquivo OBJ baseado em texto codifica malhas 3D em texto simples, incluindo coordenadas de vértices e definições de face. Como não há necessidade de expandir nomes de tokens ou alterar tokens, o design reduz custos computacionais; ao usar informações espaciais e combiná-las com a base contextual do LLM, o LLAMA-MESH permite aos usuários gerar conteúdo 3D diretamente a partir de informações textuais. Seu treinamento em um conjunto de dados estruturados de malhas 3D de texto compacto permite capacidades generativas, incluindo a interpretação e descrição de malhas 3D em linguagem natural. Além disso, a sua integração também elimina diferentes estruturas, razão pela qual proporciona um quadro altamente eficiente e flexível para a realização de operações multimodais.

As malhas são codificadas no formato OBJ, com coordenadas de vértices e definições de faces convertidas em sequências de texto simples. O dimensionamento usa coordenadas de vértice para reduzir o comprimento da sequência de tokens sem comprometer a fidelidade geométrica para corresponder à janela de contexto do LLM. O ajuste fino ocorre com um conjunto de dados desenvolvido a partir do Objaverse, que contém mais de 31.000 malhas selecionadas, expandidas para 125.000 amostras por aumento de dados. As legendas são geradas com Cap3D enquanto a riqueza das estruturas de diálogo é determinada com base em padrões baseados em regras e métodos aditivos do LLM. Ajustado em 32 GPUs A100 para 21.000 iterações usando uma combinação de geração de malha, compreensão de malha e funções de diálogo. A arquitetura utilizada é LLaMA 3.1-8B-Instruct, que fornece uma boa implementação ao combinar texto e métodos 3D.

LLAMA-MESH atinge um desempenho excepcional: cria malhas 3D versáteis e de alta qualidade com topologia artística, ao mesmo tempo que supera os métodos convencionais em termos de eficiência computacional no equilíbrio de tarefas multimodais, com compreensão intuitiva de linguagem e capacidades de raciocínio. A estrutura é comprovadamente poderosa na geração de texto para 3D, comprovada em arquitetura do mundo real e aplicações ambientais interativas. Ou seja, a integração ponta a ponta da compreensão de texto e da criação 3D está habilitada; é um grande avanço na IA multimodal.

Fazendo a ponte entre os métodos de texto e 3D, o LLAMA-MESH fornece uma solução eficiente e compacta para gerar e renderizar malhas 3D diretamente a partir de comandos de texto. Resultados tão relevantes como aqueles que serão produzidos por modelos 3D especiais, o poder disto é considerado um forte poder de consciência linguística. Este trabalho abriu novos caminhos e abordagens para fluxos de trabalho 3D intuitivos e orientados por linguagem e revolucionou aplicações de esportes, realidade virtual e design industrial.


Confira Papel de novo O projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliáriasDa estrutura à produção


Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *