Conheça Matrix: uma nova abordagem de IA para produção de vídeos de duração infinita e em tempo real
Inteligência artificial

Conheça Matrix: uma nova abordagem de IA para produção de vídeos de duração infinita e em tempo real


A produção de simulação de vídeo de alta qualidade em tempo real apresenta desafios significativos, especialmente quando se pretende uma duração prolongada sem comprometer a qualidade. Tradicionalmente, os modelos globais de produção de vídeo enfrentam limitações devido aos altos custos computacionais, curtas durações de vídeo e falta de interação em tempo real. O uso de ativos personalizados, como visto no desenvolvimento de jogos AAA, pode ser caro, tornando insustentável a produção contínua de vídeo em grande escala. A maioria dos modelos existentes, como Sora ou Genie, buscam simulações realistas de alta resolução ou renderização em tempo real, o que limita seu uso prático. Essas restrições exigem uma abordagem escalável e realista para produzir imagens de vídeo de alta fidelidade com recursos interativos.

Conheça a Matriz

Matrix é o modelo básico do mundo para produzir vídeos de duração infinita em tempo real, controlando a taxa de quadros. Desenvolvido por uma equipe colaborativa do Alibaba, da Universidade de Hong Kong e da Universidade de Waterloo, Matrix aborda muitos dos desafios que os modelos tradicionais enfrentam. Ele pode produzir fluxos de vídeo 720p infinitamente longos que replicam configurações do mundo real, como ambientes urbanos e naturais, enquanto mantém interações em tempo real com precisão no nível do quadro. Ao contrário dos simuladores tradicionais que exigem configuração manual extensiva, o Matrix oferece suporte ao aprendizado supervisionado e não supervisionado a partir de fontes de dados, como jogos AAA (por exemplo, Forza Horizon 5 e Cyberpunk 2077) e vídeos do mundo real. Este método permite que o modelo seja capaz de navegar perfeitamente em jogos e ambientes do mundo real, por exemplo, simulando um BMW X3 dirigindo em um ambiente de escritório, o que não está disponível nos dados de treinamento.

Detalhes técnicos

Matrix é construído no modelo de vídeo Diffusion Transformer (DiT), permitindo produzir conteúdo de vídeo suave e de alta definição de forma consistente. Uma inovação importante que torna isso possível é o “Shift-Window Denoise Process Model” (Swin-DPM), que permite a produção de vídeos de duração infinita gerenciando com eficiência a capacidade de atenção necessária para longas sequências de vídeo. Este processo funciona em conjunto com o Módulo Interativo, que integra entradas do usuário (como comandos do teclado) para ter um impacto poderoso no conteúdo de vídeo produzido. O resultado é um modelo que oferece simulação de alta qualidade com controle em tempo real, rodando em velocidades de até 16 quadros por segundo (FPS).

O Matrix pode generalizar desde ambientes de jogos até conteúdo do mundo real sem treinamento adicional, tornando-o uma ferramenta versátil para a criação de simulações interativas, que podem ser úteis para videogames, simulações de veículos autônomos, experiências de realidade virtual e muito mais. Além disso, a natureza de código aberto do Matrix permite mais experimentação e adaptação por parte dos desenvolvedores, incentivando a inovação contínua.

Significado e consequências

A importância de Matrix reside na sua capacidade de preencher a lacuna entre os ambientes simulados e o mundo real, tornando-se uma ferramenta importante na modelagem mundial. A escalabilidade oferecida pelo Matrix reduz o custo de produção de simulações interativas, eliminando a necessidade de ambientes feitos à mão. Os resultados relatados no artigo mostram que Matrix atinge precisão de nível de quadro no controle de movimento em muitas cenas, incluindo aquelas em Cyberpunk 2077 e Forza Horizon 5. O modelo mostra uma adaptação muito forte, permitindo controle preciso mesmo em ambientes fora de tal. distribuição. como a condução em ambientes fechados, que não fazia parte dos dados de treinamento.

Em termos de qualidade visual e precisão de controle, o Matrix alcançou uma relação sinal-ruído de pico (Move-PSNR) de cerca de 28,98 em determinadas configurações, com uma velocidade de renderização em tempo real de 8-16 FPS após otimização para consistência de streaming. Modelo (SCM). Isso torna o Matrix o simulador mais eficiente do mundo, que combina produção de vídeo contínua com recursos de renderização de alta qualidade e recursos em tempo real. Embora sejam feitos alguns sacrifícios na qualidade visual para atingir velocidades em tempo real, a qualidade geral ainda supera a dos modelos anteriores, oferecendo simulações realistas e envolventes.

A conclusão

O Matrix representa um avanço significativo na tecnologia de produção de vídeo, fornecendo uma solução escalonável para a produção de fluxos de vídeo interativos, dinâmicos e em tempo real. Usando métodos avançados de distribuição e um pipeline de treinamento eficiente, a Matrix atinge um nível de qualidade e satisfação que os modelos anteriores não conseguiam. Este modelo básico não apenas aborda a realização de ambientes virtuais embarcados, mas também demonstra o potencial de aplicações em jogos, simulações de treinamento e experiências virtuais. Com sua combinação de simulação, controle em tempo real e disponibilidade de código aberto, Matrix estabelece um novo padrão para modelagem do mundo na era da simulação orientada por IA.


Confira Papel e detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.


Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *