Microsoft Research apresenta Reducio-DiT: Melhora o desempenho da produção de vídeo com compactação avançada

Avanços recentes nos modelos de produção de vídeo permitiram a produção de videoclipes realistas e de alta qualidade. No entanto, esses modelos enfrentam desafios na escalabilidade para aplicações do mundo real em larga escala devido aos requisitos computacionais necessários para treinamento e compreensão. Os modelos comerciais atuais, como Sora, Runway Gen-3 e Movie Gen, exigem recursos extensos, incluindo milhares de GPUs e milhões de horas de GPU para treinamento, com cada segundo de orientação por vídeo demorando alguns minutos. Esses altos requisitos tornam essas soluções caras e impraticáveis para muitas aplicações potenciais, limitando o uso da produção de vídeo de alta fidelidade àqueles com grandes recursos computacionais.

Reducio-DiT: uma nova solução

Os pesquisadores da Microsoft introduziram o Reducio-DiT, um novo método projetado para resolver esse problema. Esta solução se concentra em um autoencoder equivalente a vídeo (VAE) que comprime bastante o espaço latente da representação de vídeo. A ideia principal do Reducio-DiT é que os vídeos contenham informações redundantes em comparação com as imagens estáticas, e essa redundância pode ser usada para obter uma redução de 64 vezes no tamanho da representação latente sem comprometer a qualidade do vídeo. A equipe de pesquisa combinou este VAE com modelos de difusão para melhorar a eficiência da produção de videoclipes 1024×1024, reduzindo o tempo de processamento para 15,5 segundos em uma única GPU A100.

Método Técnico

Do ponto de vista técnico, o Reducio-DiT destaca-se pelo método de produção em duas etapas. Primeiro, ele gera uma imagem do conteúdo usando técnicas de conversão de texto em imagem e, em seguida, usa essa imagem como antes para enquadrar o vídeo no processo de distribuição. A informação em movimento, que compreende a maior parte do conteúdo do vídeo, é separada do fundo estático e bem comprimida no espaço oculto, resultando em muito pouco atraso computacional. Especificamente, Reducio-VAE – o componente autoencoder do Reducio-DiT – usa modulação 3D para atingir um fator de compressão significativo, permitindo uma representação de amostra reduzida de 4.096 amostras de vídeos de entrada. O componente de distribuição, Reducio-DiT, combina esse modelo latente altamente compactado com recursos extraídos da imagem do conteúdo e das informações de texto correspondentes, produzindo assim sequências de vídeo suaves e de alta qualidade com sobrecarga mínima.

Este método é importante por vários motivos. O Reducio-DiT oferece uma solução econômica para uma indústria que enfrenta desafios computacionais, tornando a produção de vídeo de alta resolução mais acessível. O modelo se mostrou 16,6 vezes mais rápido que os métodos existentes, como o Lavie, ao mesmo tempo em que alcançou uma pontuação Fréchet Video Distance (FVD) de 318,5 no UCF-101, superando outros modelos nesta categoria. Usando uma estratégia de treinamento em vários estágios que vai desde a renderização de vídeo de baixo até a de alta resolução, o Reducio-DiT mantém a integridade visual e a consistência temporal entre os quadros produzidos – um desafio que muitos métodos anteriores de renderização de vídeo lutaram para alcançar. Além disso, o cache integrado não apenas acelera o processo de produção de vídeo, mas também reduz os requisitos de hardware, possibilitando sua utilização em ambientes que não possuem extensos recursos de GPU.

A conclusão

O Microsoft Reducio-DiT representa uma melhoria na eficiência da produção de vídeo, equilibrando alta qualidade com custos computacionais reduzidos. A capacidade de gerar um videoclipe 1024 × 1024 em 15,5 segundos, combinada com uma redução significativa nos custos e indicadores de treinamento, marca um avanço significativo no campo da IA de geração de vídeo. Para obter mais informações técnicas e acesso ao código-fonte, visite o repositório GitHub da Microsoft para Reducio-VAE. Este desenvolvimento abre caminho para a adoção generalizada da tecnologia de produção de vídeo em aplicações como criação de conteúdo, publicidade e entretenimento interativo, onde a produção de mídia visual envolvente de forma rápida e econômica é essencial.

Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.

Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'

Source link

Reducio-DiT: uma nova solução

Método Técnico

A conclusão

Você também pode gostar...

Pesquisadores do MIT e da Universidade de Pequim apresentam um método autorregulatório para melhorar a segurança e a confiabilidade de modelos de linguagem em larga escala

Meta AI lança LayerSkip: uma nova abordagem de IA para acelerar a indução a modelos de linguagem em larga escala (LLMs)

CoAgents do CopilotKit: um elo perdido que facilita a conexão de agentes LangGraph a pessoas no circuito

Deixe um comentário Cancelar resposta