Os modelos atuais de geração de texto para imagem enfrentam grandes desafios com eficiência computacional e detalhes de processamento de imagens, especialmente em alta resolução. A maioria dos modelos de difusão executa um processo de geração de estágio único, exigindo que cada etapa de eliminação de ruído seja realizada em imagens de alta resolução. Isso resulta em altos custos computacionais e ineficiências, dificultando a geração de bons dados sem consumo excessivo de recursos. O principal problema é como manter ou melhorar a qualidade da imagem e, ao mesmo tempo, reduzir significativamente esses requisitos computacionais.
Uma equipe de pesquisadores da Universidade de Tsinghua e da Zhipu AI apresentou o CogView3, um novo método de geração de texto para imagem que usa uma técnica chamada difusão de retransmissão. Ao contrário dos modelos convencionais de distribuição de estágio único, o CogView3 divide a geração em vários estágios, começando com a criação de imagens de baixa resolução seguida por um processo de transferência com suporte de alta resolução. Essa abordagem permite que o modelo concentre os recursos computacionais de forma eficiente, produzindo imagens competitivamente de alta resolução e, ao mesmo tempo, reduzindo custos. Notavelmente, o CogView3 atinge uma taxa de vitória de 77,0% em análise humana em relação ao SDXL, o atual modelo de código aberto líder, e requer apenas metade do tempo necessário. A variante refinada do CogView3 também reduz o tempo de composição para um décimo do exigido pelo SDXL, ao mesmo tempo que oferece a mesma qualidade de imagem.
O CogView3 usa um quadro direto dinâmico que primeiro produz uma imagem básica de baixa resolução, que é ainda mais refinada nos estágios subsequentes para alcançar resoluções mais altas. Em contraste com as estruturas convencionais de distribuição dinâmica, o CogView3 introduz um novo método chamado retransmissão de super-resolução, onde o ruído gaussiano é adicionado a uma imagem de baixa resolução e a distribuição é reiniciada a partir dessas imagens ruidosas. Isso permite que o estágio de alta resolução corrija quaisquer artefatos dos estágios anteriores, refinando efetivamente a imagem. O modelo opera no espaço da imagem latente, que é comprimido oito vezes a partir da posição original do pixel. Ele usa uma programação de desfoque linear simplificada para combinar com eficiência os detalhes das camadas básica e de alta resolução, produzindo imagens em resoluções muito altas, como 2.048 × 2.048 pixels. Além disso, o processo de treinamento do CogView3 é aprimorado por uma estratégia automática de reconstrução de imagem usando GPT-4V, que permite um melhor alinhamento entre os dados de treinamento e a entrada do usuário.
Os resultados dos testes apresentados no artigo mostram a superioridade do CogView3 sobre os modelos existentes, especialmente em termos de medição da qualidade da imagem e eficiência do computador. Por exemplo, na análise demográfica usando conjuntos de dados desafiadores, como DrawBench e PartiPrompts, o CogView3 supera consistentemente os modelos SDXL e Stable Cascade de última geração. Métricas como Pontuação Estética, Pontuação de Preferência Humana (HPS v2) e ImageReward mostram que o CogView3 produziu imagens de melhor aparência com melhor alinhamento e mais rapidamente. Notavelmente, embora mantendo a alta qualidade de imagem, o CogView3 também obteve tempos de imagem reduzidos – uma melhoria importante para aplicações práticas. A versão Destilada do CogView3 também demonstrou ter um tempo de resolução significativamente menor (1,47 segundos por imagem), mantendo ao mesmo tempo um desempenho competitivo, destacando a eficiência do método direto.
Concluindo, o CogView3 representa um avanço significativo no campo da produção de texto para imagem, combinando eficiência e qualidade através do seu uso inovador de transmissão por retransmissão. Ao gerar imagens em etapas e refiná-las por meio de um processo de alta resolução, o CogView3 não apenas reduz a carga computacional, mas também melhora a qualidade das imagens resultantes. Isso o torna ideal para aplicações que exigem gráficos rápidos e de alta qualidade, como criação de conteúdo digital, publicidade e design interativo. Trabalhos futuros podem explorar a expansão das capacidades do modelo para lidar com decisões ainda maiores de forma mais eficaz e refinar ainda mais as técnicas de processamento para atingir os limites do que é possível na IA generativa em tempo real.
Confira Papel de novo Cartão Modelo. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Shobha é um analista de dados com histórico comprovado no desenvolvimento de soluções de aprendizado de máquina que geram valor comercial.