Nos últimos anos, ocorreram mudanças significativas no campo da produção de imagens, principalmente devido ao desenvolvimento de modelos de produção baseados em imagens latentes, como Modelos de Distribuição Latente (LDMs) de novo Modelos de imagem de máscara (MIMs). Autoencoders reconstrutivos, como VQGAN de novo VAEpode reduzir imagens em formas pequenas e simples, chamadas de espaço oculto de baixa dimensão. Isso permite que esses modelos criem imagens mais realistas. Considerando o efeito autorregressivo significativo (RA) modelos generativos, como modelos Big Language em processamento de linguagem natural (PNL), é interessante testar se métodos similares podem ser aplicados a imagens. Embora os modelos autorregressivos utilizem o mesmo espaço latente que modelos como LDMs e MIMs, eles ainda falham em outros lugares na produção de imagens. Isso é muito diferente processamento de linguagem natural (PNL), onde o modelo GPT autorregressivo alcançou dominância significativa.
Métodos atuais como LDMs de novo MIMs usar autoencoders reconstrutivos, como VQGAN de novo VAEconverter imagens em um espaço oculto. No entanto, esses métodos enfrentam desafios de estabilidade e desempenho. Pode-se observar que, no modelo VQGAN, à medida que a qualidade da reconstrução da imagem melhora (indicada por pontuações FID mais baixas), a qualidade geral da geração pode, na verdade, diminuir. Para lidar com esses problemas, os pesquisadores propuseram um novo método chamado Discriminative Generative Image Transformer (DiGIT). Ao contrário dos métodos convencionais de codificação automática, o DiGIT separa o treinamento de codificadores e decodificadores, começando com o treinamento apenas do codificador com um modelo discriminativo auto-supervisionado.
Uma equipe de pesquisadores da Escola de Ciência de Dados e da Escola de Ciência e Tecnologia da Computação da Universidade de Ciência e Tecnologia da China, e do Laboratório Estatal Chave de Inteligência Cognitiva e da Universidade de Zhejiang propôs Conversor de imagem produtiva decrescente (DiGIT). Esta abordagem separa o treinamento de codificadores e decodificadores, primeiro com um codificador, treinando com um modelo auto-supervisionado discriminativo. Esta estratégia melhora a estabilidade do espaço latente, tornando-o mais robusto à modelagem automática. Eles usam um método inspirado no VQGAN para transformar o espaço de recursos ocultos do codificador em tokens discretos usando clustering K-means. A pesquisa sugere que os modelos automáticos de imagem podem ser tão eficazes quanto os modelos GPT no processamento de linguagem natural. As principais contribuições deste trabalho incluem uma perspectiva unificada sobre a relação entre espaço latente e modelos generativos, enfatizando a importância de espaços latentes estáveis; um novo método que separa o treinamento de codificadores e decodificadores para estabilizar o espaço latente; e um token de imagem dinâmico que melhora o desempenho de modelos de imagem automáticos.
Durante o experimento, os pesquisadores combinaram cada patch de imagem com o token mais próximo do livro de códigos. Depois de treinar o Transformador Causal para prever o próximo token usando esses tokens, os pesquisadores encontraram bons resultados no ImageNet. O modelo DiGIT supera as técnicas anteriores em reconhecimento e geração de imagens, mostrando que o uso de uma grade de tokens menores pode levar a uma maior precisão. Os experimentos realizados pelos pesquisadores enfatizaram o desempenho do tokenizador discriminativo proposto, o que melhora significativamente o desempenho do modelo, à medida que aumenta o número de parâmetros. O estudo também descobriu que aumentar o número de clusters K-Means melhora a precisão, reforçando os benefícios de um vocabulário maior na modelagem automática.
Concluindo, este artigo apresenta uma visão unificada de como o espaço latente e os modelos generativos estão relacionados, destacando a importância do espaço latente estável na geração de imagens e apresentando um token de imagem simples, mas eficaz, e um modelo generativo automático chamado. DiGIT. Os resultados também desafiam a crença comum de que ser bom em reengenharia significa ter um espaço oculto viável para a produção automatizada. Com este trabalho, os investigadores pretendem renovar o interesse no pré-treinamento generativo de modelos de regressão automática, encorajar o reexame dos componentes-chave que definem o espaço latente dos modelos generativos, e fazer deste um passo em direcção a novas tecnologias e métodos!
Confira Papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Divyesh é estagiário de consultoria na Marktechpost. Ele está cursando BTech em Engenharia Agrícola e Alimentar pelo Instituto Indiano de Tecnologia, Kharagpur. Ele é um entusiasta de Ciência de Dados e Aprendizado de Máquina que deseja integrar essas tecnologias avançadas no domínio agrícola e resolver desafios.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️