As GANs são frequentemente criticadas por serem difíceis de treinar, pois sua arquitetura depende fortemente de algoritmos. Apesar de sua capacidade de produzir imagens de alta qualidade em uma única passagem para frente, o pequeno alvo inicial é um desafio de desenvolvimento, levando à instabilidade e ao risco de colapso do modo. Embora alguns objectivos tenham sido introduzidos, persistem problemas com perdas frágeis, dificultando o progresso. Modelos GAN populares, como StyleGAN, incorporam técnicas como perda penalizada por gradiente e desvio padrão de minilote para lidar com instabilidade e heterogeneidade, mas carecem de suporte teórico. Comparados aos modelos distribuídos, os GANs utilizam backbones desatualizados, o que reduz sua robustez e desempenho.
Pesquisadores da Brown University e da Cornell University desafiam que os GANs exigem múltiplas técnicas para um treinamento eficaz. Eles apresentam a base moderna do GAN, propondo uma perda geral do GAN relativístico, que aborda os problemas de regressão e convergência sem depender de soluções ad-hoc. Esta perda, complementada por penalidades de gradiente de centro zero, garante estabilidade de treinamento e garantias de convergência local. Ao simplificar e modernizar o StyleGAN2, incorporando melhorias como design ResNet, convergência sistemática e implementação aprimorada, eles criaram um pequeno GAN, R3GAN, que supera o StyleGAN2 e GANs e modelos de distribuição de última geração concorrentes em todos os conjuntos de dados, mais, melhor. trabalhando com a complexidade de diversas estruturas.
Ao projetar objetivos GAN, é importante equilibrar estabilidade e variabilidade. As GANs convencionais frequentemente enfrentam desafios como o colapso do modo devido à sua dependência de um único limite de decisão para distinguir dados reais de dados falsos. Os GANs de emparelhamento relativístico (RpGANs) abordam isso avaliando pseudo-amostras em relação às reais, o que promove uma melhor descoberta de modo. No entanto, apenas os RpGANs lutam com a convergência, especialmente com distribuições precisas de dados. A adição de penalidades de gradiente centradas em zero, R1 (para dados reais) e R2 (para dados falsos), garante um treinamento estável e flexível. Os testes StackedMNIST mostram que RpGAN com R1 e R2 atinge cobertura de modo total, supera GANs convencionais e reduz o gradiente burst.
O R3GAN constrói uma base simplificada, mas aprimorada, para GANs, abordando os desafios de otimização usando RpGAN com a perda de R1 e R2. Começando com StyleGAN2, o modelo elimina progressivamente componentes não essenciais, como estratégias de geração baseadas em estilo e estratégias de adaptação, para formar um núcleo fino. As etapas modernas incluem a adoção de arquiteturas inspiradas em ResNet, reconstrução bilinear e ativação recompensadora de ReLU, evitando camadas de normalização e melhorias baseadas em impulso. Outras melhorias incluem flexibilidade programada, garrafas invertidas e ativação adaptativa para estabilizar o treinamento fora do comum. Essas atualizações resultam em uma arquitetura mais eficiente e poderosa, alcançando pontuações FID competitivas com quase 25 milhões de parâmetros treináveis tanto para o gerador quanto para o discriminador.
Experimentos mostram a melhoria do Config E no desempenho da GAN. Para FFHQ-256, o Config E atinge um FID de 7,05, um StyleGAN2 mais eficiente e outras configurações com melhorias arquitetônicas, como gargalos invertidos e convoluções combinadas. No StackedMNIST, o Config E atinge a detecção de modo perfeito com a menor variação KL (0,029). Nos conjuntos de dados CIFAR-10, FFHQ-64 e ImageNet, o Config E supera consistentemente GANs anteriores e modelos de distribuição rivais, alcançando FID mais baixo com menos parâmetros e interpretação mais rápida (um teste). Apesar de um recall um pouco menor do que alguns modelos de distribuição, o Config E apresenta uma variabilidade de amostragem maior em comparação com outras GANs, destacando sua eficiência e desempenho sem depender de recursos pré-treinados.
Concluindo, o estudo apresenta R3GAN, um modelo GAN simplificado e estável para geração de imagens usando perda relativa normalizada (RpGAN+R1+R2) com propriedades de convergência comprovadas. Ao focar nos principais recursos, o R3GAN elimina muitas das técnicas ad hoc comumente usadas em GANs, permitindo arquiteturas simples que alcançam pontuações FID competitivas em conjuntos de dados como Stacked-MNIST, FFHQ, CIFAR-10 e ImageNet. Embora não seja otimizado para tarefas de baixo nível, como edição de imagens ou agrupamento controlado, ele fornece uma base sólida para pesquisas futuras. As limitações incluem a falta de testes quantitativos em tarefas de alta resolução ou de texto para imagem e preocupações éticas sobre o potencial uso indevido de modelos generativos.
Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.
✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)