Este artigo da AI apresenta Maetok: AutoEncoder baseado em autoencoder com base em modelos de perturbação ativa

Os modelos de difnusão geram cuidadosamente o som contínuo de imagens em representações formais. No entanto, o custo de integração com esses tipos continua sendo um grande desafio, especialmente ao trabalhar diretamente com os detalhes do pixel do bisavô. Os investigadores têm investigado maneiras de expandir as apresentações locais latentes para melhorar a eficiência sem comprometer a qualidade da imagem.

Um problema crítico nos modelos de depreciação é a qualidade e a composição mais recente. Métodos tradicionais, como vários autoencoders, no entanto, luta viadamente e recebendo o feitiço de alto nível de pixels devido a problemas frequentes. Autencoder (AES), não use vários problemas, que podem reconstruir as fotos com a máxima confiabilidade, mas geralmente levam a uma área de captura latente e realizando o desempenho dos modelos de interrupção. Lidar com esses desafios exige que o tokenzer forneça o espaço latente correto, mantendo a precisão da construção mais alta.

Os esforços anteriores do estudo se esforçaram para lidar com esses problemas usando várias estratégias. Vesas que colocam Kullback-Leibler-Leibler-Leibler para promover a distribuição suave, e os VAEs estão alinhados e sincronizados. Outros métodos usam modelos de mistos gaussianos (GMM) para planejar um espaço mais recente ou concordar com as apresentações latentes e modelos treinados anteriormente para melhorar o desempenho. Além desses desenvolvimento de desenvolvimento, os métodos existentes ainda são encontrados pelos limites computacionais e da escala, requer estratégias de suporte eficientes.

A equipe de pesquisa da Universidade Carnegie Mellon, na Universidade de Hong Kong, Universidade e AMD, lançou um romance de tonizer, Tokozer de autoencoder mascarado (Maetok)Lidar com esses desafios. Maetok está usando um modelo mascarado em uma estrutura de Aucoder para desenvolver um espaço sistemático e confirmar a alta construção. Os investigadores projetaram o Maetok para renovar os termos dos Auncoders Mascarados (MAE), criando equilíbrio entre a qualidade da geração e o desempenho do computador.

O caminho após o Maetok inclui um autoencoder de treinamento com um transformador de transformador (VIIT)-veja a construção, incluindo o codificador e o decodificador. O codificador recebe a imagem de instalação dividida em clipes e processando -os e um conjunto de tokens de leitura está disponível. Durante o treinamento, parte do token da máscara aleatoriamente, force o modelo a fornecer dados perdidos dos demais circuitos. Esse método também aprimora a capacidade do modelo de aprendizado de ler preconceito e rico. Além disso, os decodificadores mais profundos são ilimitados que prevêem características ocultas, desenvolvem algum arrendamento de residência. Ao contrário dos vasos tradicionais, Maetok remove a necessidade de diferentes problemas, facilitando o treinamento durante a melhoria.

O amplo exame do teste é realizado para avaliar o desempenho do Maetok. O modelo indicou o desempenho climático nas gerações do ImagetNet enquanto reduz os requisitos de um computador. Reto, Matok é usado apenas 128 token Latent Tokens Enquanto você chega a um Frechet Frechet Distância de início (GFID) de 1,69 Um membros 512 × 512 imagens para resolver. O treinamento foi 76 vezes mais rápidoE a plenitude era onde 31 melhores 3 vezes Existem maneiras comuns. Os resultados mostraram que algumas maneiras da mistura gaussiana produziram uma perda de baixa distinta, resultando em desempenho avançado. O modelo foi treinado Fique XL com 675m parâmetros e modelos de arte da arte da arte, incluindo aqueles que são treinados com VES.

Este estudo destaca a importância do planejamento de um espaço latente para os modelos de Deffion. Ao combinar os modelos combinados, os pesquisadores recebem um bom equilíbrio entre a reestruturação reconstruída e a qualidade da representação, indicando que uma fórmula espacial importante é um fator importante no desempenho adequado. Os resultados fornecem uma base sólida para mais etapas nas imagens baseadas em SEFF, fornecendo uma maneira que promove a tensilidade e a eficiência sem comprometer a qualidade.

Enquete Página e papel do github. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Junte -se à nossa comunidade de aprendizado de máquina no Twitter /X

Nikhil é um estudante de estudantes em Marktechpost. Perseguindo graduados integrados combinados no Instituto Indiano de Tecnologia, Kharagpur. Nikhl é um entusiasmo de interface do usuário / ml que procura aplicativos como biomotomentores e ciências biomédicas. Após um sólido na ciência material, ele examina novos empreendimentos e desenvolvendo oportunidades de contribuir.

✅ [Recommended] Junte -se ao nosso canal de telégrafo

Source link

Você também pode gostar...

Cadeia de Associação-Pensamentos (Casacos): AI Frame de melhoria da consulta LLM

DeepMind lança codebase de inferência AlphaFold 3, modelo de peso e servidor de demanda

LoopSCC: um novo método de resumo de loop para obter interpretação semântica prática em loops complexos

Deixe um comentário Cancelar resposta