Difusão discreta com remoção de ruído planejada (DDPD): uma nova estrutura de aprendizado de máquina para decompor um processo de geração discreta em planejamento e remoção de ruído

Os modelos generativos de IA ganharam destaque nos últimos anos pela sua capacidade de gerar novos conteúdos com base em dados existentes, como texto, imagens, áudio ou vídeo. Um subtipo, modelos de distribuição, produz resultados de alta qualidade convertendo dados ruidosos em um formato estruturado. Embora o modelo tenha melhorado significativamente, ainda falta controle sobre os pontos de dados corrompidos, resultando em produção insuficiente e lentidão. Uma equipe de pesquisadores do MIT, da Universidade de Oxford e da NVIDIA Research encontrou uma nova solução chamada Discrete Diffusion with Planned Denoising para lidar com o ruído de uma forma bem planejada.

Os métodos existentes incluem modelos autoregressivos e técnicas de pós-processamento. Os modelos autorregressivos usam propagação direta para adicionar ruído e, em seguida, o estágio de regressão aprende como remover o ruído extra. Este processo de duas etapas refina iterativamente os dados corrompidos e produz resultados consistentes. Embora eficiente, carece de controle sobre o processo de extração de ruído e é computacionalmente caro devido à repetição do processo de regressão. Isso leva à redução da qualidade da produção em situações complexas, como a produção de fotos. As técnicas de pós-processamento dependem da limpeza dos dados somente após a geração da saída. No final, não é eficiente e demorado lidar completamente com o som.

Baixos resultados e alto uso de recursos revelam a necessidade de um novo método que possa mitigar dados corrompidos. O método proposto, Difusão Discreta com Eliminação de Ruído Planejada, seleciona de forma inteligente uma sequência de dados padrão que precisa ser refinada com base na gravidade. Técnicas avançadas, como técnicas de atenção, são essenciais para extrair ruído dessa sequência continuamente. Estas etapas permitem um melhor controle sobre o processo de extração de ruído durante a distribuição. Aumenta o rendimento e reduz a dependência de técnicas de pós-processamento para reduzir custos computacionais.

Para aplicações como tradução automática ou resumo de texto, a capacidade de programar a eliminação de ruído pode resultar em frases mais suaves e precisas. Da mesma forma, no processamento de imagens, o DDPD pode reduzir artefatos e melhorar a nitidez de imagens de alta resolução, tornando-as particularmente úteis para renderização de estilo artístico ou aplicações de imagens médicas. A novidade do modelo dual da abordagem técnica reside na escolha das técnicas durante a produção. As medições de desempenho mostram que o DDPD reduz a confusão em conjuntos de dados de benchmark, como text8 e OpenWebText, eliminando assim as diferenças de desempenho com métodos automatizados. Os testes de validação foram realizados em um conjunto de dados de mais de um milhão de frases; o método DDPD provou ser robusto e eficiente na maioria dos casos.

Em resumo, o DDPD alivia efetivamente a produção de texto ineficiente e imprecisa, dividindo os processos de uma nova maneira em edição e saída de áudio. Os pontos fortes deste artigo incluem sua capacidade de melhorar a precisão da previsão, reduzindo a sobrecarga computacional. No entanto, a validação de aplicações do mundo real ainda é necessária para avaliar o seu desempenho prático. No geral, este trabalho apresenta um grande avanço nas técnicas de modelagem generativa, fornece um caminho promissor para melhores resultados no processamento de linguagem natural e marca uma nova referência para futuras pesquisas semelhantes neste domínio.

Confira Papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)

Afeerah Naseem é estagiária de consultoria na Marktechpost. Ele está cursando bacharelado em tecnologia no Instituto Indiano de Tecnologia (IIT), Kharagpur. Ele é apaixonado por Ciência de Dados e fascinado pelo papel da inteligência artificial na resolução de problemas do mundo real. Ele adora descobrir novas tecnologias e explorar como elas podem tornar as tarefas diárias mais fáceis e eficientes.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

LoopSCC: um novo método de resumo de loop para obter interpretação semântica prática em loops complexos

Anthropic apresenta o soneto Claude 3.5: IA que entende texto, imagens e muito mais em PDFs

Lançar AI de código aberto Run:iModel Streamer: uma solução desenvolvida especificamente para tornar o carregamento de modelos grandes mais rápido e eficiente

Deixe um comentário Cancelar resposta