F5-TTS: um sistema de conversão de texto em fala totalmente adaptável baseado em correspondência de fluxo e transformador de difusão (DiT)

Os desafios atuais nos sistemas de conversão de texto em fala (TTS) giram em torno das limitações inerentes aos modelos automáticos e de sua complexidade para alinhar com precisão o texto à fala. A maioria dos modelos TTS convencionais exigem complexidades como modelagem de duração, alinhamento de fonemas e codificadores de texto dedicados, que adicionam sobrecarga e complexidade significativas ao processo de integração. Além disso, modelos anteriores, como o E2 TTS, enfrentaram problemas de fraca convergência, robustez e manutenção do alinhamento preciso entre o texto de entrada e a fala gerada, tornando-o um desafio para desenvolver e implementar de forma eficaz em situações do mundo real.

Pesquisadores da Shanghai Jiao Tong University, da University of Cambridge e do Geely Automobile Research Institute introduziram o F5-TTS, um sistema de conversão de texto em fala (TTS) não autorregressivo que usa o mesmo fluxo que o Diffusion Transformer (DiT) . Ao contrário da maioria dos modelos TTS padrão, o F5-TTS não requer complexidades como modelagem de duração, alinhamento de fonemas ou um codificador de texto dedicado. Em vez disso, introduz um método simplificado onde a entrada de texto é comprimida para corresponder ao comprimento da entrada de fala, correspondendo ao fluxo ativo para uma integração eficiente. O F5-TTS foi projetado para solucionar as deficiências de seu antecessor, E2 TTS, que sofria de baixa coerência e problemas de alinhamento entre fala e texto. Melhorias notáveis incluem a arquitetura ConvNeXt para melhorar a representação de texto e a nova técnica Sway Sampling durante a projeção, que melhora muito o desempenho sem retreinamento.

Estruturalmente, o F5-TTS usa ConvNeXt e DiT para superar os desafios de alinhamento entre o texto e a fala gerada. O texto de entrada é primeiro processado com blocos ConvNeXt para prepará-lo para leitura no contexto com fala, permitindo um melhor alinhamento. Uma sequência de letras, combinada com tokens de preenchimento, é inserida no modelo junto com a versão em áudio da fala de entrada. A espinha dorsal do Diffusion Transformer (DiT) é usada para treinamento, usando simulação de fluxo para mapear a distribuição simples inicial para a distribuição efetiva de dados. Além disso, o F5-TTS inclui um novo método de tempo de previsão de Sway Sampling que ajuda a controlar as etapas do fluxo, priorizando a estimativa da fase inicial para melhorar a compatibilidade da fala gerada com o texto de entrada.

Os resultados apresentados no artigo mostram que o F5-TTS supera outros programas TTS de última geração em termos de qualidade de integração e velocidade de decisão. O modelo alcançou uma taxa de erro de palavras (WER) de 2,42 no conjunto de dados LibriSpeech-PC usando 32 avaliações de desempenho (NFE) e mostrou um fator em tempo real (RTF) de 0,15 para inteligibilidade. Esta funcionalidade é uma melhoria significativa em relação aos modelos baseados em transmissão, como o E2 TTS, que exigia longos tempos de convergência e tinha dificuldade em manter a estabilidade em diferentes condições de entrada. A técnica Sway Sampling melhora significativamente a natureza e a dispersão, permitindo que o modelo obtenha uma geração de tiro zero suave e clara. Métricas analíticas como WER e pontuações semelhantes de oradores garantem a qualidade competitiva do discurso produzido.

Concluindo, o F5-TTS introduz com sucesso um pipeline simples e altamente eficiente para síntese de TTS, eliminando a necessidade de previsões de tempo, alinhamento de fonemas e codificadores de texto simples. O uso do processamento de texto ConvNeXt e do controle de fluxo avançado Sway Sampling juntos melhoram a robustez do alinhamento, a eficiência do treinamento e a qualidade da fala. Ao manter uma arquitetura simples e fornecer uma estrutura de código aberto, o F5-TTS visa impulsionar o desenvolvimento orientado pela comunidade na tecnologia de conversão de texto em fala. Os investigadores também destacam as considerações éticas que podem estar envolvidas na utilização indevida de tais modelos, sublinhando a necessidade de marcas de água e sistemas de identificação para evitar a utilização fraudulenta.

Confira Papel, O modelo do tamanho do rostode novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Source link

Você também pode gostar...

RetrievalAttention: um método de aprendizado de máquina não treinado para acelerar a computação de atenção e reduzir o uso de memória GPU

Databricks Mosaic Research explora geração aprimorada de recuperação de contexto longo: como modelos avançados de IA lidam com informações estendidas para maior precisão de resposta

FakeShield: uma estrutura descritiva de IA para detecção e localização de falsificação de imagens comuns usando grandes modelos de linguagem multimodal

Deixe um comentário Cancelar resposta