Alibaba AI Research lança CozyVoice 2: Um modelo avançado de síntese de fala

A tecnologia de síntese de voz fez progressos significativos, mas ainda existem desafios na entrega de áudio com som natural e em tempo real. Obstáculos comuns incluem latência, precisão de pronúncia e inconsistência de locutor – problemas que se tornam críticos em aplicações de transmissão onde a capacidade de resposta é crítica. Além disso, o tratamento de informações linguísticas complexas, como trava-línguas ou palavras polifônicas, muitas vezes excede as capacidades dos modelos existentes. Para lidar com esses problemas, os pesquisadores do Alibaba revelaram Voz aconchegante 2um modelo avançado de transmissão TTS projetado para resolver efetivamente esses desafios.

Apresentando CozyVoice 2

Voz aconchegante 2 baseia-se na base do CozyVoice original, oferecendo melhorias significativas na tecnologia de síntese de voz. Este modelo avançado se concentra em refinar aplicativos de streaming ao vivo e off-line, incluindo recursos que melhoram a flexibilidade e a precisão em uma variedade de casos de uso, incluindo sistemas de conversão de texto em fala e voz ativa.

As principais melhorias no CozyVoice 2 incluem:

Modos de transmissão e não transmissão integrados: Adapta-se perfeitamente a uma variedade de aplicações sem comprometer o desempenho.
Precisão de pronúncia aprimorada: Redução de erros de pronúncia em 30%-50%, o que melhora a clareza em situações linguísticas complexas.
Consistência aprimorada do alto-falante: Garante uma saída de voz estável para todas as tarefas não-verbais e síntese multilíngue.
Habilidades de ensino avançadas: fornece controle preciso sobre tom, estilo e pronúncia com comandos de linguagem natural.

Inovações e benefícios

CozyVoice 2 inclui algumas melhorias tecnológicas para melhorar seu desempenho e usabilidade:

Quantização Escalar Finita (FSQ): Substituindo a tradicional quantização vetorial, o FSQ otimiza o uso do livro de códigos de tokens de fala, melhorando a representação semântica e a qualidade da síntese.
Arquitetura simplificada de texto-fala: Usando modelos linguísticos de grande escala (LLMs) pré-treinados como núcleo, o CozyVoice 2 elimina a necessidade de codificadores de texto adicionais, simplificando o modelo e melhorando o desempenho multilíngue.
Correspondência de fluxo causal com reconhecimento de pedaços: Esta inovação alinha recursos semânticos e acústicos com atraso mínimo, tornando o modelo adequado para produção de fala em tempo real.
Conjunto de dados de tutorial estendido: Com mais de 1.500 horas de dados de treinamento, o modelo permite controle granular sobre tons, emoções e estilos de fala, permitindo uma produção de voz flexível e intuitiva.

Detalhes de desempenho

Testes extensivos do CozyVoice 2 enfatizam seus pontos fortes:

Baixa latência e eficiência: tempos de resposta tão baixos quanto 150 ms o tornam adequado para aplicações em tempo real, como bate-papo por voz.
Pronúncia Avançada: O modelo ganha melhorias significativas no tratamento de estruturas linguísticas raras e complexas.
Confiabilidade de um alto-falante congruente: Pontuações altas de similaridade de falantes indicam a capacidade de manter a naturalidade e a harmonia.
Poder multilíngue: Fortes resultados em benchmarks japoneses e coreanos destacam sua durabilidade, embora permaneçam desafios com conjuntos de caracteres sobrepostos.
Resiliência em situações desafiadoras: CozyVoice 2 se destaca em situações difíceis, como torcer a língua, superando os modelos anteriores em termos de precisão e clareza.

A conclusão

CosyVoice 2 evolui cuidadosamente de seu antecessor, abordando as principais limitações no manuseio, precisão e consistência do alto-falante com soluções questionáveis. A integração de recursos avançados, como FSQ e comparação de fluxo com reconhecimento de blocos, fornece uma abordagem equilibrada para desempenho e usabilidade. Embora ainda existam oportunidades para expandir o suporte a idiomas e melhorar cenários complexos, o CozyVoice 2 constitui uma base sólida para o futuro da síntese de fala. A combinação dos modos offline e de transmissão garante produção de áudio de alta qualidade em tempo real para uma variedade de aplicações.

Confira eu Papel, Página de rosto do abraço, Modelo pré-treinadode novo Demonstração. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)

Source link

Apresentando CozyVoice 2

Inovações e benefícios

Detalhes de desempenho

A conclusão

Você também pode gostar...

GaLiTe e AGaLiTe: métodos transformadores eficazes para estudar o reforço da Internet de baixo nível

Pesquisadores da Intel e da Salesforce propõem SynthKG: um fluxo de trabalho de síntese de gráficos de conhecimento sem ontologia em nível de documento em várias etapas baseado em LLMs.

Anthropic AI apresenta API Message Batch: uma maneira poderosa e econômica de processar grandes consultas de forma assíncrona

Deixe um comentário Cancelar resposta