Zyphra apresenta o modelo Zonos Betta: TTS mostrando o máximo na palavra correta de lealdade
Inteligência artificial

Zyphra apresenta o modelo Zonos Betta: TTS mostrando o máximo na palavra correta de lealdade


A tecnologia de texto em fala fez grandes motocicletas nos últimos anos, mas os desafios vivem na construção de ambientais, evolução e alta confiabilidade. Muitos programas TTS se esforçam para repetir nuances de língua humana, como compreensão, sentimentos e sotaque, geralmente levam a uma consulta alta. Além disso, a visualização precisa da voz permanece difícil, reduzindo a capacidade de produzir consequências pessoais ou variadas da fala. Esses desafios foram conduzidos pela pesquisa em andamento sobre os modelos TTS mais notáveis ​​que são capazes de produzir um tempo real, preciso e razoável.

A Zyphra introduziu as soluções beta Zonos-V0.1, com dois modelos TTS em tempo real com clonagem de alta fidelidade. O lançamento inclui modelo e modelo de parâmetros de 1,6 bilhão do mesmo híbrido, encontrado sob a licença Apache 2.0. Este programa aberto deseja promover a pesquisa do TTS, disponibilizando a melhor tecnologia técnica para desenvolvedores e investigadores.

Os modelos Zonos-V0.1 são treinados em aproximadamente 200.000 horas de informação de comunicação, incluindo padrões neutros e em voz alta. Enquanto o conjunto de dados principal contém conteúdo em inglês, as partes importantes de peças chinesas, japonês, francês, espanhol e alemão incluíram, permitindo apoio multilíngue. Os modelos produzem um discurso realista a partir de presentes solicitações usando manchas ou áudio. Eles podem fazer cerca de 5 a 30 segundos de fala da amostra e dar controle sobre parâmetros como o nível de fala, qualidade do som, luto, alegria e maravilha. O discurso falado é produzido a uma taxa de amostragem de 44 kHz, garante sons mais altos.

Zonos-v0.1 inclui alguns recursos importantes:

  • TTS zero-shut tem uma clonagem de voz: Os usuários podem produzir uma palestra fornecendo uma amostra de um alto -falante curto pela instalação de texto, o que nos permite compilar vozes com pequenos dados.
  • Para entrada de áudio: Ao instalar um início de som, os modelos que podem corresponder melhor e os sintomas dos alto -falantes e produzem alguns estilos de fala, como fofocas.
  • A maioria dos idiomas suporta: O programa suporta muitos idiomas, incluindo inglês, japonês, chinês, francês e alemão, aumenta suas reivindicações globais.
  • Qualidade de som e controle emocional: Os usuários podem fazer adequadamente os recursos como pitch, grau de frequência e expressão emocional para criar outros efeitos emocionais.
  • Eficiência: Executando o dobro da velocidade real no RTX 4090, os modelos são projetados para aplicativos em tempo real.
  • Integrar o usuário integrarA área de Webui baseada em Webui é facilitada a aparência do discurso, disponibilizando-o para usuários mais amplos.
  • Remessa direta: Os modelos podem ser instalados e facilmente enviados usando um determinado conjunto de trabalho, para garantir a integração da transação do serviço existente.

Esses recursos produzem a ferramenta variável zonos-v0.1 para vários aplicativos TTS, desde a criação de conteúdo até as ferramentas de acesso.

A verificação ainda sugere que o Zonos-V0.1 envia uma resposta mais alta da fala, geralmente comparada ou excede os principais sistemas de gerenciamento. Embora um teste lógico seja complexo, as comparações com outros modelos-incluindo soluções para os Authenlabs e Cartesia e outras maneiras se abrem como poderes zonos-v1.5-revelação. O modelo híbrido, em particular, fornece um modelo de latência e o uso de baixa memória em comparação com a variedade de transformadores, beneficiando -se de uma construção de Mamba2, resgate da lista de atenção.

A versão beta do zonos-v0.1 mostra é um passo importante para o desenvolvimento do TTS aberto. Ao fornecer honestidade de alta e alta qualidade e sintetização em tempo real na licença realista, a Zyppha fornece aos desenvolvedores e investigadores uma poderosa instalação de desenvolvimento para aplicativos TTS. Sua combinação de cilonização de voz, suporte multilíngue e controle totalmente total aumentam a flexibilidade no campo, com possíveis solicitações em ajuda, criação de conteúdo e além.


Enquete Detalhes tecnológicos, Github, Zyphra / Zonos-V0.1-Transformer incluindo Zyphra / Zonos-v0.1-híbrido. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Recomendado para um código aberto de IA' (Atualizado)


O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.

✅ [Recommended] Junte -se ao nosso canal de telégrafo



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *