A tecnologia de texto em fala fez grandes motocicletas nos últimos anos, mas os desafios vivem na construção de ambientais, evolução e alta confiabilidade. Muitos programas TTS se esforçam para repetir nuances de língua humana, como compreensão, sentimentos e sotaque, geralmente levam a uma consulta alta. Além disso, a visualização precisa da voz permanece difícil, reduzindo a capacidade de produzir consequências pessoais ou variadas da fala. Esses desafios foram conduzidos pela pesquisa em andamento sobre os modelos TTS mais notáveis que são capazes de produzir um tempo real, preciso e razoável.
A Zyphra introduziu as soluções beta Zonos-V0.1, com dois modelos TTS em tempo real com clonagem de alta fidelidade. O lançamento inclui modelo e modelo de parâmetros de 1,6 bilhão do mesmo híbrido, encontrado sob a licença Apache 2.0. Este programa aberto deseja promover a pesquisa do TTS, disponibilizando a melhor tecnologia técnica para desenvolvedores e investigadores.
Os modelos Zonos-V0.1 são treinados em aproximadamente 200.000 horas de informação de comunicação, incluindo padrões neutros e em voz alta. Enquanto o conjunto de dados principal contém conteúdo em inglês, as partes importantes de peças chinesas, japonês, francês, espanhol e alemão incluíram, permitindo apoio multilíngue. Os modelos produzem um discurso realista a partir de presentes solicitações usando manchas ou áudio. Eles podem fazer cerca de 5 a 30 segundos de fala da amostra e dar controle sobre parâmetros como o nível de fala, qualidade do som, luto, alegria e maravilha. O discurso falado é produzido a uma taxa de amostragem de 44 kHz, garante sons mais altos.
Zonos-v0.1 inclui alguns recursos importantes:
- TTS zero-shut tem uma clonagem de voz: Os usuários podem produzir uma palestra fornecendo uma amostra de um alto -falante curto pela instalação de texto, o que nos permite compilar vozes com pequenos dados.
- Para entrada de áudio: Ao instalar um início de som, os modelos que podem corresponder melhor e os sintomas dos alto -falantes e produzem alguns estilos de fala, como fofocas.
- A maioria dos idiomas suporta: O programa suporta muitos idiomas, incluindo inglês, japonês, chinês, francês e alemão, aumenta suas reivindicações globais.
- Qualidade de som e controle emocional: Os usuários podem fazer adequadamente os recursos como pitch, grau de frequência e expressão emocional para criar outros efeitos emocionais.
- Eficiência: Executando o dobro da velocidade real no RTX 4090, os modelos são projetados para aplicativos em tempo real.
- Integrar o usuário integrarA área de Webui baseada em Webui é facilitada a aparência do discurso, disponibilizando-o para usuários mais amplos.
- Remessa direta: Os modelos podem ser instalados e facilmente enviados usando um determinado conjunto de trabalho, para garantir a integração da transação do serviço existente.

Esses recursos produzem a ferramenta variável zonos-v0.1 para vários aplicativos TTS, desde a criação de conteúdo até as ferramentas de acesso.
A verificação ainda sugere que o Zonos-V0.1 envia uma resposta mais alta da fala, geralmente comparada ou excede os principais sistemas de gerenciamento. Embora um teste lógico seja complexo, as comparações com outros modelos-incluindo soluções para os Authenlabs e Cartesia e outras maneiras se abrem como poderes zonos-v1.5-revelação. O modelo híbrido, em particular, fornece um modelo de latência e o uso de baixa memória em comparação com a variedade de transformadores, beneficiando -se de uma construção de Mamba2, resgate da lista de atenção.
A versão beta do zonos-v0.1 mostra é um passo importante para o desenvolvimento do TTS aberto. Ao fornecer honestidade de alta e alta qualidade e sintetização em tempo real na licença realista, a Zyppha fornece aos desenvolvedores e investigadores uma poderosa instalação de desenvolvimento para aplicativos TTS. Sua combinação de cilonização de voz, suporte multilíngue e controle totalmente total aumentam a flexibilidade no campo, com possíveis solicitações em ajuda, criação de conteúdo e além.
Enquete Detalhes tecnológicos, Github, Zyphra / Zonos-V0.1-Transformer incluindo Zyphra / Zonos-v0.1-híbrido. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.
🚨 Recomendado para um código aberto de IA' (Atualizado)

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.
✅ [Recommended] Junte -se ao nosso canal de telégrafo