Lançado Fish Agent v0.1 3B: um modelo básico de voz para voz capaz de capturar e gerar informações de áudio espacial com precisão sem precedentes
Inteligência artificial

Lançado Fish Agent v0.1 3B: um modelo básico de voz para voz capaz de capturar e gerar informações de áudio espacial com precisão sem precedentes


Os sistemas atuais de conversão de texto em fala (TTS), como VALL-E e Fastspeech, enfrentam desafios persistentes relacionados ao processamento de recursos linguísticos complexos, ao gerenciamento de fala polifônica e à produção de fala multilíngue rica. Essas limitações tornam-se particularmente aparentes quando se lida com palavras polifônicas dependentes do contexto e quando se combinam diferentes idiomas. Os métodos tradicionais de TTS, que dependem da conversão de grafema para fonema (G2P), muitas vezes têm dificuldade para gerenciar a complexidade fonética em vários idiomas, resultando em qualidade inconsistente. Com a necessidade crescente de integração de voz complexa e IA multilíngue, esses desafios dificultam o desenvolvimento de aplicações do mundo real, como conversação de IA e ferramentas de acessibilidade.

A equipe da Fish Audio lançou recentemente o Fish Agent v0.1 3B, uma solução projetada para enfrentar esses desafios no TTS. Fish Agent é construído na estrutura Fish-Speech, usando uma nova arquitetura Dual Autoregressive (Dual-AR) e um vocoder avançado chamado Firefly-GAN (FF-GAN). Ao contrário dos programas TTS tradicionais, o Fish Agent v0.1 3B depende de Large Language Models (LLMs) para extrair recursos de linguagem diretamente do texto, ignorando a necessidade de conversão G2P. Esta abordagem melhora a eficiência do pipeline de compilação e a capacidade multilíngue, abordando as deficiências dos atuais modelos TTS e facilitando o processamento de texto multilíngue.

Fish Agent v0.1 3B apresenta uma arquitetura serial dupla autoregressiva (Dual-AR) lenta e rápida que consiste em transformadores lentos e rápidos. O Slow Transformer lida com estruturas de linguagem globais, enquanto o Fast Transformer captura recursos acústicos detalhados, garantindo síntese de fala de alta qualidade e som natural. Ao combinar a Quantização vetorial escalar finita agrupada (GFSQ), o modelo alcança maior utilização e compactação do livro de códigos, resultando em integração eficiente com menos latência. Além disso, o Firefly-GAN (FF-GAN), o vocoder do modelo, utiliza técnicas avançadas de estimativa vetorial para fornecer resultados altamente confiáveis ​​e estáveis ​​durante a geração de sequência. Essas opções de arquitetura permitem que o Fish Agent se destaque em processamento multilíngue, síntese de fala e aplicações em tempo real, tornando-o um avanço significativo no campo de TTS.

A importância do Fish Agent v0.1 3B reside na sua capacidade de resolver problemas que há muito atormentam os sistemas TTS. Sua abordagem não-G2P simplifica o processo de integração, permitindo melhor tratamento de cenários linguísticos complexos e conteúdo de idiomas mistos. O Fish-Speech foi treinado em um grande conjunto de dados composto por 720.000 horas de dados de áudio multilíngues, o que permitiu que o modelo se integrasse com sucesso em diferentes idiomas e mantivesse a qualidade em situações multilíngues. Testes experimentais mostram que o Fish-Speech atinge uma taxa de erro de palavras (WER) de 6,89%, que supera modelos básicos como CozyVoice (22,20%) e F5-TTS (13,98%). Além disso, o Fish Agent oferece latência de apenas 150 ms, tornando-o a escolha perfeita para aplicações em tempo real. Essas métricas de desempenho demonstram o poder do Fish Agent v0.1 3B para desenvolver tecnologia de fala orientada por IA.

Fish Agent v0.1 3B, desenvolvido pela Fish Audio Team, representa um avanço significativo na tecnologia TTS. Ao utilizar a nova arquitetura Dual-AR e recursos avançados de codificador, o Fish Agent aborda as limitações inerentes dos sistemas TTS tradicionais, especialmente em contextos multilíngues e polifônicos. Seu desempenho impressionante tanto no domínio dos recursos de idioma quanto na síntese de fala estabelece um novo padrão para a síntese de fala orientada por IA.


Confira Papel, GitHubde novo Modelo Em um rosto abraçado. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *