Um dos principais desafios no desenvolvimento de sistemas avançados de conversão de texto em fala (TTS) é a falta de fala durante a transcrição e geração de fala. Tradicionalmente, modelos de linguagem em larga escala (LLMs) são usados para construir pipelines TTS que convertem fala em texto usando reconhecimento automático de fala (ASR), processam-no usando LLM e depois convertem a saída de volta em fala via TTS. No entanto, esta abordagem muitas vezes leva a uma perda de qualidade expressiva, uma vez que nuances como altura, emoção e altura são removidas durante o processo ASR. Como resultado, a fala sintetizada tende a soar monótona ou antinatural, incapaz de transmitir adequadamente emoções como excitação, raiva ou surpresa.
A Meta AI lançou recentemente o Meta Spirit LM, um modelo multilíngue de código aberto que pode combinar livremente texto e fala para resolver essas limitações. O Meta Spirit LM aborda as limitações dos sistemas TTS existentes integrando texto e fala no nível da palavra, permitindo que o modelo se cruze perfeitamente. O modelo foi treinado em conjuntos de dados de fala e texto usando um método de classificação em nível de palavra, capturando com sucesso características expressivas da linguagem falada, mantendo ao mesmo tempo as capacidades semânticas robustas dos modelos baseados em texto.
Meta Spirit LM vem em duas versões: Spirit LM Base e Spirit LM Expressive. O Spirit LM Base usa tokens fonéticos para sintetizar a fala, permitindo a representação correta das palavras, enquanto o Spirit LM Expressive vai um passo além ao combinar tokens de entonação e estilo para capturar informações tonais, como felicidade ou raiva, e produzir uma fala que expresse essas coisas . emoções. Isso torna o Meta Spirit LM uma ferramenta poderosa para combinar os modos de texto e fala para produzir uma fala com som coerente e natural.
Meta Spirit LM usa uma abordagem diferente em nível de palavra para treinar em uma mistura de conjuntos de dados de texto e fala. A arquitetura do modelo foi projetada para alternar livremente entre texto e fala, codificando ambos os modos em um único conjunto de tokens. O Spirit LM Base usa tokens fonéticos baseados em representações de fala, enquanto o Spirit LM Expressive combina tokens de entonação e estilo que adicionam camadas de expressão emocional, como variação de tom ou humor.
Este recurso permite que o Meta Spirit LM produza uma fala natural e rica em contexto. O modelo é capaz de aprender com algumas sequências de tarefas em todos os modos, como reconhecimento automático de fala (ASR), conversão de texto em fala (TTS) e classificação de fala. Essa flexibilidade posiciona o Meta Spirit LM como uma melhoria significativa em relação aos modelos tradicionais de IA multimodal que normalmente operam em domínios isolados. Ao aprender representações que combinam texto e fala, o modelo também pode ser usado para aplicações mais complexas, incluindo narrativas expressivas, assistentes virtuais movidos por emoções e sistemas avançados de bate-papo interativo.
A importância do Meta Spirit LM reside na sua capacidade de alternar livremente entre fala e texto, melhorando enormemente a experiência de IA multimodal. A versão expressiva do modelo (Spirit LM Expressive) vai além dos modelos de fala padrão, permitindo a preservação da emoção e do tom em diferentes modos. Os resultados dos testes no benchmark Speech-Text Sentiment Preservation (STSP) mostram que o Spirit LM Expressive preserva efetivamente a intenção da emoção, fornecendo resultados mais naturais e emocionais do que os LLMs convencionais usando cascatas ASR e TTS.
Outra característica importante da oferta Meta Spirit LM é a capacidade de ler vários disparos em todos os modos diferentes. O modelo demonstrou capacidade de lidar com uma variedade de tarefas, como a conversão de texto em fala expressiva, com precisão competitiva que demonstra sua compreensão geral de todos os modos. Isto faz do Meta Spirit LM um avanço significativo no desenvolvimento de agentes conversacionais, ferramentas de comunicação acessíveis para pessoas com deficiência e tecnologias educacionais que exigem um diálogo natural e claro. A natureza de código aberto do modelo também convida a comunidade de investigação mais ampla a explorar e desenvolver as suas capacidades multidisciplinares.
O Meta Spirit LM representa um passo importante na integração de métodos de fala e texto em sistemas de IA sem sacrificar a expressividade. Meta Spirit LM Base e Spirit LM Expressive demonstram uma combinação poderosa de compreensão semântica e produção de fala expressiva usando uma abordagem separada para treinar conjuntos de dados de fala e texto. Seja gerando assistentes virtuais emotivos ou desenvolvendo IA conversacional, a abordagem de código aberto do Meta Spirit LM abre a porta para usos novos e expressivos da tecnologia de IA multimodal. Espera-se que as contribuições da Meta AI para este modelo estimulem mais pesquisas e desenvolvimento na interseção de texto e fala, levando, em última análise, a sistemas de comunicação de IA mais naturais e capazes.
Confira GitHub e detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️