AI4Bharat e Hugging Faces apresentaram o Conversão de texto em fala (TTS) Indic-Parler programa, uma iniciativa destinada a melhorar a inclusão da linguagem na IA. Este desenvolvimento é uma tentativa de colmatar a exclusão digital num país linguisticamente diverso como a Índia. O Indic Parler-TTS representa a integração de tecnologia avançada e preservação cultural para permitir que os usuários acessem ferramentas digitais em vários idiomas indianos.
O sistema Indic-Parler TTS é uma tecnologia multilíngue de conversão de texto em fala projetada para atender à rica diversidade linguística da Índia. Suportando 21 idiomas, incluindo Hindi, Bengali, Tamil, Telugu e Marathi, além do inglês, o modelo é construído sobre um conjunto de dados robusto de mais de 1.800 horas de dados de fala. Oferece 69 vozes exclusivas projetadas para fornecer caráter e clareza. Inclui recursos avançados, como representação de emoções, dinâmica de voz em inglês indiano e atributos personalizáveis, como tom, velocidade de fala, ruído de fundo e repetição. Estas características permitem que o sistema produza resultados de fala claros e com som natural, enquanto o seu design modular garante adaptabilidade às nuances linguísticas e culturais.
A base deste programa reside em extensos conjuntos de dados de programas como IndicTTS e LIMMITS, que incluem as 16 línguas oficiais da Índia e outras como Chhattisgarhi. Essa diversidade garante desempenho confiável mesmo em linguagens com poucos recursos como Bodo e Maithili. Suas pontuações nos testes destacam a integração quase perfeita do sânscrito e a precisão impressionante em Manipuri, Odia e Kannada. Além disso, seu modelo de acesso aberto sob a licença Apache 2.0 democratiza a tecnologia de ponta, permitindo que desenvolvedores e pesquisadores inovem e expandam seu uso. A Indic-Parler TTS promove a inclusão digital proporcionando acesso gratuito e transparente.
A essência do Indic Parler-TTS é sua capacidade de produzir fala de alta qualidade e som natural em vários idiomas indianos. Esta capacidade aborda uma lacuna significativa no acesso à tecnologia para quem não fala inglês, que constitui uma grande parte da população. O design do sistema foi projetado para abordar as dificuldades fonéticas e as características linguísticas únicas das línguas indianas. Um grande desafio no desenvolvimento de um sistema TTS para línguas indianas é a diversidade de estruturas fonéticas e sintáticas. Ao contrário da maioria das línguas ocidentais, as línguas indianas exibem frequentemente uma variedade de dialetos regionais, variações fonéticas e diversidade cultural. O Indic Parler-TTS incorpora essa complexidade em sua estrutura, garantindo que sua saída seja compatível com falantes nativos. Isso melhora a usabilidade da ferramenta e promove um sentimento de orgulho e preservação cultural entre os usuários.
Os principais recursos do Indic Parler-TTS são os seguintes:
- Suporte a idiomas: O Indic Parler-TTS suporta oficialmente 21 idiomas, incluindo Assamês, Bengali, Bodo, Dogri, Kannada, Malayalam, Marathi, Sânscrito, Nepalês, Inglês, Telugu, Hindi, Gujarati, Konkani, Maithili, Manipuri, Odia, Santali, Sindi, Tamil, e Urdu, com o apoio informal de Chhattisgarhi, Caxemira e Punjabi.
- Diversidade de palestrantes: O sistema possui 69 vozes diferentes em todos os idiomas suportados, com cada idioma oferecendo um conjunto de vozes recomendadas que são otimizadas para naturalidade e inteligibilidade para melhorar a experiência do usuário.
- Fornecimento de sentimento: As informações emocionais são oficialmente suportadas em 10 idiomas, Assamês, Bengali, Bodo, Dogri, Kannada, Malayalam, Marathi, Sânscrito, Nepalês e Tamil, com emoções como Comando, Raiva, Narração, Nojo, Feliz, Triste e Surpresa. , embora os testes em outros idiomas sejam limitados.
- Flexibilidade de sotaque: Os sotaques do inglês indiano são oficialmente suportados com resultados claros e naturais, enquanto outros sotaques, como o britânico ou o americano, podem ser personalizados usando transferência de estilo para combinar um discurso pessoal e dinâmico.
- Saída personalizada: O sistema permite um controle preciso sobre os recursos de fala, incluindo ruído de fundo, frequência, tom, tom, velocidade de fala e qualidade de voz. Portanto, os usuários podem ajustar a saída de áudio de muito descritiva e dinâmica a monótona e refinada.
Concluindo, o programa Indic-Parler TTS é uma ferramenta de IA multilíngue que suporta 21 idiomas, incluindo Hindi, Bengali, Tamil, Telugu e Marathi, com mais de 1.800 horas de dados de treinamento. Ele oferece saída natural e sonora com 69 vozes diferentes e recursos avançados, como emoção, dinâmica de voz e atributos de fala personalizáveis. Ele preenche as lacunas linguísticas em comunidades carentes com integração quase completa do sânscrito e alta precisão de Manipuri, Bodo e Kannada. Sua licença de acesso aberto Apache 2.0 incentiva a inovação e é um passo revolucionário na preservação da diversidade linguística e na promoção da inclusão da IA na Índia.
Confira Modelo abraçando o rosto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)