Um desafio crítico na Avaliação Subjetiva da Qualidade da Fala (SSQA) permite que os modelos generalizem em domínios de fala heterogêneos e abstratos. Os modelos padrão de SSQA avaliam muitos modelos com baixo desempenho fora de seu domínio de treinamento, principalmente porque tais modelos muitas vezes enfrentam dificuldades de domínio na prática, no entanto, devido a características de dados e sistemas de pontuação completamente diferentes que existem entre diferentes tipos de tarefas de SSQA. incluindo TTS, VC e desenvolvimento da fala, é igualmente desafiador. A generalização efetiva do SSQA é necessária para garantir a compreensão da percepção humana nessas áreas, no entanto, muitos desses modelos são sempre limitados aos dados nos quais foram treinados, forçando-os assim a seu uso no mundo real em aplicações como testes automáticos de fala. Sistemas TTS e VC.
Os métodos atuais de SSQA incluem métodos baseados em índice e modelos. Os modelos baseados em referência avaliam a qualidade comparando amostras de fala com uma referência. Por outro lado, os métodos baseados em modelos, especialmente DNNs, aprendem diretamente a partir de conjuntos de dados definidos por humanos. O SSQA baseado em modelo tem o potencial de capturar a percepção humana com muita precisão, mas, ao mesmo tempo, apresenta limitações muito importantes:
- Limitações da Generalização: Os modelos SSQA muitas vezes falham quando testados com novos dados fora do domínio, levando a um desempenho inconsistente.
- Viés do conjunto de dados e o efeito Corpus: então os modelos podem ficar muito familiarizados com as características do conjunto de dados e todas as suas peculiaridades, como a escolha de objetivos ou tipos de dados, o que pode torná-los menos eficientes para todos os diferentes conjuntos de dados.
- Complexidade Computacional: Os modelos combinados aumentam a robustez do SSQA, mas ao mesmo tempo aumentam o custo computacional em comparação com o modelo básico, reduzindo-o a possibilidades impossíveis de avaliação em tempo real em ambientes com poucos recursos. As limitações mencionadas acima, em conjunto, restringem o desenvolvimento de bons modelos de SSQA, que sejam capazes de generalizar bem em diferentes conjuntos de dados e cenários de aplicação.
Para resolver essas limitações, os pesquisadores introduziram o MOS-Bench, um conjunto de benchmark que inclui sete conjuntos de dados de treinamento e doze conjuntos de dados de teste em diferentes tipos de fala, idiomas e taxas de amostragem. Além do MOS-Bench, o SHEET é um kit de ferramentas proposto que fornece um fluxo de trabalho padronizado para treinamento, validação e teste de modelos SSQA. Essa combinação de MOS-Bench e SHEET permite que os modelos SSQA sejam avaliados de forma sistemática e incluem especificamente capacidade de modelagem. O MOS-Bench incorpora uma abordagem de múltiplos conjuntos de dados, combinando dados de todas as fontes diferentes para estender a exposição do modelo a vários cenários. Além disso, a diferença entre os resultados melhores/médios da nova métrica de desempenho é apresentada para fornecer uma avaliação abrangente do desempenho do modelo SSQA nesses conjuntos de dados. Isto não só proporciona uma estrutura de testes consistente, mas também uma melhor integração à medida que os modelos são alinhados com a variabilidade do mundo real, o que é uma contribuição significativa para a SSQA.
A coleção de conjuntos de dados MOS-Bench contém vários conjuntos de dados com variações em suas amostras de frequência e rótulos de ouvinte para capturar a diversidade do domínio SSQA. Os principais conjuntos de dados são:
- BVCC- Um conjunto de dados em inglês que vem com amostras TTS e VC.
- SOMOS: Dados de qualidade de fala sobre modelos TTS em inglês treinados em LJSpeech.
- SingMOS: um conjunto de dados de amostras de vozes cantadas em chinês e japonês.
- NISQA: Amostras de fala em áudio vinculadas a redes. Conjuntos de dados com vários idiomas, vários domínios e tipos de fala para escopo de treinamento. MOS-Bench usa o modelo SSL-MOS e um AlignNet modificado como backbone, usando SSL para aprender representações ricas em recursos. O SHEET leva o processo SSQA um passo adiante com fluxos de trabalho de processamento de dados, treinamento e avaliação. SHEET também inclui recuperação de inferência não paramétrica baseada em pontuação kNN para melhorar a confiabilidade do modelo. Além disso, o ajuste de hiperparâmetros, como tamanho do lote e técnicas de otimização, está incluído para melhorar o desempenho do modelo.
Usando o MOS-Bench e o SHEET, ambos fizeram grandes avanços na generalização do SSQA em conjuntos de testes sintéticos e não sintéticos, até o ponto em que os modelos aprendem a atingir níveis mais altos e previsões de qualidade mais confiáveis, mesmo com dados fora do domínio. Os modelos treinados no conjunto de dados MOS-Bench, como PSTN e NISQA, são mais robustos para conjuntos de testes sintéticos, e a necessidade de dados orientados sintéticos, como anteriormente exigido para generalização, está se tornando obsoleta. Além disso, esta integração observacional confirmou fortemente que os modelos treinados no MOS-Bench capturaram uma ampla gama de distribuições de dados e mostraram melhor flexibilidade e consistência. A este respeito, a apresentação destes resultados pelo MOS-Bench também estabelece uma referência confiável, permitindo que os modelos SSQA apliquem desempenho preciso em diferentes domínios com maior eficiência e usabilidade para avaliação automatizada da qualidade da fala.
Esta metodologia, com MOS-Bench e SHEET, pretendia desafiar o problema de generalização do SSQA com vários conjuntos de dados e introduzir uma nova métrica de avaliação. Ao proporcionar a redução do viés específico do conjunto de dados e o uso de domínios cruzados, esta metodologia removerá os limites da pesquisa SSQA para possibilitar que os modelos sejam generalizados para todas as aplicações de forma eficaz. Um desenvolvimento importante é que diferentes conjuntos de dados de domínio são coletados pelo MOS-Bench e seu kit de ferramentas padrão. Felizmente, agora estão disponíveis recursos para que os pesquisadores desenvolvam modelos robustos de SSQA na presença de vários tipos de fala e na presença de aplicações do mundo real.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[AI Magazine/Report] Leia nosso último relatório sobre 'MODELOS DE TERRENO PEQUENOS'
Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️