Os sistemas de processamento de fala muitas vezes têm dificuldade para fornecer um som nítido em ambientes barulhentos. Esse desafio afeta aplicações como aparelhos auditivos, reconhecimento automático de fala (ASR) e autenticação de alto-falante. Programas comuns de aprimoramento de fala (SE) de canal único usam arquiteturas de rede neural, como LSTMs, CNNs e GANs, mas apresentam limitações. Por exemplo, modelos baseados em atenção, como os Conformers, embora poderosos, requerem extensos recursos computacionais e grandes conjuntos de dados, o que pode não ser prático para algumas aplicações. Estas questões destacam a necessidade de alternativas mais escaláveis e eficientes.
Apresentando xLSTM-SENet
Para enfrentar esses desafios, pesquisadores da Universidade de Aalborg e da Oticon A/S desenvolveram o xLSTM-SENet, o primeiro sistema SE baseado em um único xLSTM. Este sistema baseia-se na arquitetura Extended Short Term Memory (xLSTM), que refina os modelos LSTM tradicionais introduzindo portas exponenciais e memória matricial. Essas melhorias resolvem algumas das limitações dos LSTMs padrão, como capacidade de armazenamento limitada e paralelismo limitado. Ao integrar o xLSTM na estrutura MP-SENet, o novo sistema pode processar efetivamente espectros de magnitude e fase, fornecendo uma abordagem sistemática para aprimoramento de fala.
Visão geral técnica e benefícios
xLSTM-SENet foi projetado com uma estrutura de domínio codificador-decodificador-tempo-frequência (TF). Em seu núcleo estão os blocos TF-xLSTM, que usam camadas mLSTM para capturar a dependência temporal e de frequência. Ao contrário dos LSTMs tradicionais, os mLSTMs usam uma porta exponencial para controle mais preciso do armazenamento e design de memória baseado em matriz para expansão de capacidade. A estrutura bidimensional também melhora a capacidade do modelo de usar informações contextuais de quadros passados e futuros. Além disso, o sistema inclui decodificadores especiais para espectros de amplitude e fase, que contribuem para a melhoria da qualidade e inteligibilidade da fala. Essas inovações tornam o xLSTM-SENet mais eficiente e adequado para dispositivos com recursos computacionais limitados.
Desempenho e resultados
Experimentos usando o conjunto de dados VoiceBank+DEMAND destacam a eficácia do xLSTM-SENet. O programa alcança resultados comparáveis ou melhores que modelos de última geração, como SEMamba e MP-SENet. Por exemplo, registrou uma pontuação de Avaliação Perceptiva da Qualidade da Fala (PESQ) de 3,48 e uma pontuação de Inteligibilidade Objetiva de Curto Tempo (STOI) de 0,96. Além disso, métricas compostas como CSIG, CBAK e COVL mostraram melhorias significativas. Estudos de ablação enfatizaram a importância de recursos como controle exponencial e bidirecionalidade na melhoria do desempenho. Embora o programa exija períodos de formação mais longos do que alguns modelos baseados em cuidados, o seu desempenho global demonstra o seu valor.
A conclusão
xLSTM-SENet fornece uma resposta lógica aos desafios da otimização de fala de canal único. Ao aproveitar o poder das arquiteturas xLSTM, o sistema equilibra escalabilidade e robustez. Este trabalho não apenas avança o estado da tecnologia de aprimoramento da fala, mas também abre portas para aplicações em situações do mundo real, como aparelhos auditivos e sistemas de reconhecimento de fala. À medida que estas técnicas continuam a evoluir, prometem tornar o processamento de voz de alta qualidade mais acessível e viável para uma variedade de necessidades.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.
🚨 Recomendar plataforma de código aberto: Parlant é uma estrutura que está mudando a forma como os agentes de IA tomam decisões em situações voltadas para o cliente. (Promovido)
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
📄 Conheça 'Height': a única ferramenta autônoma de gerenciamento de projetos (patrocinado)