Redefinindo o desenvolvimento de fala de canal único: a abordagem xLSTM-SENet
Inteligência artificial

Redefinindo o desenvolvimento de fala de canal único: a abordagem xLSTM-SENet


Os sistemas de processamento de fala muitas vezes têm dificuldade para fornecer um som nítido em ambientes barulhentos. Esse desafio afeta aplicações como aparelhos auditivos, reconhecimento automático de fala (ASR) e autenticação de alto-falante. Programas comuns de aprimoramento de fala (SE) de canal único usam arquiteturas de rede neural, como LSTMs, CNNs e GANs, mas apresentam limitações. Por exemplo, modelos baseados em atenção, como os Conformers, embora poderosos, requerem extensos recursos computacionais e grandes conjuntos de dados, o que pode não ser prático para algumas aplicações. Estas questões destacam a necessidade de alternativas mais escaláveis ​​e eficientes.

Apresentando xLSTM-SENet

Para enfrentar esses desafios, pesquisadores da Universidade de Aalborg e da Oticon A/S desenvolveram o xLSTM-SENet, o primeiro sistema SE baseado em um único xLSTM. Este sistema baseia-se na arquitetura Extended Short Term Memory (xLSTM), que refina os modelos LSTM tradicionais introduzindo portas exponenciais e memória matricial. Essas melhorias resolvem algumas das limitações dos LSTMs padrão, como capacidade de armazenamento limitada e paralelismo limitado. Ao integrar o xLSTM na estrutura MP-SENet, o novo sistema pode processar efetivamente espectros de magnitude e fase, fornecendo uma abordagem sistemática para aprimoramento de fala.

Visão geral técnica e benefícios

xLSTM-SENet foi projetado com uma estrutura de domínio codificador-decodificador-tempo-frequência (TF). Em seu núcleo estão os blocos TF-xLSTM, que usam camadas mLSTM para capturar a dependência temporal e de frequência. Ao contrário dos LSTMs tradicionais, os mLSTMs usam uma porta exponencial para controle mais preciso do armazenamento e design de memória baseado em matriz para expansão de capacidade. A estrutura bidimensional também melhora a capacidade do modelo de usar informações contextuais de quadros passados ​​e futuros. Além disso, o sistema inclui decodificadores especiais para espectros de amplitude e fase, que contribuem para a melhoria da qualidade e inteligibilidade da fala. Essas inovações tornam o xLSTM-SENet mais eficiente e adequado para dispositivos com recursos computacionais limitados.

Desempenho e resultados

Experimentos usando o conjunto de dados VoiceBank+DEMAND destacam a eficácia do xLSTM-SENet. O programa alcança resultados comparáveis ​​ou melhores que modelos de última geração, como SEMamba e MP-SENet. Por exemplo, registrou uma pontuação de Avaliação Perceptiva da Qualidade da Fala (PESQ) de 3,48 e uma pontuação de Inteligibilidade Objetiva de Curto Tempo (STOI) de 0,96. Além disso, métricas compostas como CSIG, CBAK e COVL mostraram melhorias significativas. Estudos de ablação enfatizaram a importância de recursos como controle exponencial e bidirecionalidade na melhoria do desempenho. Embora o programa exija períodos de formação mais longos do que alguns modelos baseados em cuidados, o seu desempenho global demonstra o seu valor.

A conclusão

xLSTM-SENet fornece uma resposta lógica aos desafios da otimização de fala de canal único. Ao aproveitar o poder das arquiteturas xLSTM, o sistema equilibra escalabilidade e robustez. Este trabalho não apenas avança o estado da tecnologia de aprimoramento da fala, mas também abre portas para aplicações em situações do mundo real, como aparelhos auditivos e sistemas de reconhecimento de fala. À medida que estas técnicas continuam a evoluir, prometem tornar o processamento de voz de alta qualidade mais acessível e viável para uma variedade de necessidades.


Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.

🚨 Recomendar plataforma de código aberto: Parlant é uma estrutura que está mudando a forma como os agentes de IA tomam decisões em situações voltadas para o cliente. (Promovido)


Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.

📄 Conheça 'Height': a única ferramenta autônoma de gerenciamento de projetos (patrocinado)



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *