Google AI apresenta ZeroBAS: um método neural para síntese de áudio binaural a partir de gravações de som mono e informações de posição sem treinamento em quaisquer dados binaurais
Inteligência artificial

Google AI apresenta ZeroBAS: um método neural para síntese de áudio binaural a partir de gravações de som mono e informações de posição sem treinamento em quaisquer dados binaurais


Os humanos têm uma capacidade incrível de detectar fontes sonoras locais e interpretar seu ambiente usando pistas auditivas, um fenômeno chamado audição espacial. Esse recurso permite tarefas como identificar alto-falantes em ambientes barulhentos ou navegar em ambientes complexos. Simular essa sensação de percepção espacial é importante para o desenvolvimento de experiências imersivas em tecnologias como realidade aumentada (AR) e realidade virtual (VR). No entanto, a transição de monoaural (um canal) para binaural (dois canais) – que captura efeitos auditivos espaciais – enfrenta desafios significativos, especialmente devido à disponibilidade limitada de dados de áudio espacial e multicanal.

Os métodos tradicionais de síntese mono-binaural geralmente dependem de estruturas de processamento de sinal digital (DSP). Esses métodos exemplificam efeitos auditivos usando componentes como função de transferência relacionada à cabeça (HRTF), resposta ao impulso ambiente (RIR) e ruído ambiente, muitas vezes tratados como sistemas lineares invariantes no tempo (LTI). Embora as técnicas baseadas em DSP estejam bem estabelecidas e possam produzir uma experiência sonora realista, elas não levam em conta os efeitos de ondas acústicas não lineares encontrados nas transmissões de áudio do mundo real.

Os modelos de aprendizagem supervisionada surgiram como uma alternativa ao DSP, que utiliza redes neurais para sintetizar som binaural. No entanto, tais modelos enfrentam duas limitações principais: primeiro, a falta de conjuntos de dados binaurais anotados que descrevam a posição e, segundo, o risco de ajuste excessivo em áreas acústicas específicas, características do alto-falante e conjuntos de dados de treinamento. A necessidade de equipamentos especializados para coleta de dados também dificulta esses métodos, tornando os métodos supervisionados caros e ineficazes.

Para enfrentar esses desafios, pesquisadores do Google propuseram ZeroBAS, Um método neural zero-shot para síntese de fala mono-binaural independente de dados de treinamento binaural. Este método usa técnicas de distorção geométrica de tempo (GTW) e escala de amplitude (AS) com base na localização da fonte. Esses sinais brutos são ainda mais refinados usando um vocoder de eliminação de ruído pré-treinado, produzindo um som binaural que parece realista. Notavelmente, o ZeroBAS generaliza com sucesso em várias condições de sala, conforme demonstrado usando o conjunto de dados TUT Mono-to-Binaural apresentado recentemente, e atinge desempenho comparável, ou até melhor, aos métodos supervisionados modernos de extração de dados. dados.

A estrutura ZeroBAS inclui uma estrutura de três estágios como segue:

  1. Na seção 1, Distorção geométrica do tempo (GTW) converte a entrada mono em dois canais (esquerdo e direito), simulando a diferença de tempo interaural (ITD) com base na posição relativa da fonte sonora e dos ouvidos do ouvinte. GTW calcula o atraso dos canais auditivos esquerdo e direito. Os sinais torcidos são então combinados sequencialmente para produzir os canais binaurais originais.
  2. Na fase 2, Escala de amplitude (AS) melhora a fidelidade espacial de sinais distorcidos, simulando a diferença de nível interaural (ILD) com base na lei do inverso do quadrado. Como a percepção humana do espaço sonoro depende tanto do ITD quanto do ILD, este último domina os sons de alta frequência. Usando as distâncias da fonte euclidiana de ambas as orelhas e , as amplitudes são medidas.
  3. Na Seção 3, introduzimos o refinamento iterativo dos sinais distorcidos e medidos usando um vocoder ruidoso pré-treinado, OndaFit. Este decodificador maximiza os recursos do espectrograma log-mel e modelos de difusão probabilística (DDPMs) para gerar formas de onda binaurais puras. Ao usar repetidamente o vocoder, o sistema reduz artefatos acústicos e garante saída de som binaural de alta qualidade.

Chegando à análise, o ZeroBAS foi testado em dois conjuntos de dados (resultados nas Tabelas 1 e 2): Segundo discurso Conjunto de dados e inovação são apresentados TUT Mono para Binaural O conjunto de dados. Este último foi projetado para testar a generalização de métodos de integração mono-binaural em vários ambientes acústicos. Em testes objetivos, o ZeroBAS apresentou melhoria significativa em relação às bases DSP e se aproximou do desempenho dos métodos supervisionados apesar de não ter sido treinado em dados binários. Notavelmente, o ZeroBAS obteve os resultados mais elevados no conjunto de dados TUT fora de distribuição, destacando a sua robustez numa variedade de condições.

Os testes subjetivos também confirmaram a eficácia do ZeroBAS. Um teste de Média de Percepção (MOS) mostrou que os ouvintes humanos classificaram a saída do ZeroBAS como menos natural do que os métodos supervisionados. Nos testes MUSHRA, o ZeroBAS alcançou qualidade espacial semelhante aos modelos monitorados, com ouvintes incapazes de detectar diferenças estatisticamente significativas.

Embora este método seja muito notável, ele tem algumas limitações. ZeroBAS luta para processar informações de fase diretamente porque o codificador não tem orientação e depende de modelos gerais em vez de modelos específicos do ambiente. Apesar destas limitações, a sua capacidade de generalizar destaca eficazmente o potencial da aprendizagem implícita na síntese sonora binaural.

Concluindo, o ZeroBAS oferece uma abordagem atraente e independente de sala para a fusão de duas falas que atinge uma qualidade de inteligibilidade comparável aos métodos supervisionados sem a necessidade de dois dados de treinamento. Seu forte desempenho em diferentes ambientes acústicos o torna um candidato promissor para aplicações do mundo real em AR, VR e sistemas de áudio imersivos.


Confira Papel e detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.

🚨 Recomendar plataforma de código aberto: Parlant é uma estrutura que muda a forma como os agentes de IA tomam decisões em situações voltadas para o cliente. (Promovido)


Vineet Kumar é estagiário de consultoria na MarktechPost. Atualmente, ele está cursando seu bacharelado no Instituto Indiano de Tecnologia (IIT), Kanpur. Ele é um entusiasta do aprendizado de máquina. Ele está interessado em pesquisas e desenvolvimentos recentes em Deep Learning, Visão Computacional e áreas afins.

📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *