Esteja você descrevendo o som do motor defeituoso do seu carro ou falando como o gato do seu vizinho, imitar sons com sua voz pode ser uma maneira útil de transmitir uma ideia quando as palavras não funcionam.
A dublagem é o equivalente sonoro de rabiscar uma imagem rápida para falar sobre algo que você viu – exceto que, em vez de usar um lápis para mostrar a imagem, você usa sua voz para emitir um som. Isso pode parecer difícil, mas é algo que todos nós fazemos intuitivamente: para experimentar você mesmo, tente usar sua voz para representar o som da sirene de uma ambulância, de um corvo ou de um sino.
Inspirados pela ciência cognitiva de como nos comunicamos, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) desenvolveram um sistema de IA que pode produzir imitações de voz semelhante à humana sem treinamento e sem ter “ouvido” uma voz humana antes. .
Para conseguir isso, os pesquisadores projetaram seu sistema para produzir e interpretar sons exatamente como nós. Eles começaram construindo um modelo da voz humana que imita como as vibrações da caixa vocal moldam a garganta, a língua e os lábios. Em seguida, eles usam um algoritmo de IA de inspiração cognitiva para manipular esse modelo de voz e gerar simulações, levando em consideração as formas específicas do contexto pelas quais as pessoas escolhem interagir com o som.
O modelo pode captar com sucesso muitos sons do mundo e produzir uma simulação semelhante à humana – incluindo sons como o farfalhar de folhas, o silvo de uma cobra e a sirene de uma ambulância que se aproxima. Seu modelo também pode ser executado ao contrário para prever sons do mundo real a partir de simulações de voz humana, semelhante à forma como outros sistemas de visão computacional podem encontrar imagens de alta qualidade com base em desenhos. Por exemplo, o modelo pode distinguir corretamente entre um humano imitando o “miau” de um gato e o seu “assobio”.
No futuro, este modelo pode levar a uma comunicação intuitiva “baseada em simulação” para designers de áudio, personagens de IA semelhantes a humanos como objetos reais e maneiras de ajudar os alunos a aprender novos idiomas.
Os autores principais – os alunos de doutorado do MIT CSAIL, Kartik Chandra SM '23 e Karima Ma, e o pesquisador graduado Matthew Caren – observam que os pesquisadores de computação gráfica há muito reconhecem que o realismo raramente é o objetivo final da representação visual. Por exemplo, um desenho abstrato ou um rabisco de giz de cera infantil pode ser tão nítido quanto uma imagem.
“Nas últimas décadas, os avanços nos algoritmos de desenho levaram a novas ferramentas para artistas, avanços na IA e na visão computacional e uma compreensão mais profunda da cognição humana”, observa Chandra. “Da mesma forma que uma pintura é uma imagem abstrata, que não é um quadro, o nosso método capta uma imagem abstrata, que não é um fonógrafo.–maneiras práticas pelas quais as pessoas expressam os sons que ouvem. Isso nos ensina sobre o processo de remoção de orelhas.”
Reproduza o vídeo
“O objetivo deste projeto era compreender e modelar a simulação computacional da fala, que consideramos uma espécie de equivalente auditivo do mapeamento no domínio visual”, disse Caren.
A arte de atuar, em três partes
A equipe desenvolveu três versões incrementais do modelo para comparar com simulações de voz humana. Primeiro, eles criaram um modelo básico que visava simplesmente produzir simulações que se assemelhassem tanto quanto possível aos sons do mundo real – mas esse modelo não combinava muito bem com o comportamento humano.
Os pesquisadores então projetaram um segundo modelo de “comunicação”. Segundo Caren, esse modelo busca o que há de diferente no som para o ouvinte. Por exemplo, você pode imitar o som de um barco a motor simulando o rugido de seu motor, já que essa é a característica auditiva mais proeminente, mesmo que não seja a característica mais alta (em comparação com, digamos, respingos de água). Este segundo modelo criou uma simulação melhor que a linha de base, mas a equipe queria melhorá-la ainda mais.
Para aprofundar a sua abordagem, os investigadores acrescentaram uma camada final de raciocínio ao modelo. “A dublagem pode soar diferente dependendo do esforço que você coloca nela. É preciso tempo e energia para produzir sons totalmente precisos”, diz Chandra. O modelo completo dos investigadores explica isto, tentando evitar uma fala demasiado rápida, demasiado alta ou com um tom alto ou baixo, que as pessoas podem não utilizar numa conversa. O resultado: imitações mais humanas que se assemelham muito a muitas das decisões que os humanos tomam ao imitar os mesmos sons.
Depois de construir este modelo, a equipe realizou testes comportamentais para ver se as simulações de voz geradas por IA ou por humanos eram percebidas como melhores pelos juízes humanos. Notavelmente, os participantes do estudo preferiram o modelo de IA 25% do tempo em geral, e cerca de 75% para a simulação de barco a motor e 50% para a simulação de artilharia.
Rumo a uma tecnologia de som
Apaixonada por música e tecnologia artística, Caren acredita que este modelo pode ajudar os músicos a comunicar melhor os sons em sistemas de mixagem e ajudar os cineastas e outros criadores de conteúdo, gerando sons de IA que são muito diferentes para um determinado contexto. Também pode permitir que o artista pesquise rapidamente um banco de dados de áudio, simulando um áudio difícil de definir, por exemplo, informações textuais.
Atualmente, Caren, Chandra e Ma estão a analisar as implicações do seu modelo noutros domínios, incluindo o desenvolvimento da linguagem, a forma como as crianças aprendem a falar e até mesmo o comportamento imitativo em aves como papagaios e pássaros canoros.
A equipe ainda tem trabalho a fazer com a iteração atual de seu modelo: ele lutou com certas consoantes, como “z”, o que levou ao reconhecimento incorreto de outros sons, como o zumbido das abelhas. E atualmente não conseguem replicar a forma como as pessoas imitam a fala, a música ou sons que são imitados de forma diferente em diferentes idiomas, como os batimentos cardíacos.
O professor de linguística da Universidade de Stanford, Robert Hawkins, diz que a linguagem é cheia de onomatopeias e palavras que imitam, mas não repetem completamente, as coisas que descrevem, como o som “miau”, que é muito próximo do som feito pelos gatos. “Os processos que nos levam do som de um gato real a uma palavra como ‘miau’ revelam muito sobre a complexa relação entre fisiologia, pensamento social e comunicação na evolução da linguagem”, disse Hawkins, que não esteve envolvido. no estudo CSAIL. “Este modelo apresenta um passo emocionante para formalizar e testar as hipóteses desses processos, mostrando que tanto as restrições físicas da voz humana como as pressões sociais da comunicação são necessárias para explicar a distribuição da imitação vocal”.
Caren, Chandra e Ma foram coautores do artigo com dois outros colaboradores do CSAIL: Jonathan Ragan-Kelley, professor do Departamento de Engenharia Elétrica e Ciência da Computação do MIT, e Joshua Tenenbaum, professor do MIT Brain and Cognitive Sciences e do Centro para Cérebro, Mente e Máquinas. um membro. O seu trabalho foi apoiado, em parte, pela Hertz Foundation e pela National Science Foundation. Foi apresentado na SIGGRAPH Asia no início de dezembro.