As tecnologias de reconhecimento automático de fala (ASR) e diarização tornaram-se ferramentas importantes para revolucionar a forma como as máquinas interpretam a fala humana. Essas inovações permitem transcrição precisa, segmentação de fala e identificação de orador em diversas aplicações, como transcrição de mídia, documentação legal e automação de atendimento ao cliente. Ao dividir os dados de áudio em texto compreensível e colocar a fala em alto-falantes separados, esses sistemas abriram caminho para aplicações inteligentes e interativas baseadas em IA.
Um dos principais desafios na área de ASR e Diarização tem sido alcançar alta precisão na gravação e identificação de falantes. Os modelos existentes muitas vezes requerem assistência no reconhecimento de fala de formato longo, que pode envolver diferentes falantes com diferentes sinais e padrões de fala. Essa complexidade resulta em altas taxas de erro e aumento do custo computacional, tornando um desafio para o bom desempenho dos sistemas ASR em ambientes do mundo real. A discagem por alto-falante encontra restrições significativas na segmentação precisa de alto-falantes a partir de segmentos de fala sobrepostos, levando a interpretações incorretas e desempenho reduzido de todos esses sistemas.
Os métodos ASR tradicionais, como Whisper-v3 da OpenAI e Canary-1B da NVIDIA, estabeleceram altos padrões de referência em termos de precisão, mas muitas vezes apresentam limitações. Esses modelos dependem de grandes conjuntos de parâmetros e exigem um poder computacional significativo, tornando-os impraticáveis para aplicações em larga escala. Da mesma forma, os modelos de discagem anteriores, como o PyAnnote3.0, fornecem uma base para a classificação dos alto-falantes, mas precisam de mais refinamento para se integrarem perfeitamente aos sistemas ASR. Embora estes modelos tenham ultrapassado os limites da tecnologia de fala, eles deixam espaço para melhorias tanto no desempenho como na eficiência do recurso.
A equipe de pesquisa da Rev, uma empresa líder em tecnologia de fala, introduziu o Reverb ASR e os modelos Reverb Diarization v1 e v2, estabelecendo novos níveis de precisão e eficiência computacional no domínio. Reverb ASR é um modelo inglês treinado em 200.000 horas de dados de fala escrita por humanos, alcançando uma alta taxa de erros de palavras (WER). Os modelos de discagem, construídos com base na estrutura PyAnnote, foram ajustados com 26.000 horas de dados rotulados. Esses modelos não são apenas bem-sucedidos na classificação da fala, mas também abordam o problema da interpretação do falante em ambientes auditivos complexos.
A tecnologia por trás do Reverb ASR inclui classificação de tempo convolucional (CTC) e arquitetura baseada em atenção. O modelo ASR consiste em 18 conformadores e seis camadas de transformador, compreendendo 600 milhões de parâmetros. A arquitetura oferece suporte a vários métodos de codificação, como pesquisa de prefixo CTC, recuperação de atenção e decodificação conjunta de CTC/atenção, fornecendo opções de implantação flexíveis. O modelo Reverb Diarization v1, construído na arquitetura PyAnnote3.0, consiste em 2 camadas LSTM com 2,2 milhões de parâmetros. Enquanto isso, o Reverb Diarization v2 substitui os recursos do SincNet pelo WavLM, melhorando a precisão do diário. Essa mudança na tecnologia levou a equipe Rev a pesquisar para fornecer o sistema de separação e atributos de alto-falantes mais robusto.
Em termos de desempenho, os modelos Reverb ASR e Diarization superam as soluções convencionais em todos os conjuntos de dados de benchmark. No conjunto de dados Earnings21, Reverb ASR alcançou um WER de 9,68, que é significativamente menor do que 14,26 do Whisper big-v3 e 14,40 do Canary-1B. Da mesma forma, no conjunto de dados Earnings22, Reverb ASR registrou um WER de 13,68 em comparação com 19,05 do Whisper e 19,01 do Canary-1B. Os dados Rev16 mostraram um ASR Rev16 com um WER de 10,30, enquanto Whisper e Canary relataram 10,86 e 13,82, respectivamente. Esta melhoria acentuada no desempenho destaca a eficácia do Reverb ASR no tratamento de fala em idiomas longos. Para diarização, Reverb Diarization v1 forneceu uma melhoria de 16,5% na taxa de erro de diarização de palavras (WDER) em relação ao PyAnnote3.0, e v2 alcançou uma melhoria relativa de 22,25%, tornando-o a escolha superior para a integração de ASR.
Os novos modelos da Rev não apenas abordam os desafios enfrentados pelos sistemas tradicionais, mas também fornecem uma solução pronta para produção para vários setores. O pipeline Reverb ASR avançado inclui pesquisa de transdutor de estado finito ponderado (WFST), modelagem de linguagem unigrama e reconhecimento de atenção, tornando-o altamente adaptável às necessidades de diferentes transcrições. Além disso, o modelo oferece transcrição de voz personalizável, que permite ao usuário escolher o nível de voz, tornando-o adequado para situações desde transcrição limpa até edição de áudio. Os modelos de dial integram-se perfeitamente aos sistemas ASR, fornecendo nomes de alto-falantes com alta precisão, mesmo em ambientes barulhentos.
A Rev se estabeleceu como líder na indústria de tecnologia de fala com esse desenvolvimento. Sua estratégia de código aberto permite que a comunidade acesse esses modelos poderosos por meio de plataformas como a Hugging Face, que incentiva a inovação e a colaboração. Ao estabelecer novos padrões de referência em ASR e discagem por alto-falante, a equipe de pesquisa da Rev forneceu à indústria uma solução confiável, escalável e flexível para compreensão automática de fala e atribuição de alto-falante. O refinamento contínuo destes modelos reflete o compromisso da Rev. em reduzir os limites da tecnologia de fala e estabelecer novos padrões para o desenvolvimento futuro.
Confira Detalhes, Modelos em Hugging Face e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Interessado em promover sua empresa, produto, serviço ou evento para mais de 1 milhão de desenvolvedores e pesquisadores de IA? Vamos trabalhar juntos!
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.