Embora os conjuntos de dados de fala existentes sejam fortemente tendenciosos para o inglês, muitas línguas da UE são mal mantidas em termos de dados de fala acessíveis e de alta qualidade. Essa falta de recursos leva a modelos de IA que entendem e processam melhor o inglês do que outros idiomas em tarefas como reconhecimento, tradução automática e outras tarefas de processamento de linguagem natural. A falta de conjuntos de dados grandes, bem organizados e de código aberto para as línguas da UE leva a preconceitos linguísticos, precisão reduzida e acesso limitado à tecnologia de IA para falantes de línguas da UE que não o inglês. Embora existam esforços para coletar dados de fala para línguas pequenas, eles são frequentemente fragmentados ou insuficientes para treinar modelos básicos em grande escala.
Para enfrentar este desafio, os investigadores estão a lançar o Mosel, um conjunto de dados de fala de código aberto, que oferece uma solução abrangente ao criar um conjunto de dados de fala abrangente e aberto concebido para as línguas da UE. O conjunto de dados, que inclui mais de 950.000 horas de dados de fala em 24 idiomas, é um passo importante para reduzir o preconceito linguístico nos modelos de IA. Mosel fornece um recurso sistemático e multilingue que colmata a lacuna nos dados disponíveis para as línguas da UE, apoiando assim o desenvolvimento de modelos linguísticos mais precisos e justos.
O conjunto de dados Mosel foi criado por meio de coleta, processamento e interpretação de dados multidimensionais. O projeto combina dados de fala de diversas fontes, incluindo gravações de domínio público e conjuntos de dados licenciados, garantindo uma representação abrangente do idioma. Cada conjunto de dados é rigorosamente limpo e processado para remover inconsistências, tornando-o adequado para aplicações de aprendizado de máquina. Anotações como transcrições, metadados do orador e rótulos de idioma são adicionadas para melhorar a usabilidade do conjunto de dados para várias tarefas de IA.
A licença de código aberto da Mosel garante que o conjunto de dados esteja disponível gratuitamente para pesquisadores e desenvolvedores, facilitando o uso e a reutilização em larga escala. Sua arquitetura foi projetada para manipular e acessar dados de forma eficiente, suportando operações como inspeção e recuperação de dados. Quando treinado no conjunto de dados Mosel, espera-se que o desempenho do modelo de IA melhore significativamente, com melhor precisão no reconhecimento de fala, tradução e outras tarefas de processamento de linguagem natural. Ao fornecer um recurso grande e bem anotado, o Mosel ajuda os modelos a aprender padrões de linguagem ricos e reduz o preconceito que muitas vezes favorece o inglês.
Em conclusão, o conjunto de dados Mosel representa um avanço importante na resposta à escassez de dados de fala de código aberto para as línguas da UE. Fornecer um corpus grande, diversificado e acessível torna o treinamento de modelos de IA mais preciso e menos tendencioso. Este projeto não só desenvolve competências linguísticas específicas para as línguas da UE, mas também promove a investigação e inovação inclusivas em tecnologia de IA em toda a Europa.
Confira GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Interessado em promover sua empresa, produto, serviço ou evento para mais de 1 milhão de desenvolvedores e pesquisadores de IA? Vamos trabalhar juntos!
Pragati Jhunjhunwala é estagiário de consultoria na MarktechPost. Atualmente, ele está cursando bacharelado em tecnologia no Instituto Indiano de Tecnologia (IIT), Kharagpur. Ele é um entusiasta de tecnologia e tem grande interesse em uma ampla gama de aplicativos de software e ciência de dados. Ele está constantemente aprendendo sobre os desenvolvimentos nos vários campos de IA e ML.