Nos últimos anos, o desenvolvimento de modelos linguísticos em larga escala fez progressos significativos no processamento de linguagem natural (PNL). Esses modelos, treinados em extensos conjuntos de dados, podem construir, compreender e analisar a linguagem humana com notável proficiência. No entanto, a construção de tais modelos requer grandes quantidades de dados e o acesso a conjuntos de dados multilingues de alta qualidade continua a ser um grande desafio. A falta de conjuntos de dados de formação abertos, grandes e diversificados impediu que investigadores e engenheiros construíssem modelos linguísticos inclusivos e robustos, especialmente para línguas menos faladas. As barreiras linguísticas e a representação limitada impediram que os programas de PNL alcançassem todo o seu potencial. Enfrentar estes desafios exige uma nova abordagem que dê prioridade ao multilinguismo e ao acesso aberto à formação em modelos linguísticos.
Lançamento do Corpus Comum
Por favor lançou recentemente o Common Corpus: o maior conjunto de dados multilíngues de modelos linguísticos pré-treinamento. Este conjunto de dados abrangente é um marco importante para a comunidade da PNL, fornecendo mais de dois bilhões de tokens em vários idiomas, provenientes de vários domínios abertos. Disponível na Hugging Face, o Common Corpus faz parte da iniciativa de conjunto de dados abertos da AI Alliance, que incorpora um compromisso de acesso aberto a dados para pesquisa e inovação. O Common Corpus é uma coleção que celebra a diversidade e amplitude do conhecimento comum, contendo cinco categorias principais de dados: cultura aberta, governo aberto, código aberto, ciência aberta e web aberta. De relatórios públicos a publicações científicas, recursos culturais abertos como a Wikipédia e códigos autorizados do GitHub, esse conjunto de dados fornece uma amplitude de conteúdo sem precedentes para o treinamento de modelos multilíngues. A inclusão desses diferentes tipos de dados o torna ideal para o pré-treinamento de modelos de linguagem de uso geral que podem compreender e responder a interações humanas diversas e heterogêneas.
Detalhes técnicos e benefícios
Do ponto de vista técnico, o Common Corpus é um feito notável, servindo como fonte de dados multilingue. Inclui dados selecionados de repositórios de acesso aberto, como OpenAlex para artigos científicos, publicações governamentais, GitHub para software de código aberto e muito mais. Ao usar vários conjuntos de dados, Pleias garante que o conjunto de dados não seja apenas grande, mas também representativo de uma ampla variedade de conteúdo do mundo real. Essa diversidade permite que modelos linguísticos treinados no Common Corpus desenvolvam uma melhor compreensão do contexto e uma compreensão mais profunda dos diferentes tipos e registros da língua. Além disso, a sua natureza multilingue aborda a importante necessidade de representação igual de todas as línguas do mundo, ajudando os investigadores da PNL a trabalhar em direção a um futuro onde a tecnologia linguística não seja dominada pelo inglês ou por algumas línguas amplamente faladas. O conjunto de dados, com ênfase no acesso aberto, também ajuda a reduzir as disparidades de recursos entre grandes organizações de investigação e investigadores privados ou académicos, tornando a tecnologia linguística avançada mais acessível.
Significado e consequências
A publicação do Common Corpus é um desenvolvimento importante por vários motivos. O conjunto de dados não só estabelece uma nova referência em termos de tamanho, mas também inclui o conceito de conhecimento partilhado, reprodutibilidade e integração. Ele permite que pesquisadores de todo o mundo desenvolvam modelos de linguagem que atendam a múltiplos públicos. Ao treinar em conjuntos de dados multilíngues ricos, os modelos futuros poderão fornecer respostas mais precisas, culturalmente sensíveis e adaptativas. Os testes iniciais já mostraram resultados promissores, com modelos treinados no Common Corpus mostrando melhor desempenho em configurações de disparo zero e de poucos disparos em vários idiomas. Isto sugere que o âmbito de um tal conjunto de dados pode realmente aumentar os modelos linguísticos para além do paradigma da formação monolingue ou bilingue, proporcionando um verdadeiro passo em frente tanto para o meio académico como para a indústria na abordagem de desafios como a preservação da língua e a garantia da inclusão cultural dos sistemas de IA.
A conclusão
Concluindo, o Pleas' Common Corpus representa uma importante contribuição para o futuro da modelagem multilíngue. Ao fornecer um conjunto de dados aberto e abrangente, aborda os desafios de acessibilidade e diversidade de dados que limitaram o desenvolvimento da PNL. Com o conjunto de dados disponível abertamente em plataformas como Hugging Face, também reflete um compromisso crescente dentro da comunidade de IA em priorizar a colaboração e a abertura. À medida que avançamos, recursos como o Common Corpus serão fundamentais para moldar sistemas de IA democráticos, justos e inclusivos que possam servir verdadeiramente um público global.
Confira o Corpus Comum no HuggingFace. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
Por que os modelos de linguagem de IA ainda estão em risco: principais insights do relatório da Kili Technology sobre a vulnerabilidade de modelos de linguagem em grande escala [Read the full technical report here]
Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.
🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.