Hugging Face lança FineWeb2: 8 TB de dados de texto compactados com quase 3T de palavras e 1.000 idiomas supera outros conjuntos de dados
Inteligência artificial

Hugging Face lança FineWeb2: 8 TB de dados de texto compactados com quase 3T de palavras e 1.000 idiomas supera outros conjuntos de dados


O campo do processamento de linguagem natural (PNL) cresceu rapidamente nos últimos anos, criando uma necessidade premente de melhores conjuntos de dados para treinar modelos linguísticos em larga escala (LLMs). Os modelos multilíngues, em particular, exigem conjuntos de dados que não sejam apenas grandes, mas também diversos e cuidadosamente selecionados para capturar as nuances de muitos idiomas diferentes. Recursos existentes como CC-100, mC4, CulturaX e HPLT fornecem pontos de partida úteis, mas apresentam limitações significativas. Isso inclui problemas de dimensionamento, representação de linguagem imperfeita e dados ruidosos que podem prejudicar o treinamento do modelo.

Os pesquisadores da Hugging Face lançaram o FineWeb2, um conjunto de dados que estabelece uma nova referência para recursos de treinamento multilíngue. Composto por 8 terabytes de dados de texto compactados – aproximadamente equivalente a 3 bilhões de palavras – o FineWeb 2 captura 96 ​​resumos CommonCrawl coletados entre 2013 e abril de 2024. Este conjunto de dados é o resultado de extenso processamento e refinamento usando a biblioteca Datatrove, que garante conteúdo de texto de alta qualidade . está organizado em 1.893 pares de documentos linguísticos. Lançado sob a licença permissiva ODC-By 1.0, o FineWeb 2 é acessível tanto para pesquisa quanto para aplicações comerciais, tornando-o um recurso versátil para a comunidade de PNL.

O que diferencia o FineWeb2 é seu desempenho consistente em vários idiomas. Ele supera outros conjuntos de dados populares, como CC-100, mC4, CulturaX e HPLT e, em alguns casos, até supera conjuntos de dados selecionados para cada idioma. Estes resultados sublinham o potencial do FineWeb 2 como uma solução única para treinamento de modelos multilíngues.

Detalhes técnicos

A base do FineWeb2 é encontrada na biblioteca Datatrove, uma ferramenta poderosa para processamento de dados em larga escala. Esta biblioteca extrai e processa texto de resumos CommonCrawl, uma fonte rica de diversos dados da web. Ao usar métodos avançados de remoção, o conjunto de dados reduz a redundância e remove texto de baixa qualidade, deixando apenas conteúdo significativo. Sua filtragem rigorosa garante que o conjunto de dados mantenha a compatibilidade linguística entre os idiomas.

Cobrindo mais de 1.000 idiomas, o FineWeb2 fornece um recurso exclusivo para a construção de modelos que podem lidar com idiomas menos usados ​​– uma área da PNL anteriormente negligenciada. A organização do conjunto de dados em pares de escritas linguísticas também melhora a sua utilização na investigação multilingue. Além disso, a licença comercial permite que as organizações utilizem o FineWeb 2 em diversos projetos, preenchendo a lacuna entre a pesquisa acadêmica e as aplicações práticas.

Detalhes e resultados de desempenho

FineWeb2 foi extensivamente testado usando FineTasks, um conjunto de benchmark projetado para testar habilidades linguísticas e semânticas. Os resultados são convincentes: o FineWeb 2 supera consistentemente conjuntos de dados como CC-100, mC4, CulturaX e HPLT em todas as tarefas, como tradução automática, segmentação de texto e modelagem de linguagem. É importante ressaltar que ele também pode lidar com conjuntos de dados específicos de idiomas em vários casos, demonstrando sua capacidade de generalizar efetivamente entre idiomas.

Esses resultados refletem não apenas a escala do FineWeb 2, mas também a qualidade dos seus dados e o design cuidadoso do seu pipeline de processamento. Com quase 3 bilhões de tokens, pesquisadores e desenvolvedores têm acesso a um conjunto de dados que equilibra tamanho, qualidade e diversidade, permitindo treinamento robusto em múltiplas tarefas em vários idiomas.

Principais conclusões do FineWeb2

  • FineWeb2 contém 8 TB de dados de texto compactados, equivalentes a quase 3 bilhões de palavras, retirados de 96 resumos do CommonCrawl de 2013 a 2024.
  • Inclui mais de 1.000 idiomas, organizados em 1.893 pares idioma-texto, apoiando pesquisas e aplicações em idiomas menos utilizados.
  • Processado na biblioteca Datatrove, o conjunto de dados foi cuidadosamente extraído e filtrado para garantir alta qualidade e consistência.
  • Ele supera os principais conjuntos de dados multilíngues, como CC-100, mC4, CulturaX e HPLT em uma variedade de tarefas e pode lidar com conjuntos de dados monolíngues especializados.
  • Disponível sob a licença ODC-By 1.0, o FineWeb 2 é adequado tanto para pesquisa quanto para uso comercial.

A conclusão

O FineWeb2 da Hugging Face representa um avanço significativo no desenvolvimento de conjuntos de dados multilíngues. Ao abordar desafios comuns, como dados ruidosos e entrada de linguagem incompleta, ele fornece um recurso de alta qualidade que pode suportar uma ampla variedade de tarefas de PNL. Seu tamanho, profundidade e acessibilidade fazem dele uma ferramenta essencial para pesquisadores e desenvolvedores. À medida que cresce a procura por modelos de linguagem inclusivos e eficazes, o FineWeb 2 fornece uma base sólida para o desenvolvimento de PNL multilingue tanto para o meio académico como para a indústria.


Confira eu Conjunto de dados. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *