No mundo em constante evolução dos modelos linguísticos de grande escala (LLMs), os conjuntos de dados de pré-treinamento formam a espinha dorsal para que os sistemas de IA compreendam e produzam textos semelhantes aos humanos. LLM360 acaba de ser lançado TxT360um conjunto básico de dados de pré-treinamento que consiste em 15 bilhões de tokens. Esta versão combina diversidade, escala e filtragem de dados robusta para acessar um dos conjuntos de dados de código aberto mais complexos até o momento.
Um conjunto de dados construído sobre novas bases
O TxT360 se diferencia dos conjuntos de dados anteriores ao incluir novas fontes, como FreeLaw (corpora jurídico), PG-19 (coleção de literatura), artigos científicos e Wikipedia. Ao combinar essas fontes, o TxT360 apresenta um conjunto de dados rico e multifacetado, projetado para fortalecer as habilidades da próxima geração de LLMs.
Do rastreamento padrão à limpeza de dados
O desenvolvimento do TxT360 começou com Common Crawl, um web scrape disponível publicamente que serve de base para muitos modelos de linguagem modernos. No entanto, o uso de dados brutos da web pode não atingir o alto nível pretendido pelo LLM360. Em vez disso, a equipe embarcou em uma jornada de classificação rigorosa para extrair o texto mais útil de uma grande coleção de arquivos WARC (Web ARChive).
- Liberação de texto: Texto limpo e compacto foi extraído de dados barulhentos da web para arquivos WARC.
- Filtragem de idioma: o conteúdo que não está em inglês foi removido para manter o conjunto de dados consistente.
- Filtragem de URL: Fontes desnecessárias ou de baixo valor foram filtradas, incluindo spam ou sites de publicidade.
- Remoção de repetição: Esforços extensos voltados para linhas, seções e n-gramas repetidos.
- Classificação de documentos e nível de linha: Heurísticas foram utilizadas para remover documentos e linhas que não atendiam aos critérios de qualidade.
No total, 97,65% dos dados originais foram filtrados, retendo apenas textos significativos e de alta qualidade para garantir modelos linguísticos robustos e distintos.
Desduplicação global
A construção de um conjunto de dados de alta qualidade como o TxT360 exigiu uma iteração eficiente. O LLM360 abordou isso de duas maneiras: descarga direta usando o filtro Bloom novamente repetição ambígua usando o algoritmo MinHash. Esses métodos garantiram que o conjunto de dados contivesse conteúdo exclusivo, evitando as armadilhas da leitura repetida.
Fontes de alta qualidade
Após um processo de filtragem, o LLM360 adiciona uma coleção escolhida a dedo e de alta qualidade, incluindo artigos científicos, documentos jurídicos, clássicos e conteúdo com curadoria da Wikipedia. Cada uma dessas fontes especiais passou por etapas otimizadas para manter a integridade e a qualidade dos dados, garantindo que os modelos de linguagem resultantes possam lidar com vários tópicos.
TxT360: uma nova era de IA de código aberto
O lançamento do TxT360 marca um salto significativo na pesquisa de IA e PNL. A cuidadosa construção e seleção do LLM360 mostram que qualidade e valor podem coexistir. Com 15 bilhões de tokens, o TxT360 apoia o desenvolvimento de modelos de linguagem diversos, eficientes e inteligentes.
Além disso, a transparência do LLM360 sobre seus processos estabelece um novo padrão na área. De acordo com a equipe de pesquisa, o próximo lançamento da base de código fornecerá detalhes sobre os mecanismos por trás desse conjunto de dados muito interessante.
Confira Detalhes e conjuntos de dados. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.