Hug Face lança FineMath: o melhor conjunto de dados de pré-treinamento de matemática aberta com mais de 50 bilhões de tokens

Na investigação educacional, o acesso a recursos educativos de qualidade é importante para alunos e professores. A matemática, muitas vezes vista como uma das disciplinas mais desafiadoras, requer explicações claras e recursos bem organizados para tornar a aprendizagem mais eficaz. No entanto, a criação e desagregação de dados centrados na educação matemática continua a ser um grande desafio. A maioria dos conjuntos de dados para treinamento de modelos de aprendizado de máquina são proprietários, deixando pouca transparência sobre como o conteúdo educacional é selecionado, criado ou desenvolvido para aprendizagem. A falta de conjuntos de dados acessíveis e de código aberto que abordem a complexidade da matemática deixa uma lacuna no desenvolvimento de ferramentas educacionais baseadas na IA.

Tendo em vista os assuntos acima, Um rosto que abraça é apresentado FineMathé uma iniciativa pioneira que visa democratizar o acesso a conteúdos matemáticos de alta qualidade para estudantes e pesquisadores. FineMath representa um conjunto de dados abrangente e aberto projetado para o ensino de matemática e raciocínio. FineMath aborda os principais desafios de encontrar, classificar e refinar conteúdo matemático de vários repositórios online. Este conjunto de dados foi cuidadosamente construído para atender às necessidades de modelos de aprendizado de máquina que visam se destacar na resolução de problemas matemáticos e em tarefas de raciocínio.

O conjunto de dados está dividido em duas versões principais:

FineMath-3+: FineMath-3+ contém 34 bilhões de tokens retirados de 21,4 milhões de documentos, formatados em Markdown e LaTeX para manter a integridade matemática.
FineMath-4+: FineMath-4+, um subconjunto do FineMath-3+, possui 9,6 bilhões de tokens em 6,7 milhões de documentos, enfatizando conteúdo de alta qualidade com explicações detalhadas.

Esses subconjuntos selecionados garantem que tanto os estudantes gerais quanto os modeladores avançados se beneficiem da estrutura robusta do FineMath.

A criação do FineMath requer uma abordagem de vários estágios para extrair e refinar o conteúdo com sucesso. Tudo começou extraindo os dados brutos do CommonCrawlusando ferramentas avançadas como Resiliparse para capturar texto e formatação com precisão. O primeiro conjunto de dados foi avaliado usando um classificador customizado baseado em Llama-3.1-70B-Instruct. Este classificador ganhou páginas baseadas no raciocínio lógico e na clareza do passo a passo das soluções. As fases subsequentes concentraram-se na expansão do âmbito do conjunto de dados, mantendo a sua qualidade. Desafios como a filtragem inadequada da notação LaTeX em conjuntos de dados anteriores foram abordados, garantindo melhor preservação das expressões matemáticas. A replicação e o teste em vários idiomas melhoraram ainda mais a consistência e a usabilidade do conjunto de dados.

FineMath demonstrou alto desempenho em benchmarks estabelecidos como GSM8k e MATH. Os modelos treinados no FineMath-3+ e FineMath-4+ mostraram melhorias significativas no raciocínio matemático e na precisão. Ao combinar o FineMath com outros conjuntos de dados, como o InfiMM-WebMath, os pesquisadores podem obter um grande conjunto de dados com cerca de 50 bilhões de tokens, mantendo um desempenho excepcional. A arquitetura FineMath é otimizada para integração perfeita em pipelines de aprendizado de máquina. Os desenvolvedores podem carregar subconjuntos de conjuntos de dados usando o suporte robusto da biblioteca Hugging Face, permitindo fácil exploração e uso de uma variedade de aplicativos educacionais de IA.

Concluindo, o conjunto de dados FineMath da Hugging Face é uma contribuição transformadora para a educação em matemática e IA. Abordar as lacunas em acessibilidade, qualidade e transparência estabelece um novo padrão para recursos educacionais abertos. O trabalho futuro do FineMath inclui a expansão do suporte a idiomas além do inglês, melhorando a extração e manutenção de notas matemáticas, desenvolvendo métricas de qualidade aprimoradas e criando subconjuntos especiais projetados para diferentes níveis acadêmicos.

Confira eu Coleção de novo Conjunto de dados. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Você também pode gostar...

Pesquisadores da Universidade de Tsinghua e Zipu AI apresentam CogView3: uma nova estrutura avançada que melhora o desempenho da variação imagem-texto

Marqo lança modelos avançados de incorporação de comércio eletrônico e dados analíticos para transformar pesquisas de produtos, recomendações e estimativas de aplicativos de IA de marketing.

Avaliação de vulnerabilidade de agentes LLM: benchmark AgentHarm para resiliência contra ataques de jailbreak

Deixe um comentário Cancelar resposta