Os modelos linguísticos fizeram grandes avanços no raciocínio matemático, com os dados sintéticos desempenhando um papel importante no seu desenvolvimento. No entanto, o campo enfrenta desafios significativos devido à natureza de código fechado de grandes conjuntos de dados estatísticos. Esta falta de privacidade levanta preocupações sobre a fuga de dados e elimina a dependência de resultados estacionários, como evidenciado pela degradação do desempenho quando os modelos são testados em conjuntos não publicados, semelhantes a distribuição. Além disso, impede que os especialistas compreendam totalmente o impacto da estrutura de dados e das escolhas algorítmicas. Embora existam alguns métodos de código aberto, eles geralmente vêm com licenças restritas ou restrições à diversidade de perguntas e aos níveis de dificuldade. Juntos, esses problemas dificultam o progresso e o uso generalizado de habilidades de raciocínio matemático em modelos de linguagem.
Vários conjuntos de dados foram desenvolvidos para melhorar as capacidades de raciocínio matemático dos modelos de linguagem. NuminaMath e Skywork-MathQA oferecem grandes conjuntos de problemas de nível competitivo com anotações conceituais e diversas técnicas de expansão. MuggleMath se concentra em analisar e classificar questões, enquanto MetaMathQA usa bootstrapping e métodos de raciocínio avançados. MAmmoTH2 introduziu uma maneira eficiente de extrair dados instrucionais de uma empresa web de pré-treinamento. Outros métodos ampliaram os conjuntos de dados existentes, como MATH e GSM8K, melhorando significativamente a precisão do modelo.
Abordagens de ferramentas integradas ganharam destaque, na forma de um Programa de Pensamento (PoT) que combina declarações de linguagem textual com um programa de resolução de problemas. Com base neste conceito, foram criados conjuntos de dados como OpenMathInstrut-1 e InfinityMATH, com foco em soluções de interpretação de código e pensamento de programação matemática. Esses vários métodos visam abordar as limitações dos conjuntos de dados anteriores, aumentando a variedade de questões, os níveis de dificuldade e a complexidade do raciocínio.
O método proposto pelos pesquisadores da NVIDIA, baseado em métodos anteriores, usando soluções baseadas em lógica e adicionando consultas para criar conjuntos de dados robustos. No entanto, introduz várias inovações importantes que o diferenciam do trabalho existente. Primeiro, o método usa modelos de peso aberto em vez de modelos de linguagem proprietária de código fechado, permitindo a liberação do conjunto de dados sob uma licença permissiva. Esta abordagem melhora a acessibilidade e a transparência no setor. Em segundo lugar, fornece novos conhecimentos sobre os principais aspectos da criação de conjuntos de dados, incluindo o impacto dos dados de baixa qualidade, a eficácia da formação baseada em políticas e a criação de formatos de soluções. Finalmente, o método garante a precisão dos resultados através de um extenso processo de descontaminação, utilizando um pipeline baseado em LLM que é capaz de detectar variações reprodutíveis das questões do conjunto de testes, abordando assim preocupações sobre vazamento de dados e validade de medição.
OpenMathInstruct-2 usa a família de modelos Llama3.1 para gerar dados de ajuste matemático sintético. O método é refinado através de um cuidadoso estudo de subtração do conjunto de dados MATH, que revela vários insights importantes. O formato de solução de cadeia lógica proposto supera o formato Llama em 3,9%, sendo 40% mais curto. Os dados gerados pelo modelo de professor forte superam os dados políticos do modelo de aluno fraco em 7,8%. O método mostra robustez em até 20% dos dados de baixa qualidade, e aumentar a diversidade de consultas melhora muito o desempenho.
O conjunto de dados foi criado usando Llama-3.1-405B-Yala para mesclar soluções de perguntas MATH e GSM8K existentes e gerar novos pares de soluções de perguntas. Um processo completo de descontaminação, incluindo o pipeline lm-sys e testes manuais, garante a integridade do conjunto de testes. O conjunto de dados resultante contém 14 milhões de pares de perguntas e respostas, incluindo 592 mil perguntas combinadas, o que o torna oito vezes maior que os conjuntos de dados de código aberto anteriores. O desempenho do OpenMathInstruct-2 é demonstrado pelo alto desempenho dos modelos ajustados, com o OpenMath2-Llama3.1-8B superando o Llama3.1-8B-Yala em 15,9% no benchmark MATH.
OpenMathInstruct-2 mostra resultados impressionantes em todos os benchmarks de raciocínio matemático. Os detalhes do treinamento incluem o uso do estimulador AdamW com taxas de aprendizagem específicas e redução de peso. O modelo 8B é treinado em diferentes subconjuntos do conjunto de dados para compreender os efeitos de escala de dados, enquanto o modelo 70B é treinado no subconjunto 5M devido a limitações computacionais. Os testes são feitos em um amplo conjunto de benchmarks, incluindo GSM8K, MATH, AMC 2023, AIME 2024 e OmniMATH, cobrindo uma ampla variedade de níveis de dificuldade.
O efeito de escalonamento de dados mostra ganhos de desempenho consistentes, até mesmo com o subconjunto 1M superando Llama3.1-8B-Instruct e NuminaMath-7B-CoT. O modelo OpenMath2-Llama3.1-8B, treinado no conjunto de dados completo, supera ou iguala Llama3.1-8B-Yala em todos os benchmarks. Entre os modelos de código aberto, supera o recém-lançado NuminaMath-7B-CoT. O modelo 70B apresenta melhorias em um pequeno conjunto de benchmarks, sugerindo que a agregação de dados ou o formato da solução podem ser mais apropriados para modelos menores. No geral, os resultados mostram a eficácia do método OpenMathInstruct-2 na melhoria das habilidades de raciocínio matemático dos modelos de linguagem.
O projeto OpenMathInstruct-2 faz contribuições importantes para o avanço do raciocínio matemático de código aberto em modelos de linguagem. Ao gerar conjuntos de dados abrangentes, modelos de alto desempenho e código reproduzível, ele avança a compreensão do campo sobre o design eficaz de conjuntos de dados. O estudo revelou informações importantes: a importância de formatos de cadeia de pensamento melhorados, as limitações dos dados políticos para a otimização supervisionada, a robustez dos modelos para soluções incorretas durante a formação e o importante papel da diversidade de questões. Estas descobertas, juntamente com procedimentos rigorosos de descontaminação, garantem uma avaliação comparativa precisa. Este trabalho não só fornece recursos valiosos, mas também estabelece melhores práticas para o desenvolvimento de futuros conjuntos de dados e modelos estatísticos.
Confira Papel de novo Conjunto de dados sobre rosto abraçado. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Interessado em promover sua empresa, produto, serviço ou evento para mais de 1 milhão de desenvolvedores e pesquisadores de IA? Vamos trabalhar juntos!
Asjad é consultor estagiário na Marktechpost. Ele está cursando B.Tech em engenharia mecânica no Instituto Indiano de Tecnologia, Kharagpur. Asjad é um entusiasta do aprendizado de máquina e do aprendizado profundo que pesquisa regularmente a aplicação do aprendizado de máquina na área da saúde.