Microsoft AI apresenta rStar-Math: um método revolucionário de pensamento crítico do System 2 que melhora drasticamente as habilidades de raciocínio matemático de LLMs juniores

A resolução de problemas matemáticos tem sido há muito tempo a referência para a inteligência artificial (IA). Resolver problemas matemáticos com precisão requer não apenas precisão computacional, mas também pensamento crítico – uma área onde até mesmo os modeladores linguísticos avançados (LLMs) têm tradicionalmente enfrentado dificuldades. Muitos modelos existentes baseiam-se no que os psicólogos chamam de “pensamento do sistema 1”, que é rápido, mas muitas vezes sujeito a erros. Essa abordagem gera soluções de maneira única, contornando o processo de pensamento iterativo, essencial para lidar com problemas complexos. Além disso, o treinamento de modelos de alta qualidade depende de conjuntos de dados selecionados, que são muito raros para problemas estatísticos de nível competitivo. Os métodos de código aberto muitas vezes não conseguem superar o poder dos modelos de “professor”, levando a um progresso limitado. Portanto, o desenvolvimento de sistemas de IA eficazes, capazes de enfrentar estes desafios, não tem precedentes.

Microsoft apresenta rStar-MatemáticaUma estrutura de raciocínio automático para o Sistema 2 projetada para melhorar a resolução de problemas matemáticos em pequenos modelos linguísticos (SLMs). Com um tamanho de modelo combinado de 7 bilhões de parâmetros, o rStar-Math supera os concorrentes e ocasionalmente supera o modelo O1 da OpenAI em benchmarks desafiadores de competição matemática. Este programa usa Monte Carlo Tree Search (MCTS) e técnicas evolutivas para fortalecer o poder de inferência dos SLMs.

Ao contrário dos métodos tradicionais que dependem da destilação de modelos grandes, o rStar-Math permite que modelos pequenos gerem de forma independente dados de treinamento de alta qualidade por meio de um processo de raciocínio passo a passo. A estrutura usa uma combinação de dados de cadeia de pensamento (CoT) aumentada por código, modelagem de preferência de processo (PPM) e métodos de evolução iterativa. Essas melhorias permitem que o rStar-Math alcance uma precisão notável em todos os benchmarks, incluindo o conjunto de dados MATH e a Olimpíada de Matemática dos EUA (AIME), onde está classificado entre os 20% melhores escolas de ensino médio.

Inovação Tecnológica e Benefícios

O sucesso do rStar-Math é apoiado por três fatores principais:

Processamento de dados CoT codificados:
- O sistema usa a saída do MCTS para gerar trajetórias de pensamento garantidas passo a passo. Este método garante que as etapas intermediárias sejam validadas usando código Python, filtrando erros e melhorando a qualidade geral dos dados.
Modelo de preferência de processo (PPM):
- Ao contrário dos modelos de recompensa tradicionais, o PPM utiliza uma taxa binária para desenvolver medidas cognitivas. Essa abordagem evita anotações ruidosas e fornece feedback refinado para melhorar a taxa de passos, resultando em avaliações médias mais confiáveis.
A receita para a evolução:
- Através de quatro estágios iterativos de evolução, o rStar-Math continua a melhorar seu modelo de política e PPM. Começando com um conjunto de dados de 747.000 problemas matemáticos, o sistema gera milhões de soluções de alta qualidade, abordando problemas cada vez mais desafiadores e melhorando o poder de raciocínio a cada iteração.

Essas inovações tornam o rStar-Math uma ferramenta robusta para desafios matemáticos de nível acadêmico e competitivo. Além disso, ao permitir que pequenos modelos gerem dados por si próprios, reduz a dependência de modelos grandes e que consomem muitos recursos, aumentando o acesso a capacidades avançadas de IA.

Resultados e detalhes

O rStar-Math redefiniu os benchmarks para pequenos modelos de raciocínio matemático. No conjunto de dados MATH, atinge 90,0% de precisão, uma melhoria significativa em relação à precisão anterior de 58,8% do Qwen2.5-Math-7B. Da mesma forma, seu desempenho em Phi3-mini-3.8B melhora de 41,4% para 86,4%, o que representa uma melhoria significativa em relação ao modelo de visualização OpenAI de o1.

Na competição AIME, o rStar-Math resolve 53,3% dos problemas, colocando-o entre os 20% melhores participantes do ensino médio. Além das competições, o sistema se destaca em todos os benchmarks, como matemática de nível olímpico, problemas de nível universitário e testes Gaokao, superando modelos de código aberto ainda maiores. Esses resultados destacam sua capacidade de integrar vários desafios matemáticos.

As principais conclusões do estudo incluem:

A consulta passo a passo melhora a confiança: Métodos de raciocínio validados reduzem erros em etapas intermediárias, melhorando o desempenho geral do modelo.
Emergência do egocentrismo: rStar-Math demonstra a capacidade de autocorrigir padrões de pensamento defeituosos durante a resolução de problemas.
Importância dos modelos de recompensa: O teste de nível de etapa PPM desempenha um papel importante na obtenção de alta precisão, enfatizando a importância de sinais de feedback densos na geração de imagens do Sistema 2.

A conclusão

O rStar-Math da Microsoft destaca o poder dos modelos de microlinguagem para lidar com tarefas complexas de raciocínio matemático. Ao combinar síntese aumentada de código, um novo modelo de recompensas e evolução iterativa, a estrutura alcança precisão e confiabilidade incríveis. Com 90,0% de precisão no conjunto de dados MATH e forte desempenho em competições AIME, o rStar-Math mostra que modelos pequenos e eficientes podem alcançar resultados competitivos.

Esses avanços não apenas ultrapassam os limites das capacidades de IA, mas também tornam mais acessíveis modelos de raciocínio complexos. À medida que o rStar-Math se desenvolve, as suas aplicações potenciais estendem-se para além da matemática, para áreas como a investigação científica e o desenvolvimento de software, abrindo caminho para sistemas de IA flexíveis e eficazes para enfrentar os desafios do mundo real.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)

Source link

Inovação Tecnológica e Benefícios

Resultados e detalhes

A conclusão

Você também pode gostar...

PRIME Intellect lança INTELECT-1 (Command + Base): o primeiro modelo de linguagem paramétrica 10B treinado colaborativamente do mundo

MMed-RAG: um sistema de geração de recuperação adaptativa – uma ferramenta avançada que transforma a precisão em tempo real em modelos de linguagem de visão médica em vários domínios

O que é Processamento de Linguagem Natural (PNL)? Benefícios, Desafios, Exemplos!

Deixe um comentário Cancelar resposta