O pensamento matemático é sempre um local difícil de inteligência artificial (IA) devido à dificuldade em resolver os problemas e a necessidade de um pensamento formal e lógico. Enquanto grandes modelos de idiomas (LLMs) fazem um grande progresso, eles geralmente lutam com atividades que exigem várias etapas. A fortaleza do aprendizado (RL) demonstrou aprimorar as habilidades, mas os métodos tradicionais lidam com os desafios quando as recompensas iniciantes e binárias fornecem essa pequena resposta.
O laboratório de Xangai ai foi desenvolvido A recompensa recompensadora recompensa recompensa (oral)série de modelos de modelos de matemática estão disponíveis como Oreal-7b e Oreal-32b. Esta é uma estrutura para as condições que apenas as recompensas são a recompensa da recompensa binária – a direita ou errada – disponível. Em contraste com os métodos familiares de RL, dependendo da resposta densa, o Oreal usa Best-N (Bon) BAMPM do Código de Ética e verificar recompensas negativas para manter a consistência.
Oreal-7b e Oreal-32b indicam que pequenos modelos podem atuar em modelos competitivos. Oreal-7b Access 94,0% Pass @ 1 Pontuação na referência Math-500O resultado se você comparar com 32b modelos atrás, enquanto Oreal-32b até 95,0% Pass @ 1, passando modelos passados são treinados em água.
Entendimento e benefícios técnicos
O Oreal Framework apresenta várias estratégias importantes para desenvolver pensamento matemático:
- A melhor amostra de comportamento moral: O Sumpling Zon ajuda a selecionar corretamente as trajetórias corretas, permitindo que o modelo aprenda com as soluções adequadas.
- Renovando números: Ao mudar de recompensa ruins, a estrutura confirma a consistência das hastes entre amostras justas e incorretas, desolando bem.
- O modelo de recompensa de Koken-Lelgel de Cack-muito Cack- O pensamento matemático geralmente adiciona sequência de longa etapa. O Oreal fornece importância para os pesos nos principais tokens de pensamento, abordando a resposta binária.
- Gravação para organização de políticas: O modelo se refinou de acordo com questões organizadas, melhorando a eficiência do treinamento e da flexibilidade.
Essas estratégias capacitam o treinamento estável e o trabalho melhor no trabalho cronológico, tornando o fortalecimento do aprendizado de alguma abordagem prática.
Trabalho e avaliação
Modelos Oreal testados em vários símbolos:
- Math-500 Benchmark:
- Oreal-7b até 94,0% passa @ 1O nível de desempenho visto anteriormente nos modelos 32b.
- Oreal-32b até 95,0% passa @ 1Colocando um novo padrão no pensamento matemático.
- AIED2024 e OlympikidBench:
- Modelos orais de múltiplos múltiplos efeitos de modelos orais Basenis, mostrando estabilidade regular sobre os tipos de problemas.
- Compare em Série O OpenAai e modelos profundos:
- Oreal-32b passa Deepseek-R1-Pepill-Qwen-32b incluindo Open Open-O1-Previewmostrando estratégias de treinamento ativo.
- Oreal-7b atinge resultados de paridade com QWQ-32B-View primeiro incluindo Open-O1-minipara destacar o impacto de sua formulação de fortalecimento.

Loja
Shanghai Ai Lab Oreal-7b e Oreal-32b Os modelos fornecem um método refinado para fortalecer o aprendizado do pensamento matemático. Lidar com o desafio de recompensas binárias através A melhor amostragem de n n, formação de recompensa e a importância do nível de tokenEsses modelos alcançam desempenho competitivo, mesmo em pequenas escalas. O Oreal Framework fornece informações importantes sobre o fortalecimento das complicações de atividades complexas de consulta, aumentando novos indicadores para resolver o AIS em áreas formais.
Enquete Artigo, Oreal-7b incluindo Orual-32b. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.
🚨 Recomendado para um código aberto de IA' (Atualizado)

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, MarktechPost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente entendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.
✅ [Recommended] Junte -se ao nosso canal de telégrafo