DeepSeek-AI lança DeepSeek-R1-Zero e DeepSeek-R1: modelos de raciocínio de primeira geração promovem habilidades de raciocínio em LLMs por meio de aprendizado por reforço

Os Modelos de Linguagem em Grande Escala (LLMs) fizeram progressos significativos no processamento de linguagem natural, que são muito eficientes em tarefas como compreensão, processamento e raciocínio. No entanto, os desafios permanecem. Alcançar um raciocínio robusto muitas vezes requer um processamento supervisionado extensivo, o que limita o escalonamento e a generalização. Além disso, persistem problemas como baixa legibilidade e medição da eficiência e complexidade computacional, levando os pesquisadores a explorar novas abordagens.

DeepSeek-R1: Uma nova abordagem para consultoria LLM

O último trabalho do DeepSeek-AI apresenta DeepSeek-R1um modelo projetado para melhorar a capacidade de raciocínio por meio da aprendizagem por reforço (RL). Esse esforço resultou em dois modelos:

DeepSeek-R1-Zeroque é treinado apenas por meio de RL e exibe comportamentos de pensamento emergentes, como o pensamento de longa cadeia de pensamento (CoT).
DeepSeek-R1que se baseia em seu antecessor, integrando um pipeline de treinamento em vários estágios, abordando desafios como legibilidade e mistura de idiomas, ao mesmo tempo em que mantém um desempenho de pensamento de ordem superior.

Estes modelos visam superar as limitações existentes, combinando novas técnicas de RL com processos de treinamento estruturados para alcançar escalabilidade e usabilidade.

Inovação Tecnológica e Benefícios

1. Focar a Aprendizagem em Atividades de Consultoria: DeepSeek-R1-Zero usa RL sem depender de dados monitorados. Ele usa Group Relative Policy Optimization (GRPO), que otimiza a lógica avaliando vários resultados, melhorando significativamente o desempenho do benchmark. Por exemplo, sua pontuação AIME 2024 pass@1 aumentou de 15,6% para 71,0% durante o treinamento.

2. Treinamento multinível em DeepSeek-R1: DeepSeek-R1 agrega os primeiros dados frios – milhares de exemplos de CoT selecionados – para ajustar seu modelo básico antes de abordar RL baseado em inferência. Este processo garante que os resultados sejam consistentes e fáceis de usar, combinando prêmios de consistência linguística.

3. Destilação de Modelos Pequenos: Para lidar com restrições computacionais, DeepSeek-AI decompôs seis submodelos (parâmetros de 1,5B a 70B) do DeepSeek-R1 usando as arquiteturas Qwen e Llama. Esses modelos mantêm um forte poder de pensamento, o modelo destilado 14B obtém uma aprovação @ 1 de 69,7% no AIME 2024, superando outros modelos principais.

Resultados: Implicações para a Prática

O desempenho do DeepSeek-R1 é apoiado pelos resultados do benchmark:

Taxas de consulta:
- AIME 2024: 79,8% pass@1, passando no O1-mini da OpenAI.
- MATH-500: 97,3% de aprovação@1, em comparação com OpenAI-o1-1217.
- GPQA Diamond: 71,5% pass@1, excelência em raciocínio baseado em fatos.
Carreiras de codificação e STEM:
- A classificação Codeforces Elo: 2029, supera 96,3% dos participantes.
- SWE-Bench confirmado: taxa de resolução de 49,2%, competitiva com outros modelos líderes.
Habilidades Gerais:
- Uma forte generalização foi demonstrada nos benchmarks ArenaHard e AlpacaEval 2.0, alcançando taxas de vitória de 92,3% e 87,6%, respectivamente.

Destaques do modelo Destilado: Modelos menores, como DeepSeek-R1-Distill-Qwen-32B, apresentam forte desempenho, com uma pontuação pass@1 de 72,6% no AIME 2024, indicando robustez e desempenho eficaz.

Conclusão: refinando o raciocínio em IA

DeepSeek-R1 e DeepSeek-R1-Zero da DeepSeek-AI representam um avanço lógico no poder de pensamento dos LLMs. Usando RL, dados de inicialização a frio e técnicas de abstração, esses modelos abordam limitações importantes e melhoram a acessibilidade por meio da disponibilidade de código aberto sob a licença MIT. A API ('model=deepseek-reasoner') também melhora a usabilidade para desenvolvedores e pesquisadores.

Olhando para o futuro, a DeepSeek-AI planeja melhorar o suporte multilíngue, melhorar os recursos de engenharia de software e melhorar rapidamente a sensibilidade. Esses esforços visam estabelecer ainda mais o DeepSeek-R1 como uma solução robusta para aplicações de IA baseadas em lógica. Ao combinar paradigmas de treinamento conceitual, o DeepSeek-R1 mostra como a IA pode melhorar no enfrentamento de desafios complexos.

Confira Papel, DeepSeek R1 e DeepSeek R1 Zero. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.

🚨 [Recommended Read] Nebius AI Studio se estende com modelos de visão, novos modelos de linguagem, embeddings e LoRA ^(Promovido)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

📄 Conheça 'Height': a única ferramenta autônoma de gerenciamento de projetos (patrocinado)

Source link

DeepSeek-R1: Uma nova abordagem para consultoria LLM

Inovação Tecnológica e Benefícios

Resultados: Implicações para a Prática

Conclusão: refinando o raciocínio em IA

Você também pode gostar...

Transformador pré-treinado generativo de gráfico (G2PT): um modelo autoregressivo projetado para aprender estruturas de gráfico com previsão do próximo token

SelfCodeAlign: uma estrutura de IA aberta e transparente para LLMs de código de treinamento que supera modelos maiores sem reduzir custos ou anotações

Google DeepMind lança Omni×R: uma estrutura de teste abrangente para medir as habilidades de raciocínio de modelos de linguagem omnimodalidade em entrada de texto, áudio, imagem e vídeo

Deixe um comentário Cancelar resposta