O1 Deepseek-R1 vs. O1 da Vulai: um novo passo em modelos proprietários e de código aberto

A IA deu início ao surgimento de modelos linguísticos competitivos em grande escala e de modelos multimodais. O desenvolvimento tem dois lados, um com código aberto e outro com bons exemplos. Deepseek-R1o modelo aberto de IA desenvolvido pela Deepseek-AI, uma empresa de pesquisa chinesa, por exemplo. O seu surgimento desafiou o domínio de modelos relacionados, como o O1, a atratividade das discussões sobre a relação custo-eficácia, a inovação da fonte e a liderança tecnológica global em IA. Vamos apresentar as melhorias, capacidades e resultados do Deepseek-R1 comparando-o com o sistema O1 do O1, considerando as contribuições de ambos os espaços.

Deepseek-R1 é um resultado positivo dos esforços inovadores da Deepseek-AI nos campos abertos de requalificação do LLMS para melhorar as habilidades de raciocínio por meio da reaprendizagem (RL). O desenvolvimento de modelos é um grande afastamento dos métodos tradicionais de treinamento de IA que dependem fortemente de feedback positivo (SFT). Em vez disso, o Deepseek-R1 usa um pipeline de vários estágios que combina inicialização a frio, RL e dados monitorados para criar um modelo capaz de consulta avançada.

Processo de desenvolvimento

Deepseek-R1 desenvolveu um processo exclusivo de treinamento em vários estágios para alcançar habilidades de pensamento avançadas. Seu antecessor, Deepseek-R1-zero, usava RL puro sem depender de SFT. Embora o Deepseek-R1-zero tenha demonstrado capacidades impressionantes na bancada de consultoria, ele enfrentou desafios como aprendizado deficiente de idiomas e incompatibilidade linguística. Deepseek-R1 adotou uma abordagem sistemática para resolver essas limitações, incluindo Dados de inicialização a frio, tendências de RL e SFT.

Este desenvolvimento começou com a coleta de milhares de exemplos de alta qualidade de longas cadeias de pensamento (COT), a base para o ajuste fino do modelo básico do Deepseek-V3. Esta primeira fase fria enfatizou o aprendizado e a interação, para garantir que os resultados fossem fáceis de usar. O modelo foi então submetido ao processo de RL aplicado utilizando Otimização de Grupo (GRPO). Este novo algoritmo melhora a eficiência do aprendizado medindo recompensas com base em grupos de escolas, em vez de usar o modelo tradicional. Esta seção melhorou muito as capacidades de raciocínio do modelo, especialmente para funções matemáticas, codificação e lógica. Após RL Consergence, Deepseek-R1 SPTWT SPT utiliza os dados de quase 800.000 amostras, incluindo tarefas de consultoria e não reflexão. Este processo aumentou as capacidades gerais do modelo e melhorou o seu desempenho nas bancadas. Além disso, as capacidades de consultoria foram prejudicadas por modelos pequenos, como qwen e llama, que permitem a implantação de IA de alto desempenho em formas relevantes.

Desempenho Técnico e Desempenho de Referência

Deepseek-R1 estabeleceu-se como um poderoso modelo de IA, classificando-se bem em benchmarks internacionais em muitos domínios. Algumas de suas ideias principais incluem:

Matemática: O modelo alcançou uma pontuação Pass @ 1 de 97,3% no benchmark Math-500, em comparação com o O1-1217 da OpenAi. Este resultado enfatiza sua capacidade de lidar com tarefas complexas de resolução de problemas.
Codificação: Na plataforma CodeFreace, Deepseek-R1 recebeu uma classificação ELO de 2029, colocando-o na metade superior dos participantes. Também colocou outros modelos em benchmarks, como o certificado SWE e o LiveCodeberm, fortalecendo sua posição como uma ferramenta confiável de desenvolvimento de software.
Benchmarks de consultoria: Deepseek-R1 recebeu Pass @ 1, pontuando 71,5% no GPQA Diamond e 79,8% no AIME 2024, demonstrando suas capacidades avançadas de consultoria. Seu novo uso do raciocínio Cot e RL obteve esses resultados.
Funções criativas: Deepseek-R1 se destaca em tarefas de resposta a perguntas que respondem e respondem a domínios técnicos, atingindo média de 87,6% de Vitória no Alpacaeval 2.0 e 92,3% no Arenahard.

Os principais recursos do Deepseek-R1 incluem:

Estrutura: Deepseek-R1 usa uma mistura de design de especialistas (Moe) com 671 bilhões de parâmetros, apenas 37 parâmetros funcionaram na passagem anterior. Essa arquitetura permite integração e escalabilidade eficientes, facilitando a execução local com hardware de consumo.
Metodologia de treinamento: Ao contrário dos modelos tradicionais que dependem de orientação ideal, o Deepseek-R1 usa um método de treinamento baseado em RL. Isto permite que o modelo desenvolva habilidades de pensamento avançadas, incluindo pensamento COT e independência.
Métricas de desempenho: Os benchmarks iniciais mostram que o Deepseek-R1 se destaca em várias áreas:
- Math-500 (Pass @ 1): 97,3%, superando o O1 aberto da Opelai que marcou 96,4%.
- Classificação de decepção: competição acirrada com as classificações mais altas da Opelai (2029 vs. 2061).
- C-HIV (Chinese Benchmarkres): Obtenção de precisão de registros de 91,8%.
Custo-benefício: Foi relatado que o Deepseek-R1 oferece desempenho comparável ao O1 da Openai, cerca de 95% menor, potencialmente mudando a economia do desenvolvimento e implantação de IA.

Os modelos O1 da Openai são conhecidos por seu pensamento estratégico e habilidades de resolução de problemas. Eles foram desenvolvidos com foco em SFT e RL em larga escala para analisar suas habilidades de raciocínio. A série O1 passa por casos Cot, que envolvem a divisão de tarefas complexas e detalhadas em etapas gerenciáveis. Essa abordagem levou a processos únicos de matemática, codificação e pensamento científico.

O maior ponto forte da série O1 é o foco na segurança e na simplicidade. A OpenAI implementou protocolos de segurança rigorosos, incluindo testes vermelhos externos e testes comportamentais, para reduzir o risco associado a lançamentos maliciosos. Estas etapas garantem que os modelos estejam em conformidade com as diretrizes, tornando-os adequados para aplicações de alto desempenho. Além disso, a série O1 é altamente adaptável, ótima para uma variedade de aplicações, desde escrita de IA criativa e ressonante até solução de problemas em várias etapas.

Principais recursos do O1 O1:

Versões do modelo: A família O1 inclui três versões:
1. O1: Tipo perfeito com habilidades avançadas.
2. O1-MINI: Um modelo pequeno e eficiente feito para velocidade, mantendo um forte desempenho.
3. Modo O1 Pro: Uma variante mais poderosa, que utiliza recursos adicionais do computador para desempenho avançado.
Capacidades de consulta: os modelos O1 são otimizados para tarefas de consulta complexas e apresentam melhorias significativas em relação aos modelos anteriores. Eles são particularmente fortes em aplicações STEM, onde podem ter desempenho em níveis comparáveis aos de estudantes de doutorado em tarefas desafiadoras de Benchmark.
Bancadas de trabalho:
1. No American Mathematics Acloy (AIME), o modo O1 Pro recebeu pontuação de 86%, superando significativamente o padrão O1, que recebeu pontuação de 78%, mostrando suas capacidades matemáticas.
2. Em câmeras de código, como codificadores, os modelos O1 recebem classificações altas, indicando forte desempenho de código.
Capacidades multimodais: os modelos O1 podem lidar com entrada de texto e imagem, permitindo análise e interpretação abrangentes de dados complexos. Esta funcionalidade multimodal aprimora seu programa em vários domínios.
Autoavaliação: A autoavaliação melhora a precisão e a confiança, especialmente em áreas técnicas como ciências e matemática.
Pensamento em cadeia Este método os ajuda a analisar seus resultados e identificar erros de forma eficaz.
Recursos de segurança: A suavização avançada de polarização e a adesão avançada à política de conteúdo garantem que as respostas geradas pelos modelos O1 sejam seguras e apropriadas. Por exemplo, atingem pontos não-uvidefo

Análise comparativa: Deepseek-R1 vs. Abra O1

Poder do Deepseek-R1

Acessibilidade de código aberto: Estrutura de código aberto Open-R1 do Deepseek-R1 Motiva o acesso a recursos avançados de IA, promovendo capacidades na comunidade de pesquisa.
Custo-benefício: As técnicas econômicas do Deepseek-R1 permitem sua implantação sem as restrições financeiras frequentemente associadas a modelos proprietários.
Excelência técnica: a abordagem orientada para GRPO e RL equipou o Deepseek-R1 com habilidades de pensamento de ponta, especialmente em matemática e codificação.
Destilação de modelos pequenos: Ao habilitar seus recursos de consulta de modelos pequenos, o Deepseek-R1 expande sua aplicabilidade. Ele fornece alto desempenho sem requisitos computacionais excessivos.

Poder de Ligue 1

Medidas completas de segurança: Os modelos O1 da O1 priorizam a segurança e a compatibilidade, tornando-os confiáveis para aplicações de ponta.
Capacidades gerais: Embora o Deepseek-R1 se concentre em tarefas de consultoria, os modelos O1 da O1 se destacam em uma variedade de aplicações, incluindo escrita primitiva, recuperação de informações e IA.

Código aberto vs projeto vs projeto

A evolução do Deepseek-R1 também é controversa devido às suas contramedidas de IA de código aberto. Os defensores dos modelos abertos argumentam que estes aceleram a inovação através da incorporação de tecnologia e recursos partilhados. Além disso, promovem a transparência, que é essencial para a gestão do comportamento da IA. Por outro lado, os modelos proprietários tendem a exigir maior desempenho devido ao seu acesso a informações e recursos proprietários. A competição entre estes dois paradigmas representa um microcosmo dos desafios mais amplos no cenário da IA: Nova medição, gestão de custos, acessibilidade de custos. Após o lançamento do Deepseek-R1 Marc Andreessen substituiu X “O Deepseek R1 é um dos sistemas mais incríveis e impressionantes que já vi – e como código aberto, é um grande presente para o mundo.”

Duradouro

O lançamento do Deepseek-R1 marca um ponto de viragem na indústria de IA aberta. A sua natureza aberta, rentabilidade e capacidades avançadas de consultoria estão a desafiar o domínio dos sistemas proprietários e a redefinir as possibilidades das startups de IA. Paralelamente, os modelos O1 da OpenAi estabelecem padrões de referência de segurança e potência. Juntos, esses modelos mostram uma natureza dinâmica e refrescante do cenário de IA.

Fontes

Além disso, não se esqueça de nos seguir Meio teimoso então junte-se ao nosso Estação Telegráfica e LinkedIn Gro assunto. Não se esqueça de se juntar ao nosso Subreddit de 70 mil + ml.

🚨 [Recommended Read] Nebius AI Studio está se expandindo com modelos de visão, novos modelos de linguagem, incorporação e lora ^(Criado)

Sana Hassan, pessoa de contato na MarktechPpost e estudante de dupla graduação no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com grande interesse em resolver problemas práticos, traz uma nova perspectiva sobre a convergência de soluções de IA com soluções reais.

📄 Conheça 'elevação': ferramenta independente de gerenciamento de projetos (patrocinada)

Source link

Processo de desenvolvimento

Desempenho Técnico e Desempenho de Referência

Os principais recursos do Deepseek-R1 incluem:

Principais recursos do O1 O1:

Análise comparativa: Deepseek-R1 vs. Abra O1

Poder do Deepseek-R1

Poder de Ligue 1

Código aberto vs projeto vs projeto

Duradouro

Fontes

Você também pode gostar...

O seu agente LLM está pronto para uso empresarial? Salesforce AI Research lança CRMarena: um novo benchmark de IA projetado para testar agentes de IA em tarefas realistas baseadas em ambientes de trabalho profissionais

DiTCtrl: Como produzir um vídeo de treinamento rápido e gratuito na arquitetura MM-DiT

Revolucionando tarefas de linguagem visual com vetores de atenção esparsos: um método leve para classificação discriminativa

Deixe um comentário Cancelar resposta