O1 Deepseek-R1 vs. O1 da Vulai: um novo passo em modelos proprietários e de código aberto
Inteligência artificial

O1 Deepseek-R1 vs. O1 da Vulai: um novo passo em modelos proprietários e de código aberto


A IA deu início ao surgimento de modelos linguísticos competitivos em grande escala e de modelos multimodais. O desenvolvimento tem dois lados, um com código aberto e outro com bons exemplos. Deepseek-R1o modelo aberto de IA desenvolvido pela Deepseek-AI, uma empresa de pesquisa chinesa, por exemplo. O seu surgimento desafiou o domínio de modelos relacionados, como o O1, a atratividade das discussões sobre a relação custo-eficácia, a inovação da fonte e a liderança tecnológica global em IA. Vamos apresentar as melhorias, capacidades e resultados do Deepseek-R1 comparando-o com o sistema O1 do O1, considerando as contribuições de ambos os espaços.

Deepseek-R1 é um resultado positivo dos esforços inovadores da Deepseek-AI nos campos abertos de requalificação do LLMS para melhorar as habilidades de raciocínio por meio da reaprendizagem (RL). O desenvolvimento de modelos é um grande afastamento dos métodos tradicionais de treinamento de IA que dependem fortemente de feedback positivo (SFT). Em vez disso, o Deepseek-R1 usa um pipeline de vários estágios que combina inicialização a frio, RL e dados monitorados para criar um modelo capaz de consulta avançada.

Processo de desenvolvimento

Deepseek-R1 desenvolveu um processo exclusivo de treinamento em vários estágios para alcançar habilidades de pensamento avançadas. Seu antecessor, Deepseek-R1-zero, usava RL puro sem depender de SFT. Embora o Deepseek-R1-zero tenha demonstrado capacidades impressionantes na bancada de consultoria, ele enfrentou desafios como aprendizado deficiente de idiomas e incompatibilidade linguística. Deepseek-R1 adotou uma abordagem sistemática para resolver essas limitações, incluindo Dados de inicialização a frio, tendências de RL e SFT.

Este desenvolvimento começou com a coleta de milhares de exemplos de alta qualidade de longas cadeias de pensamento (COT), a base para o ajuste fino do modelo básico do Deepseek-V3. Esta primeira fase fria enfatizou o aprendizado e a interação, para garantir que os resultados fossem fáceis de usar. O modelo foi então submetido ao processo de RL aplicado utilizando Otimização de Grupo (GRPO). Este novo algoritmo melhora a eficiência do aprendizado medindo recompensas com base em grupos de escolas, em vez de usar o modelo tradicional. Esta seção melhorou muito as capacidades de raciocínio do modelo, especialmente para funções matemáticas, codificação e lógica. Após RL Consergence, Deepseek-R1 SPTWT SPT utiliza os dados de quase 800.000 amostras, incluindo tarefas de consultoria e não reflexão. Este processo aumentou as capacidades gerais do modelo e melhorou o seu desempenho nas bancadas. Além disso, as capacidades de consultoria foram prejudicadas por modelos pequenos, como qwen e llama, que permitem a implantação de IA de alto desempenho em formas relevantes.

Desempenho Técnico e Desempenho de Referência

Deepseek-R1 estabeleceu-se como um poderoso modelo de IA, classificando-se bem em benchmarks internacionais em muitos domínios. Algumas de suas ideias principais incluem:

  1. Matemática: O modelo alcançou uma pontuação Pass @ 1 de 97,3% no benchmark Math-500, em comparação com o O1-1217 da OpenAi. Este resultado enfatiza sua capacidade de lidar com tarefas complexas de resolução de problemas.
  2. Codificação: Na plataforma CodeFreace, Deepseek-R1 recebeu uma classificação ELO de 2029, colocando-o na metade superior dos participantes. Também colocou outros modelos em benchmarks, como o certificado SWE e o LiveCodeberm, fortalecendo sua posição como uma ferramenta confiável de desenvolvimento de software.
  3. Benchmarks de consultoria: Deepseek-R1 recebeu Pass @ 1, pontuando 71,5% no GPQA Diamond e 79,8% no AIME 2024, demonstrando suas capacidades avançadas de consultoria. Seu novo uso do raciocínio Cot e RL obteve esses resultados.
  4. Funções criativas: Deepseek-R1 se destaca em tarefas de resposta a perguntas que respondem e respondem a domínios técnicos, atingindo média de 87,6% de Vitória no Alpacaeval 2.0 e 92,3% no Arenahard.

Os principais recursos do Deepseek-R1 incluem:

  • Estrutura: Deepseek-R1 usa uma mistura de design de especialistas (Moe) com 671 bilhões de parâmetros, apenas 37 parâmetros funcionaram na passagem anterior. Essa arquitetura permite integração e escalabilidade eficientes, facilitando a execução local com hardware de consumo.
  • Metodologia de treinamento: Ao contrário dos modelos tradicionais que dependem de orientação ideal, o Deepseek-R1 usa um método de treinamento baseado em RL. Isto permite que o modelo desenvolva habilidades de pensamento avançadas, incluindo pensamento COT e independência.
  • Métricas de desempenho: Os benchmarks iniciais mostram que o Deepseek-R1 se destaca em várias áreas:
    • Math-500 (Pass @ 1): 97,3%, superando o O1 aberto da Opelai que marcou 96,4%.
    • Classificação de decepção: competição acirrada com as classificações mais altas da Opelai (2029 vs. 2061).
    • C-HIV (Chinese Benchmarkres): Obtenção de precisão de registros de 91,8%.
  • Custo-benefício: Foi relatado que o Deepseek-R1 oferece desempenho comparável ao O1 da Openai, cerca de 95% menor, potencialmente mudando a economia do desenvolvimento e implantação de IA.

Os modelos O1 da Openai são conhecidos por seu pensamento estratégico e habilidades de resolução de problemas. Eles foram desenvolvidos com foco em SFT e RL em larga escala para analisar suas habilidades de raciocínio. A série O1 passa por casos Cot, que envolvem a divisão de tarefas complexas e detalhadas em etapas gerenciáveis. Essa abordagem levou a processos únicos de matemática, codificação e pensamento científico.

O maior ponto forte da série O1 é o foco na segurança e na simplicidade. A OpenAI implementou protocolos de segurança rigorosos, incluindo testes vermelhos externos e testes comportamentais, para reduzir o risco associado a lançamentos maliciosos. Estas etapas garantem que os modelos estejam em conformidade com as diretrizes, tornando-os adequados para aplicações de alto desempenho. Além disso, a série O1 é altamente adaptável, ótima para uma variedade de aplicações, desde escrita de IA criativa e ressonante até solução de problemas em várias etapas.

Principais recursos do O1 O1:

  • Versões do modelo: A família O1 inclui três versões:
    1. O1: Tipo perfeito com habilidades avançadas.
    2. O1-MINI: Um modelo pequeno e eficiente feito para velocidade, mantendo um forte desempenho.
    3. Modo O1 Pro: Uma variante mais poderosa, que utiliza recursos adicionais do computador para desempenho avançado.
  • Capacidades de consulta: os modelos O1 são otimizados para tarefas de consulta complexas e apresentam melhorias significativas em relação aos modelos anteriores. Eles são particularmente fortes em aplicações STEM, onde podem ter desempenho em níveis comparáveis ​​aos de estudantes de doutorado em tarefas desafiadoras de Benchmark.
  • Bancadas de trabalho:
    1. No American Mathematics Acloy (AIME), o modo O1 Pro recebeu pontuação de 86%, superando significativamente o padrão O1, que recebeu pontuação de 78%, mostrando suas capacidades matemáticas.
    2. Em câmeras de código, como codificadores, os modelos O1 recebem classificações altas, indicando forte desempenho de código.
  • Capacidades multimodais: os modelos O1 podem lidar com entrada de texto e imagem, permitindo análise e interpretação abrangentes de dados complexos. Esta funcionalidade multimodal aprimora seu programa em vários domínios.
  • Autoavaliação: A autoavaliação melhora a precisão e a confiança, especialmente em áreas técnicas como ciências e matemática.
  • Pensamento em cadeia Este método os ajuda a analisar seus resultados e identificar erros de forma eficaz.
  • Recursos de segurança: A suavização avançada de polarização e a adesão avançada à política de conteúdo garantem que as respostas geradas pelos modelos O1 sejam seguras e apropriadas. Por exemplo, atingem pontos não-uvidefo

Análise comparativa: Deepseek-R1 vs. Abra O1

Poder do Deepseek-R1

  1. Acessibilidade de código aberto: Estrutura de código aberto Open-R1 do Deepseek-R1 Motiva o acesso a recursos avançados de IA, promovendo capacidades na comunidade de pesquisa.
  2. Custo-benefício: As técnicas econômicas do Deepseek-R1 permitem sua implantação sem as restrições financeiras frequentemente associadas a modelos proprietários.
  3. Excelência técnica: a abordagem orientada para GRPO e RL equipou o Deepseek-R1 com habilidades de pensamento de ponta, especialmente em matemática e codificação.
  4. Destilação de modelos pequenos: Ao habilitar seus recursos de consulta de modelos pequenos, o Deepseek-R1 expande sua aplicabilidade. Ele fornece alto desempenho sem requisitos computacionais excessivos.

Poder de Ligue 1

  1. Medidas completas de segurança: Os modelos O1 da O1 priorizam a segurança e a compatibilidade, tornando-os confiáveis ​​para aplicações de ponta.
  2. Capacidades gerais: Embora o Deepseek-R1 se concentre em tarefas de consultoria, os modelos O1 da O1 se destacam em uma variedade de aplicações, incluindo escrita primitiva, recuperação de informações e IA.

Código aberto vs projeto vs projeto

A evolução do Deepseek-R1 também é controversa devido às suas contramedidas de IA de código aberto. Os defensores dos modelos abertos argumentam que estes aceleram a inovação através da incorporação de tecnologia e recursos partilhados. Além disso, promovem a transparência, que é essencial para a gestão do comportamento da IA. Por outro lado, os modelos proprietários tendem a exigir maior desempenho devido ao seu acesso a informações e recursos proprietários. A competição entre estes dois paradigmas representa um microcosmo dos desafios mais amplos no cenário da IA: Nova medição, gestão de custos, acessibilidade de custos. Após o lançamento do Deepseek-R1 Marc Andreessen substituiu X “O Deepseek R1 é um dos sistemas mais incríveis e impressionantes que já vi – e como código aberto, é um grande presente para o mundo.”

Duradouro

O lançamento do Deepseek-R1 marca um ponto de viragem na indústria de IA aberta. A sua natureza aberta, rentabilidade e capacidades avançadas de consultoria estão a desafiar o domínio dos sistemas proprietários e a redefinir as possibilidades das startups de IA. Paralelamente, os modelos O1 da OpenAi estabelecem padrões de referência de segurança e potência. Juntos, esses modelos mostram uma natureza dinâmica e refrescante do cenário de IA.

Fontes


Além disso, não se esqueça de nos seguir Meio teimoso então junte-se ao nosso Estação Telegráfica e LinkedIn Gro assunto. Não se esqueça de se juntar ao nosso Subreddit de 70 mil + ml.

🚨 [Recommended Read] Nebius AI Studio está se expandindo com modelos de visão, novos modelos de linguagem, incorporação e lora (Criado)


Sana Hassan, pessoa de contato na MarktechPpost e estudante de dupla graduação no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com grande interesse em resolver problemas práticos, traz uma nova perspectiva sobre a convergência de soluções de IA com soluções reais.

📄 Conheça 'elevação': ferramenta independente de gerenciamento de projetos (patrocinada)



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *