Instituto Allen para AI (A2) Release Tülu 3 405B: Medindo o treinamento aberto, intensificando para reforçar o Deepseek V3 e o GPT-4O em bancos de chave
Inteligência artificial

Instituto Allen para AI (A2) Release Tülu 3 405B: Medindo o treinamento aberto, intensificando para reforçar o Deepseek V3 e o GPT-4O em bancos de chave


As estratégias de ensino nas costas, como o planejamento de aprendizado e validade do aprendizado da resposta das pessoas, são importantes para encontrar modelos de idiomas. No entanto, maneiras abertas geralmente ficam atrás de modelos de modelos relacionados devido à óbvia falta de dados de treinamento, métodos e estratégias de desempenho. Sem a disponibilidade de modelos básicos, a ausência sólida, o programa de treinamento público criou uma lacuna entre os modelos abertos e fechados, o que restringe o desenvolvimento no cristão cristão aberto da AII.

Os esforços anteriores são abertos, incluindo Betülu 2 e Zefyr-β, tenta desenvolver métodos de treinamento nas costas, mas sempre são obrigados a tubos simples e caros. Pelo contrário, os modelos do GPT-4O e Claude 3,5-Haiku se beneficiam em encontrar grandes conjuntos de dados, formas puras de modelos de alta qualidade e alta qualidade. A pesquisa para planejamento e fortalecimento popular é avançada, mas maneiras abertas não são medir e estabilidade do sistema fechado.

Em parceria com a equipe da equipe da Universidade de Washington, a equipe do Allen Institute for AI (A2) apresentou a Tülu 3 no ano passado, sucesso no treinamento de alto peso. O Tülu 3 se baseia no modelo Basile LLAMA 3.1 e inclui muitos aprimoramentos projetados para medir medidas bem -sucedidas, enquanto armazenam alto desempenho.

A equipe melhorou seus últimos problemas, Tülu 3 405bO modelo de peso original está utilizando totalmente a receita aberta de treinamento depois de receber o parâmetro 405. O modelo apresenta uma maneira de fortalecer o romance conhecido como Fortalecedor para ler as recompensas verdadas (rlvr)O que melhora muito o funcionamento do modelo em atividades especializadas, garantindo que as recompensas sejam baseadas nos resultados, e não em uma resposta visível. A equipe de pesquisa enviou o Tülu 3 405B usando o VLLM pelo Tensor Palorldlounlism de 16 de Ay, preparando um desempenho de computador na GPU de 256 para executar semelhante.

Receita de treinamento Tülu 3 após seguir uma metodologia de quatro classes Isso começa com Dados de dados e nãotetesePara garantir que habilidades essenciais, como pensar, matemática, códigos e segurança, devem muito bem. A próxima fase envolve Para direcionar a beleza da diretiva (SFT)Quando o modelo é treinado usando produtos selecionados, cuidadosos e sua conclusão de. Estilo de vida direto diretamente (DPO) É usado na terceira categoria, aproveitando a política de políticas e políticas para recomendar respostas. Finalmente, Rlvr Apresentando o desenvolvimento de habilidades especiais, especialmente em atividades certificadas, como questões matemáticas. Uma das partições mais importantes de Tülu 3, o caminho de medir com sucesso. A equipe descobriu que os dados matemáticos são usados, em vez do GSM8K e IFEVAL, fornecem melhores resultados para modelos grandes.

O Tülu 3 405B indicou um desempenho competitivo ou de alto desempenho em comparação com o DeepSeek V3 e o GPT-4O, oferece um peso de peso aberto precioso como Llama 3.1 405b Hermes 3 405b. Os efeitos mostraram uma vantagem variável nos bancos de segurança, onde muitos modelos abertos estão lutando. A estrutura do RLVR contribui principalmente para a maior implementação matemática nas taxas de 405b, progressivamente nas seguintes funções educacionais.

O processo de treinamento do modelo incluiu ampla gama de recursos do computador, incluindo 32 e 256 GPUs. Durante o treinamento do RLVR, a aquisição levou cerca de 550 segundos com a iteração, uma transferência de peso necessária para 25 segundos e o treinamento levou aproximadamente 1.500 segundos a cada segundos. Após esse processo de treinamento nítido, o último modelo mostrou habilidades comuns regulares em todos os bancos.

Outra área importante após seus últimos desenvolvedores e lançamentos da pesquisa em Tülo 3:

  1. O Tülu 3 foi removido de vários parâmetros, incluindo 8b, 70b e 405b, cada um é bem organizado usando estratégias monitoradas, popularidade e estratégias de RLVR.
  2. Tülu 3 405B O treinamento é necessário 256 GPU de que eles são semelhantes, com a terrora de Teringa RLVR levando 550 segundos para dar 1.500 segundos de treinamento.
  3. Modelo que excede o Deentieek V3 e o GPT-4O em vários bolos de segurança e consultas, enquanto fora de modelos abertos, como o ensino de LLAMA 3.1 405B.
  4. Estudos revelaram que modelos grandes se saem melhor quando treinados em conjuntos de dados especiais, como matemática, são conjuntos de dados comuns, como o GSM8K.
  5. O método de aprendizado de fortalecer o romance que significa apenas o modelo é certificado apenas, desenvolvendo função matemática e consulta sistemática.
  6. Enquanto o Tülo 3 405b define normal, é necessária algumas pesquisas para verificar os maiores modelos de preços e outros algoritos exclusivos, como o GRPO, para criar palavras -chave.

Em conclusão, as técnicas de pós-aprendizagem enfatizaram uma lacuna de aplicativo persistente entre modelos abertos e relacionados às diferenças no treinamento, ao aparecimento de dados e métodos de edição. Enquanto os modelos High-Up desenvolviam, eles vivem por trás dos modelos relevantes. O lançamento do Tülo 3 405b marca a microsona e o aumento das técnicas abertas em modelos mais altos, indicando um desempenho competitivo ou de alto desempenho nos modelos SteeSeek V3 e GPT-4O. Significativamente, a leitura reforçada de recompensas certificadas (RLVR) uma estrutura indicando uma escala funcional mais eficaz, especialmente na resolução de problemas matemáticos, sugerindo que grandes modelos se beneficiaram muito de dados especiais. Apesar dos desafios tecnológicos nas regiões de computação e no ajuste hiperpareter, o sucesso do Tülu 3 405B destaca a operação de cozimento aberto.


Enquete O modelo nos beijos. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 70k + ml subreddit.

🚨 Conheça o trabalho: um código aberto aberto com várias fontes para verificar o programa difícil AI (Atualizado)


Aswin AK é consultor em Marktechpost. Ele persegue seus dois títulos no Instituto Indiano de Tecnologia, Kharagpur. Você está interessado na leitura científica e científica e de máquinas, que traz uma forte formação e experiências educacionais para resolver os desafios reais de desenvolvimento de fundo.

✅ [Recommended] Junte -se ao nosso canal de telégrafo



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *