O Allen Institute for AI (AI2) anunciou o lançamento do Silêncio 3uma família moderna de modelos de acompanhamento de instruções projetados para estabelecer um novo padrão em recursos de IA. Esta versão inclui recursos, métodos e ferramentas de última geração, fornecendo aos pesquisadores e desenvolvedores uma solução completa e de código aberto. Com o Tülu 3, a AI2 abordou com sucesso uma ampla gama de tarefas, desde IA conversacional até domínios complexos de resolução de problemas, como matemática, raciocínio e testes.
Tülu 3 é uma família de modelos que prioriza transparência, abertura e funcionalidade moderna. Os modelos são baseados na estrutura Llama 3.1 da Meta e são ajustados em um amplo conjunto de dados que inclui dados publicamente disponíveis, sintéticos e criados por humanos. Esta abordagem garante que o Tülu 3 alcance a excelência em uma ampla gama de tarefas, incluindo domínios especializados como MATH, GSM8K e IFEval, ao mesmo tempo que mantém fortes capacidades em tarefas de conversação e raciocínio de uso geral.
A família Tülu 3 consiste em dois modelos de tamanhos principais:
Esses modelos foram refinados usando técnicas de ajuste fino sequencial (SFT) e otimização de preferência direta (DPO), seguidas de aprendizado por reforço com regularização de valor (RLVR) para iteração final. Esse pipeline de treinamento em vários estágios resultou em modelos que se destacam em precisão e flexibilidade, tornando-os adequados para uma variedade de aplicações.
Métricas de desempenho
Os modelos Tülu 3 demonstraram desempenho impressionante em todos os testes multiposições. Em tarefas como MMLU (0-shot Chain of Thought), GSM8K (8-shot Chain of Thought) e HumanEval, os modelos Tülu 3 superam consistentemente concorrentes como Qwen 2.5, Magpie e Ministral. Por exemplo, o modelo Tülu 3 8B recebeu uma pontuação GSM8K de 87,6, enquanto a variante 70B alcançou impressionantes 93,5. Da mesma forma, nas tarefas HumanEval, os modelos apresentaram uma forte taxa de aprovação@10, o modelo 70B atingiu 92,4%. Outro destaque notável é o excepcional desempenho do modelo nas funções de segurança. Os modelos Tülu 3 8B e 70B pontuaram 85,5 e 88,3 no teste de segurança de seis tarefas, respectivamente, mostrando sua confiabilidade no tratamento de questões sensíveis e complexas. Essas métricas ressaltam a capacidade do Tülu 3 de equilibrar precisão, inteligência e segurança, uma combinação crítica em aplicações modernas de IA.
Abertura e Acesso
O que realmente diferencia o Tülu 3 é o seu compromisso com a abertura. AI2 tornou os modelos, conjuntos de dados de treinamento, código de teste e métodos totalmente de código aberto. Pesquisadores e desenvolvedores podem acessar um repositório de treinamento, um repositório de testes e um relatório técnico detalhado que descreve a arquitetura e os recursos do modelo. Esta iniciativa demonstra o compromisso da AI2 em promover a colaboração dentro da comunidade de IA, ao mesmo tempo que garante de forma responsável o uso de tecnologias de ponta. A AI2 também disponibilizou uma demonstração interativa por meio de sua plataforma Playground para quem quiser testar os modelos em primeira mão. Essa interface amigável permite que as pessoas testem os modelos Tülu 3, observem seu desempenho e entendam suas aplicações em situações do mundo real.
Técnicas de treinamento de última geração
O treinamento dos modelos Tülu 3 inclui técnicas avançadas de pós-treinamento para maximizar o desempenho. A abordagem RLVR aos modelos finais introduz conceitos de aprendizagem por reforço para melhorar a qualidade da resposta, mantendo ao mesmo tempo a retenção geral do valor. Parâmetros principais, como taxa de aprendizagem 3*10^(-7), gama 1,0 e faixa de coeficiente de penalidade KL [0.1, 0.05, 0.03, 0.01] garantir um treinamento estável e eficaz. Os modelos também suportam um comprimento máximo de token de 2.048, com suporte estendido para funções MATH de até 4.096 tokens, permitindo-lhes lidar com entradas complexas e longas. Além disso, o Tülu 3 inclui modelos de bate-papo inovadores para orientar as interações de bate-papo com IA. Os modelos incorporam funções de usuário e assistente, garantindo uma troca contínua e compatível. Um prompt do sistema automatizado, “Você é o Tülu 3, um assistente de IA útil e inofensivo desenvolvido pelo Allen Institute for AI”, orienta o comportamento do modelo durante as sessões de conversação. Embora o comando do sistema não seja explicitamente treinado em modelos, ele fornece uma estrutura consistente para a interação do usuário.
Solicitações sem discussão
Embora o Tülu 3 seja excelente em funções de conversação, seus recursos vão além da simples conversa. Os modelos foram rigorosamente testados em benchmarks de raciocínio complexo, como MATH, GSM8K e BigBenchHard, comprovando seu uso em educação, pesquisa e domínios técnicos de resolução de problemas. Por exemplo, o modelo 70B alcançou uma pontuação MATH de 63,0 e uma pontuação BigBenchHard de 82,0, indicando sua capacidade de lidar com tarefas avançadas de raciocínio e lógica. A flexibilidade do Tülu 3 o torna ideal para aplicações criativas, como produção de conteúdo, abstração e codificação. Os modelos mostraram forte desempenho nas tarefas HumanEval e HumanEval+, com o modelo 70B entregando pontuações pass@10 de 92,4 e 88,0, respectivamente. Esses resultados destacam a capacidade do Tülu 3 de produzir soluções de código de alta qualidade, ampliando ainda mais o escopo de sua aplicação.
Apesar das suas incríveis capacidades, o Tülu 3 não tem limites. AI2 reconhece que os modelos têm treinamento de segurança limitado e não estão equipados com mecanismos de filtragem em circuito como alguns modelos proprietários. Isto significa que, sob certas condições, os modelos podem produzir resultados problemáticos. Além disso, a composição real do conjunto de dados de formação permanece desconhecida, levantando preocupações sobre potenciais vieses. Para enfrentar estes desafios, a AI2 enfatizou a importância da implementação adequada e forneceu orientações detalhadas para investigadores e desenvolvedores. Ao lançar o Tülu 3 sob o Contrato de Licença Pública Llama 3.1 da Meta, a AI2 garante que os modelos sejam usados para fins de pesquisa e educacionais, incentivando a inovação e reduzindo o uso indevido.
Concluindo, com o lançamento do Tülu 3, que combina funcionalidade moderna e abertura, a AI2 criou uma família de modelos que avança no campo e democratiza o acesso à tecnologia de IA de ponta. Pesquisadores, educadores e desenvolvedores agora têm um poderoso conjunto de ferramentas para testar, avaliar e inovar, impulsionando o progresso em diversas aplicações. Com seus fortes recursos e base de código aberto, o Tülu 3 está preparado para causar um impacto duradouro no cenário da IA, inspirando inovações e possibilitando soluções transformacionais.
Confira Detalhes aqui, Tülu 3 8B (Lhama-3.1-Tulu-3-8B) de novo Tülu 3 70B (Lhama-3.1-Tulu-3-70B). Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'