SmolTalk lançado: a melhor receita de conjunto de dados dos bastidores para SmolLM2

Avanços recentes no processamento de linguagem natural (PNL) introduziram novos modelos e conjuntos de dados de treinamento destinados a atender às crescentes necessidades de modelos de linguagem eficientes e precisos. No entanto, estes desenvolvimentos também trazem desafios significativos. A maioria dos modelos linguísticos de grande escala (LLMs) lutam para equilibrar desempenho e eficiência, muitas vezes dependendo de grandes conjuntos de dados e infra-estruturas que os tornam impraticáveis para muitos utilizadores. O desenvolvimento de modelos confiáveis e bem configurados para operações do mundo real, mantendo ao mesmo tempo a robustez e a acessibilidade, é sempre uma questão urgente para desenvolvedores e organizações. Esta situação exige novas formas de criar formas linguísticas poderosas e acessíveis.

SmolTalk – um novo conjunto de dados sintético – foi projetado para abordar muitos dos desafios enfrentados atualmente no campo da PNL. SmolTalk é um conjunto de dados gerado sinteticamente de um milhão de amostras que forma o núcleo do modelo SmolLM2. Lançado sob a licença Apache 2.0 e hospedado no Hugging Face, o SmolTalk combina conjuntos de dados recém-produzidos e disponíveis publicamente para formar uma coleção unificada que oferece uma variedade de recursos de modelagem de linguagem. Este conjunto de dados marca um lançamento importante no espaço de conjuntos de dados de texto aberto, demonstrando a integração de conjuntos de dados artificiais e públicos para melhorar o aprendizado e o treinamento de modelos.

SmolTalk contém uma variedade de conjuntos de dados destinados ao ajuste de instruções, geração precisa de resultados e melhoria das habilidades de recodificação. Especificamente, o SmolTalk inclui o novo Smol-Magpie-Ultra (400K amostras) para correção de instruções, restrições Smol (36K) para garantir resultados precisos, reescrita Smol (50K) e resumo Smol (100K) para melhorar tarefas de reescrita e resumo. . . Além disso, o SmolTalk inclui vários conjuntos de dados públicos conhecidos, como OpenHermes2.5 (100K), MetaMathQA, NuminaMath-CoT, Self-Oss-Starcoder2-Instrut e LongAlign & SystemChats2.0. Esses diversos conjuntos de dados melhoram coletivamente as capacidades do SmolLM2 em vários domínios de compreensão da linguagem natural, fornecendo uma combinação equilibrada de diversidade e especificidade direcionada.

Detalhes técnicos

O modelo SmolLM2, treinado usando o conjunto de dados SmolTalk, atinge um desempenho robusto com um pipeline sintético cuidadosamente projetado. Ele supera modelos comparáveis, como o Orca-AgenInstruct 1M, na maioria dos benchmarks quando treinado com as versões de parâmetros 1.7B e 7B. O uso da tecnologia Distilabel da Argilla desempenhou um papel fundamental na geração de conjuntos de dados sintéticos, garantindo qualidade e diversidade. Este conjunto de dados diversificado, porém coeso, equipa o SmolLM2 com habilidades para pós-aprendizagem, raciocínio lógico, resolução de problemas matemáticos e interação baseada em conversação. As propriedades do modelo se beneficiam dessa entrada diversificada de treinamento, resultando em um modelo de linguagem refinado e escalável que mantém a precisão e a consistência, ao mesmo tempo em que é computacionalmente eficiente.

A importância do SmolTalk fica evidente quando se examina seu impacto nas métricas de desempenho e na usabilidade geral nas práticas de PNL. O conjunto de dados permite que o SmolLM2 supere modelos treinados apenas em outros conjuntos de dados populares, como OpenHermes e Magpie Pro, em benchmarks como IFEval e MT-Bench. Estas melhorias demonstram que os dados sintéticos, quando cuidadosamente selecionados e combinados com conjuntos de dados de alta qualidade disponíveis publicamente, podem melhorar significativamente o desempenho do modelo sem exigir recursos computacionais excessivamente grandes. A modularidade do conjunto de dados – incluindo edição de instruções, gerenciamento de precisão e funções de reescrita/resumo – torna o SmolLM2 uma ferramenta flexível que pode se adaptar a uma variedade de aplicações em tarefas orientadas por IA.

A conclusão

O lançamento do SmolTalk e o subsequente sucesso do SmolLM2 marcam um marco importante no desenvolvimento contínuo da tecnologia de PNL. Ao utilizar uma abordagem equilibrada que combina a geração artificial e a robustez da integração de conjuntos de dados públicos, o SmolTalk mostra o que é possível alcançar com modelos pequenos e de alto desempenho. Esta abordagem não só destaca o poder dos conjuntos de dados artificiais, mas também ajuda a democratizar a IA, tornando os modelos avançados mais acessíveis a investigadores e desenvolvedores que podem não ter recursos para trabalhar com grandes volumes de dados ou infraestrutura computacional. O lançamento do SmolTalk, completo com pipelines sintéticos e código de treinamento, fornece um recurso importante para a comunidade de PNL e prepara o terreno para desenvolvimentos futuros em modelagem de linguagem.

Confira Conjunto de dados aqui. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'

Source link

Detalhes técnicos

A conclusão

Você também pode gostar...

Integração e prática de políticas: relatórios transparentes sobre modelos básicos

MEGA Benchmark: um benchmark abrangente de IA que mede testes multiobjetivos em mais de 500 tarefas do mundo real a um custo gerenciável

Nexusflow lança Athena-V2: conjunto de modelos aberto 72B comparado ao GPT-4o em todos os benchmarks

Deixe um comentário Cancelar resposta