SmolLM2 lançado: uma nova série (0.1B, 0.3B e 1.7B) de modelos de linguagem pequena para aplicativos móveis e além do Meta Llama 3.2 1B

Nos últimos anos, a proliferação de modelos linguísticos de grande escala (LLMs) mudou drasticamente a forma como abordamos as tarefas de processamento de linguagem natural. No entanto, estes desenvolvimentos não estão isentos de problemas. O uso generalizado de grandes LLMs, como GPT-4 e LLaMA da Meta, revelou suas limitações quando se trata de eficiência de recursos. Esses modelos, apesar de suas impressionantes capacidades, geralmente requerem muita energia para integração com a memória, tornando-os inadequados para muitos usuários, principalmente aqueles que desejam utilizar os modelos em dispositivos como smartphones ou periféricos com recursos limitados. Executar esses grandes LLMs localmente é uma tarefa cara, tanto em termos de requisitos de hardware quanto de consumo de energia. Isto criou uma clara lacuna no mercado para modelos pequenos e eficientes que podem funcionar num dispositivo e, ao mesmo tempo, proporcionar um desempenho sólido.

Para responder a este desafio, Hugging Face foi lançado SmolLM2-uma nova série de pequenos modelos otimizados para aplicações no dispositivo. O SmolLM2 baseia-se no sucesso de seu antecessor, o SmolLM1, oferecendo recursos aprimorados e ao mesmo tempo sendo leve. Esses modelos vêm em três configurações: parâmetros 0,1B, 0,3B e 1,7B. Sua principal vantagem é a capacidade de trabalhar diretamente em dispositivos sem depender de uma grande infraestrutura baseada em nuvem, abrindo possibilidades para diversos casos de uso onde latência, privacidade e limitações de hardware são fatores importantes. Os modelos SmolLM2 estão disponíveis sob a licença Apache 2.0, tornando-os acessíveis a um amplo público de desenvolvedores e pesquisadores.

O SmolLM2 foi projetado para superar as limitações de grandes LLMs por ser compacto e flexível. Treinados com 11 trilhões de tokens de conjuntos de dados como FineWeb-Edu, DCLM e Stack, os modelos SmolLM2 cobrem uma ampla variedade de conteúdo, concentrando-se principalmente em textos em inglês. Cada versão é otimizada para tarefas como reescrita de texto, resumo e chamada, tornando-as adequadas para uma variedade de aplicações, especialmente em ambientes no dispositivo onde a conectividade com serviços em nuvem pode ser limitada. Em termos de desempenho, o SmolLM2 supera o Meta Llama 3.2 1B, e em alguns benchmarks, como o Qwen2.5 1B, apresentou resultados muito superiores.

A família SmolLM2 inclui técnicas avançadas de pós-treinamento, incluindo Supervised Fine-Tuning (SFT) e Direct Preference Optimization (DPO), que melhoram a capacidade dos modelos de lidar com instruções complexas e fornecer respostas mais precisas. Além disso, sua compatibilidade com estruturas como llama.cpp e Transformers.js significa que eles podem ser executados perfeitamente no dispositivo, usando processamento de CPU local ou dentro do ambiente do navegador, sem a necessidade de GPUs especiais. Essa flexibilidade torna o SmolLM2 ideal para aplicações de IA na borda, onde a baixa latência e a privacidade dos dados são importantes.

O lançamento do SmolLM2 marca um passo importante para tornar LLMs poderosos acessíveis e utilizáveis em uma ampla gama de dispositivos. Ao contrário do seu antecessor, o SmolLM1, que enfrentou limitações na aprendizagem subsequente e no raciocínio estatístico, o SmolLM2 apresenta melhorias significativas nestas áreas, especialmente na versão do parâmetro 1.7B. Este modelo não apenas se destaca em tarefas de PNL padrão, mas também oferece suporte a funcionalidades mais avançadas, como chamada de tarefas – um recurso que o torna particularmente útil para assistentes de codificação automatizados ou aplicativos pessoais de IA que precisam se integrar perfeitamente ao software existente.

Os resultados do benchmark enfatizam as melhorias feitas no SmolLM2. Com pontuações de 56,7 no IFEval, 6,13 no MT Bench, 19,3 no MMLU-Pro e 48,2 no GMS8k, o SmolLM2 mostra um desempenho competitivo que muitas vezes iguala ou excede o modelo Meta Llama 3.2 1B. Além disso, seu design compacto permite funcionar bem em áreas onde modelos maiores não funcionariam. Isso torna o SmolLM2 particularmente adequado para indústrias e aplicações onde os custos de infraestrutura são uma preocupação ou onde a necessidade de processamento em tempo real no dispositivo tem precedência sobre os recursos centralizados de IA.

SmolLM2 oferece alto desempenho em um formato compacto adequado para aplicações no dispositivo. Variando em tamanho de 135 milhões a 1,7 bilhão de parâmetros, o SmolLM2 oferece flexibilidade sem comprometer a eficiência e a velocidade da computação de ponta. Ele lida com reescrita de texto, resumo e chamadas de funções complexas com raciocínio estatístico avançado, tornando-o uma solução de IA econômica no dispositivo. À medida que os modelos de linguagem pequena se tornam cada vez mais importantes em aplicações sensíveis à privacidade e à latência, o SmolLM2 estabelece um novo padrão para PNL no dispositivo.

Confira Série de modelos aqui. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Sequência de codificação para modelagem de linguagem de mRNA (HELM): uma nova estratégia de pré-treinamento que incorpora estrutura hierárquica em nível de códon no treinamento de modelo de linguagem

Pesquisadores do MIT desenvolvem uma maneira eficiente de treinar agentes confiáveis ​​de IA | Notícias do MIT

Capturando o raciocínio aritmético em LLMs: o papel dos circuitos heurísticos sobre algoritmos padrão

Deixe um comentário Cancelar resposta

Pesquisadores do MIT desenvolvem uma maneira eficiente de treinar agentes confiáveis de IA | Notícias do MIT