Nos últimos anos, tem havido uma procura crescente por modelos de aprendizagem automática que possam lidar eficazmente com tarefas visuais e linguísticas, sem depender de infraestruturas grandes e complexas. O desafio reside em equilibrar os requisitos de desempenho e recursos, especialmente para dispositivos como laptops, GPUs de consumo ou dispositivos móveis. A maioria dos modelos de linguagem visual (VLMs) requer grandes quantidades de poder de computação e memória, tornando-os impraticáveis para aplicações no dispositivo. Modelos como o Qwen2-VL, embora eficientes, exigem hardware caro e muita RAM de GPU, o que limita sua acessibilidade e desempenho em operações em tempo real no dispositivo. Isso criou a necessidade de modelos leves que possam fornecer forte desempenho com recursos mínimos.
A Hugging Face lançou recentemente o SmolVLM, um modelo de linguagem visual paramétrica 2B projetado especificamente para segmentação no dispositivo. SmolVLM supera outros modelos com o mesmo uso de GPU RAM e taxa de transferência de token. Um recurso importante do SmolVLM é sua capacidade de funcionar com eficiência em dispositivos pequenos, incluindo laptops ou GPUs de consumo, sem comprometer o desempenho. Ele alcança um equilíbrio entre desempenho e eficiência que tem sido difícil de alcançar com modelos de tamanho e capacidade semelhantes. Ao contrário do Qwen2-VL 2B, o SmolVLM gera tokens 7,5 a 16 vezes mais rápido, graças à sua arquitetura avançada que favorece a orientação leve. Essa eficiência se traduz em benefícios práticos para os usuários finais.
Visão geral técnica
Do ponto de vista técnico, o SmolVLM possui recursos avançados que permitem uma previsão eficiente no dispositivo. Ele pode ser facilmente configurado usando o Google Colab, tornando-o acessível para teste e desenvolvimento mesmo para quem tem recursos limitados. É leve o suficiente para funcionar perfeitamente em um laptop ou processar milhões de documentos usando uma GPU de consumo. Uma de suas principais vantagens é a pequena memória, o que facilita o uso em dispositivos que antes não suportavam modelos do mesmo tamanho. A eficiência se reflete na produção de tokens: o SmolVLM gera tokens em velocidades que variam de 7,5 a 16 vezes mais rápido em comparação com o Qwen2-VL. Esse ganho de desempenho se deve à arquitetura simples do SmolVLM que melhora o texto da imagem e a velocidade de resolução. Embora tenha o mesmo número de parâmetros que o Qwen2-VL, a codificação de imagem eficiente do SmolVLM evita a sobrecarga – um problema que muitas vezes faz com que o Qwen2-VL trave sistemas como o MacBook Pro M3.
A importância do SmolVLM reside na sua capacidade de fornecer interpretação de linguagem virtual de alta qualidade sem a necessidade de hardware poderoso. Este é um passo importante para pesquisadores, desenvolvedores e amadores que desejam experimentar tarefas de linguagem visual sem investir em GPUs caras. Nos testes realizados pela equipe, o SmolVLM demonstrou sua eficácia quando testado com 50 frames de um vídeo do YouTube, produzindo resultados que permitem testes adicionais no CinePile, um benchmark que testa a capacidade do modelo de compreender visuais cinematográficos. Os resultados mostraram que o SmolVLM obteve pontuação de 27,14%, colocando-o entre os dois modelos que mais consomem recursos: InternVL2 (2B) e Video LlaVa (7B). Notavelmente, o SmolVLM não foi treinado em dados de vídeo, mas teve um desempenho comparado a modelos projetados para tais tarefas, demonstrando sua robustez e flexibilidade. Além disso, o SmolVLM alcança esses ganhos de eficiência, mantendo a precisão e a qualidade da produção, destacando a possibilidade de criar modelos pequenos sem sacrificar o desempenho.
A conclusão
Concluindo, o SmolVLM representa um grande avanço no campo dos modelos de linguagem visual. Ao permitir que tarefas complexas de VLM sejam executadas em dispositivos do dia a dia, o Hugging Face aborda uma lacuna crítica no estado atual das ferramentas de IA. O SmolVLM compete bem com outros modelos de sua classe e muitas vezes os supera em termos de velocidade, eficiência e utilização do dispositivo. Com seu design compacto e tokenização eficiente, o SmolVLM será uma ferramenta essencial para quem precisa de processamento robusto de uma linguagem de visão sem acesso a hardware de última geração. Este desenvolvimento tem potencial para expandir o uso de VLMs, tornando sistemas complexos de IA mais acessíveis. À medida que a IA se torna pessoal e onipresente, modelos como o SmolVLM estão abrindo caminho para tornar o poderoso aprendizado de máquina acessível a um público mais amplo.
Confira Modelos de rosto eloquente, detalhes e demonstrações. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
🎙️ 🚨 'Avaliação de vulnerabilidade de um grande modelo de linguagem: uma análise comparativa dos métodos da Cruz Vermelha' Leia o relatório completo (Promovido)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)