Hugging Face lança SmolVLM: um modelo de reconhecimento de linguagem paramétrica 2B para instruções no dispositivo

Nos últimos anos, tem havido uma procura crescente por modelos de aprendizagem automática que possam lidar eficazmente com tarefas visuais e linguísticas, sem depender de infraestruturas grandes e complexas. O desafio reside em equilibrar os requisitos de desempenho e recursos, especialmente para dispositivos como laptops, GPUs de consumo ou dispositivos móveis. A maioria dos modelos de linguagem visual (VLMs) requer grandes quantidades de poder de computação e memória, tornando-os impraticáveis para aplicações no dispositivo. Modelos como o Qwen2-VL, embora eficientes, exigem hardware caro e muita RAM de GPU, o que limita sua acessibilidade e desempenho em operações em tempo real no dispositivo. Isso criou a necessidade de modelos leves que possam fornecer forte desempenho com recursos mínimos.

A Hugging Face lançou recentemente o SmolVLM, um modelo de linguagem visual paramétrica 2B projetado especificamente para segmentação no dispositivo. SmolVLM supera outros modelos com o mesmo uso de GPU RAM e taxa de transferência de token. Um recurso importante do SmolVLM é sua capacidade de funcionar com eficiência em dispositivos pequenos, incluindo laptops ou GPUs de consumo, sem comprometer o desempenho. Ele alcança um equilíbrio entre desempenho e eficiência que tem sido difícil de alcançar com modelos de tamanho e capacidade semelhantes. Ao contrário do Qwen2-VL 2B, o SmolVLM gera tokens 7,5 a 16 vezes mais rápido, graças à sua arquitetura avançada que favorece a orientação leve. Essa eficiência se traduz em benefícios práticos para os usuários finais.

Visão geral técnica

Do ponto de vista técnico, o SmolVLM possui recursos avançados que permitem uma previsão eficiente no dispositivo. Ele pode ser facilmente configurado usando o Google Colab, tornando-o acessível para teste e desenvolvimento mesmo para quem tem recursos limitados. É leve o suficiente para funcionar perfeitamente em um laptop ou processar milhões de documentos usando uma GPU de consumo. Uma de suas principais vantagens é a pequena memória, o que facilita o uso em dispositivos que antes não suportavam modelos do mesmo tamanho. A eficiência se reflete na produção de tokens: o SmolVLM gera tokens em velocidades que variam de 7,5 a 16 vezes mais rápido em comparação com o Qwen2-VL. Esse ganho de desempenho se deve à arquitetura simples do SmolVLM que melhora o texto da imagem e a velocidade de resolução. Embora tenha o mesmo número de parâmetros que o Qwen2-VL, a codificação de imagem eficiente do SmolVLM evita a sobrecarga – um problema que muitas vezes faz com que o Qwen2-VL trave sistemas como o MacBook Pro M3.

A importância do SmolVLM reside na sua capacidade de fornecer interpretação de linguagem virtual de alta qualidade sem a necessidade de hardware poderoso. Este é um passo importante para pesquisadores, desenvolvedores e amadores que desejam experimentar tarefas de linguagem visual sem investir em GPUs caras. Nos testes realizados pela equipe, o SmolVLM demonstrou sua eficácia quando testado com 50 frames de um vídeo do YouTube, produzindo resultados que permitem testes adicionais no CinePile, um benchmark que testa a capacidade do modelo de compreender visuais cinematográficos. Os resultados mostraram que o SmolVLM obteve pontuação de 27,14%, colocando-o entre os dois modelos que mais consomem recursos: InternVL2 (2B) e Video LlaVa (7B). Notavelmente, o SmolVLM não foi treinado em dados de vídeo, mas teve um desempenho comparado a modelos projetados para tais tarefas, demonstrando sua robustez e flexibilidade. Além disso, o SmolVLM alcança esses ganhos de eficiência, mantendo a precisão e a qualidade da produção, destacando a possibilidade de criar modelos pequenos sem sacrificar o desempenho.

A conclusão

Concluindo, o SmolVLM representa um grande avanço no campo dos modelos de linguagem visual. Ao permitir que tarefas complexas de VLM sejam executadas em dispositivos do dia a dia, o Hugging Face aborda uma lacuna crítica no estado atual das ferramentas de IA. O SmolVLM compete bem com outros modelos de sua classe e muitas vezes os supera em termos de velocidade, eficiência e utilização do dispositivo. Com seu design compacto e tokenização eficiente, o SmolVLM será uma ferramenta essencial para quem precisa de processamento robusto de uma linguagem de visão sem acesso a hardware de última geração. Este desenvolvimento tem potencial para expandir o uso de VLMs, tornando sistemas complexos de IA mais acessíveis. À medida que a IA se torna pessoal e onipresente, modelos como o SmolVLM estão abrindo caminho para tornar o poderoso aprendizado de máquina acessível a um público mais amplo.

Confira Modelos de rosto eloquente, detalhes e demonstrações. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

🎙️ 🚨 'Avaliação de vulnerabilidade de um grande modelo de linguagem: uma análise comparativa dos métodos da Cruz Vermelha' Leia o relatório completo _(Promovido)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)

Source link

Visão geral técnica

A conclusão

Você também pode gostar...

Conheça LLaVA-o1: o primeiro modelo de linguagem visual capaz de autorreflexão, estruturado de forma semelhante ao GPT-o1

LASR: um novo método de aprendizado de máquina para regressão simbólica usando modelos de linguagem em grande escala

Regras de dimensionamento e comparação de modelos: novas fronteiras no aprendizado de máquina em larga escala

Deixe um comentário Cancelar resposta