Edge AI há muito enfrenta o desafio de equilibrar eficiência e eficácia. A implantação de Vision Language Models (VLMs) em dispositivos de borda é difícil devido ao seu grande tamanho, altas demandas de computação e problemas de latência. Os modelos projetados para ambientes de nuvem muitas vezes lutam com os recursos limitados dos dispositivos de ponta, resultando em consumo excessivo de bateria, tempos de resposta lentos e conexões inconsistentes. A demanda por modelos leves, porém funcionais, tem crescido, impulsionada por aplicações como realidade aumentada, assistentes domésticos inteligentes e IoT industrial, que exigem processamento rápido de entradas visuais e textuais. Estes desafios são ainda agravados pelas taxas crescentes de alucinações e resultados pouco fiáveis em tarefas como responder a perguntas visuais ou legendas de imagens, onde a qualidade e a precisão são importantes.
Nexa AI lança OmniVision-968M: o menor modelo de linguagem de visão do mundo com redução de tokens de 9x para dispositivos Edge. OmniVision-968M foi projetado com arquitetura avançada com LLaVA (Large Language and Vision Assistant), atingindo um novo nível de compacidade e eficiência, ideal para trabalhar no limite. Com um design focado na redução de tokens de imagem por um fator de nove – de 729 para apenas 81 – a latência e a carga computacional normalmente associadas a esses modelos foram bastante reduzidas.
A arquitetura OmniVision é composta por três elementos principais:
- Modelo Básico de Linguagem: Qwen2.5-0.5B-Instruct serve como modelo principal para processamento de entrada de texto.
- Codificador de visão: SigLIP-400M, com resolução 384 e tamanho de plotagem 14×14, produz incorporação de imagens.
- Fundo Projetivo: Multi-Layer Perceptron (MLP) alinha a incorporação de um codificador perceptual com o espaço de token de um modelo de linguagem. Ao contrário da arquitetura Lava tradicional, nosso processador reduz em 9 vezes o número de tokens de imagem.
O OmniVision-968M inclui diversas melhorias tecnológicas que o tornam adequado para uso no limite. A estrutura deste modelo é desenvolvida com base em LLaVA, o que permite processar entradas visuais e textuais com alta eficiência. A redução dos tokens de imagem de 729 para 81 representa um salto significativo, tornando-o quase nove vezes mais eficiente no processamento de tokens em comparação aos modelos existentes. Isso tem um impacto significativo na redução da latência e do custo computacional, que são recursos essenciais dos dispositivos de borda. Além disso, o OmniVision-968M propõe treinamento de Otimização de Preferência Direta (DPO) com fontes de dados confiáveis, o que ajuda a reduzir o problema de alucinações – um desafio comum em sistemas de IA multimodais. Com foco em responder a consultas visuais e legendas de imagens, o modelo visa fornecer uma experiência de usuário precisa e contínua, garantindo confiabilidade e robustez em aplicações onde feedback em tempo real e eficiência energética são essenciais.
O lançamento do OmniVision-968M representa um desenvolvimento significativo por vários motivos. Basicamente, a redução no número de tokens reduz significativamente os recursos computacionais necessários para as transações. Para desenvolvedores e empresas que desejam implantar VLMs em ambientes cativos — como wearables, dispositivos móveis e hardware IoT — o tamanho compacto e o desempenho do OmniVision-968M o tornam a solução ideal. Além disso, a estratégia de treinamento de DPO ajuda a reduzir falsos positivos, que é um problema comum quando os modelos produzem informações incorretas ou enganosas, garantindo que o OmniVision-968M seja eficaz e confiável. Os benchmarks iniciais mostram que o OmniVision-968M atinge uma redução de 35% no tempo de decisão em comparação com modelos anteriores, ao mesmo tempo que mantém ou melhora a precisão para tarefas como responder a consultas visuais e legendas de imagens. Espera-se que este desenvolvimento promova a adoção em setores que exigem interações de IA de alta velocidade e baixo consumo de energia, como saúde, cidades inteligentes e setor automotivo.
Concluindo, o OmniVision-968M da Nexa AI aborda uma lacuna de longa data na indústria de IA: a necessidade de modelos de linguagem de visão de alto desempenho que possam funcionar perfeitamente em dispositivos de ponta. Ao reduzir os tokens de imagem, otimizar a arquitetura LLaVA e integrar o treinamento de DPO para garantir resultados confiáveis, o OmniVision-968M representa uma nova fronteira na vanguarda da IA. Este modelo nos aproxima da visão de IA onipresente – onde dispositivos inteligentes e conectados podem executar tarefas multimodais complexas localmente, sem a necessidade de suporte constante na nuvem.
Confira O modelo do tamanho do rosto de novo Outros detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliárias
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🐝🐝 O próximo evento ao vivo do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar as equipes a construir modelos de IA revolucionários , rápido.