Os modelos de linguagem visual (VLMs) percorreram um longo caminho na combinação de dados visuais e textuais. No entanto, eles apresentam desafios significativos. Muitos dos VLMs atuais exigem recursos significativos para treinamento, manutenção e implementação. Por exemplo, treinar um modelo de 7 bilhões de parâmetros pode levar mais de 400 dias de GPU, tornando-o fora do alcance da maioria dos pesquisadores. O ajuste fino é igualmente exigente, muitas vezes exigindo mais de 64 GB de memória GPU, muito além do que o hardware do consumidor pode suportar. Extrapolar esses modelos para ambientes com recursos computacionais limitados, como dispositivos de ponta ou robôs, é outro obstáculo. Estas limitações realçam a necessidade urgente de VLMs que não sejam apenas robustos, mas também eficientes e escaláveis.
Para enfrentar esses desafios, a NVIDIA lançou o NVILA, uma família de VLMs abertos projetados com eficiência e precisão em mente. Com base no modelo VILA, o NVILA utiliza uma abordagem de “escalar a compressão”. Essa abordagem aproveita a resolução espacial e temporal para preservar as informações na entrada visual e comprimi-las em menos tokens e mais densos. Essa combinação permite que o NVILA lide com imagens de alta resolução e longas sequências de vídeo de maneira eficaz.
O design NVILA otimiza todas as etapas do ciclo de vida do modelo. Ele reduz os custos de treinamento em 4,5×, reduz os requisitos de memória de otimização em 3,4× e melhora a velocidade de otimização em 1,6 a 2,8× em comparação com outros VLMs. É importante ressaltar que esses benefícios não vêm sem precisão. O NVILA tem desempenho igual ou melhor que a maioria dos benchmarks, destacando-se em consultas visuais, compreensão de vídeo e tarefas de processamento de documentos. A NVIDIA também planeja lançar códigos e modelos NVILA, promovendo maior acessibilidade e reprodutibilidade.
Detalhes técnicos
O núcleo da eficiência da NVILA é a sua estratégia “scale-the-compress”. A escala espacial aumenta a resolução da imagem para dimensões como 896×896 pixels, em comparação com o padrão 448×448. Para reduzir o custo computacional do dimensionamento, o NVILA usa compactação de tokens para preservar informações valiosas e, ao mesmo tempo, reduzir o número de tokens. Para entrada de vídeo, o modelo processa múltiplos quadros usando compressão temporal, precisão de medição e eficiência computacional.
NVILA inclui algumas inovações para agilizar o treinamento e a manutenção. Técnicas como precisão mista FP8 e remoção de conjunto de dados aceleram o treinamento com baixo consumo de memória. Taxas de aprendizagem variáveis e ajuste eficiente de parâmetros garantem que o modelo possa lidar com tarefas específicas de domínio sem exigir recursos excessivos. Durante a implantação, o NVILA usa calibração avançada – W8A8 para a torre de visão e W4A16 para os componentes de linguagem – para acelerar o raciocínio e, ao mesmo tempo, manter o desempenho.
Destaques de desempenho
O valor da NVILA reside em tornar os VLMs avançados mais acessíveis e, ao mesmo tempo, atender à necessidade de sistemas de IA eficazes. Algumas métricas principais incluem:
- Eficácia do treinamento: O NVILA reduz o tempo de treinamento da GPU em 4,5× em comparação com os modelos principais, tornando-o mais eficiente para instalações com recursos limitados.
- Bom uso de memória: Os requisitos de memória caem 3,4×, permitindo a configuração ideal de hardware padrão.
- Considerações de desempenho: O atraso de gravação melhora em até 2,8×, suportando aplicações em tempo real.
- Resultados de referência: NVILA alcança precisão 30% melhor para tarefas como DocVQA e TextVQA. Seu poder de longo alcance excede modelos proprietários como o GPT-4o e Gemini 1.5.
Os pontos fortes da NVILA abrangem uma variedade de campos, incluindo robótica e saúde. Por exemplo, as suas capacidades de localização temporal tornam-no ideal para navegação robótica, enquanto a sua estrutura NVILA-M3 integra modelos especializados para melhorar a precisão do diagnóstico em imagens médicas.
A conclusão
NVILA representa um passo lógico no desenvolvimento de modelos de linguagem visual. Ao repensar o ciclo de vida de design e desenvolvimento, a NVIDIA criou um modelo que equilibra eficiência e precisão. NVILA aborda as limitações dos VLMs tradicionais e estende sua funcionalidade para ambientes especializados e com uso intensivo de recursos. Com o compromisso da NVIDIA com o acesso aberto, a NVILA está preparada para incentivar mais pesquisas e inovações em IA.
Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)