NVIDIA AI apresenta NVILA: uma família de modelos de linguagem visual aberta para VLMs projetados para melhorar a eficiência e a precisão

Os modelos de linguagem visual (VLMs) percorreram um longo caminho na combinação de dados visuais e textuais. No entanto, eles apresentam desafios significativos. Muitos dos VLMs atuais exigem recursos significativos para treinamento, manutenção e implementação. Por exemplo, treinar um modelo de 7 bilhões de parâmetros pode levar mais de 400 dias de GPU, tornando-o fora do alcance da maioria dos pesquisadores. O ajuste fino é igualmente exigente, muitas vezes exigindo mais de 64 GB de memória GPU, muito além do que o hardware do consumidor pode suportar. Extrapolar esses modelos para ambientes com recursos computacionais limitados, como dispositivos de ponta ou robôs, é outro obstáculo. Estas limitações realçam a necessidade urgente de VLMs que não sejam apenas robustos, mas também eficientes e escaláveis.

Para enfrentar esses desafios, a NVIDIA lançou o NVILA, uma família de VLMs abertos projetados com eficiência e precisão em mente. Com base no modelo VILA, o NVILA utiliza uma abordagem de “escalar a compressão”. Essa abordagem aproveita a resolução espacial e temporal para preservar as informações na entrada visual e comprimi-las em menos tokens e mais densos. Essa combinação permite que o NVILA lide com imagens de alta resolução e longas sequências de vídeo de maneira eficaz.

O design NVILA otimiza todas as etapas do ciclo de vida do modelo. Ele reduz os custos de treinamento em 4,5×, reduz os requisitos de memória de otimização em 3,4× e melhora a velocidade de otimização em 1,6 a 2,8× em comparação com outros VLMs. É importante ressaltar que esses benefícios não vêm sem precisão. O NVILA tem desempenho igual ou melhor que a maioria dos benchmarks, destacando-se em consultas visuais, compreensão de vídeo e tarefas de processamento de documentos. A NVIDIA também planeja lançar códigos e modelos NVILA, promovendo maior acessibilidade e reprodutibilidade.

Detalhes técnicos

O núcleo da eficiência da NVILA é a sua estratégia “scale-the-compress”. A escala espacial aumenta a resolução da imagem para dimensões como 896×896 pixels, em comparação com o padrão 448×448. Para reduzir o custo computacional do dimensionamento, o NVILA usa compactação de tokens para preservar informações valiosas e, ao mesmo tempo, reduzir o número de tokens. Para entrada de vídeo, o modelo processa múltiplos quadros usando compressão temporal, precisão de medição e eficiência computacional.

NVILA inclui algumas inovações para agilizar o treinamento e a manutenção. Técnicas como precisão mista FP8 e remoção de conjunto de dados aceleram o treinamento com baixo consumo de memória. Taxas de aprendizagem variáveis e ajuste eficiente de parâmetros garantem que o modelo possa lidar com tarefas específicas de domínio sem exigir recursos excessivos. Durante a implantação, o NVILA usa calibração avançada – W8A8 para a torre de visão e W4A16 para os componentes de linguagem – para acelerar o raciocínio e, ao mesmo tempo, manter o desempenho.

Destaques de desempenho

O valor da NVILA reside em tornar os VLMs avançados mais acessíveis e, ao mesmo tempo, atender à necessidade de sistemas de IA eficazes. Algumas métricas principais incluem:

Eficácia do treinamento: O NVILA reduz o tempo de treinamento da GPU em 4,5× em comparação com os modelos principais, tornando-o mais eficiente para instalações com recursos limitados.
Bom uso de memória: Os requisitos de memória caem 3,4×, permitindo a configuração ideal de hardware padrão.
Considerações de desempenho: O atraso de gravação melhora em até 2,8×, suportando aplicações em tempo real.
Resultados de referência: NVILA alcança precisão 30% melhor para tarefas como DocVQA e TextVQA. Seu poder de longo alcance excede modelos proprietários como o GPT-4o e Gemini 1.5.

Os pontos fortes da NVILA abrangem uma variedade de campos, incluindo robótica e saúde. Por exemplo, as suas capacidades de localização temporal tornam-no ideal para navegação robótica, enquanto a sua estrutura NVILA-M3 integra modelos especializados para melhorar a precisão do diagnóstico em imagens médicas.

A conclusão

NVILA representa um passo lógico no desenvolvimento de modelos de linguagem visual. Ao repensar o ciclo de vida de design e desenvolvimento, a NVIDIA criou um modelo que equilibra eficiência e precisão. NVILA aborda as limitações dos VLMs tradicionais e estende sua funcionalidade para ambientes especializados e com uso intensivo de recursos. Com o compromisso da NVIDIA com o acesso aberto, a NVILA está preparada para incentivar mais pesquisas e inovações em IA.

Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' _(Promovido)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)

Source link

Detalhes técnicos

Destaques de desempenho

A conclusão

Você também pode gostar...

Lançado OuteTTS-0.1-350M: um novo modelo de conversão de texto em fala (TTS) usando um modelo de linguagem pura sem adaptadores externos

Pesquisadores da Meta AI apresentam um modelo de recompensa do pesquisador em nível de token (TLDR) para fornecer anotações bem caracterizadas de modelos de linguagem de grandes ideias

GSM composicional: um novo benchmark de IA para testar as capacidades de raciocínio de grandes modelos de linguagem em problemas de múltiplas etapas

Deixe um comentário Cancelar resposta