Sa2VA: uma estrutura de IA integrada para compreensão básica de vídeo denso e imagem com integração SAM-2 e LLaVA
Inteligência artificial

Sa2VA: uma estrutura de IA integrada para compreensão básica de vídeo denso e imagem com integração SAM-2 e LLaVA


Os principais modelos de linguagem multinível (MLLMs) revolucionaram uma variedade de tarefas relacionadas a imagens e vídeos, incluindo resposta visual a perguntas, geração de narrativas e edição colaborativa. Um desafio importante neste campo é alcançar uma compreensão refinada do conteúdo de vídeo, incluindo segmentação em nível de pixel, rastreamento com descrições linguísticas e realização de consultas visuais em resposta a comandos de vídeo específicos. Embora os modelos de vídeo de última geração tenham um desempenho muito bom em tarefas como segmentação e rastreamento, eles carecem de compreensão de linguagem aberta e de capacidade de conversação. Além disso, os MLMs de vídeo mostram um forte desempenho na compreensão de vídeo e na resposta a perguntas, mas são insuficientes no tratamento de tarefas visuais e informações visuais.

Os esforços existentes para enfrentar os desafios da compreensão de vídeo seguiram duas abordagens principais: MLLMs e sistemas de segmentação de referência. Os MLLMs primeiro se concentraram no desenvolvimento de métodos de síntese multimétodos e geradores incorporados, eventualmente fazendo a transição para a preparação instrucional em LLMs estruturados, como o LLaVA. Desenvolvimentos recentes tentaram integrar análise de imagens, vídeos e múltiplas imagens em uma única estrutura, como LLaVA-OneVision. Da mesma forma, os sistemas de separação de sinais evoluíram de módulos compostos básicos para métodos baseados em transformadores, que incluem separação e rastreamento em vídeos. No entanto, essas soluções não possuem uma integração completa das capacidades de visão e compreensão da linguagem.

Pesquisadores da UC Merced, Bytedance Seed, Universidade de Wuhan e Universidade de Pequim propuseram o Sa2VA, um modelo básico unificado para compreensão profunda de imagens e vídeos. O modelo se distingue por suportar uma ampla gama de operações gráficas e de vídeo com ajuste instrucional mínimo e único, contornando as limitações dos modelos de linguagem de grande escala existentes. O novo método Sa2VA combina SAM-2 e LLaVA, combinando texto, imagem e vídeo em um espaço compartilhado para o token LLM. Os pesquisadores também introduziram o Ref-SAV, um conjunto de dados rotulado automaticamente contendo mais de 72 mil expressões de objetos em cenas de vídeo complexas, com 2 mil objetos de vídeo verificados para garantir capacidades robustas de estimativa.

A arquitetura do Sa2VA consiste em duas partes principais: um modelo semelhante ao LLaVA e ao SAM-2, conectados por um novo design dividido. O componente semelhante ao LLaVA consiste em um codificador visual que processa imagens e vídeos, uma camada de predição visual e um LLM para predição de token de texto. Este sistema usa uma abordagem descentralizada diferente, onde o SAM-2 funciona junto com um modelo LLaVA pré-treinado sem troca direta de tokens, mantendo a eficiência computacional e permitindo a operação plug-and-play com vários MLLMs pré-treinados. A principal inovação está no mecanismo de conexão por meio de um “[SEG]”Token, que permite que o SAM-2 gere uma máscara de segmentação enquanto permite a retropropagação de gradiente usando“[SEG]”É um símbolo para desenvolver as capacidades de produção rápida do MLLM.

O modelo Sa2VA alcança excelentes resultados em referência a tarefas de classificação, Sa2VA-8B obteve 81,6, 76,2 e 78,9 cIoU em RefCOCO, RefCOCO+ e RefCOCOg respectivamente, superando programas anteriores como GLaMM-7B. Em termos de poder de negociação, o Sa2VA apresenta forte desempenho com 2.128 pontos no MME, 81,6 no MMbench e 75,1 no SEED-Bench. O modelo se destaca em benchmarks de vídeo, superando o VISA-13B de última geração por grandes margens em MeVIS, RefDAVIS17 e ReVOS. Além disso, o desempenho do Sa2VA é notável considerando o pequeno tamanho do modelo em comparação aos concorrentes, o que mostra sua eficiência e eficácia tanto em tarefas de reconhecimento de imagem quanto de vídeo.

Neste artigo, os pesquisadores apresentaram o Sa2VA, que representa um grande avanço na compreensão multimodal ao combinar com sucesso as capacidades de classificação de vídeo do SAM-2 com as capacidades de processamento de linguagem do LLaVA. A versatilidade da estrutura é demonstrada pela sua capacidade de lidar com diversas tarefas de reconhecimento de imagem e vídeo com um único ajuste fino de imagem, abordando o desafio de longa data de integração da compreensão da fala e da linguagem. O forte desempenho do Sa2VA em muitos benchmarks, desde referência de segmento até tarefas de conversação, confirma sua eficácia como uma solução integrada para compreensão densa e estável de conteúdo visual, o que marca um importante avanço no campo de muitos sistemas de IA.


Confira Papel e modelo na mesma face. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimentalParticipe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.


Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA ​​com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.

✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *