Os principais modelos de linguagem multinível (MLLMs) revolucionaram uma variedade de tarefas relacionadas a imagens e vídeos, incluindo resposta visual a perguntas, geração de narrativas e edição colaborativa. Um desafio importante neste campo é alcançar uma compreensão refinada do conteúdo de vídeo, incluindo segmentação em nível de pixel, rastreamento com descrições linguísticas e realização de consultas visuais em resposta a comandos de vídeo específicos. Embora os modelos de vídeo de última geração tenham um desempenho muito bom em tarefas como segmentação e rastreamento, eles carecem de compreensão de linguagem aberta e de capacidade de conversação. Além disso, os MLMs de vídeo mostram um forte desempenho na compreensão de vídeo e na resposta a perguntas, mas são insuficientes no tratamento de tarefas visuais e informações visuais.
Os esforços existentes para enfrentar os desafios da compreensão de vídeo seguiram duas abordagens principais: MLLMs e sistemas de segmentação de referência. Os MLLMs primeiro se concentraram no desenvolvimento de métodos de síntese multimétodos e geradores incorporados, eventualmente fazendo a transição para a preparação instrucional em LLMs estruturados, como o LLaVA. Desenvolvimentos recentes tentaram integrar análise de imagens, vídeos e múltiplas imagens em uma única estrutura, como LLaVA-OneVision. Da mesma forma, os sistemas de separação de sinais evoluíram de módulos compostos básicos para métodos baseados em transformadores, que incluem separação e rastreamento em vídeos. No entanto, essas soluções não possuem uma integração completa das capacidades de visão e compreensão da linguagem.
Pesquisadores da UC Merced, Bytedance Seed, Universidade de Wuhan e Universidade de Pequim propuseram o Sa2VA, um modelo básico unificado para compreensão profunda de imagens e vídeos. O modelo se distingue por suportar uma ampla gama de operações gráficas e de vídeo com ajuste instrucional mínimo e único, contornando as limitações dos modelos de linguagem de grande escala existentes. O novo método Sa2VA combina SAM-2 e LLaVA, combinando texto, imagem e vídeo em um espaço compartilhado para o token LLM. Os pesquisadores também introduziram o Ref-SAV, um conjunto de dados rotulado automaticamente contendo mais de 72 mil expressões de objetos em cenas de vídeo complexas, com 2 mil objetos de vídeo verificados para garantir capacidades robustas de estimativa.
A arquitetura do Sa2VA consiste em duas partes principais: um modelo semelhante ao LLaVA e ao SAM-2, conectados por um novo design dividido. O componente semelhante ao LLaVA consiste em um codificador visual que processa imagens e vídeos, uma camada de predição visual e um LLM para predição de token de texto. Este sistema usa uma abordagem descentralizada diferente, onde o SAM-2 funciona junto com um modelo LLaVA pré-treinado sem troca direta de tokens, mantendo a eficiência computacional e permitindo a operação plug-and-play com vários MLLMs pré-treinados. A principal inovação está no mecanismo de conexão por meio de um “[SEG]”Token, que permite que o SAM-2 gere uma máscara de segmentação enquanto permite a retropropagação de gradiente usando“[SEG]”É um símbolo para desenvolver as capacidades de produção rápida do MLLM.
O modelo Sa2VA alcança excelentes resultados em referência a tarefas de classificação, Sa2VA-8B obteve 81,6, 76,2 e 78,9 cIoU em RefCOCO, RefCOCO+ e RefCOCOg respectivamente, superando programas anteriores como GLaMM-7B. Em termos de poder de negociação, o Sa2VA apresenta forte desempenho com 2.128 pontos no MME, 81,6 no MMbench e 75,1 no SEED-Bench. O modelo se destaca em benchmarks de vídeo, superando o VISA-13B de última geração por grandes margens em MeVIS, RefDAVIS17 e ReVOS. Além disso, o desempenho do Sa2VA é notável considerando o pequeno tamanho do modelo em comparação aos concorrentes, o que mostra sua eficiência e eficácia tanto em tarefas de reconhecimento de imagem quanto de vídeo.
Neste artigo, os pesquisadores apresentaram o Sa2VA, que representa um grande avanço na compreensão multimodal ao combinar com sucesso as capacidades de classificação de vídeo do SAM-2 com as capacidades de processamento de linguagem do LLaVA. A versatilidade da estrutura é demonstrada pela sua capacidade de lidar com diversas tarefas de reconhecimento de imagem e vídeo com um único ajuste fino de imagem, abordando o desafio de longa data de integração da compreensão da fala e da linguagem. O forte desempenho do Sa2VA em muitos benchmarks, desde referência de segmento até tarefas de conversação, confirma sua eficácia como uma solução integrada para compreensão densa e estável de conteúdo visual, o que marca um importante avanço no campo de muitos sistemas de IA.
Confira Papel e modelo na mesma face. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)