Os modelos linguísticos de grande escala (LLMs) são os modelos linguísticos multimodais de grande escala (LMM) de crescimento mais rápido, especialmente para tarefas de percepção de linguagem. Os vídeos representam fontes complexas e ricas em informações que são importantes para a compreensão de situações do mundo real. No entanto, os modelos atuais de linguagem de vídeo encontram grandes desafios na localização temporal e na detecção temporal precisa. Apesar do extenso treinamento em legendas de vídeo e conjuntos de dados de consulta, esses modelos têm dificuldade em identificar e fazer referência a segmentos temporais específicos no conteúdo de vídeo. A limitação básica reside na incapacidade de pesquisar e extrair com precisão informações relevantes de grandes objetos de vídeo redundantes. Este desafio torna-se mais crítico à medida que aumenta a procura por análises de vídeo baseadas em evidências.
A pesquisa existente sobre modelos de linguagem de vídeo explorou muitas maneiras de integrar a compreensão visual com a linguagem. Os principais modelos de linguagem gráfica inicialmente se concentraram no uso de codificadores gráficos para modelos de linguagem, com métodos como o BLIP usando conversores de consulta legíveis para conectar domínios visuais a linguagens. Os primeiros métodos, como a técnica de amostragem de 8 quadros do Video-LLaVA, selecionavam corretamente um número fixo de quadros, mas apresentavam dificuldades no processamento de vídeos longos. Técnicas avançadas como LongVU e Kangaroo desenvolveram métodos de compressão adaptativos para reduzir tokens visuais em todas as escalas espaciais e temporais. No entanto, os modelos atuais ainda enfrentam grandes desafios na captura e representação precisa de nuances temporais no conteúdo de vídeo.
Até agora, pesquisadores da Meituan Inc. propuseram o TimeMarker, um novo modelo de linguagem de vídeo projetado para enfrentar os desafios de localização temporal na compreensão de vídeo. TimeMarker apresenta novas técnicas para melhorar a percepção semântica e a consciência temporal do conteúdo de vídeo. O modelo inclui tokens Separadores Temporais para marcar com precisão momentos específicos em vídeos e usa o método AnyLength para amostrar quadros dinâmicos. O TimeMarker pode processar com eficiência sequências de vídeo curtas e longas usando tokenização dinâmica. Além disso, ele usa vários conjuntos de dados, incluindo conjuntos de dados de resposta a consultas de vídeo relacionados ao tempo, para melhorar a compreensão das nuances temporais do modelo.
A arquitetura TimeMarker é fundamentalmente baseada na estrutura LLaVA, usando um Vision Encoder para processar quadros de vídeo e um projetor de modalidade cruzada para traduzir tokens visuais em um ambiente de linguagem. O modelo apresenta dois componentes principais da invenção: integração de caracteres do separador temporal e o método AnyLength. Os Tokens Separadores Temporais são integrados de forma inteligente com tokens de quadro de vídeo, permitindo que o LLM reconheça e codifique áreas temporais completas dentro de um vídeo. O método AnyLength acoplado ao módulo Adaptive Token Merge permite que o modelo lide com vídeos de diferentes durações de forma eficiente. Essa abordagem garante uma compreensão temporal flexível e precisa de todos os tipos de conteúdo de vídeo.
O TimeMarker mostra desempenho excepcional em uma variedade de tarefas cognitivas temporais. Os pesquisadores incluíram resultados de testes de vídeo curtos e padrão, testes de vídeo longos e os efeitos dos tokens do Separador Temporal. O modelo demonstra consciência temporal superior em testes experimentais, identificando com precisão os dígitos do relógio, detectando eventos específicos e raciocinando sobre contextos temporais em conversas multissessões a partir de um vídeo de registro de vida de 2 minutos. Ele aponta com precisão para os dígitos do relógio, encontra eventos relevantes e consulta sobre algo estranho. Além disso, o TimeMarker pode executar operações de OCR sequencialmente dentro de um intervalo de tempo especificado.
Neste artigo, pesquisadores da Meituan Inc. apresentaram o TimeMarker, que representa um grande avanço em modelos de linguagem de vídeo, abordando desafios importantes na localização temporal e na compreensão do vídeo. Ao introduzir tokens do Separador Temporal e o método AnyLength, o modelo registra efetivamente localizações temporais e se adapta a vídeos de durações variadas. Sua abordagem inovadora permite detecção precisa de eventos, raciocínio temporal e análise de vídeo abrangente para todos os tipos de conteúdo. O alto desempenho do modelo em vários benchmarks demonstra sua capacidade de transformar interações de linguagem de vídeo, estabelecendo um novo nível de compreensão temporal em sistemas de IA multimodais.
Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)