Embora os modelos multimodais (LMMs) tenham avançado significativamente para tarefas de texto e imagem, os modelos baseados em vídeo permanecem subdesenvolvidos. Os vídeos são de natureza complexa, envolvendo dimensões espaciais e temporais que demandam mais recursos computacionais. Os métodos existentes muitas vezes se adaptam diretamente aos métodos baseados em imagens ou dependem da captura uniforme de quadros, que captura mal o movimento e os padrões temporais. Além disso, o treinamento de grandes modelos de vídeo é computacionalmente caro, dificultando a avaliação eficaz das escolhas de design.
Para resolver esses problemas, pesquisadores da Meta AI e de Stanford desenvolveram Apolouma família de LMMs orientados a vídeo, projetados para ampliar os limites da compreensão de vídeo. A Apollo aborda esses desafios por meio de decisões de design bem pensadas, melhorando a eficiência e estabelecendo novos padrões de referência para tarefas como pensamento momentâneo e respostas a perguntas baseadas em vídeo.
Meta AI apresenta Apollo: família de vídeo-LMM escalável
Meta IA Apolo Os modelos são projetados para processar vídeos de até uma hora de duração e, ao mesmo tempo, alcançar um excelente desempenho em todas as tarefas importantes de linguagem de vídeo. Apollo vem em três tamanhos – 1,5B, 3Bde novo Parâmetros 7B – fornecendo flexibilidade para atender a diversas restrições de computação e necessidades do mundo real.
Métodos inovadores incluem:
- Estimando consistência: Foi demonstrado que as escolhas de design feitas em modelos pequenos são transferidas com sucesso para modelos grandes, reduzindo a necessidade de testes em grande escala.
- Amostragem quadro por segundo (fps): Um método mais eficiente de amostragem de vídeo em comparação à amostragem dos mesmos quadros, garantindo melhor consistência temporal.
- Codificadores duplos: A combinação do SigLIP para inferência espacial com o InternVideo2 para inferência temporal permite uma representação equilibrada de dados de vídeo.
- Banco Apollo: um conjunto de benchmarks selecionado que reduz a redundância nos testes e, ao mesmo tempo, fornece insights detalhados sobre o desempenho do modelo.
Destaques técnicos e benefícios
Os modelos Apollo são construídos em torno de uma série de opções de design bem pesquisadas que visam superar os desafios dos LMMs baseados em vídeo:
- Amostragem de quadros por segundo: Ao contrário da amostragem de quadros paralelos, a amostragem fps mantém um fluxo temporal consistente, permitindo que o Apollo entenda melhor o movimento, a velocidade e a sequência de eventos nos vídeos.
- Estimando consistência: Os experimentos mostram que a seleção de modelos realizada em modelos de tamanho médio (parâmetros 2B-4B) generaliza bem para modelos grandes. Essa abordagem reduz os custos computacionais enquanto mantém os benefícios de desempenho.
- Codificadores duplos: O Apollo usa dois codificadores paralelos: SigLIP, que se destaca na resolução espacial, e InternVideo2, que melhora a resolução temporal. Seu poder combinado produz apresentações de vídeo mais precisas.
- Reamostragem de token: Usando o Perceiver Resampler, o Apollo descompacta efetivamente os tokens de vídeo sem perder informações. Isso permite que os modelos processem vídeos longos sem sobrecarga computacional excessiva.
- Treinamento Personalizado: o Apollo usa um processo de treinamento de três estágios em que os codificadores de vídeo são ajustados aos dados de vídeo antes de serem mesclados com conjuntos de dados de texto e imagem. Este método de preparação garante um aprendizado estável e bem-sucedido.
- Entrevistas multi-oportunidades: Os modelos Apollo podem suportar conversas interativas em várias sessões baseadas em conteúdo de vídeo, tornando-os ideais para aplicações como sistemas de bate-papo baseados em vídeo ou análise de conteúdo.
Detalhes de desempenho
O poder da Apollo é confirmado por fortes resultados em muitos benchmarks, muitas vezes superando modelos maiores:
- Apolo-1.5B:
- Supera modelos como Phi-3.5-Vision (4.2B) e LongVA-7B.
- Pontuações: 60,8 em Vídeo-MME, 63,3 na MLVU, 57,0 no ApolloBench.
- Apolo-3B:
- Compete e supera muitos modelos 7B.
- Pontuações: 58,4 em Vídeo-MME, 68,7 na MLVU, 62,7 no ApolloBench.
- Ele consegue 55.1 no LongVideoBench.
- Apolo-7B:
- Ele iguala e até supera modelos com mais de 30B parâmetros, como Oryx-34B e VILA1.5-40B.
- Pontuações: 61,2 em Vídeo-MME, 70,9 na MLVU, 66,3 no ApolloBench.
Resumo de referência:
A conclusão
Apollo marca um passo significativo no desenvolvimento de vídeo-LMM. Ao abordar desafios importantes, como amostragem de vídeo eficiente e estimativa de modelo, o Apollo fornece uma solução eficiente e poderosa para a compreensão do conteúdo de vídeo. Sua capacidade de superar modelos maiores destaca a importância de técnicas de design e treinamento bem pesquisadas.
A família Apollo oferece soluções práticas para aplicações do mundo real, desde consultas baseadas em vídeo até análise de conteúdo e aplicações interativas. É importante ressaltar que a introdução do Meta AI para Banco Apollo fornece uma referência simplificada e eficiente para avaliação de vídeo-LMM, abrindo caminho para pesquisas futuras.
Confira eu Papel, Site, Demonstração, código, de novo Modelos. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)