HBI V2: uma estrutura de IA adaptativa para aprendizagem de idiomas em vídeo com jogabilidade cooperativa multivariada

O estudo da representação linguística de vídeo é uma parte importante do estudo da representação multimodal que se concentra na relação entre os vídeos e seus significados textuais associados. Seu uso é testado em diversas áreas, desde resposta a consultas e recuperação de texto até resumo. A este respeito, a aprendizagem inversa emergiu como uma técnica poderosa que melhora a aprendizagem de línguas por vídeo, permitindo que as redes aprendam representações discriminativas. Aqui, interações semânticas globais entre pares de texto de vídeo predefinidos são usadas para aprendizagem.

Um grande problema com este método é que ele subestima a qualidade do modelo nas operações posteriores. Esses modelos normalmente usam semântica de texto de vídeo para realizar o alinhamento aproximado de recursos. Portanto, os modelos de vídeo adversários são incapazes de alinhar anotações bem incorporadas que capturem as sutilezas e interpretações do vídeo. Uma abordagem passiva para resolver este problema de boa anotação seria criar um grande conjunto de dados de anotações de alta qualidade, que infelizmente não está disponível, especialmente para modelos de linguagem visual. Este artigo discute pesquisas recentes que resolvem o problema do alinhamento preciso com um jogo.

Pesquisadores da Universidade de Pequim e do Laboratório Pengcheng apresentam um método hierárquico de interação Banzhaf para resolver problemas de alinhamento na aprendizagem de representações de linguagem de vídeo comum, simulando-o como um jogo cooperativo multidimensional. Os autores projetaram este jogo com vídeo e texto criados pelos jogadores. Para este efeito, recolheram um conjunto de representações múltiplas como uma coligação e utilizaram a Interacção Banzhaf, um índice de interacção da teoria dos jogos, para medir o nível de cooperação entre os membros da coligação.

A equipe de pesquisa continua seu documento de conferência com uma estrutura para aprender sobre a Interação Hierárquica Banzhaf, na qual eles usaram semântica intermodal para medir o desempenho dos jogadores em um jogo cooperativo de vídeo-texto. Neste artigo, os autores propõem o HBI V2, que utiliza representações unimodais e intermodais para reduzir o viés no Índice Banzhaf e melhorar o aprendizado de idiomas por vídeo. No HBI V2, os autores reconstroem representações de jogos combinando representações únicas e intermodais, dimensionadas dinamicamente para garantir granularidade fina de representações individuais, mantendo a interoperabilidade intermodal.

Em termos de impacto, o HBI V2 supera o HBI em sua capacidade de executar uma variedade de tarefas posteriores, desde recuperação de texto e vídeo até VideoQA e legendagem de vídeo. Para conseguir isso, os autores modificaram sua estrutura anterior em uma estrutura flexível de codificador-decodificador, onde o decodificador é adaptado para tarefas específicas.

Esta estrutura HBI V2 é dividida em três submódulos: Representação-Reconstrução, Módulo HBI e Cabeçalhos de previsão específicos de tarefas. O primeiro módulo facilita a integração de componentes separados e distintos. A equipe de pesquisa utilizou o CLIP para gerar ambas as apresentações. Para entrada de vídeo, a sequência de quadros é codificada em incorporação com ViT. Esta integração ajudou a superar os problemas da codificação dinâmica, mantendo ao mesmo tempo a granularidade e a adaptabilidade inerentes. No módulo HBI, os autores modelaram o roteiro do vídeo como jogadores em um jogo cooperativo multivariado para lidar com a incerteza durante interações bem analisadas. Os dois primeiros módulos proporcionam flexibilidade na estrutura, permitindo que o terceiro módulo seja projetado para uma tarefa específica sem exigir integração complexa de vários métodos ou estágios lógicos.

No artigo, o HBI V2 foi testado em vários conjuntos de dados de recuperação de texto e vídeo, controle de qualidade de vídeo e legenda de vídeo com a ajuda de várias métricas relevantes para cada um. Surpreendentemente, o método proposto superou o seu antecessor e todos os outros métodos em todas as tarefas abaixo. Além disso, a estrutura obteve melhorias significativas em relação ao HBI nos conjuntos de dados MSVD-QA e ActivityNet-QA, que testaram seus recursos de resposta a consultas. Em termos de reprodutibilidade e previsibilidade, o tempo de aquisição foi de 1 segundo para todos os dados do teste.

Conclusão: O método proposto foi utilizado de forma única e eficaz pela Banzhaf Interaction para fornecer rótulos bem decorados para relacionamentos de vídeo-texto sem anotações manuais. O HBI V2 expandiu o HBI anterior para incluir a granularidade de uma representação única em uma representação heterogênea. Esta estrutura mostrou altura e flexibilidade para realizar várias operações descendentes.

Confira eu Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.

✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)

Source link

Você também pode gostar...

Fireworks AI lança f1: um modelo composto de IA especializado em raciocínio complexo que supera GPT-4o e Claude 3.5 Sonnet em benchmarks de codificação, bate-papo e matemática

Promptfoo: uma ferramenta de IA para avaliação, avaliação e aplicações LLM para colaboração com a equipe vermelha

SpeechBrain: um kit de ferramentas de fala baseado em PyTorch

Deixe um comentário Cancelar resposta