Modelos de linguagem visual em larga escala (LVLMs) mostraram capacidades notáveis para capturar e raciocinar sobre entradas multimodais e podem processar imagens e texto. Embora o LVLM seja impressionante na compreensão e interpretação de conteúdos visuais, por vezes enfrenta desafios devido a inconsistências entre os seus componentes visuais e linguísticos. Isso acontece porque o componente gráfico e o componente de processamento de linguagem podem ter informações armazenadas diferentes, levando a um conflito entre suas saídas. Verificou-se também que, quando questionado sobre o mesmo negócio apresentado de duas formas diferentes, o LVLM dá duas respostas contraditórias. Este conflito de informações paramétricas entre modalidades é perigoso, pois interfere no desempenho do LVLM.
Em Modelos de Linguagem Visual de Grande Escala (LVLMs), os métodos atuais demonstraram capacidades na interpretação de entradas multimodalidade, mas enfrentam desafios, pois as informações dos parâmetros de modalidade cruzada criam inconsistências. A investigação existente concentrou-se na expansão dos componentes de cada modelo, mas não enfatizou este conflito. Este artigo é o primeiro trabalho desse tipo a descrever e estudar conflitos de informações paramétricas entre modalidades em LVLMs, embora cite muitos estudos e conjuntos de dados que contribuíram para a compreensão e solução desses problemas.
Uma equipe de pesquisadores da Universidade da Califórnia (Davis), da Universidade Fadan, da Universidade do Sul da Califórnia e da Universidade Texas A&M fez método de decodificação contrastiva dinâmica (DCD). resolução de conflitos de informações paramétricas entre modalidades em modelos de linguagem de visão ampla (LVLMs). Desta forma, o conceito de gravação reversa é usado, onde predicados redundantes (textos) são removidos dos predicados originais para reduzir conflitos. EU decodificação contrastiva dinâmica (DCD) método modifica este processo adicionando responda com confiança como um recurso para ajudar a ajustar as previsões. Essa abordagem muda a forma como a codificação reversa funciona, colocando a confiança no centro e ajuda a medir a diferença de informações entre texto e imagens com mais precisão. Como nem todos os modelos fornecem registros do conteúdo gerado, os pesquisadores também introduziram duas técnicas de otimização de base rápida (ou seja, lembrete, informações de resposta) para esses modelos.
Em termos de desempenho, o método mostrou bons resultados em conjuntos de dados semelhantes ViQuAE de novo Busca de informações. Nos testes, melhorou a precisão em 2,36% no conjunto de dados ViQuAE e 2,12% no conjunto de dados InfoSeek quando testado em Modelo LLaVA-34B.
Concluindo, este artigo de pesquisa introduziu o conceito de colisão de informações paramétricas entre modalidades em LVLMs. Propôs um método sistemático para detectar estes conflitos, que revelou um elevado nível de conflito que persistiu em todos os tamanhos de modelo. Os resultados mostram que a simples criação de modelos não resolve estes conflitos, realçando a necessidade de estratégias de intervenção específicas. A decodificação diferencial dinâmica (DCD) remove logs não confiáveis para melhorar a precisão da resposta. Para os modelos que não têm acesso aos registos, duas estratégias baseadas em informações (isto é, informações de lembrete, informações de resposta) forneceram resultados dependendo do tamanho do modelo, concluindo assim que modelos maiores têm mais capacidade de compreender e reter as informações fornecidas para eles. No futuro, este método poderá ser aplicado a dados multimodais para aumentar sua precisão e melhorar sua produção.
Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Divyesh é estagiário de consultoria na Marktechpost. Ele está cursando BTech em Engenharia Agrícola e Alimentar pelo Instituto Indiano de Tecnologia, Kharagpur. Ele é um entusiasta de Ciência de Dados e Aprendizado de Máquina que deseja integrar essas tecnologias avançadas no domínio agrícola e resolver desafios.