Os Modelos de Visão-Linguagem (VLMs) estão sendo cada vez mais usados para responder perguntas sobre conteúdo visual. Apesar do progresso, muitas vezes sofrem de um grande problema: produzir respostas sonoras, mas incorretas, também conhecidas como alucinações. Estas alucinações podem levar à desconfiança nestes sistemas, especialmente em aplicações de alto desempenho do mundo real. Avaliar a utilidade e a validade das respostas geradas pelo VLM é um desafio porque requer não apenas a compreensão do conteúdo que está sendo visualizado, mas também a verificação de cada afirmação feita na resposta. Os benchmarks tradicionais não têm sido adequados para enfrentar este desafio, quer porque limitam a análise a questões simples e binárias, quer porque se baseiam num contexto incompleto para julgar respostas abertas.
Pesquisadores da Salesforce AI Research propuseram a Avaliação VLM Programática (PROVE), um novo paradigma de avaliação que avalia as respostas VLM a questões visuais abertas. No PROVE, os pesquisadores usam uma representação gráfica de cena de alta fidelidade construída com legendas de imagens detalhadas e usam um modelo de linguagem em larga escala (LLM) para gerar pares de consulta distintos (QA) e programas de validação executáveis para cada par de QA. Essa abordagem permite a criação de um conjunto de dados de benchmark de 10,5 mil com base em pares de controle de qualidade visuais e desafiadores. A estratégia de avaliação envolveu medir a utilidade e a validade das respostas do VLM usando uma estrutura composta baseada em comparações de gráficos de cenas. Este teste padronizado fornece uma avaliação mais confiável e interpretável do desempenho do VLM em comparação com medições anteriores.
O benchmark PROVE usa representações detalhadas de gráficos de cena e programas executáveis para verificar a exatidão das respostas do VLM. Os gráficos de cena, compostos por legendas de imagens detalhadas, contêm entidades, atributos e relacionamentos que representam uma cena visual. Ao solicitar um LLM, os pesquisadores produzem pares de programas de controle de qualidade abertos e programas de validação correspondentes que garantem que as perguntas sejam desafiadoras, mas verificáveis. Somente pares de controle de qualidade que podem ser verificados programaticamente são mantidos no benchmark, resultando em um conjunto de dados de alta qualidade. O teste envolve a extração de representações gráficas de cena das respostas do modelo e das respostas verdadeiras e, em seguida, a pontuação com base na lembrança e na precisão dessas representações, avaliando o quão úteis e verdadeiras são as respostas.
Resultados experimentais mostram que os VLMs atuais lutam para encontrar um bom equilíbrio entre utilidade e precisão. Modelos como GPT-4o, Phi-3.5-Vision e Pixtral apresentaram altas pontuações de assistência, mas não a maior veracidade. O estudo também descobriu que aumentar o tamanho dos modelos muitas vezes melhora a utilidade, mas nem sempre melhora a precisão. O teste de vários modelos revelou que melhorias recentes no treinamento de melhores VLMs levaram a uma maior utilidade, mas não se traduziram em resultados verdadeiros. Notavelmente, a série de modelos LLaVA-1.5 alcançou altas pontuações de precisão, indicando que modelos menores e mais focados podem superar os maiores na manutenção da precisão.
Concluindo, PROVE representa um avanço importante na avaliação da utilidade e validade das respostas geradas pelo VLM. Ao usar representações gráficas detalhadas da cena e validação programática, este benchmark fornece uma estrutura de teste mais confiável e interpretável. As descobertas sublinham a necessidade de VLMs que encontrem um equilíbrio entre a geração de respostas informativas e precisas, especialmente à medida que a sua utilização em aplicações do mundo real continua a crescer. Espera-se que pesquisas futuras se concentrem na melhoria da utilidade e da validade desses modelos, utilizando técnicas avançadas de treinamento e novas técnicas de teste.
Confira Cartão e conjunto de dados. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️