Um dos desafios mais urgentes na avaliação de Modelos de Visão-Linguagem (VLMs) está relacionado à falta de benchmarks abrangentes que testem todo o espectro de capacidades do modelo. Isto ocorre porque a maioria das análises existentes são limitadas por se concentrarem apenas numa parte das tarefas relevantes, como visualizar ou responder a perguntas, em detrimento de aspectos críticos como justiça, multilinguismo, preconceito, robustez e segurança. Sem testes completos, o desempenho dos modelos pode ser bom para algumas tarefas, mas falhar miseravelmente em outras relacionadas à sua implantação prática, especialmente em aplicações críticas do mundo real. Portanto, há uma grande necessidade de testes quantitativos e abrangentes que sejam eficazes o suficiente para garantir que os VLMs sejam robustos, corretos e seguros em todos os diferentes ambientes de trabalho.
Os métodos atuais de teste de VLMs incluem tarefas discretas, como legendagem de imagens, VQA e geração de imagens. Benchmarks como A-OKVQA e VizWiz se especializam no desempenho limitado dessas funções, não capturando todo o potencial do modelo para produzir resultados consistentes, consistentes e robustos. Tais métodos geralmente possuem regras de avaliação diferentes; portanto, as comparações entre diferentes VLMs não podem ser feitas igualmente. Além disso, muitos deles são criados pela omissão de características importantes, como preconceitos nas previsões relativas a atributos sensíveis, como raça ou género, e o seu desempenho em diferentes idiomas. Estes são os factores limitantes para fazer um julgamento prático sobre as capacidades globais do modelo e se este está pronto para implantação geral.
Pesquisadores da Universidade de Stanford, Universidade da Califórnia, Santa Cruz, Hitachi America, Ltd., Universidade da Carolina do Norte, Chapel Hill e Equal Contribution propuseram o VHELM, abreviação de Avaliação Abrangente da Percepção da Linguagem, como uma extensão da estrutura HELM para avaliação abrangente de VLMs. O VHELM aborda especificamente onde a escassez de benchmarks existentes termina: combinando vários conjuntos de dados onde avalia nove fatores-chave – percepção visual, conhecimento, raciocínio, preconceito, justiça, multilinguismo, robustez, toxicidade e segurança. Ele permite a coleta de conjuntos de dados tão diversos, procedimentos de teste padronizados para permitir resultados bem comparáveis entre modelos e possui um design leve e automatizado para acessibilidade e velocidade em testes VLM abrangentes. Isso fornece informações valiosas sobre os pontos fortes e fracos dos modelos.
O VHELM examina 22 VLMs proeminentes usando 21 conjuntos de dados, cada um mapeado para um ou mais dos nove domínios experimentais. Isso inclui benchmarks bem conhecidos, como questões relacionadas a imagens no VQAv2, questões baseadas em conhecimento no A-OKVQA e testes de toxicidade em Hateful Memes. O teste usa métricas estabelecidas, como 'Correspondência exata' e Prometheus Vision, como uma métrica que mede as previsões do modelo em relação aos dados reais. Os dados Zero-shot usados neste estudo imitam casos de uso do mundo real onde os modelos são solicitados a responder a tarefas para as quais não foram especificamente treinados; ter uma medida imparcial de habilidades de generalização é garantido. O trabalho de pesquisa testa os modelos em mais de 915.000 cenários, por isso é estatisticamente significativo medir o desempenho.
A comparação de 22 VLMs em nove dimensões mostra que nenhum modelo é superior em todas as medições, portanto ao custo de algumas compensações de desempenho. Modelos de desempenho como o Claude 3 Haiku mostram uma grande falha na medição de viés em comparação com outros modelos completos, como o Claude 3 Opus. Embora o GPT-4o, versão 0513, tenha alto desempenho em robustez e raciocínio, comprovando alto desempenho de 87,5% em algumas tarefas de resposta visual a perguntas, ele apresenta limitações em lidar com vieses e segurança. Em geral, modelos com API fechada são melhores que aqueles com pesos abertos, principalmente em termos de raciocínio e conhecimento. No entanto, também apresentam lacunas em termos de justiça e pluralismo. Na maioria dos modelos, há apenas sucesso parcial em termos de detecção de venenos e tratamento de imagens que saem da distribuição. Os resultados revelam muitos pontos fortes e relativos pontos fracos de cada modelo e a importância de um sistema de avaliação abrangente como o VHELM.
Concluindo, o VHELM ampliou enormemente a avaliação de modelos de visão-linguagem, fornecendo uma estrutura abrangente que avalia o desempenho do modelo em nove dimensões principais. Medir métricas analíticas, diversidade de conjuntos de dados e comparações em termos de VHELM permite obter uma compreensão completa do modelo em termos de robustez, correção e segurança. Esta é uma abordagem revolucionária para testes de IA que permitirá que futuros VLMs se adaptem a aplicações do mundo real com uma confiança sem precedentes em sua confiabilidade e desempenho comportamental.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.