MEGA Benchmark: um benchmark abrangente de IA que mede testes multiobjetivos em mais de 500 tarefas do mundo real a um custo gerenciável

Um grande desafio na avaliação de modelos de linguagem visual (VLMs) reside na compreensão de suas diversas capacidades em uma série de tarefas do mundo real. Os parâmetros de referência existentes muitas vezes não são exaustivos, centrando-se em pequenos conjuntos de funções ou formatos de resultados limitados, o que conduz a uma avaliação insuficiente de todo o potencial dos modelos. O problema se torna mais aparente ao avaliar novos modelos básicos multimodais que exigem testes abrangentes em todos os domínios de aplicação. Esses modelos exigem um conjunto de benchmarking que possa testar suas capacidades em uma variedade de cenários de entrada e saída, ao mesmo tempo que minimiza o custo computacional.

Uma equipe de pesquisadores do MEGA Bench Group apresenta o MEGA-Bench, um benchmark inovador e abrangente que dimensiona testes multimétodos para incluir mais de 500 tarefas do mundo real. O MEGA-Bench visa fornecer testes sistemáticos e de alta qualidade de modelos multimodais em entradas, saídas e requisitos de habilidades, cobrindo uma gama mais ampla de casos de uso do que os benchmarks anteriores. Ao contrário dos benchmarks anteriores que focavam em resultados padronizados, como questões de múltipla escolha, o MEGA-Bench aceita uma ampla variedade de resultados, como números, frases, código, LaTeX e JSON. Isto permite testes precisos das capacidades de produção e previsão, revelando excelentes detalhes do desempenho do modelo.

A estrutura do MEGA-Bench foi cuidadosamente desenhada para garantir uma cobertura ideal. Contém 505 atividades multimodais, selecionadas e explicadas por 16 colaboradores especializados. A taxonomia de referência inclui categorias como tipo de aplicação, tipo de entrada, formato de saída e requisitos de competências, garantindo a prestação de serviços diversificados e abrangentes. Para atender a ampla gama de resultados, foram desenvolvidas mais de 40 métricas, que proporcionam uma análise excelente e multidimensional das capacidades do modelo. O benchmark também apresenta uma ferramenta de visualização interativa para os usuários, que lhes permite avaliar os pontos fortes e fracos do modelo em diversas dimensões, tornando o MEGA-Bench uma ferramenta de avaliação mais eficaz em comparação aos benchmarks tradicionais.

Os resultados da execução do MEGA-Bench em vários VLMs de ponta destacaram algumas descobertas importantes. Entre os modelos carro-chefe, o GPT-4o superou os demais, incluindo o Claude 3.5, com pontuação 3,5% maior. Entre os modelos de código aberto, o Qwen2-VL alcançou o desempenho de classe mais alto, quase idêntico aos modelos proprietários e superou o segundo melhor modelo de código aberto em cerca de 10%. Dos modelos de desempenho, o Gemini 1.5 Flash foi considerado o de melhor desempenho geral, com alguns pontos fortes em tarefas relacionadas a interfaces de usuário e documentos. Outra visão era que os modelos proprietários se beneficiavam do estímulo da Cadeia de Pensamento, enquanto os modelos de código aberto lutavam para usá-lo de forma eficaz.

Concluindo, o MEGA-Bench representa um grande avanço na medição multimodal, fornecendo uma avaliação abrangente e refinada das capacidades dos modelos de linguagem visual. Ao oferecer suporte a uma variedade de entradas e saídas, bem como métricas de desempenho detalhadas, ele fornece uma avaliação mais significativa do desempenho dos modelos em tarefas do mundo real. Este benchmark permite que desenvolvedores e pesquisadores entendam e otimizem melhor os VLMs para aplicações práticas, estabelecendo um novo padrão para testes de modelos multimodais.

Confira Papel de novo O projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Source link

Você também pode gostar...

Pesquisadores da Microsoft revelam RadEdit: modelos de visão biomédica avaliam o estresse por meio da edição de imagens por difusão para eliminar preconceitos no conjunto de dados

pEBR: um novo modelo de recuperação probabilística incorporada para enfrentar os desafios da sub-recuperação de consultas principais e recuperação insignificante de consultas finais

Anthropic apresenta o soneto Claude 3.5: IA que entende texto, imagens e muito mais em PDFs

Deixe um comentário Cancelar resposta