NVIDIA AI apresenta MM-Shumeka: o primeiro recuperador multimodal que alcança resultados SOTA no benchmark multimodal M-BEIR
Inteligência artificial

NVIDIA AI apresenta MM-Shumeka: o primeiro recuperador multimodal que alcança resultados SOTA no benchmark multimodal M-BEIR


No mundo da recuperação de informação, uma das tarefas mais desafiadoras é criar um sistema que possa compreender e encontrar facilmente o conteúdo certo em diferentes formatos, como texto e imagens, sem perder a precisão. A maioria dos modelos de recuperação de última geração ainda funciona de uma maneira – seja recuperação de texto para texto ou de imagem para imagem – o que limita sua aplicabilidade a situações do mundo real, onde a informação chega em vários formatos. Esta limitação é particularmente evidente em aplicações complexas, como responder a questões visuais ou recuperar uma imagem de moda, onde são necessários texto e imagens para encontrar as respostas corretas. Portanto, a necessidade de um recuperador multimodal universal que possa lidar com texto, imagens e suas combinações de forma eficiente nunca foi tão grande. Os principais desafios incluem a dificuldade inerente de compreender a diversidade e de superar preconceitos entre abordagens individuais.

Os pesquisadores da NVIDIA se esforçaram para enfrentar esses desafios apresentando o MM-Embed, o primeiro retirador multimodal que alcançou resultados de última geração (SOTA) no benchmark multimodal M-BEIR e foi calculado entre os cinco melhores recuperadores no texto. . – Apenas benchmark de recuperação MTEB. O MM-Embed visa preencher a lacuna entre vários formatos de recuperação, permitindo uma experiência de pesquisa mais fluida que inclui conteúdo baseado em texto e imagem. Os pesquisadores ajustaram o MM-Embed usando o modelo de linguagem multimodal multimodal (MLLM) como um resumo do bi-codificador em 16 tarefas de recuperação e dez conjuntos de dados, mostrando sua versatilidade. Ao contrário de outros localizadores existentes, o MM-Embed não se limita a um tipo de dados, mas suporta consultas complexas do usuário que podem ser compostas por texto e imagens. Além disso, a introdução da mineração negativa forte com reconhecimento de modalidade desempenha um papel importante na melhoria da qualidade de detecção do MM-Embed, reduzindo o viés frequentemente visto em MLLMs.

A implementação técnica do MM-Embed inclui uma série de técnicas importantes destinadas a aumentar o desempenho de recuperação. O modelo usa uma arquitetura bi-codificadora para otimizar o processo de detecção, usando mineração negativa robusta de reconhecimento de caminho para reduzir os vieses que surgem ao lidar com dados de caminho misto. Em termos simples, esse método de mineração ajuda o modelo a se concentrar com mais precisão no meio de destino – seja texto, imagem ou uma combinação – melhorando assim sua capacidade de lidar com consultas de texto-imagem complexas. Além disso, o MM-Embed é continuamente ajustado para melhorar suas capacidades de recuperação de texto sem sacrificar seu poder em operações de múltiplos caminhos. Isso o torna eficiente em um conjunto diferente de situações, desde encontrar artigos da Wikipédia para responder a uma pergunta baseada em texto sobre uma imagem até encontrar imagens semelhantes com base em descrições complexas.

Este desenvolvimento é importante por vários motivos. Primeiro, o MM-Embed estabelece uma nova referência para recuperação multimodal com uma precisão média de recuperação de 52,7% para todas as tarefas M-BEIR, superando os modelos de última geração anteriores. Quando se trata de determinados domínios, o MM-Shumeka apresentou melhorias significativas, como uma precisão de recuperação (R@5) de 73,8% no conjunto de dados MSCOCO, o que mostra sua forte capacidade de compreender legendas de imagens complexas. Além disso, ao usar a reconstrução zero-shot usando LLMs multimodais, MM-Shumeka desenvolveu maior precisão de recuperação em situações que envolvem consultas complexas de texto-imagem, como responder a consultas visuais e tarefas de recuperação de imagens escritas. Notavelmente, o MM-Embed melhorou o nível de precisão na tarefa de recuperação de imagens CIRCO em mais de 7 pontos, demonstrando a eficácia de informar LLMs para reprogramação em situações desafiadoras do mundo real.

Concluindo, o MM-Embed representa um grande avanço na recuperação multimodal. Ao combinar e melhorar eficazmente as capacidades de recuperação de texto e imagem, abre caminho para motores de busca mais flexíveis e sofisticados que podem lidar com as diversas formas como as pessoas procuram informações no ambiente digital de hoje.


Confira Papel de novo O modelo do tamanho do rosto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *