Os motores de busca tradicionais dependem fortemente de consultas baseadas em texto, limitando a sua capacidade de processar e interpretar as informações cada vez mais complexas disponíveis hoje na Internet. A maioria dos sites modernos inclui texto e imagens. No entanto, continua a faltar a capacidade dos motores de busca tradicionais para lidar com estas consultas multimodais, que requerem a compreensão do conteúdo visual e textual. Modelos de linguagem em larga escala (LLMs) têm se mostrado muito promissores na melhoria da precisão dos resultados da pesquisa de texto. No entanto, eles ainda falham ao responder completamente a perguntas que incluem imagens, vídeos ou outras mídias não textuais.
Um dos maiores desafios na tecnologia de pesquisa é preencher a lacuna entre a forma como os motores de pesquisa processam dados de texto e a necessidade crescente de interpretar informações visuais. Os usuários hoje muitas vezes procuram respostas que exigem mais do que texto; eles podem fazer upload de imagens ou capturas de tela, esperando que a IA encontre o conteúdo certo com base nessas informações. No entanto, os atuais motores de pesquisa de IA continuam orientados para o texto e precisam de ajuda para compreender a profundidade das relações texto-imagem que podem melhorar a qualidade e a relevância dos resultados da pesquisa. Esta limitação prejudica a eficiência de tais motores e evita que sejam mais compactos, principalmente nos casos em que o contexto visual é tão importante quanto o conteúdo textual.
Os métodos atuais de integração de pesquisa multimodal ainda precisam ser mais integrados. Embora ferramentas como o Google Lens possam realizar pesquisas rudimentares de imagens, elas devem integrar efetivamente a visualização de imagens com extensas pesquisas de dados da web. A lacuna entre a renderização de representações visuais e a conexão delas com resultados relevantes baseados em texto limita todo o potencial dos mecanismos de pesquisa baseados em IA. Além disso, o desempenho destas ferramentas é ainda melhorado pela necessidade de processamento em tempo real de consultas multimodais. Apesar do rápido desenvolvimento dos LLMs, ainda existe a necessidade de um mecanismo de busca que possa processar texto e imagens de maneira unificada.
Uma equipe de pesquisadores do CUHK MMLab, ByteDance, CUHK MiuLar Lab, Shanghai AI Laboratory, Peking University, Stanford University e Sensetime Research apresentou Mecanismo de busca MMSearch. Esta nova ferramenta muda o cenário de pesquisa, permitindo que qualquer LLM lide com consultas de pesquisa multimodais. Ao contrário dos motores convencionais, o MMSearch inclui um pipeline integrado que processa entradas textuais e visuais simultaneamente. Os pesquisadores desenvolveram este sistema para melhorar a forma como os LLMs lidam com a complexidade dos dados multimodais, melhorando assim a precisão dos resultados da pesquisa. O MMSearch Engine foi projetado para reprocessar as consultas dos usuários, analisar sites relevantes e resumir as respostas mais informativas com base em textos e imagens.
O mecanismo MMSearch é baseado em um processo de três etapas projetado para solucionar as deficiências das ferramentas existentes. Primeiro, o mecanismo converte as consultas em um formato adequado aos mecanismos de busca. Por exemplo, se uma consulta incluir uma imagem, o MMSearch traduz os dados visuais em consultas de texto significativas, facilitando a interpretação dos LLMs. Em segundo lugar, reordena os sites encontrados pelo motor de busca, priorizando aqueles que fornecem a informação mais relevante. Por fim, o sistema resume o conteúdo combinando dados visuais e textuais, garantindo que a resposta cubra todos os aspectos da questão. Notavelmente, esta interface multicamadas garante uma experiência de pesquisa robusta para usuários que precisam de resultados baseados em imagens e texto.
Em termos de desempenho, o MMSearch Engine apresenta melhorias significativas em relação às ferramentas de pesquisa existentes. Os pesquisadores testaram o programa em 300 questões cobrindo 14 subcampos, incluindo tecnologia, esportes e finanças. O MMSearch superou o Perplexity Pro, o principal mecanismo de pesquisa comercial de IA. Por exemplo, a versão melhorada do MMSearch para GPT-4o alcançou pontuações muito altas em tarefas de pesquisa multiespécies. O Perplexity Pro passou no teste final, especialmente por sua capacidade de lidar com questões complexas baseadas em imagens. Em 14 subcampos, o MMSearch hospeda mais de 2.900 imagens exclusivas, garantindo que os dados fornecidos sejam relevantes e correspondam bem à consulta.
Os resultados detalhados do estudo mostram que o GPT-4o instalado pelo MMSearch alcançou uma pontuação significativa de 62,3% no tratamento de consultas multimodais. Essa atividade incluiu questionamentos, reposicionamentos e sínteses de conteúdos a partir de textos e imagens. Um conjunto abrangente de dados, coletados de diversas fontes, foi projetado para remover qualquer informação que pudesse se sobrepor ao conhecimento anterior do LLM, garantindo que os testes se concentrassem exclusivamente na capacidade do mecanismo de processar novos dados em tempo real. Além disso, o MMSearch superou o Perplexity Pro em tarefas de reordenação, mostrando sua alta capacidade de classificar sites com base em conteúdo multimodal.
Concluindo, o MMSearch Engine representa um grande avanço na tecnologia de busca multimodal. Ao abordar as limitações das consultas apenas de texto e ao introduzir um sistema robusto para gerir dados textuais e visuais, os investigadores forneceram uma ferramenta que poderia potencialmente remodelar a forma como os motores de pesquisa de IA funcionam. O sucesso do sistema no processamento de mais de 2.900 imagens e na geração de resultados de pesquisa precisos para todas as 300 consultas exclusivas demonstra seu potencial em ambientes educacionais e comerciais. A combinação de dados de imagem com recursos avançados de LLM levou a melhorias significativas de desempenho, posicionando o MMSearch como a solução líder para a próxima geração de mecanismos de pesquisa de IA.
Confira Papel de novo O projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)
Sana Hassan, consultora da Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)