Os modelos linguísticos omnimodais (OLMs) são uma área de IA em rápido desenvolvimento que permite a compreensão e o raciocínio em vários tipos de dados, incluindo texto, áudio, vídeo e imagens. Esses modelos visam simular a cognição humana, processando múltiplas entradas simultaneamente, tornando-os particularmente úteis em aplicações complexas do mundo real. A investigação neste campo procura criar sistemas de IA que possam integrar perfeitamente estes vários tipos de dados e gerar respostas precisas em diferentes tarefas. Isto representa um avanço na forma como os sistemas de IA interagem com o mundo, tornando-os mais compatíveis com as interações humanas, onde a informação raramente é unilateral.
Um desafio constante no desenvolvimento de OLMs é o seu desempenho consistente quando se trata de instalações multimodais. Por exemplo, um modelo pode precisar analisar dados que incluem texto, imagens e áudio para concluir uma tarefa em situações do mundo real. Porém, muitos modelos atuais necessitam de assistência na montagem desses recursos. O principal problema reside na incapacidade destes programas de considerar integralmente todos os métodos, o que leva a diferenças nos seus resultados. Em muitos casos, os modelos produzem respostas diferentes quando apresentadas às mesmas informações em formatos diferentes, como um problema de matemática exibido como uma imagem versus um problema falado em voz alta como áudio.
Os benchmarks existentes para OLMs são geralmente limitados a combinações bidirecionais simples, como texto e imagens ou vídeo e texto. Estes testes devem avaliar toda a gama de competências exigidas em aplicações do mundo real, muitas vezes envolvendo situações complexas. Por exemplo, muitos modelos atuais apresentam bom desempenho ao lidar com tarefas de dupla modalidade. No entanto, devem melhorar quando solicitados a pensar em combinações de três ou mais métodos, como combinar vídeo, texto e áudio para encontrar uma solução. Essa limitação cria uma lacuna no teste de quão bem esses modelos entendem e interagem com vários tipos de dados.
Pesquisadores do Google DeepMind, do Google e da Universidade de Maryland desenvolveram Omni×Ruma nova estrutura experimental projetada para testar rigorosamente as capacidades conceituais dos OLMs. Este quadro é único na medida em que apresenta desafios multimodais complexos. Omni×R testa modelos usando cenários onde deve integrar vários tipos de dados, como responder perguntas que exigem considerar todos os textos, imagens e áudio simultaneamente. A estrutura inclui dois conjuntos de dados:
- Omni×Rsynth é um conjunto de dados sintético criado pela conversão automática de texto para outros formatos.
- Omni×Real é um conjunto de dados do mundo real cuidadosamente selecionado de fontes como o YouTube.
Esses conjuntos de dados fornecem um ambiente de teste mais amplo e desafiador do que os benchmarks anteriores.
Omni×Rsynth, o componente sintético da estrutura, foi projetado para levar os modelos ao seu limite, convertendo texto em imagens, vídeo e áudio. Por exemplo, a equipe de pesquisa desenvolveu Omnify!, uma ferramenta para traduzir texto em vários métodos, para criar um conjunto de dados de 1.400 amostras espalhadas por seis campos, incluindo matemática, física, química e ciência da computação. Cada seção inclui 100 exemplos de seis modos, texto, imagem, vídeo, áudio, vídeo+áudio e imagem+áudio, modelos desafiadores para lidar com combinações de entrada complexas. Os pesquisadores usaram este conjunto de dados para testar vários OLMs, incluindo Gemini 1.5 Pro e GPT-4o. Os resultados destes testes revelaram que os modelos atuais sofrem uma degradação significativa do desempenho quando solicitados a combinar informações de diferentes fontes.
Omni×Rreal, um conjunto de dados do mundo real, apresenta 100 vídeos que cobrem tópicos como matemática e ciências, onde as questões são apresentadas de diferentes maneiras. Por exemplo, um vídeo pode mostrar visualmente um problema de matemática enquanto as opções de resposta são faladas em voz alta, exigindo que o modelo integre informações visuais e auditivas para resolver o problema. As condições do mundo real também destacaram a dificuldade dos modelos em inferir métodos generalizados, uma vez que os resultados mostraram inconsistências semelhantes às observadas no conjunto de dados sintéticos. Notavelmente, os modelos que tiveram um bom desempenho na entrada de texto experimentaram uma queda significativa na precisão quando encarregados de inserir vídeo ou áudio.
A equipe de pesquisa conduziu testes extensivos e encontrou vários insights importantes. Por exemplo, o modelo Gemini 1.5 Pro teve um bom desempenho na maioria dos critérios, com precisão de reconhecimento de texto de 77,5%. Porém, seu desempenho caiu para 57,3% para vídeo e 36,3% para entrada de imagem. Em contraste, o GPT-4o mostrou melhores resultados no tratamento de tarefas de texto e imagem, mas teve dificuldades com vídeo, mostrando uma queda de desempenho de 20% quando encarregado de combinar dados de texto e vídeo. Isto sublinha os desafios de alcançar um desempenho consistente em múltiplos canais, um passo importante no desenvolvimento de capacidades OLM.
Os resultados do benchmark Omni×R revelam diversas tendências notáveis nos diferentes OLMs. Uma das observações mais importantes é que mesmo os modelos mais avançados, como o Gemini e o GPT-4o, alteram significativamente as suas capacidades de pensamento em todas as direções. Por exemplo, o modelo Gemini alcançou 65% de precisão ao processar áudio, mas seu desempenho caiu para 25,9% ao combinar dados de vídeo e áudio. Da mesma forma, o modelo GPT-4o-mini, apesar do seu excelente desempenho em tarefas baseadas em texto, tem dificuldades com vídeo, mostrando uma lacuna de desempenho de 41% em comparação com tarefas baseadas em texto. Esta disparidade destaca a necessidade de mais investigação e desenvolvimento para colmatar a lacuna nas diferentes capacidades cognitivas.
As descobertas do benchmark Omni×R apontam para várias conclusões importantes que ressaltam as limitações atuais e as direções futuras da pesquisa OLM:
- Modelos como o Gemini e o GPT-4o funcionam bem com texto, mas têm dificuldades para pensar de várias maneiras.
- Existe uma lacuna significativa de desempenho entre o tratamento de entradas baseadas em texto e tarefas multimodais complexas, especialmente quando vídeo ou áudio estão envolvidos.
- Modelos maiores geralmente apresentam melhor desempenho em todos os métodos, mas modelos menores podem, às vezes, superar determinadas tarefas, indicando uma compensação entre o tamanho do modelo e a flexibilidade.
- O conjunto de dados sintético (Omni×Rsynth) simula com precisão os desafios do mundo real, tornando-o uma ferramenta importante para o desenvolvimento futuro de modelos.
Concluindo, a estrutura Omni×R apresentada pela equipe de pesquisa fornece um passo importante na exploração e desenvolvimento das capacidades de pensamento dos OLMs. Ao testar rigorosamente os modelos através de uma variedade de abordagens, o estudo revelou os principais desafios que devem ser abordados para desenvolver sistemas de IA capazes de raciocínio semelhante ao humano em muitos aspectos. A degradação do desempenho observada em tarefas que envolvem integração de vídeo e áudio destaca a complexidade da abordagem multivariada e aponta para a necessidade de técnicas e modelos de treinamento mais avançados para lidar com dados multimodais complexos do mundo real.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️