Nos últimos anos, os modelos linguísticos multimodais de grande escala (MLLMs) revolucionaram as funções da linguagem visual, melhorando capacidades como legenda de imagens e detecção de objetos. No entanto, ao lidar com muitas imagens ricas em texto, mesmo modelos sofisticados enfrentam desafios significativos. A necessidade do mundo real de compreender e pensar sobre imagens ricas em texto é importante para aplicações como processamento de slides de apresentações, documentos digitalizados e resumos de páginas da web. Os MLLMs existentes, como LLaVAR e mPlug-DocOwl-1.5, muitas vezes não têm sucesso no tratamento de tais tarefas, principalmente devido a dois problemas principais: a falta de conjuntos de dados de alta qualidade para instruções de programação específicas para muitos cenários de imagem e a dificuldade de armazenamento. o equilíbrio certo entre a resolução da imagem e a duração da sequência visual. Enfrentar esses desafios é fundamental para o desenvolvimento de casos de uso reais, onde o conteúdo rico desempenha um papel fundamental.
Pesquisadores da Universidade de Notre Dame, do Tencent AI Seattle Lab e da Universidade de Illinois Urbana-Champaign (UIUC) apresentaram o Leopard: um modelo de linguagem em larga escala (MLLM) projetado especificamente para lidar com tarefas de linguagem visual que envolvem grandes quantidades de texto -imagens ricas. . O Leopard visa preencher a lacuna deixada pelos modelos atuais e se concentra em melhorar o desempenho em situações onde é importante compreender o relacionamento e o fluxo lógico entre múltiplas imagens. Ao selecionar um conjunto de dados de um milhão de pontos de dados de ajuste de alta qualidade projetados para condições texturais e multigráficas, o Leopard tem uma vantagem única. Este conjunto de dados abrangente inclui domínios como documentos de várias páginas, tabelas e gráficos e resumos da web, ajudando o Leopard a lidar com eficiência com relacionamentos visuais complexos que envolvem múltiplas imagens. Além disso, o Leopard inclui um módulo de codificação multiimagem adaptativo de alta resolução, que otimiza dinamicamente a alocação do comprimento da sequência visual com base nas proporções e resoluções reais das imagens de entrada.
O Leopard apresenta diversas melhorias que o diferenciam de outros MLLMs. Um de seus recursos mais notáveis é o módulo flexível de codificação de múltiplas imagens. Este módulo permite que o Leopard retenha informações de alta resolução enquanto controla adequadamente a duração das sequências, evitando a perda de informações que ocorre ao compactar demais os elementos visuais. Em vez de reduzir a resolução para se adequar aos parâmetros do modelo, o texto dinâmico do Leopard otimiza automaticamente a distribuição de cada imagem, preservando detalhes importantes mesmo ao manusear múltiplas imagens. Essa abordagem permite que o Leopard processe imagens ricas em texto, como relatórios científicos, sem perder a precisão devido à baixa resolução da imagem. Ao usar o embaralhamento de pixels, o Leopard pode compactar longas sequências de recursos visuais em sequências curtas e sem perdas, melhorando significativamente sua capacidade de lidar com entradas visuais complexas sem comprometer os detalhes visuais.
A importância do Leopard torna-se ainda mais aparente quando se considera os casos de uso prático que aborda. Em casos que envolvem muitas imagens ricas em texto, o Leopard supera significativamente os modelos anteriores, como OpenFlamingo, VILA e Idefics2, que lutaram para generalizar todas as entradas visuais e relacionadas a texto. Os testes de benchmark mostraram que o Leopard superou a concorrência por uma ampla margem, alcançando uma melhoria média de mais de 9,61 pontos nos principais benchmarks ricos em texto e imagens. Por exemplo, em tarefas como SlideVQA e Multi-page DocVQA, que exigem pensar em vários objetos visuais interconectados, o Leopard produziu consistentemente respostas corretas onde outros modelos falharam. Essa habilidade é inestimável em aplicações do mundo real, como a compreensão de documentos de várias páginas ou a análise de apresentações, que são importantes em ambientes de negócios, educação e pesquisa.
O Leopard representa um importante avanço para a IA multimodal, especialmente para tarefas que envolvem múltiplas imagens com rich text. Ao enfrentar os desafios dos dados limitados para o planejamento de instruções e medir a resolução da imagem ao longo do comprimento da sequência, o Leopard fornece uma solução robusta que pode processar informações visuais complexas e interconectadas. Seu alto desempenho em vários benchmarks, combinado com sua abordagem inovadora à codificação de alta resolução, ressalta seu impacto potencial em muitas aplicações do mundo real. À medida que o Leopard continua a evoluir, ele estabelece um exemplo promissor para o desenvolvimento de futuros MLLMs que podem compreender, interpretar e considerar melhor uma variedade de entradas diferentes.
Confira Papel de novo Os Comandos do Tigre Conjunto de dados em HuggingFace. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel
Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️