Leopard: um modelo multilíngue (MLLM) projetado especificamente para lidar com tarefas de linguagem visual que envolvem várias imagens ricas em texto

Nos últimos anos, os modelos linguísticos multimodais de grande escala (MLLMs) revolucionaram as funções da linguagem visual, melhorando capacidades como legenda de imagens e detecção de objetos. No entanto, ao lidar com muitas imagens ricas em texto, mesmo modelos sofisticados enfrentam desafios significativos. A necessidade do mundo real de compreender e pensar sobre imagens ricas em texto é importante para aplicações como processamento de slides de apresentações, documentos digitalizados e resumos de páginas da web. Os MLLMs existentes, como LLaVAR e mPlug-DocOwl-1.5, muitas vezes não têm sucesso no tratamento de tais tarefas, principalmente devido a dois problemas principais: a falta de conjuntos de dados de alta qualidade para instruções de programação específicas para muitos cenários de imagem e a dificuldade de armazenamento. o equilíbrio certo entre a resolução da imagem e a duração da sequência visual. Enfrentar esses desafios é fundamental para o desenvolvimento de casos de uso reais, onde o conteúdo rico desempenha um papel fundamental.

Pesquisadores da Universidade de Notre Dame, do Tencent AI Seattle Lab e da Universidade de Illinois Urbana-Champaign (UIUC) apresentaram o Leopard: um modelo de linguagem em larga escala (MLLM) projetado especificamente para lidar com tarefas de linguagem visual que envolvem grandes quantidades de texto -imagens ricas. . O Leopard visa preencher a lacuna deixada pelos modelos atuais e se concentra em melhorar o desempenho em situações onde é importante compreender o relacionamento e o fluxo lógico entre múltiplas imagens. Ao selecionar um conjunto de dados de um milhão de pontos de dados de ajuste de alta qualidade projetados para condições texturais e multigráficas, o Leopard tem uma vantagem única. Este conjunto de dados abrangente inclui domínios como documentos de várias páginas, tabelas e gráficos e resumos da web, ajudando o Leopard a lidar com eficiência com relacionamentos visuais complexos que envolvem múltiplas imagens. Além disso, o Leopard inclui um módulo de codificação multiimagem adaptativo de alta resolução, que otimiza dinamicamente a alocação do comprimento da sequência visual com base nas proporções e resoluções reais das imagens de entrada.

O Leopard apresenta diversas melhorias que o diferenciam de outros MLLMs. Um de seus recursos mais notáveis é o módulo flexível de codificação de múltiplas imagens. Este módulo permite que o Leopard retenha informações de alta resolução enquanto controla adequadamente a duração das sequências, evitando a perda de informações que ocorre ao compactar demais os elementos visuais. Em vez de reduzir a resolução para se adequar aos parâmetros do modelo, o texto dinâmico do Leopard otimiza automaticamente a distribuição de cada imagem, preservando detalhes importantes mesmo ao manusear múltiplas imagens. Essa abordagem permite que o Leopard processe imagens ricas em texto, como relatórios científicos, sem perder a precisão devido à baixa resolução da imagem. Ao usar o embaralhamento de pixels, o Leopard pode compactar longas sequências de recursos visuais em sequências curtas e sem perdas, melhorando significativamente sua capacidade de lidar com entradas visuais complexas sem comprometer os detalhes visuais.

A importância do Leopard torna-se ainda mais aparente quando se considera os casos de uso prático que aborda. Em casos que envolvem muitas imagens ricas em texto, o Leopard supera significativamente os modelos anteriores, como OpenFlamingo, VILA e Idefics2, que lutaram para generalizar todas as entradas visuais e relacionadas a texto. Os testes de benchmark mostraram que o Leopard superou a concorrência por uma ampla margem, alcançando uma melhoria média de mais de 9,61 pontos nos principais benchmarks ricos em texto e imagens. Por exemplo, em tarefas como SlideVQA e Multi-page DocVQA, que exigem pensar em vários objetos visuais interconectados, o Leopard produziu consistentemente respostas corretas onde outros modelos falharam. Essa habilidade é inestimável em aplicações do mundo real, como a compreensão de documentos de várias páginas ou a análise de apresentações, que são importantes em ambientes de negócios, educação e pesquisa.

O Leopard representa um importante avanço para a IA multimodal, especialmente para tarefas que envolvem múltiplas imagens com rich text. Ao enfrentar os desafios dos dados limitados para o planejamento de instruções e medir a resolução da imagem ao longo do comprimento da sequência, o Leopard fornece uma solução robusta que pode processar informações visuais complexas e interconectadas. Seu alto desempenho em vários benchmarks, combinado com sua abordagem inovadora à codificação de alta resolução, ressalta seu impacto potencial em muitas aplicações do mundo real. À medida que o Leopard continua a evoluir, ele estabelece um exemplo promissor para o desenvolvimento de futuros MLLMs que podem compreender, interpretar e considerar melhor uma variedade de entradas diferentes.

Confira Papel de novo Os Comandos do Tigre Conjunto de dados em HuggingFace. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel

Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Marqo lança modelos avançados de incorporação de comércio eletrônico e dados analíticos para transformar pesquisas de produtos, recomendações e estimativas de aplicativos de IA de marketing.

As 20 principais ferramentas de revisão de código para desenvolvedores de software

Este artigo sobre IA explora como a incorporação de um modelo de linguagem grande melhora a flexibilidade na modelagem preditiva para localização de dados tabulares

Deixe um comentário Cancelar resposta