A legendagem de imagens teve um progresso notável, mas ainda existem desafios significativos, especialmente na criação de legendas significativas e factuais. Conjuntos de dados de legendas de imagens tradicionais, como aqueles que dependem inteiramente de legendas artificiais geradas por modelos de linguagem visual (VLMs) ou texto da web copiado por alt, muitas vezes carecem de detalhes descritivos ricos ou de uma base factual. Estas deficiências limitam a aplicabilidade destes conjuntos de dados para tarefas que requerem compreensão e integração díspares de informações do mundo real. Além disso, esses conjuntos de dados geralmente contêm informações ruidosas ou incompletas, levando a um desempenho insatisfatório em todas as tarefas multimodais. Preencher a lacuna entre as descrições detalhadas e a precisão factual tem sido um desafio constante que os investigadores pretendem superar.
BLIP3-KALE é um conjunto de dados de código aberto que consiste em 218 milhões de pares de imagens, projetado para resolver as limitações de conjuntos de dados de legenda de imagens anteriores. Apresenta legendas densas e com conhecimento aprimorado que combinam informações em escala da web em tempo real com descrições detalhadas de imagens. KALE usa o poder das legendas artificiais e das informações do mundo real do texto alternativo da web para gerar descrições de imagens altamente informativas. Essa abordagem em duas etapas enriquece as legendas de imagens sintéticas com contexto do mundo real, fornecendo uma nova referência para a criação de legendas autênticas e com escala densa. O conjunto de dados está disponível publicamente em Hugging Face.
KALE usa um pipeline de dois estágios para gerar anotações densas com conhecimento aprimorado. Na Fase 1, a equipe usou o CogVLM-17B, um poderoso modelo de linguagem visual, para gerar resumos densos de imagens a partir do conjunto de dados Datacomp-1B. Essas legendas são ainda mais enriquecidas ao aproveitar o modelo de linguagem da Mistral para adicionar contexto do mundo real, garantindo que as legendas não apenas descrevam completamente o conteúdo visual, mas também incluam informações factuais relevantes. Esta fase produziu o primeiro conjunto de 100 milhões de legendas aprimoradas por conhecimento.
A Fase 2 envolve ampliar o conjunto de dados. As legendas aprimoradas geradas na Fase 1 são usadas para treinar um modelo de linguagem de visão fundida semelhante à estrutura LLaVA. O modelo foi treinado na incorporação de fragmentos de imagens e legendas originais para gerar corretamente legendas aprimoradas com informações em mais 118 milhões de imagens. O conjunto de dados resultante, KALE, é muito maior do que conjuntos de dados desenvolvidos anteriormente, como CapsFusion, com 218 milhões de amostras com uma média de 67,26 palavras por palavra-chave – quase três vezes a densidade dos conjuntos de dados anteriores. A abordagem em duas etapas também garantiu que o conjunto de dados resultante mantivesse um alto nível de precisão, ao mesmo tempo que reduziu significativamente o custo computacional do processo de geração de legendas.
A introdução do BLIP3-KALE é um desenvolvimento importante no campo da IA multimodal. KALE não apenas aborda o problema de legendas barulhentas e incompletas, mas também estabelece um novo nível de densidade e uma verdadeira base para legendas de imagens. Suas legendas são mais descritivas e ricas em informações em comparação com outros conjuntos de dados, tornando o KALE um recurso inestimável para treinar modelos de percepção de linguagem que precisam lidar com tarefas complexas que exigem uma combinação de percepção visual e conhecimento de mundo.
Em termos de resultados, os modelos treinados no KALE apresentaram desempenho impressionante em todas as medidas de percepção da linguagem, incluindo TextVQA, VQAv2 e ScienceQA. KALE alcançou o desempenho médio mais alto de 51,96%, superando outros conjuntos de dados sintéticos de código aberto, como CapsFusion e ReCap-Datacomp. Notavelmente, KALE tem grande sucesso em TextVQA (59,92%) e VQAv2 (70,10%), o que comprova sua eficácia na melhoria do desempenho de modelos em tarefas virtuais de resposta a perguntas. Esses resultados enfatizam a capacidade do KALE de fornecer dados abrangentes e enriquecidos com o contexto, o que ajuda a treinar modelos de linguagem visual geral e inteligente.
BLIP3-KALE representa um avanço no campo das legendas de imagens, preenchendo a lacuna entre as legendas descritivas artificiais e o texto alternativo real. Seu pipeline de dois estágios de combinação de anotações artificiais com informações do mundo real resultou em um conjunto de dados relativamente grande e rico em detalhes. Ao fornecer legendas densas com conhecimento aprimorado, KALE estabeleceu uma nova referência para o treinamento de sistemas de IA multimodais, mostrando melhorias significativas em muitas tarefas de linguagem visual. No entanto, permanecem desafios como a detecção ocasional em imagens com densidade de texto, destacando a necessidade de pesquisas futuras para refinar e dimensionar ainda mais o método KALE. Este conjunto de dados abre caminho para sistemas de IA mais confiáveis e com conhecimento aprimorado, capazes de uma compreensão visual e contextual mais profunda.
Confira Papel de novo Conjunto de dados em HuggingFace. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliárias
Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.
🐝🐝 O próximo evento ao vivo do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar as equipes a construir modelos de IA revolucionários , rápido.