Os cursos de linguística (LLMs) têm recebido muita atenção devido às suas capacidades avançadas em processamento e produção de texto. No entanto, a crescente necessidade de processamento multimodal de entradas levou ao desenvolvimento de modelos linguísticos de percepção. Esses modelos combinam o poder dos LLMs com codificadores de imagem para criar modelos de linguagem visual em larga escala (LVLMs). Apesar dos resultados promissores, os LVLMs enfrentam um grande desafio na obtenção de dados de ajuste fino de alta qualidade, porque a obtenção de conteúdo selecionado por humanos em escala costuma ser cara, especialmente para dados multimodais. Portanto, há uma necessidade urgente de métodos econômicos de obtenção de dados de calibração para melhorar os LVLMs e aumentar suas capacidades.
Avanços recentes em VLMs foram impulsionados pela combinação de LLMs de código aberto com codificadores de imagem, levando ao desenvolvimento de LVLMs. Os exemplos incluem LLaVA, que combina o codificador de visão CLIP com Vicuna LLM, e outros modelos, como LLaMA-Adapter-V2, Qwen-VL e InternVL. No entanto, eles muitas vezes dependem de dados caros, com curadoria humana ou gerados por IA, para o ajuste fino. Estudos recentes abordaram esta limitação examinando técnicas de ajuste fino, como a otimização direta de políticas (DPO) e o ajuste fino de preferências. No entanto, a correção desses métodos para LVLMs é limitada, com os esforços iniciais focados em dados rotulados por humanos ou em conteúdo gerado pelo GPT-4 para correção correta.
Pesquisadores da UCLA, UC Berkeley e Universidade de Stanford introduziram um método chamado Self-Training Image Recognition (STIC). Esta abordagem enfatiza o treinamento direto no reconhecimento de imagens em LVLMs e constrói automaticamente um conjunto de dados preferido para descritores de imagens usando imagens não rotuladas. Ele gera respostas preferidas através de informações passo a passo e respostas não preferidas a partir de imagens distorcidas ou instruções enganosas. O STIC reutiliza uma pequena parte dos dados existentes para instruções de planejamento e adiciona descrições de imagens autogeradas à notificação para melhorar o raciocínio com as informações visuais extraídas.
O método STIC usa llava-v1.6-mistral-7b como modelo base para treinar com os dados de preferência gerados pelo modelo. O processo envolve duas etapas principais: autotreinamento na descrição da imagem (Algoritmo 1) e ajuste fino da descrição (Algoritmo 2). Para o conjunto de dados preferido construído para ele, 6.000 imagens não rotuladas são extraídas aleatoriamente da classificação do conjunto de dados train2014 da MSCOCO. A segunda fase envolve a subamostragem aleatória de 5.000 pontos de dados de instrução dos dados LLaVA SFT para gerar dados de ajuste fino ajustados com uma descrição. Ele usa resolução de baixo nível (LoRA) para cálculos precisos. O desempenho do STIC é avaliado com base em sete benchmarks, incluindo ScienceQA, TextVQA, ChartQA, LLaVA-Bench, MMBench, MM-Vet e MathVista.
O método STIC mostra uma melhoria consistente e significativa em relação aos modelos LLaVA originais em todos os sete conjuntos de dados diferentes. Ele melhora o desempenho do LLaVA-v1.5 em uma média de 1,7% e o desempenho do LLaVA-v1.6 em 4,0%. Essa melhoria é alcançada usando apenas dados de preferência autogerados e uma pequena parte do conjunto de dados original para ajustar o modelo. O modelo LLaVA-v1.6 altamente desenvolvido mostra mais melhorias do que LLaVA-v1.5, indicando uma possível correlação entre as capacidades do modelo natural e sua capacidade de melhorar com STIC. Os pesquisadores também realizaram um estudo de ablação em partes importantes do STIC para demonstrar sua importância e eficiência e também avaliaram a distribuição de imagens de dados de treinamento (MSCOCO).
Neste artigo, os pesquisadores propuseram o Treinamento de Reconhecimento de Imagens (STIC) para melhorar as habilidades de reconhecimento de imagens dos LVLMs. Eles realizaram testes em sete benchmarks de linguagem de visão que mostraram melhorias significativas de desempenho. Os resultados destacam o potencial do STIC para usar múltiplas imagens sem rótulos, fornecendo uma solução econômica para o desenvolvimento de LVLMs. Pesquisas futuras poderiam se concentrar em testar STIC com modelos maiores, estudando como a distribuição de imagens afeta o sucesso do treinamento e examinando como diferentes distorções e informações de imagem influenciam a criação de amostras menos desejáveis. Estes esforços podem melhorar o desempenho do STIC e expandir o seu papel no desenvolvimento do LVLM.
Confira Papel, GitHubde novo O projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.