Modelos de linguagem de percepção (VLMs) são ferramentas importantes que usam texto para lidar com diferentes tarefas de visão computacional. Tarefas como reconhecer imagens, ler texto de imagens (OCR), e a identificação de objetos pode ser abordada como uma resposta a perguntas visuais com respostas em texto. Embora os VLMs tenham mostrado sucesso limitado nas tarefas, ainda não está claro como eles processam e representam entradas multimodais, como imagens e texto, para produzir essas respostas, levantando dúvidas sobre o tipo de representações que lhes permitem realizar essas tarefas.
As abordagens atuais aos modelos visuais e linguísticos tratam as tarefas como baseadas em texto ou em imagem, concentrando-se em um tipo de entrada de cada vez. Isto perde oportunidades profundas de combinar informações de imagens com texto. A Aprendizagem In-Context (ICL), um recurso de modelos linguísticos de grande escala (LLMs), permite que os modelos se adaptem a tarefas com pequenos exemplos, impulsionados por mecanismos como cabeças de atenção ou vetores de tarefas que incluem tarefas como ativação implícita. Modelos visuais e linguísticos (VLMs), inspirados em LLMs, combinam dados visuais e textuais usando agrupamento tardio (componentes pré-treinados) ou métodos de agrupamento (treinamento ponta a ponta). A pesquisa revelou que as representações de tarefas podem ser transferidas entre modos, e mesmo VLMs sem imagem ICL podem usar vetores de tarefas para melhor desempenho, destacando semelhanças entre imagem e texto. ICL processos. Combinar entrada de imagem e texto pode permitir VLMs para executar tarefas complexas de forma eficaz.
Para resolver isso, pesquisadores de Universidade da Califórnia, Berkeley, tente analisar como vetores de função eles são codificados e transmitidos internamente VLMs. Os pesquisadores descobriram que VLMs mapear a entrada em uma representação de trabalho compartilhada, sejam exemplos de texto, exemplos gráficos ou instruções claras que descrevam o trabalho.
Os pesquisadores criaram seis tarefas para testar isso VLMs comportar-se da mesma maneira vetores de função e veja como os vetores de trabalho podem ser transmitidos de diferentes maneiras, usando texto, imagens ou instruções específicas para descrevê-los. Esses vetores são então usados em diferentes contextos, como usar exemplos de texto para explicar funções, mas fazer perguntas sobre imagens. A análise de como as representações de token mudaram nos VLMs mostrou um processo de três estágios: codificação, construção de uma representação da tarefa e geração de saída. A codificação de vetores de função geralmente resume o conceito da função e os métodos de texto alinhados com imagens, embora as funções baseadas em imagens fossem menos específicas.
O estudo examinou o desempenho da transferência intermodal de vetores de atividade da leitura de texto e imagens dentro do conteúdo (ICL), apresentando melhora significativa. Evitação intermodal (xPatch) passou instâncias do mesmo contexto (xBase), melhorando a precisão 14–33% sobre o texto ICL x Base de novo 8–13% sobre a imagem do patch ICL. Os vetores de funções baseados em texto provaram ser mais eficientes do que os baseados em imagens, pois envolvem mais etapas de reconhecimento. Adicionar vetores baseados em instruções e em instâncias a um único vetor melhora a representação do trabalho, reduz a variabilidade e aumenta a eficiência 18%. A transferência intermodal de efeitos de texto para imagem foi tão alta quanto 37–52% precisão versus básico. A transferência LLM para VLM mostrou alta similaridade em vetores de função (semelhança de cosseno: 0,89–0,95). Portanto, os resultados destacaram a correção intermodal e a integração vetorial como fundamentais para melhorar o desempenho das tarefas.
Em resumo, os VLMs podem codificar e transferir com eficiência representações de tarefas em diferentes modos, demonstrando o potencial para alcançar modelos versáteis e eficientes. Os investigadores tentaram explicações possíveis, tais como estruturas partilhadas entre linguagem e percepção ou modelos que aprendem a partir da mesma realidade subjacente. Eles encontraram melhor desempenho na transferência de tarefas de texto para imagens do que de imagens para texto, provavelmente porque o treinamento VLM se concentrou mais em texto. Assim, este trabalho pode ser uma base futura para futuras pesquisas e inovações!
Confira eu Papel de novo O projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)
Divyesh é estagiário de consultoria na Marktechpost. Ele está cursando BTech em Engenharia Agrícola e Alimentar pelo Instituto Indiano de Tecnologia, Kharagpur. Ele é um entusiasta de Ciência de Dados e Aprendizado de Máquina que deseja integrar essas tecnologias avançadas no domínio agrícola e resolver desafios.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)