O desenvolvimento de modelos de linguagem visual (VLMs) tem enfrentado desafios no tratamento de tarefas complexas de resposta a consultas visuais. Apesar dos grandes avanços nas capacidades de raciocínio com grandes modelos de linguagem, como o GPT-o1 da OpenAI, os VLMs ainda lutam com o raciocínio estruturado e estruturado. Os modelos atuais muitas vezes não têm a capacidade de organizar informações e de se envolverem em pensamento lógico e sequencial, o que limita a sua eficácia em tarefas que requerem processamento cognitivo profundo, especialmente quando se consideram entradas multimodais, como imagens combinadas com texto. Os VLMs tradicionais tendem a gerar respostas rapidamente, sem um processo de pensamento passo a passo, levando a erros e inconsistências.
Conheça LLaVA-o1
Uma equipe de pesquisadores da Universidade de Pequim, da Universidade de Tsinghua, do Laboratório Peng Cheng, da Alibaba DAMO Academy e da Universidade de Lehigh apresentou o LLaVA-o1: um modelo de linguagem visual capaz de raciocínio estruturado, semelhante ao GPT-o1. LLaVA-o1 é um modelo de 11 bilhões de parâmetros projetado para raciocínio independente e multinível. Baseia-se no modelo Llama-3.2-Vision-Instruct e introduz um processo de consulta estruturado, abordando as limitações dos VLMs anteriores de forma metódica. Uma inovação fundamental no LLaVA-o1 é a implementação de quatro fases distintas de pensamento: resumo, sinopse, reflexão e conclusão.
O modelo foi ajustado usando um conjunto de dados chamado LLaVA-o1-100k, que está disponível nas fontes de resposta visual a consultas (VQA) e nas anotações de pensamento sistemático produzidas pelo GPT-4o. Isso permite que o LLaVA-o1 execute raciocínio multinível, estendendo recursos semelhantes ao GPT-o1 para tarefas de linguagem visual, que ficaram atrás dos modelos baseados em texto.
Detalhes técnicos e benefícios
LLaVA-o1 usa um novo método de medição de tempo chamado pesquisa de feixe em nível de estágio. Ao contrário dos métodos anteriores, como a busca best-of-N ou em nível de sentença, o LLaVA-o1 gera múltiplas respostas para cada etapa de seu processo de raciocínio sistemático e seleciona o melhor candidato em cada etapa, garantindo resultados de alta qualidade. Esta abordagem sistemática mantém a consistência lógica ao longo de todo o processo de consulta, conduzindo a conclusões mais precisas.
Aperfeiçoado a partir do modelo Llama-3.2-11B-Vision-Instruct, o LLaVA-o1 mostra uma melhoria de 8,9% em benchmarks de imagem multimodal em comparação com seu modelo básico, superando até mesmo concorrentes grandes ou fechados, como Gemini -1.5-pro, GPT -4o-mini e Lhama-3.2-90B-Vision-Instruct. Isso é alcançado com apenas 100.000 amostras de treinamento, tornando o LLaVA-o1 uma solução eficiente em termos de desempenho e robustez. Ao utilizar o raciocínio hierárquico, o LLaVA-o1 aborda os problemas de forma sistemática, reduzindo os erros de raciocínio comuns a outros VLMs.
Significado e consequências
O LLaVA-o1 aborda uma lacuna importante entre os modelos de resposta a perguntas textuais e visuais, permitindo o pensamento estruturado em tarefas de linguagem visual. Os resultados dos testes mostram que o LLaVA-o1 melhora o desempenho em todos os benchmarks, como MMStar, MMBench, MMVet, MathVista, AI2D e HalllusionBench. Ele supera consistentemente seu modelo básico em mais de 6,9% em todos os benchmarks multimodais, especialmente em domínios que exigem raciocínio, como matemática visual e questões científicas.
A pesquisa de pólos em nível de estágio melhora a confiabilidade do modelo, gerando e validando múltiplas respostas candidatas para cada estágio, selecionando a mais apropriada. Isso permite que o LLaVA-o1 se destaque em tarefas visuais complexas, em comparação com métodos de medição tradicionais que podem ser ineficazes. O LLaVA-o1 mostra que respostas sistemáticas são essenciais para obter imagens consistentes e de alta qualidade, estabelecendo um novo padrão para modelos do mesmo tamanho.
A conclusão
LLaVA-o1 é um modelo de linguagem visual capaz de raciocínio sistemático, semelhante ao GPT-o1. Sua arquitetura lógica de quatro estágios, combinada com pesquisa de polo em nível de estágio, estabelece uma nova referência para IA multimodal. Ao treinar em um conjunto de dados pequeno, mas bem construído, o LLaVA-o1 mostra que a inferência multidimensional eficiente e econômica é alcançável sem os grandes recursos exigidos por grandes modelos de código fechado. LLaVA-o1 abre caminho para pesquisas futuras sobre raciocínio estruturado em modelos de linguagem visual, prometendo capacidades mais avançadas em processamento cognitivo orientado por IA em domínios visuais e textuais.
Consulte o artigo e a página do GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
Por que os modelos de linguagem de IA ainda estão em risco: principais insights do relatório da Kili Technology sobre a vulnerabilidade de modelos de linguagem em grande escala [Read the full technical report here]
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.