Este artigo sobre IA apresenta Virgem: um grande modelo de linguagem multimodal para pensamento lento e avançado

A pesquisa em inteligência artificial tem progredido constantemente no sentido da criação de sistemas capazes de raciocínio complexo. Os modelos linguísticos multimodais de grande escala (MLLMs) representam um avanço importante nesta jornada, combinando a capacidade de processar dados textuais e visuais. Esses programas podem lidar com desafios complexos, como problemas matemáticos ou raciocínio gráfico. Ao permitir que a IA preencha a lacuna entre os processos, os MLLMs expandem o âmbito da sua aplicação, proporcionando novas oportunidades na educação, ciência e análise de dados.

Um dos principais desafios no desenvolvimento destes sistemas é integrar perfeitamente o pensamento visual e escrito. Os modelos tradicionais de macrolinguagem são excelentes no processamento de texto ou imagens, mas ficam aquém quando encarregados de integrar esses modos de pensamento. Essa limitação dificulta seu desempenho em diversas tarefas, principalmente em situações que exigem processos de pensamento extensos e deliberados, muitas vezes chamados de “pensamento lento”. Abordar esta questão é importante para desenvolver MLLMs para aplicações práticas onde o pensamento multimodal é importante.

As abordagens atuais para desenvolver habilidades de pensamento em MLLMs baseiam-se em duas estratégias amplas. A primeira envolve o uso de métodos de busca sistemáticos, como a busca em árvore de Monte Carlo, guiados por modelos de recompensa para refinar o processo de raciocínio. A segunda concentra-se no treinamento de LLMs com instruções de pensamento longas, muitas vezes organizadas como cadeias de pensamento (CoT). No entanto, estas abordagens concentram-se principalmente em tarefas baseadas em texto, deixando situações multimodais pouco exploradas. Embora alguns sistemas comerciais, como o modelo O1 da OpenAI, tenham se mostrado promissores, a sua natureza proprietária limita o acesso às metodologias, criando uma lacuna de investigação pública.

Pesquisadores da Universidade Renmin da China, da Baichuan AI e da BAAI apresentaram o Virgo, um modelo projetado para melhorar o pensamento lento em situações multimodais. Virgo foi desenvolvido ajustando o modelo Qwen2-VL-72B-Instruct, usando uma abordagem simples, mas inovadora. Isto envolveu treinar o MLLM usando dados de texto considerados durante um longo período de tempo, uma escolha rara para transferir poder de inferência para todos os métodos. Esta abordagem diferencia Virgem dos esforços anteriores, pois concentra-se nas capacidades de pensamento inerentes ao núcleo do LLM dentro do MLLM.

A abordagem de Virgem ao crescimento é detalhada e deliberada. Os pesquisadores selecionaram um conjunto de dados que incluía 5.000 exemplos de ensino de longo prazo, principalmente em matemática, ciências e codificação. Estas instruções foram formatadas para incluir processos de pensamento sistemáticos e soluções finais, garantindo clareza e repetibilidade durante o treinamento. Para aprimorar as capacidades do Virgo, os pesquisadores escolheram parâmetros ajustados para LLM e interfaces multimodais, deixando a interface intacta. Essa abordagem preservou o poder de processamento visual do modelo básico, ao mesmo tempo que melhorou seu desempenho de raciocínio. Além disso, experimentaram filtrar-se, utilizando um modelo afinado para gerar dados visuais considerados a longo prazo, refinando ainda mais as capacidades de pensamento multidimensional de Virgem.

O desempenho do Virgo foi avaliado em quatro benchmarks desafiadores: MathVerse, MathVision, OlympiadBench e MMMU. Esses benchmarks incluem milhares de problemas multimodais, testando a capacidade do modelo de raciocinar sobre texto e entrada visual. Virgo alcançou resultados impressionantes, superando vários modelos avançados e sistemas comerciais concorrentes. Por exemplo, no MathVision, o Virgo registrou uma precisão de 38,8%, superando muitas soluções existentes. No OlympiadBench, um dos benchmarks mais exigentes, obteve uma melhoria de 12,4% em relação ao seu modelo base, destacando as suas complexas capacidades de raciocínio. Além disso, a otimização baseada em texto do Virgo mostrou desempenho superior na extração do poder do pensamento lento em comparação com os dados de treinamento multivariados. Estas descobertas sublinham o potencial do uso da instrução textual para desenvolver sistemas multimodais.

Os pesquisadores também analisaram o desempenho do Virgo classificando os resultados com base nos níveis de dificuldade dentro dos benchmarks. Embora Virgem tenha demonstrado melhorias consistentes em tarefas desafiadoras que exigem pensamento ampliado, obteve ganhos limitados em tarefas simples, como as do benchmark MMMU. Esta compreensão enfatiza a importância de alinhar os sistemas de pensamento à complexidade dos problemas que foram concebidos para resolver. Os resultados de Virgo também revelaram que os dados de raciocínio textual geralmente superaram o ensino de raciocínio visual, sugerindo que o treinamento textual pode efetivamente transferir habilidades de raciocínio em domínios multimodais.

Ao demonstrar uma forma eficaz e eficiente de desenvolver MLLMs, os pesquisadores contribuíram enormemente para o campo da IA. Seu trabalho preenche uma lacuna no pensamento multidisciplinar e abre caminhos para pesquisas futuras no refinamento desses sistemas. O sucesso do Virgo demonstra o poder transformador do uso de dados de texto considerados de longo prazo no treinamento, oferecendo uma solução promissora para o desenvolvimento de modelos de pensamento avançado. Com mais refinamento e testes, esta metodologia poderá impulsionar um progresso significativo na pesquisa de IA multimodal.

Confira eu Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.

✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)

Source link

Você também pode gostar...

Meta AI sugere grandes modelos conceituais (LCMs): um salto semântico além da modelagem de linguagem baseada em tokens

AMD lança AMD ROCm 6.3: uma plataforma de código aberto com ferramentas e aprimoramentos aprimorados para otimizar cargas de trabalho de IA, ML e HPC

MBA-SLAM: uma nova estrutura de IA para SLAM visual RGB-D denso e robusto, usando campos de radiação implícitos e respingos gaussianos explícitos

Deixe um comentário Cancelar resposta