Insight-V: potencializando modelos multitipos com análise escalonável de cadeia longa

A capacidade dos modelos linguísticos multimodais de grande escala (MLLMs) de permitir raciocínios complexos de longo alcance envolvendo texto e visão levanta uma barreira ainda maior no campo da inteligência artificial. Embora as tarefas de raciocínio baseadas em texto estejam sendo gradualmente desenvolvidas, as tarefas multimodais acrescentam desafios adicionais com base na falta de conjuntos de dados ricos e abrangentes e de técnicas de treinamento eficazes. Atualmente, muitos modelos tendem a perder precisão na sua inferência quando expostos a dados complexos, incluindo imagens, limitando a sua utilização em aplicações do mundo real para sistemas autónomos, diagnósticos médicos ou materiais de aprendizagem.

As abordagens tradicionais para o desenvolvimento de capacidades cognitivas dependem fortemente de informações da Cadeia de Pensamento (CoT) ou de conjuntos de dados estruturados. No entanto, estes métodos apresentam sérios problemas. A construção de conjuntos de dados anotados para imagens visuais é muito extensa e requer enormes recursos humanos. Pensar e resumir em uma única etapa geralmente leva a uma separação inadequada ou a cadeias de pensamento que são simplesmente estranhas. Além disso, devido à falta de conjuntos de dados e de um método de treinamento específico para esses sistemas, eles não conseguem integrar efetivamente diversas tarefas. Estes desafios exigem o desenvolvimento de novas formas de aumentar o poder cognitivo de muitos sistemas de inteligência artificial.

Pesquisadores da NTU, Tencent, Universidade de Tsinghua e Universidade de Nanjing lançaram o Insight-V para enfrentar esses desafios com uma combinação única de mineração de dados e uma estrutura multiagente. Ele fornece uma maneira adicional de gerar métodos de pensamento diferentes e coerentes, usando um método multigranularidade para avaliar o método e garantir a qualidade dos métodos gerados. Um sistema multiagente exclusivo divide as tarefas em duas funções especializadas: um agente de raciocínio, que gera medidas logicamente detalhadas, e um agente de resumo, que verifica e refina esses resultados para obter precisão. Usando a Otimização Iterativa de Preferência Direta (DPO), um método de aprendizagem por reforço, o sistema atinge alinhamento e julgamento semelhantes aos humanos. Essa estrutura colaborativa permite melhorias significativas na precisão do pensamento e no desempenho de tarefas específicas.

O Insight-V tem um conjunto de dados estruturado de mais de 200 mil amostras de pensamento e mais de 1,2 milhão de exemplos resumidos obtidos de benchmarks relacionados, como LLaVA-NeXT e outros dados de treinamento selecionados. Um agente de raciocínio visa fornecer procedimentos passo a passo detalhados para resolver problemas lógicos, enquanto um agente de resumo verifica e aprimora cuidadosamente essas etapas para minimizar erros. O treinamento começa com uma programação bem supervisionada, progredindo gradualmente para a otimização iterativa, refinando o resultado para estar mais próximo da tomada de decisão humana real. Este estilo de treinamento mantém uma abordagem sistemática para generalizações fortes entre domínios e tarefas de pensamento complexas.

A melhoria no desempenho lógico multidimensional do sistema nas tarefas de benchmark é significativa, com uma melhoria estimada de 7,0% em relação ao LLaVA-NeXT e 2,9% em relação ao modelo base. O Insight-V melhora o desempenho além de tarefas como análise detalhada orientada a gráficos e raciocínio estatístico, sem o poder de processamento comum aos módulos de teste orientados a insights, como o TextVQA. Esta é a razão do desenvolvimento de um desempenho estável em todas estas tarefas que garante a utilização e adequação do sistema, daí a sua forte colocação como uma melhoria significativa nos modelos de pensamento multidimensionais.

O Insight-V fornece uma estrutura flexível para enfrentar os principais desafios da inferência multimodal, combinando novas técnicas de geração de dados com design colaborativo multiagente. Raciocínio avançado com conjuntos de dados estruturados, decomposição específica de tarefas e desenvolvimento de aprendizagem por reforço são contribuições importantes para o contexto. Este trabalho garante que os MLLMs enfrentarão de fato tarefas que exigem um pensamento eficaz e, ao mesmo tempo, flexíveis em diferentes domínios. Nesse sentido, o Insight-V serve como base básica para um maior desenvolvimento na construção de sistemas que utilizam raciocínio complexo dentro de contextos desafiadores de linguagem visual.

Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.

Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'

Source link

Você também pode gostar...

Autores Pesquisadores apresentam Writing at the Edges (WiM): um novo padrão conceitual para grandes modelos de linguagem projetados para melhorar o gerenciamento de longas sequências de entrada em tarefas orientadas para recuperação

As 20 principais ferramentas de design gráfico de IA em 2025

Microsoft Open-Sources bitnet.cpp: uma estrutura de inferência LLM supereficiente de 1 bit que roda diretamente em CPUs

Deixe um comentário Cancelar resposta