Kwai-STAR: uma estrutura de IA que transforma LLMs em reformadores de última geração para melhorar suas habilidades de pensamento lógico

Grandes modelos de linguagem consideram um desafio compreender o raciocínio matemático. O raciocínio matemático envolve uma variedade de atividades mentais, como compreender e manipular conceitos matemáticos, resolver problemas e fazer suposições lógicas. Métodos neste campo foram desenvolvidos para melhorar a habilidade matemática dos LLMs. No entanto, poucos vêem a importância de mudar a mentalidade dos LLMs, o que pode melhorar muito as capacidades de pensamento dos LLMs, mas ainda não foi amplamente reconhecido ou implementado.

As abordagens atuais se concentram em melhorar as habilidades matemáticas do LLM por meio de treinamentos como GPT, LLaMA e MetaMath. Esses modelos usam raciocínio matemático em larga escala para orientar o raciocínio passo a passo durante a resolução de problemas. CoT e Best-of-N exploram como utilizar totalmente o poder do LLM durante a previsão para maximizar o desempenho estatístico. Pesquisa de árvore de Monte Carlo de novo Modelo de recompensa de processo alcançaram resultados notáveis ao decompor o processo de resolução de problemas em várias etapas e, ao mesmo tempo, fornecer recompensas oportunas. No entanto, estes métodos têm limitações de eficiência e flexibilidade para todos os tipos de problemas diferentes.

Na ESTRELAé proposta uma estrutura para transformar LLMs comuns em pensadores de mudança nacional, que resolvem problemas de forma sistemática através da implementação de reformas do Estado, para superar este desafio.

Pesquisadores de Universidade de Tsinghua, Tecnologia Kuaishou, Instituto de Automação e Academia Chinesa de Ciências eles têm proposto Na ESTRELA. O processo envolve três etapas principais: definição de um ambiente regional de resolução de problemas, criação de um conjunto de dados de reformas estatais e formação de LLMs utilizando um currículo de duas fases. O conjunto de dados consiste em dois tipos de casos: a maioria dos casos corretos e a minoria dos casos errados e depois confirmados pelo gerador de dados e pelo pensador treinado. A estratégia de formação tem duas fases para aumentar a eficiência da aprendizagem: a fase básica e a fase avançada. A fase crítica treina o modelo com muitos casos corretos, permitindo resolver problemas simples e capturar o caminho das transições de estado. A seção avançada inclui pares de casos errados e confirmados para fortalecer ainda mais a experiência. O Kwai-DStar foi treinado em benchmarks como o GSM8K, que demonstrou o impressionante desempenho e eficiência do Kwai-STAR. Também mostrou que o Kwai-STAR atinge níveis de precisão mais elevados com procedimentos de mira mais simples do que os exigidos pelos métodos tradicionais.

Concluindo, o Kwai-DStar transforma o LLM tradicional em um raciocinador de transição de estado, o que melhora seu poder de raciocínio para lidar com problemas matemáticos. O atual Kwai-STAR apenas confirmou a sua eficácia no campo da matemática. Embora a base matemática seja desafiadora e representativa, o potencial do espaço de estados para melhorar o raciocínio LLM em situações gerais permanece não comprovado, limitando a generalização do Kwai-STAR. Portanto, os pesquisadores estão trabalhando duro para fornecer resultados mais experimentais em ambientes mais diversos e gerais para demonstrar ainda mais a generalização do método Kwai-STARR.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[AI Magazine/Report] Leia nosso último relatório sobre 'MODELOS DE TERRENO PEQUENOS'

Nazmi Syed é estagiária de consultoria na MarktechPost e está cursando bacharelado em ciências no Instituto Indiano de Tecnologia (IIT) Kharagpur. Ele tem uma profunda paixão pela Ciência de Dados e está explorando ativamente a ampla aplicação da inteligência artificial em vários setores. Fascinada pelos avanços tecnológicos, a Nazmi está comprometida em compreender e aplicar inovações de ponta em situações do mundo real.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

CREAM: um novo método autocompensador que permite ao modelo aprender mais seletivamente e enfatizar dados confiáveis ​​e populares

O que é Agente AI? -MarkTechPost

Google AI apresenta LAuReL (camada residual aumentada aprendida): transformando redes neurais com conectividade residual aprimorada para modelagem eficiente

Deixe um comentário Cancelar resposta

CREAM: um novo método autocompensador que permite ao modelo aprender mais seletivamente e enfatizar dados confiáveis e populares