Conheça Sator: uma nova estrutura de IA para a consulta LLM com pensamentos mais profundos sem um modelo de professor forte
Inteligência artificial

Conheça Sator: uma nova estrutura de IA para a consulta LLM com pensamentos mais profundos sem um modelo de professor forte


Grandes modelos de linguagem (LLMS) mostram habilidades de pensamento razoável na solução de problemas matemáticos, lógicos e sistema. No entanto, seu desempenho geralmente depende de duas maneiras: Para direcionar a beleza da diretiva (SFT) Com uma pessoa de cadeias de raciocínio humano e Estratégias de pesquisa de tempo guiados por subsídios externos. Ao administrar uma boa oferta para uma oferta formal, é preciso um importante esforço de defesa e é pressionado pela qualidade do modelo de professores. Estratégias de pesquisa de tempo, como amostra direcionada ao verificador, para melhorar a precisão, mas aumentam os requisitos do computador. Isso levanta uma questão importante: o LLM cultivará habilidades de consulta independentes, sem se inclinar em uma supervisão ampla ou externa? Lidando com isso, os pesquisadores em silêncio SatoriO VLM do parâmetro 7B foi projetado para os métodos de internalização e métodos de rotina.

Apresentando Sator: o modelo para consulta e auto-exame

Investigadores de MIT, Universidade de Tecnologia e Design de Cingapura, Harvard, MIT-IBM Watson AI Lab, IBM Research e Mass Amherst elevação SatoriModelo ativo Pesquisa automática– O mecanismo permite mergulhar suas etapas para consultar e examinar estratégias diferentes de forma independente. Ao contrário dos modelos, dependendo da melhor transformação de boa ordem ou conhecimento, os satories aumentam o novo raciocínio Paradigma de raciocínio da cadeia de ação (casaco). Projetado em QWEN-2.5-MATH-7BSatori segue o esboço de dois estágios: Ajuste em escala de escala (FT) incluindo Ótimo auto-aperfeiçoamento com aprendizado de descanso (RL).

Informações técnicas e benefícios do Satori

A estrutura do treinamento de Satori contém duas categorias:

  1. Fomat Stage de ajuste (ft):
    • Um pequeno conjunto de dados (~ 10k amostras) é usado para introduzir O casaco está raciocínioconsistindo de meta e três ações:
      • Continuar (): Para aumentar a consulta de trajetória.
      • Mostrar (): Motiva o auto-exame nas etapas anteriores de consulta.
      • Verificar (): Promove o modelo para processar alternativas.
    • Ao contrário do treinamento normal do berço, seguindo métodos predefinidos, O casaco permite tomar decisões poderosas Durante o período de consulta.
  2. Fase de Aprendizagem (RL):
    • Um grande processo de auto-estima usando Fortalecendo o aprendizado e reinicialização e avaliação (RAE).
    • Modelo Para reiniciar o pensamento sobre os passos do meioProcessando resolvendo seus problemas.
    • Modelo de recompensa que fornece pontuações com base na verificação e teste, resultando em Leitura contínua.

Compreensão

A avaliação indica que o Satori é mais eficaz em vários bancos, geralmente os modelos que passam depende de boa direção ou informação. A principal detecção, incluindo:

  • Desempenho de matemática para funcionar:
    • O Sator supera o QWEN-2.5-MATH-7B-GRATATE em conjuntos de dados como GSM8K, Matt500, Olyimpikidbench, AMC2023 e AIED24.
    • O poder de melhorar: Com outros ciclos de fortalecimento do fortalecimento, Satori mostra um desenvolvimento contínuo sem entusiasmo adicional.
  • Geração fora de —- Domain:
    • Sem treinamento primário em pensamento matemático, Satori mostra Aptidão furiosa Compreendendo os pensamentos de pensar, incluindo lógico, fólio, boardgama), pensamento social (um grupo de um grupo) e a consulta da tabela (tabela).
    • Isso sugere isso O autodesenvolvimento impulsionado pela RL promove a flexibilidade mais do que condições matemáticas.
  • Para alcançar vitórias:
    • Comparado à reunião Guie uma boa formaçãoSator atinge o mesmo desempenho ou melhor pensamento Com muito poucas amostras de treinamento descritivas (10k vs. modelos comparáveis ​​de 300k).
    • Essa abordagem reduz a dependência da importação da pessoa durante a manutenção de habilidades de pensamento eficaz.

Conclusão: Passo para o aprendizado independente de Ellms

Satori retrata orientação promissora em LLM Research Researchindicando que os modelos não diminuem suas razões sem veribiers externos ou altos modelos de professores. Combinando O casaco é raciocínio, leitura para aprender e pesquisas padrãoSatori mostra que o LLM pode melhorar suas habilidades de pensamento. Este método não está apenas usando problemas de solução, mas também economizando regularmente para atividades invisíveis. Atividade futura pode verificar o refinamento Estruturas de meta-ação, desenvolvendo estratégias de aperto e estendem esses princípios a domínios amplos.


Enquete Página e papel do github. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Plataforma de IA de código aberto recomendado: 'Interestagente Sistema de código aberto com várias fontes para testar o sistema de IA difícil (promovido)


Aswin AK é consultor em Marktechpost. Ele persegue seus dois títulos no Instituto Indiano de Tecnologia, Kharagpur. Você está interessado na leitura científica e científica e de máquinas, que traz uma forte formação e experiências educacionais para resolver os desafios reais de desenvolvimento de fundo.

✅ [Recommended] Junte -se ao nosso canal de telégrafo



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *