Um alinhamento eficaz de grandes idiomas usando um guia em nível de token com grão

Os grandes modelos de idiomas devem se adaptar à preferência pessoal, mas os métodos tradicionais de alinhamento exigem reembolsos caros e combate as preferências poderosas ou conflitantes. As medidas de alinhamento usam os modelos de recompensa (RMS) evitam relatar, mas para lidar com o desemprego devido à confiança na trajetória permanece, analisando as respostas completas, em vez de ser direcionado à geração do general.

Os planos de alinhamento existentes se enquadram em duas etapas: Métodos de tempo de treinamento Assim como a reabilitação da resposta da resposta do povo (RLHF) e a preferência direta por preferências (DPO), que é o Fin-Tane LLMS nos dados de especificações, mas pode buscar recursos excelentes de computador e não pode permitir novas alterações. Métodos de avaliação de tempo Use o RMS para orientar o Frozen LLMs, mas confie no RMS do nível de trajetória, dando uma recompensa para concluir as respostas. Isso cria má conduta durante a geração de autora, onde as seguintes decisões de token requerem um teste de resposta parcial. Por exemplo, a bunda próxima à recompensa do token, instalando RMS de trajetória em relevos não perfeitos, o que resulta apenas com as respostas completas. Outros métodos, como transferência -q, produzem muitas respostas cheias de cada token escolhido, para multiplicar os custos de medição. Isso não funciona bem como o crime e a flutuação de tempo real.

Uma referência:

Lidando com esses problemas, pesquisadores da Universidade de Maryland, College Park e JPMorgan AI Research Research Research Research Research Bolsa (Dirigido General de Recompensa com o modelo de reajé de reordenação automática)O alinhamento da estrutura de avaliação de avaliação consiste em um novo RM automático para retiradas corrigidas. O principal estabelecimento é este Modelo de recompensa no AutorgressReligião com recompensas no nível da trajetória em peças no nível do porcen. Em vez de complementar uma recompensa pela resposta completa, prever as recompensas da maré anterior, fazendo redirecionamento, permitindo regulamentação, permitindo que as recompensas direcionem cada opção sem verificar uma resposta parcial.

Durante a geração, o GEMMM inclui as recompensas no nível RM de automóveis com a doença do BLM. O próximo token é organizado pela distribuição convertida. Diferentemente dos métodos anteriores, isso requer o final da referência aos modelos de base e recompensa por token, para evitar a exposição à exposição.

Os testes refletem os benefícios do GEMM nos três casos:

1. Para combinar com a preferência de uma pessoa comum: No conjunto de dados HH-RLHF, a base dos dados do Gerers supera

2. Guias fracos para mais fortes: O 7B Autorgreate RM direciona com sucesso os modelos Marger (13b, 70b) sem se divertir. Ele passa por DPO em uma escala de 7b e é quase acompanhado pelo DPO em uma escala de 13b. Na escala de 70b, o Thumm recebe mais de 70% da diferença de trabalho em ambos os níveis de vitória entre os 70Bs principais, tudo sem a necessidade de orientar o 70B LLIM, indicando que pequenos RMs podem ser ótimos.

3. Mais alinhamento de propósito: Os modelos GEMM são moderadamente contraditórios (por exemplo, ajuda versus fraqueza) integrando recompensas de muitos RMs. No conjunto de dados PKU-SAFERLHF-10K, atinge a borda frontal de Pareto entre a sopa dominada e está alinhada com o objetivo de vários propósitos sem retornar.

O design autogreado da RM confirma qualquer trabalho de recompensa disponível com RMS tradicional na estrutura de estudo padrão do CL. A confirmação teórica, combinada com a fatoração do nível de token, faz uma reserva para sons e funciona bem. Ao contrário do RMS de nível tendorial, componentes de combate, um RMS trabalhado automaticamente oferece uma resposta precisa e crescente, para impedir o hacking ou o excel de longas gerações.

Em suma, a lacuna de cerveja da Generm entre treinamento alternativo e o tempo alinhando os modelos de Revador Autorereven elimina a demanda por custos caros de LMM, apoiando uma sincronização poderosa de várias popularidade, bem como escalas apropriadas em grandes modelos. Lidando com o trabalho real do nível de trajetória e permite uma forte orientação, a GenMM fornece uma solução eficaz para sincronizar o LLMS em serviços de dificuldade. Trabalhos futuros podem estender esse método de empregos, como consulta matemática ou códigos, onde as recompensas do estádio podem melhorar o funcionamento sem uma boa ordem.

Enquete o papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Recomendado para um código aberto de IA' _(Atualizado)

Weneet Kumar é estudante de um consultor em Marktechpost. Atualmente, ele perseguiu seu BS do Instituto Indiano de Tecnologia (IIT), Kanpur. Ele é um entusiasmo de aprendizado de máquina. Ela é apaixonada pela pesquisa recente e raiva na aprendizagem mais profunda, na ideia de computador e nos campos relacionados.

✅ [Recommended] Junte -se ao nosso canal de telégrafo

Source link

Você também pode gostar...

Este artigo sobre IA da Meta AI revela o Dualformer: pensamento controlado e lento e trilhas de pensamento aleatório, tomada de decisões de IA

Google AI Research apresenta Caravan MultiMet: uma nova extensão do Caravan para melhorar a previsão hidrológica com dados multimeteorológicos

Este artigo da IA ​​verifica o feedback excepcional no LLMS: Explorando a representação oculta da representação da previsão de texto

Deixe um comentário Cancelar resposta

Este artigo da IA verifica o feedback excepcional no LLMS: Explorando a representação oculta da representação da previsão de texto