Entrevista de grandes modelos de idiomas (LLMS), a ajuda da conversa e conversa e conversa e conversa e conversa e conversa e conversa e conversa, entrevistas e conversas. No entanto, um desafio significativo surgiu na forma de uma diminuição no aumento ao usar o RLHF. A pesquisa identificou o comércio crítico entre a qualidade do alinhamento e as variações da remoção de modelos de treinamento de RLHF. Quando esses modelos se adaptam, você é muito sincrônico e declarações, indicam variações limitadas. Esse limite coloca a ansiedade sobre atividades abertas, como geração, integração de dados e integração vermelha, onde vários resultados são importantes para funcionar corretamente.
O alinhamento WLM existente se concentra na promoção das seguintes instruções, segurança e confiança no RLHF, mas esse desenvolvimento geralmente ocorre à custa da saída. Vários métodos são projetados para enfrentar esse desafio, incluindo o uso de algoritmos F-DPO / PPO de deferimento F, tentando equilibrar diferenças e alinhamento. Outras avaliações métricas incluem métricas como Selbluu e frases – o ajuste do RL para melhorar as diferenças, especialmente as combinações vermelhas. Além disso, alguns pesquisadores avaliaram os métodos de aprendizado doente – a partir de caminhos para cálculos com base em erros. Apesar desses esforços, o comércio básico entre a qualidade da qualidade do alinhamento e da produção continua sendo um grande desafio.
Os investigadores do Baidu propõem um novo quadro chamado Reading Curve de novembro do povo (CD -RLHF) para lidar com a diversidade – alinhamento aos modelos de negociação em idiomas. Essa abordagem inclui uma curiosidade como um meio de renovar o pagamento durante a fase de treinamento do RLHF, opera juntamente com a extrusática tradicional de recompensas a partir de um modelo de recompensa. O CD-RLHF usa energia dinâmica à frente para combinar os erros de prever preditores mundiais, o que ajuda a medir a curiosidade. Um fator importante desse método é que as províncias regulares são um pouco interessantes no modelo. Este programa de recompensa dupla visa manter a integração de alta qualidade.
A implementação e o teste do CD-RLHF incluem muitos componentes e conjuntos de dados. A construção foi testada em dois detalhes principais: TL; Dr Sumnication, que contém 93k pares, e o ultra -benefício em pares, em 61,1k em pares. A estrutura é usada por várias formas, incluindo Gemma-2b, Gemma-7b, Gemma-7b, LLMA-3.2-3B, todos treinados dentro da estrutura. Os dados de treinamento foram distribuídos nas categorias SFT, RM e PPO em uma escala de 20/50/40. Comparando métodos, métodos incluindo RLHF de baunilha e recompensas – as recompensas são úteis, usando pontuações e camisetas de Selvenen como recompensas adicionais durante o treinamento.
Os resultados do teste indicam alto desempenho do CD-RLHF em vários menus e modelos de teste. Para tl; Dr. Safalazatizatizatzalts, o CD-RLHF atinge uma grande melhoria de 16,6% de 6,22% no GEMMA-2B e GEMMA-7B em ordem em comparação com a base do RLHF. Para o comando Ultrafeedback eficaz, o método mostra os resultados mais impressionantes, para o desenvolvimento da diversidade de 7,35% a 14,29% de modelos diferentes, enquanto armazenam uma qualidade forte. Os testes externos são mostrados no CD-RLHF para obter 58% de valores contra a linha de base do PPO no TL; Dr. e uma medida de 62% em Ultrafeedback.
Em conclusão, os pesquisadores apresentaram o CD-RLHF representando desenvolvimentos importantes ao lidar com a formação de modelo. A estrutura consiste nas constriscinas nas recompensas tradicionais para melhorar as variáveis de saída, mantendo a qualidade do alinhamento, conforme indicado por testes amplos no TL; Apesar dessas realizações, vários desafios permanecem, incluindo a necessidade de medir várias escalas de recompensa e lacuna persistente entre a liberação da liberação de SFTs e modelos RLHF. Enquanto o CD-RLHF promove o comércio entre diversidade e alinhamento, é necessária mais pesquisas para fechar a lacuna da lacuna e obter eficiência nas duas métricas.
Enquete Página e papel do github. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 70k + ml subreddit.
🚨 Conheça o trabalho: um código aberto aberto com várias fontes para verificar o programa difícil AI (Atualizado)
SAJJAD ANSARI O último ano menor que as qualificações do IIT Kharagpur. Como entusiasmo de tecnologia, ele se estende a aplicativos práticos de IA que se concentram no entendimento do impacto tecnológico da IA e seus verdadeiros impactos no mundo. Com a intenção de especificar os conceitos de uma maneira complexa de AI clara e acessível.
✅ [Recommended] Junte -se ao nosso canal de telégrafo