Repensando o alinhamento direto: estimando a probabilidade e a variabilidade para um melhor desempenho do modelo

O problema da otimização excessiva da probabilidade de Algoritmos de Alinhamento Direto (DAAs), como Otimização de Preferência Direta (DPO) e Otimização de Preferência de Identidade (IPO), surge quando esses métodos não conseguem melhorar o desempenho do modelo, apesar de aumentarem a probabilidade de resultados preferidos. Esses algoritmos, diferentes do Reinforcement Learning From Human Feedback (RLHF), visam adaptar modelos de linguagem às preferências humanas, preparando diretamente os resultados desejados, sem modelagem de recompensa explícita. No entanto, o aumento da probabilidade por si só pode, por vezes, degradar o desempenho do modelo, indicando uma falha fundamental na utilização da probabilidade como critério principal para o alinhamento.

Pesquisadores da University College London e Cohere estão examinando a questão da otimização excessiva em DAAs modernos de alinhamento direto, investigando se aumentar a probabilidade de uma boa conclusão (ou seja, escolha) e reduzir a probabilidade de um final ruim leva a um melhor desempenho. A investigação mostra que uma probabilidade mais elevada nem sempre corresponde a um melhor desempenho dos modelos, especialmente em termos de relevância para as preferências das pessoas. Em vez disso, concluem que uma ligeira redução da probabilidade tende a melhorar a variabilidade dos resultados do modelo, o que melhora a generalização para dados não observados. Além disso, os pesquisadores identificaram dois indicadores principais que mostram quando a otimização excessiva começa a degradar o desempenho: diminuição da entropia sobre os tokens Top-k e diminuição da massa de probabilidade Top-k.

A estrutura desta abordagem de pesquisa inclui uma análise aprofundada da relação entre a probabilidade de conclusão e as métricas de desempenho em diferentes DAAs. Os pesquisadores usaram dois modelos ajustados por disciplina (parâmetros 7B e 35B) treinados no conjunto de dados ULTRAFEEDBACK, que contém dados agregados de preferências binárias. Eles treinaram cada modelo usando diferentes hiperparâmetros para DPO, IPO e função de perda de dobradiça, monitorando a probabilidade logarítmica de terminação preferencial. Este estudo também utilizou esquemas gerais como Negative Log-Likelihood (NLL) para minimizar o melhor desempenho e avaliar o desempenho geral usando LLM-as-a-Judge, uma estrutura para comparar os resultados dos modelos com aqueles de outros modelos avançados.

Os resultados do teste mostraram que a maior probabilidade de finalizar a seleção não melhora a probabilidade de vitória em comparação com modelos como o GPT-3.5 Turbo. Por exemplo, ambos os modelos 7B e 35B mostraram uma correlação fraca entre a probabilidade de conclusão e a probabilidade melhorada de vitória, sugerindo que a conclusão excessiva pode prejudicar o desempenho do modelo. Além disso, os modelos com uma probabilidade ligeiramente reduzida de completar as preferências tendem a apresentar maior variabilidade nos resultados, o que se correlaciona bem com a melhoria geral. Esse desenvolvimento foi mais importante durante os estágios iniciais do treinamento. É importante ressaltar que a pesquisa mostrou que a variância excessiva, embora inicialmente benéfica, pode eventualmente reduzir o desempenho do modelo se o modelo começar a produzir resultados excessivamente aleatórios.

A conclusão do estudo enfatiza que manter o equilíbrio certo entre aumentar a probabilidade de eliminação de preferências e promover a diversidade é importante para melhorar o desempenho dos modelos. Os pesquisadores propõem o monitoramento da entropia e da densidade de probabilidade como indicadores iniciais para maior otimização para evitar a degradação do desempenho. Eles também sugerem que métodos flexíveis de adaptação podem ser usados durante o treinamento para alcançar esse equilíbrio. As implicações dessas descobertas são importantes para o desenvolvimento de métodos de aprendizagem de preferências offline, fornecendo estratégias para melhorar os DAAs sem cair na armadilha da otimização.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

[Upcoming Live Webinar- Oct 29, 2024] Melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (avançado)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Microsoft AI lança modelo OmniParser no HuggingFace: um módulo compacto de análise de tela que pode transformar capturas de tela da interface do usuário em objetos editáveis

Conheça Matrix: uma nova abordagem de IA para produção de vídeos de duração infinita e em tempo real

Jupyter Releaser: lançamento fácil de software para o ecossistema Jupyter

Deixe um comentário Cancelar resposta