O alinhamento com as preferências humanas levou a um progresso significativo na geração de respostas confiáveis, seguras e úteis a partir de grandes modelos de linguagem (LLMs). Através deste processo de alinhamento, os modelos estão mais bem equipados para compreender e representar o que as pessoas consideram relevante ou importante nas suas interações. Mas manter o desenvolvimento dos LLMs alinhado com esta tendência é uma tarefa difícil. O processo de recolha do tipo de dados de alta qualidade necessários para este alinhamento é caro e demorado. É um desafio crescer e manter durante um longo período de tempo, pois muitas vezes requer muita engenhosidade e participação humana.
Um método exclusivo conhecido como SynPO (Otimização de Preferência Sintética) foi criado para superar esses obstáculos. SynPO é um método de autoaperfeiçoamento que melhora o alinhamento do LLM sem depender muito de anotações humanas, criando dados artificiais. Ao utilizar um processo iterativo para gerar e melhorar informações sintéticas, essa estratégia faz com que o modelo aprenda e melhore a cada ciclo. Gerador rápido e intensificador de resposta são seus dois componentes principais.
- Gerador Automático: Este componente usa os recursos integrados do modelo para gerar diversas informações. Em vez de depender de conjuntos de dados complexos ou de contribuições humanas externas, utiliza o próprio LLM para fornecer uma gama de indicadores que fornecem diferentes cenários e respostas. Este processo de geração cria um ambiente de treinamento rico ao permitir que o modelo investigue diversos cenários e dificuldades.
- Response Enhancer: O Response Enhancer melhora muito os resultados do modelo, melhorando as respostas geradas ao longo de cada ciclo. Orienta o LLM a fornecer melhores resultados que sejam mais semelhantes aos resultados pretendidos, identificando áreas onde as respostas iniciais do modelo são inadequadas e fazendo os ajustes necessários. Ele ensina ao modelo como encontrar esse nível de qualidade com pequenos ajustes, depois de ajudá-lo a identificar o que constitui uma boa resposta.
SynPO combina esses dois recursos para permitir que os próprios LLMs aprendam com os próprios ciclos de feedback sintético. O modelo melhora gradativamente na compreensão e satisfação das expectativas dos usuários, treinando-se nos estímulos que recebe para gerar melhores respostas. Essa abordagem automatizada é altamente eficiente e escalonável, pois reduz bastante a necessidade de rotulagem manual de dados e coleta de preferências.
SynPO demonstrou ser benéfico em vários domínios funcionais importantes. Seguir as instruções melhorou significativamente os LLMs, como Llama3-8B e Mistral-7B, após apenas quatro iterações deste ciclo de autoaperfeiçoamento. Em particular, estes modelos melhoram significativamente a sua capacidade de produzir a resposta desejada, como evidenciado por um aumento na taxa de vitória de mais de 22,1% em benchmarks de teste como AlpacaEval 2.0 e ArenaHard. Um aumento de 3,2% a 5,0% na pontuação média no ranking Open LLM, um indicador comumente usado de competência em LLM, mostrou que o SynPO está ajudando a melhorar a competência em LLM em múltiplas ocupações.
A equipe resumiu sua principal contribuição da seguinte forma.
- SynPO é um processo de autoaperfeiçoamento que permite aos LLMs gerar repetidamente dados de treinamento sintéticos de alta qualidade. Ele melhora a variedade e a quantidade de pedidos e respostas gerados, eliminando a necessidade de dados de preferências definidos por humanos.
- Usando ciclos de treinamento iterativos, o SynPO ajuda os LLMs a melhorar seus resultados. Ele permite que os LLMs aprendam com a geração de feedback e aumentem gradualmente suas habilidades usando respostas pré e pós-refinamento como pares de preferências artificiais.
- SynPO melhora o desempenho geral dos LLMs e sua capacidade de seguir instruções. Os LLMs mostram um progresso significativo em três a quatro iterações, provando que este método é eficaz no aumento das capacidades do modelo.
Concluindo, SynPO é uma forma eficaz de desenvolver LLMs sem incorrer nos altos custos associados aos métodos tradicionais de coleta de dados. O treinamento iterativo e os dados sintéticos permitem que os LLMs evoluam e se adaptem, tornando-se mais relevantes para as preferências das pessoas, ao mesmo tempo que mantêm a flexibilidade para diversas aplicações.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Tanya Malhotra está em seu último ano na Universidade de Estudos de Petróleo e Energia, Dehradun, cursando BTech em Engenharia de Ciência da Computação com especialização em Inteligência Artificial e Aprendizado de Máquina.
Ele é um entusiasta de Data Science com forte pensamento analítico e analítico, e grande interesse em adquirir novas habilidades, liderar equipes e gerenciar o trabalho de maneira organizada.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️