RLEF: um método de aprendizado por reforço para usar feedback na síntese de código

Modelos de Linguagem em Grande Escala (LLMs) geram código suportado por Processamento de Linguagem Natural. Há um uso crescente da geração de código em tarefas complexas, como desenvolvimento e teste de software. O alinhamento extensivo com as entradas é essencial para uma saída inteligente e livre de erros, mas os engenheiros identificaram isso como computacionalmente exigente e demorado. Portanto, a criação de uma estrutura para um algoritmo de auto-aperfeiçoamento para fornecer feedback em tempo real na forma de mensagens de erro ou contrapontos tem sido essencial para enfrentar este desafio.

Tradicionalmente, os LLMs são treinados em algoritmos de aprendizagem supervisionada que utilizam grandes conjuntos de dados rotulados. Eles não são flexíveis e apresentam problemas comuns, o que dificulta a adaptação do LLM ao ambiente do usuário. Muitas amostras devem ser geradas pelo algoritmo, o que aumenta o custo computacional. Um ciclo de feedback funcional foi proposto para resolver este problema, onde os modelos aprendem a adaptar seus resultados aos requisitos de entrada, fornecendo feedback repetidamente naquele ambiente específico. Esta máquina também reduz o número de amostras produzidas. Porém, depender do local da execução era uma coisa ruim.

Com este artigo, a equipe de pesquisa Meta AI apresenta uma estrutura de aprendizagem por reforço que usa codificação de loop de feedback artificial. O LLM gera código com base em comandos do usuário, testa alguns casos de teste públicos e fornece feedback. Esse processo cria um loop iterativo e o algoritmo aprende a trabalhar para maximizar a recompensa. A inovação da estrutura de aprendizagem por reforço estava forçando um ciclo de feedback para comunicação com diferentes áreas.

Durante o treinamento dos modelos em RLEF, o refinamento do código iterativo continua até que uma conclusão seja alcançada: todos os casos de teste públicos são bem-sucedidos ou um limite de iteração predefinido é atingido. Na verdade, os testes também são feitos em casos de teste privados, o que também ajuda a evitar situações de superlotação. Também é possível descrever este processo no âmbito do Processo de Decisão de Markov (MDP). O sistema de premiação é muito detalhado e os pontos só são concedidos se cada caso de teste for aprovado. Em todos os outros casos, há sempre multa. Antes de chegar ao resultado final, o comportamento do LLM é então ajustado usando Proximal Policy Optimization (PPO).

O código-fonte deste teste foi gerado durante a análise de benchmark CodeContests. Os resultados acima mostraram que com o treinamento RLEF, o desempenho dos modelos melhorou quando limitado a alguns casos amostrais, mas amostras grandes não melhoraram. Para modelos mais antigos, a taxa de resolução aumenta de 4,1 para 12,5 no conjunto válido e de 3,2 para 12,1 no conjunto de teste. Antes do treinamento RLEF, a resposta entre as curvas não melhorou os modelos básicos como GPT-4 ou 70B Llama grande 3.1 Após o treinamento RLEF; os melhores modelos para melhorar o 70B Llama 3.1 grande em condições multivoltas a partir da resposta de saída durante a execução. Observou-se também que os modelos treinados com RLEF fazem alterações de código mais distintas e precisas entre as respostas em comparação com modelos não RLEF, que tendem a retornar soluções incorretas repetidamente apesar de receberem orientação.

Concluindo, o Aprendizado por Reforço com Feedback de Execução (RLEF) é um avanço para modelos de linguagem em larga escala (LLMs) na geração de código. Portanto, o ciclo de feedback iterativo também é adaptável a diferentes configurações, melhora o RLEF e aumenta o poder dos modelos para atualizar o resultado com base no desempenho atual mais alto. As descobertas revelam um aumento no desempenho do modelo no processamento de conversas multivariáveis e uma redução no tempo de computação e nas taxas de erro. A RLEF apresenta uma abordagem lógica para superar os desafios da aprendizagem supervisionada e ajuda a desenvolver uma codificação eficiente e flexível para engenharia de software.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

Interessado em promover sua empresa, produto, serviço ou evento para mais de 1 milhão de desenvolvedores e pesquisadores de IA? Vamos trabalhar juntos!

Afeerah Naseem é estagiária de consultoria na Marktechpost. Ele está cursando bacharelado em tecnologia no Instituto Indiano de Tecnologia (IIT), Kharagpur. Ele é apaixonado por Ciência de Dados e fascinado pelo papel da inteligência artificial na resolução de problemas do mundo real. Ele adora descobrir novas tecnologias e explorar como elas podem tornar as tarefas diárias mais fáceis e eficientes.

Source link

Você também pode gostar...

Pesquisadores da Meta AI apresentam um modelo de recompensa do pesquisador em nível de token (TLDR) para fornecer anotações bem caracterizadas de modelos de linguagem de grandes ideias

Pesquisadores do Google DeepMind propõem RT-Affordance: uma abordagem de recursos que usa custos como representações centrais de políticas

MassiveDS: um armazenamento de dados de 1,4 trilhão de tokens que permite que modelos de linguagem alcancem maior desempenho e precisão em aplicativos de PNL com uso intensivo de informações

Deixe um comentário Cancelar resposta