IB-STAR: uma estrutura de autoaprendizagem de IA para LLMs

Existe uma correlação direta entre a qualidade do curso de formação LLM e a sua capacidade. Portanto, os investigadores têm investido muito esforço na seleção de conjuntos de dados de alta qualidade, que são, neste momento, acessíveis através de anotações humanas criativas. Os conjuntos de dados produzidos pelo homem, no entanto, têm uma desvantagem: a sua fiabilidade torna-se cada vez mais improvável à medida que a complexidade aumenta.

Muitos métodos têm sido usados para lidar com isso, e uma dessas ideias é a ideia de autoaperfeiçoamento, fornecendo soluções simples e econômicas. É um processo contínuo onde o loop é executado até que as respostas geradas sejam refinadas. Ao fazer isso, a autopromoção elimina a necessidade de muitas informações humanas. Embora o autodesenvolvimento seja, sem dúvida, um fenómeno promissor e a sua implementação comprove o seu rápido desenvolvimento, a nossa compreensão superficial dele também não pode ser ignorada. A maioria das estratégias de autoaperfeiçoamento iniciadas não crescem e ficam saturadas após três a cinco iterações. Ainda temos uma compreensão profunda dos principais fatores e restrições que impulsionam o desenvolvimento bem-sucedido. Não só isto, mas também não sabemos porque é que os métodos de desenvolvimento interno permanecem invisíveis.

No seu último artigo, investigadores da Universidade de Ciência e Tecnologia de Hong Kong identificaram e propuseram formas de monitorizar os principais aspectos do autoaperfeiçoamento repetido. Os autores identificaram dois fatores poderosos, mas importantes, que afetam o processo de desenvolvimento: exploração e aproveitamento. Testabilidade refere-se à capacidade de um modelo de produzir respostas corretas e diferentes. Por outro lado, a manipulação determinou a eficácia das recompensas externas na seleção de soluções de alta qualidade. Os autores apresentaram fortes evidências para confirmar que essas habilidades podem levar ao crescimento atrofiado ou reduzido. Qualquer conflito entre os dois prejudica o desempenho do modelo.

Em resposta aos problemas acima, a equipe de pesquisa propôs o Balanced Self-Taught Learning Expert, B-STAR: um novo método de autoaperfeiçoamento para monitorar e equilibrar esses fatores motivacionais e para melhorar a política atual e o uso de recompensas. Eles introduziram uma nova métrica pontos de equilíbrio para ajustar a configuração de temperatura das amostras e vazamentos desnecessários no processo de treinamento. O Balance Score avalia a força da questão com base na força do teste e na exploração do modelo. O I-STAR então aumenta a relação de equilíbrio ajustando as configurações para corresponder à potência acima.

O Balance Score captura a interação de duas habilidades medindo a quantidade total de dados de entrada no treinamento. A métrica foi projetada para ter um alto número e proporção de respostas de alta qualidade. Os autores então modificaram essa pontuação com uma configuração de hiperparâmetro.

O B-STAR foi testado em problemas matemáticos, desafios de codificação e tarefas de raciocínio lógico. Os resultados desses testes mostraram que o B-STAR guiou com sucesso o modelo para as respostas corretas e, assim, alcançou pontuações consistentemente altas. O I-STAR também produziu respostas de alta qualidade, confirmando a melhoria da sua capacidade de testes. O método proposto tem mantido uma taxa de crescimento elevada, ao contrário de outras bases, que desaceleram e param. Assim como nos experimentos feitos no artigo, inicialmente foram escolhidas baixas temperaturas e posteriormente aumentadas para dar conta das limitações do modelo durante o treinamento. O oposto é seguido na seleção do limite de recompensa, onde as recompensas máximas são inicialmente definidas para garantir uma classificação forte do modelo fraco.

A conclusão-: IB-STAR captura a interação de capacidades experimentais e exploráveis e apresenta um método simples de configuração de hiperparâmetros com uma nova métrica para medir os recursos acima e melhorar o desempenho no processo de autoaperfeiçoamento. Este artigo constitui a base para pesquisas aprimoradas na definição de avaliação e manipulação para aumentar a qualidade das respostas geradas.

Confira eu Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Você também pode gostar...

Texto: Estrutura de desenvolvimento de aplicativos ARapid para Python

Salesforce AI Research propõe verificador baseado em conjunto de dados para melhorar a consistência da consultoria LLM

Neural Magic revela Machete: um novo kernel GEMM integrado para GPUs NVIDIA Hopper

Deixe um comentário Cancelar resposta