FineTuneBench: testa a capacidade do LLM de inserir e atualizar informações por meio do ajuste fino

A necessidade de aperfeiçoar os LLMs para incorporar novos conhecimentos e atualizar os conhecimentos existentes está a aumentar. Embora empresas como OpenAI e Google ofereçam APIs de ajuste fino que permitem a personalização do LLM, sua eficácia na atualização de informações ainda precisa ser determinada. LLMs aplicados em áreas como software e medicina exigem conhecimento atual e específico do domínio – os desenvolvedores de software precisam de modelos atualizados com o código mais recente, enquanto a área de saúde precisa aderir às diretrizes mais recentes. Embora as ferramentas de otimização forneçam uma maneira de adaptar modelos proprietários e de código fechado, elas não são transparentes sobre os métodos, e opções limitadas de hiperparâmetros podem limitar a entrada de informações. Não existem parâmetros de referência estabelecidos para avaliar estas capacidades de ajuste fino.

As abordagens atuais para mudança de comportamento LLM incluem SFT, RLHF e pré-treinamento contínuo. Contudo, a eficácia destes métodos de introdução de dados continua por determinar. A geração aumentada de recuperação (RAG) introduz informações no conhecimento, embora os modelos muitas vezes ignorem informações conflitantes, o que causa imprecisões. Pesquisas anteriores examinaram a injeção de conhecimento em LLMs de código aberto usando adaptadores ou ajustando a camada superficial, mas é necessária mais compreensão sobre o ajuste fino de modelos de marketing em grande escala. Estudos anteriores aperfeiçoaram modelos para classificação e resumo, no entanto, este trabalho concentra-se especificamente na entrada de dados e compara múltiplas APIs de ajuste fino em conjuntos de dados compartilhados.

Pesquisadores da Universidade de Stanford criaram o FineTuneBench, uma estrutura abrangente e um conjunto de dados para testar como as APIs comerciais de ajuste fino permitem que os LLMs incorporem informações novas e atualizadas. Testando cinco LLMs avançados, incluindo o GPT-4o e o Gemini 1.5 Pro, em dois contextos – apresentando novas informações (por exemplo, notícias recentes) e atualizando informações existentes (por exemplo, diretrizes médicas) – o estudo encontrou sucesso moderado em todos os modelos. Os modelos tiveram taxa de acerto de apenas 37% para aprendizado de novas informações e 19% para atualização de informações. Entre eles, o GPT-4o mini apresenta um desempenho muito bom, enquanto os modelos Gemini apresentam uma pequena capacidade de atualização de informações, enfatizando as limitações dos atuais serviços de calibração para informações confiáveis.

Para testar como o ajuste fino pode fazer com que os modelos aprendam novas informações, os pesquisadores criaram dois conjuntos de dados diferentes: o conjunto de dados de notícias mais recentes e o conjunto de dados de ficção humana, certificando-se de que não existiam dados nos conjuntos de treinamento dos modelos. O conjunto de dados de notícias mais recentes, gerado a partir das notícias da Associated Press de setembro de 2024, foi modelado em 277 pares de perguntas, que foram então recodificados para testar a robustez do modelo. O conjunto de dados de pessoas fictícias consistia em fatos de perfil sobre personagens fictícios, gerando questões específicas e baseadas em conhecimento. Os modelos são treinados em ambos os conjuntos de dados usando vários métodos, como mascarar respostas a informações. Diferentes configurações e períodos foram testados para melhorar o desempenho.

Os modelos de ajuste fino OpenAI mostram alta memorização, mas generalização limitada de novas tarefas de conhecimento. Embora modelos como o GPT-4o-mini sejam excelentes na recuperação de pares de controle de qualidade treinados, eles têm dificuldade com perguntas reformuladas, especialmente no conjunto de dados hipotético, onde as respostas a perguntas secundárias ou de comparação são frequentemente fracas. A actualização da informação é difícil, especialmente nas actividades de codificação, devido aos desafios na alteração da informação existente. Os modelos de Gêmeos não são bons em todas as tarefas e precisam de ajuda para lembrar ou generalizar de maneira eficaz. Métodos de treino como o mascaramento de palavras e a extinção rápida também não conseguem melhorar a generalização, sugerindo que os paradigmas de treino convencionais podem não promover suficientemente a adaptação.

O estudo fornece o FineTuneBench, um conjunto de dados que testa o poder de LLMs ajustados para encontrar informações em histórias, personagens fictícios, orientações médicas e códigos de biblioteca. Apesar de bem organizados, os modelos apresentaram adaptação limitada das informações, com o GPT-4o-mini superando os demais e o Gemini apresentando desempenho inferior. Depender da otimização LLM continua a ser um desafio, uma vez que os métodos e parâmetros atuais da OpenAI e do Google são limitados. Os métodos RAG também não são ideais devido a questões de custo e escalabilidade. As limitações incluem testar apenas dois provedores de LLM e usar parâmetros automáticos de ajuste fino. Trabalhos futuros examinarão como a complexidade das questões afeta a modelagem.

Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliárias

Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.

🐝🐝 O próximo evento ao vivo do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar as equipes a construir modelos de IA revolucionários , rápido.

Source link

Você também pode gostar...

Microsoft Research apresenta Reducio-DiT: Melhora o desempenho da produção de vídeo com compactação avançada

Uma pesquisa abrangente de modelos de microlinguagem: arquiteturas, conjuntos de dados e algoritmos de treinamento

Assembly AI lança Universal-2: o próximo salto na tecnologia de fala para texto

Deixe um comentário Cancelar resposta