Principais modelos de linguagem (LLMs) eles são usados para criar perguntas baseadas em fatos ou contexto, mas pode ser difícil entender o quão boas essas perguntas são. O desafio é que as perguntas feitas pelos LLMs muitas vezes diferem daquelas feitas pelos humanos em termos de extensão, tipo ou quão bem se ajustam ao contexto e podem ser respondidas. Avaliar a qualidade destas questões é difícil porque muitos métodos requerem muito trabalho humano ou utilizam apenas números simples que não mostram o quadro completo. Isto torna difícil julgar as perguntas corretamente e cria problemas para melhorar a forma como os LLMs fazem perguntas ou evitam erros quando são usadas incorretamente.
Enquanto isso geração de consulta (QG) Os métodos usam técnicas automatizadas para gerar perguntas baseadas em fatos. Embora existam muitos métodos, eles dependem de etapas estatísticas simples ou exigem muito esforço de rotulagem manual, ambos limitados na avaliação da qualidade total das consultas geradas. Os métodos estatísticos não captam significados e situações profundas, tornando a rotulagem humana demorada e ineficiente. Embora os LLMs sejam altamente desenvolvidos, tem havido uma avaliação limitada de como estes modelos geram questões e avaliam a sua qualidade, levando a lacunas na compreensão e no desenvolvimento.
Para resolver problemas na geração de consultas (QG), pesquisadores de Universidade da Califórnia em Berkeley, KACST, de novo na Universidade de Washington propôs uma estrutura de avaliação automática usando Large Language Models (LLMs). Esta estrutura gera questões baseadas em um determinado contexto e o avalia em seis dimensões: tipo de pergunta, comprimento, contexto, resposta, incomum, de novo o comprimento da resposta necessária. Ao contrário dos métodos tradicionais baseados em preconceitos de classificação ou métricas limitadas, este método analisa completamente a qualidade e as características das questões geradas pelos LLMs. Ele as compara com perguntas geradas por humanos e mostra como os LLMs se concentram igualmente em diferentes partes do contexto, produzindo perguntas descritivas e independentes que cobrem todas as informações relevantes.
Após o experimento, os pesquisadores testaram a geração de perguntas (QG) baseada em LLM usando 860.000 seções do Conjunto de dados WikiText gerando perguntas independentes sem pistas contextuais diretas. Eles analisaram o tipo, a duração e o conteúdo geral da pergunta e encontraram uma duração média da pergunta 15 palavras com 51,1% nível de palavra e 66,7% nível de contextualização da frase. As respostas foram mais altas com contexto, mas baixas sem contexto, indicando que o contexto é importante. Os pesquisadores reduziram o número de palavras de resposta de 36 para 26 sem perder qualidade, o que mostra melhora na QG padrão e técnicas de avaliação.
Em resumo, o método proposto analisou as questões geradas pelo LLM e destacou suas características específicas e diferenças em relação às questões feitas pelo homem. Além disso, os pesquisadores introduziram um método de teste automatizado para melhorar a compreensão e otimização das tarefas de QG. Este trabalho pode servir como base para pesquisas futuras para desenvolver QG baseado em LLM, para explorar funções específicas de aplicativos, cenários específicos de domínio e melhor alinhamento com conteúdo gerado por humanos.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Divyesh é estagiário de consultoria na Marktechpost. Ele está cursando BTech em Engenharia Agrícola e Alimentar pelo Instituto Indiano de Tecnologia, Kharagpur. Ele é um entusiasta de Ciência de Dados e Aprendizado de Máquina que deseja integrar essas tecnologias avançadas no domínio agrícola e resolver desafios.
✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)