OpenAI lança SimpleQA: um novo benchmark de IA que mede a validade de modelos de linguagem

O aumento de grandes amostras linguísticas tem sido acompanhado de desafios significativos, especialmente no que diz respeito à verificação da validade das respostas obtidas. Um problema constante é que estes modelos podem produzir resultados falsos ou enganosos, algo frequentemente chamado de “alucinação”. Essas suposições ocorrem quando os modelos produzem informações que parecem confiáveis, mas são incorretas ou não verificáveis. Dada a crescente dependência da IA para obter informações, a precisão factual tornou-se crítica. No entanto, verificar esta precisão não é fácil, especialmente quando se preenche um longo formulário repleto de muitas afirmações factuais.

OpenAI é apenas código aberto SimpleQA: um novo benchmark que mede a precisão das respostas geradas por modelos de linguagem. SimpleQA é único em seu foco em perguntas curtas que buscam a verdade, com uma resposta única e indiscutível, facilitando o teste da veracidade das respostas modeladas. Ao contrário de outros benchmarks que tendem a ficar desatualizados ou preenchidos com o tempo, o SimpleQA foi projetado para ser desafiado pelos modelos de IA mais recentes. As perguntas no SimpleQA são criadas de forma antitética às respostas do GPT-4, garantindo que mesmo os modelos linguísticos mais avançados tenham dificuldade para respondê-las corretamente. O benchmark consiste em 4.326 questões cobrindo uma variedade de domínios, incluindo história, ciência, tecnologia, arte e entretenimento, e foi projetado para testar extensivamente a precisão e a medição do modelo.

O design do SimpleQA segue certos princípios para garantir que funcione como um forte verificador de fatos. Primeiro, as perguntas são criadas com alta precisão em mente: cada pergunta tem uma resposta de referência determinada por dois treinadores independentes de IA para garantir a consistência. O conjunto de dados foi selecionado para focar apenas em questões que poderiam ser respondidas com uma resposta única e clara, evitando ambiguidades e simplificando a classificação. Além disso, a classificação é feita por um classificador ChatGPT treinado, que avalia as respostas como “corretas”, “incorretas” ou “não tentadas”. Esta estrutura específica permite aos investigadores testar como os modelos funcionam sob restrições realistas.

A diversidade de questões é outra vantagem importante do SimpleQA. Inclui um amplo conjunto de tópicos para prevenir especialistas em modelos e garantir um teste completo. Além disso, a usabilidade do conjunto de dados é aprimorada pela sua simplicidade – tanto as perguntas quanto as respostas são curtas, o que torna o benchmarking mais rápido e reduz a variabilidade durante a implementação do teste. É importante ressaltar que o SimpleQA também inclui questões que comprovadamente são relevantes ao longo do tempo, eliminando assim o impacto da mudança de informações e tornando-o um benchmark “perene”.

A importância do SimpleQA reside na sua avaliação objetiva das capacidades reais dos modelos de linguagem. Em um mundo onde a maioria dos benchmarks são “resolvidos” pelos modelos mais recentes, o SimpleQA foi projetado para permanecer desafiador mesmo em modelos limítrofes como GPT-4 e Claude. Por exemplo, modelos como o GPT-4o pontuaram apenas cerca de 38,4% em termos de respostas corretas, destacando a capacidade do benchmark de investigar áreas onde até mesmo os modelos avançados têm dificuldades. Outros modelos, incluindo Claude-3.5, tiveram desempenho igual ou pior, mostrando que SimpleQA representa um desafio consistente para todos os tipos de modelos. Portanto, esta medida fornece informações importantes sobre a medição e fiabilidade das amostras linguísticas – especificamente a sua capacidade de reconhecer quando têm conhecimento suficiente para responder com confiança e precisão.

Além disso, as métricas de classificação do SimpleQA fornecem poucos insights sobre o comportamento do modelo. O benchmark não apenas calcula a porcentagem de perguntas respondidas corretamente, mas também mede o “esforço dado como correto”, uma métrica semelhante à precisão. Essas duas métricas são combinadas para obter a pontuação F, que fornece um único número de fatos. Notavelmente, os resultados do SimpleQA sugerem que os modelos linguísticos tendem a superestimar a sua confiança, com um grande número de tentativas incorretas. A análise revelou que, embora os modelos maiores apresentem uma melhor aproximação (o que significa que são melhores a reconhecer quando sabem a resposta correta), a sua precisão global deixa espaço para melhorias.

SimpleQA é um passo importante para melhorar a confiabilidade das informações geradas por IA. Ao concentrar-se em perguntas curtas e baseadas em factos, fornece uma referência prática e fácil de usar que ajuda a testar um aspecto importante dos modelos de linguagem: a sua capacidade de produzir conteúdo factual de forma consistente. Dado o design que desafia os benchmarks, o SimpleQA estabelece um alto padrão de precisão, incentivando pesquisadores e desenvolvedores a construir modelos que não apenas reproduzam a linguagem, mas o façam de forma realista. A disponibilidade aberta do SimpleQA fornece à comunidade de IA uma ferramenta importante para testar e melhorar a verdadeira precisão dos modelos de linguagem, ajudando a garantir que os futuros sistemas de IA sejam instrutivos e confiáveis.

Confira Papel, Detalhesde novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Databricks Mosaic Research explora geração aprimorada de recuperação de contexto longo: como modelos avançados de IA lidam com informações estendidas para maior precisão de resposta

Microsoft Paint + IA = Revolução Criativa de Todos

Pesquisadores do MIT apresentam processamento estocástico de sinais quânticos (QSP) como uma versão compilada aleatoriamente do QSP e reduzem o custo de algoritmos baseados em QSP por um fator de 1/2

Deixe um comentário Cancelar resposta