A necessidade de técnicas eficazes e confiáveis para avaliar o desempenho de grandes modelos de linguagem (LLMs) está aumentando à medida que estes modelos são integrados em mais domínios. Ao avaliar a eficácia dos LLMs em interações dinâmicas do mundo real, padrões de teste comuns são frequentemente aplicados a conjuntos de dados estáticos, apresentando problemas significativos.
Como as perguntas e respostas nesses conjuntos de dados estáticos geralmente não mudam, é um desafio prever como o modelo poderá responder às mudanças nas conversas dos usuários. A maioria desses benchmarks exige que o modelo utilize algum conhecimento prévio, o que pode dificultar muito o teste da capacidade de raciocínio lógico do modelo. Esta confiança no conhecimento previamente estabelecido impõe limitações ao teste da capacidade do modelo de fazer inferências independentes sem dados existentes.
Outros métodos de avaliação de LLMs incluem a colaboração dinâmica, como a avaliação por avaliadores humanos ou a utilização de modelos de alto desempenho como referências. Esses métodos têm suas desvantagens, embora possam fornecer um ambiente de teste flexível. Os modelos rigorosos podem ter um estilo ou metodologia particular que afeta o processo de avaliação; portanto, usá-los como referência pode introduzir preconceitos. O teste manual geralmente requer muito tempo e dinheiro, tornando-o impraticável para grandes projetos. Estas limitações chamam a atenção para a necessidade de uma substituição que equilibre a economia de custos, a precisão analítica e a natureza dinâmica das interações no mundo real.
Para superar esses problemas, uma equipe de pesquisadores da China lançou o TurtleBench, um sistema de teste único. O TurtleBench implementa a estratégia coletando interações reais do usuário por meio do Turtle Soup Puzzle1, uma plataforma web especialmente projetada. Os usuários deste site podem participar de exercícios de brainstorming onde devem adivinhar com base em cenários pré-determinados. Um conjunto de dados de teste de alta potência é então criado usando pontos de dados coletados de previsões do usuário. Modelos que manipulam memorizando conjuntos de dados fixos têm menos probabilidade de usar esse método porque os dados mudam em resposta à interação real do usuário. Esta configuração fornece uma representação mais precisa das capacidades práticas do modelo, o que também garante que o teste esteja intimamente relacionado aos requisitos reais de raciocínio do usuário.
As 1.532 suposições do usuário no conjunto de dados do TurtleBench são acompanhadas por anotações que indicam a exatidão ou precisão de cada suposição. Isso torna possível examinar em profundidade a eficácia com que os LLMs realizam tarefas de pensamento. TurtleBench realizou uma análise abrangente dos nove principais LLMs usando este conjunto de dados. A equipe compartilhou que os modelos da série OpenAI o1 não venceram esses testes.
De acordo com uma teoria resultante desta pesquisa, as capacidades de pensamento dos modelos OpenAI o1 dependem de técnicas básicas em comparação com a Cadeia de Pensamento (CoT). CoT é um sistema que pode ajudar os modelos a serem mais precisos e claros, revelando as etapas intermediárias do raciocínio antes de chegar à conclusão final. Por outro lado, parece que os processos CoT dos modelos o1 podem ser demasiado simples ou demasiado avançados para funcionarem bem em tarefas de raciocínio desafiantes. De outro ponto de vista, a extensão dos processos CoT pode melhorar a capacidade de raciocínio do modelo, mas pode adicionar mais ruído ou informações irrelevantes ou perturbadoras, o que pode causar confusão no processo de raciocínio.
Os recursos de teste dinâmicos e orientados ao usuário do TurtleBench ajudam a garantir que os benchmarks permaneçam atualizados e mudem para atender às mudanças nos requisitos dos aplicativos do mundo real.
Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] Melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (avançado)
Tanya Malhotra está em seu último ano na Universidade de Estudos de Petróleo e Energia, Dehradun, cursando BTech em Engenharia de Ciência da Computação com especialização em Inteligência Artificial e Aprendizado de Máquina.
Ele é um entusiasta de Data Science com forte pensamento analítico e analítico, e grande interesse em adquirir novas habilidades, liderar equipes e gerenciar o trabalho de forma organizada.