O aprendizado de máquina fez progressos significativos no teste de modelos linguísticos em larga escala (LLMs) quanto às suas capacidades de raciocínio matemático, particularmente no tratamento de tarefas aritméticas e dedutivas complexas. O campo se concentra em explorar a capacidade do LLM de generalizar e resolver novos tipos de problemas, especialmente à medida que os problemas aritméticos aumentam em complexidade. Os testes que avaliam a capacidade de raciocínio em LLMs utilizam medidas, tais como problemas matemáticos, para medir quão bem estes modelos podem aplicar padrões aprendidos a novas situações. Este campo de pesquisa é importante para medir as habilidades e limitações de resolução de problemas do LLM na compreensão e resolução de tarefas matemáticas complexas em situações não padronizadas.
Um dos principais desafios do teste de hipóteses em LLMs é evitar problemas onde os modelos possam encontrar dados semelhantes durante o treinamento, conhecidos como contaminação de dados. Este problema é particularmente comum em conjuntos de dados de raciocínio aritmético, que muitas vezes requerem diversidade estrutural, limitando seu uso na avaliação completa da capacidade de generalização do modelo. Além disso, a maioria das avaliações existentes concentra-se em evidências relativamente específicas, o que não desafia os LLMs a utilizar estratégias complexas de resolução de problemas. Os pesquisadores estão enfatizando cada vez mais a necessidade de novas estruturas de avaliação que capturem diferentes níveis de complexidade probatória e diferentes abordagens lógicas para permitir insights mais precisos sobre as habilidades de raciocínio dos LLMs.
Os métodos para testar habilidades cognitivas incluem conjuntos de dados como GSM8k, que contêm problemas matemáticos que testam LLMs em tarefas lógicas básicas a intermediárias. No entanto, estas medições devem ser revistas para satisfazer as limitações do raciocínio LLM, uma vez que muitas vezes contêm padrões repetitivos e requerem mais variação nas estruturas do problema. A poluição no GSM8k, como observaram os pesquisadores, apresenta outro problema; se o modelo tiver enfrentado problemas semelhantes em seu treinamento, seu desempenho nas escalas de raciocínio não será considerado uma medida verdadeira de sua capacidade de produção. Esta lacuna cria uma necessidade premente de novos quadros de avaliação que desafiem os LLMs, simulando situações do mundo real com maior complexidade e diversidade na concepção de problemas.
Pesquisadores da ETH Zurique, do Instituto Max Planck de Sistemas Inteligentes, do Instituto de Pesquisa Idiap e da Universidade Purdue o desenvolveram. Estatísticasmatematicamente falando Ga ativação está habilitada UMaritmética Pteto-MathGAPuma estrutura abrangente para avaliar LLMs em problemas com estruturas de evidências complexas. MathGAP permite que os pesquisadores testem sistematicamente LLMs em problemas matemáticos, controlando vários parâmetros de complexidade do problema, como profundidade de prova, largura e estrutura de árvore, simulando situações do mundo real de complexidade crescente. A estrutura emprega modelos estruturados que ajudam a criar problemas complexos e não repetitivos, projetados para variar dos dados nos quais os modelos são treinados, evitando assim a contaminação dos dados. Ao ajustar os parâmetros do problema, o MathGAP permite aos pesquisadores analisar como os LLMs lidam com várias tarefas de raciocínio, aumentando efetivamente o rigor dos testes do modelo.
A abordagem do MathGAP para a criação de problemas envolve o uso de árvores de prova lógica, que representam problemas como sequências de tipos lógicos que devem ser percorridos para encontrar soluções. Essas árvores de evidências variam de modelos lineares simples a modelos não lineares que exigem raciocínio complexo. Por exemplo, uma árvore de prova linear pode conter problemas de profundidade 6 e largura 5, enquanto um problema não linear pode aumentar a profundidade para 10 ou mais, desafiando os LLMs a manter a precisão através de um raciocínio complexo e em várias etapas. Os pesquisadores integram modelos lógicos e regras de indexação no MathGAP, permitindo a geração automática de novos problemas. A estrutura resultante produz árvores de evidências de profundidade, amplitude e complexidade variadas, como estruturas não lineares com profundidades de até 6 e múltiplas etapas lógicas, que os pesquisadores consideram especialmente desafiadoras para modelos, mesmo aqueles de alto nível como o GPT-4o.
Experimentos com MathGAP revelam que à medida que os problemas aumentam, o desempenho dos LLMs diminui significativamente, principalmente quando se trata de árvores de provas indiretas. Por exemplo, as taxas de precisão caem constantemente à medida que a profundidade e a amplitude das evidências aumentam, indicando que mesmo os melhores modelos enfrentam tarefas complexas de raciocínio. Foram testados métodos de aprendizagem implícitos e métodos de aprendizagem dentro do contexto, nos quais os modelos não receberam exemplos prévios ou receberam exemplos simples antes de problemas de teste complexos. Curiosamente, a apresentação de LLMs com exemplos contextualizados nem sempre produziu melhores resultados do que a aprendizagem passiva, especialmente para evidências indiretas. Por exemplo, em testes com problemas de profundidade de linha até o nível 10, o desempenho foi relativamente alto, mas com evidências indiretas, modelos como GPT-3.5 e Llama3-8B apresentaram maior precisão.
Os resultados da estrutura MathGAP destacam como os LLMs diferem significativamente em desempenho quando fornecidos com modelos de distribuição específicos de conteúdo. Uma descoberta notável é que os modelos geralmente funcionam melhor com um conjunto diversificado de exemplos que cobrem uma gama de complexidades do que com simples exemplos repetidos. Porém, mesmo com instruções cuidadosamente escolhidas, o desempenho do modelo nem sempre aumenta, enfatizando a dificuldade de lidar com tarefas matemáticas de múltiplas etapas. O desempenho caiu para quase zero em problemas não lineares profundos, onde cada modelo apresentava limitações na manutenção de alta precisão à medida que os problemas se tornavam mais difíceis.
As principais conclusões do estudo incluem:
- Desempenho reduzido em profundidade e largura: À medida que a profundidade da evidência atinge níveis entre 6 e 10 para funções lineares, os modelos apresentam uma diminuição significativa no desempenho. Em contraste, os problemas não lineares na profundidade 6 representaram desafios até mesmo para os modelos mais eficientes.
- Questões indiretas representam desafios maiores: A mudança de evidências lineares para não lineares fez com que as taxas de precisão caíssem rapidamente, indicando que estruturas lógicas complexas estão ampliando as capacidades atuais do LLM.
- Impacto da aprendizagem no conteúdo na precisão do modelo: O aprendizado de máquina usando exemplos simples nem sempre melhora o desempenho em problemas complexos, indicando que informações diversas e contextualmente diversas podem beneficiar mais os modelos.
- Sensibilidade à ordem dos problemas: Os modelos tiveram melhor desempenho quando as etapas de validação seguiram uma sequência lógica, com desvios da ordem canônica introduzindo mais complexidade.
Concluindo, MathGAP é uma maneira nova e eficaz de testar o raciocínio LLM em problemas matemáticos complexos de prova multivariada, revelando insights importantes sobre os pontos fortes e fracos dos modelos atuais. Esta estrutura destaca os desafios que mesmo os LLMs mais avançados enfrentam na gestão de questões não distributivas de complexidade crescente, enfatizando a importância da melhoria contínua nas habilidades de modelagem e resolução de problemas.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️