O raciocínio matemático emergiu como uma fronteira importante na inteligência artificial, particularmente no desenvolvimento de Modelos de Linguagem em Grande Escala (LLM) capazes de realizar tarefas complexas de resolução de problemas. Embora o raciocínio matemático tradicional se concentre em entradas baseadas em texto, as aplicações modernas incluem cada vez mais elementos multimodais, incluindo diagramas, gráficos e estatísticas. Isto coloca desafios significativos aos sistemas existentes no processamento e integração de informações através de múltiplas modalidades. A complexidade vai além da simples compreensão de texto, como a compreensão semântica profunda, a preservação do contexto entre modalidades e a capacidade de realizar tarefas cognitivas complexas que combinam características visuais e textuais.
A partir de 2021, tem havido um crescimento constante de Large Language Models (MathLLMs) específicos da matemática, cada um abordando diferentes aspectos da resolução de problemas matemáticos. Modelos clássicos como GPT-f e Minerva estabelecem habilidades básicas em raciocínio matemático, enquanto Hypertree Proof Search e o teorema avançado Jiuzhang 1.0 comprovam e questionam a compreensão. O campo diversificou-se novamente em 2023, introduzindo suporte multimodal através de modelos como SkyworkMath, seguido por desenvolvimentos especiais em 2024 com foco na educação matemática (Qwen2.5-Math) e capacidades de prova (DeepSeek-Proof). Apesar destes avanços, as abordagens existentes concentram-se muito pouco em domínios matemáticos específicos ou não conseguem enfrentar os desafios do pensamento interdisciplinar.
Pesquisadores de HKUST (GZ), HKUST, NTU e Squirrel AI propuseram uma estrutura analítica abrangente para compreender a natureza do raciocínio matemático no contexto de modelos linguísticos de grande escala (MLLMs). Os pesquisadores revisaram mais de 200 artigos de pesquisa publicados desde 2021, com foco no surgimento e evolução dos LLMs de matemática em diferentes áreas. Esta abordagem sistemática explora o pipeline de pensamento multidisciplinar enquanto investiga o papel dos LLMs e MLLMs tradicionais. O estudo enfatiza particularmente a identificação e análise de cinco grandes desafios que afetam o alcance da inteligência artificial geral no raciocínio matemático.
A estrutura básica concentra-se em situações de resolução de problemas em que a entrada consiste em declarações de problemas apresentadas em formato de texto puro ou acompanhadas de elementos visuais, como figuras e diagramas. O sistema processa esta entrada para gerar soluções em formatos numéricos ou gráficos. Embora o inglês domine os benchmarks disponíveis, existem alguns conjuntos de dados em outros idiomas, como chinês e romeno. Os tamanhos dos conjuntos de dados variam amplamente, desde coleções compactas como QRData com 411 perguntas até repositórios extensos como OpenMathInstruct-1 contendo 1,8 milhão de pares de resolução de problemas.
A avaliação das habilidades de raciocínio matemático em MLLMs utiliza dois métodos principais: métodos de avaliação discriminativos e generativos. Na análise discriminante, os modelos são avaliados com base em sua capacidade de classificar ou selecionar respostas corretamente, com métricas avançadas, como taxa de regressão de desempenho (PDR), e métricas específicas, como precisão de erro de etapa. A abordagem de avaliação generativa concentra-se na capacidade do modelo de gerar explicações detalhadas e soluções passo a passo. Estruturas notáveis como MathVerse usam GPT-4 para testar o processo de raciocínio, enquanto CHAMP usa um pipeline de teste de solução onde o GPT-4 atua como um avaliador que compara as respostas geradas com soluções verdadeiras.
Aqui estão cinco desafios principais no raciocínio matemático com MLLMs:
- Limitações dos conceitos visuais: Os modelos atuais lutam com objetos visuais complexos, como geometria 3D e tabelas irregulares.
- Integração Multimodal Limitada: Embora os modelos lidem com texto e visão, eles não podem processar outros modos, como descrições de áudio ou simulações interativas.
- Problemas de Integração de Domínios: Modelos que se destacam em um domínio matemático muitas vezes não apresentam bom desempenho em outros, limitando seu uso prático.
- Detecção de erros e feedback: Atualmente, os MLLMs não possuem mecanismos robustos para detectar, classificar e corrigir erros estatísticos de forma eficaz.
- Desafios da integração académica: Os sistemas actuais não têm em conta adequadamente os aspectos académicos do mundo real, tais como notas manuscritas e rascunhos de trabalhos.
Concluindo, os pesquisadores apresentaram uma análise abrangente do raciocínio matemático nos MLLMs, revelando progressos importantes e desafios contínuos na área. O surgimento de LLMs especializados em matemática tem mostrado grande progresso no tratamento de tarefas matemáticas complexas, especialmente em áreas multidisciplinares. Além disso, enfrentar os cinco desafios acima mencionados é essencial para o desenvolvimento de sistemas de IA altamente avançados, capazes de raciocínio matemático semelhante ao humano. Os insights desta análise fornecem um guia para direções de pesquisas futuras, destacando a importância de modelos mais robustos e flexíveis que possam lidar com eficácia com dificuldades de raciocínio matemático.
Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)