A resolução de problemas de geometria depende muito de habilidades de pensamento avançadas para interpretar informações visuais, processar questões e aplicar fórmulas matemáticas com precisão. Embora os modelos de linguagem visual (VLMs) tenham mostrado progresso em tarefas multimodais, eles ainda enfrentam limitações significativas em geometria, especialmente na execução de operações matemáticas não padronizadas, como o cálculo do cosseno de ângulos não padronizados. Esse desafio é ampliado devido ao treinamento automático, que enfatiza a previsão do próximo token, muitas vezes levando a cálculos incorretos e uso indevido da fórmula. Embora métodos como Cadeia de Pensamento e geração de código matemático ofereçam algumas melhorias, esses métodos ainda precisam ser aprimorados, aplicando corretamente conceitos e fórmulas geométricas a problemas complexos e de várias etapas.
O estudo revisa pesquisas sobre VLMs e modelos que geram códigos para resolução de problemas geométricos. Embora os VLMs de uso geral tenham melhorado, eles muitas vezes enfrentam dificuldades com o raciocínio geométrico, como mostrado em novos conjuntos de dados projetados para medir essas tarefas. Os sistemas neuro-simbólicos foram desenvolvidos para melhorar a resolução de problemas, combinando modelos linguísticos e deduções lógicas. Avanços adicionais em modelos de linguagem de raciocínio matemático permitem soluções baseadas em código, mas muitas vezes requerem capacidades multidisciplinares.
Pesquisadores da Mila, Polytechnique Montréal, Université de Montréal, CIFAR AI e Google DeepMind apresentam o GeoCoder, um método VLM projetado para resolver problemas geométricos por meio da geração modular de código. GeoCoder utiliza uma biblioteca de funções geométricas predefinidas para codificar com precisão e minimizar erros na execução de fórmulas, fornecendo soluções consistentes e interpretáveis. Eles também introduziram o RAG-GeoCoder, uma variante com maior recuperação de memória, que permite extrair funções diretamente da biblioteca de geometria, reduzindo a dependência da memória interna. GeoCoder e RAG-GeoCoder melhoram o desempenho em mais de 16% em tarefas geométricas, demonstrando raciocínio e interpretação aprimorados em conjuntos de dados multimodais complexos.
A abordagem proposta apresenta o GeoCoder, um VLM otimizado para resolver problemas de geometria através da geração de código Python modular que faz referência a uma biblioteca de geometria predefinida. Ao contrário das otimizações CoT convencionais, este método garante cálculos precisos e minimiza erros de fórmula ao executar diretamente o código gerado. GeoCoder usa um processo de extração de conhecimento para criar dados de treinamento de alta qualidade e resultados de desempenho interpretáveis. Além disso, o RAG-GeoCoder, uma versão de recuperação-recuperação, usa recuperação multimodal para selecionar as funções apropriadas na memória para uma codificação mais precisa, melhorando a capacidade do modelo de resolver problemas, reduzindo a dependência apenas da memória interna.
No conjunto de dados GeomVerse, os modelos acionados por código superam significativamente os modelos acionados por CoT, especialmente com o RAG-GeoCoder superando o estado da arte anterior, PaLI 5B, em 26,2-36,3% em profundidade. Para GeoQA-NO, o GeoCoder atinge uma precisão relaxada de 42,3%, que supera o LLaVA 1,5 ajustado por CoT em 14,3%. A análise de erros revela que o RAG-GeoCoder reduz erros de sintaxe, mas aumenta erros de palavras em profundidades maiores devido a limitações de recuperação. Além disso, o RAG-GeoCoder melhora a interpretabilidade e a precisão ao usar trabalhos de impressão com modelos e executar trabalhos com 17% mais frequência do que o GeoCoder, mostrando um melhor uso da funcionalidade do módulo em problemas profundos.
Concluindo, o GeoCoder apresenta um método modular de ajuste fino de código para resolver problemas geométricos em VLMs, alcançando melhorias consistentes em relação ao ajuste fino de CoT, permitindo cálculos precisos e determinísticos. GeoCoder melhora a interpretação e reduz erros de fórmulas usando uma biblioteca de funções geométricas. Além disso, o RAG-GeoCoder, uma variante de recuperação aumentada, usa um módulo de memória não paramétrico para recuperar funções conforme necessário, melhorando ainda mais a precisão ao reduzir a dependência da memória do modelo. Esta estrutura de otimização de código melhora significativamente a inferência geométrica de VLMs, alcançando um ganho de desempenho de mais de 16% no conjunto de dados GeomVerse em comparação com outras técnicas de ajuste fino.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️