No mundo de hoje, principais modelos de linguagem eles apresentam bom desempenho em diversas tarefas e apresentam diferentes habilidades de raciocínio. Isto é importante para o desenvolvimento Inteligência Geral Artificial (AGI) e suas aplicações em robótica e navegação. Pensamento espacial inclui características quantitativas (por exemplo, distâncias, ângulos) e características qualitativas (por exemplo, localizações relativas como “próximo” ou “dentro”). Embora as pessoas se destaquem nestes trabalhos, os LLMs muitas vezes lutam com o pensamento espacial, que é uma parte importante do pensamento e do dizer algo e requer a compreensão das relações complexas entre os objetos no espaço. Estas questões mostram que são necessárias abordagens eficazes e bem interligadas para desenvolver o pensamento espacial nos LLMs.
Os métodos tradicionais de LLM dependem apenas de informações de formato livre em uma única chamada para LLMs para permitir o pensamento espacial. No entanto, estes métodos têm mostrado limitações significativas e, em particular, tendem a falhar em conjuntos de dados desafiantes, tais como StepGame ou SparQAque exigem planejamento em várias etapas. Pesquisadores desenvolveram técnicas semelhantes Cadeia de Pensamento (CoT) Métodos inspiradores e inovadores, como visualizar a imaginação para melhorar o pensamento. Desenvolvimentos recentes, como o uso de ferramentas externas ou a combinação da extração da realidade e do raciocínio lógico usando métodos neurais-simbólicos, como ASPdar melhores resultados. No entanto, existem desafios sob a forma de testes em conjuntos de dados limitados, subutilização de métodos e sistemas de feedback fracos. Estes problemas mostram que são necessárias abordagens eficazes e bem interligadas para desenvolver o pensamento espacial nos LLMs.
Para resolver isso, pesquisadores de Universidade de Estugarda propôs um estrutura neural-simbólica estruturada para desenvolver habilidades de pensamento espacial LLMs combinando motivação estratégica com pensamento simbólico. Este método também inclui ciclos de feedback ASP-validação baseada para melhorar o desempenho de tarefas complexas, mostrando a realização em todos os tipos de estruturas LLM.
O estudo examinou maneiras de melhorar o pensamento espacial em LLMs usando dois conjuntos de dados: StepGamecom questões de processamento espacial envolvendo até 10 etapas de raciocínio, e SparQAque incluem consultas complexas baseadas em texto com vários formatos e relacionamentos espaciais 3D. Três métodos foram testados: ASP por deliberação fundamentada, eu LLM+ASP cano combinando raciocínio simbólico com otimização DSPy, e “Verdade + Regras Lógicas”incorporando regras do método nas informações para simplificar os cálculos. As ferramentas são as mesmas Telefone, DSPyde novo LangChain uso suportado, enquanto modelos como DeepSeek e GPT-4 Mini são avaliados usando métricas como pontuações micro-F1, mostrando a flexibilidade desses métodos.
O “LLM + ASP” abordagem SparQA O conjunto de dados mostrou maior precisão, especialmente para as questões “Encontrar Relacionamento” e “Encontrar Bloco”, com o mini GPT-4.0 apresentando melhor desempenho. No entanto, as perguntas “Sim/Não” foram melhores com informações específicas. A análise de erros mostrou problemas de posicionamento e segmentação, o que exigiu ajustes especiais para cada modelo. O método “Fatos + Regras” teve melhor desempenho que a informação direta, o que apresentou melhora na precisão. 5% na SparQA. Este método traduz a linguagem natural em fatos estruturados e utiliza regras lógicas, em particular Lhama3 70B no caso de pensamento estendido. Os métodos neurais-simbólicos também superaram a precisão de ambos os conjuntos de dados. StepGame encontrado 80% acima também SparQA provavelmente quase 60% Isto foi muito melhor do que os dados de referência, com precisão aumentada em 40-50% no StepGame e 3-13% para SparQA.
Os principais fatores de sucesso foram a separação da análise semântica e do raciocínio lógico, relacionamentos espaciais claros e gerenciamento multi-hop. Portanto, a metodologia teve um desempenho significativamente melhor em um ambiente simples e bem definido do que no complexo conjunto de dados naturais SparQA.
Em resumo, a estrutura proposta melhora a capacidade de pensamento espacial dos LLMs. Na verdade, os resultados experimentais são significativamente mais eficazes do que os sistemas neurais-simbólicos convencionais, ao mesmo tempo que aumentam o desempenho em tarefas difíceis de raciocínio espacial relacionadas a vários tipos diferentes de LLMs. Embora o método seja adquirido ao longo 80% a precisão está ativada StepGamefoi uma medida 60% dos mais complexos SparQA. Portanto, há espaço para desenvolvimento futuro neste método para alcançar maior desempenho e melhores resultados. Este trabalho estabelece uma base importante para o sucesso futuro em IA e pode servir de base para futuros pesquisadores!
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
🎙️ 🚨 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de técnicas de clustering vermelho' Leia o relatório completo (Promovido)
Divyesh é estagiário de consultoria na Marktechpost. Ele está cursando BTech em Engenharia Agrícola e Alimentar pelo Instituto Indiano de Tecnologia, Kharagpur. Ele é um entusiasta de Ciência de Dados e Aprendizado de Máquina que deseja integrar essas tecnologias avançadas no domínio agrícola e resolver desafios.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)