Os modelos linguísticos de grande escala (LLMs) muitas vezes não conseguem realizar o raciocínio em várias etapas de forma consistente e precisa, especialmente em tarefas complexas, como resolução de problemas matemáticos e codificação. Apesar dos desenvolvimentos recentes, os LLMs têm dificuldade em encontrar e aprender com os erros porque são altamente treinados para encontrar soluções adequadas. Esta limitação acarreta dificuldades na verificação e mensuração dos resultados, principalmente se houver erros sutis.
Pesquisadores da Universidade de Notre Dame e da Salesforce AI apresentam uma nova estrutura que aumenta o tempo de inferência computacional gerando vários métodos de inferência para tarefas complexas. Os verificadores testam esses métodos e medem com precisão os resultados produzidos para melhorar a precisão. Para treinar verificadores bem-sucedidos, a equipe criou um conjunto de dados abrangente de soluções corretas e incorretas para tarefas matemáticas e códigos gerados por vários LLMs. Este conjunto de dados é único porque inclui uma variedade de padrões de solução, permitindo aos verificadores distinguir melhor entre respostas corretas e incorretas. Ao combinar técnicas de pensamento de Cadeia de Pensamento (CoT) e Programa de Pensamento (PoT), os pesquisadores desenvolveram um novo método de verificação colaborativa que usa raciocínio passo a passo aprendido por humanos e verificação de código executável.
O conjunto de dados apresentado é extenso, incluindo funções estatísticas e de código. Ele contém soluções produzidas por vários LLMs, incluindo respostas corretas e incorretas. Para tarefas matemáticas, foram utilizados modelos como Mistral, Phi e InternLM2-Math, produzindo mais de 159 mil soluções corretas e 100 mil incorretas. Para raciocínio de código, conjuntos de dados como MBPP e MagiCoder-75k foram usados para gerar mais de 132.000 soluções de código corretas e 145.000 incorretas. Cada problema tinha muitas soluções de amostra, fornecendo um conjunto diversificado de métodos e erros. Este conjunto de dados foi utilizado para treinar dois verificadores: Verificador Matemático Integrado (Math-Rev) e Verificador Lógico Integrado (Code-Rev), ambos desenvolvidos usando SimPO, um método de ajuste de preferência sem referência.
Os resultados apresentados no artigo mostram uma melhoria significativa em relação aos métodos anteriores. As certificações Math-Rev e Code-Rev alcançaram precisão de última geração em benchmarks como GSM8k e MATH, superando até mesmo o desempenho alcançado por GPT-4o e LLaMA3. Por exemplo, Math-Rev emparelhado com Qwen-72B-Instruct superou LLaMA3.1-405B e GPT-4o no conjunto de testes MATH, com melhorias significativas de precisão. Os pesquisadores também compararam diferentes métodos de treinamento para confirmadores, descobrindo que o ajuste de preferência sem referência, como o SimPO, teve melhor desempenho do que os modelos de recompensa tradicionais (ORM). Além disso, uma combinação de métodos de autenticação Cognitiva e Sistemática, chamada CoTnPoT, demonstrou ser eficaz no aproveitamento da linguagem natural e do código executável para melhorar a precisão da autenticação.
A conclusão
Este estudo apresenta um novo paradigma para melhorar a capacidade de raciocínio dos LLMs, combinando validação conjunta com múltiplos métodos de raciocínio e validação. Ao divulgar seu conjunto completo de dados e validações, os pesquisadores pretendem encorajar desenvolvimentos futuros no aumento da computação do tempo de inferência e na melhoria da confiabilidade dos LLMs. A sua abordagem não só alcança resultados de última geração, mas também destaca o poder de combinar diferentes técnicas de pensamento para tornar a resolução de problemas complexos mais precisa e confiável. Este trabalho abre caminho para LLMs mais robustos que podem compreender e validar melhor os seus resultados, aumentando assim a fiabilidade do raciocínio gerado pela IA.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17, 2024] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.