Modelos linguísticos de larga escala (LLMs) são cada vez mais utilizados em tarefas complexas de raciocínio, que exigem que forneçam respostas precisas a uma variedade de situações desafiadoras. Essas tarefas incluem raciocínio lógico, cálculos complexos e aplicações de programação complexas, que exigem a capacidade de realizar raciocínio em várias etapas e resolução de problemas em domínios como tomada de decisão e modelagem preditiva. No entanto, à medida que os LLM tentam satisfazer estas necessidades, encontram problemas significativos, especialmente no equilíbrio da sua capacidade de responder a perguntas com confiança, sob o risco de produzirem informações “esquecidas”, respostas que parecem razoáveis, mas sem precisão, e caindo em padrões de “preguiça”. ”, onde os modelos tendem a recorrer ao “não sei” quando não têm certeza. Encontrar um método que permita aos LLMs fornecer respostas precisas e equilibradas com confiança, sem conservadorismo ou precisão indevidos, tem sido um objetivo contínuo.
Os LLMs enfrentam dois problemas importantes na execução destas tarefas de pensamento de alto nível: sobrestimam as suas capacidades, o que leva a percepções erradas ou são excessivamente cautelosos, e deixam de recusar situações com as quais poderiam ter lidado com sucesso. Esses comportamentos decorrem da necessidade de modelos para gerenciar processos de raciocínio complexos e de várias etapas que acumulam erros em cada etapa, incluindo precisão e confiabilidade reduzida. As estratégias projetadas para reduzir as alucinações concentram-se em erros factuais, incorporando conhecimento externo, técnicas baseadas em recuperação ou métodos de aprendizagem por reforço (RL). No entanto, estas técnicas são mais adequadas para tarefas factuais e lutas em contextos baseados na lógica, onde as imprecisões são causadas por erros na progressão lógica e não por passos em falso.
Pesquisadores da Universidade Nacional de Cingapura e da Salesforce AI Research propuseram um novo método chamado Padrãomatemática Ccurrículo Eespecialista EUmultiplicação (AUTO-CEI). Esta nova abordagem introduz uma abordagem de “currículo” estruturado para o treinamento LLM que evolui com base no desempenho do modelo, permitindo que os LLMs alinhem suas respostas com seus verdadeiros pontos fortes. AUTO-CEI usa uma estratégia especial de aprendizagem por reforço, Expert Iteration (EI), que analisa repetidamente a política do modelo, repetindo as respostas e orientando-as para as formas corretas de pensar. Esta abordagem iterativa incentiva respostas assertivas dentro dos limites do modelo e a rejeição apropriada de tarefas complexas além desses limites, melhorando a capacidade geral de raciocínio.
O processo AUTO-CEI começa com o treinamento do LLM para avaliar seus parâmetros de desempenho. Ele usa o número médio de etapas de raciocínio necessárias para chegar à resposta correta como proxy para a dificuldade do problema. Expert Iteration atua dentro desse processo de aprendizagem, explorando possíveis formas de pensar para encontrar as respostas certas e corretas. Respostas corretas obtêm boas recompensas nesta estrutura, enquanto respostas muito fortes ou assertivamente incorretas têm penalidades. Além disso, o currículo ajusta estas recompensas ao longo do tempo, incentivando o LLM a envolver-se num pensamento alargado antes de decidir rejeitar uma resposta, expandindo assim os limites do modelo de forma incremental e evitando a rejeição prematura. Através de ciclos repetidos de Iteração Especializada, o currículo aprimora a capacidade do modelo de lidar com tarefas de pensamento cada vez mais complexas com maior rigor.
Ao testar o hardware em vários benchmarks, incluindo BoardgameQA, MATH e Blocksworld, o AUTO-CEI superou outros benchmarks. BoardgameQA, que envolve tarefas de raciocínio lógico baseadas em deduções baseadas em regras, obteve um aumento de 10% na precisão em relação à linha de base ao usar o AUTO-CEI, o modelo alcançou uma precisão de 84,5% e uma taxa de rejeição de 29,4%. Em MATH, um conjunto de dados desafiador que requer longas cadeias de raciocínio em álgebra e geometria, o AUTO-CEI alcançou uma precisão de 35,6%, mostrando uma melhoria significativa na capacidade dos LLMs de navegar e concluir cálculos complexos. Enquanto isso, no Blocksworld, uma tarefa de programação onde o modelo deve sequenciar ações para atingir uma configuração de bloco específica, o AUTO-CEI alcançou uma taxa de rejeição de apenas 18,3%, equilibrando a manutenção de regras com a necessidade de raciocínio dedutivo.
As contribuições da AUTO-CEI resultaram em uma solução robusta para reduzir tanto os falsos positivos quanto a rejeição excessiva. O modelo apresenta a maior precisão em todas as tarefas de raciocínio, mantendo uma taxa de rejeição consistente e evitando rejeições desnecessárias nos casos em que existem soluções possíveis. O AUTO-CEI alcançou taxas de precisão que superaram os métodos de aprendizagem por reforço existentes em 10-24%, mantendo as taxas de rejeição entre 18-36%, reduzindo significativamente a taxa de erro do modelo. Isso marca uma melhoria em relação a técnicas como Vanilla Expert Iteration e métodos de aprendizagem por reforço baseados em recuperação que não têm o controle assertivo necessário ou ficam aquém da complexidade da tarefa.
As principais conclusões deste estudo são:
- Precisão e precisão aprimoradas: AUTO-CEI apresenta uma melhoria significativa na precisão, atingindo até 24% de melhoria em determinados benchmarks, com valores de precisão de até 80% em cenários de imagem complexos.
- Um equilíbrio bem-sucedido entre conservadorismo e conservadorismo: Ao refinar as respostas dos LLMs para afirmar dentro dos limites de poder e reconhecer adequadamente tarefas complexas, o AUTO-CEI atinge um bom equilíbrio, com taxas de rejeição variando de 18% a 36%, dependendo da complexidade da tarefa.
- Estabilidade aprimorada na exibição de várias etapas: O AUTO-CEI reduz erros cognitivos em longas cadeias de pensamento, recompensando esforços contínuos de pensamento, reduzindo assim a probabilidade de respostas erradas prematuras.
- Desempenho de referência: As classificações de precisão do AUTO-CEI em BoardgameQA (84,5%), MATH (35,6%) e Blocksworld (91,5%) mostram sua eficácia em uma variedade de tarefas de raciocínio, tornando-o uma solução versátil para raciocínio orientado por IA.
Concluindo, o AUTO-CEI representa um avanço significativo nos métodos de treinamento LLM para medir o comportamento assertivo e complacente com base em limitações cognitivas. Ao melhorar gradativamente as capacidades de resolução de problemas do modelo e ao mesmo tempo reduzir suposições e rejeições, o AUTO-CEI estabelece um novo padrão em raciocínio LLM confiável para todas as tarefas complexas, fornecendo uma solução confiável e flexível para o desenvolvimento futuro de IA. Essa abordagem iterativa e baseada em recompensas alinha o comportamento do LLM com seus limites, garantindo desempenho confiável e eficácia em aplicações críticas em todos os campos que exigem precisão e conhecimento.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel
Asjad é consultor estagiário na Marktechpost. Ele está cursando B.Tech em engenharia mecânica no Instituto Indiano de Tecnologia, Kharagpur. Asjad é um entusiasta do aprendizado de máquina e do aprendizado profundo que pesquisa regularmente a aplicação do aprendizado de máquina na área da saúde.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️