AUTO-CEI: um currículo iterativo e uma abordagem especializada para aumentar a precisão das respostas dos LLMs e controlar as taxas de rejeição em vários domínios de consultoria

Modelos linguísticos de larga escala (LLMs) são cada vez mais utilizados em tarefas complexas de raciocínio, que exigem que forneçam respostas precisas a uma variedade de situações desafiadoras. Essas tarefas incluem raciocínio lógico, cálculos complexos e aplicações de programação complexas, que exigem a capacidade de realizar raciocínio em várias etapas e resolução de problemas em domínios como tomada de decisão e modelagem preditiva. No entanto, à medida que os LLM tentam satisfazer estas necessidades, encontram problemas significativos, especialmente no equilíbrio da sua capacidade de responder a perguntas com confiança, sob o risco de produzirem informações “esquecidas”, respostas que parecem razoáveis, mas sem precisão, e caindo em padrões de “preguiça”. ”, onde os modelos tendem a recorrer ao “não sei” quando não têm certeza. Encontrar um método que permita aos LLMs fornecer respostas precisas e equilibradas com confiança, sem conservadorismo ou precisão indevidos, tem sido um objetivo contínuo.

Os LLMs enfrentam dois problemas importantes na execução destas tarefas de pensamento de alto nível: sobrestimam as suas capacidades, o que leva a percepções erradas ou são excessivamente cautelosos, e deixam de recusar situações com as quais poderiam ter lidado com sucesso. Esses comportamentos decorrem da necessidade de modelos para gerenciar processos de raciocínio complexos e de várias etapas que acumulam erros em cada etapa, incluindo precisão e confiabilidade reduzida. As estratégias projetadas para reduzir as alucinações concentram-se em erros factuais, incorporando conhecimento externo, técnicas baseadas em recuperação ou métodos de aprendizagem por reforço (RL). No entanto, estas técnicas são mais adequadas para tarefas factuais e lutas em contextos baseados na lógica, onde as imprecisões são causadas por erros na progressão lógica e não por passos em falso.

Pesquisadores da Universidade Nacional de Cingapura e da Salesforce AI Research propuseram um novo método chamado Padrãomatemática Ccurrículo Eespecialista EUmultiplicação (AUTO-CEI). Esta nova abordagem introduz uma abordagem de “currículo” estruturado para o treinamento LLM que evolui com base no desempenho do modelo, permitindo que os LLMs alinhem suas respostas com seus verdadeiros pontos fortes. AUTO-CEI usa uma estratégia especial de aprendizagem por reforço, Expert Iteration (EI), que analisa repetidamente a política do modelo, repetindo as respostas e orientando-as para as formas corretas de pensar. Esta abordagem iterativa incentiva respostas assertivas dentro dos limites do modelo e a rejeição apropriada de tarefas complexas além desses limites, melhorando a capacidade geral de raciocínio.

O processo AUTO-CEI começa com o treinamento do LLM para avaliar seus parâmetros de desempenho. Ele usa o número médio de etapas de raciocínio necessárias para chegar à resposta correta como proxy para a dificuldade do problema. Expert Iteration atua dentro desse processo de aprendizagem, explorando possíveis formas de pensar para encontrar as respostas certas e corretas. Respostas corretas obtêm boas recompensas nesta estrutura, enquanto respostas muito fortes ou assertivamente incorretas têm penalidades. Além disso, o currículo ajusta estas recompensas ao longo do tempo, incentivando o LLM a envolver-se num pensamento alargado antes de decidir rejeitar uma resposta, expandindo assim os limites do modelo de forma incremental e evitando a rejeição prematura. Através de ciclos repetidos de Iteração Especializada, o currículo aprimora a capacidade do modelo de lidar com tarefas de pensamento cada vez mais complexas com maior rigor.

Ao testar o hardware em vários benchmarks, incluindo BoardgameQA, MATH e Blocksworld, o AUTO-CEI superou outros benchmarks. BoardgameQA, que envolve tarefas de raciocínio lógico baseadas em deduções baseadas em regras, obteve um aumento de 10% na precisão em relação à linha de base ao usar o AUTO-CEI, o modelo alcançou uma precisão de 84,5% e uma taxa de rejeição de 29,4%. Em MATH, um conjunto de dados desafiador que requer longas cadeias de raciocínio em álgebra e geometria, o AUTO-CEI alcançou uma precisão de 35,6%, mostrando uma melhoria significativa na capacidade dos LLMs de navegar e concluir cálculos complexos. Enquanto isso, no Blocksworld, uma tarefa de programação onde o modelo deve sequenciar ações para atingir uma configuração de bloco específica, o AUTO-CEI alcançou uma taxa de rejeição de apenas 18,3%, equilibrando a manutenção de regras com a necessidade de raciocínio dedutivo.

As contribuições da AUTO-CEI resultaram em uma solução robusta para reduzir tanto os falsos positivos quanto a rejeição excessiva. O modelo apresenta a maior precisão em todas as tarefas de raciocínio, mantendo uma taxa de rejeição consistente e evitando rejeições desnecessárias nos casos em que existem soluções possíveis. O AUTO-CEI alcançou taxas de precisão que superaram os métodos de aprendizagem por reforço existentes em 10-24%, mantendo as taxas de rejeição entre 18-36%, reduzindo significativamente a taxa de erro do modelo. Isso marca uma melhoria em relação a técnicas como Vanilla Expert Iteration e métodos de aprendizagem por reforço baseados em recuperação que não têm o controle assertivo necessário ou ficam aquém da complexidade da tarefa.

As principais conclusões deste estudo são:

Precisão e precisão aprimoradas: AUTO-CEI apresenta uma melhoria significativa na precisão, atingindo até 24% de melhoria em determinados benchmarks, com valores de precisão de até 80% em cenários de imagem complexos.
Um equilíbrio bem-sucedido entre conservadorismo e conservadorismo: Ao refinar as respostas dos LLMs para afirmar dentro dos limites de poder e reconhecer adequadamente tarefas complexas, o AUTO-CEI atinge um bom equilíbrio, com taxas de rejeição variando de 18% a 36%, dependendo da complexidade da tarefa.
Estabilidade aprimorada na exibição de várias etapas: O AUTO-CEI reduz erros cognitivos em longas cadeias de pensamento, recompensando esforços contínuos de pensamento, reduzindo assim a probabilidade de respostas erradas prematuras.
Desempenho de referência: As classificações de precisão do AUTO-CEI em BoardgameQA (84,5%), MATH (35,6%) e Blocksworld (91,5%) mostram sua eficácia em uma variedade de tarefas de raciocínio, tornando-o uma solução versátil para raciocínio orientado por IA.

Concluindo, o AUTO-CEI representa um avanço significativo nos métodos de treinamento LLM para medir o comportamento assertivo e complacente com base em limitações cognitivas. Ao melhorar gradativamente as capacidades de resolução de problemas do modelo e ao mesmo tempo reduzir suposições e rejeições, o AUTO-CEI estabelece um novo padrão em raciocínio LLM confiável para todas as tarefas complexas, fornecendo uma solução confiável e flexível para o desenvolvimento futuro de IA. Essa abordagem iterativa e baseada em recompensas alinha o comportamento do LLM com seus limites, garantindo desempenho confiável e eficácia em aplicações críticas em todos os campos que exigem precisão e conhecimento.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel

Asjad é consultor estagiário na Marktechpost. Ele está cursando B.Tech em engenharia mecânica no Instituto Indiano de Tecnologia, Kharagpur. Asjad é um entusiasta do aprendizado de máquina e do aprendizado profundo que pesquisa regularmente a aplicação do aprendizado de máquina na área da saúde.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Pixtral 12B lançado pela Mistral AI: modelo revolucionário de IA multimodal que transforma indústrias com linguagem avançada e recursos de processamento visual

MAGICORE: Uma estrutura de IA para iteração multiagente para refinamento robusto

Apple lança AIMv2: uma família de codificadores abertos de última geração

Deixe um comentário Cancelar resposta