Técnicas de agregação em tempo de teste, como gerar e combinar múltiplas respostas, podem melhorar o desempenho do LLM, mas, em última análise, alcançar retornos decrescentes. O refinamento, onde o feedback do modelo é usado para melhorar iterativamente as respostas, apresenta outra abordagem. No entanto, enfrenta três desafios: (1) excesso de refinamento, que pode levar a uma correção excessiva e a uma precisão reduzida; (2) dificuldades em identificar e corrigir erros específicos, uma vez que os LLMs lutam com a autocorreção direcionada; e (3) determinar a quantidade apropriada de refinamento, pois o refinamento insuficiente pode deixar erros não resolvidos enquanto a iteração excessiva desperdiça recursos computacionais.
Pesquisadores da UNC-Chapel Hill introduziram MAGICORE, uma estrutura de iteração multiagente para refinamento grosso a fino. MAGICORE aborda o refinamento excessivo classificando os problemas como fáceis ou difíceis, resolvendo os fáceis combinando os difíceis e os difíceis por meio de refinamento multiagente iterativo e refinado. O sistema usa três agentes – o Solver, o Revisor e o Refinador – que são desenvolvidos através das etapas inteligentes do Modelo de Recompensa (RM) por meio de erro local e feedback. MAGICORE supera métodos como auto-refinamento e Best-of-k em todos os conjuntos de dados de inferência estatística, com vantagens significativas de desempenho mesmo após uma única iteração. Continua a melhorar com mais iterações, destacando a sua eficiência e capacidades de desenvolvimento.
MAGICORE avança no pensamento por meio de interações multiagentes e refinamento refinado. Enquanto a Autoconsistência (SC) gera múltiplas soluções e seleciona a resposta mais comum, a MAGICORE utiliza RMs externos para orientar o refinamento, evitando as limitações do SC. Ao contrário dos métodos anteriores que dependem da autovalidação LLM, o MAGICORE usa RMs para identificar erros e refinar as respostas de forma eficaz. Ele usa um sistema multiagente, onde os agentes assumem diferentes funções – solucionador, revisor e refinador – para melhorar iterativamente as soluções. Essa abordagem evita o refinamento excessivo ou insuficiente e melhora o desempenho em uma variedade de tarefas, métodos de clustering de alto desempenho e métodos de autoavaliação baseados em LLM.
MAGICORE é uma estrutura flexível projetada para melhorar a eficácia e eficiência do raciocínio em várias etapas em LLMs por meio da integração de testes inteligentes e tempo de refinamento. Ele classifica os problemas como fáceis ou difíceis, usando uma forte combinação de tarefas simples e refinamento multiagente iterativo e refinado de tarefas mais complexas. A estrutura usa dois modelos de recompensa: um Modelo de Recompensa de Resultados (ORM) para qualidade geral da solução e um Modelo de Recompensa de Processo (PRM) para precisão passo a passo. MAGICORE usa três agentes – Solver, Reviewer e Refiner – para gerar, testar e refinar iterativamente soluções até que as respostas corretas sejam encontradas. Essa abordagem evita o refinamento excessivo, melhora a localização de erros e garante o desenvolvimento ideal da solução.
MAGICORE supera todas as linhas de base após apenas uma iteração, mostrando uma melhoria de 3,2% em relação ao Melhor de 120 no Llama-3-8B ao usar metade das amostras. Em comparação com o Self Refining e o Stability Refining, o MAGICORE apresenta ganhos significativos de até 17,1% no Llama-3-8B e 5,4% em bases combinadas. MAGICORE continua a melhorar a precisão à medida que a repetibilidade aumenta, estabilizando em 75,6%, ao contrário das bases variáveis. Além disso, o MAGICORE faz uso eficiente de menos amostras, evita correção excessiva com filtragem seletiva e se beneficia de sua configuração multiagente. As funções separadas de Revisor e Refinador melhoram ainda mais o desempenho, destacando a estratégia ativa de refinação da MAGICORE.
MAGICORE fornece recursos computacionais de forma flexível para problemas desafiadores, usando refinamentos especiais para casos difíceis. Aborda o excesso de refinamento, as limitações do LLM na detecção de erros e o sub-refinamento. Ao combinar modelos de recompensa globais e locais, a MAGICORE determina quais problemas precisam ser refinados e usa feedback iterativo para melhorar a precisão. Testado em conjuntos de dados estatísticos e dois modelos, o MAGICORE supera consistentemente os métodos de referência, mesmo aqueles com altas demandas computacionais. Ao contrário das técnicas fuzzy tradicionais, o desempenho do MAGICORE melhora com mais iterações, destacando a importância do refinamento seletivo e da coordenação multiagente na melhoria das capacidades de resolução de problemas.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
⏩ ⏩ WEBINAR GRATUITO DE IA: 'Vídeo SAM 2: Como sintonizar seus dados' (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)