A geração aumentada de recuperação (RAG) tem sido uma abordagem revolucionária no processamento de linguagem natural, combinando métodos de recuperação com modelos generativos para melhorar a precisão em tempo real e o poder de raciocínio. Os sistemas RAG são excelentes na geração de respostas complexas utilizando fontes externas e na integração da informação devolvida em narrativas coerentes. Ao contrário dos modelos tradicionais que dependem apenas de informações pré-existentes, os sistemas RAG podem integrar dados em tempo real, tornando-os úteis para tarefas que requerem informações atualizadas e raciocínio multi-hop. Este estudo examina como os sistemas RAG lidam com consultas complexas envolvendo vários documentos e ambiguidade temporal, demonstrando assim com precisão como esses sistemas funcionam em situações do mundo real.
O desafio de avaliar sistemas RAG é que os métodos atuais muitas vezes precisam capturar o seu desempenho real. Os benchmarks existentes, como TruthfulQA, HotpotQA e TriviaQA, testam componentes isolados, como precisão real ou precisão de recuperação, mas precisam fornecer uma visão unificada de como esses sistemas combinam vários fatores para fornecer soluções de pensamento ponta a ponta. Como resultado, torna-se difícil avaliar o desempenho destes sistemas no tratamento de consultas complexas e multi-documentais que requerem a integração de informações de diversas fontes.
Os métodos existentes para testar sistemas RAG baseiam-se em conjuntos de dados concebidos para responder a uma única pergunta ou verificação de factos, o que limita a sua aplicabilidade a tarefas complexas e de várias etapas. Por exemplo, o conjunto de dados TruthfulQA concentra-se mais em garantir a veracidade das respostas. Em contraste, conjuntos de dados como o HotpotQA enfatizam a recuperação de documentos relevantes sem examinar a lógica necessária para compilar essas informações. Como resultado, a falta de um conjunto de testes abrangente resulta numa compreensão incompleta do desempenho dos sistemas RAG.
Pesquisadores do Google e da Universidade de Harvard desenvolveram o QUADROS (Fa verdadeRrecuperação, UMnd pensando em mimconfirmação Set) conjunto de dadosque inclui 824 questões desafiadoras multi-hop que buscam integrar informações de múltiplas fontes. Este conjunto de dados exclusivo examina sistemas RAG em três capacidades principais: fatos, recuperação e raciocínio. As perguntas cobrem uma variedade de tópicos, desde história e esportes até fenômenos científicos, cada uma exigindo de 2 a 15 artigos da Wikipédia para serem respondidas. Cerca de 36% das questões envolvem raciocínio usando múltiplas restrições, 20% exigem comparações numéricas e 16% exigem ambiguidade temporal. O conjunto de dados FRAMES foi projetado para fornecer uma representação realista de consultas encontradas em aplicativos do mundo real, fornecendo assim uma plataforma de teste robusta para testar sistemas RAG de última geração.
O estudo apresentou um método de recuperação em múltiplas etapas para melhorar o desempenho de sistemas RAG em consultas complexas. Os métodos tradicionais de uma etapa alcançaram uma precisão de apenas 0,40, destacando a dificuldade que até mesmo os modelos avançados enfrentam na integração de informações de múltiplas fontes. No entanto, o novo método de regressão em vários passos apresentou melhorias significativas, com a precisão aumentando para 0,66 quando os modelos foram regredidos repetidamente e incluíram informações relevantes. Este método executa múltiplas consultas de pesquisa em etapas iterativas, onde cada consulta retorna os documentos de nível superior adicionados ao contexto do modelo. O modelo ganha acesso às informações mais relevantes a cada iteração, melhorando sua capacidade de raciocinar através de restrições complexas e responder com precisão a perguntas multi-hop.
Apesar dessas melhorias, os pesquisadores descobriram que os modelos deveriam ter um desempenho melhor em determinadas categorias de raciocínio. Por exemplo, a precisão do raciocínio numérico, da extracção de dados tabulares e do pós-processamento permaneceu baixa, mesmo quando todos os documentos relevantes foram fornecidos. O modelo moderno atingiu uma precisão de 0,40 no caso de teste de uma etapa, melhorando para 0,45 com dois textos adicionais e 0,47 com quatro. O Oracle Prompt, onde todos os documentos necessários estavam presentes no contexto, deu uma precisão de 0,73, o que mostra o poder dos sistemas de recuperação abrangentes para aumentar o desempenho do modelo. O estudo conclui que, embora os programas RAG tenham feito progressos significativos, ainda enfrentam desafios na integração da informação devolvida em respostas coerentes, especialmente em situações difíceis.
Este estudo destaca a necessidade de maior desenvolvimento nos programas RAG, particularmente no desenvolvimento de métodos de recuperação e capacidades de raciocínio. As descobertas fornecem uma base sólida para trabalhos futuros que se concentrem na melhoria da integração da recuperação complexa de vários textos e no refinamento de estruturas conceituais. Ao abordar estas lacunas, os sistemas RAG podem tornar-se mais robustos e capazes de lidar com consultas do mundo real de forma mais precisa e consistente.
Principais conclusões do lançamento:
- O conjunto de dados FRAMES apresentou 824 questões para analisar a realidade, recuperação e capacidade de raciocínio.
- Cerca de 36% do conjunto de dados envolve raciocínio usando múltiplas restrições e 20% envolve comparação de números.
- Os métodos de teste de uma etapa alcançaram uma precisão de 0,40, enquanto os métodos de múltiplas etapas melhoraram a precisão para 0,66.
- O Oracle Prompt, que inclui todos os documentos necessários, teve precisão de 0,73, mostrando o poder dos sistemas de recuperação apropriados.
- Apesar das melhorias na recuperação repetida, a pesquisa enfatiza lacunas significativas nas tarefas de raciocínio numérico, tabular e pós-processamento.
Em conclusão, este estudo fornece uma estrutura abrangente para avaliar sistemas RAG, mostrando tanto o progresso quanto os desafios no desenvolvimento de capacidades robustas de raciocínio multi-hop. O conjunto de dados FRAMES fornece uma imagem clara de como os sistemas RAG funcionam em aplicações do mundo real, preparando o terreno para futuras inovações para colmatar as lacunas existentes e melhorar as capacidades destes sistemas.
Confira Papel de novo Conjunto de dados. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.