Foi demonstrado que a geração aumentada de recuperação (RAG) melhora as habilidades de informação e reduz as alucinações em LLMs. A Web é uma importante fonte de informações externas usadas no RAG e em muitos programas comerciais, como o ChatGPT. No entanto, o uso atual de RAG enfrenta um grande desafio na sua abordagem de processamento de informações. O método convencional de converter documentos HTML em texto simples antes de alimentá-los nos LLMs leva a uma perda significativa de informações estruturais e semânticas. Essa limitação se torna aparente ao trabalhar com conteúdo web complexo, como tabelas, onde o processo de conversão interrompe o formato original e descarta tags HTML importantes que carregam informações contextuais importantes.
As abordagens existentes para o desenvolvimento de programas RAG concentram-se em diferentes partes e estruturas. Os pipelines RAG tradicionais usam coisas como reescritores de consultas, recuperadores, reescaladores, refinadores e leitores, conforme usados em sistemas como LangChain e LlamaIndex. Método de processamento A pós-recuperação é processada usando filtros abstratos e baseados em chunking para otimizar o conteúdo enviado aos LLMs. Além disso, pesquisas na compreensão de dados estruturados mostraram a maior riqueza de informações das tabelas HTML e Excel em comparação com o texto simples. No entanto, estas soluções existentes enfrentam limitações ao lidar com conteúdo HTML, uma vez que os métodos de integração tradicionais não conseguem lidar bem com a estrutura HTML e os refinadores abstratos lutam com conteúdos HTML longos e têm custos computacionais elevados.
Pesquisadores da Escola de Inteligência Artificial Gaoling, Universidade Renmin da China e Tecnologia Inteligente Baichuan, China propuseram o HtmlRAG, um método que usa HTML em vez de texto simples como formato de informações retornadas de programas RAG para armazenar informações ricas semânticas e estruturadas. não está em texto simples. Essa abordagem utiliza avanços recentes nos recursos de janela de contexto dos LLMs e na flexibilidade do HTML como um formato que pode aceitar vários tipos de documentos, como LaTeX, PDF e Word, com perda mínima de informações. Além disso, os pesquisadores identificaram desafios significativos no uso desse método, especialmente o grande comprimento de token de documentos HTML brutos e a presença de ruído em estilos CSS, JavaScript e formatos de comentários, que compreendem mais de 90% dos tokens.
HtmlRAG usa um método de remoção em duas etapas para processar corretamente os documentos HTML recebidos. Inicialmente, o programa compila todos os documentos HTML retornados e os divide em uma única árvore DOM usando Good Soup. Para enfrentar os desafios computacionais impostos pela natureza refinada das árvores DOM tradicionais, os pesquisadores desenvolveram uma arquitetura aprimorada de “árvore de blocos”. Este método permite granularidade ajustável controlada pelo parâmetro maxWords. Além disso, o processo de construção da árvore de blocos mescla iterativamente os nós filhos separados de seus nós pais, formando blocos maiores enquanto mantém a restrição de limite de palavras. O processo de remoção é então executado em dois estágios separados: o primeiro usa o modelo de incorporação para processar a saída HTML limpa, seguido pelo modelo de geração para otimização adicional.
Os resultados mostram o desempenho superior do HtmlRAG em todos os seis conjuntos de dados, superando os métodos de linha de base em todas as métricas de teste. Os resultados mostram um uso limitado de informações estruturais em comparação com HtmlRAG ao testar refinadores baseados em chunking seguindo o método LangChain. Entre os recuperadores, os recuperadores densos tiveram melhor desempenho que o recuperador esparso BM25, com o BGE baseado em codificador apresentando melhores resultados que o e5-mistral baseado no extrator. Além disso, os refinadores abstratos apresentam limitações significativas: LongLLMLlingua luta com o processamento de documentos HTML e com a falta de informações estruturais na conversão de texto simples, enquanto o leitor JinaAI, apesar de produzir Markdown refinado pela inserção de HTML, enfrenta os desafios de token e seleção de token e alta complexidade computacional. requisitos. longa sucessão.
Concluindo, os pesquisadores apresentaram uma abordagem chamada HtmlRAG que usa HTML como formato de informações retornadas de programas RAG para armazenar informações semânticas e estruturadas ricas que não estão disponíveis em texto simples. A limpeza e remoção de HTML usada controla efetivamente o comprimento do token, preservando informações estruturais e semânticas importantes. O desempenho superior do HtmlRAG em comparação com processos de segundo plano de recuperação baseados em texto simples garante a eficiência do uso do formato HTML para recuperação de informações. Os pesquisadores fornecem uma solução prática imediata e estabelecem uma nova direção promissora para o desenvolvimento futuro em sistemas RAG, incentivando o desenvolvimento de métodos de processamento e informação baseados em HTML.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[AI Magazine/Report] Leia nosso último relatório sobre 'MODELOS DE TERRENO PEQUENOS'
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️