A alta latência no tempo até o primeiro token (TTFT) é um grande desafio para sistemas de geração aumentada de recuperação (RAG). Os sistemas RAG existentes, que combinam e processam vários trechos de texto retornados para gerar respostas, exigem uma grande quantidade de computação, levando a atrasos. A enumeração repetida de buffers de valores-chave (KV) em documentos retornados agrava essa ineficiência. Como resultado, os sistemas RAG se esforçam para atender às necessidades de aplicações que exigem tempos de resposta rápidos, como resposta a consultas em tempo real ou geração de conteúdo.
Pesquisadores da Moore Threads AI apresentam o TurboRAG, uma nova maneira de melhorar o paradigma preditivo de programas RAG pré-computando e mantendo um cache KV de documentos offline. Em vez de calcular esses caches KV durante cada consideração, o TurboRAG recupera caches KV pré-computados para preencher com bastante antecedência, eliminando a necessidade de cálculos repetidos online. Essa abordagem leva à redução da sobrecarga computacional e a tempos de resposta mais rápidos sem sacrificar a precisão. O TurboRAG também aborda questões relacionadas ao mascaramento de matriz e incorporação espacial, garantindo que os repositórios KV computados possam ser usados com sucesso com muitos modelos linguísticos de grande escala (LLMs) existentes sem modificar o modelo de arquitetura.
A estrutura do TurboRAG é baseada em sua abordagem em duas etapas. Na fase offline, os caches KV de fragmentos de documentos são calculados e armazenados, reduzindo a quantidade de computação necessária durante a fase de expressão online. Durante a fase online, quando uma consulta é feita, o TurboRAG recupera os bancos de dados KV informatizados e os combina com a consulta do usuário para gerar respostas. Este paradigma híbrido inclui o uso de uma máscara de atenção independente, que evita atenção desnecessária a vários documentos, e a incorporação espacial relativa, que mantém a integridade das relações espaciais dentro dos documentos. O TurboRAG foi projetado para funcionar perfeitamente com pipelines RAG padrão, permitindo fácil adoção sem grandes alterações na infraestrutura.
Os resultados dos testes mostram a eficácia do TurboRAG na redução do TTFT em até 9,4 vezes em comparação aos sistemas RAG convencionais, com uma aceleração média de 8,6 vezes. É importante ressaltar que a precisão do TurboRAG permaneceu comparável à dos métodos RAG tradicionais em vários benchmarks. O TurboRAG também reduz significativamente o uso de recursos de computação, reduzindo os custos de computação do cache KV em mais de 98%, permitindo tamanhos de cluster maiores e melhor rendimento. Testes de ajuste fino confirmaram que o TurboRAG mantém a precisão do modelo mesmo sob condições desafiadoras, como áreas de recuperação barulhentas. Os testes mostraram que diferentes variantes do TurboRAG, ou seja, aquelas com sites incorporados e reorganizados, foram eficientes, com a variante reorganizada alcançando um desempenho ligeiramente melhor.
Concluindo, o TurboRAG oferece uma solução eficiente para os problemas de latência encontrados em sistemas RAG, separando a geração de cache KV computacionalmente cara do processo online. Ao usar um cache KV computadorizado e ajustar os mecanismos de atenção, o TurboRAG melhora muito a velocidade e a eficiência de resposta, mantendo a precisão. Essas melhorias tornam o TurboRAG uma opção atraente para terceirizar RAG em aplicações sensíveis à latência, expandindo potencialmente a gama de aplicações RAG em cenários em tempo real e em grande escala.
Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17, 2024] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.