Modelos de linguagem em larga escala (LLMs) tornaram-se parte integrante das aplicações modernas de IA, permitindo ferramentas como chatbots e geradores de código. No entanto, a crescente dependência destes modelos produziu ineficiências no processo de identificação. Mecanismos de atenção, como FlashAttention e SparseAttention, muitas vezes enfrentam cargas de trabalho variadas, padrões de entrada dinâmicos e limitações de recursos de GPU. Esses desafios, aliados à alta latência e às restrições de memória, enfatizam a necessidade de uma solução eficiente e flexível para dar suporte à inferência LLM dinâmica e responsiva.
Pesquisadores da Universidade de Washington, NVIDIA, Perplexity AI e Carnegie Mellon University criaram FlashInfer, uma biblioteca de IA e gerador de kernel projetado para interpretação de LLM. FlashInfer fornece otimização de kernel de GPU para vários modos de atenção, incluindo FlashAttention, SparseAttention, PageAttention e amostragem. Seu design prioriza flexibilidade e eficiência, abordando os principais desafios na oferta de um diploma de LLM.
FlashInfer incorpora um formato de bloco esparso para gerenciar o armazenamento de cache variável KV com eficiência e usa agendamento dinâmico e responsável para otimizar a utilização da GPU. Ao integrar-se com estruturas LLM populares, como SGlang, vLLM e MLC-Engine, o FlashInfer fornece uma maneira eficiente e flexível de melhorar o desempenho da inferência.
Recursos técnicos e benefícios
FlashInfer apresenta novas tecnologias:
- Kernels Perfeitos para Atenção: FlashInfer suporta uma variedade de métodos de atenção, incluindo pré-preenchimento, gravação e colagem de atenção, garantindo compatibilidade com vários formatos de cache KV. Essa flexibilidade melhora o desempenho em cenários de solicitação única e de atendimento em lote.
- Decodificação otimizada de prefixo compartilhado: Com atenção combinada de consulta (GQA) e atenção Fused-RoPE (Rotary Position Embedding), FlashInfer alcança aceleração significativa, como uma melhoria de 31x em relação à implementação de atenção de página vLLM para gravação mais rápida.
- Planejamento com balanceamento de carga dinâmico: O editor FlashInfer se adapta dinamicamente às alterações de entrada, reduzindo o tempo ocioso da GPU e garantindo um uso eficiente. Sua compatibilidade com gráficos CUDA também melhora seu desempenho em ambientes de produção.
- Integração JIT personalizada: FlashInfer permite aos usuários definir e compilar variáveis de atenção personalizadas em caracteres de alto desempenho. Esse recurso permite casos de uso especiais, como foco de janela deslizante ou conversão RoPE.
Detalhes de desempenho
FlashInfer mostra melhorias significativas de desempenho em vários benchmarks:
- Redução de latência: A biblioteca reduz a latência entre tokens em 29-69% em comparação com soluções existentes como Triton. Estas vantagens são particularmente evidentes em situações que envolvem considerações de conteúdo a longo prazo e produção paralela.
- Melhoria de desempenho: Nas GPUs NVIDIA H100, o FlashInfer atinge uma aceleração de 13-17% de tarefas da mesma geração, destacando seu desempenho em aplicações exigentes.
- Uso aprimorado de GPU: O agendador dinâmico do FlashInfer e os kernels aprimorados melhoram a largura de banda e a utilização do FLOP, especialmente em casos com comprimento distorcido ou paralelo.
FlashInfer também se destaca em operações de decodificação paralela, com formatos combináveis que permitem reduções significativas no Time-To-First-Token (TTFT). Por exemplo, testes no modelo Llama 3.1 (parâmetros 70B) mostram uma queda de 22,86% no TTFT sob certas configurações.
A conclusão
FlashInfer oferece uma solução eficiente e eficaz para os desafios do LLM, proporcionando melhorias significativas no desempenho e na utilização de recursos. Seu design flexível e recursos de integração o tornam uma ferramenta valiosa para o desenvolvimento de estruturas de atendimento LLM. Ao abordar ineficiências críticas e fornecer soluções técnicas robustas, o FlashInfer abre caminho para aplicações de IA mais acessíveis e gerenciáveis. Sendo um projeto de código aberto, convida à colaboração e inovação contínuas da comunidade de investigação, garantindo o desenvolvimento contínuo e a adaptação aos desafios emergentes na infraestrutura de IA.
Confira Papel de novo GitHub Página. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🧵🧵 Siga-nos no X (Twitter) para pesquisas gerais sobre IA e atualizações de desenvolvimento aqui…