FastSwitch: sucesso no gerenciamento de cargas de trabalho complexas de LLM com geração avançada de tokens e gerenciamento de recursos baseado em prioridades
Inteligência artificial

FastSwitch: sucesso no gerenciamento de cargas de trabalho complexas de LLM com geração avançada de tokens e gerenciamento de recursos baseado em prioridades


Modelos linguísticos em larga escala (LLMs) revolucionaram as aplicações de IA, permitindo tarefas como tradução de idiomas, assistentes virtuais e geração de código. Esses modelos dependem de infraestrutura com uso intensivo de recursos, especialmente GPUs com memória de alta largura de banda, para gerenciar suas necessidades computacionais. No entanto, fornecer um serviço de alta qualidade a muitos utilizadores apresenta simultaneamente desafios significativos. A alocação adequada desses recursos limitados é fundamental para cumprir os objetivos de nível de serviço (SLOs) em métricas sensíveis ao tempo, garantindo que o sistema possa acomodar usuários adicionais sem interromper o desempenho.

Um problema persistente nos sistemas de abastecimento LLM é conseguir uma distribuição eficiente de recursos e, ao mesmo tempo, manter a eficiência. Os sistemas existentes tendem a priorizar a produção, ignorando requisitos de justiça, como o equilíbrio da latência entre os usuários. Métodos avançados de agendamento, que ajustam as prioridades da solicitação, resolvem isso. No entanto, esses métodos introduzem sobrecargas de troca de contexto, como ociosidade da GPU e uso de E/S ineficiente, que degradam indicadores de desempenho importantes, como Tempo até o primeiro token (TTFT) e Tempo entre tokens (TBT). Por exemplo, a latência causada pelo processamento em situações de alto estresse pode atingir 59,9% da latência P99, resultando em uma diminuição significativa na experiência do usuário.

As soluções atuais, como o vLLM, dependem do gerenciamento de memória baseado em página para resolver problemas de memória da GPU, trocando dados entre a memória da GPU e da CPU. Embora estes métodos melhorem o seu desempenho, eles enfrentam limitações. Problemas como alocação heterogênea de memória, baixo uso de largura de banda de E/S e transferências redundantes de dados durante sessões multithread persistem, prejudicando seu desempenho. Por exemplo, o tamanho de bloco fixo de 16 tokens do vLLM resulta em menos granularidade, o que reduz a eficiência da largura de banda PCIe e aumenta a latência durante a comutação inicial do núcleo.

Pesquisadores da Universidade Purdue, do Instituto Shanghai Qi Zhi e da Universidade Tsinghua o desenvolveram FastSwitchum sistema operacional LLM com reconhecimento de justiça que aborda ineficiências de troca de contexto. FastSwitch oferece três configurações básicas: um poderoso gerenciador de grupo de blocos, um gerenciador de switch híbrido e um mecanismo de reutilização de cache KV. Essas inovações trabalham juntas para melhorar a utilização de E/S, reduzir a ociosidade da GPU e reduzir transferências de dados redundantes. O design do sistema baseia-se no vLLM, mas concentra-se na alocação de memória de baixa granularidade e nas operações paralelas para melhorar o gerenciamento de recursos.

O gerenciador de grupos de blocos FastSwitch otimiza a alocação de memória agrupando blocos adjacentes, aumentando a granularidade da transferência. Este método reduz o atraso em até 3,11x em comparação aos métodos existentes. O gerenciador de troca multithreading melhora a eficiência da geração de tokens, permitindo a troca síncrona, reduzindo o tempo ocioso da GPU. Inclui sincronização bem analisada para evitar conflitos entre aplicações novas e em curso, garantindo um bom funcionamento durante processos sobrepostos. Enquanto isso, o método de reutilização do cache KV armazena dados parcialmente válidos na memória da CPU, reduzindo o atraso de configuração ao evitar transferências desnecessárias do cache KV. Juntos, esses componentes abordam os principais desafios e melhoram o desempenho geral dos sistemas de provisão de LLM.

Os pesquisadores testaram o FastSwitch usando os modelos LLaMA-8B e Qwen-32B em GPUs como NVIDIA A10 e A100. Os cenários de teste incluem atualizações de conteúdo de alta frequência e múltiplas conversas dinâmicas retiradas do conjunto de dados ShareGPT, resultando em uma média de 5,5 turnos por conversa. O FastSwitch superou o vLLM em várias métricas. Alcançou acelerações de 4,3-5,8x no P95 TTFT e 3,6-11,2x no P99.9 TBT em diferentes modelos e funções. Além disso, o FastSwitch melhorou o desempenho em até 1,44x, demonstrando sua capacidade de lidar com cargas de trabalho complexas de maneira eficaz. O sistema também reduz significativamente a alternância de contexto, melhorando a utilização de E/S em 1,3x e a GPU em 1,42x em comparação com o vLLM.

A configuração FastSwitch resultou em benefícios tangíveis. Por exemplo, seu método de reutilização de cache KV reduziu os bloqueios de switch em 53%, reduzindo significativamente a latência. O gerenciador de exchanges multithreading melhorou a eficiência da geração de tokens, alcançando uma melhoria de 21,8% nos acervos P99 em comparação com os sistemas de linha de base. O gerenciador de grupo de blocos preserva a granularidade alocando memória em grandes blocos, equilibrando eficiência e utilização. Esses desenvolvimentos destacam a capacidade do FastSwitch de manter a integridade e a eficiência em ambientes de alta demanda.

As principais conclusões do estudo incluem:

  • Gerente de grupo de blocos dinâmicos: Melhor uso da largura de banda de E/S com maiores transferências de memória, reduzindo a latência da troca de contexto em 3,11x.
  • Gerenciador de intercâmbio multithread: Aumento da eficiência de geração de token em 21,8% na latência P99, reduzindo o tempo ocioso da GPU para tarefas paralelas.
  • Método de reciclagem de cache KV: volume de swap reduzido em 53%, permitindo a reutilização eficiente de dados de cache e reduzindo a latência de configuração.
  • Métricas de desempenho: O FastSwitch alcançou uma aceleração de até 11,2x no TBT e melhorou o rendimento em 1,44x sob cargas de trabalho críticas.
  • Escalabilidade: Demonstrou forte desempenho em modelos como LLaMA-8B e Qwen-32B, mostrando flexibilidade em diversas condições operacionais.

Concluindo, o FastSwitch aborda as ineficiências das operações LLM, introduzindo melhorias inovadoras que equilibram justiça e eficiência. A redução das despesas gerais de troca de contexto e a otimização da utilização de recursos garantem a entrega de serviços escaláveis ​​e de alta qualidade em ambientes com muitos usuários. Este desenvolvimento o torna uma solução revolucionária para aplicações modernas de LLM.


Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

🎙️ 🚨 'Avaliação de vulnerabilidade de um grande modelo de linguagem: uma análise comparativa dos métodos da Cruz Vermelha' Leia o relatório completo (Promovido)


Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.

🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *