Os Modelos de Linguagem em Grande Escala (LLMs) cresceram em complexidade e demanda, criando desafios significativos para empresas que desejam fornecer Modelo como Serviço (MaaS) econômico. A rápida adoção de LLMs em diversas aplicações levou a cargas de trabalho altamente variáveis em termos de comprimentos de entrada/saída, frequências de chegada e requisitos de serviço. Equilibrar a utilização de recursos para satisfazer estas diversas necessidades tornou-se um grande desafio. Alcançar esse equilíbrio requer estratégias sofisticadas para atender aos Objetivos de Nível de Serviço (SLOs) de latência e desempenho. Além disso, as arquiteturas LLM tradicionais geralmente assumem que há recursos suficientes disponíveis para lidar com todas as solicitações, o que se torna difícil com o aumento da demanda, especialmente durante períodos de alto uso.
O principal desafio é aumentar o rendimento sem comprometer a latência, especialmente à medida que os custos de processamento aumentam e os recursos da GPU permanecem limitados. Para lidar com esses problemas, a Moonshot AI desenvolveu uma nova estrutura.
Moonshot AI abre sua arquitetura de raciocínio central: Mooncake
Uma empresa de IA com sede na China IA do tiro lunar abriu oficialmente sua estrutura básica denominada Bolo Lunar. Mooncake visa abordar os principais desafios de medição e eficiência na prática de LLM. Moonshot AI usa uma arquitetura distribuída centrada em KVCache, que diferencia Mooncake de outras plataformas LLM. O primeiro componente de código aberto do Mooncake, chamado Motor de transmissãoagora está disponível no GitHub, com componentes adicionais planejados para lançamentos de links do GitHub no futuro.
O núcleo do Mooncake é sua abordagem centrada no KVCache para lidar com cargas de trabalho em cluster. Ao separar clusters de pré-preenchimento e decodificação, Mooncake pode otimizar recursos dinamicamente, usando recursos não utilizados de CPU, DRAM e SSD para armazenamento em cache eficiente. Esta distinção é importante ao lidar com os vários aspectos contábeis do curso LLM. A decisão de abrir o Mooncake demonstra um compromisso com a transparência e o desenvolvimento orientado pela comunidade na padronização LLM.
Detalhes técnicos
Mooncake sugere um Método de classificação Prefill-Decoding (PD) centrado em KVCache. e um estruturas de computação de armazenamento distribuídasmelhoraram muito a saída do serviço Moonshot AI da LLM, Kimi. O método KVCache é importante para melhorar o rendimento e a latência. Em vez de manter os recursos da GPU envolvidos em todos os aspectos da implementação do modelo, Mooncake separa o uso do KVCache das tarefas computacionais, permitindo que ele seja gerenciado por hardwares menos utilizados, como CPUs e SSDs.
A estrutura Mooncake divide o LLM em duas seções—Pré-preencher e decodificar. Durante a fase de preenchimento, o cache reutilizável é transferido para as condições de preenchimento, o que melhora a produção de tokens iniciais e reduz a computação redundante. Então, durante a fase de decodificação, o KVCache é integrado, permitindo uma integração eficiente. Essa diferenciação levou a melhorias significativas de desempenho.
Usando um política de rejeição antecipada baseada em previsãoMooncake também ajuda a evitar sobrecarga do sistema durante períodos de alta solicitação. Essa abordagem contribuiu para manter os Objetivos de Nível de Serviço (SLOs) de tempo para iniciar um token (TTFT) e tempo entre tokens (TBT), mesmo sob cargas de alto desempenho. Os resultados do teste mostraram que, em comparação com a linha de base, Mooncake alcançou até um aumento de cinco vezes na produção em condições simuladas e foram alimentados 75% mais gerenciamento de aplicativos sob cargas de trabalho do mundo real.
A importância do lançamento de código aberto do Mooncake é multifacetada. Representa progresso em classificação de funções LLM para inferênciagarantindo que nenhuma peça de hardware se torne um gargalo. O modelo de agendamento centrado no KVCache equilibra efetivamente as cargas de recursos, permitindo que os provedores de serviços aumentem o desempenho sem violar os requisitos de latência. Essa eficiência é importante dada a crescente demanda por habilidades de LLM em todos os setores.
Os resultados dos testes mostram que Mooncake alcançou um um aumento de cinco vezes na produção em alguns cenários de simulação de contexto de longo prazo, mantendo os SLOs necessários. No cenário do mundo real, Mooncake deu a Kimi o poder de hospedar 75% mais solicitações em comparação com estruturas anteriores. Este desenvolvimento destaca a capacidade da Mooncake de escalar com eficiência e reduzir custos. A abordagem dividida também oferece maior flexibilidade na adição de recursos de computação em trânsito, o que acomoda a diversidade de cargas de trabalho do LLM de forma mais eficaz do que os sistemas integrados tradicionais.
A liberação faseada do código aberto também incentiva o desenvolvimento colaborativo. Começando com o Transfer Engine, o Moonshot AI visa coletar informações públicas antes de lançar componentes adicionais. Esta abordagem faseada pretende levar a um maior desenvolvimento e a uma adoção mais ampla nos vários campos que requerem soluções eficientes de LLM.
A conclusão
A decisão da Moonshot AI de abrir o código Mooncake reflete uma tendência de todo o setor em direção a práticas de desenvolvimento de IA transparentes e escaláveis. Ao focar no particionamento centrado no KVCache, Mooncake aborda os principais desafios da implementação do LLM: latência, eficiência e robustez. Já demonstrou benefícios significativos de desempenho, tornando-se uma estrutura promissora para o trabalho de LLM. A arquitetura do Mooncake equilibra efetivamente os requisitos de computação e cache, otimiza a utilização de recursos, reduz a latência e melhora o rendimento geral. A abordagem faseada de código aberto ressalta o compromisso da Moonshot AI com a melhoria contínua e a colaboração da comunidade.
Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)