CHYKV: Para se preparar para um conflito de cache de KV para obter o efetivo do LLMS do LLMS

O envio efetivo do NOG NELMS requer memória de GPU manipulativa devido a requisitos de armazenamento sênior (KV). As estratégias de implementação da KV reduzem o uso da memória, selecionando tokens baixos, geralmente removidos dos contracheques. No entanto, os métodos estão avaliando o token acusativo, procurando uma dependência importante entre os tokens de manutenção. Por exemplo, o modelo pode armazenar palavras -chave relacionadas à conformidade e abandonar os nomes de conteúdo importante, resultando em perda de informações. Essa restrição destaca a necessidade de uma maneira formal adicional na opressão do cache do KV, analisando as relações de relacionamento e a integridade semática.

As pesquisas mais recentes testaram estratégias para converter o cache KV para usar o uso da memória sem comprometer o desempenho. Os métodos H2O e Snapkv usam o atendimento com base na manutenção para manter tokens críticos enquanto solicitam edição de edição em fins significativos. O chunking tem sido amplamente utilizado no PNL de serviço pré-treino e atividades de retorno, para garantir a conformidade da genuína. Além disso, as estratégias sábias como Lisa e Dollen melhoram o desempenho do modelo com uma aquisição de estrutura de diferentes partes do transformador. Embora esses avanços melhorem o desempenho da memória, incluindo a conscientização do token, dependendo da copressão do KV Cache Comber, pode avançar com a manutenção da qualidade do longo centro e a qualidade da suavidade no LLMS.

Os investigadores da Universidade de Hong Kong foram enviados por Chunkkv, o método de mudança de troca de tokens de Qeakreench KH em pedaços intencionais, em vez de examinar individualmente. Este método mantém informações semânticas importantes e reduzem a memória. Além disso, o indicador de camada de camada inteligente está reutilizando o desempenho do computador. Avaliado por Longbench, The Need-in-Haystack, GSM8K e Jailbreakv, Chunkkv Chunkv. Comparado com os métodos alternativos, o Chunkkk mantém o significado do significado e melhora a eficiência, estabelecendo -o como uma solução sólida para um longo contexto em grandes modelos de linguagem.

Para o comprimento de crescente do Código de LLMs, a competição de KV do KV é importante nos desassocios aplicáveis, pois usa uma grande memória da GPU. Chunkkv é como manter os tokens ricos de punks, reduzir o uso da memória, mantendo informações confidenciais. Ele contém componentes de tokens em pedaços intencionais e educacionais usando as pontuações. A maneira de reutilizar o índice é reparada, compartilhando os índices pressionados através das camadas. Os resultados do teste indicam que o Chunkkv está melhorando muito o índice de correspondência nas comparações em comparação com as formas anteriores como Snapkv. Essa manutenção formal de KV está alinhada com os termos do conteúdo no contestamento de leitura, salve a sincronização semântica enquanto prepara o uso da memória.

Este estudo avalia o desempenho de Chunkkv em um estresse temporário de KV nos dois benchmarks: ICL) e com compaixão há muito tempo. Teste de leitura ICL, GSM8K, GSM8K e Jailbreakv usando o LLAMA-3.1-8B-State e Deepseek-R1-LLA-LLA-8B. O Chunkkv sempre bramlifica outras maneiras de manter a precisão de diferentes medições de pressão. Por um longo tempo, o estudo avalia Longbench e Naliti-in-Aystack (NIAH), que mostraram maior desempenho da Chunkkv mantendo informações importantes. Além disso, os exercícios Exemex refletem bem desempenho, reduzindo o poder de latência e o aumento do pé no A40GU. No geral, os resultados confirmam o poder do Chunkkv para executar o choque de cache de KV, enquanto armazena trabalho em diferentes contextos e edifícios.

Em conclusão, a lição avalia o impacto do tamanho do pedaço na funcionalidade Chunkkv, para salvar as mesmas configurações de teste, como o Longbench. Os resultados mostram uma variabilidade mensurável de um desempenho medido em todos os pedaços de pedaços, 10-20 expressando os melhores resultados. A ampla exploração de toda a bancada longa e Naya confirma que o tamanho do pedaço de 10 medições corresponde ao armazenamento semântico e ao funcionamento eficaz. O Chunkkv libera com sucesso o uso com sucesso da memória de tempo de KV, enquanto armazena informações importantes. Além disso, o Índice de desgaste do Índice Reuba Technicology aprimorou o poço, reduzindo a latência em 20,7% e melhorando a libertação em 26,5%. Esses resultados estabelecem um Chunkkv como um método bem eficaz de Cacecreart of Shipping LLMS.

Enquete o papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Registre a plataforma de IA de código aberto: 'Sistema de código aberto interestagente com muitas fontes para testar o programa difícil' _(Atualizado)

Sana Hassan, um contato em Marktechpost com um aluno do estudante de dual-grau no IIIT Madras, adora usar a tecnologia e a IA para lidar com os verdadeiros desafios do mundo. Estou muito interessado em resolver problemas práticos, traz uma nova visão da solução de IA para a IA e soluções reais.

✅ [Recommended] Junte -se ao nosso canal de telégrafo

Source link

Você também pode gostar...

Pesquisadores da Snowflake e CMU apresentam SuffixDecoding: um novo método livre de modelo para acelerar a sumarização de modelos de linguagem grande (LLM) com decodificação inferencial

Memória de fluxo de trabalho do agente (AWM): uma abordagem de IA para melhorar a adaptabilidade e a eficiência dos agentes de navegação na Web

Desenvolvimento do alinhamento MLLM com MM-RLHF: data de pessoa multimondal

Deixe um comentário Cancelar resposta