LLMs de contexto longo permitem aplicações avançadas, como análise de código de nível, consultas longas de documentos e aprendizado intensivo de vários conteúdos, suportando janelas de contexto estendidas de 128 mil a 10 milhões de tokens. No entanto, esses recursos apresentam desafios de eficiência computacional e uso de memória durante a inferência. Desenvolvimentos para melhorar o cache de valor-chave (KV) surgiram para resolver esses problemas, com foco na melhoria da reutilização de caches de estado compartilhados em múltiplas interfaces. Técnicas como PagedAttention, RadixAttention e CacheBlend visam reduzir os custos de memória e aumentar a utilização do cache, mas geralmente são testadas apenas em cenários de thread único, observando aplicativos multithread do mundo real.
Os esforços para melhorar a orientação de formato longo concentram-se na redução das restrições computacionais e de memória durante os estágios de pré-preenchimento e gravação. Otimizações de pré-preenchimento, como atenção mínima, atenção de linha e compactação rápida, reduzem a complexidade do gerenciamento de grandes janelas de contexto. As técnicas de decodificação, incluindo compactação KV estática e dinâmica, carregamento de cache e codificação inferida, visam gerenciar as restrições de memória de maneira mais eficiente. Embora esses métodos melhorem a eficiência, muitos dependem de técnicas de supressão de perdas, que podem degradar o desempenho em configurações multivoltas, onde a latência inicial é importante. Os benchmarks de conversação existentes priorizam a análise sequencial, o que deixa uma lacuna no teste de soluções de cenários compartilhados em situações do mundo real.
Pesquisadores da Microsoft e da Universidade de Surrey estão lançando o SCBench, um benchmark projetado para testar métodos de contexto longo em LLMs usando uma abordagem KV centrada em cache. O SCBench testa as quatro fases do cache KV: geração, compactação, recuperação e carregamento em 12 operações e dois modos de conteúdo compartilhado (multi-turn e multi-solicitação). O benchmark analisa métodos como atenção mínima, compressão e regressão em modelos como Llama-3 e GLM-4. Os resultados destacam que os métodos de memória sub-O(n) apresentam dificuldades em cenários multivoltas, enquanto os métodos de memória O(n) são eficientes. O SCBench fornece insights sobre os efeitos da luz, complexidade de tarefas e desafios como mudanças na distribuição em cenários de longa geração.
A estrutura centrada em cache KV divide os métodos de contexto longo em LLMs em quatro categorias: geração, compactação, recuperação e carregamento. A geração inclui técnicas como baixa atenção e compactação rápida, enquanto a compactação envolve técnicas como queda de buffer KV e equalização. A recuperação se concentra na recuperação de blocos de cache KV relevantes para melhorar a eficiência, e o carregamento envolve a transferência dinâmica de dados KV para serem computados. O benchmark SCBench testa esses métodos em 12 tarefas, incluindo recuperação de string e semântica, multitarefa e processamento global. Ele analisa métricas de desempenho, como precisão e eficiência, ao mesmo tempo que fornece insights sobre a inovação do algoritmo, incluindo otimização tri-shape, que otimiza muitos cenários de aplicação.
Os pesquisadores testaram seis LLMs de código aberto para conteúdo longo, incluindo Llama-3.1, Qwen2.5, GLM-4, Codestal-Mamba e Jamba, representando várias arquiteturas, como Transformer, SSM e híbridos SSM-Atenção. Os testes usaram a precisão do BFloat16 em GPUs NVIDIA A100 com estruturas como HuggingFace, vLLM e FlashAttention-2. Foram testadas oito soluções de contexto de longo prazo, incluindo atenção mínima, gerenciamento de cache KV e compactação rápida. Os resultados mostraram que o MINference teve melhor desempenho em tarefas de recuperação, enquanto o formato A e o formato Tri tiveram melhor desempenho em tarefas multivoltas. A compressão KV e os métodos de compressão rápida produziram resultados mistos, muitas vezes ineficazes em operações de recuperação. Os híbridos de atenção SSM tiveram dificuldades em interações multivoltas, e os modelos lineares fechados mostraram um desempenho geral ruim.
Em conclusão, o estudo destaca uma lacuna importante no exame de abordagens de contexto longitudinal, que tendem a se concentrar em interações de turno único, ignorando as situações de conteúdo compartilhado e de múltiplos turnos que são mais comuns em programas de LLM do mundo real. O benchmark SCBench foi introduzido para resolver isso, testando mecanismos de contexto de longo prazo a partir de uma perspectiva do ciclo de vida do cache KV: geração, compactação, recuperação e carregamento. Inclui 12 funções em dois modos de conteúdo compartilhado e quatro recursos principais: recuperação de strings, recuperação semântica, processamento global de informações e multitarefa. O exame de oito métodos de contexto longos e seis LLMs de alto nível revela que os métodos sub-O(n) apresentam dificuldades em configurações de vários turnos. Em contraste, O(n) aborda o Excel, que fornece informações valiosas para o desenvolvimento de LLMs com contextos e estruturas longos.
Confira eu Papel de novo Conjunto de dados. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)