Neural Magic lança compressor LLM: uma nova biblioteca para compactação de LLMs para entrada rápida com vLLM

Neural Magic lançou o Compressor LLMuma ferramenta avançada de desenvolvimento de modelos em grande escala que permite inferência muito rápida com compactação avançada de modelos. Portanto, a ferramenta é um importante alicerce na busca da Neural Magic de disponibilizar soluções eficientes de código aberto para a comunidade de aprendizagem profunda, especialmente dentro da estrutura vLLM.

O LLM Compressor reduz a complexidade da área anteriormente fragmentada de ferramentas de compactação de modelos, onde os usuários tinham que criar várias bibliotecas como AutoGPTQ, AutoAWQ e AutoFP8 para implementar algoritmos específicos de medição e compactação. Essas diferentes ferramentas são agrupadas em uma única biblioteca do LLM Compressor para facilitar o uso de algoritmos de compactação avançados, como GPTQ, SmoothQuant e SparseGPT. Esses algoritmos são utilizados para criar modelos compactados que proporcionam latência reduzida e mantêm altos níveis de precisão, o que é essencial para que o modelo esteja em produção.

O segundo avanço tecnológico importante que o LLM Compressor traz é a ativação e suporte de ponderação. Em particular, permitir a quantização é importante para garantir que os núcleos tensores INT8 e FP8 sejam usados. Isso melhorou o desempenho computacional nas novas arquiteturas de GPU da NVIDIA, como as arquiteturas Ada Lovelace e Hopper. Esse é um recurso importante para acelerar cargas de trabalho com restrições computacionais quando um gargalo matemático é exposto pelo uso de unidades matemáticas de baixa precisão. Isso significa que, ao equilibrar ativações e pesos, o LLM Compressor permite um aumento duplo no desempenho de tarefas de inferência, especialmente sob altas cargas de servidor. Isso é comprovado por modelos grandes como o Llama 3.1 70B, que comprova que utilizando o LLM Compressor, o modelo atinge um desempenho de latência muito próximo ao da versão ilimitada rodando em quatro GPUs com apenas duas.

Além de permitir a quantização, o LLM Compressor suporta esparsidade estruturada moderna, 2:4, redução de peso com SparseGPT. Essa redução de peso remove parâmetros redundantes, reduzindo seletivamente a perda de precisão, reduzindo 50% do tamanho do modelo. Além de acelerar a computação, essa combinação de quantização reduz a memória e permite a implantação em hardware limitado pelos recursos dos LLMs.

O LLM Compressor foi projetado para integrar-se facilmente a qualquer ecossistema aberto, especialmente ao hub do modelo Hugging Face, para carregamento e operação fáceis de modelos compactados dentro do vLLM. Além disso, a ferramenta estende isso ao oferecer suporte a diferentes esquemas de escalonamento, incluindo controle refinado sobre o escalonamento, como por tensor ou por canal em pesos e por tensor ou por token na ativação. Esta flexibilidade na estratégia de medição permitirá o ajuste fino em termos de requisitos de desempenho e precisão de diferentes modelos e cenários de implantação.

Tecnicamente, o Compressor LLM foi projetado para funcionar com vários modelos de arquitetura escalonáveis. Possui um roteiro agressivo para a ferramenta, incluindo suporte expandido para modelos MoE, modelos de linguagem de visão e plataformas de hardware não-NVIDIA. Outras áreas no roteiro para o desenvolvimento incluem métodos de cálculo melhorados, tais como AWQ e ferramentas para a criação de esquemas de medição de desequilíbrio; espera-se que aumentem a eficiência dos modelos.

Concluindo, o LLM Compressor torna-se uma ferramenta importante para pesquisadores e profissionais no desenvolvimento de LLMs para transferência para produção. É de código aberto e possui recursos modernos, o que facilita a compactação de modelos e obtém grandes melhorias de desempenho sem afetar a integridade dos modelos. O LLM Compressor e ferramentas semelhantes desempenharão um papel cada vez mais importante no futuro próximo, à medida que a IA continua a crescer na extração bem-sucedida de grandes modelos de diferentes ambientes de hardware, tornando-os acessíveis para uso em muitos outros ambientes.

Confira Página e detalhes do GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso SubReddit de 48k + ML

Encontre os próximos webinars sobre IA aqui

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'

Source link

Você também pode gostar...

Memória de fluxo de trabalho do agente (AWM): uma abordagem de IA para melhorar a adaptabilidade e a eficiência dos agentes de navegação na Web

Meta AI lança FBDetect: um sistema para detectar declínio de desempenho em operações de hiperescala no monitoramento de produção

VectorSearch: uma solução completa para desafios de recuperação de documentos com indexação híbrida, pesquisa multivetorial e desempenho de consulta avançada

Deixe um comentário Cancelar resposta