Hex-LLM: uma nova estrutura de LLM projetada para servir efetivamente LLMs abertos em Google Cloud TPUs
Inteligência artificial

Hex-LLM: uma nova estrutura de LLM projetada para servir efetivamente LLMs abertos em Google Cloud TPUs


No mundo em rápido desenvolvimento da inteligência artificial, os modelos linguísticos de grande escala (LLMs) tornaram-se ferramentas essenciais para uma variedade de aplicações, desde a compreensão da linguagem natural até à geração de conteúdos. Embora o poder desses modelos continue a crescer, o provisionamento e a implantação eficientes deles continuam sendo um desafio, especialmente quando se trata de equilibrar custo, desempenho e latência. O recente desenvolvimento e introdução do Hex-LLM pelo Google, uma estrutura de provisionamento especial, oferece soluções promissoras para a implantação bem-sucedida de LLMs abertos, desde Hugging Face até Google TPUs.

Hex-LLM: uma virada de jogo para LLMs abertos em TPUs

Hex-LLM é uma estrutura de implantação LLM interna da Vertex AI projetada e otimizada para hardware Google Cloud TPU, disponível como parte do AI Hypercomputer. Ele fornece uma solução eficiente e de baixo custo para o uso de modelos de código aberto do Hugging Face. Desenvolvido para enfrentar os desafios de execução de modelos em larga escala, o Hex-LLM se destaca por suas técnicas avançadas de otimização, que permitem lidar com cargas de trabalho críticas com eficiência impressionante.

Principais recursos e design do Hex-LLM

Para melhor atender LLMs em TPUs, o Hex-LLM combina os principais recursos e métodos de otimização, que melhoram muito o desempenho:

  1. Integração Contínua Baseada em Token: Um dos recursos marcantes do Hex-LLM é o clustering contínuo baseado em token. Este método permite o uso eficiente dos recursos da TPU, processando tokens recebidos em um fluxo contínuo. Ao lidar com solicitações dessa forma, o Hex-LLM maximiza o desempenho, reduzindo significativamente o custo de cada token emitido. Essa abordagem garante que nenhum ciclo de TPU seja desperdiçado, resultando em uma melhoria geral na eficiência.
  2. Kernels PagedAttention otimizados para XLA: Hex-LLM usa kernels PagedAttention aprimorados XLA (Accelerated Linear Algebra), que são importantes para controlar o mecanismo de atenção dos modelos de transformadores. Esses caracteres são projetados para explorar todo o poder do hardware TPU, reduzindo a latência e a carga computacional associada aos cálculos de atenção. Ao usar kernels otimizados para XLA, o Hex-LLM atinge um índice de baixa latência, o que é importante para aplicações que exigem respostas em tempo real ou quase em tempo real.
  3. Paralelismo tensorial: Outro recurso importante do Hex-LLM é o paralelismo de tensores, que permite a distribuição de equações do modelo em vários núcleos de TPU. Esta semelhança é especialmente benéfica para modelos grandes como o Llama 2 70B, pois permite que a carga de trabalho seja dividida de forma eficaz, garantindo que as TPUs funcionem com a máxima eficiência sem serem prejudicadas por tarefas single-threaded.
  4. Adaptadores LoRA Dinâmicos e Quantização: Hex-LLM oferece suporte ao uso de adaptadores Dynamic Low-Rank Adaptation (LoRA), que fornecem uma maneira flexível de ajustar modelos para tarefas específicas sem retreinar todo o modelo. Além disso, o Hex-LLM suporta técnicas de quantização, incluindo BNB (Billion-scale Neural Basis) e AWQ (Adaptive Weight Quantization), que permitem que os modelos funcionem com baixa precisão, reduzindo assim o consumo de memória e aumentando a velocidade de decisão sem comprometer o trabalho.

Integração com Hugging Face Hub

O Hex-LLM integra-se diretamente ao Hugging Face Hub, permitindo que os desenvolvedores carreguem e renderizem facilmente modelos da extensa biblioteca de LLMs de código aberto disponíveis. Essa integração perfeita simplifica o processo de lançamento de modelos da Google TPU, tornando-o mais acessível para aqueles que talvez não tenham muita experiência com a infraestrutura da TPU. Ao extrair modelos diretamente do Hugging Face, os usuários podem experimentar rapidamente diferentes LLMs e implantá-los em ambientes de produção sem a necessidade de configuração manual extensa.

Métricas de desempenho: velocidade e custo

O desempenho do Hex-LLM é impressionante, especialmente quando se trata de modelos grandes. Por exemplo, Hex-LLM alcança um resultado de 1510 tokens de retirada por segundo para Lhama 2 70B em precisão int8 em um TPU v5e-8e custos estimados de US$ 9,60 por hora. Isto se traduz em um Atraso de 26 milissegundos por tokeno que é notável para um modelo deste tamanho. Essas métricas mostram que o Hex-LLM pode não apenas renderizar modelos grandes com alta eficiência, mas também a um custo acessível para muitas aplicações.

Disponibilidade no Vertex AI Model Garden

O Hex-LLM está disponível como parte do Jardim modelo Vertex AIplataforma que oferece uma variedade de modelos pré-treinados e ferramentas de aprendizado de máquina. Ao adicionar o Hex-LLM ao Model Garden, o Google oferece aos usuários uma maneira direta de acessar e usar LLMs abertos em TPUs, completo com as otimizações fornecidas pela estrutura Hex-LLM. Essa disponibilidade garante que os usuários possam aproveitar o poder da TPU em aplicativos LLM sem precisar configurar a infraestrutura do zero.

A conclusão

Hex-LLM representa um passo importante na renderização eficiente de LLMs abertos, especialmente para usuários que desejam usar modelos grandes no Google TPU. Com recursos como cluster contínuo baseado em token, partículas PagedAttention otimizadas para XLA, correspondência de tensor e integração direta com Face Hugging, o Hex-LLM fornece uma solução poderosa e econômica para implantação de LLM. Embora seu status atual como uma estrutura de código fechado possa limitar sua acessibilidade, os benefícios de desempenho e as reduções de custos que oferece tornam-no uma opção atraente para organizações que buscam aproveitar o poder de grandes linguagens de modelagem em suas implementações.


Confira Detalhes aqui de novo Postagem no LinkedIn. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI: Junte-se a mais de 300 executivos GenAI da Bayer, Microsoft, Flagship Pioneering para aprender como construir pesquisa de IA rápida e precisa em armazenamento de objetos. (Promovido)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *