Modelos de linguagem de grande escala (LLMs), como GPT-4 e Llama-2, são poderosos, mas requerem recursos computacionais significativos, tornando-os impraticáveis para dispositivos pequenos. Os modelos de transformadores baseados em cuidados, em particular, possuem altos requisitos de memória e complexidade computacional quadrática, o que limita sua eficiência. Modelos de Espaço de Estados (SSMs), como o Mamba, oferecem uma alternativa de baixa complexidade, mas sua memória limitada prejudica o desempenho em tarefas complexas. Os modelos híbridos existentes que combinam sequencialmente as camadas do transformador e do SSM muitas vezes carecem da sinergia necessária para a eficiência.
NVIDIA lança Hymba: arquitetura paralela de cabeçote híbrido
A NVIDIA lançou o Hymba, uma nova família de modelos de microlinguagem com uma arquitetura híbrida que combina cabeçotes Mamba e Attention rodando em paralelo. Este modelo, com 1,5 bilhão de parâmetros, visa enfrentar os desafios de eficiência e desempenho enfrentados por pequenos modelos de PNL enquanto são treinados em 1,5 trilhão de tokens.
Os modelos Hymba da NVIDIA apresentam uma arquitetura paralela de cabeça híbrida que combina mecanismos de atenção do transformador com SSMs para melhorar a eficiência. Essa arquitetura permite que os cabeçotes de atenção e os cabeçotes SSM processem dados de entrada em paralelo, combinando as capacidades de ambos os métodos. Os cabeçotes de atenção fornecem recuperação de memória de alta resolução, enquanto os cabeçotes SSM permitem o resumo ativo do conteúdo.
Hymba também introduz meta tokens legíveis, que são otimizados para todos os dados de entrada para ajudar a preservar informações importantes e reduzir a carga nas vias de atenção. A arquitetura do modelo é ainda melhorada com compartilhamento de valor-chave (KV) entre camadas e atenção de janela deslizante parcial para manter o tamanho do cache compacto, abordando efetivamente as restrições de memória.
Detalhes técnicos
O modelo Hymba-1.5B combina Mamba e atenção que funcionam em paralelo com meta tokens para melhorar o desempenho. Esta configuração reduz a carga de computação dos transformadores sem afetar a recuperação da memória. Hymba inclui 16 regiões SSM e 3 camadas de atenção completa, enquanto outras usam janela deslizante de atenção para equilibrar desempenho com otimização de memória. Ele também possui FlexAttention do PyTorch 2.5, que adiciona flexibilidade ao treinamento e compreensão do modelo.
A principal característica do Hymba é a capacidade de compartilhar o cache KV entre múltiplas camadas e entre cabeçotes dentro da mesma camada, reduzindo bastante o consumo de memória. A combinação de atenção de janela deslizante e caches KV compartilhados reduz a complexidade computacional, tornando o Hymba mais eficiente em comparação com outros modelos do mesmo tamanho.
Eficiência, eficácia e diversidade
Hymba mostra que modelos de linguagem pequena podem alcançar desempenho competitivo e ao mesmo tempo serem computacionalmente eficientes. Nos benchmarks, o modelo Hymba-1.5B-Base superou todos os modelos públicos abaixo de 2B e superou o Llama-3.2-3B com uma precisão média mais alta de 1,32%, redução de 11,67× no tamanho do cache e maior rendimento que é de 3,49×. Isso torna o Hymba adequado para implantação em hardware pequeno e de baixo desempenho.
A atenção híbrida e a configuração SSM do Hymba melhoram o desempenho em uma ampla gama de tarefas, incluindo benchmarks gerais e tarefas que exigem muita memória. Sua produção é de cerca de 664 tokens por segundo, o que é muito alto em comparação com outros modelos como SmolLM2 ou Llama-3.2-3B, que enfrentaram problemas de falta de memória durante as mesmas condições de teste. Essas métricas destacam a adequação do Hymba para cenários de implantação ativa onde a velocidade e a eficiência da memória são importantes.
A conclusão
A família Hymba de modelos microlinguísticos da NVIDIA representa um avanço significativo na eficiência e flexibilidade da tecnologia PNL. Ao combinar a atenção do transformador com modelos de espaço de circuito por meio de sua arquitetura paralela de cabeçote híbrido, o Hymba fornece uma maneira de extrair recursos eficazes de PNL de dispositivos com recursos limitados. Os requisitos reduzidos de memória do modelo, o aumento da capacidade e o uso inovador de meta tokens e compartilhamento de KV entre camadas tornam-no uma opção promissora para futuras aplicações de modelagem de linguagem, onde a eficiência e a precisão são críticas.
Confira Papel. Para aqueles interessados em explorar mais os modelos Hymba, a NVIDIA os disponibilizou em Hugging Face: Hymba-1.5B-Base e Hymba-1.5B-Instruct. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'