Neural Magic Release 2:4 Sparse Llama 3.1 8B: Modelos pequenos para design de GPU ativo

O rápido crescimento dos tamanhos dos modelos de IA trouxe enormes desafios computacionais e ambientais. Os modelos de aprendizagem profunda, especialmente os modelos de linguagem, cresceram significativamente nos últimos anos, exigindo mais recursos para treinamento e implantação. Esta procura crescente não só aumenta os custos de infraestrutura, mas também contribui para o aumento das emissões de carbono, tornando a IA insustentável. Além disso, as pequenas empresas e os indivíduos enfrentam uma barreira crescente à entrada, uma vez que as necessidades informáticas estão fora do seu alcance. Esses desafios destacam a necessidade de modelos de alto desempenho que possam oferecer desempenho robusto sem exigir enorme poder de computação.

A Neural Magic respondeu a esses desafios lançando o Sparse Llama 3.1 8B – um modelo 50% podado, compatível com GPU 2:4, com desempenho de GPU passivo que oferece desempenho ideal. Construído com base no SparseGPT, no SquareHead Knowledge Distillation e em conjuntos de dados de treinamento selecionados, o Sparse Llama visa tornar a IA mais acessível e ecologicamente correta. Ao exigir apenas 13 bilhões de tokens adicionais para treinar, o Sparse Llama reduziu significativamente as emissões de carbono normalmente associadas ao treinamento de grandes modelos. Esta abordagem atende à necessidade da indústria de medir o progresso e a sustentabilidade, proporcionando ao mesmo tempo um desempenho confiável.

Detalhes técnicos

Sparse Llama 3.1 8B usa técnicas esparsas, que incluem a redução dos parâmetros do modelo enquanto mantém o poder preditivo. O uso do SparseGPT, combinado com o SquareHead Knowledge Distillation, permitiu que o Neural Magic alcançasse um modelo podado de 50%, o que significa que metade dos parâmetros foram removidos de forma inteligente. Essa poda resulta em requisitos computacionais reduzidos e melhor desempenho. Sparse Llama também usa métodos avançados de calibração para garantir que o modelo possa funcionar com eficiência em GPUs, mantendo a precisão. Os principais benefícios incluem latência até 1,8 vezes menor e rendimento 40% melhor usando apenas a dispersão, com a capacidade de atingir latência até 5 vezes menor quando combinado com escalonamento, tornando o Sparse Llama ideal para aplicativos em tempo real.

O lançamento do Sparse Llama 3.1 8B é um desenvolvimento importante para a comunidade de IA. Este modelo aborda os desafios de eficiência e sustentabilidade, ao mesmo tempo que demonstra que o desempenho não precisa ser sacrificado pela economia computacional. Sparse Llama atinge 98,4% de precisão no Open LLM Leaderboard V1 para diversas tarefas e mostra precisão total e, em alguns casos, melhor desempenho na otimização de conversas, geração de código e tarefas matemáticas. Estes resultados mostram que os valores mínimo e máximo têm aplicações práticas que permitem aos desenvolvedores e pesquisadores conseguir mais com menos recursos.

A conclusão

Sparse Llama 3.1 8B mostra como a inovação na compressão e medição de modelos pode levar a soluções de IA eficientes, acessíveis e ambientalmente sustentáveis. Ao reduzir a carga computacional associada a modelos grandes e ao mesmo tempo manter um desempenho robusto, o Neural Magic estabeleceu um novo padrão para medir eficiência e eficácia. O Sparse Llama representa um passo em frente no sentido de tornar a IA escalável e amiga do ambiente, oferecendo um vislumbre de um futuro onde modelos poderosos serão acessíveis a um público mais vasto, independentemente dos recursos computacionais.

Confira Detalhes e modelo em Hugging Face. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'

Source link

Detalhes técnicos

A conclusão

Você também pode gostar...

MAGICORE: Uma estrutura de IA para iteração multiagente para refinamento robusto

Zyphra lança Zamba2-1.2B-Instruct e Zamba2-2.7B-Yala: uma nova série de modelos de linguagem pequena de última geração que supera Gemma2-2B-Yala

LinkedIn lança kernel Liger (Linkedin GPU Efficient Runtime): uma ferramenta revolucionária que melhora o desempenho do treinamento LLM em mais de 20% e reduz o uso de memória em 60%

Deixe um comentário Cancelar resposta