Modelos de linguagem em larga escala (LLMs) tornaram-se a base da inteligência artificial, impulsionando avanços no processamento de linguagem natural e nas tarefas de tomada de decisão. No entanto, suas altas demandas de energia, causadas pelo alto poder computacional e pelo acesso constante à memória externa, dificultam enormemente sua durabilidade e implantação, especialmente em ambientes com estresse de energia, como dispositivos de borda. Isto aumenta os custos operacionais e ao mesmo tempo reduz a acessibilidade destes LLMs, exigindo assim métodos energeticamente eficientes concebidos para lidar com milhares de milhões de modelos de parâmetros.
As abordagens atuais para reduzir os requisitos computacionais e de memória dos LLMs são baseadas em processadores ou GPUs de uso geral, com uma combinação de balanceamento de peso e otimização microcognitiva. Eles provaram ser relativamente bem-sucedidos, conseguindo algumas economias, mas ainda dependem fortemente de memória externa, que consome energia significativa e não oferece o desempenho de baixa latência exigido para muitos aplicativos em tempo real. Esses métodos são menos adequados para sistemas de IA sustentáveis ou com recursos limitados.
Para resolver essas limitações, pesquisadores do Instituto Avançado de Ciência e Tecnologia da Coreia (KAIST) desenvolveram o Slim-Llama, um circuito integrado de aplicação específica (ASIC) de alto desempenho projetado para melhorar a implantação de LLMs. Este novo processador usa escala binária/ternária para reduzir a precisão dos pesos do modelo de real para 1 ou 2 bits, reduzindo assim requisitos significativos de memória e computação, deixando o desempenho inalterado. Isso usa uma tabela de consulta com reconhecimento de dispersão ou SLT que permite o gerenciamento de dados esparsos. Ele usa reutilização de saída e indexação vetorial com otimização para que o processo de reutilização repetida melhore o fluxo de dados. Assim, esta lista de símbolos elimina as restrições habituais para alcançar uma abordagem comum. Eles produzem um sistema de suporte de qualidade para lidar com as tarefas executadas entre os bilhões de LLMs.
Slim-Llama é fabricado com tecnologia CMOS de 28 nm da Samsung, com uma área de matriz compacta de 20,25 mm² e 500 KB de SRAM no chip. Este design remove todas as dependências da memória externa; este é o único recurso onde os sistemas tradicionais perdem tanto poder. Há suporte de largura de banda de até 1,6 GB/s na frequência de 200 MHz para que o gerenciamento de dados com este modelo seja suave e muito eficiente. Slim-Llama é capaz de atingir uma latência de 489 milissegundos usando o modelo Llama de 1 bit e suporta modelos com até 3 bilhões de parâmetros, por isso está bem colocado nas aplicações atuais de inteligência artificial, que exigem desempenho e eficiência. As inovações arquitetônicas mais importantes são a computação binária e ternária, a otimização de informações esparsas e o gerenciamento eficiente do fluxo de dados que alcançam grandes benefícios sem comprometer a eficiência computacional.
Os resultados destacam a alta potência e eficiência do Slim-Llama. Ele alcança uma melhoria de 4,59x em termos de eficiência energética em relação às soluções modernas anteriores, com consumo de energia de 4,69mW a 25MHz para 82,07mW a 200MHz. O processador atinge um valor máximo de 4,92 TOPS com uma eficiência de 1,31 TOPS/W, atendendo à necessidade crítica de hardware de computação com eficiência energética com grandes modelos locais de IA. Slim-Llama pode processar modelos de bilhões de parâmetros com latência mínima, fornecendo assim um candidato promissor para aplicações em tempo real. A tabela de benchmark, “Comparação de desempenho de energia do Slim-Llama”, mostra o desempenho relativo aos sistemas básicos em termos de consumo de energia, latência e eficiência de energia, onde o Slim-Llama pontua 4,92 TOPS e 1,31 TOPS/W, respectivamente, mais eficiente. do que soluções básicas de hardware.
Slim-Llama é a nova fronteira na quebra de barreiras energéticas para alimentar LLMs. Esta solução confiável e sustentável incorpora novas técnicas de escalonamento, otimização da dispersão de informações e otimização do fluxo de dados para atender às necessidades modernas de aplicações de IA. O método proposto não apenas gera modelos de vários bilhões de parâmetros, mas também abre as portas para sistemas de IA mais acessíveis e ecologicamente corretos, estabelecendo um novo benchmark de hardware de IA com eficiência energética.
Confira eu Detalhes técnicos. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)