Dispositivos de borda, como smartphones, cartões de IoT e sistemas incorporados, pressionam, aprimorando a privacidade e melhorando a resposta, e a IA é integrada a esses dispositivos o mais rápido possível. No entanto, o envio de grandes modelos de linguagem (LLMS) para esses dispositivos é difícil e complicado devido à sua maior pesquisa e memória.
LLMS tem cem necessidades de tamanho e energia. Com bilhões de parâmetros, eles querem uma memória importante e a capacidade de processar as habilidades grandes dispositivos. Enquanto as estratégias de minimização reduzem o tamanho do modelo e o uso de energia, o hardware padrão foi projetado para a integração simétrica, suporte limitado para mistura mista mista. Essa falta de suporte para computadores mais baixos prescreve a remessa para todas as plataformas móveis e as Bens.
Os exemplos de dispositivos ILMMs em borda usam FOP32 e FP16 de alta qualidade, melhorando os preços, mas requer memória e energia importantes. Outros métodos usam o tamanho baixo (por exemplo, int. Ou int4 ou IT4) para reduzir os serviços dos recursos, mas os problemas de conformidade do hardware existente. Outro processo, apenas, redesenhado modelos antes de combinar, mas inicia a latência e uma diminuição no bom trabalho. Além disso, a multiplicação da matriz tradicional (GMM) requer os mesmos níveis precisos, o que torna a eficiência de vários edifícios de hardware.
A Microsoft Investigators lançou uma série de desenvolvimento para que possam fazer baixa baixa potência dos dispositivos LLMs na borda. O caminho deles inclui três novas coisas novas:
- Compilador de tipo de dados escada
- Biblioteca IT-MAC MRGEMM
- Arquitetura de hardware do Lut Tensor Core
Essas estratégias pretendem superar as limitações do hardware, facilitando a mistura mista de matriz (MPGEMM) e reduzindo sobre uma sobrecarga do computador. Através dessas soluções, os pesquisadores propõem uma estrutura eficaz que suporta a humildade eficaz do LLM sem a necessidade de GPUs especiais ou acelera mais alto.
Ladder Data Type do compilador Primeiro lacuna de sopro entre apresentações de tits inferiores e problemas de hardware. Ele converte formatos de dados que não são suportados na apresentação de hardware enquanto armazenam eficiência. Este método garante que a construção de profundos profundos do aprendizado possa usar tipos personalizados sem desempenho próprio.
IT-MAC Mr. Mpgemm Biblioteca para reduzir a integração mista mista usando a tabela Lutter (LUT) e cedida em vez da repetição tradicional. Este novo completa a necessidade de nada e promove o funcionamento do computador da CPU.
Além disso, a construção do hardware do Tensor Core lança um acelerador especial para o valor mínimo. Recebe instruções bem feitas para melhorar o desempenho e reduzir o uso de energia.
No teste, o DNN (dia da escada do dia da escada Compilformam computadores (DNN) para 14,6 computadores para integrar algo baixo. Uma vez testado nos dispositivos Edge, como o chipset Qualcomm Snapdragon x Elite, a biblioteca T-Mac alcançou o modelo 48 do 3B BitNet-B1.58, bibliotecas de abertura existentes. Nos dispositivos inferiores terminam como framboesa p 5, recebeu 11 tokens por segundo, mostrando o melhor progresso. Naquela época, o Tun Tunzare Tunsel Core recebeu um aumento de 11,2 por meio de poder e incentivo a ser embrulhado 20,9 na deleção computacional.
Algumas maneiras importantes da pesquisa da Microsoft incluem:
- A cotação inferior reduz o tamanho do modelo, permitindo o desempenho dos dispositivos de borda.
- A biblioteca T-MAC promove a velocidade de exaltação, concluindo a multiplicação das repetições tradicionais.
- O Ladder Compiler garante um composto de parede lateral de formatos de dados de baixo bit com hardware existente.
- As estratégias preparadas reduzem o uso do poder, fazendo com que os LLMs ocorram em dispositivos baixos.
- Esses métodos permitem que o LLMS funcione corretamente em vários hardware, de laptops altos a dispositivos de IoT com baixo teor de IoT.
- Esses novos novos atingem 48 tokens em Snapdragon X, 30 tokens por segundo por 2 bits 7b lhama, 20 tokens por um segundo com Klama 7b 7b de 4 bits.
- Eles também permitem aplicativos que a IA sejam operados em todos os programas de telefones celulares, robóticos e IA, criando LLMs acessíveis e fáceis.
Em conclusão, a lição destaca a importância das estratégias de consciência de hardware para os dispositivos LLMs no Edge. As soluções propostas lidam com os desafios do uso a longo prazo da memória, eficiência do computador e harmonia de hardware. Ao usar o núcleo do tensor Ladder, IT-MAC e LUT, os pesquisadores apareceram nos seguintes programas de geração de IA, que funcionam muito bem e adesivos a todas as plataformas diferentes.
Enquete informação e papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.
🚨 Plataforma de IA de código aberto recomendado: 'Interestagente Sistema de código aberto com várias fontes para testar o sistema de IA difícil (promovido)
Sana Hassan, um contato em Marktechpost com um aluno do estudante de dual-grau no IIIT Madras, adora usar a tecnologia e a IA para lidar com os verdadeiros desafios do mundo. Estou muito interessado em resolver problemas práticos, traz uma nova visão da solução de IA para a IA e soluções reais.
✅ [Recommended] Junte -se ao nosso canal de telégrafo