Microsoft Open-Sources bitnet.cpp: uma estrutura de inferência LLM supereficiente de 1 bit que roda diretamente em CPUs

O rápido crescimento dos principais modelos linguísticos (LLMs) trouxe capacidades incríveis, mas também destacou desafios significativos relacionados com a utilização de recursos e escalabilidade. Os LLMs normalmente exigem ampla infraestrutura de GPU e grandes quantidades de energia, tornando-os caros para serem executados e mantidos. Isto limitou principalmente a sua acessibilidade a pequenas empresas ou utilizadores individuais sem acesso a hardware avançado. Além disso, os requisitos energéticos destes modelos contribuem para o aumento da pegada de carbono, levantando preocupações de sustentabilidade. A necessidade de uma solução de CPU eficiente e fácil de usar que resolva esses problemas é mais urgente do que nunca.

A Microsoft abriu recentemente o bitnet.cpp, uma estrutura LLM de 1 bit altamente eficiente que roda diretamente em CPUs, o que significa que mesmo modelos grandes de 100 bilhões de parâmetros podem ser executados em dispositivos locais sem a necessidade de uma GPU. Com o bitnet.cpp, os usuários podem obter uma aceleração impressionante de até 6,17x e, ao mesmo tempo, reduzir o consumo de energia em 82,2%. Ao reduzir os requisitos de hardware, esta estrutura pode democratizar os LLMs, torná-los mais acessíveis a casos de utilização locais e permitir que indivíduos ou pequenas empresas utilizem a tecnologia de IA sem os enormes custos associados ao hardware especializado.

Tecnicamente, bitnet.cpp é uma estrutura de indexação poderosa projetada para suportar a computação eficiente de LLMs de 1 bit, incluindo o modelo BitNet b1.58. A estrutura inclui um conjunto de kernels otimizados projetados para aumentar o desempenho desses modelos durante inferência em CPUs. O suporte atual inclui CPUs ARM e x86, com suporte adicional para NPUs, GPUs e dispositivos móveis planejados para atualizações futuras. Os benchmarks mostram que o bitnet.cpp atinge uma aceleração entre 1,37x e 5,07x em CPUs ARM e entre 2,37x e 6,17x em CPUs x86, dependendo do tamanho do modelo. Além disso, o consumo de energia cai de 55,4% para 82,2%, tornando o processo de inferência mais eficiente. A capacidade de atingir esse desempenho e eficiência energética permite que os usuários executem modelos complexos em velocidades comparáveis às taxas de aprendizagem humana (cerca de 5 a 7 tokens por segundo), mesmo em uma única CPU, proporcionando um salto significativo em relação às execuções de LLM na área.

A importância do bitnet.cpp reside na oportunidade de redefinir o paradigma de computação para LLMs. Essa estrutura não apenas reduz as dependências de hardware, mas também estabelece as bases para o desenvolvimento de pilhas de software especializadas e hardware otimizado para LLMs de 1 bit. Ao mostrar como a previsão eficiente pode ser alcançada com baixos requisitos de recursos, bitnet.cpp abre caminho para uma nova geração de LLMs locais (LLLM), permitindo uma adoção generalizada, econômica e sustentável. Esses benefícios são particularmente impactantes para usuários preocupados com a privacidade, pois a capacidade de executar LLMs localmente reduz a necessidade de enviar dados para servidores externos. Além disso, a pesquisa contínua da Microsoft e o lançamento de seu programa “1-bit AI Infra” visam avançar na adoção industrial desses modelos, destacando o papel do bitnet.cpp como um passo importante em direção ao futuro da eficiência do LLM.

Concluindo, bitnet.cpp representa um passo importante para tornar a tecnologia LLM mais acessível, eficiente e ecologicamente correta. Com aceleração significativa e consumo de energia reduzido, o bitnet.cpp torna possível executar modelos grandes em hardware de CPU padrão, eliminando a dependência de GPUs caras e que consomem muita energia. Esta inovação pode democratizar o acesso aos LLMs e promover a sua utilização para aplicações locais, abrindo, em última análise, novas oportunidades tanto para indivíduos como para indústrias. À medida que a Microsoft continua a avançar com as suas iniciativas de investigação e infraestrutura LLM de 1 bit, o potencial para soluções de IA escaláveis e sustentáveis é cada vez mais promissor.

Confira Github. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

AdvDGMs: Melhorando a robustez de conflitos no Tableau Machine Learning integrando camadas de ajuste de restrições para geração de ataques virtuais e baseados em domínio

Hug Face lança conversores de frases v3.3.0: um salto gigante para o sucesso da PNL

Pesquisadores da CMU lançam Pangea-7B: modelos multilíngues totalmente abertos para MLLMs em 39 idiomas

Deixe um comentário Cancelar resposta