O rápido crescimento dos principais modelos linguísticos (LLMs) trouxe grandes progressos em vários campos, mas também trouxe grandes desafios. Modelos como o Llama 3 fizeram avanços dramáticos na compreensão e produção de linguagem natural, porém seu tamanho e requisitos computacionais muitas vezes limitaram seu desempenho. Os elevados custos de energia, os longos tempos de formação e a necessidade de hardware caro são barreiras à acessibilidade para muitas organizações e investigadores. Estes desafios não afetam apenas o ambiente, mas também aumentam o fosso entre os gigantes da tecnologia e as pequenas empresas que tentam desenvolver capacidades de IA.
Modelos quantizados de lama da Meta AI 3.2 (1B e 3B)
A Meta AI lançou recentemente os modelos Quantized Llama 3.2 (1B e 3B), um avanço significativo para tornar a tecnologia moderna de IA acessível a uma gama mais ampla de usuários. Estes são os primeiros modelos Llama leves, pequenos e com desempenho bom o suficiente para serem executados nos dispositivos móveis mais populares. A equipe de pesquisa usou duas técnicas diferentes para calibrar esses modelos: Quantization-Aware Training (QAT) com adaptadores LoRA, que priorizam a precisão, e SpinQuant, um método moderno de treinamento de quantização focado na portabilidade. Ambas as versões estão disponíveis para download como parte desta versão. Esses modelos representam uma versão limitada da série Llama 3 original, projetada para melhorar o desempenho do computador e reduzir significativamente a base de hardware necessária para uso. Ao fazer isso, a Meta AI visa melhorar o desempenho de grandes modelos e, ao mesmo tempo, reduzir os recursos computacionais necessários para executá-los. Isto permite que tanto os investigadores como as empresas utilizem modelos de IA poderosos sem necessitarem de infraestruturas especiais e dispendiosas, democratizando assim o acesso à tecnologia de IA de alta qualidade.
A Meta AI está posicionada de forma única para fornecer esses modelos de valor devido ao seu acesso a extensos recursos de computação, dados de treinamento, testes completos e foco na segurança. Esses modelos usam os mesmos requisitos de qualidade e segurança dos modelos Llama 3 originais, ao mesmo tempo que ganham uma velocidade significativa de 2 a 4x. Eles também encontraram uma redução média de 56% no tamanho do modelo e uma redução média de 41% no uso de memória em comparação com o formato BF16 original. Esta configuração impressionante faz parte dos esforços da Meta para tornar a IA avançada mais acessível, mantendo ao mesmo tempo altos padrões de desempenho e segurança.
Detalhes técnicos e benefícios
O núcleo do Quantized Llama 3.2 é baseado na quantização – uma técnica que reduz a precisão dos pesos e ativações do modelo de números de ponto flutuante de 32 bits para representações de poucos bits. Especificamente, Meta AI usa técnicas de quantização de 8 e até 4 bits, permitindo que os modelos sejam executados de forma eficiente com memória e poder de computação significativamente reduzidos. Este método de benchmarking preserva os recursos e pontos fortes críticos do Llama 3, como sua capacidade de executar tarefas avançadas de processamento de linguagem natural (PNL), ao mesmo tempo que torna os modelos muito leves. As vantagens são claras: o Quantized Llama 3.2 pode ser executado em hardware menos potente, como GPUs e CPUs de consumo, sem perda significativa de desempenho. Isto também torna estes modelos mais adequados para aplicações em tempo real, uma vez que requisitos computacionais mais baixos levam a tempos de decisão mais rápidos.
A inferência usando ambas as técnicas de medição é suportada na implementação de referência Llama Stack com a estrutura ExecuTorch do PyTorch. Além disso, a Meta AI fez parceria com parceiros líderes do setor para disponibilizar esses modelos em System on Chips (SoCs) Qualcomm e MediaTek com CPUs Arm. Esta parceria garante que os modelos possam ser implantados com sucesso em uma variedade de dispositivos, incluindo plataformas móveis populares, expandindo ainda mais o alcance e o impacto do Llama 3.2.
Significância e efeitos iniciais
O Quantized Llama 3.2 é importante porque aborda diretamente os problemas de escala associados aos LLMs. Ao reduzir o tamanho do modelo e ao mesmo tempo manter um alto nível de desempenho, a Meta AI tornou esses modelos mais eficientes em ambientes de computação de ponta, onde os recursos computacionais são limitados. Os primeiros resultados de benchmark mostram que o Quantized Llama 3.2 tem um desempenho de cerca de 95% do modelo completo do Llama 3 nos principais benchmarks de PNL, mas com uma redução no uso de memória de cerca de 60%. Este tipo de eficiência é importante para empresas e investigadores que pretendam utilizar IA sem investir em infraestruturas de ponta. Além disso, a capacidade de executar esses modelos em hardware comum se alinha bem com as tendências atuais em IA sustentável, reduzindo o impacto ambiental do treinamento e da implantação de LLMs.
A conclusão
O lançamento do Meta AI para Quantized Llama 3.2 marca um passo significativo no desenvolvimento de modelos de IA eficazes. Ao focar na quantização, a Meta forneceu uma solução que equilibra desempenho e acessibilidade, permitindo que um público mais amplo se beneficie dos recursos avançados de PNL. Estes modelos limitados abordam as principais barreiras à adopção de LLMs, tais como custos, consumo de energia e requisitos de infra-estruturas. As amplas implicações desta tecnologia poderão levar à igualdade de acesso à IA, estimulando a inovação em áreas anteriormente inacessíveis às pequenas empresas e aos investigadores. O esforço da Meta AI para ultrapassar os limites da modelagem eficaz de IA destaca a crescente ênfase no desenvolvimento sustentável e inclusivo da IA – uma maneira segura de moldar o futuro da pesquisa e das aplicações de IA.
Confira Detalhes e experimente o modelo aqui. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️