A IA fez avanços significativos no desenvolvimento de modelos linguísticos em larga escala (LLMs) que se destacam em tarefas complexas, como processamento de texto, resumo e IA de conversação. Modelos como o LaPM 540B e o Llama-3.1 405B demonstram capacidades avançadas de processamento de linguagem, porém suas demandas computacionais limitam seu desempenho em ambientes do mundo real com recursos limitados. Esses LLMs geralmente são baseados em nuvem, exigindo extensa GPU e memória de hardware, o que levanta questões de privacidade e impede a implantação imediata em um dispositivo. Em contraste, modelos linguísticos de pequena escala (SLMs) são explorados como uma alternativa eficiente e flexível, capaz de realizar tarefas específicas de domínio com baixos requisitos computacionais.
Um grande desafio dos LLMs, enfrentado pelos SLMs, é o seu alto custo computacional e latência, especialmente para aplicações especializadas. Por exemplo, modelos como o Llama-3.1, que contém 405 bilhões de parâmetros, requerem mais de 200 GB de memória GPU, tornando-os impraticáveis para uso em dispositivos móveis ou sistemas de ponta. Em situações de tempo real, estes modelos sofrem de alta latência; processar 100 tokens em um processador móvel Snapdragon 685 com modelo Llama-2 7B, por exemplo, pode levar 80 segundos. Esses atrasos atrapalham os aplicativos em tempo real, tornando-os inadequados para ambientes como saúde, finanças e sistemas de assistência pessoal que exigem respostas rápidas. Os custos operacionais associados aos LLMs também limitam a sua utilização, uma vez que a sua optimização em áreas especializadas como cuidados de saúde ou direito requer recursos significativos, limitando a acessibilidade de organizações sem grandes orçamentos informáticos.
Atualmente, várias abordagens abordam essas limitações, incluindo APIs baseadas em nuvem, coleta de dados e remoção de modelos. No entanto, estas soluções muitas vezes são insuficientes, pois devem mitigar totalmente os problemas de alta latência, as extensas dependências de infraestrutura e as preocupações com a privacidade. Técnicas como poda e dimensionamento podem reduzir o tamanho dos modelos, mas tendem a reduzir a precisão, o que é prejudicial para aplicações de alto desempenho. A falta de soluções atraentes e económicas para optimizar os LLM em determinados domínios também enfatiza a necessidade de uma abordagem diferente para proporcionar um desempenho pretendido sem custos proibitivos.
Pesquisadores da Universidade Estadual da Pensilvânia, Universidade da Pensilvânia, UTHealth Houston, Amazon e Rensselaer Polytechnic Institute conduziram uma pesquisa abrangente sobre SLMs e procuraram uma estrutura sistemática para o desenvolvimento de SLMs que equilibrasse eficiência e habilidades semelhantes a LLM. Esta pesquisa inclui avanços em otimização, compartilhamento de parâmetros e disseminação de informações para criar modelos otimizados para casos de uso eficientes e específicos de domínio. Arquiteturas compactas e técnicas avançadas de processamento de dados permitem que os SLMs operem em ambientes de baixo consumo de energia, tornando-os acessíveis para aplicações em tempo real em dispositivos de ponta. A colaboração institucional contribuiu para a definição e classificação de SLMs, garantindo que a taxonomia apoia a implantação em ambientes com pouca memória e recursos limitados.
Os métodos técnicos propostos neste estudo fazem parte da melhoria do desempenho do SLM. Por exemplo, a pesquisa destaca a atenção a perguntas agrupadas (GQA), a atenção latente multicabeças (MLA) e a atenção flash como importantes variáveis que usam memória e que facilitam os mecanismos de atenção. Essa melhoria permite que os SLMs mantenham alto desempenho sem exigir a extensa memória típica dos LLMs. Além disso, a partilha de parâmetros e métodos de adaptação a um nível inferior garante que os SLM podem lidar com tarefas complexas em sectores especializados, como cuidados de saúde, finanças e apoio ao cliente, onde a resposta rápida e a privacidade dos dados são importantes. A ênfase da estrutura na qualidade dos dados melhora o desempenho do modelo, incluindo filtragem, replicação e estruturas de dados avançadas para melhorar a precisão e a velocidade em cenários específicos de domínio.
Os resultados empíricos enfatizam o potencial de desempenho dos SLMs, pois podem atingir eficiências próximas às dos LLMs em determinadas aplicações com latência e consumo de memória reduzidos. Em benchmarks de aplicativos de assistência médica, financeira e pessoal, os SLMs demonstram redução significativa de latência e maior privacidade de dados devido ao processamento local. Por exemplo, o desenvolvimento da latência nos cuidados de saúde e a gestão segura de dados locais fornecem uma solução eficiente para processar dados no dispositivo e proteger informações confidenciais do paciente. Os métodos usados no treinamento e otimização do SLM permitem que esses modelos mantenham até 90% de precisão do LLM em aplicações específicas de domínio, uma conquista notável dada a redução no tamanho do modelo e nos requisitos de hardware.
Principais conclusões do estudo:
- Desempenho computacional: os SLMs operam com uma fração da memória e do poder de processamento exigidos pelos LLMs, tornando-os adequados para dispositivos com hardware de computação incorporado, como smartphones e dispositivos IoT.
- Adaptação Específica de Domínio: Com otimizações direcionadas, como otimização e compartilhamento de parâmetros, os SLMs retêm quase 90% do desempenho do LLM em domínios especializados, incluindo saúde e finanças.
- Redução de latência: em comparação com os LLMs, os SLMs reduzem os tempos de resposta em mais de 70%, fornecendo recursos de processamento em tempo real que são importantes para aplicações de ponta e situações sensíveis à privacidade.
- Privacidade e segurança de dados: o SLM permite o processamento local, o que reduz a necessidade de transferência de dados para servidores em nuvem e melhora a privacidade em aplicações avançadas, como saúde e finanças.
- Eficácia de custos: Ao reduzir os requisitos de hardware e computacionais, os SLMs apresentam uma solução viável para organizações com recursos limitados, democratizando modelos de linguagem baseados em IA.
Em conclusão, o estudo de modelos microlinguísticos apresenta um quadro prático que aborda questões importantes para a implantação de LLMs em ambientes com recursos limitados. O método SLM proposto fornece uma maneira promissora de integrar capacidades avançadas de processamento de linguagem em máquinas de baixo consumo de energia, expandindo o alcance da tecnologia de IA em vários campos. Ao melhorar a latência, a privacidade e a eficiência computacional, os SLMs fornecem uma solução escalável para aplicações do mundo real onde os LLMs tradicionais não são viáveis, garantindo ampla aplicabilidade de modelos de linguagem e estabilidade na indústria e na pesquisa.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[AI Magazine/Report] Leia nosso último relatório sobre 'MODELOS DE TERRENO PEQUENOS'
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️