Como os Adaptive Bricks alteram o desempenho de grandes modelos de linguagem

Os modelos linguísticos de larga escala (LLMs) revolucionaram o processamento de linguagem natural, fornecendo capacidades de alto nível para uma variedade de aplicações. No entanto, esses modelos enfrentam desafios significativos. Em primeiro lugar, a utilização destes grandes modelos em dispositivos finais, como smartphones ou computadores pessoais, consome muitos recursos, impossibilitando a integração para aplicações do dia a dia. Em segundo lugar, os LLMs atuais são monolíticos, armazenando todas as informações do domínio em um único modelo, o que muitas vezes leva a cálculos ineficientes e redundantes e a possíveis conflitos ao tentar configurar funções diferentes. Terceiro, à medida que os requisitos e os domínios do trabalho mudam, estes modelos necessitam de formas eficazes de adaptação para continuarem a aprender novas informações sem terem de ser requalificados desde o início – um requisito que se torna mais difícil dado o tamanho crescente dos modelos.

Conceito de modelos básicos configuráveis

Uma nova pesquisa da Universidade de Tsinghua sugere um conceito chamado Modelos Fundamentais Configuráveis, que é uma abordagem comum para LLMs. Inspirada na dinâmica dos processos biológicos, a ideia é quebrar os LLMs em múltiplos módulos funcionais ou “tijolos”. Cada bloco pode ser um bloco padrão que ocorre durante o pré-treinamento ou um bloco personalizado projetado especificamente após o treinamento para melhorar os recursos do modelo. Esses tijolos permitem configuração flexível e eficiência, onde apenas um pequeno conjunto de tijolos pode ser ativado dinamicamente para lidar com tarefas específicas ou resolver problemas específicos, fazendo assim um uso eficiente do recurso. Essa comutação torna os modelos configuráveis, versáteis e flexíveis, permitindo que sejam executados com menos recursos computacionais sem interrupções significativas no desempenho.

Detalhes técnicos e benefícios

Tecnicamente, os tijolos podem ser divididos em tipos emergentes e feitos sob medida. Os blocos emergentes são módulos funcionais que se desenvolvem espontaneamente durante o processo de pré-treinamento, muitas vezes através da diferenciação de neurônios em funções especializadas. Os blocos personalizados, por outro lado, são projetados para injetar habilidades específicas, como novos conhecimentos ou habilidades específicas de domínio após o treinamento inicial. Esses blocos podem ser atualizados, combinados ou expandidos, permitindo a reconfiguração dos modelos com base nas funções existentes. Outra grande vantagem deste benchmark é a eficiência do computador; em vez de aplicar todos os parâmetros do modelo para cada função, apenas os blocos relevantes precisam ser configurados, reduzindo a reatividade. Além disso, esta abordagem modular permite introduzir novas capacidades simplesmente adicionando novos blocos personalizados sem retreinar todo o modelo, permitindo assim uma resiliência contínua e adaptação a novas situações.

Importância e efeitos do poder

A importância dos Modelos Fundamentais Configuráveis reside na sua capacidade de levar os LLMs a uma implementação prática e eficaz. Essa estrutura modular garante que os LLMs possam ser implantados em dispositivos com capacidade computacional limitada, tornando os recursos avançados de PNL mais acessíveis. Uma análise de robustez realizada em dois modelos – Llama-3-8B-Instruct e Mistral-7B-Instruct-v0.3 – mostra que suas camadas avançadas seguem naturalmente um padrão modular com tecnologia funcional. Por exemplo, a análise mostrou que a ativação do neurônio é muito pequena, o que significa que apenas um pequeno conjunto de neurônios está envolvido no processamento de qualquer instrução específica. Além disso, constatou-se que esses neurônios especializados podem ser separados sem afetar as demais habilidades do modelo, apoiando o conceito de modularização funcional. Essas descobertas mostram que os LLMs configuráveis podem manter o desempenho com menos demandas computacionais, garantindo assim a eficiência da abordagem baseada em blocos.

A conclusão

O Modelo Fundacional Configurável apresenta uma nova solução para alguns dos problemas mais urgentes nos principais modelos linguísticos da atualidade. Transformar LLMs em blocos funcionais melhora a eficiência, escalabilidade e flexibilidade da computação. Ele garante que esses modelos sejam capazes de lidar com tarefas diversas e dinâmicas sem a sobrecarga computacional típica dos LLMs monolíticos tradicionais. À medida que a IA continua a permear as aplicações quotidianas, abordagens como o Modelo de Fundação Configurável serão fundamentais para garantir que esta tecnologia permaneça robusta e funcional, impulsionando a evolução dos modelos de fundação de uma forma sustentável e flexível.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliárias– Da estrutura à produção

Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.

Source link

Conceito de modelos básicos configuráveis

Detalhes técnicos e benefícios

Importância e efeitos do poder

A conclusão

Você também pode gostar...

AMD lança AMD-135M: a primeira série de modelos de linguagem pequena da AMD treinada do zero em aceleradores AMD Instinct™ MI250 usando tokens 670B

Google lança FRAMES: um conjunto de dados de avaliação abrangente projetado para testar aplicativos de geração aumentada de recuperação (RAG) em termos de factualidade, precisão de recuperação e raciocínio.

Conheça o PII Masker: uma ferramenta de código aberto para proteger dados confidenciais, detectando e mascarando automaticamente PII usando IA avançada com tecnologia DeBERTa-v3

Deixe um comentário Cancelar resposta