A eficiência do modelo é importante na era dos grandes modelos de linguagem e percepção, mas eles enfrentam desafios significativos na prática do mundo real. Métricas importantes, como requisitos de treinamento do computador, latência e custo de processamento, afetam a memória e a capacidade de resposta do sistema. Estas restrições muitas vezes limitam a implementação prática de modelos de alta qualidade em ambientes de produção. A necessidade de métodos eficientes de aprendizagem profunda tornou-se importante, concentrando-se no aumento do compromisso entre a qualidade dos modelos e a base de recursos. Embora tenham surgido várias abordagens, incluindo técnicas algorítmicas, soluções de hardware eficientes e melhores práticas, a otimização arquitetônica continua sendo fundamental para a lucratividade operacional.
Várias abordagens surgiram para enfrentar os desafios da eficiência do modelo, cada uma com diferentes focos e limitações. Métodos existentes, como LoRA, introduzem pesos de adaptador de baixo nível durante o ajuste fino, enquanto mantêm outros pesos constantes, e AltUp cria blocos de transformadores leves e uniformes para simular tamanhos de modelos maiores. Outros métodos, como técnicas de compactação, incluem dimensionamento e remoção para reduzir o tamanho e a latência do modelo, mas podem afetar a qualidade do modelo. Os métodos de filtragem de informações transferem conhecimento de grandes modelos de professores para pequenos modelos de alunos, e métodos de aprendizagem contínua, como Stacking e RaPTr, aumentam as redes de forma incremental. No entanto, estes métodos envolvem formação complexa ou compromissos entre eficiência e eficácia.
Pesquisadores do Google Research, Mountain View, CA, e Google Research, Nova York, NY propuseram um novo método chamado Learned Augmented Residual Layer (LAUREL), que modifica o conceito tradicional de comunicação residual em redes neurais. Atua como um substituto direto para a conectividade residual convencional, ao mesmo tempo que melhora a qualidade dos modelos e a eficiência das métricas. LAUREL mostra notável flexibilidade, com melhorias significativas em todos os conceitos e modelos de linguagem. Quando aplicado ao ResNet-50 para a configuração ImageNet 1K, o LAUREL atinge 60% dos ganhos de desempenho associados à adição de cada camada adicional, com apenas 0,003% de parâmetros adicionais. Essa eficiência se traduz na correspondência do desempenho da camada completa com menos parâmetros 2,6 vezes.
A aplicação do LAUREL é explorada nos domínios visual e linguístico, com foco no modelo ResNet-50 para segmentação ImageNet-1K e no transformador somente decodificador de parâmetro 3B para tarefas linguísticas. A arquitetura integra-se facilmente com o restante das conexões existentes, exigindo poucas modificações nos modelos arquitetônicos padrão. Para tarefas de visão, a implementação envolve a aplicação de LAUREL ao cross-linking ResNet-50 e treinamento em ImageNet 1K usando 16 chips Cloud TPUv5e com aumento de dados. No domínio da linguagem, duas variantes do LAUREL (LAUREL-RW e LAUREL-LR) são aplicadas ao modelo de conversor de parâmetros 3B e treinadas do zero em tokens de texto usando 1024 chips Cloud TPU v5e durante um período de duas semanas.
Os resultados mostram a alta eficiência do LAUREL em comparação com os métodos de medição convencionais. Para tarefas de visão, adicionar uma camada extra ao ResNet-50 melhora a precisão em 0,25% com 4,37% mais parâmetros, mas o LAUREL-RW alcança uma melhoria de 0,15% com aumento de 0,003% nos parâmetros. A variante LAUREL-RW+LR corresponde ao desempenho do método de camada adicional enquanto usa 2,6 vezes menos parâmetros, e a variante LAUREL-RW+LR+PA supera-o com 1,82 vezes menos parâmetros. Além disso, para modelos de linguagem, LAUREL mostra melhoria consistente em todas as tarefas, incluindo perguntas e respostas, NLU, matemática e código, com um aumento de parâmetro de 0,012%. Esta pequena adição de parâmetros torna o LAUREL mais eficiente para modelos grandes.
Concluindo, os pesquisadores apresentaram o framework LAUREL que representa um grande avanço no design de redes neurais, oferecendo uma alternativa mais sofisticada às redes neurais convencionais. Suas três variantes – LAUREL-RW, LAUREL-LR e LAUREL-PA – podem ser facilmente combinadas para melhorar o desempenho em todas as diferentes aplicações. O sucesso da estrutura tanto em tarefas visuais como linguísticas, e o seu pequeno parâmetro superior indicam o seu potencial como um método melhor do que outros métodos de medição convencionais. A flexibilidade e eficiência do LAUREL tornam-no um candidato promissor para futuras aplicações em outras estruturas, como Vision Transformers (ViT).
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliárias– Da estrutura à produção
Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.
🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.