Google AI apresenta LAuReL (camada residual aumentada aprendida): transformando redes neurais com conectividade residual aprimorada para modelagem eficiente
Inteligência artificial

Google AI apresenta LAuReL (camada residual aumentada aprendida): transformando redes neurais com conectividade residual aprimorada para modelagem eficiente


A eficiência do modelo é importante na era dos grandes modelos de linguagem e percepção, mas eles enfrentam desafios significativos na prática do mundo real. Métricas importantes, como requisitos de treinamento do computador, latência e custo de processamento, afetam a memória e a capacidade de resposta do sistema. Estas restrições muitas vezes limitam a implementação prática de modelos de alta qualidade em ambientes de produção. A necessidade de métodos eficientes de aprendizagem profunda tornou-se importante, concentrando-se no aumento do compromisso entre a qualidade dos modelos e a base de recursos. Embora tenham surgido várias abordagens, incluindo técnicas algorítmicas, soluções de hardware eficientes e melhores práticas, a otimização arquitetônica continua sendo fundamental para a lucratividade operacional.

Várias abordagens surgiram para enfrentar os desafios da eficiência do modelo, cada uma com diferentes focos e limitações. Métodos existentes, como LoRA, introduzem pesos de adaptador de baixo nível durante o ajuste fino, enquanto mantêm outros pesos constantes, e AltUp cria blocos de transformadores leves e uniformes para simular tamanhos de modelos maiores. Outros métodos, como técnicas de compactação, incluem dimensionamento e remoção para reduzir o tamanho e a latência do modelo, mas podem afetar a qualidade do modelo. Os métodos de filtragem de informações transferem conhecimento de grandes modelos de professores para pequenos modelos de alunos, e métodos de aprendizagem contínua, como Stacking e RaPTr, aumentam as redes de forma incremental. No entanto, estes métodos envolvem formação complexa ou compromissos entre eficiência e eficácia.

Pesquisadores do Google Research, Mountain View, CA, e Google Research, Nova York, NY propuseram um novo método chamado Learned Augmented Residual Layer (LAUREL), que modifica o conceito tradicional de comunicação residual em redes neurais. Atua como um substituto direto para a conectividade residual convencional, ao mesmo tempo que melhora a qualidade dos modelos e a eficiência das métricas. LAUREL mostra notável flexibilidade, com melhorias significativas em todos os conceitos e modelos de linguagem. Quando aplicado ao ResNet-50 para a configuração ImageNet 1K, o LAUREL atinge 60% dos ganhos de desempenho associados à adição de cada camada adicional, com apenas 0,003% de parâmetros adicionais. Essa eficiência se traduz na correspondência do desempenho da camada completa com menos parâmetros 2,6 vezes.

A aplicação do LAUREL é explorada nos domínios visual e linguístico, com foco no modelo ResNet-50 para segmentação ImageNet-1K e no transformador somente decodificador de parâmetro 3B para tarefas linguísticas. A arquitetura integra-se facilmente com o restante das conexões existentes, exigindo poucas modificações nos modelos arquitetônicos padrão. Para tarefas de visão, a implementação envolve a aplicação de LAUREL ao cross-linking ResNet-50 e treinamento em ImageNet 1K usando 16 chips Cloud TPUv5e com aumento de dados. No domínio da linguagem, duas variantes do LAUREL (LAUREL-RW e LAUREL-LR) são aplicadas ao modelo de conversor de parâmetros 3B e treinadas do zero em tokens de texto usando 1024 chips Cloud TPU v5e durante um período de duas semanas.

Os resultados mostram a alta eficiência do LAUREL em comparação com os métodos de medição convencionais. Para tarefas de visão, adicionar uma camada extra ao ResNet-50 melhora a precisão em 0,25% com 4,37% mais parâmetros, mas o LAUREL-RW alcança uma melhoria de 0,15% com aumento de 0,003% nos parâmetros. A variante LAUREL-RW+LR corresponde ao desempenho do método de camada adicional enquanto usa 2,6 vezes menos parâmetros, e a variante LAUREL-RW+LR+PA supera-o com 1,82 vezes menos parâmetros. Além disso, para modelos de linguagem, LAUREL mostra melhoria consistente em todas as tarefas, incluindo perguntas e respostas, NLU, matemática e código, com um aumento de parâmetro de 0,012%. Esta pequena adição de parâmetros torna o LAUREL mais eficiente para modelos grandes.

Concluindo, os pesquisadores apresentaram o framework LAUREL que representa um grande avanço no design de redes neurais, oferecendo uma alternativa mais sofisticada às redes neurais convencionais. Suas três variantes – LAUREL-RW, LAUREL-LR e LAUREL-PA – podem ser facilmente combinadas para melhorar o desempenho em todas as diferentes aplicações. O sucesso da estrutura tanto em tarefas visuais como linguísticas, e o seu pequeno parâmetro superior indicam o seu potencial como um método melhor do que outros métodos de medição convencionais. A flexibilidade e eficiência do LAUREL tornam-no um candidato promissor para futuras aplicações em outras estruturas, como Vision Transformers (ViT).


Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI WEBINAR] Usando processamento inteligente de documentos e GenAI em serviços financeiros e transações imobiliáriasDa estrutura à produção


Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA ​​com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.

🐝🐝 Evento do LinkedIn, 'Uma plataforma, possibilidades multimodais', onde o CEO da Encord, Eric Landau, e o chefe de engenharia de produto, Justin Sharps, falarão sobre como estão reinventando o processo de desenvolvimento de dados para ajudar o modelo de suas equipes – a IA está mudando o jogo, rápido.





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *