Os avanços nas redes neurais trouxeram mudanças significativas em todos os domínios, como processamento de linguagem natural, visão computacional e computação científica. Apesar desses sucessos, o custo computacional do treinamento de tais modelos continua sendo um grande desafio. As redes neurais normalmente usam pesos tensores de alta ordem para capturar relacionamentos complexos, mas isso introduz ineficiências de memória durante o treinamento. Especialmente na computação científica, as camadas parametrizadas por tensor usadas para modelar sistemas multidimensionais, como a resolução de equações diferenciais parciais (PDEs), requerem grandes regiões de otimização de memória. A sobreposição de tensores em matrizes para otimização pode levar à perda de informações multidimensionais importantes, limitando a eficiência e o desempenho. A resolução destes problemas requer novas soluções que mantenham a precisão do modelo.
Para enfrentar esses desafios, pesquisadores da Caltech, Meta FAIR e NVIDIA AI desenvolveram o Tensor-GaLore, um método eficiente de treinamento de rede neural com altos pesos de tensor. O Tensor-GaLore funciona diretamente no espaço de alto tensor, usando técnicas de fatoração de tensores para maximizar gradientes durante o treinamento. Ao contrário dos métodos anteriores, como GaLore, que dependiam de operações de matriz via Singular Value Decomposition (SVD), o Tensor-GaLore usa a decomposição de Tucker para gerar gradientes em um subespaço de baixo nível. Ao preservar a estrutura multidimensional dos tensores, este método melhora a eficiência da memória e suporta aplicações como Operadores Neurais de Fourier (FNOs).
FNOs são uma classe de modelos projetados para resolver EDPs. Eles usam camadas de convolução espectral envolvendo tensores de ordem superior para representar a ordenação entre espaços funcionais. O Tensor-GaLore aborda a sobrecarga de memória causada pelos coeficientes de Fourier e condições do otimizador em FNOs, permitindo o treinamento eficiente de funções de alta resolução, como equações de fluxo de Navier-Stokes e Darcy.
Detalhes técnicos e benefícios do Tensor-GaLore
Uma inovação do Tensor-GaLore é o uso da decomposição de Tucker em gradientes durante a otimização. Esta decomposição divide os tensores em tensores centrais e matrizes de fatores ortogonais para cada modo. As principais vantagens deste método incluem:
- Desempenho de memória: Os projetos Tensor-GaLore se transformam em subespaços de baixo nível, alcançando economia de memória de até 75% em regiões de otimização.
- Conservação de Edifícios: Ao contrário dos métodos baseados em matriz que colapsam as dimensões do tensor, o Tensor-GaLore preserva a estrutura original do tensor, preservando informações espaciais, temporais e específicas do canal.
- Configuração ambígua: A escala do tensor de baixo nível ajuda a evitar sobrecarga e oferece suporte ao desempenho ideal.
- Escalabilidade: Recursos como atualizações de peso para cada camada e testes de abertura reduzem o alto uso de memória, possibilitando o treinamento de modelos grandes.
A análise teórica confirma a convergência e estabilidade do Tensor-GaLore. O ajuste de nível específico do modo proporciona flexibilidade e muitas vezes supera as técnicas tradicionais de medição de baixo nível.
Resultados e detalhes
O Tensor-GaLore foi testado em várias tarefas PDE, mostrando melhorias significativas no desempenho e na eficiência da memória:
- Equação de Navier-Stokes: Para tarefas com resolução de 1024×1024, o Tensor-GaLore reduziu o uso de memória do otimizador em 76%, mantendo o desempenho comparável aos métodos originais.
- Problema de fluxo de Darcy: O teste revelou uma melhoria de 48% na perda de teste a uma taxa média de 0,25, juntamente com economias significativas de memória.
- Propagação de Ondas Eletromagnéticas: O Tensor-GaLore melhorou a precisão do teste em 11% e reduziu o uso de memória, provando que é eficaz no tratamento de dados multidimensionais complexos.
A conclusão
Tensor-GaLore fornece uma solução eficiente para treinamento eficiente de memória de redes neurais usando pesos tensores de alta qualidade. Ao usar suposições de tensores de baixa classificação e manter relações multidimensionais, ele aborda limitações importantes no dimensionamento de modelos para computação científica e outros domínios. Seu sucesso comprovado com PDEs, com economia de memória e benefícios de desempenho, torna-o uma ferramenta importante para melhorar a descoberta científica baseada em IA. À medida que as demandas computacionais aumentam, o Tensor-GaLore fornece um caminho para o treinamento eficiente e acessível de modelos complexos e de alta dimensão.
Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)