NiNo: um novo método de aprendizado de máquina para acelerar o treinamento de redes neurais usando interação de neurônios e nowcasting
Inteligência artificial

NiNo: um novo método de aprendizado de máquina para acelerar o treinamento de redes neurais usando interação de neurônios e nowcasting


No aprendizado profundo, a otimização de redes neurais tem sido uma importante área de foco. O treinamento de grandes modelos, como transformadores e redes de comunicação, requer recursos computacionais e tempo significativos. Os pesquisadores têm testado técnicas avançadas de desenvolvimento para tornar esse processo mais eficiente. Tradicionalmente, otimizadores adaptativos como Adam têm sido usados ​​para acelerar o treinamento ajustando os parâmetros da rede por meio de gradiente descendente. No entanto, esses métodos ainda exigem muitas iterações e, embora sejam muito eficientes para o ajuste fino de parâmetros, o processo geral continua demorado para modelos grandes. Otimizar o processo de treinamento é fundamental para implantar aplicações de IA de forma rápida e eficiente.

Um dos principais desafios neste campo é o tempo necessário para treinar redes neurais complexas. Embora otimizadores como Adam realizem atualizações repetidas de parâmetros para reduzir erros gradualmente, o tamanho dos modelos, especialmente em tarefas como processamento de linguagem natural (PNL) e visão computacional, leva a longos ciclos de treinamento. Estes atrasos atrasam o desenvolvimento e a implantação de tecnologias de IA em contextos do mundo real onde a mudança rápida é crítica. As demandas computacionais aumentam exponencialmente à medida que os modelos crescem, exigindo soluções que melhorem a eficiência e reduzam o tempo de treinamento sem sacrificar a precisão ou a estabilidade.

Os métodos atuais para enfrentar esses desafios incluem o amplamente utilizado Adam Optimizer e Learning to Optimize (L2O). Adam, um método dinâmico, ajusta parâmetros com base em seus gradientes anteriores, reduzindo oscilações e melhorando a convergência. Já o L2O treina uma rede neural para melhorar outras redes, o que acelera o treinamento. Embora ambos os métodos sejam revolucionários, eles apresentam suas limitações. Embora bem-sucedida, a natureza passo a passo de Adam ainda deixa espaço para um desenvolvimento rápido. O L2O, apesar de oferecer ciclos de desenvolvimento rápidos, pode ser caro e instável, exigindo atualizações frequentes e ajustes cuidadosos para evitar desestabilizar o processo de treinamento.

Pesquisadores do SAIT AI Lab da Samsung, da Concordia University, da Université de Montréal e da Mila introduziram um novo método conhecido como redes Neuron Interaction and Nowcasting (NINO). Este método visa reduzir significativamente o tempo de treinamento, prevendo o estado futuro dos parâmetros da rede. Em vez de usar uma etapa de otimização para cada iteração, como os métodos convencionais, o NINO usa uma função de leitura para prever futuras atualizações de parâmetros em intervalos regulares. Ao combinar gráficos neurais – que capturam as relações e interações entre neurônios dentro de camadas – o NINO pode fazer previsões raras, mas altamente precisas. Este método ocasionalmente reduz a carga computacional enquanto mantém a precisão, especialmente para estruturas complexas como transformadores.

O núcleo do método NINO reside em sua capacidade de aumentar as conexões de neurônios usando redes neurais de grafos (GNNs). Otimizadores tradicionais como Adam lidam com atualizações de parâmetros de forma independente, sem considerar as interações entre os neurônios. NINO, entretanto, usa gráficos neurais para modelar essas interações, fazendo previsões sobre parâmetros futuros da rede de uma forma que reflita a estrutura inerente da rede. Os pesquisadores baseiam-se no método Weight Nowcaster Networks (WNN), mas melhoram-no incorporando um modelo de interação de neurônios. Eles adaptaram o NINO para prever mudanças nos parâmetros para o futuro próximo e distante. Essa adaptabilidade permite que o NINO seja utilizado em diferentes estágios de treinamento sem a necessidade de retreinamento constante, tornando-o adequado para uma ampla gama de estruturas neurais, incluindo tarefas visuais e de linguagem. O modelo pode aprender efetivamente como os parâmetros da rede mudam usando o aprendizado supervisionado do caminho de treinamento em múltiplas tarefas, permitindo uma convergência mais rápida.

A rede NINO superou significativamente os métodos existentes em vários testes, especialmente em tarefas visuais e linguísticas. Por exemplo, quando testado em vários conjuntos de dados, incluindo CIFAR-10, FashionMNIST e tarefas de modelagem de linguagem, o NINO reduziu o número de etapas de otimização em aproximadamente 50%. Em um teste de tarefa de linguagem, o otimizador Adam original exigiu 23.500 passos para atingir a confusão alvo, enquanto o NINO alcançou o mesmo desempenho em apenas 11.500 passos. Da mesma forma, na tarefa de visão com redes neurais convolucionais, o NINO reduziu os passos de 8.606 para 4.582, representando uma redução de 46,8% no tempo de treinamento. Esta redução se traduz em treinamentos mais rápidos e economias significativas em recursos computacionais. Os pesquisadores demonstraram que o NINO tem um bom desempenho não apenas em tarefas de distribuição, onde o modelo é treinado, mas também em tarefas de não distribuição, onde combina melhor do que métodos existentes, como WNN e L2O.

A melhoria de desempenho do NINO é particularmente notável em tarefas que envolvem grandes redes neurais. Os pesquisadores testaram o modelo em transformadores com 6 camadas e 384 unidades ocultas, muito maiores do que as observadas durante o treinamento. Apesar destes desafios, o NINO conseguiu uma redução de 40% no tempo de treinamento, demonstrando sua escalabilidade. A capacidade do método de generalizar em diferentes arquiteturas e conjuntos de dados sem retreinamento o torna uma solução atraente para acelerar o treinamento em uma variedade de aplicações de IA.

Concluindo, a apresentação da equipe de pesquisa do NINO representa um avanço significativo no desenvolvimento de redes neurais. Ao usar gráficos neurais e GNNs para modelar interações de neurônios, o NINO fornece uma solução robusta e escalável que aborda o problema crítico de longos tempos de treinamento. Os resultados destacam que este método pode reduzir significativamente o número de etapas de otimização, mantendo ou melhorando o desempenho. Este desenvolvimento acelera o processo de formação e abre a porta para a rápida implantação de modelos de IA em vários domínios.


Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)


Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *