Adam é amplamente utilizado em aprendizado profundo como um algoritmo de otimização, mas tem dificuldade para convergir, a menos que o hiperparâmetro β2 seja ajustado com base em um problema específico. As tentativas de corrigir isso, como o AMSGrad, exigem a impossibilidade de considerar o ruído gradiente uniformemente limitado, o que não ocorre nos casos com ruído gaussiano, como visto em diferentes modelos automáticos e modelos de difusão. Outros métodos, como AdaShift, abordam a correspondência em casos limitados, mas não funcionam em problemas gerais. Pesquisas recentes sugerem que Adam pode atingir o ajuste fino de β2 para cada atividade, embora este método seja complexo e enfrente alguns problemas, o que justifica uma exploração mais aprofundada de soluções globais.
Pesquisadores da Universidade de Tóquio introduziram o ADOPT. Este novo método de gradiente adaptativo alcança convergência completa na taxa O(1/√T) sem exigir uma escolha exata de β2 ou uma aproximação de ruído limitada. ADOPT aborda a invariância de Adam não incluindo a inclinação atual na equação do segundo momento e ajustando a ordem do momento e as atualizações de normalização. Os testes em uma variedade de tarefas – como classificação de imagens, modelagem generativa, processamento de linguagem e aprendizagem por reforço – mostram um desempenho superior do ADOPT do que o Adam e suas variantes. O método também converge de forma confiável em situações desafiadoras, incluindo situações em que Adam e AMSGrad enfrentam dificuldades.
Esta pesquisa tem como foco a minimização da função objetivo que depende do vetor de parâmetros usando métodos de otimização estocástica inicial. Em vez de trabalhar diretamente com o gradiente, eles contam com uma aproximação conhecida como gradiente estocástico. Como a função pode não ser não-convexa, o objetivo é encontrar um ponto estacionário onde o gradiente seja zero. A análise de convergência padrão nesta área muitas vezes faz várias suposições importantes: a função é finita, o gradiente estocástico fornece uma estimativa imparcial do gradiente, a função varia suavemente e a variância do gradiente estocástico é igualmente finita. Em métodos adaptativos como o de Adam, muitas vezes são feitas suposições adicionais sobre a variação do gradiente para facilitar a prova de convergência. Os pesquisadores usaram um conjunto de suposições para investigar como os métodos de gradiente dinâmico convergem, sem depender da suposição estrita de que o ruído do gradiente é sempre limitado.
Pesquisas anteriores sugerem que, embora a descida gradiente estocástica básica seja frequentemente encontrada em ambientes estáticos, métodos de gradiente adaptativos, como Adam, são amplamente utilizados no aprendizado profundo devido à sua flexibilidade. No entanto, Adam às vezes precisa convergir, especialmente em casos convexos. Uma versão modificada chamada AMSGrad foi desenvolvida para resolver isso, introduzindo uma escala não decrescente de taxa de aprendizagem através da revisão do segundo tempo médio em uma tarefa importante. No entanto, a convergência AMSGrad baseia-se na forte suposição de ruído gradiente uniformemente limitado, o que não é válido em todos os casos, como alguns modelos de produção. Portanto, os pesquisadores propõem um novo método de reconstrução de gradiente que visa garantir uma convergência confiável sem depender de suposições fortes sobre o ruído gradiente, abordando as limitações de Adam em relação à convergência e aumentando a dependência dos parâmetros.
O algoritmo ADOPT é testado em várias tarefas para garantir seu desempenho e robustez em comparação com Adam e AMMSGrad. Começando com o problema dos brinquedos, o ADOPT integra-se com sucesso onde Adam não o faz, especialmente sob condições de alto ruído. Experimentos com MLP no conjunto de dados MNIST e ResNet no CIFAR-10 mostram que o ADOPT alcança uma convergência mais rápida e estável. ADOPT também supera ADAM em aplicações como classificação ImageNet baseada em Swin Transformer, modelo generativo NVAE e pré-treinamento GPT-2 sob condições de gradiente ruidoso e produz pontuações melhoradas no modelo de linguagem LLaMA -7B para ajuste de classificação de linguagem MMLU.
O estudo aborda as limitações teóricas dos métodos de gradiente adaptativo, como Adam, que requerem configurações específicas de hiperparâmetros para convergir. Para resolver isso, os autores apresentam o ADOPT, um otimizador que atinge níveis ótimos de convergência em diversas tarefas sem ajustar um problema específico. O ADOPT supera as limitações de Adam alterando a ordem de atualização do momento e não incluindo o gradiente atual no cálculo do segundo momento, garantindo estabilidade em todas as tarefas, como segmentação de imagens, PNL e modelagem autogerativa. O trabalho inclui a teoria e a aplicação da otimização adaptativa, embora pesquisas futuras possam explorar suposições mais liberais para integrar ainda mais a eficácia do ADOPT.
Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[AI Magazine/Report] Leia nosso último relatório sobre 'MODELOS DE TERRENO PEQUENOS'
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️