Pesquisadores de Cambridge fornecem informações importantes sobre aprendizagem profunda através das lentes pedagógicas de um modelo telescópico usando equações de primeira ordem
Inteligência artificial

Pesquisadores de Cambridge fornecem informações importantes sobre aprendizagem profunda através das lentes pedagógicas de um modelo telescópico usando equações de primeira ordem


As redes neurais permanecem um mistério complicado até hoje. Por um lado, são responsáveis ​​por automatizar tarefas complexas em todas as áreas, como reconhecimento de imagens, compreensão de linguagem natural e geração de texto; contudo, por outro lado, o seu comportamento básico e os processos de tomada de decisão permanecem complexos. As redes neurais muitas vezes apresentam comportamentos contraditórios e incomuns, como o habitual desempenho não monotônico, o que levanta dúvidas sobre sua qualidade. Até mesmo o XGBoost e o Random Forests superam as redes neurais em dados estruturados. Além disso, as redes neurais muitas vezes se comportam como modelos lineares – isso cria muita confusão, visto que são conhecidas por sua capacidade de modelar não-linearidades complexas. Esses problemas encorajaram os pesquisadores a determinar redes neurais.

Pesquisadores da Universidade de Cambridge apresentaram um modelo simples para fornecer informações funcionais às redes neurais. Este trabalho segue uma abordagem híbrida de aplicação de princípios teóricos de pesquisa a modelos simples, mas precisos, de redes neurais para investigação empírica. Inspirados no trabalho de Neural Tangent Kernels, os autores consideram um modelo que utiliza uma aproximação de primeira ordem das atualizações de desempenho feitas durante o treinamento. Além disso, nesta definição, o modelo se expande avaliando as medidas de atualização individuais feitas durante o treinamento para reproduzir o comportamento de redes funcionais totalmente treinadas. Toda a configuração para a condução de investigações empíricas pode ser interpretada como uma lente pedagógica para mostrar como as redes neurais podem, por vezes, parecer familiares e inesperadas. O estudo também sugere maneiras de construir e derivar métricas para prever e compreender esse comportamento incomum.

Os autores apresentam três estudos de caso neste artigo para investigação empírica. Primeiro, o modelo telescópico proposto estende a métrica existente para medir a complexidade do modelo em redes neurais. O objetivo desta integração foi compreender as curvas de overfitting e o comportamento geral das redes, especialmente para novos dados onde o modelo não funciona bem. Suas descobertas incluem o fenômeno de duplicação e grokking vinculado a mudanças complexas de modelos durante treinamento e testes. A queda dupla descreve basicamente o desempenho não monotônico do modelo telescópico, onde seu desempenho de teste primeiro se torna negativo (overfitting generalizado), mas depois melhora com o crescimento da complexidade do modelo. No grokking, mesmo depois de atingir um desempenho perfeito nos dados de treinamento, o modelo pode continuar a melhorar significativamente seu desempenho nos dados de teste depois de um longo tempo. O modelo telescópico mede a complexidade do aprendizado, da diminuição dupla e do grokking durante o treinamento e estabelece a causa desses efeitos na diferença entre a complexidade do treinamento e do teste.

O segundo estudo de caso descreve a ineficiência das redes neurais relacionais XGBoost em dados tabulares. As Redes Neurais lutam com dados tabulares, especialmente aqueles com irregularidades, apesar de sua incrível diversidade. Embora ambos os modelos apresentem o mesmo bom comportamento, o XGBoost vence a corrida pelo melhor manuseio das características de irregularidades e mínimos. No estudo, o modelo telescópico e o XGBoost utilizaram kernels, mas constatou-se que o kernel tangente das redes neurais não possuía parâmetros, o que significa que todos os pontos podem ser utilizados de forma diferente, enquanto os kernels XGBoost se comportam de forma mais previsível quando expostos a dados experimentais .

O caso final discutiu a estabilidade e ponderação do gradiente. O modelo revelou que à medida que o treinamento avança, as atualizações do gradiente tornam-se mais consistentes, levando a uma perda suave. Eles mostraram como a estabilidade do gradiente durante o treinamento contribui para a conectividade e ponderação do modo linear, o que foi muito bem-sucedido.

O modelo telescópico proposto de aprendizagem por rede neural ajudou a compreender vários fenômenos intrigantes na aprendizagem profunda por meio de pesquisas empíricas. Este trabalho pode incluir esforços adicionais para compreender o mistério das redes neurais, tanto histórica quanto conceitualmente.


Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[AI Magazine/Report] Leia nosso último relatório sobre 'MODELOS DE TERRENO PEQUENOS'


Adeeba Alam Ansari está atualmente cursando um diploma duplo no Instituto Indiano de Tecnologia (IIT) Kharagpur, cursando B.Tech em Engenharia Industrial e M.Tech em Engenharia Financeira. Com profundo interesse em aprendizado de máquina e inteligência artificial, ele é um leitor ávido e uma pessoa curiosa. A Adeeba acredita firmemente no poder da tecnologia para capacitar a sociedade e promover o bem-estar através de soluções inovadoras impulsionadas pela empatia e uma compreensão profunda dos desafios do mundo real.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *