Pesquisadores da Universidade do Sul da Flórida propõem função inaugural do TeLU para aprendizado profundo rápido e sustentável

Inspirado pela mente, redes neurais eles são importantes para a percepção visual e o processamento da linguagem. Estas redes dependem de funções de ativação, que lhes permitem aprender padrões complexos. No entanto, muitas tarefas de ativação enfrentam desafios. Outros estão lutando gradientes de desaparecimentoo que reduz o aprendizado em redes profundas, enquanto outros sofrem de “morto sentidos”, quando certas partes da rede param de aprender. As alternativas modernas visam resolver estes problemas, mas muitas vezes apresentam desvantagens como ineficiência ou desempenho inconsistente.

Atualmente, obras de abertura em redes neurais que lidam com problemas importantes. Trabalhos como etapa de novo sigmóide para combater o desaparecimento de gradientes, reduzindo sua eficácia em redes profundas e, ao mesmo tempo, que isso melhorou um pouco, o que acabou trazendo outros problemas. RELU lida com alguns problemas de gradiente, mas introduz “morrendo RELU” matéria, o que torna os sentidos inativos. Diferente como ReLU com vazamento de novo PRELU tentar ajustar-se, mas isso traz conflitos e desafios ao fazê-lo. Funções avançadas como ELU, Nós somos a LUde novo GEL desenvolver não-linearidade. No entanto, acrescenta complexidade e preconceito, enquanto novos designs como Mish e Smish só mostraram estabilidade em determinadas situações e não funcionaram em todas as situações.

Para resolver esses problemas, pesquisadores de Universidade do Sul da Flórida propor uma nova função de ativação, TeLU(x) = x · tanh(ex)que inclui a eficiência de aprendizagem de ReLU com estabilidade e poder para a generalização de operações suaves. Esta função introduz transições suaves, o que significa que a saída muda gradualmente à medida que a entrada muda, ativação média próxima de zero e forte dinâmica de gradiente para superar alguns dos problemas das funções de ativação existentes. O projeto visa fornecer desempenho consistente em uma ampla gama de funções, melhorar a compactação e melhorar a estabilidade através de uma melhor adaptação de estruturas rasas e profundas.

Os pesquisadores estão focados em melhorar as redes neurais enquanto mantêm a eficiência computacional. Os pesquisadores pretendem evoluir o algoritmo rapidamente, mantê-lo estável durante o treinamento e torná-lo robusto para dados abstratos. A função existe de forma não polinomial e analítica; portanto, pode medir qualquer atividade contínua do alvo. Esta abordagem enfatizou a melhoria da estabilidade da aprendizagem e da autorregulação, ao mesmo tempo que reduziu a instabilidade numérica. Ao combinar recursos lineares e não lineares, a estrutura pode apoiar um aprendizado eficiente e ajudar a evitar problemas como a explosão de gradientes.

Os pesquisadores testaram Canções de TeLU o desempenho é testado e comparado com outras funções de ativação. Os resultados mostraram que TeLU ajudou a prevenir o problema da extinção do gradiente, que é importante para o treinamento bem-sucedido de redes profundas. Testado em grandes conjuntos de dados, como ImageNet de novo Transformadores de pooling dinâmico em Text8mostrando convergência mais rápida e melhor precisão do que funções convencionais, como RELU. O teste também mostrou que TeLU é computacionalmente eficiente e funciona bem com configurações baseadas em ReLU, muitas vezes resultando em melhores resultados. O teste confirmou que TeLU é estável e supera todos os tipos de arquiteturas de redes neurais e métodos de treinamento.

Finalmente, a função de ativação proposta desenvolvida pelos pesquisadores aborda os principais desafios das funções de ativação existentes, evitando o problema do gradiente de fuga, aumentando a eficiência computacional e mostrando melhor desempenho em vários conjuntos e estruturas de dados. Seu desempenho bem-sucedido em benchmarks como ImageNet, Text8 e Penn Treebank, mostrando convergência rápida, maior precisão e estabilidade em modelos de aprendizado profundo, pode posicionar o TeLU como uma ferramenta promissora para redes neurais profundas. Além disso, o desempenho do TeLU pode servir de base para pesquisas futuras, o que pode encorajar o desenvolvimento de funções de ativação para alcançar maior eficiência e confiabilidade no desenvolvimento do aprendizado de máquina.

Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Divyesh é estagiário de consultoria na Marktechpost. Ele está cursando BTech em Engenharia Agrícola e Alimentar pelo Instituto Indiano de Tecnologia, Kharagpur. Ele é um entusiasta de Ciência de Dados e Aprendizado de Máquina que deseja integrar essas tecnologias avançadas no domínio agrícola e resolver desafios.

🧵🧵 Siga-nos no X (Twitter) para pesquisas gerais sobre IA e atualizações de desenvolvimento aqui…

Source link

Você também pode gostar...

Este artigo sobre IA apresenta Virgem: um grande modelo de linguagem multimodal para pensamento lento e avançado

Cohere for AI lança Aya Expanse (8B e 32B): uma família multilíngue de última geração para preencher a lacuna linguística na IA

Revolucionando a aprendizagem no contexto: o paradigma HiAR-ICL para aconselhamento avançado por meio de MCTS

Deixe um comentário Cancelar resposta