As hiperredes têm recebido atenção por sua capacidade de adaptação a modelos maiores ou de treinar modelos generativos para representação neural. Apesar do seu desempenho, as redes de formação de alto nível são muitas vezes trabalhosas, exigindo pesos pré-configurados para cada amostra de dados. Essa dependência de pesos reais requer recursos computacionais significativos, como visto em métodos como o HyperDreamBooth, onde a preparação de dados de treinamento pode levar muito tempo da GPU. Além disso, os métodos atuais assumem um mapeamento um-para-um entre as amostras de entrada e seus pesos otimizados correspondentes, o que leva em conta a natureza estocástica da otimização da rede neural. Essa simplificação excessiva pode suprimir a expressão de hiperredes. Para enfrentar esses desafios, os pesquisadores pretendem otimizar cada amostra em hiperredes, evitando a necessidade de montar tudo com antecedência e permitindo um treinamento rápido e fácil sem comprometer o desempenho.
Desenvolvimentos recentes incluem supervisão baseada em gradiente no treinamento em hiperredes, que elimina a dependência de pesos pré-calculados, mantendo a estabilidade e a robustez. Ao contrário dos métodos convencionais que dependem de pesos de tarefas pré-computados, este método direciona hiper-redes usando gradientes no caminho de convergência, o que permite um aprendizado eficiente de mudanças no espaço de pesos. Esta teoria se inspira em modelos generativos, como modelos de difusão, modelos de similaridade e estruturas de correspondência de fluxo, que navegam em espaços ocultos de alta dimensão usando abordagens orientadas por gradiente. Além disso, a supervisão baseada em derivativos, usada em Redes Neurais Informadas pela Física (PINNs) e Modelos Baseados em Energia (EBMs), informa a rede sobre as direções do gradiente, evitando a supervisão implícita de saída. Ao adotar a supervisão orientada por gradiente, o método proposto garante um treinamento robusto e estável em diversos conjuntos de dados, facilitando o treinamento em hiperredes e, ao mesmo tempo, eliminando as restrições computacionais das técnicas anteriores.
Pesquisadores da Universidade de British Columbia e da Qualcomm AI Research propõem uma nova maneira de treinar hiperredes sem depender de pesos pré-configurados para cada amostra. A abordagem deles introduz um “Campo de Hiperrede” que mostra a otimização geral de redes específicas de tarefas, em vez de focar em pesos finais agregados. A hiperrede estima os pesos em qualquer ponto do caminho de treinamento, incluindo o estado de convergência como entrada adicional. Este processo é orientado pela correspondência dos gradientes dos pesos estimados com os gradientes da atividade real, eliminando a necessidade de metas calculadas. Sua abordagem reduz significativamente os custos de treinamento e alcança resultados competitivos em tarefas como geração de imagens personalizadas e reconstrução de formas 3D.
A estrutura Hypernetwork Field apresenta uma maneira de modelar todo o processo de treinamento de redes neurais específicas para tarefas, como o DreamBooth, sem a necessidade de pesos gerados por computador. Ele usa uma hiperrede, que prevê parâmetros de rede específicos de tarefas em qualquer etapa de otimização com base no estado de entrada. O treinamento depende da correspondência dos gradientes de uma rede específica de tarefa com a trajetória da hiper-rede, eliminando a necessidade de preparação repetida de cada amostra. Esta abordagem permite uma previsão precisa dos pesos da rede em qualquer estágio, capturando a transformação completa do treinamento. É computacionalmente eficiente e alcança resultados sólidos em tarefas como geração de imagens personalizadas.
O experimento mostra a flexibilidade da estrutura Hypernetwork Field em duas tarefas: produção de imagens pessoais e reconstrução de formas 3D. O método usa DreamBooth como uma rede de tarefas de geração de imagens, para personalizar imagens dos conjuntos de dados CelebA-HQ e AFHQ usando tokens de correção. Ele alcança um treinamento mais rápido e intuitivo do que as linhas de base, proporcionando desempenho comparável ou superior em métricas como CLIP-I e DINO. Com a reconstrução da forma 3D, a estrutura prevê os pesos da rede de habitat usando as imagens fornecidas ou nuvens de pontos 3D como entrada, replicando efetivamente toda a trajetória de configuração. Esta abordagem reduz significativamente o custo computacional, mantendo resultados de alta qualidade para ambas as operações.
Concluindo, Hypernetwork Fields apresenta um método para treinar hiperredes de forma eficaz. Ao contrário dos métodos convencionais que exigem pesos verdadeiros pré-calculados para cada amostra, esta estrutura aprende a modelar toda a trajetória de desenvolvimento de redes específicas de tarefas. Ao introduzir o estado de convergência como uma entrada adicional, o Hypernetwork Field estima o método de treinamento em vez de apenas os pesos finais. Um recurso importante é usar o monitoramento de gradiente para sincronizar as medições da rede, o que elimina a necessidade de pesos de pré-amostragem, mantendo ao mesmo tempo um desempenho competitivo. Este método é generalizável, reduz a sobrecarga computacional e tem a capacidade de dimensionar hiperredes para diversas tarefas e grandes conjuntos de dados.
Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)