Pesquisadores da Universidade de Stanford propõem ExPLoRA: uma abordagem de IA eficiente para aprimorar a aprendizagem por transferência para transformadores de visão pré-treinados (ViTs) sob mudanças no cenário

Métodos de ajuste fino com eficiência de parâmetros (PEFT), como adaptação de baixo nível (LoRA), permitem que grandes modelos básicos pré-treinados sejam adaptados para funções downstream usando uma pequena porcentagem (0,1%-10%) dos pesos treináveis originais . Uma área pouco explorada do PEFT estende a fase de pré-treinamento sem rótulos supervisionados – em particular, adaptando modelos básicos a novos domínios usando um pré-treinamento supervisionado eficaz. Embora o treinamento tradicional anterior de modelos básicos em linguagem e percepção tenha consumido muitos recursos, avanços recentes nas técnicas PEFT permitiram uma otimização eficiente com custo computacional mínimo, com base na ideia de que a atualização de peso tem uma taxa intrínseca baixa.

Modelos baseados em visão (VFMs) como DinoV2 e autoencoders (MAE) têm apresentado excelente desempenho em tarefas como classificação e classificação semântica por meio de aprendizagem supervisionada (SSL). Recentemente, surgiram VFMs específicos de domínio, como o SatMAE, que processam imagens temporais ou múltiplas de satélite. A adaptação prática destes grandes modelos levou à adoção de métodos PEFT, que revisam apenas uma pequena parte dos parâmetros. Técnicas como LoRA usam atualizações de peso de baixo nível, enquanto outras alteram o número de parâmetros treináveis. As técnicas de adaptação de domínio abordam a mudança na distribuição entre dados de treinamento e teste usando métricas de dissimilaridade ou contra-treinamento para melhorar o desempenho do modelo entre domínios.

Pesquisadores da Universidade de Stanford e CZ Biohub desenvolveram ExPLoRA, um novo método para melhorar a aprendizagem por transferência para transformadores de visão pré-treinados (ViTs) durante a troca de domínio. Ao inicializar o ViT com pesos de um grande conjunto de dados de imagens ambientais, como DinoV2 ou MAE, o ExPLoRA continua o pré-treinamento não supervisionado em um novo domínio, optando por liberar 1-2 blocos de ViT enquanto usa o LoRA para ajustar as camadas restantes. Este método atinge desempenho de última geração na classificação de imagens de satélite, melhorando a precisão de 1 por 8% enquanto utiliza apenas 6-10% dos parâmetros em comparação com modelos anteriores totalmente treinados, mostrando grande eficiência e eficácia no domínio. adaptabilidade.

MAE e DinoV2 são métodos SSL para ViTs. O MAE usa uma arquitetura codificadora-decodificadora oculta que requer processamento completo de operações downstream, que podem ser computacionalmente intensivas. Em contraste, o DinoV2 exibe forte desempenho de disparo zero usando um modelo estrutural treinável por aluno-professor, permitindo adaptação sem otimização completa. O método ExPLoRA é proposto para resolver ineficiências, combinando pesos pré-treinados e condições de baixo nível com atualizações adicionais para combinar ViTs com domínios-alvo de forma adequada. Essa abordagem minimiza os requisitos de armazenamento, mantendo recursos robustos de abstração e generalização.

Os resultados dos testes concentram-se em imagens de satélite, destacando o estudo de caso e o conjunto de dados fMoW-RGB, que alcançam uma precisão top-1 de 79,2%. Os estudos de ablação avaliam as métricas de desempenho em vários ambientes. Os modelos ExPLoRA, inicializados com pesos MAE e DinoV2, superam os métodos convencionais totalmente treinados enquanto usam apenas 6% dos parâmetros do codificador ViT. Outras experiências com imagens de múltiplos visualizadores e vários conjuntos de dados de satélite demonstram a eficácia do ExPLoRA em preencher lacunas de domínio e alcançar desempenho competitivo. Os resultados mostram uma melhoria significativa na precisão, demonstrando o potencial do ExPLoRA para tarefas de classificação de imagens de satélite.

Concluindo, ExPLoRA é um novo programa de treinamento projetado para adaptar modelos ViT pré-treinados a vários domínios visuais, incluindo imagens médicas e de satélite. O ExPLoRA aborda desde o início as limitações do caro pré-treinamento, permitindo a transferência eficiente de conhecimento de modelos existentes, alcançando desempenho superior em comparação com estruturas específicas de domínio. O método combina técnicas PEFT, como LoRA, com congelamento mínimo das camadas do modelo, o que melhora muito o aprendizado por transferência. O teste revelou resultados de última geração em imagens de satélite, melhorando a precisão das linhas em até 7,5% usando menos de 10% dos parâmetros dos métodos anteriores.

Confira Papel de novo O projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)

Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.

Source link

Você também pode gostar...

Vista3D: uma nova estrutura de IA para geração rápida e detalhada de objetos 3D a partir de uma única imagem usando difusão prévia

Este artigo sobre IA apresenta a evolução da difusão: uma nova abordagem de IA para a computação evolutiva, combinando modelos de difusão e algoritmos evolutivos

CodeMMLU: um benchmark de múltipla escolha para testar a compreensão de código em grandes modelos de linguagem

Deixe um comentário Cancelar resposta