Apresentando GS-LoRA++: uma nova abordagem para aprendizado não mecânico de funções de visão

Modelos de visão pré-treinados têm sido fundamentais para o desenvolvimento da visão computacional moderna em vários domínios, como segmentação de imagens, detecção de objetos e segmentação de imagens. Há uma enorme quantidade de entrada de dados, criando ambientes de dados dinâmicos que exigem um processo de aprendizagem contínuo para nossos modelos. As novas leis de privacidade de dados exigem que certas informações sejam excluídas. No entanto, estes modelos pré-treinados sofrem de esquecimento catastrófico quando expostos a novos dados ou tarefas ao longo do tempo. Se for solicitado que você remova algumas informações, o modelo poderá esquecer dados ou parâmetros importantes. Para resolver esses problemas, pesquisadores do Instituto de Engenheiros Elétricos e Eletrônicos (IEEE) desenvolveram o Esquecimento Contínuo Prático (PCF), que permite que os modelos esqueçam recursos específicos de tarefas, mantendo seu desempenho.

As abordagens atuais para reduzir o esquecimento catastrófico incluem técnicas de adaptação, buffers de repetição e expansão estrutural. Esses métodos funcionam bem, mas não permitem o esquecimento seletivo; em vez disso, aumentam a complexidade das estruturas, causando ineficiências na adoção de novos parâmetros. Deve existir um grande equilíbrio entre a plasticidade do trade-off e a estabilidade para não reter excessivamente informações irrelevantes e ser capaz de se adaptar a novas situações. No entanto, esta parece ser uma luta importante, que cria a necessidade de uma nova abordagem que permita mecanismos de esquecimento flexíveis e proporcione uma adaptação eficaz.

O método proposto, Esquecimento Contínuo Prático (PCF), adotou uma abordagem racional para lidar com o esquecimento catastrófico e promover o esquecimento seletivo. Esta estrutura foi projetada para fortalecer o poder dos modelos de visão previamente treinados. O método PCF inclui:

Módulos de Esquecimento Condicional: Esses módulos sempre analisam os recursos que o modelo aprendeu e os descartam quando acabam. Alguns recursos específicos da tarefa que não são mais relevantes são removidos, mas seu amplo entendimento é mantido para garantir que não surja nenhum problema de generalização.
Regularização Específica da Tarefa: O PCF introduz restrições durante o treinamento para garantir que os parâmetros aprendidos anteriormente não sejam significativamente afetados. A adaptação a novas tarefas garante maior desempenho, ao mesmo tempo que retém o conhecimento previamente aprendido.

Para avaliar o desempenho do framework PCF, foram realizados testes em todas as diferentes tarefas, como reconhecimento facial, reconhecimento de objetos e classificação de imagens sob diferentes condições, incluindo dados faltantes e esquecimento contínuo. A estrutura foi altamente eficaz em todos estes casos e superou os modelos de base. Poucos parâmetros são usados, o que faz com que funcione bem. Os métodos mostraram robustez e eficiência, lidando melhor com dados esparsos ou ausentes do que outras técnicas.

Este artigo apresenta uma estrutura Prática de Esquecimento Contínuo (PCF), que aborda efetivamente o problema do esquecimento contínuo em modelos perceptivos pré-treinados, fornecendo uma solução simples e flexível para o esquecimento seletivo. Possui as vantagens de precisão analítica e adaptabilidade, demonstrou fortes capacidades em aplicações sensíveis à privacidade e é bastante flexível, conforme confirmado por fortes métricas de desempenho em diversas arquiteturas. No entanto, seria bom validar ainda mais esta abordagem com conjuntos de dados do mundo real e em cenários mais complexos para testar completamente a sua robustez. No geral, a estrutura PCF estabelece uma nova referência para retenção, adaptação e esquecimento de informações em modelos de percepção, com implicações importantes para a conformidade com a privacidade e adaptação específica de tarefas.

Confira Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.

🚨 [Recommended Read] Nebius AI Studio se estende com modelos de visão, novos modelos de linguagem, embeddings e LoRA ^(Promovido)

Afeerah Naseem é estagiária de consultoria na Marktechpost. Ele está cursando bacharelado em tecnologia no Instituto Indiano de Tecnologia (IIT), Kharagpur. Ele é apaixonado por Ciência de Dados e fascinado pelo papel da inteligência artificial na resolução de problemas do mundo real. Ele adora descobrir novas tecnologias e explorar como elas podem tornar as tarefas diárias mais fáceis e eficientes.

📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)

Source link

Você também pode gostar...

Este artigo sobre IA da Amazon e da Michigan State University apresenta uma nova abordagem de IA para melhorar a coerência de longo prazo em modelos de linguagem.

Avaliando as capacidades de programação dos principais modelos de linguagem: viabilidade, validade e generalidade no modelo O1 da OpenAI

Apple AI Research apresenta MM1.5: uma nova família de modelos multilíngues (MLLMs)

Deixe um comentário Cancelar resposta