Desaprendizado mecanístico: uma nova abordagem de IA que usa interpretação de máquina para localizar e organizar componentes específicos do modelo associados a padrões de memória autênticos

Os formandos em linguística (LLMs) às vezes aprendem coisas que não queremos que eles aprendam e entendam. É importante encontrar maneiras de remover ou modificar essas informações para manter a IA precisa, precisa e sob controle. Entretanto, editar ou “desler” certas informações nesses modelos é muito difícil. Os métodos padrão para fazer isso muitas vezes acabam afetando outras informações ou informações gerais do modelo, o que pode afetar suas capacidades gerais. Além disso, as alterações feitas podem não durar para sempre.

Em trabalhos recentes, os pesquisadores usaram métodos como rastreamento de rastreamento para encontrar partes importantes da geração de resultados, enquanto técnicas rápidas como filtragem de atributos ajudam a identificar partes importantes muito rapidamente. Os métodos de edição e desaprendizado tentam remover ou alterar certas informações do modelo para mantê-lo seguro e relevante. Mas às vezes, os modelos podem ler de trás para frente ou exibir informações indesejadas. Os métodos atuais de programação e aprendizagem muitas vezes afetam outras capacidades do modelo e carecem de robustez, uma vez que pequenas variações nos dados ainda podem desencadear informações reais. Mesmo com medidas de segurança, ainda podem produzir respostas perigosas a determinadas informações, indicando que ainda é difícil controlar totalmente o seu comportamento.

Uma equipe de pesquisadores da Universidade de Maryland, Instituto de Tecnologia da Geórgia, Universidade de Bristol, e Google DeepMind levante Não é aprendizado de máquina. Desaperto Mecanístico uma nova técnica de IA que usa interpretação de máquina para localizar e organizar partes de um modelo específico associado a técnicas de memória virtual. Esta abordagem visa tornar a programação mais robusta e reduzir os efeitos secundários não intencionais.

A pesquisa examina maneiras de remover informações dos modelos de IA e descobre que muitos falham quando as informações ou resultados são alterados. Ao identificar partes específicas de modelos como Gemma-7B e Gemma-2-9B que são responsáveis pela verdadeira recuperação, o método baseado em gradiente parece ser mais eficaz e eficiente. Este método reduz melhor a memória oculta do que outros, exigindo menos alterações de modelo enquanto combina dados heterogêneos. Ao alinhar esses componentes, o método garante que informações indesejadas não sejam aprendidas de forma eficaz e resista às tentativas de reaprendizagem. Os investigadores mostram que esta abordagem leva a um planeamento robusto em diferentes formatos de entrada/saída e reduz a presença de informações ocultas em comparação com os métodos existentes.

Os pesquisadores conduziram experimentos para testar métodos de desaprendizado e organização de informações em dois conjuntos de dados: Fatos esportivos de novo ContadorFact. No conjunto de dados Sports Facts, eles trabalharam na remoção de associações com atletas de basquete e na mudança do esporte de 16 jogadores de golfe. No conjunto de dados CounterFact, eles se concentraram em alterar as respostas certas e erradas para encontrar 16 fatos. Eles usaram dois métodos principais: Acompanhamento de saída (incluindo rastreamento causal e patch de atribuição) e Localização da pesquisa de fatos. Os resultados mostraram que a localização manual levou a melhor precisão e poder, especialmente em testes de múltipla escolha. O método de tradução manual também foi mais forte em comparação com as tentativas de reaprender as informações. Além disso, a análise de informações básicas sugeriu que o planejamento eficaz dificulta a recuperação de informações anteriores das camadas do modelo. Os testes de mascaramento de peso mostraram que os métodos de otimização muitas vezes alteram os parâmetros relacionados à apuração de fatos do que aqueles usados para apuração de fatos, enfatizando a necessidade de melhorar o processo de apuração de fatos para melhor robustez. Portanto, esta abordagem visa tornar o planejamento mais robusto e reduzir os efeitos colaterais indesejados.

Em conclusão, este artigo apresenta uma solução promissora para o problema da fraca alfabetização nos LLMs, utilizando Tradução automática identificar e organizar com precisão partes de um determinado modelo, melhorando assim a eficiência e robustez do processo de desaprendizagem. O trabalho proposto também sugere o analfabetismo/edição como um potencial campo de testes para diferentes abordagens interpretativas, o que pode evitar a inerente falta de verdade básica na interpretação.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)

Divyesh é estagiário de consultoria na Marktechpost. Ele está cursando BTech em Engenharia Agrícola e Alimentar pelo Instituto Indiano de Tecnologia, Kharagpur. Ele é um entusiasta de Ciência de Dados e Aprendizado de Máquina que deseja integrar essas tecnologias avançadas no domínio agrícola e resolver desafios.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

O que é Agente AI? -MarkTechPost

DSBench: um benchmark abrangente que destaca as limitações dos atuais agentes de ciência de dados no tratamento de tarefas complexas de análise e modelagem de dados do mundo real

MassiveDS: um armazenamento de dados de 1,4 trilhão de tokens que permite que modelos de linguagem alcancem maior desempenho e precisão em aplicativos de PNL com uso intensivo de informações

Deixe um comentário Cancelar resposta