Os modelos linguísticos de grande escala (LLMs) ganharam conhecimentos consideráveis devido à sua formação em conjuntos de dados baseados na Internet. No entanto, esta ampla exposição incluiu inadvertidamente conteúdo prejudicial, permitindo que os LLMs produzissem conteúdo tóxico, ilegal, tendencioso e que violasse a privacidade. À medida que estes modelos se tornam mais avançados, as informações maliciosas incorporadas criam uma vulnerabilidade crescente, que tem o potencial de tornar as informações maliciosas mais acessíveis aos agentes mal-intencionados. Embora tenham sido implementadas medidas de segurança para reduzir estes problemas, os investigadores continuam a encontrar perigos nas prisões que excedem estas medidas de segurança. A robustez destas salvaguardas ainda é uma questão de investigação em aberto, destacando a necessidade crítica de soluções mais eficientes para garantir o desenvolvimento responsável e a implantação de LLMs em vários sistemas.
Os investigadores tentaram diferentes abordagens para enfrentar os desafios colocados pelas informações perigosas aos LLMs. Métodos de treinamento de segurança como DPO e PPO têm sido usados para preparar modelos para rejeitar perguntas sobre informações perigosas. Os disjuntores, usando engenharia representacional, foram introduzidos em direções diretas associadas a conceitos redundantes. No entanto, estas defesas têm demonstrado resiliência limitada, uma vez que os jailbreaks continuam a contornar as defesas e a libertar informações maliciosas através de técnicas de notificação, melhorando o acesso à caixa branca ou libertando explorações.
O desaprendizado surgiu como uma solução promissora, que visa atualizar os pesos dos modelos para remover completamente certas informações. Essa abordagem foi aplicada a uma variedade de tópicos, incluindo justiça, privacidade, segurança e visualização. Métodos notáveis como RMU e NPO são projetados para aprendizagem orientada para a segurança. No entanto, análises adversas recentes revelaram vulnerabilidades em técnicas não aprendidas, mostrando que informações supostamente eliminadas ainda podem ser extraídas através do exame de representações internas ou do ajuste fino de modelos não aprendidos. Estas conclusões sublinham a necessidade de métodos robustos de não aprendizagem e procedimentos de avaliação abrangentes.
Este estudo realizado por investigadores da ETH Zurich e da Universidade de Princeton desafia a diferença fundamental entre não estudar e corrigir a segurança tradicional do ponto de vista da contradição. Usando o Referência WMDP para medir informações de risco em LLMs, o estudo argumenta que a subaprendizagem só pode ocorrer se uma precisão significativa puder ser obtida através da atualização dos pesos do modelo ou com dados com menos informações equivalentes às informações alvo. O estudo conduziu uma avaliação abrangente de métodos modernos de alfabetização em informações sobre riscos, comparando-os ao treinamento tradicional em segurança e ao DPO. As descobertas destacam as armadilhas das atuais técnicas de desaprendizagem, enfatizando as limitações dos testes de caixa preta e a necessidade de métodos de desaprendizagem mais robustos.
A pesquisa se concentra em desaprender métodos de segurança, que visam especificamente remover informações prejudiciais de grandes modelos de linguagem. A pesquisa utiliza conjuntos de esquecimento e armazenamento, o primeiro contendo informações a serem desaprendidas e o último armazenando informações vizinhas. O teste usa conjuntos de dados do benchmark WMDP de biologia e segurança cibernética. O modelo de ameaça adota uma abordagem de caixa branca para o modelo não aprendido, o que permite a mudança de peso e a intervenção do espaço aberto durante a decisão. O estudo avalia RMU, NPO+RT e DPO como métodos de treinamento não aprendidos e métodos de segurança. O experimento usa Zephyr-7B-β como modelo base, que é ajustado aos corpora WMDP e WikiText. GPT-4 produz conjuntos de dados preferenciais para treinamento de NPO e DPO. O desempenho é avaliado usando os benchmarks WMDP e MMLU para medir o uso geral após o aprendizado.
A pesquisa usa uma variedade de métodos para descobrir habilidades perigosas em modelos não aprendidos, inspirando-se em jailbreaks de segurança conhecidos e modificando-os para atingir métodos não aprendidos. Essas técnicas incluem:
1. Ajuste: Usando Regularização de Taxa Baixa (LoRA) para ajustar modelos não aprendidos em conjuntos de dados com vários graus de similaridade com informações não aprendidas.
2. Ortogonalização: Investigar a direção de rejeição no espaço de ativação dos modelos não aprendidos e removê-los durante a predição.
3. Log Lens: Ativação de difusão residual no vocabulário do modelo para extrair respostas de camadas intermediárias.
4. GCG aprimorado: Desenvolvimento de uma versão aprimorada da Geração Condicional Baseada em Gradiente (GCG) que visa métodos de desaprendizado, otimizando primitivos para evitar a aquisição de informações prejudiciais.
5. Definir poda diferencial: Identifique e poda neurônios associados ao alinhamento de segurança usando pontuações SNIP e métodos de conjunto diferencial.
Estes métodos visam avaliar completamente a robustez das técnicas não aprendidas e a sua capacidade de remover eficazmente informações prejudiciais dos modelos de linguagem.
A investigação revela riscos significativos nas práticas de desescolarização. Uma correção de 10 amostras não relacionadas restaura o poder médio para todos os métodos. A análise Logit Lens mostra os métodos de não aprendizagem que removem informações da distribuição residual de forma mais eficaz em comparação com o treinamento de segurança. As técnicas de ortogonalização recuperam com sucesso informações vulneráveis, enquanto a RMU é a mais vulnerável. Os principais neurônios responsáveis pela não aprendizagem foram identificados e cortados, resultando em aumento da atividade no WMDP. Os primers adversários globais, desenvolvidos usando o GCG aprimorado, aumentaram significativamente a precisão dos parâmetros de referência de informações sobre perigos em todos os métodos. Estas descobertas indicam que tanto a formação em segurança como a desaprendizagem podem ser comprometidas por várias estratégias, sugerindo que a informação não aprendida não é necessariamente removida, mas sim embotada.
Esta revisão abrangente de abordagens de segurança de IA de última geração revela vulnerabilidades importantes nas abordagens atuais. A pesquisa mostra que as técnicas de desaprendizado não conseguem remover de forma confiável informações prejudiciais dos pesos dos modelos, como evidenciado pela aquisição das chamadas habilidades não aprendidas de várias maneiras. Estas descobertas desafiam a superioridade percebida dos métodos de desaprendizado em relação ao treinamento de segurança padrão no fornecimento de segurança robusta. O estudo enfatiza a inadequação do teste caixa preta para avaliar a eficácia da não aprendizagem, pois não consegue captar mudanças no modelo interno. Estes resultados enfatizam a necessidade urgente de desenvolver estratégias de aprendizagem mais robustas e de utilizar protocolos de teste cuidadosos para garantir a implementação segura de grandes modelos de linguagem.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Quer chegar a mais de 1 milhão de leitores de IA? Trabalhe conosco aqui
Asjad é consultor estagiário na Marktechpost. Ele está cursando B.Tech em engenharia mecânica no Instituto Indiano de Tecnologia, Kharagpur. Asjad é um entusiasta do aprendizado de máquina e do aprendizado profundo que pesquisa regularmente a aplicação do aprendizado de máquina na área da saúde.