Os cursos de linguística (LLMs) ganharam ampla aceitação devido às suas habilidades avançadas de compreensão e produção de textos. No entanto, garantir o seu comportamento ético alinhado com a segurança tornou-se um grande desafio. Os ataques de jailbreak surgiram como uma grande ameaça, usando informações cuidadosamente elaboradas para contornar medidas de segurança e desencadear conteúdo malicioso, discriminatório, violento ou sensível de LLMs direcionados. Para manter o comportamento correto desses modelos, é importante investigar ataques automatizados de jailbreak como importantes ferramentas de integração. Estes instrumentos avaliam continuamente se os LLMs podem comportar-se de forma responsável e segura em ambientes de conflito. O desenvolvimento de métodos eficazes de jailbreak automatizado enfrenta vários desafios, incluindo a necessidade de conceitos diversos e eficazes de jailbreak e a capacidade de navegar nas estruturas sociais complexas, multilíngues, dependentes do contexto e diversas da linguagem.
As tentativas de jailbreak existentes seguem principalmente duas abordagens metodológicas: ataques baseados em eficiência e ataques baseados em estratégia. Os ataques baseados em otimização usam algoritmos automatizados para gerar informações de jailbreak com base em feedback, como gradientes de função de perda ou por geradores de treinamento para simular algoritmos de otimização. No entanto, esses métodos geralmente carecem de informações claras sobre o jailbreak, o que leva a um fraco desempenho de ataque e variações limitadas de velocidade.
Por outro lado, os ataques baseados em estratégia utilizam técnicas específicas de jailbreak para degradar os LLMs. Estes incluem dramatização, manipulação emocional, jogos de palavras, técnicas cifradas, técnicas baseadas em ASCII, cenários longos, técnicas de linguagem com poucos recursos, demonstrações grosseiras e expressões veladas. Embora estes métodos revelem defeitos interessantes nos LLMs, eles enfrentam duas limitações principais: dependência de técnicas pré-definidas e feitas pelo homem e testes limitados de combinação de diferentes métodos. Esta dependência do desenvolvimento manual de estratégias limita o alcance de ataques potenciais e deixa inexplorado o potencial sinérgico de várias estratégias.
Pesquisadores da Universidade de Wisconsin-Madison, NVIDIA, Universidade Cornell, Universidade de Washington, St. Louis, Universidade de Michigan, Ann Arbor, Universidade Estadual de Ohio e UIUC presentes AutoDAN-Turbo, uma nova abordagem que usa agentes de aprendizagem ao longo da vida para detectar, sintetizar e executar automaticamente várias técnicas de ataque de jailbreak sem intervenção humana. Este método aborda as limitações dos métodos existentes usando três recursos principais. Primeiro, permite a descoberta automática de estratégias, desenvolve novas estratégias do zero e armazena-as de forma organizada para reutilização e evolução eficientes. Em segundo lugar, o AutoDAN-Turbo oferece compatibilidade com técnicas externas, permitindo fácil integração de técnicas existentes de jailbreak criadas pelo homem de maneira plug-and-play. Essa estrutura integrada pode usar técnicas externas e suas descobertas para desenvolver estratégias avançadas de ataque. Terceiro, o método funciona como uma caixa preta, exigindo apenas acesso à saída de texto do modelo, tornando-o aplicável a aplicações do mundo real. Ao combinar esses recursos, o AutoDAN-Turbo representa um avanço significativo no campo de ataques automatizados de jailbreak contra os principais modelos de linguagem.
O AutoDAN-Turbo possui três módulos principais: Módulo de geração de ataques e testes, Módulo de construção de biblioteca de estratégia e Módulo de recuperação de estratégia de Jailbreak. O Módulo de Geração e Exploração de Ataques usa o invasor LLM para gerar informações de jailbreak com base em técnicas do Módulo de Recuperação. Esta informação é direcionada ao LLM, a vítima, com respostas censuradas pelo avaliador do LLM. Este processo cria logs de ataque para o Strategy Library Build Module.
O Módulo de Construção da Biblioteca de Estratégias extrai estratégias desses registros de ataque e as salva na Biblioteca de Estratégias. O Módulo de Recuperação de Estratégia de Jailbreak então pega estratégias desta biblioteca para orientar a execução de um jailbreak rápido no Módulo de Geração e Exploração de Ataque.
Este processo cíclico permite design automatizado contínuo, reutilização e evolução de técnicas de jailbreak. O design acessível da biblioteca de estratégias permite fácil integração de estratégias externas, o que melhora a versatilidade da abordagem. É importante ressaltar que o AutoDAN-Turbo funciona como uma caixa preta, exigindo apenas respostas textuais do modelo de destino, tornando-o utilizável em aplicações do mundo real sem exigir acesso de caixa branca ao modelo de destino.
AutoDAN-Turbo mostra desempenho superior nas métricas Harmbench ASR e StrongREJECT Score, superando significativamente os métodos existentes. Usando o Gemma-7B-it como atacante e um atalho estratégico, o AutoDAN-Turbo atinge uma classificação Harmbench ASR de 56,4, superando o segundo colocado (Rainbow Teaming) em 70,4%. Sua pontuação StrongREJECT de 0,24 supera a segunda em 84,6%. Ao usar o modelo Llama-3-70B maior, o desempenho é ainda melhor com um ASR de 57,7 (74,3% maior que o segundo colocado) e uma pontuação StrongREJECT de 0,25 (92,3% maior).
Notavelmente, o AutoDAN-Turbo mostra um desempenho notável em relação ao GPT-4-1106-turbo, alcançando ASRs Harmbench de 83,8 (Gemma-7B-it) e 88,5 (Llama-3-70B). Uma comparação com todos os ataques de jailbreak no Harmbench confirma o AutoDAN-Turbo como o método mais poderoso. Este alto desempenho se deve à avaliação independente de técnicas de jailbreak sem intervenção humana ou escopo predefinido, ao contrário de métodos como o Rainbow Teaming, que dependem de um conjunto limitado de técnicas desenvolvidas por humanos.
Este estudo apresenta AutoDAN-Turbo, representante um avanço significativo nos métodos de ataque de jailbreak, usando agentes de aprendizagem ao longo da vida para descobrir e sintetizar várias técnicas. Testes extensivos mostram seu alto desempenho e portabilidade em todos os principais idiomas. No entanto, a principal limitação do método reside nos seus grandes requisitos computacionais, que requerem o carregamento de múltiplos LLMs e repetidas interações do modelo para construir uma biblioteca de técnicas do zero. Este processo que consome muitos recursos pode ser reduzido carregando uma biblioteca de estratégias pré-treinadas, fornecendo uma solução potencial para equilibrar a eficiência computacional e o sucesso do ataque em implantações futuras.
Confira Papel de novo O projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] Melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (avançado)
Asjad é consultor estagiário na Marktechpost. Ele está cursando B.Tech em engenharia mecânica no Instituto Indiano de Tecnologia, Kharagpur. Asjad é um entusiasta do aprendizado de máquina e do aprendizado profundo que pesquisa regularmente a aplicação do aprendizado de máquina na área da saúde.