JailbreakBench: um benchmark de código aberto para jailbreak de grandes modelos de linguagem (LLMs)
Inteligência artificial

JailbreakBench: um benchmark de código aberto para jailbreak de grandes modelos de linguagem (LLMs)


Large Language Models (LLMs) são vulneráveis ​​a ataques de jailbreak, que podem criar informações ofensivas, imorais ou inadequadas. Ao explorar as falhas do LLM, esses ataques vão além das medidas de segurança destinadas a impedir a exposição de resultados maliciosos ou maliciosos. O teste de ataque de jailbreak é um processo muito difícil, e as medições e métodos de teste existentes não podem resolver totalmente essa dificuldade.

A ausência de um método padronizado para testar ataques de jailbreak é um dos principais problemas. Medir o impacto destes ataques ou determinar a sua taxa de sucesso não possui um método amplamente reconhecido. Por causa disso, os pesquisadores usam métodos diferentes, levando a diferenças no cálculo das taxas de sucesso, custos de ataque e eficiência geral. Esta diversidade torna difícil comparar diferentes cursos ou determinar a verdadeira magnitude do risco dentro dos LLMs.

Em um estudo recente, uma equipe de pesquisadores da Universidade da Pensilvânia, ETH Zurich, EPFL e Sony AI desenvolveu um benchmark de código aberto chamado JailbreakBench para testar tentativas e defesas de jailbreak. O objetivo do JailbreakBench é fornecer um paradigma completo, escalável e repetível para testes de segurança de LLMs. Existem quatro partes principais, que são as seguintes.

  1. Coleção de prompts adversários: o JailbreakBench possui uma coleção atualizada regularmente de prompts adversários, às vezes conhecidos como artefatos de jailbreak. As principais ferramentas utilizadas em ataques de jailbreak são estes comandos.
  1. Conjunto de dados de jailbreak: o benchmark usa uma coleção de 100 comportamentos exclusivos que são totalmente novos ou derivados de pesquisas anteriores. Estas ações cumprem os termos de utilização da OpenAI para garantir que a análise é razoável e não incentiva a criação de conteúdos nocivos fora do quadro de investigação.
  1. Estrutura de teste padrão: JailbreakBench fornece um repositório GitHub com uma estrutura de teste bem definida. Esta estrutura contém funções de pontuação, informações do sistema, modelos de discussão e um modelo de ameaça bem definido. Ao configurar esses componentes, o JailbreakBench facilita testes consistentes e comparáveis ​​em vários modelos, ataques e defesas.
  1. Tabela de classificação: O JailbreakBench possui uma tabela de classificação acessível por meio de seu site oficial em um esforço para incentivar a competição e aumentar a visibilidade na comunidade de pesquisa. Os pesquisadores podem determinar quais modelos são mais vulneráveis ​​a ataques e quais defesas funcionam melhor usando este painel de avaliação, que mede a eficácia de vários esforços de jailbreak e defesa em diferentes LLMs.

A ética de criar tal comunidade de benchmarking foi bem pensada pelos desenvolvedores do JailbreakBench. Embora exista sempre a possibilidade de a divulgação de contra-indicações e técnicas de rastreio serem mal utilizadas, os investigadores partilharam que os benefícios globais superam estes riscos.

JailbreakBench é um método de código aberto, transparente e repetível que ajudará a comunidade de pesquisa a criar defesas mais fortes e a obter uma compreensão mais profunda das vulnerabilidades do LLM. O objetivo principal é desenvolver modelos de linguagem que sejam mais confiáveis ​​e seguros, especialmente quando usados ​​em áreas leves ou de alto nível.

Concluindo, o JailbreakBench é uma ferramenta útil para resolver os problemas envolvidos no teste de ataques de jailbreak em LLMs. Procura promover o progresso na proteção dos LLMs contra a manipulação adversária, padronizando procedimentos de avaliação, proporcionando acesso irrestrito aos esforços adversários e incentivando a replicação. Este benchmark representa uma grande melhoria na confiabilidade e segurança dos modelos linguísticos quando se consideram os riscos de segurança.


Confira Papel de novo Referência. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

Convidamos startups, empresas e institutos de pesquisa que trabalham em modelos de microlinguagem para participar deste próximo projeto Revista/Relatório 'Modelos de Linguagem Pequena' Marketchpost.com. Esta revista/relatório será lançada no final de outubro/início de novembro de 2024. Clique aqui para agendar uma chamada!


Tanya Malhotra está em seu último ano na Universidade de Estudos de Petróleo e Energia, Dehradun, cursando BTech em Engenharia de Ciência da Computação com especialização em Inteligência Artificial e Aprendizado de Máquina.
Ele é um entusiasta de Data Science com forte pensamento analítico e analítico, e grande interesse em adquirir novas habilidades, liderar equipes e gerenciar o trabalho de forma organizada.





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *