A pesquisa sobre a resiliência dos LLMs a ataques de jailbreak concentrou-se principalmente em aplicativos de chatbot, onde os usuários trapaceiam para contornar as medidas de segurança. No entanto, os agentes LLM, que utilizam ferramentas externas e realizam operações em várias etapas, apresentam o risco de uso indevido, especialmente em situações maliciosas, como encomendar itens ilegais. A pesquisa mostra que as defesas eficazes em interações de turno único nem sempre se estendem a tarefas de vários turnos, destacando a vulnerabilidade potencial dos agentes LLM. À medida que aumenta a integração de ferramentas LLM, especialmente em domínios especializados, o risco de agentes maliciosos explorarem estes agentes para atividades maliciosas aumenta significativamente.
Os agentes baseados em LLM são mais avançados, com a capacidade de chamar tarefas e lidar com tarefas de várias etapas. No início, os agentes utilizam chamadas de tarefas simples, mas novos sistemas aumentam a complexidade dessas interações, permitindo que os modelos pensem e atuem de forma mais eficaz. Esforços recentes desenvolveram parâmetros de referência para testar a capacidade destes agentes para lidar com tarefas complexas e de várias etapas. No entanto, as preocupações de segurança do agente ainda existem, especialmente em relação ao uso indevido e ataques não intencionais. Embora alguns benchmarks avaliem vulnerabilidades específicas, ainda há necessidade de uma estrutura padronizada para medir a robustez dos agentes LLM contra uma variedade de ameaças potenciais.
Pesquisadores da Gray Swan AI e do UK AI Safety Institute lançaram um novo benchmark chamado AgentHarm, que foi projetado para testar o potencial de exploração de agentes LLM na conclusão de tarefas perigosas. AgentHarm inclui 110 atividades de agentes maliciosos (440 com extensões) em 11 categorias prejudiciais, como fraude, crime cibernético e assédio. O benchmark avalia a conformidade com o modelo de aplicativos maliciosos e a eficácia dos ataques de jailbreak, que permitem que os agentes executem ações maliciosas em várias etapas, mantendo as capacidades. Os testes iniciais mostram que a maioria dos modelos atende a solicitações perigosas sem jailbreak, destacando lacunas nas medidas de segurança atuais para agentes LLM.
O benchmark AgentHarm consiste em uma linha de base de 110 comportamentos prejudiciais, expandidos para 440 atividades em 11 categorias prejudiciais, como fraude, crime cibernético e assédio. Ele examina a capacidade dos agentes LLM de realizar operações maliciosas e cumprir a negação. Os comportamentos exigem múltiplas chamadas de função, geralmente em uma ordem específica, e usam ferramentas sintéticas para garantir a segurança. As tarefas são divididas em conjuntos de testes de validação, públicos e privados. O benchmark também inclui boas versões de operações perigosas. A pontuação é baseada em critérios predefinidos, com um juiz LLM semântico para realizar as verificações, e o conjunto de dados é otimizado para usabilidade, economia e confiabilidade.
O teste envolve testar LLMs usando vários métodos de ataque na estrutura AgentHarm. A configuração padrão usa feedback simples com um loop while e não envolve estruturas complexas para melhorar o desempenho. Chamadas forçadas de ferramentas e um modelo universal de jailbreak são testados como técnicas de ataque. Os resultados mostram que muitos modelos, incluindo GPT-4 e Claude, cumprem tarefas arriscadas, com o jailbreak reduzindo significativamente as taxas de rejeição. Os modelos geralmente mantêm suas habilidades mesmo se estiverem desbloqueados. A pesquisa de ablação destaca como diferentes métodos de informação, como a cadeia de pensamento, afetam o desempenho do modelo e a melhor amostra que melhora o sucesso do ataque.
Concluindo, o estudo destaca diversas limitações, incluindo o uso exclusivo de informações em inglês, a ausência de ataques repetidos e possíveis erros de classificação quando os modelos solicitam mais informações. Além disso, as ferramentas personalizadas usavam flexibilidade limitada com estruturas de terceiros, e o benchmark focava em recursos autônomos básicos, e não avançados. O benchmark AgentHarm proposto visa testar a robustez dos agentes LLM contra ataques de jailbreak. Inclui 110 funções maliciosas em 11 categorias prejudiciais, avaliando as taxas de rejeição e o desempenho do modelo após um ataque. Os resultados mostram que os principais modelos são vulneráveis a jailbreaks, o que lhes permite realizar operações arriscadas em várias etapas, mantendo suas capacidades principais.
Confira Artigos de novo Conjuntos de dados em HF. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.