À medida que o uso de modelos linguísticos de grande escala (LLMs) se torna mais difundido em todas as aplicações do mundo real, a preocupação com a sua vulnerabilidade cresce proporcionalmente. Apesar das suas capacidades, os LLMs ainda são vulneráveis a ataques adversários, incluindo aqueles que geram conteúdo tóxico, revelam informações confidenciais ou permitem injeção rápida. Esta vulnerabilidade levanta importantes preocupações éticas sobre preconceitos, desinformação, potenciais violações de privacidade e abuso do sistema. A necessidade de uma estratégia eficaz para abordar estas questões é crítica. Tradicionalmente, o red teaming – um processo que envolve testes de estresse de sistemas de IA simulando um ataque – tem sido eficaz na detecção de vulnerabilidades. No entanto, os métodos anteriores de agrupamento vermelho automatizado muitas vezes tiveram dificuldade em quantificar a diversidade gerada e a sua eficácia, limitando a robustez dos modelos.
Para enfrentar esses desafios, os pesquisadores da OpenAI propõem uma abordagem automatizada de colaboração vermelha que combina diversidade e eficácia nos ataques gerados. Isto é conseguido decompondo o processo de fusão vermelha em duas etapas separadas. A primeira etapa envolve a geração de metas para vários atacantes, enquanto a segunda etapa treina um atacante de aprendizagem por reforço (RL) para atingir essas metas com sucesso. O método proposto utiliza aprendizagem por reforço em várias etapas (RL em várias etapas) e geração automática de recompensa. Essa abordagem envolve o uso de modelos linguísticos em larga escala para gerar os objetivos do invasor e o uso de recompensas baseadas em regras (RBRs) e medidas variáveis personalizadas para orientar o treinamento de RL. Ao recompensar o atacante baseado em RL por ser eficiente e diferente de suas tentativas anteriores, o método garante maior diversidade e eficácia do ataque.
Detalhes técnicos
A equipe de pesquisa descreve a decomposição do sistema de grupo vermelho em geração de gols e ataques de treinamento como uma forma de simplificar o processo e, ao mesmo tempo, alcançar resultados sólidos. Para gerar os termos, os autores usam algumas entradas para o modelo de linguagem e conjuntos de dados existentes de ataques anteriores. Esses princípios servem como uma base diferente, dando ao invasor baseado em RL instruções específicas, mas variadas, para preparação. O núcleo do treinamento de atacantes baseado em RL usa uma função de recompensa direcionada baseada em uma regra para cada instância, para garantir que cada ataque corresponda a um objetivo específico do adversário. Além disso, para evitar que o invasor de RL convirja para estratégias de ataque semelhantes, é utilizada uma recompensa de diversidade com foco nas diferenças estilísticas nas informações geradas. O RL em várias etapas permite que o invasor multiplique seus ataques e seja recompensado por gerar com sucesso novos e variados tipos de ataques – resultando em um sistema de equipe vermelha mais abrangente. Este processo ajuda a identificar os riscos do modelo, garantindo ao mesmo tempo que as variações nos contraexemplos refletem de perto aquelas que seriam encontradas em situações do mundo real.
A importância desta abordagem à utilização da equipa vermelha reside na sua capacidade de abordar tanto a eficácia como a diversidade de ataques, dois dos quais têm sido desafios de longa data na geração de inimigos automatizados. Ao utilizar RL em várias etapas e recompensas automáticas, o método permite que os ataques gerados sejam variados e consistentes. Os autores demonstraram seu método em duas aplicações importantes: ataques de injeção rápida e ataques de “jailbreak” que encontram respostas inseguras. Em ambos os casos, o invasor baseado em RL de várias etapas mostrou melhor desempenho e diversidade de ataque em comparação com os métodos anteriores. Especificamente, a injeção indireta de informações, que pode induzir o modelo a produzir comportamento não intencional, alcançou uma alta taxa de sucesso de ataque e tinha um estilo muito diferente em comparação aos métodos de notificação de disparo único. No geral, o método proposto foi capaz de gerar ataques com uma taxa de sucesso de ataque de até 50%, ao mesmo tempo que obteve métricas de diversidade muito maiores do que os métodos anteriores. Esta combinação de automação de geração de recompensas e aprendizagem por reforço fornece uma maneira sofisticada de testar a robustez do modelo e, em última análise, melhorar a defesa do LLM contra ameaças do mundo real.
A conclusão
A abordagem proposta do grupo vermelho fornece orientação para a avaliação automática de adversários para LLMs, abordando limitações anteriores, incluindo o compromisso entre diversidade e eficácia do ataque. Ao utilizar a geração automática de metas e o RL em várias etapas, esta abordagem permite uma avaliação detalhada dos riscos inerentes aos LLMs, ajudando, em última análise, a criar modelos mais seguros e robustos. Embora os resultados apresentados sejam promissores, ainda existem limitações e áreas para futuras pesquisas, especialmente no refinamento de recompensas automáticas e na melhoria da estabilidade do treinamento. No entanto, a combinação de RL com recompensas baseadas em regras e treino orientado para a diversidade marca um passo importante na avaliação dos adversários, fornecendo um modelo que pode responder melhor à natureza mutável dos ataques.
Confira Papel aqui. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'