Os pesquisadores de segurança estão evitando a segurança do conteúdo do Microsoft Azure AI
Cibersegurança

Os pesquisadores de segurança estão evitando a segurança do conteúdo do Microsoft Azure AI

Teste de estresse

Mindgard executou esses dois filtros na frente do ChatGPT 3.5 Turbo usando Azure OpenAI e, em seguida, acessou o LLM de destino com a Automated AI Red Teaming Platform da Mindgard.

Dois métodos de ataque contra filtros foram usados: injeção de caracteres (adicionando certos tipos de caracteres e padrões de texto incomuns, etc.) e evitando contradições de ML (encontrando pontos cegos dentro da classe de ML).

A injeção de caracteres reduziu a eficiência de detecção de jailbreak do Prompt Guard de 89% para 7% quando apresentado com símbolos (por exemplo, alterar a letra a para á), homóglifos (por exemplo, fechamento semelhante de letras como -0 e O), mudanças de número (“Leet speak ” ) e letras diferentes. O desempenho da moderação de texto AI também é reduzido usando técnicas semelhantes.



Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *