Os pesquisadores de segurança estão evitando a segurança do conteúdo do Microsoft Azure AI

Teste de estresse

Mindgard executou esses dois filtros na frente do ChatGPT 3.5 Turbo usando Azure OpenAI e, em seguida, acessou o LLM de destino com a Automated AI Red Teaming Platform da Mindgard.

Dois métodos de ataque contra filtros foram usados: injeção de caracteres (adicionando certos tipos de caracteres e padrões de texto incomuns, etc.) e evitando contradições de ML (encontrando pontos cegos dentro da classe de ML).

A injeção de caracteres reduziu a eficiência de detecção de jailbreak do Prompt Guard de 89% para 7% quando apresentado com símbolos (por exemplo, alterar a letra a para á), homóglifos (por exemplo, fechamento semelhante de letras como -0 e O), mudanças de número (“Leet speak ” ) e letras diferentes. O desempenho da moderação de texto AI também é reduzido usando técnicas semelhantes.

Source link

Teste de estresse

Você também pode gostar...

SHIB, DEGEN e CWIF deverão explodir mais de 1000% no primeiro trimestre de 2025

Traders da Polymarket não prevêem pena de prisão para FTX Ellison

Grenzen zwischen Ciberespionagem e cibercrime verschwimmen

Deixe um comentário Cancelar resposta