Uma vulnerabilidade de segurança agora corrigida no aplicativo ChatGPT da OpenAI para macOS pode ter possibilitado que invasores plantassem spyware persistente de longo prazo na memória de uma ferramenta de inteligência artificial (IA).
O método, chamado SpaIwareeles poderiam ser abusados para facilitar a “extração contínua de dados de qualquer informação digitada pelo usuário ou respostas recebidas pelo ChatGPT, incluindo quaisquer futuras sessões de bate-papo”, disse o pesquisador de segurança Johann Rehberger.
O problema, em sua essência, abusa de um recurso chamado memória, que a OpenAI introduziu no início de fevereiro antes de lançá-lo para usuários ChatGPT Free, Plus, Team e Enterprise no início deste mês.
O que ele faz é permitir que o ChatGPT se lembre de certas coisas nas conversas para poupar aos usuários o esforço de repetir as mesmas informações indefinidamente. Os usuários também têm a opção de ensinar o sistema a esquecer algo.
“As memórias do ChatGPT surgem de suas interações e não estão vinculadas a conversas específicas”, disse OpenAI. “Apagar uma conversa não apaga suas memórias; você tem que apagar a própria memória.”
O método de ataque também se baseia em descobertas anteriores que envolvem o uso de uma injeção rápida e não específica para manipular memórias para recuperar informações falsas, ou instruções maliciosas, para alcançar um tipo de forte persistência entre conversas.
“Como as instruções maliciosas são armazenadas na memória do ChatGPT, cada nova conversa futura conterá as instruções do invasor e enviará continuamente todas as mensagens de bate-papo e respostas ao invasor”, disse Rehberger.
“Portanto, a vulnerabilidade da divulgação de dados tornou-se mais perigosa, pois agora está a criar debates nos debates.”
Em um cenário hipotético de ataque, um usuário pode ser induzido a visitar um site malicioso ou baixar um documento criptografado que é então analisado usando o ChatGPT para melhorar a memória.
Um site ou documento pode conter instruções para enviar secretamente todos os bate-papos futuros para um servidor de encaminhamento controlado pelo adversário, que pode ser recuperado por um invasor do outro lado além de uma única sessão de bate-papo.
Após divulgação responsável, a OpenAI resolveu o problema com ChatGPT versão 1.2024.247 desativando o vetor de filtragem.
“Os usuários do ChatGPT devem revisar regularmente as memórias que o sistema mantém, que são suspeitas ou incorretas, e limpá-las”, disse Rehberger.
“Esta série de ataques foi interessante de montar e mostra a vulnerabilidade da memória de longo prazo sendo adicionada automaticamente ao sistema, tanto do ponto de vista falso/spoofing, mas também em termos de comunicação contínua com servidores controlados pelo invasor. “
A revelação ocorre no momento em que um grupo de acadêmicos revela um novo jailbreak de IA com o codinome MathPrompt, que usa habilidades de modelos linguísticos avançados (LLMs) em matemática simbólica para contornar suas medidas de segurança.
“O MathPrompt usa um processo de duas etapas: primeiro, ele transforma a linguagem natural maliciosa em problemas matemáticos simbólicos e, em seguida, apresenta esses prompts baseados em matemática ao LLM alvo”, disseram os pesquisadores.
O estudo, quando testado contra 13 LLMs de ponta, descobriu que os modelos responderam com resultados perigosos 73,6% das vezes, em média, quando apresentados com instruções codificadas matematicamente, em comparação com cerca de 1% com instruções perigosas não corrigidas.
Ele também segue o primeiro novo recurso de correção da Microsoft, que, como o nome sugere, permite a correção de resultados de IA quando objetos incorretos são detectados (ou seja, objetos ausentes).
“Com base em nosso recurso existente de detecção de Groundedness, esse recurso incrível permite que a segurança de conteúdo de IA do Azure identifique e corrija falsos positivos em tempo real antes que os usuários de sistemas produtivos de IA os encontrem”, disse a gigante da tecnologia.