Os modelos de aprendizagem profunda são usados em muitas áreas, desde diagnósticos de saúde até previsões financeiras. No entanto, esses modelos são tão poderosos que exigem o uso de poderosos servidores baseados em nuvem.
Esta dependência da computação em nuvem representa riscos de segurança significativos, especialmente em áreas como a saúde, onde os hospitais hesitam em utilizar ferramentas de IA para analisar dados privados de pacientes devido a preocupações com a privacidade.
Para resolver esta questão premente, os investigadores do MIT desenvolveram um protocolo de segurança que utiliza as propriedades quânticas da luz para garantir que os dados enviados de ou para um servidor em nuvem permaneçam seguros durante os cálculos de aprendizagem profunda.
Ao incorporar dados na luz laser usada em sistemas de comunicação de fibra óptica, o protocolo utiliza os princípios básicos da mecânica quântica, impossibilitando que invasores copiem ou bloqueiem informações sem detecção.
Além disso, o processo garante segurança sem comprometer a precisão dos modelos de aprendizagem profunda. Nos testes, o pesquisador mostrou que seu protocolo pode manter 96% de precisão, garantindo ao mesmo tempo medidas de segurança rigorosas.
“Modelos de aprendizagem profunda como o GPT-4 têm capacidades sem precedentes, mas requerem enormes recursos de integração. Nosso protocolo permite que os usuários usem esses modelos poderosos sem comprometer a privacidade de seus dados ou a natureza proprietária dos próprios modelos”, disse Kfir Sulimany, pós-doutorado do MIT no Laboratório de Pesquisa em Eletrônica (RLE) e principal autor do artigo sobre esta segurança. protocolo.
Sulimany foi coautor do artigo com Sri Krishna Vadlamani, pós-doutorado do MIT; Ryan Hamerly, ex-pós-doutorado agora na NTT Research, Inc.; Prahlad Iyengar, estudante de engenharia elétrica e ciência da computação (EECS); e o autor sênior Dirk Englund, professor do EECS, investigador principal do Grupo de Fotônica Quântica e Inteligência Artificial e RLE. A pesquisa foi recentemente apresentada na Conferência Anual sobre Criptografia Quântica.
Uma via de mão dupla para proteção no aprendizado profundo
O ambiente de computação baseado em nuvem no qual os pesquisadores se concentraram envolve duas partes – um cliente com dados confidenciais, como imagens médicas, e um servidor central que controla o modelo de aprendizagem profunda.
Um cliente deseja usar um modelo de aprendizagem profunda para fazer uma previsão, como se um paciente tem câncer com base em imagens médicas, sem revelar informações sobre o paciente.
Neste caso, dados sensíveis devem ser enviados para fazer uma previsão. No entanto, durante o processo, os dados do paciente devem permanecer seguros.
Além disso, o servidor não quer expor nenhuma parte do modelo proprietário que uma empresa como a OpenAI gastou anos e milhões de dólares construindo.
“Ambos os grupos querem esconder alguma coisa”, acrescentou Vadlamani.
Na computação digital, um malfeitor pode facilmente copiar dados enviados de um servidor ou cliente.
A informação quântica, por outro lado, não pode ser totalmente copiada. Os pesquisadores utilizaram essa propriedade, chamada de princípio da não interferência, em seu protocolo de segurança.
No protocolo dos pesquisadores, um servidor escreve os pesos de uma rede neural profunda em um campo óptico usando luz laser.
Uma rede neural é um modelo de aprendizado profundo que consiste em camadas de nós interconectados, ou neurônios, que realizam cálculos em dados. Os pesos são componentes do modelo que realizam operações estatísticas em cada entrada, uma camada por vez. A saída de uma camada é alimentada para a próxima camada até que a camada final produza uma previsão.
O servidor encaminha os pesos da rede para o cliente, que utiliza funções para obter o resultado com base em seus dados privados. Os dados permanecem protegidos no servidor.
Ao mesmo tempo, o protocolo de segurança permite ao cliente pesar apenas um resultado e evita que o cliente copie pesos devido à natureza quântica da luz.
Depois que o cliente alimenta a próxima camada com o primeiro resultado, o protocolo é projetado para cancelar a primeira camada para que o cliente não possa aprender mais nada sobre o modelo.
“Em vez de medir toda a luz que chega do servidor, o cliente mede apenas a luz necessária para executar a rede neural profunda e fornecer o resultado para a próxima camada. Em seguida, o cliente envia o restante da luz de volta ao servidor para verificações de segurança”, explicou Sulimany.
Devido ao teorema da não clonagem, o cliente inevitavelmente utiliza pequenos erros no modelo ao medir sua saída. Quando o servidor recebe luz residual do cliente, o servidor pode medir esses erros para determinar se alguma informação vazou. É importante ressaltar que está comprovado que essa luz residual não expõe os dados do cliente.
Protocolo ativo
Os equipamentos de comunicação modernos geralmente dependem de fibras ópticas para transmitir informações devido à necessidade de suportar alta largura de banda em longas distâncias. Como este dispositivo já inclui lasers de luz, os pesquisadores podem colocar dados em luz em seu protocolo de segurança sem nenhum hardware especial.
Ao testar seu método, os pesquisadores descobriram que ele poderia garantir a segurança do servidor e do cliente, ao mesmo tempo que permitia que a rede neural profunda atingisse 96% de precisão.
As informações mínimas sobre o modelo vazado quando o cliente executa as operações são menos de 10% do que um adversário precisaria para recuperar qualquer informação oculta. Trabalhando por outro lado, um servidor mal-intencionado só pode obter cerca de 1% das informações necessárias para roubar dados do cliente.
“Você pode ter certeza de que é seguro nos dois sentidos – de cliente para servidor e de servidor para cliente”, disse Sulimany.
“Há alguns anos, quando estávamos construindo nossa demonstração de aprendizado de máquina distribuído entre o campus principal do MIT e o Laboratório Lincoln do MIT, ocorreu-me que poderíamos fazer algo completamente novo para fornecer segurança física, com base em anos de trabalho em criptografia quântica. isso também foi mostrado naquele banco de testes”, disse Englund. “No entanto, houve muitos desafios teóricos sérios que tiveram que ser superados para ver se essa esperança de aprendizado de máquina distribuído com privacidade garantida poderia ser concretizada. Isso não aconteceu até que Kfir se juntou à nossa equipe, pois Kfir tem uma compreensão única dos componentes experimentais e teóricos para criar uma estrutura integrada que apoie este trabalho.”
No futuro, os pesquisadores querem aprender como esse protocolo pode ser usado em uma abordagem chamada aprendizado conjunto, onde várias equipes usam seus dados para treinar um modelo centralizado de aprendizado profundo. Também poderia ser utilizado em operações quânticas, substituindo as funções clássicas que estudaram para esta tarefa, o que poderia oferecer vantagens tanto em precisão quanto em segurança.
“Este trabalho reúne de uma forma inteligente e estimulante técnicas que se baseiam em campos que não são encontrados com frequência, em particular, aprendizagem profunda e distribuição quântica de chaves. Ao utilizar métodos deste último, acrescenta uma camada de segurança ao primeiro, ao mesmo tempo que permite o que parece ser uma utilização prática. Isto pode ser interessante para manter a privacidade em arquiteturas distribuídas. Estou ansioso para ver como o protocolo se comporta sob imperfeições experimentais e sua realização prática”, disse Eleni Diamanti, diretora de pesquisa do CNRS na Universidade Sorbonne, em Paris, que não esteve envolvida no projeto.
Este trabalho foi apoiado, em parte, pelo Conselho de Educação Superior de Israel e pelo Programa de Liderança Zuckerman STEM.