A Descida Gradiente Estocástica Diferencialmente Privada (DP-SGD) é uma técnica importante para treinar modelos de aprendizado de máquina, como redes neurais, garantindo ao mesmo tempo a privacidade. Ele modifica o processo de descida de gradiente padrão, dividindo os gradientes individuais em uma tendência constante e adicionando ruído aos gradientes combinados de cada subconjunto. Essa abordagem permite a privacidade, evitando que informações confidenciais dos dados sejam reveladas durante o treinamento. O DP-SGD tem sido amplamente adotado em diversas aplicações, incluindo reconhecimento de imagens, modelagem generativa, processamento de linguagem e imagens médicas. As garantias de privacidade dependem dos níveis de ruído, do tamanho do conjunto de dados, do tamanho dos clusters e do número de iterações de treinamento.
Os dados são normalmente embaralhados globalmente e depois divididos em subconjuntos de tamanho fixo para treinar modelos usando DP-SGD. No entanto, isso difere dos métodos teóricos que criam minilotes com probabilidade, resultando em tamanhos diferentes. Esta diferença prática apresenta riscos subtis à privacidade, uma vez que algumas informações sobre os registos de dados podem vazar durante a recolha. Apesar destes desafios, o clustering baseado em shova continua a ser um método comum devido à sua eficiência e compatibilidade com pipelines de aprendizagem profunda, enfatizando o equilíbrio entre privacidade e desempenho.
Pesquisadores do Google Research examinam as implicações de privacidade de diferentes métodos de amostragem por conglomerados no DP-SGD. Suas descobertas revelam diferenças significativas entre a amostragem aleatória e de Poisson. O embaralhamento, que é frequentemente usado na prática, apresenta desafios na análise de privacidade, enquanto a subamostragem de Poisson fornece uma contabilidade mais precisa, mas menos invasiva. A pesquisa mostra que o uso de métricas de privacidade baseadas em Poisson para combinar o uso pode subestimar a perda de privacidade. Isto destaca o importante impacto da amostragem em massa nas garantias de privacidade, incentiva a cautela na comunicação dos parâmetros de privacidade e enfatiza a necessidade de uma análise precisa na implementação do DP-SGD.
Os métodos de Privacidade Diferencial (DP) para mapear um conjunto de dados para distribuição em um ambiente de saída também garantem a privacidade, limitando a possibilidade de identificar alterações em registros individuais. Os conjuntos de dados adjacentes diferem por um único registro formal, como adicionar-remover, substituir ou adjacência sem saída. O método Adaptive Batch Linear Queries (ABLQ) usa amostragem em lote e um método de consulta dinâmica para aproximar dados com ruído gaussiano para privacidade. As duas distribuições de probabilidade dominantes que representam a perda de privacidade no pior caso simplificam a análise DP dos métodos ABLQ. Nas amostras determinísticas (D) e Poisson (P), são estabelecidas amostras estritamente dominantes, enquanto as amostras shova (S) predizem os pares dominantes, permitindo uma comparação justa de privacidade.
Uma comparação da perda de privacidade entre diferentes métodos mostra que o ABLQS oferece garantias de privacidade mais fortes do que o ABLQD, uma vez que o embaralhamento não degradará a privacidade. ABLQD e ABLQP apresentam perdas de secreção incomparáveis, com ABLQD tendo a maior perda para ε pequeno, enquanto a perda de ABLQP excede a do ABLQD para ε maior. Essa diferença decorre da diferença na variância total das notas e na composição do conjunto. O ABLQP fornece proteção de privacidade mais forte do que o ABLQS, especialmente para ε pequenos, porque o ABLQS é mais sensível a registros não distintos. Ao mesmo tempo, o ABLQP não depende de tais registros, resultando em privacidade consistente.
Concluindo, o trabalho destaca lacunas importantes na análise de privacidade de métodos de consulta linear de cluster, especialmente sob subamostras determinísticas, Poisson e shova. Embora o embaralhamento melhore a privacidade em relação à amostragem finita, a amostragem de Poisson pode levar a piores garantias de privacidade com largura ε. Este estudo também revela que a amplificação da amostragem aleatória de lotes é limitada em comparação com a amostragem de Poisson. O trabalho futuro inclui o desenvolvimento de métodos robustos de computação de privacidade para amostragem por conglomerados, estendendo a análise a múltiplas instâncias e explorando outros métodos de aumento de privacidade, como DP-FTRL. A análise complexa de privacidade também é necessária para carregadores de dados do mundo real e modelos não convexos.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
🎙️ 🚨 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de técnicas de clustering vermelho' Leia o relatório completo (Promovido)
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)