À medida que a escala dos dados continua a crescer, a necessidade de técnicas eficientes de resumo de dados tornou-se mais importante. A sumarização de dados envolve a compilação de um subconjunto de conjuntos de dados que retém informações importantes do conjunto de dados original, reduzindo assim os custos computacionais e de armazenamento sem sacrificar o desempenho do modelo. No entanto, as preocupações com a privacidade também surgiram como um grande desafio na abstração de dados. Embora vários métodos tenham sido propostos para preservar a privacidade durante a compressão de dados, a proteção da privacidade ainda precisa ser melhorada.
Os métodos atuais de compactação para conjuntos de dados que preservam a privacidade geralmente adicionam ruído contínuo aos gradientes usando parâmetros de privacidade fixos. Este método pode introduzir ruído excessivo, reduzindo a precisão do modelo, especialmente para conjuntos de dados coloridos com pequenos valores de anexo.
As técnicas existentes carecem de técnicas de parâmetros dinâmicos que ajustem dinamicamente os níveis de ruído com base no corte de gradiente e nas medições de sensibilidade. Também há necessidade de mais pesquisas sobre como diferentes hiperparâmetros afetam a usabilidade e a qualidade visual.
Neste contexto, um novo artigo foi publicado recentemente na revista Neurocomputing para abordar essas limitações, propondo Dyn-PSG (Dynamic Differential Privacy-based Dataset Condensation), um novo método que utiliza limites de corte dinâmicos e medidas de sensibilidade para reduzir o ruído. garantindo ao mesmo tempo a diferenciação. garantias de privacidade. O método proposto visa melhorar a precisão em comparação com os métodos existentes, ao mesmo tempo que segue o mesmo orçamento de privacidade e utiliza certos limites de corte.
Especificamente, em vez de utilizar uma rotina de corte fixa, o Dyn-PSG reduz gradualmente o limiar de corte ao longo dos ciclos de treino, reduzindo o ruído adicionado nas fases posteriores do treino. Além disso, adapta as medidas de sensibilidade com base na magnitude média de 𝑙2 observada no gradiente de cada amostra, garantindo que ruído excessivo não seja injetado quando necessário. Ao injetar ruído com base no grande tamanho do gradiente após o corte, o Dyn-PSG introduz um pequeno aumento no ruído, reduzindo a perda de precisão e a instabilidade dos parâmetros causada pela injeção de grande ruído. Este método dinâmico baseado em parâmetros melhora a usabilidade e a qualidade visual em comparação com os métodos existentes, ao mesmo tempo que adere a fortes garantias de privacidade.
As etapas envolvidas no Dyn-PSG são as seguintes:
1. Limite de recorte dinâmico: em vez de usar um limite de recorte fixo, o Dyn-PSG ajusta dinamicamente o limite de recorte durante o treinamento. Isso significa que nas fases posteriores do treinamento são utilizados limites de corte menores, resultando em cortes de gradiente mais agressivos e redução de ruído adicionado aos gradientes.
2. Sensibilidade Dinâmica: Para reduzir ainda mais o impacto do ruído, o Dyn-PSG adapta as estimativas de sensibilidade com base na magnitude média de 𝑙2 observada no gradiente de cada instância de cada lote. Isso garante que ruído excessivo não seja adicionado aos gradientes quando desnecessário.
3. Injeção de ruído: Dyn-PSG injeta ruído em gradientes com base no tamanho máximo do gradiente após o recorte, em vez de adição de ruído aleatório. A perda de precisão e instabilidade dos parâmetros causada pela injeção excessiva de ruído é minimizada pela introdução de apenas pequenos incrementos de ruído.
Para testar o método proposto, a equipe de pesquisa conduziu experimentos extensos usando vários conjuntos de dados de referência, incluindo MNIST, FashionMNIST, SVHN e CIFAR10, cobrindo uma gama de tarefas de classificação de imagens de complexidade e resolução variadas.
O experimento usou vários modelos de arquitetura, com o ConvNet incluindo três blocos como padrão. Cada bloco inclui uma camada convolucional com 128 filtros, seguida por normalização de instância, ativação de ReLU e pooling médio, com uma camada totalmente conectada (FC) como saída final. A avaliação concentra-se em métricas de precisão e qualidade visual de conjuntos de dados agregados em diferentes arquiteturas. Os resultados mostraram que o Dyn-PSG superou os métodos existentes em termos de precisão, mantendo as garantias de privacidade.
No geral, esta avaliação abrangente mostrou que o Dyn-PSG é um método viável de resumo de dados com diferentes considerações de privacidade.
Concluindo, Dyn-PSG oferece uma solução flexível para resumo de conjuntos de dados que preservam a privacidade, reduzindo o ruído durante o treinamento e mantendo fortes garantias de privacidade. O ajuste dinâmico dos limites de corte de gradiente e das medidas de sensibilidade alcança melhor precisão do que os métodos existentes. Experimentos em vários conjuntos de dados e arquiteturas mostram que o Dyn-PSG equilibra com sucesso o uso e a privacidade dos dados, tornando-o o melhor método para um resumo eficiente dos dados.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)
Mahmoud é pesquisador PhD em aprendizado de máquina. Ele também detém um
bacharelado em ciências físicas e mestrado em
comunicações e sistemas de comunicação. Suas localizações atuais de
pesquisa trata de visão computacional, previsão do mercado de ações e profundidade
leitura. Produziu diversos artigos científicos sobre regeneração humana.
identificação e estudo de estabilidade e estabilidade em profundidade
redes.
⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)