Nova pesquisa do Google DeepMind revela novo tipo de vulnerabilidade que pode recompensar as informações dos usuários no modelo MoE

A abordagem regulatória dos modelos do MoE levanta um grande desafio de privacidade. Otimize o desempenho do modelo de macrolinguagem LLM selecionando apenas uma pequena parte do total de parâmetros disponíveis e, ao mesmo tempo, simplificando a extração de dados conflitantes por meio de interações dependentes de caminho. Esta vulnerabilidade, que aparentemente existe com o mecanismo ECR, poderia permitir que um invasor extraísse a entrada do usuário, colocando suas consultas elaboradas na mesma pilha de processamento da entrada de destino. O MoE Tiebreak Leakage Attack utiliza essas arquiteturas, revelando uma falha profunda no design de privacidade, que deve ser abordada quando tais modelos MoE são frequentemente usados para aplicações em tempo real que exigem eficiência e segurança no uso de dados.

Os modelos atuais do MoE usam métodos de seleção de gateway e token para melhorar a eficiência, distribuindo o processamento entre vários “especialistas”, reduzindo assim a demanda computacional em comparação com LLMs densos. Contudo, tal ativação seletiva introduz um risco porque suas decisões de roteamento dependentes de lote tornam os modelos vulneráveis ao vazamento de informações. Um grande problema com estratégias de roteamento é que elas tratam os tokens de forma arbitrária, falhando em garantir a independência entre os clusters. Essa dependência de pilha permite que os adversários explorem a lógica de roteamento, obtenham acesso a entradas privadas e exponham uma falha de segurança fundamental em modelos otimizados para eficiência computacional sem o custo da privacidade.

Os pesquisadores do Google DeepMind abordam esses riscos com o MoE Tiebreak Leakage Attack, uma técnica sistemática que manipula o comportamento de roteamento do MoE para obter informações do usuário. Este método de ataque inclui uma entrada projetada correspondente às informações da vítima que utiliza o comportamento determinado do modelo de acordo com o término do vínculo, onde é observada uma mudança visível na saída quando o palpite está correto, causando o vazamento dos tokens rapidamente. Três partes principais compõem este processo de ataque: (1) especulação de tokens, onde o invasor procura tokens instantâneos; (2) manipulação profissional de buffer, onde uma sequência de preenchimento é usada para controlar o comportamento de roteamento; e (3) encontrar uma linha de regressão para testar a precisão da previsão a partir da variação da variável de saída em diferentes ordens. Isto apresenta um vetor de canal lateral anteriormente inexplorado para arquiteturas MoE e requer considerações orientadas para a privacidade durante o desenvolvimento do modelo.

O MoE Tiebreak Leakage Attack é testado em um modelo Mixtral de oito especialistas com roteamento baseado em ECR, usando uma implementação PyTorch CUDA de alto desempenho. O processo reduz o conjunto de palavras e a sequência de blocos de elaboração de uma forma que afeta as habilidades profissionais sem tornar o percurso imprevisível. Algumas das medidas técnicas mais importantes são as seguintes:

Teste e verificação de token: usou um método iterativo de adivinhação de token, onde a suposição do invasor corresponde às informações do invasor, vendo a diferença na rota, que mostra a suposição correta.
Controle de capacidade especializada: os pesquisadores usaram preenchimento sequencial para controlar a capacidade de buffer especializada. Isso é feito para que determinados tokens sejam entregues aos especialistas pretendidos.
Análise de roteamento e mapeamento de saída: usando um modelo local que compara a saída de dois clusters configurados arbitrariamente, os caminhos de roteamento são identificados pelo comportamento dos tokens expressos em todas as entradas da sonda para garantir que a extração seja bem-sucedida.

Experimentos foram realizados em mensagens de diferentes comprimentos e configurações de token com a mais alta precisão na recuperação de token e uma abordagem escalável para detectar riscos de privacidade no gerenciamento de estruturas dependentes.

O MoE Tiebreak Leakage Attack foi surpreendentemente bem-sucedido: encontrou 4.833 de 4.838 tokens, com uma taxa de precisão superior a 99,9%. Os resultados foram consistentes em todas as configurações, com preenchimento estratégico e controles de roteamento precisos que ajudaram a fornecer uma velocidade quase perfeita. Usando consultas de modelos espaciais em múltiplas interações, o ataque maximiza a eficiência sem depender muito de consultas de modelos alvo para melhorar significativamente o desempenho dos aplicativos no mundo real e estabelecer a escalabilidade das configurações e definições do MoE.

Este trabalho identifica uma vulnerabilidade chave de privacidade entre os modelos MoE, explorando o poder do roteamento dependente de lote em uma arquitetura baseada em ECR para explorar dados adversários. A recuperação sistemática de informações confidenciais do usuário por meio de determinado comportamento de roteamento habilitado pelo MoE Tiebreak Leakage Attack demonstra a necessidade de um design seguro nos protocolos de roteamento. O futuro desenvolvimento do modelo deverá ter em conta potenciais riscos de privacidade, tais como os que podem ser introduzidos aleatoriamente ou através da imposição da independência dos lotes na rota, a fim de mitigar esses riscos. Este trabalho enfatiza a importância de incorporar a avaliação de segurança nas decisões arquitetônicas para modelos MoE, especialmente quando as aplicações do mundo real dependem fortemente de LLMs para lidar com informações confidenciais.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Sponsorship Opportunity with us] Promova sua pesquisa/produto/webinar para mais de 1 milhão de leitores mensais e mais de 500 mil membros da comunidade

Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Nvidia AI lança silenciosamente o Nemotron 70B: esmaga o GPT-4 da OpenAI em vários benchmarks

33 principais conjuntos de dados de PNL para melhorar seus projetos de aprendizado de máquina

O que é Processamento de Linguagem Natural (PNL)? Benefícios, Desafios, Exemplos!

Deixe um comentário Cancelar resposta