A recuperação de texto incorporado com base na incorporação tornou-se a base do papel do texto na resposta a perguntas. Sistemas que usam modelos de aprendizagem profunda para incorporar texto em espaços vetoriais que permitem medições de similaridade semântica. Essa abordagem tem sido amplamente adotada em aplicações como mecanismos de busca e geração aumentada de recuperação (RAG), onde a recuperação de informações precisas e relevantes é importante. Esses sistemas combinam efetivamente perguntas com conteúdo apropriado, criando representações aprendidas, impulsionando avanços significativos em domínios de uso intensivo de conhecimento.
Contudo, um grande desafio dos programas de recuperação baseados na concentração é a sua suscetibilidade a abusos por parte dos adversários. A razão é que estes programas são geralmente construídos em empresas públicas, que não estão protegidas contra conteúdos censuráveis. Atores maliciosos podem inserir passagens elaboradas no corpus de uma forma que afete a classificação do sistema de recuperação para priorizar entradas conflitantes em detrimento de consultas de conteúdo. Isto pode ameaçar a integridade dos resultados da pesquisa através da divulgação de informações imprecisas ou da apresentação de conteúdos tendenciosos, comprometendo a fiabilidade dos sistemas de informação.
Abordagens anteriores para combater ataques adversários usaram técnicas simples de envenenamento, como incorporar consultas alvo com texto repetitivo ou incorporar informações enganosas. Embora esses métodos possam quebrar sistemas de consulta única, eles geralmente não funcionam em modelos complexos que lidam com distribuições de múltiplas consultas. As defesas existentes também não abordam as principais vulnerabilidades nos sistemas de recuperação integrados, deixando os sistemas abertos a ataques mais sofisticados e sutis.
Pesquisadores da Universidade de Tel Aviv introduziram um método de otimização baseado em matemática chamado GASLITE para gerar versos argumentativos. GASLITE funciona melhor que os métodos anteriores porque se concentra precisamente na incorporação do modelo de recuperação em vez de modificar o conteúdo do texto. Alinha-se com a distribuição de consultas específicas, o que faz com que o conteúdo do conteúdo ganhe maior visibilidade nos resultados da pesquisa. Portanto, isso o torna uma ferramenta poderosa para avaliar vulnerabilidades em sistemas embarcados.
O método GASLITE baseia-se em princípios estatísticos rigorosos e métodos de otimização inovadores. Crie passagens adversárias a partir de primers selecionados pelo invasor combinados com gatilhos avançados projetados para maximizar a consistência e a distribuição de consultas direcionadas. A otimização assume a forma de cálculos de gradiente no espaço de incorporação para encontrar a substituição correta do token. Ao contrário dos métodos anteriores, o GASLITE não programa um corpus ou modelo, mas concentra-se na geração de texto que pode ser processado por um algoritmo de recuperação em nível de sistema. Este design o torna furtivo e eficiente; Passagens opostas podem se encontrar diretamente no corpus sem serem visíveis através das defesas normais.
Os autores testaram o GASLITE com nove modelos de recuperação de alto nível sob diversas condições de ameaça. Este método supera consistentemente os métodos básicos, alcançando uma impressionante taxa de sucesso de 61-100% ao colocar versículos conflitantes entre os 10 principais resultados de uma consulta de conceito específico. Esses resultados foram alcançados com toxicidade mínima do corpus, com passagens conflitantes cobrindo apenas 0,0001% do conjunto de dados. Por exemplo, o GASLITE apresentou um desempenho entre os 10 melhores entre todos os modelos de recuperação ao direcionar consultas específicas de conceitos, demonstrando sua precisão e eficiência. Em um ataque de consulta única, o método sempre coloca o conteúdo do argumento como uma pontuação alta, o que funciona bem mesmo sob condições estritas.
Uma análise mais aprofundada dos fatores que contribuíram para o sucesso do GASLITE mostrou que a geometria do espaço de incorporação e as métricas de similaridade determinaram significativamente a tendência do modelo. Os modelos que usam medidas de similaridade de produtos escalares eram particularmente vulneráveis porque o método GASLITE usava esses fatores para alcançar o alinhamento perfeito com as distribuições de consulta alvo. Os pesquisadores também enfatizaram que modelos com espaços de incorporação anisotrópicos, onde pares de textos aleatórios produzem alta similaridade, são vulneráveis a ataques. Isto também aponta para a importância de compreender as propriedades do espaço de incorporação ao projetar sistemas de recuperação.
Enfatiza a necessidade de defesas fortes contra fraudes adversárias em sistemas de recuperação integrados. Os autores, portanto, recomendam o uso de métodos de recuperação híbridos, como técnicas de recuperação densa e esparsa, que podem reduzir o risco apresentado por métodos como o GASLITE. Serve, por si só, para expor as vulnerabilidades dos actuais sistemas de recuperação de desastres e abrir caminho para tecnologias mais seguras e robustas.
Os investigadores chamam urgentemente a atenção para os perigos representados por tais contra-ataques a sistemas densamente povoados. O esforço mínimo que o GASLITE pode usar para manipular os resultados da pesquisa mostra a gravidade potencial de tal ataque. No entanto, ao destacar os principais riscos e ao desenvolver possíveis salvaguardas, este trabalho fornece informações valiosas para melhorar a robustez e a fiabilidade dos modelos de recuperação.
Confira eu Página de papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)