O rápido desenvolvimento da inteligência artificial facilitou a manipulação de imagens, dificultando a detecção de conteúdo malicioso. Embora eficazes, os métodos atuais de detecção e localização de falsificação de imagens (IFDL) precisam trabalhar em dois desafios importantes: a natureza de caixa preta de seus princípios de detecção e a generalização limitada para todos os métodos de adulteração, como Photoshop, DeepFake e AIGC-Editing. A proliferação de modelos poderosos de edição de imagens confundiu ainda mais a linha entre conteúdo real e falso, apresentando riscos como desinformação e questões jurídicas. Para enfrentar estes desafios, os investigadores estão a explorar Grandes Modelos de Linguagem Multimodal (M-LLMs) para obter um IFDL mais interpretável, permitindo uma identificação e localização mais claras de regiões esquecidas.
Os métodos IFDL atuais tendem a focar em tipos específicos de distorções, enquanto as técnicas universais visam detectar uma gama mais ampla de distorções, identificando artefatos e irregularidades na imagem. Modelos como MVSS-Net e HiFi-Net usam aprendizado de recursos multiescala e módulos multi-ramificações para melhorar a precisão da detecção. Embora estes métodos alcancem um desempenho satisfatório, eles necessitam de maior elaboração e apoio para generalizarem entre diferentes conjuntos de dados. Enquanto isso, os LLMs demonstraram habilidades de geração de texto e compreensão visual. Estudos recentes combinaram LLMs com codificadores de imagem, mas seu uso para detecção e localização global de danos ainda precisa ser testado.
Apresentado por pesquisadores da Universidade de Pequim e da Universidade de Tecnologia do Sul da China Escudo Falsouma estrutura interpretável para detecção e localização de manipulação de imagens (eIFDL). O FakeShield verifica a autenticidade da imagem, gera uma máscara da região corrompida e a define usando traços em nível de pixel e em nível de imagem. Eles aprimoraram os conjuntos de dados existentes usando GPT-4o para criar um conjunto de dados de descrição de violação multimodal (MMTD-Set) para treinamento. Além disso, eles desenvolveram um Módulo de detecção de falsificação explicável guiado por tags de domínio (DTE-FDM) e um Módulo de localização de falsificação multimodal (MFLM) para interpretar diferentes tipos de adulteração e combinar recursos de linguagem visual. Testes extensivos mostram o desempenho superior do FakeShield na detecção e localização de diferentes métodos de adulteração em comparação com as técnicas tradicionais de IFDL.
O conjunto MMTD proposto melhora os conjuntos de dados IFDL combinando descrições de texto com informações de distúrbios visuais. Usando GPT-4o, imagens perturbadas e suas máscaras correspondentes são combinadas com descrições detalhadas, com foco em artefatos de perturbação. A estrutura FakeShield inclui dois módulos principais: DTE-FDM para detecção e definição de adulteração e MFLM para mascaramento preciso. Esses módulos trabalham juntos para melhorar a precisão e a interpretabilidade. Os testes mostram que o FakeShield supera os métodos anteriores em todos os conjuntos de dados PhotoShop, DeepFake e AIGC-Editing na detecção e processamento de imagens forjadas locais.
O conjunto de dados MMTD-Set usa imagens distorcidas do Photoshop, DeepFake e AIGC-Editing para treinamento e teste. A estrutura FakeShield proposta, que combina DTE-FDM e MFLM, é comparada com métodos de última geração, como SPAN, MantraNet e HiFi-Net. Os resultados mostram alto desempenho na detecção e localização de erros em vários conjuntos de dados. A integração do GPT-4o e das tags de domínio do FakeShield aumenta sua capacidade de lidar com vários tipos de adulteração, tornando-o mais poderoso e preciso do que os métodos concorrentes de detecção e localização de falsificações.
Concluindo, o estudo apresenta o FakeShield, a primeira aplicação para M-LLMs para IFDL interpretável. O FakeShield pode detectar falsificações, gerar uma máscara de região corrompida e fornecer explicações por meio de análise em nível de pixel e índices semânticos. Ele usa o MMTD-Set construído usando GPT-4o para melhorar a análise de perturbação. Ao combinar DTE-FDM e MFLM, o FakeShield alcança detecção e localização robustas de todos os diferentes tipos de adulteração, como edição no Photoshop, DeepFake e manipulação baseada em AIGC, superando os métodos existentes em definição e precisão.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Interessado em promover sua empresa, produto, serviço ou evento para mais de 1 milhão de desenvolvedores e pesquisadores de IA? Vamos trabalhar juntos!
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.