O rápido crescimento das plataformas digitais colocou a segurança da imagem em foco. Imagens prejudiciais – desde conteúdo gráfico até representações de violência – apresentam desafios significativos à moderação de conteúdo. A ascensão do conteúdo gerado por IA (AIGC) exacerbou estes desafios, uma vez que modelos avançados de geração de imagens podem facilmente criar imagens inseguras. Os sistemas de segurança atuais dependem fortemente de conjuntos de dados rotulados por humanos, que são caros e difíceis de medir. Além disso, esses sistemas muitas vezes lutam para se adaptar a regulamentações de segurança complexas e em constante mudança. Uma solução eficaz deve abordar essas limitações e, ao mesmo tempo, garantir testes de segurança de imagem eficazes e confiáveis.
Pesquisadores da Meta, da Rutgers University, da Westlake University e da UMass Amherst desenvolveram o CLUE (MLM JUdgE for Constitution), uma estrutura projetada para solucionar as deficiências dos sistemas tradicionais de segurança de imagem. CLUE usa Modelos Multimodais de Grandes Linguagens (MLLMs) para transformar regras de segurança específicas em critérios objetivos e mensuráveis. Os principais recursos da estrutura incluem:
- Oposição à Constituição: Transformar regulamentos de segurança específicos em diretrizes claras e concretas para um melhor processamento de MLLMs.
- Verificando a consistência da imagem: Usando o CLIP para filtrar com eficiência regras irrelevantes, examinando a correlação entre imagens e diretrizes.
- Liberação de pré-condição: Dividir regras complexas em cadeias condicionais simples para facilitar o raciocínio.
- Análise de probabilidade de token desviado: Reduzir preconceitos causados pela importância da linguagem e das regiões da imagem medial para melhorar a percepção.
- Consulta em Cascata: Aplicar o pensamento crítico em cadeia a casos de baixa confiança para melhorar a precisão da tomada de decisões.
Detalhes técnicos e benefícios
A estrutura CLUE aborda os principais desafios associados aos MLLMs na segurança de imagens. Em oposição às regulamentações de segurança, substitui diretrizes vagas por termos precisos, como especificar “não deve mostrar pessoas com ferimentos visíveis e sangrentos que indiquem morte iminente”.
A digitalização paralela usando CLIP agiliza o processo removendo regras não relacionadas à imagem digitalizada, reduzindo assim a carga computacional. Isto garante que o quadro se concentre apenas nas regras relevantes, melhorando a eficiência.
O módulo de extração de pré-condições simplifica regras complexas em componentes lógicos, permitindo que os MLLMs raciocinem com mais eficiência. Por exemplo, a regra “você não deve mostrar a ninguém seus corpos em chamas” é decomposta em condições como “a aparência das pessoas” e “os corpos estão queimando”.
A análise de probabilidade de tokens Debiased é outra característica notável. Ao comparar as probabilidades de tokens com e sem tokens de imagem, o viés é identificado e reduzido. Isto reduz a possibilidade de erros, como a associação de fatores de fundo a violações.
O raciocínio inverso fornece um forte recurso em situações de baixa confiança. Utiliza raciocínio lógico passo a passo, garantindo análises precisas, mesmo para casos limítrofes, ao mesmo tempo que fornece razões detalhadas para as decisões.
Resultados e detalhes do teste
A funcionalidade do CLUE foi verificada por meio de testes extensivos em várias versões do MLLM, incluindo InternVL2-76B, Qwen2-VL-7B-Instruct e LLaVA-v1.6-34B. As principais conclusões incluem:
- Precisão e recall: O CLUE alcançou 95,9% de recall e 94,8% de precisão com InternVL2-76B, superando os métodos existentes.
- Bom desempenho: O módulo de varredura paralela filtrou 67% das regras irrelevantes, enquanto reteve 96,6% das regras violadas na verdade, melhorando muito a eficiência estatística.
- Generalização: Ao contrário dos modelos ajustados, o CLUE teve um bom desempenho em diversas diretrizes de segurança, destacando sua escalabilidade.
As informações também enfatizam a importância da oposição constitucional e da análise da possibilidade de tokens marginalizados. As regras específicas alcançaram uma taxa de precisão de 98,0% em comparação com 74,0% das suas homólogas originais, enfatizando o valor de critérios claros e mensuráveis. Da mesma forma, a remoção do viés melhorou a precisão geral da decisão, com uma pontuação F1 de 0,879 para o modelo InternVL2-8B-AWQ.
A conclusão
O CLUE fornece uma abordagem cuidadosa e eficiente para segurança de imagens, abordando as limitações dos métodos tradicionais usando MLLMs. Ao converter regras objetivas em regras objetivas, filtrar regras irrelevantes e usar métodos de raciocínio avançados, o CLUE fornece soluções de medição de conteúdo confiáveis e contínuas. A sua capacidade de fornecer alta precisão e flexibilidade torna-o um avanço na gestão dos desafios do conteúdo gerado por IA, abrindo caminho para plataformas online mais seguras.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.
✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)