A Segurança Multi-Situação é um recurso importante que se concentra na capacidade do modelo de interpretar e responder com segurança a situações complexas do mundo real que incluem informações visuais e escritas. Ele garante que os Modelos Multimodais de Grandes Linguagens (MLLMs) sejam capazes de detectar e lidar com riscos potenciais em suas interações. Esses modelos são projetados para interagir perfeitamente com entradas visuais e de texto, permitindo que ajudem as pessoas a compreender situações do mundo real e a fornecer respostas adequadas. Com aplicativos que incluem consultas visuais que respondem à tomada de decisões integradas, os MLLMs são integrados a robôs e sistemas assistivos para executar tarefas com base em comandos e dicas ambientais. Embora estes modelos avançados possam revolucionar vários setores, melhorando a automação e facilitando interações seguras entre humanos e IA, garantir uma segurança multimodal forte torna-se fundamental na implementação.
Uma questão importante destacada pelos pesquisadores é a falta de segurança adequada do Modo Multimodal nos modelos existentes, o que representa uma grande preocupação de segurança ao implantar MLLMs em aplicações do mundo real. À medida que estes modelos se tornam mais complexos, a sua capacidade de avaliar situações com base em dados visuais e textuais combinados deve ser cuidadosamente avaliada para evitar resultados perigosos ou erróneos. Por exemplo, um modelo de IA baseado em linguagem pode interpretar uma consulta como segura se faltar o contexto visual. No entanto, se for adicionada uma dica visual, como quando o utilizador pergunta como praticar corrida perto da borda de um penhasco, o modelo deverá ser capaz de detectar riscos de segurança e emitir um aviso apropriado. Esta capacidade, conhecida como “pensamento de segurança situacional”, é importante, mas permanece subdesenvolvida nos actuais sistemas MLLM, tornando a sua avaliação e desenvolvimento minuciosos críticos antes da implementação no mundo real.
Os métodos existentes para avaliar a segurança de muitos objetos geralmente dependem de benchmarks baseados em texto que exigem recursos de análise de estado em tempo real. Esta avaliação deve ser revista para abordar os desafios distintos das situações multimodais, onde os modelos devem interpretar simultaneamente os dados visuais e linguísticos. Em muitos casos, os MLLMs podem identificar consultas linguísticas inseguras por si próprios, mas não conseguem integrar o contexto visual com precisão, especialmente em aplicações que exigem consciência situacional, como assistência ao domicílio ou condução autónoma. Para colmatar esta lacuna, é necessária uma abordagem mais integrada que considere adequadamente os aspectos linguísticos e visuais para garantir uma avaliação abrangente da segurança da Situação Multimodal, reduzindo o risco e melhorando a fiabilidade do modelo em diversas situações do mundo real.
Pesquisadores da Universidade da Califórnia, em Santa Cruz, e da Universidade da Califórnia, em Berkeley, introduziram um novo método de triagem conhecido como Referência de segurança situacional multimodal (MSSBench). Este benchmark testa quão bem os MLLMs podem lidar com situações seguras e inseguras, fornecendo 1.820 pares de imagens de idiomas que simulam situações do mundo real. O conjunto de dados inclui situações seguras e perigosas observadas e tem como objetivo testar a capacidade do modelo de fazer inferências sobre a segurança da situação. Este novo método de teste é único porque dimensiona as respostas do MLLM com base na entrada linguística e no contexto visual de cada pergunta, tornando-o um teste robusto de consciência do estado do modelo.
O processo de teste do MSSBench divide os cenários visuais em diferentes categorias de segurança, como lesões físicas, danos materiais e atividades ilegais, para cobrir uma ampla gama de possíveis problemas de segurança. Os resultados do teste de vários MLLMs de última geração usando o MSSBench mostram que esses modelos têm dificuldade para detectar condições inseguras de maneira eficaz. Testes de referência mostraram que mesmo o modelo mais eficiente, o Claude 3.5 Sonnet, alcançou uma classificação de precisão de segurança de 62,2%. Modelos de código aberto, como MiniGPT-V2 e Qwen-VL, tiveram um desempenho muito fraco, com a precisão da segurança caindo para 50% em alguns casos. Além disso, esses modelos ignoram informações importantes de segurança incorporadas na entrada visual, que os modelos proprietários tratam de maneira mais adequada.
Os pesquisadores também testaram as limitações dos MLLMs atuais em situações que envolvem tarefas complexas. Por exemplo, nas condições de assistente integrado, os modelos foram testados em ambientes internos simulados onde tinham que realizar tarefas como guardar coisas ou ligar aparelhos elétricos. Os resultados indicam que os MLLMs têm um desempenho fraco nestas situações devido à sua incapacidade de perceber e interpretar sinais visuais que indicam riscos de segurança com precisão. Para reduzir esses problemas, a equipe de pesquisa introduziu um pipeline multiagente que divide o raciocínio situacional em subtarefas separadas. Ao atribuir diferentes tarefas a agentes especializados, como percepção visual e julgamento de segurança, o pipeline melhorou o desempenho médio de segurança de todos os MLLMs testados.
Os resultados do estudo enfatizam que, embora a abordagem multiagente seja promissora, ainda há muito espaço para melhorias. Por exemplo, mesmo com um sistema multiagente, MLLMs como mPLUG-Owl2 e DeepSeek não conseguiram detectar condições inseguras em 32% dos casos de teste, indicando que o trabalho futuro precisa se concentrar na melhoria do alinhamento textual e visual desses modelos e situacionais. raciocínio. habilidades.
Principais conclusões do estudo de referência de segurança situacional multimodal:
- Criação de benchmark: O benchmark Multimodal Situational Safety (MSSBench) inclui um par de 1.820 imagens, que testa MLLMs em vários aspectos de segurança.
- Categorias de segurança: O benchmark avalia a segurança em quatro categorias: lesões físicas, danos materiais, atividades ilegais e riscos baseados no contexto.
- Desempenho do modelo: Os modelos mais eficientes, como o Claude 3.5 Sonnet, alcançaram uma elevada precisão de segurança de 62,2%, destacando uma importante área de melhoria.
- Sistema multiagente: A introdução de um sistema multiagente melhorou o desempenho da segurança, fornecendo subtarefas específicas, mas persistiram problemas como mal-entendidos visuais.
- Direções futuras: A investigação sugere que é necessário um maior desenvolvimento de métodos de segurança MLM para alcançar uma consciência situacional fiável em situações complexas e heterogéneas.
Em conclusão, o estudo apresenta uma nova estrutura para avaliar a segurança situacional dos MLLMs usando o benchmark de Segurança Situacional Multimodal. Ele revela lacunas importantes no desempenho atual da segurança do MLLM e sugere uma abordagem multiagente para enfrentar esses desafios. O estudo mostra a importância da avaliação abrangente da segurança em sistemas multimodais de IA, especialmente porque estes modelos são mais comuns em aplicações do mundo real.
Confira Papel, GitHubde novo O projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit
[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.