AI Red Team: Fortalecendo a segurança e a confiança por meio de auditorias externas

A equipa vermelha desempenha um papel importante na avaliação dos riscos associados aos modelos e sistemas de IA. Ele descobre novas ameaças, identifica lacunas nas medidas de segurança atuais e fortalece diversas métricas de segurança. Ao incentivar o desenvolvimento de novas normas de segurança, reforça a confiança do público e melhora a validade das avaliações de risco da IA.

Este artigo detalha a abordagem da OpenAI à redistribuição externa, destacando o seu papel na avaliação e mitigação de riscos em modelos e sistemas avançados de IA. Trabalhando com especialistas de domínio, os esforços da equipe vermelha da OpenAI fornecem insights valiosos sobre as capacidades e vulnerabilidades do modelo. Embora focados em iniciativas OpenAI, os princípios delineados proporcionam uma relevância mais ampla, orientando outras organizações e partes interessadas na montagem de uma equipa vermelha humana em avaliação de riscos de IA e estruturas de avaliação.

A cooperação vermelha tornou-se a base dos procedimentos de segurança no desenvolvimento da IA, e a OpenAI utiliza uma equipa vermelha externa desde a implementação do DALL-E 2 em 2022. Esta prática inclui testes sistemáticos para revelar vulnerabilidades, efeitos nocivos e riscos do sistema de IA. Possui informações sobre medidas de segurança em todos os laboratórios de IA e está em linha com iniciativas políticas como a Ordem Executiva de 2023 sobre segurança de IA, que enfatiza a colaboração vermelha como um método de teste importante. Governos e empresas em todo o mundo estão a incorporar cada vez mais estes métodos nas suas avaliações de risco de IA.

O grupo externo vermelho fornece um valor significativo ao abordar os principais aspectos da avaliação de risco e segurança da IA. Ele introduz novas vulnerabilidades, como comportamento não intencional a partir do desenvolvimento de recursos de modelagem, como o GPT-4o imitando a voz do usuário. Ele também testa as defesas existentes, identificando vulnerabilidades, como garotos virtuais que contornam as defesas em sistemas DALL-E. Ao integrar conhecimentos de domínio, a colaboração vermelha promove a experimentação com conhecimento especializado, como visto na exploração do uso científico de modelos de IA. Além disso, fornece uma avaliação independente, que promove a confiança, reduzindo distorções e garantindo informações objetivas sobre riscos potenciais e comportamento do sistema.

Os processos de integração redundantes variam muito, com métodos emergentes concebidos para a crescente complexidade dos sistemas de IA. Os desenvolvedores de modelos podem divulgar escopo, premissas e critérios de avaliação, incluindo informações sobre modelos replicados, categorias de avaliação e detalhes significativos. Os métodos manuais envolvem especialistas humanos que criam contramedidas para avaliar o risco, enquanto as técnicas automatizadas utilizam a IA para processar informações e avaliar os resultados de forma sistemática. Métodos mistos combinam esses métodos, criando ciclos de feedback onde os dados iniciais são usados para avaliação manual de medição automática. A OpenAI aplicou esses métodos aos cartões do sistema, refinando a interação para testar o modelo de limite.

A concepção de uma campanha eficaz envolve decisões estratégicas e abordagens sistemáticas para avaliar o risco e o impacto da IA. As principais etapas incluem a definição de um conjunto de participantes da equipe vermelha com base em critérios e domínios de avaliação relevantes e a consideração de questões sobre o modelo e modelos de ameaças eficazes. Os desenvolvedores devem determinar quais versões do modelo são acessíveis aos jogadores do time vermelho e fornecer comunicação, instruções e documentação claras. A fase final envolve combinar os dados recolhidos no inquérito e criar um inquérito abrangente. Estas etapas garantem uma avaliação de risco completa e orientada para objetivos dos sistemas de IA.

A ampla cooperação vermelha dos sistemas de IA precisa de ser avaliada em todos os diferentes tópicos, que mostram as diferentes condições de utilização e os riscos associados a esta tecnologia. A modelagem de ameaças orienta a priorização do domínio, concentrando-se em áreas como capacidades esperadas, problemas políticos anteriores, fatores contextuais e aplicações esperadas. Cada área de avaliação é baseada em teorias que abordam os riscos, seus objetivos e suas fontes, garantindo uma abordagem sistemática. Embora as equipes internas priorizem inicialmente os testes com base em análises iniciais e dados de desenvolvimento, os participantes vermelhos externos fornecem informações valiosas, refinando e expandindo o escopo dos testes com seus conhecimentos e descobertas.

A transição da redação humana para testes automatizados é essencial para testes de segurança de IA tão extensos e consistentes. Após as campanhas da equipe vermelha, as equipes analisam se os exemplos identificados são compatíveis com as políticas existentes ou exigem novas diretrizes. Os insights das campanhas vão além dos riscos óbvios, destacando questões como diferentes desempenhos, preocupações com a qualidade e preferências de experiência do usuário. Por exemplo, a equipe vermelha do GPT-4o revelou comportamento não autorizado de produção de voz, estimulando o desenvolvimento de mitigações e testes robustos. Os dados gerados pelos jogadores do time vermelho também geram testes automatizados, permitindo testes rápidos e econômicos, usando classificadores e benchmarks para avaliar o comportamento desejado e identificar riscos.

Embora a colaboração vermelha seja uma ferramenta importante para a avaliação de riscos de IA, ela tem várias limitações e riscos. Outro desafio é a relevância dos resultados para os modelos em evolução, uma vez que as revisões podem invalidar avaliações anteriores. O grupo vermelho utiliza muitos recursos, tornando-o inacessível para organizações menores, e expor os participantes a conteúdos nocivos pode causar riscos psicológicos. Além disso, o processo pode criar riscos de informação, o que pode facilitar a utilização indevida se as salvaguardas forem inadequadas. As questões de imparcialidade surgem quando os intervenientes da equipa vermelha obtêm acesso antecipado aos modelos, e a crescente complexidade dos modelos eleva a fasquia do conhecimento humano necessário para a avaliação de riscos.

Este artigo destaca o papel da equipe vermelha externa na avaliação de riscos de IA, enfatizando sua importância no fortalecimento da avaliação de segurança ao longo do tempo. À medida que os sistemas de IA se desenvolvem rapidamente, a compreensão das experiências dos utilizadores, dos potenciais abusos e dos factores do mundo real, como as diferenças culturais, torna-se crítica. Embora nenhum processo único possa resolver todas as preocupações, a colaboração cruzada, especialmente quando envolve vários especialistas no domínio, proporciona uma forma mais rápida de identificar riscos e melhorar as avaliações. Contudo, é necessário mais trabalho para consolidar a opinião pública e estabelecer mecanismos de responsabilização. A equipe vermelha, juntamente com outras medidas de segurança, é essencial para criar uma avaliação de risco de IA utilizável.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

🎙️ 🚨 'Avaliação de vulnerabilidade de um grande modelo de linguagem: uma análise comparativa dos métodos da Cruz Vermelha' Leia o relatório completo _(Promovido)

Asjad é consultor estagiário na Marktechpost. Ele está cursando B.Tech em engenharia mecânica no Instituto Indiano de Tecnologia, Kharagpur. Asjad é um entusiasta do aprendizado de máquina e do aprendizado profundo que pesquisa regularmente a aplicação do aprendizado de máquina na área da saúde.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'

Source link

Você também pode gostar...

Otimização adaptativa de dados (ADO): um novo algoritmo para distribuição de dados dinâmicos em aprendizado de máquina, reduzindo a complexidade e melhorando a precisão do modelo

Modelos de recompensa generativos (GenRM): uma abordagem integrada para reforçar a aprendizagem humana e o feedback de IA, resolvendo desafios de padronização e coleta de feedback

Este artigo sobre IA da KAIST, UCL e KT investiga a aquisição e retenção de informações autênticas em grandes modelos de linguagem

Deixe um comentário Cancelar resposta