IBM Open-Sources Granite Guardian: um conjunto de salvaguardas para detecção de riscos em LLMs
Inteligência artificial

IBM Open-Sources Granite Guardian: um conjunto de salvaguardas para detecção de riscos em LLMs


O rápido desenvolvimento dos principais modelos linguísticos (LLMs) apresentou oportunidades significativas em vários setores. No entanto, a sua utilização em situações do mundo real também traz desafios, como a geração de conteúdos nocivos, estereótipos negativos e potenciais abusos éticos. Os LLMs podem produzir resultados socialmente tendenciosos, violentos ou ofensivos, e os intervenientes hostis exploram frequentemente a vulnerabilidade invadindo prisões para contornar as medidas de segurança. Outro problema importante reside nos sistemas de geração aumentada de recuperação (RAG), onde os LLMs integram dados externos, mas podem fornecer respostas irrelevantes ou factualmente incorretas. Enfrentar estes desafios exige salvaguardas sólidas para garantir a utilização responsável e segura da IA.

Para enfrentar esses riscos, a IBM lançou o Granite Guardian, uma solução de segurança de código aberto para detecção de riscos em LLMs. Este conjunto foi projetado para detectar e mitigar a magnitude de múltiplos riscos. O conjunto Granite Guardian identifica informações e respostas a riscos, cobrindo uma ampla gama de riscos, incluindo preconceito social, palavrões, violência, comportamento imoral, conteúdo sexual e questões relacionadas ao plágio específicas dos sistemas RAG. Lançado como parte do programa de código aberto da IBM, Granite Guardian visa promover transparência, colaboração e desenvolvimento responsável de IA. Com uma taxonomia de risco abrangente e um conjunto de dados de treinamento aprimorado por anotações humanas e amostras artificialmente adversárias, esse conjunto oferece uma abordagem flexível para detecção e mitigação de riscos.

Detalhes técnicos

Os modelos Granite Guardian, baseados na estrutura Granite 3.0 da IBM, estão disponíveis em duas versões: um modelo leve de 2 bilhões de parâmetros e uma versão mais extensa de 8 bilhões de parâmetros. Estes modelos integram diferentes fontes de dados, incluindo conjuntos de dados reportados por humanos e amostras geradas artificialmente, para melhorar a sua generalização em diferentes riscos. O sistema aborda com eficácia a detecção de jailbreak, muitas vezes ignorada pelas estruturas de segurança convencionais, usando dados sintéticos projetados para simular ataques adversários sofisticados. Além disso, os modelos incluem capacidades para abordar riscos específicos do RAG, tais como relevância contextual, validade e compatibilidade de feedback, garantindo que o resultado produzido seja consistente com a intenção do utilizador e a precisão factual.

Uma característica notável do Granite Guardian é a sua flexibilidade. Os modelos podem ser integrados aos fluxos de trabalho de IA existentes como monitores ou testadores em tempo real. Suas métricas de alto desempenho, incluindo pontuações AUC de 0,871 e 0,854 para conteúdo perigoso e benchmarks de alucinação RAG, respectivamente, demonstram seu desempenho em uma variedade de cenários. Além disso, o ambiente de código aberto do Granite Guardian incentiva melhorias orientadas pela comunidade, que incentivam o desenvolvimento de práticas de segurança de IA.

Conceitos e Resultados

Uma ampla gama de medições destaca o desempenho do Granite Guardian. Em conjuntos de dados públicos para detecção de conteúdo malicioso, a variante 8B alcançou uma AUC de 0,871, superando bases como Llama Guard e ShieldGemma. A sua compensação em precisão e recall, representada por um AUPRC de 0,846, demonstra a sua capacidade de detectar informações e respostas perigosas. Na análise relacionada ao RAG, os modelos apresentaram forte desempenho, com o modelo 8B alcançando uma AUC de 0,895 na identificação de problemas terrestres.

A capacidade dos modelos de generalizarem diversos conjuntos de dados, incluindo informações contra-intuitivas e consultas de utilizadores do mundo real, demonstra a sua robustez. Por exemplo, no conjunto de dados ToxicChat, Granite Guardian mostrou alto recall, sinalizando efetivamente interações prejudiciais com erros mínimos. Esses resultados demonstram a capacidade do conjunto de fornecer soluções confiáveis ​​e escaláveis ​​de detecção de vulnerabilidades para aplicações eficazes de IA.

A conclusão

O Granite Guardian da IBM fornece uma solução abrangente para proteger LLMs contra ameaças, enfatizando segurança, transparência e flexibilidade. A sua capacidade de detetar uma vasta gama de riscos, combinada com a sua acessibilidade de código aberto, torna-o numa ferramenta essencial para organizações que procuram investir em IA de forma responsável. À medida que os LLMs continuam a evoluir, ferramentas como o Granite Guardian garantem que este progresso seja acompanhado por salvaguardas eficazes. Ao apoiar a colaboração com desenvolvedores orientados pela comunidade, a IBM está contribuindo para melhorar a segurança e a governança da IA, promovendo um ambiente de IA mais seguro.


Confira eu Papel, Guardião de Granito 3.0 2B, Guardião de Granito 3.0 8B de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….


Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *