Antrópico apresenta crristificadores constitucionais: AI medindo a IA para proteção contra a prisão

Grandes modelos de linguagem (LLMs) têm uma parte importante de diferentes aplicações, mas estão sempre em risco de abuso. Preocupações importantes O aparecimento das prisões universais universais no Bypass Safe Gufearards permite que os usuários acessem detalhes restritos. Esse abuso pode ser usado para facilitar funções prejudiciais, como combinar atividades ilegais ou evitar métodos de aprovação da Cyberercere. À medida que os desenvolvimentos da IA estão se desenvolvendo, os métodos usados para usar, enfatizam a necessidade de proteção confiável, medindo a segurança eficaz.

Reduzir esses riscos, os pesquisadores antrópicos introduzem Crristificadores constitucionaisUm quadro formal foi projetado para melhorar a segurança do LLM. Essas classes são treinadas usando os dados de desempenho feitos de acordo com os princípios constitucionais especificados. Por define as seções de conteúdo proibidas e válidas, esse método fornece um método flexível de adaptação.

Em vez de confiar no governante ou no teste estático, as crisifers constitucionais adotam uma abordagem mais formal, embarcando em comportamento e segurança no sistema. Isso permite um filtro consistente e relaxado sem o melhor útil.

Como funcionam os benefícios

Centros de ação do Anthropic em três áreas importantes:

Desvio contra os Jelebreaks: Os classificadores são treinados para dados de desempenho que mostram leis constitucionais, promovendo sua capacidade de identificar e prevenir conteúdo perigoso.
Remessa ativa: A estrutura introduz 23,7% do controle sobre, para garantir que permanecesse no uso real da terra.
Condições: Como a Constituição pode ser renovada, o sistema continua respondendo aos desafios da segurança frenética.

Os classificadores trabalham nos dois casos e nas seções de saída. Esta página Entradas de entrada As telas promovem questões arriscadas para alcançar o modelo, enquanto Classificador de desinstalação Verificando as respostas à medida que são feitas, permita intervenção real, se necessário. Este teste de token tele-teukente ajuda a manter a igualdade entre segurança e experiência do usuário.

Descobertas e pesquisa

Antrópico fez vários testes, incluindo Mais de 3.000 horas de combinação vermelha 405 participantes, incluindo pesquisadores de segurança e profissionais de IA. Os resultados destacam a implementação do ensino constitucional:

Não Jailbreak universal Isso foi encontrado pode passar nas proteções.
O programa bloqueou com sucesso 95% dos esforços de jailbreakGrande melhoria de 14% proibida de 14% dos modelos deformados.
Classificadores importaram a Aumento de 0,38% na oposição No uso real do mundo, indicando que restrições desnecessárias permanecem baixas.
A maioria das tentativas de atacar Substância para reciclagem incluindo Reforço o comprimento da respostaem vez de obter riscos genuínos no sistema.

Embora não exista ação de segurança intencional, os resultados sugerem que os criseifers constitucionais fornecem desenvolvimento significativo de riscos associados ao universo.

Figura 5: Os crristificadores de contitutação são muito avançados apenas para a intensidade do treinamento inofensivo.

Loja

Os crestificadores constitucionais do Antrópico representam o passo detalhado para fortalecer a segurança da IA. Ao proteger os documentos em torno dos princípios da Constituição clara, essa abordagem fornece um método variável e desativado para gerenciar o risco de segurança sem uma aplicação legal. À medida que as estratégias ilegais continuam a aparecer, será necessário um refinamento adicional para manter o desempenho dessa defesa. No entanto, a estrutura está indicando que as transações de segurança adequadas podem ser redirecionadas enquanto armazenam funcionalidade eficaz.

Enquete o papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, não se esqueça de seguir Sane e junte -se ao nosso Estação de telégrafo incluindo LinkedIn grtópico. Não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 O Marktechpost está gritando para as empresas / inicialização / grupos cooperarem com as próximas revistas da IA a seguinte 'fonte AI em produção' e 'e' Agentic AI '.

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.

✅ [Recommended] Junte -se ao nosso canal de telégrafo

Source link

Como funcionam os benefícios

Descobertas e pesquisa

Loja

Você também pode gostar...

RunwayML apresenta o recurso Act-One: uma nova maneira de produzir performances dramáticas de personagens usando entrada de vídeo simples.

Este artigo sobre IA apresenta DyCoke: compactação de token dinâmico para modelos de linguagem de vídeo eficientes e de alto desempenho

Feeque de entrega do OpenAI: ai ai usando o raciocínio maximize uma grande quantidade de informações da Internet e atividades de pesquisa completas

Deixe um comentário Cancelar resposta