A Scale AI Research apresenta atacantes J2: instalar a tecnologia para converter LLMs avançados para os gerentes vermelhos vermelhos

A conversão de modelos de linguagem é gerente relevante em vermelho não deixa de ter seus desafios. Os maiores modelos da grande linguagem refletem a maneira como trabalhamos com a tecnologia, mas permanece para evitar uma geração generosa. Esforços como o treinamento de lixo ajudam esses modelos a negar aplicativos perigosos, mas mesmo esses travessios podem passar por ataques cuidadosamente projetados. Essa disputa contínua entre o design e a segurança é sempre um problema sensível ao conquistar esses programas de comprometimento.

Em operação, garantir que a segurança significa lutar e ataques de inadimplência e o estalo do povo. Os gerentes vermelhos geralmente se esforçam para estratégias flexíveis têm uma variedade de riscos de maneiras que as estratégias automáticas às vezes são perdidas. No entanto, a confiança apenas na tecnologia de alguém é sólida e eles não têm uso necessário para reutilizar. Como resultado, os pesquisadores exploram os métodos mais formais e excelentes para testar e fortalecer a segurança exemplar.

A pesquisa em escala da IA apresenta os atacantes J2 para enfrentar esses desafios. Dessa forma, o Mbambamber vermelho humano primeiro é o “Jailbreakes” que o modelo de idioma direcionado, promove que é transferido sua própria proteção. Esse modelo modificado, agora chamado de atacante J2, é usado para testar o planejamento de risco para outros modelos de idiomas. O procedimento está cuidando da estrutura cuidadosa que mede a orientação de uma pessoa por análise padrão, seu refinamento.

O método J2 começa com a categoria de livro em que o operador é uma pessoa que fornece estratégias e instruções específicas. Assim que a primeira prisão for bem -sucedida, o modelo entrou no parágrafo do bate -papo que gira quando enfatiza suas táticas que usam feedback em tentativas anteriores. Essa combinação das habilidades de aprendizagem de tecnologia e modelos de uma pessoa estão contínuas para a resposta contínua ao processo de redistribuição. O resultado é um programa estimado e útil que desafia as proteções existentes sem conversão ao sensacionalismo.

A estrutura técnica após os invasores J2 é feita com consideração. Divide o processo de tunelamento vermelho em três categorias diferentes: planejamento, ataque e surtos. Durante a fase de edição, a emergência detalhada reduz a recusa normal, o que permite que o modelo se prepare. A fase de ataque a seguir consiste em uma série de discussões controladas, convertidas para o modelo renget, cada ciclo seca uma estratégia com base em resultados anteriores.

Na fase resfriada, é feita uma avaliação independente para avaliar o sucesso do ataque. Essa resposta é usada para continuar corrigindo as táticas do modelo, promovendo um ciclo de desenvolvimento contínuo. Ao colocar várias estratégias de argila – do entendimento baseado em engenharia técnica mais rapidamente – a maneira como mantém o foco de segurança sem obter seu poder.

O forte teste de atacantes J2 revela encorajamento, no entanto, progresso. Em um exame controlado, modelos como Sonnet-3.5 e Gemini-1.5-Pro alcançaram as taxas bem-sucedidas de aproximadamente 93% e 91% em relação ao GPT-4O no banco de dados do ARM-4. Esses números são comparados à operação de administradores profissionais experientes, que recebem preços bem -sucedidos estão próximos de 98%. Tais resultados enfatizam o poder do cronograma padrão para ajudar na avaliação de riscos, em nome de si mesmo.

O entendimento adicional mostra que o planejamento está disponível – os ciclos de ataque desempenham um papel importante na partida do processo. Estudos mostram que seis ciclos geralmente dão moderadamente entre estabilidade e eficiência. Para muitos invasores de J2, cada uso de estratégias diferentes melhora o desempenho completo, cobrindo amplas fraquezas de fraqueza. Essas descobertas fornecem uma base sólida para empregos futuros destinados ao fato e para melhorar a segurança dos modelos de idiomas.

Na conclusão, o lançamento de atacantes J2 em escala AI refere -se a um critério considerando a pesquisa do modelo Cadel. Ao permitir o modelo de idioma que se recusa a facilitar o adesivo avermelhado, esse método abre novas maneiras de obter um risco formal. O trabalho é apoiado em um equilíbrio cuidadoso entre a orientação e o refinamento padrão, para garantir que o caminho seja sempre difícil e disponível.

Enquete o papel. Todo o crédito deste estudo é pesquisado para este projeto. Além disso, fique à vontade para segui -lo Sane E não se esqueça de se juntar ao nosso 75k + ml subreddit.

🚨 Pesquisa recomendada recomendada para nexo

O Asphazzaq é um Markteach Media Inc. De acordo com um negócio e desenvolvedor de visualização, a ASIFI está comprometida em integrar uma boa inteligência social. Sua última tentativa é lançada pelo lançamento do Plano de Química para uma Inteligência, Marktechpost, uma prática íntima devastadora de um aprendizado de máquina e problemas de aprendizado profundo que são de forma clara e facilmente compreendida. A plataforma está aderindo a mais de dois milhões de visitas à lua, indicando sua popularidade entre o público.

🚨 Plataforma de IA de código aberto recomendado: 'Interestagente Sistema de código aberto com várias fontes para testar o sistema de IA difícil (promovido)

Source link

Você também pode gostar...

Este artigo sobre IA da Vectara explora blocos semânticos e de tamanho fixo: desempenho e desempenho de sistemas de geração aumentada de recuperação

Avaliando o impacto das ferramentas de geração de código (ChatGPT e GitHub Copilot) na educação em programação

Investigadores da OpenAI propõem método de aprendizado por reforço em várias etapas para melhorar o LLM Red Team

Deixe um comentário Cancelar resposta