Pesquisadores da OpenAI propõem 'alinhamento intencional': um método de treinamento que ensina os LLMs a pensar claramente sobre as especificações de segurança antes de gerar feedback.

A utilização generalizada de modelos linguísticos de grande escala (LLMs) em áreas críticas de segurança trouxe um grande desafio: como garantir a sua adesão a directrizes claras de comportamento e segurança. As técnicas de alinhamento existentes, como o ajuste fino supervisionado (SFT) e a aprendizagem por reforço a partir de feedback humano (RLHF), têm limitações. Os modelos ainda podem produzir conteúdo prejudicial se forem alterados, recusarem solicitações legítimas ou tiverem dificuldade para lidar com situações incomuns. Estes problemas surgem frequentemente da natureza ambígua da actual formação em segurança, onde os modelos estabelecem padrões indirectamente a partir de dados, em vez de aprenderem de forma clara. Além disso, os modelos muitas vezes são incapazes de executar intencionalmente instruções complexas, o que limita o seu desempenho em situações dinâmicas ou conflitantes.

Pesquisadores da OpenAI apresentaram Alinhamento com Propósitoum novo método que ensina diretamente modelos de especificação de segurança e os treina para pensar sobre essas diretrizes antes de gerar respostas. Ao incorporar princípios de segurança no processo de raciocínio, esta abordagem aborda uma fraqueza fundamental nas técnicas tradicionais de alinhamento. O Alinhamento Deliberado concentra-se no ensino de modelos para considerar claramente as políticas relevantes, permitindo-lhes lidar com situações complexas com mais confiança. Ao contrário dos métodos que dependem fortemente de dados de anotações humanas, este método utiliza dados gerados por modelo e pensamento de cadeia de pensamento (CoT) para obter melhores resultados de segurança. Quando usado nos modelos da série O da OpenAI, mostrou maior resistência a ataques de jailbreak, menos rejeições de solicitações válidas e melhor otimização de situações incomuns.

Detalhes técnicos e benefícios

O Alinhamento de Consistência envolve um processo de treinamento em duas etapas. Primeiro, o ajuste fino supervisionado (SFT) treina modelos para referenciar e inferir especificações de segurança usando conjuntos de dados gerados a partir de modelos de linha de base. Esta etapa ajuda a incorporar uma compreensão clara dos princípios de segurança. Na segunda fase, a aprendizagem por reforço (RL) melhora a lógica do modelo usando um modelo de recompensa para avaliar o desempenho em relação aos parâmetros de segurança. Este pipeline de treinamento não depende de conclusões definidas por humanos, o que reduz os requisitos de recursos normalmente associados ao treinamento de segurança. Usando dados sintéticos e pensamento CoT, o Alinhamento Intencional equipa modelos para abordar situações éticas complexas com maior precisão e eficiência.

Resultados e detalhes

O alinhamento intencional produziu melhorias significativas no desempenho dos modelos da série OpenAI. O modelo o1, por exemplo, superou os outros modelos líderes na resistência aos comandos de jailbreak, marcando 0,88 no benchmark StrongREJECT em comparação com 0,37 do GPT-4o. Também foi eficaz para evitar rejeições desnecessárias, com uma taxa de precisão de 93% em falsos positivos no conjunto de dados XSTest. O método melhorou a adesão às diretrizes de estilo em respostas a conselhos controlados e instruções de automutilação. Estudos de ablação mostraram que ambas as fases SFT e RL são importantes para alcançar estes resultados. Além disso, este método mostrou forte adaptabilidade a cenários não implementáveis, como notificações multilíngues e código incorporado, destacando sua robustez.

A conclusão

Alinhamento com os Objectivos Deve haver um progresso significativo no alinhamento dos modelos linguísticos e dos princípios de segurança. Ao ensinar modelos a comunicar de forma transparente sobre políticas de segurança, fornece uma solução mensurável e explicável para desafios comportamentais complexos. O sucesso dos modelos da série o1 demonstra o potencial desta abordagem para melhorar a segurança e a confiabilidade em sistemas de IA. À medida que as capacidades de IA continuam a evoluir, abordagens como a Orientação Intencional desempenharão um papel fundamental para garantir que estes sistemas permaneçam alinhados com os valores e expectativas humanas.

Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre os telespectadores.

🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)

Source link

Detalhes técnicos e benefícios

Resultados e detalhes

A conclusão

Você também pode gostar...

Pesquisadores de IA do Google apresentam um conjunto de novos métodos para melhorar o desempenho do conteúdo LLM de longo prazo na geração aprimorada de recuperação

Meissonic: um modelo de síntese de texto para imagem não autorregressivo que pode produzir imagens de alta resolução

Principais benefícios e tendências futuras

Deixe um comentário Cancelar resposta