Nova pesquisa da OpenAI examina como os nomes de usuário podem afetar as respostas do ChatGPT

O preconceito em sistemas alimentados por IA, como os chatbots, continua a ser um desafio constante, especialmente à medida que estes modelos se tornam mais integrados nas nossas vidas quotidianas. Uma questão premente diz respeito ao preconceito que pode ser observado quando os chatbots respondem de forma diferente aos utilizadores com base em indicadores demográficos associados a palavras, como género ou raça. Tais preconceitos podem minar a confiança, especialmente em situações sensíveis às palavras, onde se espera que os chatbots tratem todos os utilizadores de forma igual.

Para resolver esse problema, os pesquisadores da OpenAI introduziram um método de preservação de privacidade para análise de viés baseada em palavras em chatbots sensíveis a palavras, como o ChatGPT. Esta abordagem visa compreender se as respostas do chatbot diferem subtilmente quando exposto a diferentes nomes de utilizadores, o que pode reforçar as perceções humanas. A análise centra-se em garantir a privacidade dos dados reais do utilizador, ao mesmo tempo que examina se ocorre parcialidade nas respostas ligadas a grupos demográficos específicos representados por nomes. Nesse processo, os pesquisadores usam o Language Model Research Assistant (LMRA) para identificar padrões de preconceito sem revelar diretamente informações confidenciais do usuário. O método de pesquisa envolve a comparação das respostas do chatbot, inserindo diferentes palavras associadas à demografia e testando quaisquer diferenças sistemáticas.

O método de preservação da privacidade é construído em três partes principais: (1) método de privacidade para classificação de dados, (2) análise de falsos positivos e (3) aplicação de LMRA para detectar preconceitos e avaliação. A abordagem de classificação de dados envolve o uso de uma combinação de conjuntos de dados de conversação públicos e privados para treinar e testar modelos, garantindo ao mesmo tempo que nenhuma informação pessoal sensível seja acessada diretamente por testadores humanos. Uma análise fictícia envolve a substituição de nomes de usuário em conversas para testar se há respostas diferentes dependendo do gênero do nome de usuário ou da etnia. Usando o LMRA, os pesquisadores conseguiram analisar e verificar automaticamente possíveis preconceitos nas respostas do chatbot, identificando padrões sutis, mas potencialmente prejudiciais, em uma variedade de contextos, como narrativas ou conselhos.

Os resultados do estudo revelaram diferenças distintas nas respostas do chatbot com base nos nomes dos usuários. Por exemplo, quando utilizadores com nomes associados a mulheres pedem ajuda para escrever um ensaio criativo, as respostas do chatbot muitas vezes apresentam personagens femininas e incluem uma linguagem calorosa e evocativa. Em contrapartida, usuários com nomes masculinos receberam conteúdo neutro e autêntico. Estas diferenças, embora aparentemente pequenas isoladamente, realçam como os preconceitos implícitos nos modelos linguísticos podem ser subtis em muitos contextos amplos. O estudo encontrou padrões semelhantes em vários domínios, com palavras associadas a mulheres geralmente suscitando respostas de tom mais favoráveis, enquanto palavras associadas a homens suscitam respostas com linguagem mais complexa ou técnica.

A conclusão deste trabalho enfatiza a importância de testes contínuos de viés e esforços de mitigação para chatbots, especialmente em aplicações centradas no usuário. O método proposto de preservação da privacidade permite aos pesquisadores detectar preconceitos sem comprometer a privacidade dos usuários e fornece informações importantes para melhorar a justiça do chatbot. O estudo destaca que, embora os estereótipos prejudiciais sejam frequentemente encontrados em taxas baixas, mesmo estes pequenos preconceitos precisam de ser abordados para garantir uma interação igual para todos os utilizadores. Esta abordagem não só informa os desenvolvedores sobre padrões específicos de preconceito, mas também serve como uma estrutura iterativa para investigações em andamento por pesquisadores externos.

Confira Detalhes de novo Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.

[Upcoming Live Webinar- Oct 29, 2024] Melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (avançado)

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.