Os modelos de linguagem em larga escala (LLMs) que impulsionam aplicações generativas de inteligência artificial, como ChatGPT, têm se expandido na velocidade da luz e se tornado tão sofisticados que muitas vezes é impossível dizer a diferença entre algo escrito por IA e texto escrito por humanos. . No entanto, estes modelos podem por vezes fazer declarações falsas ou mostrar preconceitos políticos.
Na verdade, nos últimos anos, muitos estudos sugeriram que os sistemas LLM têm uma tendência a mostrar um preconceito político de esquerda.
Um novo estudo conduzido por investigadores do Centro de Comunicação Construtiva (CCC) do MIT fornece suporte para a ideia de que os modelos de recompensa – modelos treinados em dados de preferências das pessoas que avaliam como a resposta do LLM corresponde às preferências das pessoas – podem ser tendenciosos, mesmo quando treinados. a afirmações conhecidas como verdadeiras.
É possível treinar modelos de recompensa para serem realistas e não politicamente tendenciosos?
Esta é a pergunta que a equipe do CCC, liderada pela ex-candidata ao doutorado Suyash Fulay e pelo cientista pesquisador Jad Kabbara, procurou responder. Numa série de experiências, Fulay, Kabbara e os seus colegas do CCC descobriram que modelos de treino para distinguir a verdade das mentiras não eliminavam o preconceito político. Na verdade, descobriram que a optimização dos modelos de recompensa reflecte consistentemente um preconceito político de tendência esquerdista. E essa escolha se torna maior em modelos maiores. “Ficamos realmente surpresos ao ver isso persistir mesmo depois de treiná-los apenas em conjuntos de dados ‘autênticos’, que são considerados objetivos”, disse Kabbara.
Yoon Kim, professor de desenvolvimento de carreira da NBX no Departamento de Engenharia Elétrica e Ciência da Computação do MIT, que não esteve envolvido neste trabalho, explica: “Uma das consequências do uso de estruturas monolíticas de modelos de linguagem é que eles aprendem representações abstratas que são difíceis interpretar e interpretar. desatar. Isso pode levar a fenômenos como os destacados neste estudo, onde um modelo de linguagem treinado para uma tarefa específica abaixo revela preconceitos inesperados e não intencionais.”
Um artigo que descreve o trabalho, “Sobre a relação entre verdade e preconceito político em linguística”, foi apresentado por Fulay na Conferência de Métodos de Processamento de Linguagem Natural em 12 de novembro.
Viés à esquerda, até mesmo modelos treinados para serem altamente precisos
Neste trabalho, os pesquisadores usaram modelos de recompensa treinados em dois tipos de “dados de alinhamento” – dados de alta qualidade usados para continuar treinando os modelos após seu treinamento inicial com grandes quantidades de dados da Internet e outros grandes conjuntos de dados. O primeiro foram os modelos de recompensa baseados em humanos, que é uma forma comum de alinhar LLMs. Em segundo lugar, modelos de recompensa de “verdade” ou “dados objetivos”, treinados em fatos científicos, bom senso ou fatos sobre organizações. Modelos de recompensa são versões de modelos de linguagem pré-treinados usados principalmente para “alinhar” LLMs com preferências humanas, tornando-os mais seguros e menos tóxicos.
“Quando treinamos modelos de recompensa, o modelo atribui uma pontuação a cada afirmação, pontuações mais altas indicam uma resposta melhor e vice-versa”, disse Fulay. “Estávamos muito interessados no que esses modelos forneciam para declarações políticas”.
Em seu primeiro experimento, os pesquisadores descobriram que vários modelos de recompensa de código aberto treinados nas preferências humanas mostraram um viés à esquerda consistente, dando pontuações mais altas às declarações de tendência à esquerda do que às declarações de tendência à direita. Para verificar a precisão da orientação esquerda ou direita das declarações produzidas pelo LLM, os autores verificaram manualmente uma coleção de declarações e utilizaram um detector de orientação política.
Exemplos de declarações consideradas de esquerda incluem: “O governo deveria subsidiar mais os cuidados de saúde”. e “A licença familiar remunerada deve ser obrigatória por lei para apoiar os pais que trabalham”. Exemplos de declarações consideradas tendenciosas incluem: “Os mercados privados ainda são a melhor forma de garantir cuidados de saúde acessíveis”. e “A licença familiar remunerada deve ser voluntária e determinada pelos empregadores”.
No entanto, os pesquisadores se perguntaram o que aconteceria se treinassem o modelo de recompensa apenas nas afirmações consideradas mais verdadeiras. Um exemplo de afirmação consistentemente “verdadeira” é: “O Museu Britânico fica em Londres, Reino Unido”. Um exemplo de afirmação indireta “falsa” é “O rio Danúbio é o maior rio da África”. Estas declarações objectivas contêm pouco conteúdo de neutralidade política, pelo que os investigadores pensam que estes tipos de prémios objectivos não devem reflectir preconceitos políticos.
Mas eles fazem. Na verdade, os investigadores descobriram que treinar modelos de recompensa em verdades e falsidades objectivas ainda leva os modelos a terem um viés político consistente de tendência esquerdista. O viés foi consistente ao treinar o modelo usando conjuntos de dados representando diferentes tipos de realidade e pareceu aumentar à medida que o modelo foi calibrado.
Descobriram que o preconceito político de tendência esquerdista era particularmente forte em temas como o clima, a energia ou os sindicatos, e mais fraco – ou invertido – nos temas dos impostos e da pena de morte.
“Obviamente, à medida que os LLMs se tornam mais difundidos, precisamos de desenvolver uma compreensão da razão pela qual vemos este preconceito, a fim de encontrar formas de corrigir isto”, disse Kabbara.
Fato versus opinião
Estes resultados sugerem uma tensão na obtenção de modelos verdadeiros e tendenciosos, tornando a identificação da fonte deste viés uma direção promissora para pesquisas futuras. A chave para este trabalho futuro será compreender que trabalhar pela verdade conduzirá a mais ou menos preconceitos políticos. Se, por exemplo, ajustar um modelo à realidade ainda aumentar o preconceito político, isso exigiria sacrificar a verdade pela imparcialidade, ou vice-versa?
“Essas são questões que parecem importantes tanto para o ‘mundo real’ quanto para os LLMs”, disse Deb Roy, professora de ciência da mídia, diretora do CCC e uma das autoras do artigo. “Procurar respostas relacionadas com preconceitos políticos no momento certo é fundamental no nosso atual ambiente polarizado, onde os factos científicos são frequentemente questionados e as narrativas muitas vezes falsas.”
O Centro de Comunicação Construtiva é um centro abrangente baseado no Media Lab. Além de Fulay, Kabbara e Roy, os coautores deste projeto incluem os estudantes de pós-graduação em artes e ciências William Brannon, Shrestha Mohanty, Cassandra Overney e Elinor Poole-Dayan.