Com a cobertura do anonimato e a companhia de estranhos, cresce o apelo do mundo digital como local de busca de apoio em saúde mental. Esta situação é alimentada pelo facto de mais de 150 milhões de pessoas nos Estados Unidos viverem em áreas onde há escassez de profissionais de saúde mental.
“Eu realmente preciso da sua ajuda, pois estou com muito medo de falar com um terapeuta e não consigo encontrar um.”
“Estou exagerando, fico magoada quando meu marido zomba de mim para os amigos?”
“Alguns estranhos podem, por favor, considerar minha vida e decidir meu futuro?”
Os trechos acima são postagens reais retiradas de usuários do Reddit, um site e fórum de notícias de mídia social onde os usuários podem compartilhar conteúdo ou pedir conselhos em pequenos fóruns baseados em interesses, conhecidos como “subreddits”.
Usando um conjunto de dados de 12.513 postagens com 70.429 respostas de 26 subreddits relacionados à saúde mental, pesquisadores do MIT, da Universidade de Nova York (NYU) e da Universidade da Califórnia em Los Angeles (UCLA) desenvolveram uma estrutura para ajudar a avaliar a equidade e a saúde mental geral. qualidade. os chatbots de apoio à saúde são baseados em modelos de linguagem de grande escala (LLMs), como o GPT-4. Seu trabalho foi publicado recentemente na Conferência sobre Métodos Poderosos em Processamento de Linguagem Natural (EMNLP) de 2024.
Para conseguir isso, os pesquisadores pediram a dois psicólogos licenciados que examinassem um número aleatório de postagens do Reddit em busca de suporte, combinando cada postagem com a resposta real do Redditor ou com a resposta gerada pelo GPT-4. Sem saber quais respostas eram reais ou geradas por IA, os psicólogos foram solicitados a avaliar o nível de empatia em cada resposta.
Os chats de apoio à saúde mental têm sido explorados há muito tempo como uma forma de melhorar o acesso ao apoio à saúde mental, mas LLMs poderosos como o ChatGPT da OpenAI estão a transformar as interações humanas com a IA, e as respostas geradas pela IA estão a tornar-se mais difíceis de distinguir das respostas de pessoas reais.
Apesar deste progresso notável, as consequências não intencionais do apoio à saúde mental fornecido pela IA chamaram a atenção para os seus riscos potencialmente fatais; em março do ano passado, um homem belga morreu por suicídio em consequência de uma troca com ELIZA, um chatbot construído para simular um psicólogo LLM chamado GPT-J. Depois de um mês, a National Eating Disorders Association interromperá seu chatbot Tessa, depois que o chatbot começou a dar dicas alimentares para pacientes com transtornos alimentares.
Saadia Gabriel, uma recente pós-doutoranda no MIT que agora é professora assistente na UCLA e primeira autora do artigo, admitiu que inicialmente estava muito cética sobre a eficácia das conversas de apoio à saúde mental. Gabriel conduziu esta pesquisa durante seu período de pós-doutorado no MIT no Healthy Machine Learning Group, liderado por Marzyeh Ghassemi, professora associada do MIT no Departamento de Engenharia Elétrica e Ciência da Computação e no Instituto de Engenharia Médica e Ciência do MIT afiliado ao MIT. Clínica Abdul Latif Jameel de Aprendizado de Máquina em Saúde e Laboratório de Ciência da Computação e Inteligência Artificial.
O que Gabriel e a equipe de pesquisa descobriram foi que as respostas do GPT-4 não eram apenas mais simpáticas em geral, mas eram 48% melhores no incentivo a mudanças comportamentais positivas do que as respostas humanas.
No entanto, num teste de preconceito, os investigadores descobriram que os níveis de sensibilidade do GPT-4 foram reduzidos em cartazes negros (2 a 15 por cento mais baixos) e asiáticos (5 a 17 por cento mais baixos) em comparação com cartazes brancos ou cartazes de etnia desconhecida.
Para examinar o preconceito nas respostas do GPT-4 e nas respostas demográficas, os pesquisadores incluíram diferentes tipos de postagens com vazamentos demográficos óbvios (por exemplo, gênero, raça) e vazamentos demográficos óbvios.
Um vazamento demográfico óbvio seria mais ou menos assim: “Sou uma mulher negra de 32 anos”.
Embora um vazamento demográfico vago parecesse: “Ser uma garota de 32 anos com meu cabelo natural”, onde palavras-chave são usadas para indicar dados demográficos específicos no GPT-4.
Com exceção das mulheres negras que postaram, descobriu-se que as respostas do GPT-4 foram menos afetadas por vazamentos demográficos evidentes e evidentes em comparação com os entrevistados humanos, que tendiam a ser mais empáticos ao responder a postagens com sugestões demográficas vagas.
“A estrutura da contribuição que você dá [the LLM] e outras informações sobre o conteúdo, como se você deseja [the LLM] “Fazer isso em estilo clínico, estilo de postagem em mídia social ou se você deseja que os dados demográficos do paciente sejam usados, tem um grande impacto na resposta que você obtém”, diz Gabriel.
Este artigo sugere que fornecer instruções claras para os LLMs usarem atributos estatísticos pode efetivamente reduzir o viés, já que este foi o único método em que os pesquisadores não observaram diferenças significativas na sensibilidade entre os grupos demográficos.
Gabriel espera que este trabalho possa ajudar a garantir uma avaliação completa e cuidadosa dos LLMs utilizados em ambientes clínicos em todos os grupos populacionais.
“Os LLMs já estão a ser usados para fornecer cuidados centrados no paciente e têm sido usados em ambientes médicos, em muitos casos para melhorar os sistemas de saúde das pessoas”, disse Ghassemi. “Aqui, mostramos que, embora os LLMs avançados sejam geralmente menos afetados por vazamentos estatísticos do que os indivíduos no apoio de saúde mental entre pares, eles não fornecem respostas equitativas de saúde mental a todos os subgrupos de pacientes… eles têm mais oportunidades de melhorar os modelos para fornecer melhor suporte quando implementados.”