Em 1994, a designer de joias da Flórida, Diana Duyser, encontrou o que ela acreditava ser uma imagem da Virgem Maria em um sanduíche de queijo grelhado, que ela guardou e depois vendeu por US$ 28 mil. Mas até que ponto entendemos realmente sobre a pareidolia, o fenómeno de ver rostos e padrões em objectos quando estes não estão realmente lá?
Uma nova pesquisa do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) examina esse fenômeno, apresentando um extenso conjunto de dados rotulados por humanos de 5.000 imagens pareidólicas, superando em muito as coleções anteriores. Usando este conjunto de dados, a equipe encontrou alguns resultados surpreendentes sobre a diferença entre a visão humana e a visão mecânica, e como a capacidade de reconhecer um rosto em uma torrada salvou a vida de parentes distantes.
“A pareidolia facial há muito tempo interessa aos psicólogos, mas não foi amplamente estudada na comunidade de visão computacional”, disse Mark Hamilton, estudante de doutorado em engenharia elétrica e ciência da computação do MIT, afiliado do CSAIL, e pesquisador principal do trabalho. “Queríamos construir uma ferramenta que nos ajudasse a entender como os humanos e os sistemas de IA processam esses rostos falsos”.
Então, o que todos esses rostos falsos revelaram? Por um lado, os modelos de IA não parecem reconhecer rostos pareidólicos como nós. Surpreendentemente, a equipe descobriu que só depois de treinar os algoritmos para reconhecer rostos de animais é que eles melhoraram na detecção de rostos pareidólicos. Esta ligação inesperada aponta para uma possível ligação evolutiva entre a nossa capacidade de reconhecer rostos de animais – o que é essencial para a sobrevivência – e a nossa tendência para ver rostos em objetos inanimados. “Um resultado como este parece sugerir que a pareidolia pode não vir do comportamento humano, mas de algo mais profundo: como localizar rapidamente um tigre escondido ou identificar a direção da presa para que os nossos ancestrais pudessem caçar”, disse Hamilton.
Outra descoberta interessante é o que os pesquisadores chamam de “Zona Cachinhos Dourados da Pareidolia”, uma classe de imagens onde a pareidolia tem maior probabilidade de ocorrer. “Existe uma certa gama de complexidade visual em que tanto os humanos como as máquinas têm maior probabilidade de reconhecer rostos em objetos que não sejam rostos”, disse William T. Freeman, professor de engenharia elétrica e ciência da computação do MIT e investigador principal do projeto. “É muito simples e não há detalhes suficientes para construir um rosto. É muito complexo e se torna ruído visual. “
Para revelar isso, a equipe criou um cálculo que modela como humanos e algoritmos detectam rostos falsos. Ao analisarem estas estatísticas, encontraram um claro “pico pareidólico” onde a probabilidade de ver um rosto é muito elevada, correspondendo a imagens com a “quantidade certa” de complexidade. Esta “zona Cachinhos Dourados” prevista foi então verificada em experimentos com seres humanos reais e sistemas de detecção de rosto de IA.
Este novo conjunto de dados, “Faces in Objects”, supera os de estudos anteriores que normalmente usavam apenas 20 a 30 estímulos. Essa escala permitiu aos pesquisadores testar como os métodos avançados de detecção de rostos se comportavam após serem ajustados para rostos pareidólicos, o que mostra que esses algoritmos podem ser programados para detectar esses rostos, mas também podem agir como silício. para representar nossos cérebros, permitindo que a equipe faça e responda perguntas sobre as origens da detecção de rosto pareidoliana que são impossíveis de serem feitas em humanos.
Para criar este conjunto de dados, a equipe selecionou aproximadamente 20.000 imagens candidatas do conjunto de dados LAION-5B, que foram cuidadosamente rotuladas e julgadas por anotadores humanos. O processo envolveu desenhar caixas delimitadoras em torno de rostos conhecidos e responder a perguntas detalhadas sobre cada rosto, como emoção percebida, idade e se o rosto foi feito acidentalmente ou intencionalmente. “Coletar e descrever milhares de imagens foi uma tarefa enorme”, disse Hamilton. “A maior parte dos dados está lá por causa da minha mãe”, uma banqueira aposentada, “que passou horas documentando amorosamente as imagens para análise”.
Esta pesquisa também tem aplicações potenciais na melhoria dos sistemas de detecção facial, reduzindo falsos positivos, o que poderia ter implicações em áreas como carros autônomos, interação humano-computador e robótica. Conjuntos de dados e modelos também podem ajudar áreas como o design de produtos, onde a compreensão e o controle da pareidolia podem criar produtos melhores. “Imagine ser capaz de ajustar automaticamente o formato de um carro ou de um brinquedo de criança para torná-lo mais amigável, ou garantir que um dispositivo médico não pareça ameaçador involuntariamente”, disse Hamilton.
“É interessante como as pessoas descrevem objetos inanimados com características humanas. Por exemplo, quando você olha para uma tomada elétrica, você pode imaginá-la cantando e pode até imaginar a maneira como ela “mexeu os lábios”. “Os algoritmos, no entanto, não veem naturalmente esses rostos de desenhos animados da mesma maneira que nós”, disse Hamilton. “Isso levanta questões interessantes: o que faz essa diferença entre a percepção humana e a interpretação algorítmica? A pareidolia é benéfica ou prejudicial? Por que os algoritmos não obtêm esse resultado como nós? Estas questões motivaram a nossa investigação, já que este estado psicológico comum em humanos não foi bem explorado em algoritmos.”
À medida que os investigadores se preparam para partilhar o seu conjunto de dados com a comunidade científica, já estão a olhar para o futuro. Trabalhos futuros podem envolver o treinamento de modelos de linguagem visual para compreender e interpretar rostos pareidólicos, potencialmente levando a sistemas de IA que podem interagir com estímulos visuais de maneiras mais humanas.
“Este é um artigo divertido! É divertido de ler e me faz pensar. Hamilton et al. levantam uma questão interessante: por que vemos rostos nas coisas?” disse Pietro Perona, professor Allen E. Puckett de Engenharia Elétrica na Caltech, que não esteve envolvido no trabalho. “Como eles apontam, aprender com exemplos, incluindo animais rostos, faz parte da explicação desse fenômeno, aposto que pensar sobre essa questão nos ensinará algo importante sobre como nosso sistema visual funciona sem o treinamento que recebemos na vida.”
Os coautores de Hamilton e Freeman incluem Simon Stent, cientista pesquisador do Toyota Research Institute; Ruth Rosenholtz, principal cientista pesquisadora do Departamento de Cérebro e Ciências Cognitivas, cientista pesquisadora da NVIDIA e ex-membro do CSAIL; e os embaixadores de pós-doutorado do CSAIL, Vasha DuTell, Anne Harrington MEng '23, e a cientista pesquisadora Jennifer Corbett. Seu trabalho foi apoiado, em parte, pela National Science Foundation e pela bolsa CSAIL MEnTorEd Opportunities in Research (METEOR), enquanto foram financiados pelo Laboratório de Pesquisa da Força Aérea dos Estados Unidos e pelo Acelerador de Inteligência Artificial da Força Aérea dos Estados Unidos. O MIT SuperCloud e o Lincoln Laboratory Supercomputing Center forneceram recursos de HPC para os resultados dos pesquisadores.
O trabalho foi apresentado esta semana na Conferência Europeia sobre Visão Computacional.