Pesquisadores do Google DeepMind propõem alinhamento de modelos de percepção centrados no ser humano para melhorar a generalização e interpretação da IA

A aprendizagem profunda fez avanços significativos na inteligência artificial, particularmente no processamento de linguagem natural e na visão computacional. No entanto, mesmo os sistemas mais avançados falham frequentemente de formas que os humanos não falhariam, realçando a lacuna crítica entre a inteligência artificial e a humana. Essas diferenças alimentaram debates sobre se as redes neurais possuem componentes importantes para a percepção humana. O desafio reside no desenvolvimento de sistemas que apresentem comportamento semelhante ao humano, especialmente em termos de robustez e generalização. Ao contrário dos humanos, que não conseguem se adaptar às mudanças ambientais e generalizar entre diferentes configurações de visualização, os modelos de IA muitas vezes precisam de ajuda com transições de dados entre conjuntos de treinamento e teste. Esta falta de robustez nas representações visuais representa desafios significativos para aplicações multiplataforma que requerem fortes capacidades de generalização.

Pesquisadores do Google DeepMind, Machine Learning Group, Technische Universität Berlin, BIFOLD, Berlin Institute for the Foundations of Learning and Data, Max Planck Institute for Human Development, Anthropic, Department of Artificial Intelligence, Korea University, Seul, Max Planck Institute for Informatics propuseram uma estrutura única chamada AligNet lidar com o conflito entre representações visuais humanas e de máquinas. Esta abordagem visa simular grandes conjuntos de dados de julgamento de similaridade humana para orientar modelos de redes neurais e percepção humana. A abordagem começa usando transformações afins para combinar representações de modelos com julgamentos semânticos humanos em funções triplas ímpares. Este processo incorpora medidas de incerteza das respostas humanas para melhorar a calibração do modelo. Uma versão adaptada do moderno modelo de base visual (VFM) é então usada como parte da geração de julgamentos de similaridade. Ao agrupar as representações em categorias superiores significativas, os pesquisadores amostraram os trigêmeos mais importantes e encontraram respostas estranhas no modelo de detecção, resultando em um conjunto de dados abrangente de julgamentos de trigêmeos semelhantes aos humanos, chamado AligNet.

Os resultados mostram melhorias significativas no alinhamento das representações da máquina com as decisões humanas em vários níveis de abstração. Para a semântica global, o alinhamento suave melhorou muito o desempenho do modelo, com a precisão aumentando de 36,09-57,38% para 65,70-68,56%, o que excedeu a pontuação de confiabilidade de pessoa para pessoa de 61,92%. Para semântica local bem caracterizada, o alinhamento melhorou moderadamente e a precisão aumentou de 46,04-57,72% para 58,93-62,92%. Para os três limites de classe, a otimização do AligNet alcançou um alinhamento notável, com precisão atingindo 93,09-94,24%, o que excede o teto de ruído humano de 89,21%. A funcionalidade de alinhamento varia entre níveis de abstração, com diferentes modelos mostrando capacidades em diferentes áreas. Notavelmente, a otimização do AligNet generaliza bem para outros conjuntos de dados de julgamento de similaridade humana, mostrando melhorias significativas no alinhamento em várias tarefas de similaridade, incluindo classificação múltipla e classificações de similaridade em escala Likert.

O método AligNet inclui várias etapas importantes para sincronizar representações de máquinas com a percepção visual humana. Primeiro, ele usa o conjunto de dados ímpar-one-out do trio THINGS para estudar a transformação afim em um espaço de similaridade global. Essa transformação é utilizada para representações do modelo do professor, criando uma matriz de similaridade para pares de objetos. O processo incorpora medidas de incerteza sobre as respostas das pessoas usando um método de inferência bayesiana limitado, em vez de alinhamento rígido e alinhamento suave.

A função objetivo de estudar a incerteza da transformação da destilação é combinar alinhamentos suaves e normais para preservar a uniformidade espacial. As representações transformadas são então agrupadas em superclasses usando meios de agrupamento. Esses clusters orientam a geração de trigêmeos a partir de diferentes imagens ImageNet, com a seleção aleatória determinada pelo modelo substituto.

Finalmente, uma função robusta baseada na decomposição de Kullback-Leibler facilita a filtragem da estrutura de similaridade de um professor em uma rede de alunos. Este objetivo do AligNet é combinado com a normalização para preservar o espaço de representação pré-treinado, resultando em um modelo de aluno ajustado que melhor corresponde às representações visuais humanas em vários níveis de citação.

Este estudo aborda uma deficiência importante dos modelos de base conceitual: sua incapacidade de representar adequadamente a estrutura conceitual multinível do conhecimento semântico humano. Ao desenvolver a estrutura AligNet, que alinha modelos de aprendizagem profunda com julgamentos de similaridade humana, a pesquisa mostra melhorias significativas no desempenho do modelo em uma variedade de tarefas cognitivas e de aprendizado de máquina. As descobertas contribuem para o debate em curso sobre o potencial das redes neurais para capturar inteligência semelhante à humana, particularmente na compreensão relacional e na organização do conhecimento hierárquico. Finalmente, este trabalho mostra como o alinhamento representacional pode melhorar o desempenho e a robustez da modelagem, preenchendo a lacuna entre a visualização visual e a feita pelo homem.

Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Asjad é consultor estagiário na Marktechpost. Ele está cursando B.Tech em engenharia mecânica no Instituto Indiano de Tecnologia, Kharagpur. Asjad é um entusiasta do aprendizado de máquina e do aprendizado profundo que pesquisa regularmente a aplicação do aprendizado de máquina na área da saúde.

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Source link

Você também pode gostar...

Transformando a saúde com IA e IoMT: inovações, desafios e direções futuras na previsão e gestão de doenças crônicas e terminais

Anthropic AI apresenta nova API de cálculo de token

Uma representação diferente de robôs (robô do Dr. Robot): um automodelo de robô que difere de sua aparência física a seus parâmetros de controle

Deixe um comentário Cancelar resposta