Desvendando como os transformadores de visão entendem as relações objetais: uma abordagem em duas etapas para a comunicação visual

Apesar do sucesso dos Vision Transformers (ViTs) em tarefas como segmentação e renderização de imagens, eles enfrentam desafios significativos no tratamento de tarefas abstratas que envolvem relacionamentos entre objetos. Uma limitação importante é a dificuldade em executar com precisão tarefas de correlação visual, como determinar se dois objetos são iguais ou diferentes. O raciocínio relacional, que requer a compreensão das relações espaciais ou comparativas entre entidades, é uma força natural da visão humana, mas continua a ser um desafio para os sistemas de visão artificial. Embora os ViTs sejam excelentes em tarefas semânticas em nível de pixel, eles lutam com o processamento abstrato necessário para o raciocínio relacional, muitas vezes contando com conhecimento mecânico em vez de compreender relacionamentos reais. Esta limitação afeta o desenvolvimento de modelos de IA capazes de realizar tarefas avançadas de raciocínio, como responder perguntas visuais e comparar objetos complexos.

Para enfrentar esses desafios, uma equipe de pesquisadores da Brown University, da New York University e da Stanford University está usando métodos encontrados na descrição de objetos para examinar como os ViTs processam e representam relações visuais. Os pesquisadores apresentam um estudo de caso que se concentra em uma tarefa cognitiva básica, mas desafiadora: decidir se dois objetos visuais são iguais ou diferentes. Ao treinar ViTs pré-treinados nessas tarefas “iguais diferentes”, eles observaram que os modelos apresentavam dois estágios diferentes de processamento, apesar de não terem vieses específicos que os orientassem. O primeiro estágio envolve extrair características locais do objeto e armazená-las em uma representação separada, chamada estágio visual. Isto é seguido pelo estágio de correlação, onde essas representações de objetos são comparadas para determinar as propriedades relacionais.

Estas descobertas sugerem que os ViTs podem aprender a representar relações abstratas até certo ponto, demonstrando o poder dos modelos de IA gerais e flexíveis. No entanto, falhas nas etapas perceptivas ou relacionais podem impedir o modelo de aprender a solução geral para tarefas virtuais, destacando a necessidade de modelos que possam lidar eficazmente com dificuldades perceptivas e relacionais.

Detalhes técnicos

O estudo fornece insights sobre como os ViTs processam as relações visuais por meio de um mecanismo de dois estágios. Na fase de percepção, o modelo classifica as representações dos objetos observando características como cor e forma. Em experimentos usando duas tarefas de “correspondência diferente” – uma tarefa de discriminação e uma tarefa de correspondência com amostra (RMTS) – os autores mostram que ViTs treinados nessas tarefas discriminam com sucesso atributos de objetos, codificando-os separadamente em representações intermediárias. Essa separação torna mais fácil para os modelos realizarem operações relacionais em estágios posteriores. A classe relacional então usa esses recursos codificados para determinar relacionamentos abstratos entre objetos, como avaliar semelhanças ou diferenças com base na cor ou na forma.

A vantagem deste processo de duas fases é que permite aos ViTs alcançar uma abordagem mais sistemática ao raciocínio relacional, o que melhora a generalização sobre os dados de treino. Usando análise de padrões de atenção, os autores mostram que esses modelos usam diferentes cabeças de atenção para tarefas locais e globais, desde o processamento em nível de objeto até comparações entre objetos em camadas posteriores. Esta divisão de trabalho dentro do modelo revela uma estratégia de processamento que mostra como funcionam os sistemas biológicos, desde a extração de características até a análise relacional de forma hierárquica.

Este trabalho é importante porque aborda a lacuna entre o raciocínio óptico opticamente relacionado e as arquiteturas baseadas em transformadores, que tradicionalmente têm sido limitadas no tratamento de tais tarefas. O artigo fornece evidências de que ViTs pré-treinados, como aqueles treinados com arquiteturas CLIP e DINov2, são capazes de atingir alta precisão em tarefas de raciocínio relacional quando configurados corretamente. Especificamente, os autores observam que os ViTs pré-treinados com CLIP e DINOv2 alcançaram quase 97% de precisão no conjunto de testes após o ajuste fino, demonstrando suas capacidades de raciocínio abstrato quando guiados com sucesso.

Outra descoberta importante é que a capacidade dos ViTs de terem sucesso no pensamento relacional é altamente dependente do bom desenvolvimento dos estágios de processamento conceitual e relacional. Por exemplo, modelos com um processo claro de duas etapas mostraram melhor adaptação aos estímulos que saíram da distribuição, sugerindo que representações perceptivas ativas são fundamentais para um pensamento relacional preciso. Esta observação é consistente com a conclusão dos autores de que o desenvolvimento de componentes cognitivos e relacionais dos ViTs pode levar a uma inteligência visual mais forte e mais geral.

A conclusão

As descobertas deste artigo esclarecem as limitações e os pontos fortes dos Vision Transformers ao lidar com tarefas de pensamento relacional. Ao identificar diferentes estágios de processamento nos ViTs, os autores fornecem uma estrutura para compreender e melhorar como esses modelos lidam com relações visual-invisíveis. Um modelo de dois estágios – combinando um estágio perceptual e um estágio relacional – oferece uma maneira promissora de preencher a lacuna entre a extração de recursos de baixo nível e o raciocínio relacional de alto nível, o que é importante para aplicações como resposta visual a consultas e conversão de texto em texto. -correspondência de texto. .

A investigação enfatiza a importância de abordar os défices cognitivos e relacionais nas ViTs para garantir que podem adaptar eficazmente a sua aprendizagem a novas situações. Este trabalho abre caminho para estudos futuros que visam melhorar as habilidades relacionais dos ViTs, potencialmente transformando-os em modelos capazes de compreender visuais complexos.

Confira Papel aqui. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.

Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.

🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'

Source link

Detalhes técnicos

A conclusão

Você também pode gostar...

AutoDAN-Turbo: método de jailbreak de caixa preta para LLMs com agente vitalício

Conheça NEO: um sistema multiagente que está revolucionando a forma como o aprendizado de máquina funciona

Ajudando robôs a acessar coisas importantes | Notícias do MIT

Deixe um comentário Cancelar resposta