Os modelos de visão evoluíram significativamente ao longo dos anos e cada inovação aborda as limitações dos métodos anteriores. No campo da visão computacional, os pesquisadores enfrentaram desafios na medição da complexidade, generalização e padronização. Muitos modelos atuais lutam para lidar eficazmente com várias tarefas físicas ou se adaptarem bem a novos conjuntos de dados. Tradicionalmente, grandes codificadores de visão pré-treinados têm usado aprendizagem inversa, que, apesar de seu sucesso, apresenta desafios de dimensionamento e eficiência de parametrização. Ainda existe a necessidade de um modelo robusto e flexível que possa lidar com vários formatos — como imagens e texto — sem sacrificar o desempenho ou exigir extensa filtragem de dados.
AIMv2: uma nova abordagem
A Apple aceitou esse desafio com o lançamento do AIMv2, uma família de codificadores de código aberto projetados para aprimorar os modelos existentes para tarefas de compreensão multimodal e reconhecimento de objetos. Inspirado em modelos como o CLIP, o AIMv2 adiciona um gravador automático, que permite gerar patches de imagem e tokens de texto. A família AIMv2 inclui 19 modelos com vários parâmetros de tamanho – 300M, 600M, 1,2B e 2,7B – e suporta resoluções de 224, 336 e 448 pixels. Essa variedade de tamanho e resolução do modelo torna o AIMv2 adequado para diferentes casos de uso, desde aplicações de pequena escala até tarefas que exigem modelos grandes.
Visão geral técnica
O AIMv2 inclui uma estrutura de pré-treinamento autoregressivo multimodal, que se baseia no método de aprendizagem diferencial padrão usado em modelos paralelos. Uma característica chave do AIMv2 é a combinação de um codificador Vision Transformer (ViT) com um decodificador causal multimodal. Durante o pré-treinamento, o codificador processa patches de imagem, que são posteriormente emparelhados com os embeddings de texto correspondentes. O decodificador causal gera automaticamente patches de imagem e tokens de texto, reconstruindo a entrada multimodal original. Essa configuração simplifica o treinamento e facilita o dimensionamento do modelo sem exigir conexões especiais entre clusters ou lotes muito grandes. Além disso, o objetivo multimodal permite que o AIMv2 alcance uma vigilância mais densa em comparação com outros métodos, melhorando a sua capacidade de aprender tanto a partir da entrada de imagens como de texto.
Desempenho e escalabilidade
O AIMv2 supera os principais modelos existentes, como OAI CLIP e SigLIP em muitos benchmarks cognitivos multimodais. Especificamente, o AIMv2-3B alcançou uma precisão de 89,5% tão alta quanto 1 no conjunto de dados de caule congelado ImageNet, o que mostra robustez significativa para modelos de caule congelado. Comparado ao DINov2, o AIMv2 também tem um bom desempenho na detecção de objetos de vocabulário aberto e na compreensão da fala alvo. Além disso, a escalabilidade do AIMv2 ficou evidente, uma vez que o seu desempenho melhorou consistentemente com o aumento dos dados e do tamanho do modelo. A flexibilidade do modelo e a integração com ferramentas modernas, como a biblioteca Hugging Face Transformers, tornam seu uso prático e intuitivo em todas as aplicações.
A conclusão
O AIMv2 representa um avanço significativo no desenvolvimento de codificadores de visão, enfatizando a simplicidade no treinamento, o dimensionamento eficiente e a flexibilidade em operações multimodais. O lançamento do AIMv2 pela Apple oferece melhorias em relação aos modelos anteriores, com forte desempenho em muitos benchmarks, incluindo reconhecimento de vocabulário aberto e tarefas multimodais. A integração de técnicas autônomas permite um monitoramento denso, resultando em capacidades de modelagem robustas e flexíveis. A disponibilidade do AIMv2 em plataformas como o Hugging Face permite que desenvolvedores e pesquisadores testem modelos de visão avançados com mais facilidade. O AIMv2 estabelece um novo padrão para codificadores virtuais de código aberto, capazes de lidar com a crescente complexidade do entendimento multiobjetivo do mundo real.
Confira eu Papel e AIMv2 família de modelos em Hugging Face. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[FREE AI VIRTUAL CONFERENCE] SmallCon: Conferência Virtual GenAI gratuita com. Meta, Mistral, Salesforce, Harvey AI e mais. Junte-se a nós em 11 de dezembro para este evento de visualização gratuito para aprender o que é necessário para construir grande com pequenos modelos de pioneiros em IA como Meta, Mistral AI, Salesforce, Harvey AI, Upstage, Nubank, Nvidia, Hugging Face e muito mais.
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🐝🐝 Leia este relatório de pesquisa de IA da Kili Technology 'Avaliação de vulnerabilidade de um modelo de linguagem grande: uma análise comparativa de métodos de passagem vermelha'