A visão computacional permite que as máquinas analisem e interpretem dados visuais, impulsionando a inovação em aplicações tão diversas como veículos autônomos, diagnósticos médicos e automação industrial. Os pesquisadores pretendem desenvolver modelos de computador para processar tarefas visuais complexas com mais precisão e eficiência, apoiando técnicas como redes neurais para lidar com dados de imagens de alta dimensão. À medida que as tarefas se tornam mais complexas, encontrar um equilíbrio entre a eficiência e o desempenho do computador continua a ser um objetivo importante para o desenvolvimento deste campo.
Um desafio importante para modelos leves de visão computacional é capturar com eficácia recursos globais e locais em um ambiente rico em recursos. Os métodos atuais, incluindo Redes Neurais Convolucionais (CNNs) e Transformadores, enfrentam limitações. As CNNs, embora eficazes na extração de recursos locais, precisam de ajuda com interações de recursos globais. Embora poderosos na modelagem da atenção global, os transformadores apresentam complexidade quadrática, tornando-os computacionalmente caros. Além disso, os métodos baseados no Mamba, projetados para superar esses desafios com complexidade linear, não conseguem preservar os detalhes de alta frequência que são importantes para tarefas de visualização de precisão. Esta limitação limita seu uso em situações reais que exigem alto desempenho e precisão.
Os esforços para enfrentar esses desafios levaram a várias inovações. Abordagens baseadas em CNN, como MobileNet, introduziram convoluções separáveis para melhorar a eficiência computacional, enquanto projetos híbridos, como EfficientFormer, combinam CNNs e Transformers para atenção global. Os modelos baseados em Mamba, incluindo VMamba e EfficientVMamba, reduzem os custos computacionais otimizando os métodos de varredura. No entanto, estes modelos concentram-se demasiado em características de baixa frequência, negligenciando informações de alta frequência que são importantes para uma análise visual detalhada. Esse desequilíbrio interfere no desempenho, principalmente em trabalhos que exigem a extração de uma característica refinada.
Pesquisadores do Noah's Ark Lab da Huawei apresentaram o TinyViM, uma arquitetura híbrida que combina blocos Convolution e Mamba, otimizados para truncamento de frequência. O TinyViM visa melhorar a eficiência computacional e a representação de recursos, abordando as limitações dos métodos anteriores. O misturador Laplace é uma inovação fundamental neste diagrama, permitindo a separação eficiente de componentes de baixa e alta frequência. Ao processar recursos de baixa frequência com blocos Mamba de contexto global e detalhes de alta frequência com reconvolução, o TinyViM alcança um processo de extração de recursos equilibrado e eficiente.
TinyViM usa a primeira estratégia de rampa de frequência para melhorar continuamente sua eficiência. Esta abordagem ajusta a alocação de recursos computacionais a todas as camadas da rede, concentrando-se mais nas ramificações de alta frequência nas etapas anteriores, onde a informação espacial é importante, e mudando a ênfase para componentes de baixa frequência em camadas mais profundas do contexto global. Este ajuste dinâmico garante a representação adequada de recursos em todos os estágios da rede. Além disso, a arquitetura TinyViM inclui convoluções fáceis de usar, tornando-a adequada para cenários em tempo real e de baixo uso.
Testes extensivos confirmam o desempenho do TinyViM em vários benchmarks. Ao classificar imagens do conjunto de dados ImageNet-1K, o TinyViM-S alcançou uma precisão máxima de 79,2%, superando o SwiftFormer-S em 0,7%. Seu rendimento atingiu 2.574 quadros por segundo, o dobro da eficiência do EfficientVMamba. Em tarefas de detecção e classificação de objetos usando o conjunto de dados MS-COCO 2017, o TinyViM superou outros modelos, incluindo SwiftFormer e FastViT, com uma melhoria significativa de até 3% nas métricas APbox e APmask. Para a segmentação semântica no conjunto de dados ADE20K, o TinyViM mostrou um desempenho de última geração com uma interseção de método sobre união (mIoU) de 42,0%, destacando sua alta capacidade de extração de recursos.
As vantagens de desempenho do TinyViM são enfatizadas pelo seu design leve, que alcança resultados impressionantes sem comprometer a precisão. Por exemplo, o TinyViM-B alcançou 81,2% de precisão no ImageNet-1K, superando o MobileOne-S4 em 1,8%, o Agent-PVT-T em 2,8% e o MSVMamba-M em 1,4%. Nas tarefas de detecção, o TinyViM-B apresentou 46,3 APbox e 41,3 APmask, enquanto o TinyViM-L estende essa melhoria para 48,6 APbox e 43,8 APmask, confirmando sua robustez e diversidade de todos os tamanhos de tarefas.
A equipe de pesquisa do Ark Lab da Huawei redefiniu os fundamentos da visão leve com o TinyViM, abordando limitações significativas dos modelos anteriores. Usando desacoplamento de frequência, mixagem de Laplace e implementação de rampa de frequência, o TinyViM equilibra informações de alta frequência com conteúdo de baixa frequência, alcançando alta precisão e eficiência computacional. Sua capacidade de superar CNNs, Transformers e modelos baseados em Mamba de última geração em uma ampla variedade de tarefas virtuais é uma ferramenta valiosa para aplicações em tempo real. Este trabalho demonstra o potencial de integração de novas técnicas de extração de características em estruturas híbridas, abrindo caminho para avanços futuros em visão computacional.
Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
🎙️ 🚨 'Avaliação de vulnerabilidade de um grande modelo de linguagem: uma análise comparativa dos métodos da Cruz Vermelha' Leia o relatório completo (Promovido)
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)