SAM2Long: Desenvolvimento de treinamento gratuito na classificação de vídeo SAM 2 Long

A segmentação longitudinal de vídeo envolve a divisão de um vídeo em segmentos para analisar processos complexos, como movimento, obturador e diferentes condições de iluminação. Possui diversas aplicações em piloto automático, vigilância e edição de vídeo. É desafiador, mas importante categorizar as coisas da maneira certa em uma sequência de vídeo. A dificuldade está no gerenciamento dos extensos requisitos de memória e dos custos computacionais. Pesquisadores do Laboratório de Inteligência Artificial da Universidade Chinesa de Hong Kong em Xangai lançaram o SAM2LONG para melhorar o existente Segmented Anything Model 2 (SAM2) com uma máquina de memória não treinável.

Usando um modelo de memória, os modelos de segmentação atuais, incluindo o SAM2, armazenam informações de quadros anteriores. Eles têm boa precisão de segmentação, mas sofrem com o acúmulo de erros devido a erros de segmentação iniciais que são propagados pelos quadros subsequentes. Este problema de aglomeração é especialmente desenvolvido em cenas complexas com oclusão e reaparecimento de objetos. A integração incorreta de vários caminhos de dados e o design de seleção egoísta do SAM2 podem afetar muito o desempenho de vídeos longos. Além disso, a exigência de altos recursos computacionais torna-o impraticável em aplicações do mundo real.

SAM2LONG usa uma estrutura de árvore de memória sem treinamento que lida dinamicamente com sequências longas sem retreinamento extenso. Além disso, avalia múltiplos métodos de segmentação simultaneamente, apoiando assim uma melhor gestão da incerteza da segmentação e a capacidade de selecionar resultados óptimos. Sua robustez contra oclusões e seu desempenho superior de rastreamento advêm do fato de manter um número fixo de ramificações candidatas ao longo do vídeo.

O método SAM2LONG segue um processo estruturado. Primeiro, um número fixo de métodos de segmentação é estabelecido com base no quadro anterior e, em seguida, múltiplas máscaras candidatas são geradas a partir dos métodos existentes em cada quadro. Uma pontuação cumulativa é calculada com base na precisão e confiabilidade de cada máscara, levando em consideração fatores como Intersecção sobre União (IoU) prevista e pontuações de fechamento. Em seguida, os ramos com maiores pontuações são selecionados como novos caminhos para os próximos quadros. Por fim, após processar todos os frames, o método com maior pontuação acumulada é selecionado como saída final do segmento.

Esta técnica permite que o SAM2Long gerencie a oclusão e a recorrência de objetos de forma eficaz usando seu design de pesquisa heurística. As métricas de desempenho mostram que o SAM2Long alcança uma melhoria média de 3,0 pontos em vários benchmarks, com ganhos significativos de até 5,3 pontos em conjuntos de dados desafiadores, como SA-V e LVOS. O método foi rigorosamente validado em todos os cinco benchmarks VOS, demonstrando seu desempenho em situações do mundo real.

Em resumo, SAM2Long resolve o problema de acumulação de erros na segmentação de objetos de vídeo longos com uma nova estrutura de árvore de memória, o que melhora muito a precisão do rastreamento de longo prazo. A função proposta apresenta boas vantagens na tarefa de classificação sem treinamento ou parâmetros adicionais e é aplicável a configurações complexas. Parece promissor, mas deve ser validado em diferentes contextos do mundo real para concluir adequadamente a sua eficácia e robustez. No geral, este trabalho representa um importante avanço para a tecnologia de segmentação de vídeo e aponta para melhores resultados para muitas aplicações que dependem do rastreamento preciso de objetos.

Confira Artigo, Projeto e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.

[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)

Afeerah Naseem é estagiária de consultoria na Marktechpost. Ele está cursando bacharelado em tecnologia no Instituto Indiano de Tecnologia (IIT), Kharagpur. Ele é apaixonado por Ciência de Dados e fascinado pelo papel da inteligência artificial na resolução de problemas do mundo real. Ele adora descobrir novas tecnologias e explorar como elas podem tornar as tarefas diárias mais fáceis e eficientes.

Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️

Source link

Você também pode gostar...

Pesquisadores da CMU lançam Pangea-7B: modelos multilíngues totalmente abertos para MLLMs em 39 idiomas

Como os Adaptive Bricks alteram o desempenho de grandes modelos de linguagem

AQUI: Uma estrutura de aprendizado profundo que alcança modelagem de alta precisão de uma ampla gama de sistemas dinâmicos, injetando simetria de reversão de tempo como um viés indutivo.

Deixe um comentário Cancelar resposta