E se os vídeos faciais pudessem medir sua frequência cardíaca? Este artigo sobre IA revela PhysMamba e sua solução eficaz de controle remoto

A medição precisa de sinais fisiológicos, como frequência cardíaca (FC) e variabilidade da frequência cardíaca (VFC) a partir de vídeos faciais usando fotopletismografia remota (rPPG), apresenta vários desafios importantes. O rPPG, um método sem contato que analisa mudanças sutis no volume sanguíneo a partir de vídeos faciais, oferece uma solução promissora para monitoramento de saúde não invasivo. No entanto, capturar esses sinais minuciosos com precisão é difícil devido a questões como condições variáveis de iluminação, movimentos faciais e a necessidade de modelar dependências de longo alcance em sequências de vídeo estendidas. Esses desafios dificultam a extração de características físicas precisas de vídeos faciais, o que é importante para aplicações em tempo real na medicina e no bem-estar.

Os métodos atuais para estimar rPPG dependem fortemente de redes neurais convolucionais (CNNs) e modelos baseados em Transformers. As CNNs são muito eficazes na extração de características espaciais locais de quadros de vídeo, mas lutam para capturar a dependência temporal de longo alcance necessária para uma estimativa precisa da frequência cardíaca. Embora os Transformers resolvam essa limitação usando mecanismos de atenção para capturar dependências espaço-temporais globais, eles sofrem de alta complexidade computacional e ineficiências ao lidar com longas sequências de vídeo. Ambos os métodos também enfrentam desafios no tratamento do ruído causado por variações na iluminação ou no movimento facial, o que pode impactar negativamente a precisão e a confiabilidade das medições baseadas em rPPG em situações do mundo real.

Pesquisadores da Great Bay University apresentam Física Mambaum novo quadro concebido para colmatar as deficiências dos métodos existentes na medição da vida. PhysMamba é baseado em Mamba de diferença temporal (TD-Mamba) bloco, incluindo Mamba Bidirecional Temporal (Bi-Mamba) com Convolução de Diferença Temporal (TDC) capturando dinâmica espacial temporal e dependência de longo alcance em vídeos faciais. Dois fluxos Propriedades SlowFast considera propriedades temporais em múltiplas escalas, combinando fluxos lentos e rápidos para reduzir a redundância temporal enquanto preserva propriedades físicas importantes. Essa combinação de tecnologias permite que o modelo lide com eficiência com longas sequências de vídeo, ao mesmo tempo que melhora a precisão da estimativa do sinal rPPG, marcando uma melhoria significativa em relação aos métodos convencionais CNN e Transformer.

A estrutura PhysMamba consiste em um tronco raso para a primeira extração de características, seguido por três blocos TD-Mamba e um tronco de predição rPPG. EU Bloco TD-Mamba ele combina TDC para aprimorar recursos espaciais e temporais, Bi-Mamba para capturar dependências de longo alcance e canalizar a atenção para reduzir a redundância entre canais de recursos. EU Propriedades SlowFast considera fatores temporais lentos e rápidos em paralelo, o que melhora a capacidade do modelo de capturar variáveis espaço-temporais de curto e longo prazo. O método foi testado em três conjuntos de dados de referência – PURE, UBFC-rPPG e MMPD – usando métricas de teste padrão, incluindo Erro Médio Absoluto (MAE), Erro quadrático médio raiz (RMSE)de novo Coeficiente de correlação de Pearson (ρ)e a frequência cardíaca é medida em batimentos por minuto (bpm).

PhysMamba alcançou melhorias impressionantes em todos os conjuntos de dados e métricas testados. Para o conjunto de dados PURE, entregou um MAE de 0,25 bpm de novo RMSE de 0,4 bpmmodelos anteriores são mais eficientes como PhysFormer e EfficientPhys. O método também teve um desempenho robusto no conjunto de dados UBFC-rPPG, alcançando i MAE de 0,54 bpm de novo RMSE de 0,76 bpmverificando sua eficácia em uma variedade de situações do mundo real. Nos testes de conjuntos de dados, o PhysMamba superou consistentemente os modelos concorrentes, capturando com precisão mudanças físicas sutis e mantendo a eficiência computacional, tornando-o particularmente adequado para monitoramento de frequência cardíaca em tempo real em vídeos faciais.

PhysMamba apresenta uma solução poderosa para medição corporal sem contato, abordando as principais limitações na captura de dependência espaço-temporal de longo alcance em vídeos faciais. A combinação do bloco TD-Mamba e da arquitetura SlowFast de fluxo duplo permite uma extração de sinal rPPG mais precisa e eficiente, resultando em desempenho superior em vários conjuntos de dados. Ao desenvolver um perfil de frequência cardíaca baseado em rPPG, o PhysMamba demonstra o enorme potencial do aplicativo para monitoramento de atividade física não invasiva e em tempo real na área da saúde e além.

Confira Papel e Códigos. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

⏩ ⏩ WEBINAR GRATUITO DE IA: 'Vídeo SAM 2: Como sintonizar seus dados' (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.

⏩ ⏩ WEBINAR GRATUITO DE IA: 'Vídeo SAM 2: Como sintonizar seus dados' (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)

Source link

Você também pode gostar...

Lista dos principais modelos de mix de especialistas (MoE): arquitetura, funcionalidade e inovação de soluções escaláveis ​​de IA

Alcançando classificação causal a partir de dados observacionais sem intervenções

LLM-CI: uma nova estrutura de aprendizado de máquina para avaliar princípios de privacidade codificados em LLMs

Deixe um comentário Cancelar resposta

Lista dos principais modelos de mix de especialistas (MoE): arquitetura, funcionalidade e inovação de soluções escaláveis de IA