Os modelos de visão biomédica são amplamente utilizados em ambientes clínicos, mas um grande desafio é a sua incapacidade de adaptação eficaz devido a mudanças no conjunto de dados-diferenças entre dados de treinamento e condições do mundo real. Essas alterações surgem de diferenças nos achados de imagem, alterações nas manifestações da doença e diferenças na população. Como resultado, os modelos treinados em conjuntos de dados limitados ou tendenciosos geralmente apresentam desempenho insatisfatório em aplicações do mundo real, colocando em risco a segurança do paciente. O desafio é desenvolver métodos para identificar e abordar estes vieses antes de os modelos serem utilizados em ambientes clínicos, garantindo que sejam suficientemente robustos para lidar com a complexidade e a variabilidade dos dados clínicos.
As técnicas atuais para lidar com conjuntos de dados em constante mudança envolvem frequentemente o uso de dados sintéticos gerados por modelos de aprendizagem profunda, como GANs e modelos de difusão. Embora estes métodos tenham se mostrado promissores na simulação de novas condições, eles sofrem de várias limitações. Métodos como LANCE e DiffEdit, que tentam corrigir certas características em imagens médicas, muitas vezes introduzem alterações não intencionais, como alteração de características anatômicas não relacionadas ou introdução de artefatos visuais. Estas inconsistências limitam a confiabilidade destas técnicas em modelos de testes de estresse para aplicações clínicas do mundo real. Por exemplo, um método baseado em máscara, como o DiffEdit, luta contra falsas correlações, que fazem com que recursos importantes sejam alterados incorretamente, limitando sua eficácia.
Uma equipe de pesquisadores da Microsoft Health Futures, da Universidade de Edimburgo, da Universidade de Cambridge, da Universidade da Califórnia e da Universidade de Stanford propôs Radé um novo método de edição de imagens baseado em difusão projetado especificamente para resolver as deficiências dos métodos anteriores. RadEdit usa múltiplas máscaras de imagem para controlar com precisão quais regiões de uma imagem médica são editadas, preservando a integridade das áreas circundantes. Essa estrutura multimáscara garante que sejam evitadas falsas correlações, como a coocorrência de canais torácicos e pneumotórax nas radiografias de tórax, mantendo a semelhança visual e estrutural da imagem. A capacidade do RadEdit de gerar conjuntos de dados sintéticos altamente confiáveis permite simular mudanças de conjuntos de dados do mundo real, revelando assim modos de falha em modelos de visão biomédica. Este método proposto apresenta uma importante contribuição para modelos de avaliação de estresse nas condições de detecção, expressão e mudança populacional, fornecendo uma solução mais precisa e robusta.
RadEdit é baseado em um modelo de distribuição latente treinado em mais de 487.000 imagens de radiografia de tórax de grandes conjuntos de dados, incluindo MIMIC-CXR, ChestX-ray8 e CheXpert. O sistema utiliza uma máscara dupla – uma máscara para edição de regiões a serem modificadas e uma máscara para áreas que devem permanecer inalteradas. Este design garante que o arranjo seja localizado sem perturbar outras estruturas anatômicas importantes, o que é importante em aplicações médicas. RadEdit usa o modelo BioViL-T, um modelo de linguagem visual específico de domínio em imagens médicas, para verificar a qualidade de sua edição usando pontos de alinhamento de texto e imagem, garantindo que as imagens sintéticas representem com precisão condições médicas sem introduzir artefatos visuais.
Os testes do RadEdit demonstraram sua eficácia em testes de estresse de modelos de visão biomédica em todos os três cenários de transformação de conjuntos de dados. De mudança de aquisição Nos testes, o RadEdit revelou uma diminuição significativa no desempenho da fase fraca do COVID-19, com a precisão caindo de 99,1% em dados de treinamento tendenciosos para apenas 5,5% em dados experimentais, revelando a dependência do modelo em fatores de confusão. Porque mudança de expressãoquando o pneumotórax foi classificado preservando detritos torácicos, a acurácia do classificador caiu de 93,3% para 17,9%, destacando sua falha em distinguir entre doença e artefatos clínicos. De mudança de pessoas no caso, o RadEdit adicionou anormalidades às radiografias de pulmões saudáveis, levando a uma diminuição significativa no desempenho do modelo de segmentação, especialmente nas pontuações dos dados e nas métricas de erro. No entanto, os modelos robustos treinados nos vários dados mostraram grande resiliência entre as mudanças, sublinhando a capacidade do RadEdit de identificar vulnerabilidades do modelo e avaliar a robustez sob várias condições.
Concluindo, o RadEdit representa uma maneira promissora de testar modelos de visão biomédica, criando conjuntos de dados sintéticos realistas que simulam mudanças importantes no conjunto de dados. Ao usar múltiplas máscaras e edição avançada baseada em difusão, o RadEdit reduz as limitações dos métodos anteriores, garantindo que a edição seja precisa e os artefatos minimizados. RadEdit tem o potencial de melhorar significativamente a robustez dos modelos médicos de IA, melhorar o seu desempenho no mundo real e, em última análise, contribuir para sistemas de saúde mais seguros e eficientes.
Confira Papel de novo Detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
Assine o boletim informativo de ML de rápido crescimento com mais de 26 mil assinantes
Aswin AK é consultor da MarkTechPost. Ele está cursando seu diploma duplo no Instituto Indiano de Tecnologia, Kharagpur. Ele é apaixonado por ciência de dados e aprendizado de máquina, o que traz consigo uma sólida formação acadêmica e experiência prática na solução de desafios de domínio da vida real.