SynSUM: uma referência prática para sintetizar notas clínicas e dados estruturados
Inteligência artificial

SynSUM: uma referência prática para sintetizar notas clínicas e dados estruturados


Os Registros Eletrônicos de Saúde (EHRs) apresentam uma riqueza de informações, incluindo dados tabulares estruturados e notas clínicas não estruturadas. Este valioso recurso constitui a base para o treinamento de sistemas de apoio à decisão clínica e processos automatizados de diagnóstico e planejamento de tratamento. Embora os modelos linguísticos de grande escala (LLMs) sejam capazes de utilizar texto não estruturado, falta-lhes interpretação, um factor importante em aplicações clínicas de alto risco. Além disso, os modelos baseados em recursos são melhores em termos de robustez, mas não podem processar diretamente texto não estruturado. Isto representa um grande desafio para aproveitar todo o potencial do EHR na tomada de decisões clínicas, destacando a necessidade de métodos eficazes de extracção de informação clínica (CIE) para colmatar a lacuna entre dados não estruturados e modelos interpretáveis.

Os métodos existentes não utilizam plenamente o conhecimento médico disponível para colmatar esta lacuna. Duas fontes adicionais de informação, recursos tabulares já codificados em EHRs e informações de domínio clínico construídas como uma rede Bayesiana e capazes de melhorar a CIE. Isso ajuda a conectar as informações básicas codificadas com os conceitos extraídos do texto. No entanto, é necessário um conjunto de dados clínicos adequado contendo dados de texto tabulares e não estruturados para implementar este conceito. Embora existam conjuntos de dados de código aberto, como MIMIC-III e MIC-IV, eles apresentam desafios como complexidade, recursos tabulares baseados em cobrança e links inconsistentes entre recursos e conceitos textuais.

Pesquisadores do IDLab, Departamento de Tecnologia da Informação da Universidade de Ghent – imec Ghent, Bélgica, e do Departamento de Saúde Pública e Cuidados Primários da Universidade de Ghent, Ghent, Bélgica, propuseram o benchmark SynSUM, que é um conjunto de dados sintético que vincula notas clínicas não estruturadas a variáveis ​​de fundo. Este conjunto de dados contém 10.000 registros sintéticos de pacientes no domínio de doenças respiratórias, contendo variáveis ​​de tabela e notas clínicas relacionadas. SynSUM fornece pesquisa de extração de informações clínicas com variáveis ​​de fundo de tabela, vinculadas ao conhecimento do domínio e conceitos de interesse no texto, e oferece suporte à pesquisa de automação de raciocínio clínico.

O método proposto, SynSUM, usa quatro métodos diferentes para prever sintomas a partir de dados clínicos:

  1. BN-tab: Uma rede bayesiana com uma estrutura causal predefinida, usa estimativa de máxima verossimilhança para aprender parâmetros dos dados de treinamento.
  2. Guia XGBoost: classe XGBoost treinada para cada símbolo sob três configurações de evidência diferentes, com parâmetros otimizados para validação cruzada.
  3. Texto neural: uma classe neural que processa apenas entrada de texto, usa incorporações de frases do modelo BioLORD para prever probabilidades de sintomas.
  4. Aba de texto neural: uma extensão do método de texto neural que usa variáveis ​​de tabela e incorporações de texto, usando classificadores separados para cada símbolo.

Os métodos são avaliados usando a divisão de teste do trem 8000/2000 e validação cruzada de ajuste de hiperparâmetros. Eles relataram pontuações F1 para cada previsão de característica, usando um limite de probabilidade de 0,5 para separação. Os resultados mostram que os métodos baseados em texto (texto neural e guia de texto neural) têm melhor desempenho do que os métodos somente de tabela (guia BN e guia XGBoost). Sintomas como dispneia, tosse e congestão nasal são facilmente reconhecidos, em comparação com dor e febre. Observa-se uma lacuna de desempenho entre as notas comuns e as coletivas, causada pela complexidade destas últimas. Além disso, a incorporação correlacional foi menos eficaz do que a incorporação descritiva, que mostra informações relacionadas em diferentes categorias de notas.

Em resumo, os investigadores apresentaram um conjunto de dados SynSUM que oferece muitas aplicações potenciais na investigação em saúde. Seu principal objetivo é desenvolver técnicas de extração de informações clínicas para integrar variáveis ​​de fundo de tabelas. A estrutura única do conjunto de dados, utilizando dados estruturados e não estruturados com relações conhecidas, torna-o valioso em diversas áreas de pesquisa na interseção de dados tabulares e textuais na área da saúde. Essa flexibilidade posiciona o SynSUM como um recurso valioso para o desenvolvimento de muitos aspectos da informação médica e da ciência de dados em ambientes de saúde. Trabalhos futuros consistem em utilizar o conhecimento do domínio para correlacionar características da tabela com conceitos de texto para uma extração mais precisa.


Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..

Não se esqueça de participar do nosso Mais de 50k ML SubReddit

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)


Sajjad Ansari se formou no último ano do IIT Kharagpur. Como entusiasta da tecnologia, ele examina as aplicações da IA ​​com foco na compreensão do impacto das tecnologias de IA e suas implicações no mundo real. Seu objetivo é transmitir conceitos complexos de IA de maneira clara e acessível.

⏩ ⏩ WEBINAR GRATUITO DE IA: ‘Vídeo SAM 2: Como sintonizar seus dados’ (quarta-feira, 25 de setembro, 4h00 – 4h45 EST)





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *