A análise sistemática de dados pode auxiliar em um melhor diagnóstico e atendimento ao paciente. No entanto, a análise de dados não estruturados pode alimentar avanços e descobertas médicas revolucionárias.
Essa é a essência do tema que discutiremos hoje. É muito interessante ver que avanços tão grandes na área de tecnologia de saúde aconteceram com 10-20% dos dados de saúde utilizáveis.
As estatísticas mostram que mais de 90% dos dados neste espectro não são estruturados, o que se traduz em dados inutilizáveis e difíceis de compreender, interpretar e utilizar. Desde dados analógicos, como uma prescrição, até dados digitais na forma de imagens médicas e dados audiovisuais, os dados não estruturados são de vários tipos.
Esses grandes blocos de dados não estruturados abrigam insights incríveis que podem impulsionar avanços na área da saúde por décadas. Mesmo que ajude a encontrar medicamentos para doenças graves que ceifam automaticamente a vida em dados que podem ajudar as companhias de seguros de saúde na avaliação de riscos, os dados não estruturados podem abrir caminho para oportunidades desconhecidas.
Quando tais desejos existem, a interpretação e a colaboração dos dados de saúde tornam-se essenciais. E diretrizes rígidas e aplicação de conformidade e controle com o GDPR e a HIPAA em vigor, é inevitável desidentificação de dados de saúde.
Já cobrimos um artigo abrangente sobre descomissionamento dados estruturados de saúde de novo dados de saúde não estruturados. Há um artigo dedicado (leia mais) sobre isso desidentificação de dados de saúde assim. Recomendamos que você os leia para obter informações completas, pois teremos este artigo com um clipe especial desidentificação de dados.
Desafios na identificação de dados não estruturados
Como o nome sugere, dados não estruturados são não estruturados. Ele é dividido em formatos, tipos de arquivo, tamanhos, conteúdo e muito mais. O simples fato de existirem dados não estruturados na forma de áudio, texto, imagens médicas, entradas analógicas e muito mais torna mais difícil entender as informações de identificação pessoal (PII), que são importantes desidentificação de dados.
Para lhe dar uma ideia dos desafios básicos, aqui está uma lista rápida:
- Compreensão do conteúdo – onde é difícil para um participante da IA compreender o contexto específico por trás de uma determinada parte ou parte de dados não estruturados. Por exemplo, entender que um nome é o nome de uma empresa, o nome de uma pessoa ou o nome de um produto pode apresentar o problema de saber se ele deve ser desidentificado.
- Dados não textuais – onde identificar pistas auditivas ou visuais para nomes ou PIIs pode ser uma tarefa difícil, pois os participantes podem ter que gastar horas e horas de imagens ou gravações tentando remover elementos sensíveis.
- Para ser vago – isto é especialmente verdadeiro no contexto de dados analógicos, como uma prescrição médica ou uma entrada hospitalar num registo. Da escrita à mão às limitações da representação da linguagem natural, pode tornar a desidentificação de dados uma tarefa difícil.
Melhores práticas para desidentificação de dados aleatórios
O processo de extração de PIIs de dados não estruturados é bem diferente desidentificação de dados estruturados mas é impossível. Ao utilizar uma abordagem estruturada e contextual, o poder dos dados não estruturados pode ser facilmente aproveitado. Vejamos as diferentes maneiras pelas quais isso pode ser feito.
Resolução de imagem: Isso se refere a dados de imagens médicas e envolve a remoção de identificadores de pacientes e o desfoque de pontos de referência e componentes anatômicos nas imagens. Eles são substituídos por caracteres especiais para manter a funcionalidade de diagnóstico e capturar o uso de dados.
Correspondência de padrões: Algumas das PII mais comuns, como nomes, informações de contato e endereços, podem ser detectadas e removidas usando inteligência de leitura de padrões predefinidos.
Privacidade alternativa ou supressão de dados: envolve a inclusão de ruído controlado para ocultar dados ou atributos que podem ser rastreados até um indivíduo. Este método eficiente garante não apenas a desidentificação dos dados, mas também a preservação das propriedades estatísticas do conjunto de dados para análise posterior.
Desidentificação de dados: Esta é uma das maneiras mais confiáveis e eficazes de remover PII de dados não estruturados. Isso pode ser feito de duas maneiras:
- Aprendizagem supervisionada – onde um modelo é treinado para classificar texto ou dados como PII ou não PII
- Aprendizagem não supervisionada – onde o modelo é treinado para aprender automaticamente a encontrar padrões na identificação de PIIs
Este método garante proteção privacidade do paciente mantendo ainda a intervenção humana em aspectos menos importantes da obra. Os participantes e provedores de dados de saúde que usam técnicas de ML para desidentificar dados não estruturados podem ter um processo de garantia de qualidade aprovado por humanos para garantir a imparcialidade, consistência e precisão dos resultados.
Criptografia de dados: A anonimização de dados é um jogo de palavras digital para desidentificar dados de saúde, onde certos identificadores são tornados genéricos ou obscurecidos usando técnicas como:
- Tokenização – que envolve a substituição de PIIs por letras ou tokens
- Generalização – substituindo alguns valores PII genéricos/obscuros
- embaralhando – ignorando PIIs para torná-los ambíguos
No entanto, este método apresenta a limitação de que, com um modelo ou método complexo, os dados podem ser reidentificados.
Terceirização para participantes do mercado
A única maneira adequada de garantir o processo de desidentificação de dados é sem ar, infalível e compatível com as diretrizes HIPAA, terceirizando tarefas para um provedor de serviços confiável como o Shaip. Com os melhores modelos e rigorosas normas de garantia de qualidade, garantimos supervisão pessoal da privacidade de dados é reduzido o tempo todo.
Como líderes de mercado há anos, entendemos a importância dos seus projetos. Portanto, entre em contato conosco hoje para avançar em suas aspirações de saúde com os dados desidentificados de saúde de Shaip.