MEDEC: uma referência para detecção e correção de erros médicos em anotações clínicas usando LLMs

Os LLMs demonstraram habilidades notáveis em responder perguntas médicas com precisão, superando até mesmo a pontuação média de pessoas em outros exames médicos. Porém, sua adoção em atividades de documentação médica, como a produção de anotações clínicas, enfrenta desafios devido ao risco de produzir informações imprecisas ou inconsistentes. A pesquisa mostra que 20% dos pacientes que leem notas clínicas identificaram erros, enquanto 40% os consideram negativos, muitas vezes relacionados a erros de diagnóstico. Isto levanta sérias preocupações, especialmente porque os LLMs apoiam cada vez mais carreiras em literatura médica. Embora esses modelos tenham apresentado forte desempenho no atendimento a questões de exames médicos e na simulação do raciocínio clínico, eles tendem a produzir ideias falsas e conteúdos potencialmente prejudiciais, o que pode impactar negativamente na tomada de decisão clínica. Isto destaca a necessidade crítica de estruturas de validação robustas para garantir a precisão e segurança do conteúdo médico produzido pelo LLM.

Esforços recentes testaram benchmarks de testes de consistência em domínios gerais, como consistência semântica, lógica e factual, mas esses métodos muitas vezes não conseguem garantir a confiabilidade em todas as situações de teste. Embora modelos como ChatGPT e GPT-4 apresentem melhor raciocínio e compreensão da linguagem, estudos mostram que eles sofrem de consistência lógica. No domínio médico, os testes LLMs, como ChatGPT e GPT-4, têm demonstrado desempenho preciso em exames médicos padronizados, como o USMLE. No entanto, surgem limitações ao lidar com questões médicas complexas, e o rascunho do LLM sobre comunicação com o paciente mostrou riscos potenciais, incluindo danos graves se os erros não forem corrigidos. Apesar dos avanços, a falta de normas publicamente disponíveis para verificar a exactidão e consistência dos documentos médicos produzidos pelos LLMs sublinha a necessidade de sistemas de verificação fiáveis e automatizados para enfrentar eficazmente estes desafios.

Pesquisadores da Microsoft e da Universidade de Washington desenvolveram o MEDEC, o primeiro benchmark disponível publicamente para detectar e corrigir erros médicos em anotações clínicas. O MEDEC inclui 3.848 documentos clínicos abrangendo cinco tipos de erros: Diagnóstico, Manejo, Tratamento, Farmacoterapia e Organismo Causal. Testes usando LLMs avançados, como GPT-4 e Claude 3.5 Sonnet, revelam sua capacidade de lidar com essas tarefas, mas os profissionais médicos humanos passam neles. Este referencial destaca os desafios na validação e correção da documentação clínica, sublinhando a necessidade de modelos com pressupostos médicos robustos. As informações deste teste fornecem orientação para o desenvolvimento de futuros sistemas de detecção de erros.

A base de dados MEDEC contém 3.848 documentos clínicos, definidos por cinco tipos de erros: Diagnóstico, Manejo, Tratamento, Farmacoterapia e Organismo Causal. Os erros são apresentados por meio de exame do conselho médico (MS) e correção de notas clínicas originais dos hospitais da Universidade de Washington (UW). Os anotadores cometeram erros manuais ao injetar associações médicas incorretas no texto e, ao mesmo tempo, garantir a consistência com outras partes da nota. O MEDEC foi projetado para testar modelos de detecção e correção de erros, divididos em previsão de erros, identificação de sentenças de erro e correções.

O experimento usou vários pequenos LLMs e LLMs, incluindo Phi-3-7B, Claude 3.5 Sonnet, Gemini 2.0 Flash e a série GPT-4 da OpenAI, para avaliar seu desempenho em operações de detecção e reparo de erros médicos. Esses modelos foram testados em subtarefas como detecção de erros, identificação de sentenças erradas e realização de correções. Métricas como precisão, recall, ROUGE-1, BLEURT e BERTScore foram usadas para avaliar suas capacidades, juntamente com uma pontuação composta combinando essas métricas para qualidade de reparo. Claude 3.5 Sonnet alcançou a maior precisão na detecção de sinalizadores de erro (70,16%) e sentenças (65,62%), enquanto a visualização o1 teve sucesso na correção de erros com uma pontuação combinada de 0,698. Uma comparação com anotações médicas profissionais destacou que, embora os LLMs tivessem um bom desempenho, ainda eram superados pelos médicos em tarefas diagnósticas e corretivas.

A lacuna de desempenho pode ser devida à disponibilidade limitada de dados médicos específicos de erros no pré-treinamento do LLM e ao desafio de analisar a documentação clínica existente em vez de gerar respostas. Entre os modelos, os testes preliminares o1 mostraram recall superior para todos os tipos de erros, mas dificuldade com precisão, o que tende a superestimar a ocorrência de erros em comparação com especialistas clínicos. Esta falta de precisão, juntamente com a dependência dos modelos em conjuntos de dados públicos, resultou em diferenças de desempenho entre subconjuntos, com modelos com melhor desempenho em conjuntos de dados públicos (por exemplo, MEDEC-MS) do que em conjuntos de dados privados como o MEDEC-UW.

Confira eu Papel de novo Página GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.

🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)

Source link

Você também pode gostar...

Como o cérebro tensor usa incorporação e imagens para integrar sinais sensoriais e determinar?

Lançado Embedić: um conjunto de modelos de incorporação de texto sérvio aprimorados para recuperação de informações e RAG

Replicação de pensamento: uma estrutura de IA para melhorar as respostas de LLM, gerando alertas acionadores de “pensamento”

Deixe um comentário Cancelar resposta