O exame de LLMs em profissões médicas é tradicionalmente baseado em diversas questões de seleção. No entanto, estes parâmetros de referência são de âmbito limitado, apresentando frequentemente resultados saturados com o elevado desempenho repetido dos LLMs, e não refletem com precisão as condições clínicas do mundo real. O raciocínio clínico, o processo mental que os médicos utilizam para analisar e sintetizar dados médicos para chegar a um diagnóstico e tratamento, é uma referência muito lógica para avaliar a eficácia de um modelo. LLMs recentes demonstraram a capacidade de superar os médicos em tarefas de diagnóstico rotineiras e complexas, superando as ferramentas anteriores de avaliação baseadas em IA que usavam modelos de regressão, métodos bayesianos e programação baseada em regras.
Os desenvolvimentos nos LLMs, incluindo modelos básicos, superaram os profissionais médicos em medidas de diagnóstico, com técnicas como o CoT incentivando um maior desenvolvimento das suas capacidades de raciocínio. O modelo de visualização O1 da OpenAI, lançado em setembro de 2024, inclui uma abordagem CoT nativa, que permite um pensamento mais objetivo durante tarefas complexas de resolução de problemas. Este modelo teve um desempenho melhor que o GPT-4 no tratamento de desafios complexos, como informática e medicina. Apesar destes avanços, os benchmarks de múltipla escolha não conseguem captar a complexidade da tomada de decisão clínica, pois muitas vezes permitem que os modelos utilizem padrões semânticos em vez de raciocínio real. A prática clínica real requer um pensamento dinâmico e em várias etapas, onde os modelos devem processar e integrar continuamente diversas fontes de dados, refinar diagnósticos diferenciais e tomar decisões críticas sob incerteza.
Pesquisadores de instituições líderes, incluindo Beth Israel Deaconess Medical Center, Universidade de Stanford e Harvard Medical School, conduziram pesquisas para testar o modelo de visualização o1 da OpenAI, que foi projetado para melhorar o pensamento sobre processos seriais. O modelo foi testado em cinco tarefas: geração de diagnóstico diferencial, interpretação do raciocínio, diagnóstico de triagem, raciocínio probabilístico e raciocínio gerencial. Médicos especialistas avaliaram os resultados do modelo usando métricas validadas e os compararam com LLM anteriores e benchmarks humanos. Os resultados mostraram uma melhoria significativa no diagnóstico e no pensamento de gestão, mas nenhuma melhoria no pensamento probabilístico ou na tomada de decisões. O estudo ressalta a necessidade de benchmarks rigorosos e testes do mundo real para avaliar as habilidades de LLM em ambientes clínicos.
O estudo testou o modelo de visualização O1 da OpenAI usando uma variedade de cenários de diagnóstico médico, incluindo casos da NEJM Clinicopathologic Conference (CPC), casos NEJM Healer, casos de gerenciamento de Gray Matters, casos de diagnóstico de referência e tarefas de raciocínio probabilístico. Os resultados focaram na qualidade do diagnóstico diferencial, programas de triagem, documentação de consultas clínicas e diagnóstico de doenças críticas. Os médicos avaliaram as pontuações usando métricas validadas, como Bond Scores, R-IDEA e rubricas padronizadas. O desempenho do modelo foi comparado com controles históricos do GPT-4, benchmarks humanos e recursos aprimorados. Análises estatísticas, incluindo teste de McNemar e modelos de efeitos mistos, foram realizadas em R. Os resultados destacaram os pontos fortes da previsão o1 no pensamento, mas identificaram áreas como possíveis pensamentos que precisavam de melhorias.
O estudo avaliou o poder diagnóstico da visualização o1 usando casos do New England Journal of Medicine (NEJM) e comparou-o ao GPT-4 e aos médicos. A prévia o1 entrou corretamente no diagnóstico em 78,3% dos casos de NEJM, o melhor desempenho do GPT-4 (88,6% vs. 72,9%). Obteve alta acurácia na seleção dos testes (87,5%) e se beneficiou bem no raciocínio clínico (R-IDEA) em 78/80 casos do NEJM Curandeiro, superou o GPT-4 e o médico. Nas vinhetas de gestão, a prévia o1 passou no GPT-4 e nos médicos por mais de 40%. Atingiu uma pontuação média de 97% nos critérios diagnósticos históricos, comparável ao GPT-4, mas superior ao médico. A imagem de probabilidade pode ser feita da mesma forma que o GPT-4, com melhor acurácia na avaliação do estresse coronariano.
Concluindo, o Preview Model o1 apresentou desempenho superior no raciocínio clínico em todos os cinco testes, superando o GPT-4 e as bases humanas em tarefas como diagnóstico diferencial, raciocínio diagnóstico e decisões gerenciais. No entanto, não apresentou melhoria significativa em relação ao GPT-4 na previsão da probabilidade ou na identificação do diagnóstico crítico. Isto destaca o potencial do LLM no apoio à decisão clínica, embora sejam necessários ensaios no mundo real para confirmar a sua integração no atendimento ao paciente. Os parâmetros de referência actuais, como os CPC do NEJM, estão a aproximar-se da saturação do espaço, necessitando de avaliações realistas e desafiantes. As limitações incluem verbosidade, falta de estudos de interação humano-computador e foco na medicina interna, enfatizando a necessidade de uma avaliação mais ampla.
Confira eu Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)