Os LLMs são mais avançados, demonstrando suas habilidades em vários domínios. A inteligência, um conceito multifacetado, envolve muitas habilidades cognitivas, e os LLMs aproximam a IA de alcançar a inteligência geral. Desenvolvimentos recentes, como o modelo O1 da OpenAI, incorporam técnicas de pensamento como a Cadeia de Pensamento (CoT) que incentivam uma melhor resolução de problemas. Embora o1 tenha um bom desempenho em tarefas gerais, o seu desempenho em áreas especializadas como a medicina permanece incerto. As avaliações atuais dos LLMs médicos tendem a concentrar-se em aspectos limitados, como conhecimento, raciocínio ou segurança, o que torna difícil avaliar completamente estes modelos em práticas médicas complexas.
Pesquisadores da UC Santa Cruz, da Universidade de Edimburgo e dos Institutos Nacionais de Saúde testaram o modelo O1 da OpenAI, o primeiro LLM usando técnicas CoT com aprendizagem por reforço. Este estudo testou o desempenho do o1 na prática clínica, avaliando a compreensão, o raciocínio e o multilinguismo em 37 conjuntos de dados clínicos, incluindo dois novos benchmarks de controle de qualidade. O modelo o1 teve um desempenho melhor que o GPT-4 com uma precisão de 6,2%, mas ainda mostrou problemas como alucinações e capacidade multilíngue inconsistente. O estudo sublinha a necessidade de métricas de avaliação consistentes e modelos de prescrição melhorados.
Os LLMs mostraram um progresso significativo em tarefas de compreensão linguística, prevendo o próximo token e planejando instruções corretamente. No entanto, eles muitas vezes lutam com tarefas complexas de pensamento lógico. Para superar isso, os pesquisadores introduziram modelos CoT motivacionais e orientadores para simular processos de pensamento humano. O modelo O1 da OpenAI, treinado com extensos dados CoT e aprendizado por reforço, visa melhorar as habilidades de raciocínio. LLMs como o GPT-4 têm mostrado forte desempenho no domínio médico, mas o ajuste fino do domínio é necessário para aplicações clínicas confiáveis. A pesquisa investiga o potencial do o1 para uso clínico, demonstrando melhorias na compreensão, raciocínio e habilidades multilíngues.
O pipeline de avaliação concentra-se em três aspectos principais das habilidades do modelo: compreensão, raciocínio e multilinguismo, de acordo com as necessidades clínicas. Esses recursos são testados em 37 conjuntos de dados, incluindo tarefas como reconhecimento de conceitos, resumo, resposta a perguntas e tomada de decisões clínicas. Três estratégias informativas – estímulo direto, cadeia de pensamento e aprendizagem passiva – orientam os modelos. Métricas como precisão, pontuação F1, BLEU, ROUGE, AlignScore e Mauve avaliam o desempenho do modelo comparando as respostas geradas com os dados reais. Essas métricas medem a precisão, a similaridade das respostas, a consistência da verdade e o alinhamento com o texto escrito por humanos, garantindo uma avaliação completa.
O teste compara o1 com modelos como GPT-3.5, GPT-4, MEDITRON-70B e Llama3-8B em todos os conjuntos de dados médicos. o1 é altamente eficaz em tarefas clínicas, como reconhecimento de conceitos, resumo e cálculos médicos, superando GPT-4 e GPT-3.5. Ele alcança melhorias significativas de precisão em benchmarks como NEJMQA e LancetQA, superando o GPT-4 em 8,9% e 27,1%, respectivamente. O o1 também oferece altas pontuações de F1 e precisão em tarefas como BC4Chem, destacando seu conhecimento clínico superior e habilidades de raciocínio e posicionando-o como uma ferramenta promissora para aplicações clínicas do mundo real.
O modelo o1 representa um progresso significativo na PNL geral e na área médica, mas tem algumas desvantagens. Seu longo tempo de gravação – mais que o dobro do GPT-4 e nove vezes o do GPT-3.5 – pode levar a atrasos em operações complexas. Além disso, o desempenho do o1 é variável entre diferentes tarefas, apresentando desempenho insatisfatório em tarefas simples, como reconhecimento de conceitos. Métricas tradicionais como BLEU e ROUGE podem não avaliar adequadamente os seus resultados, especialmente em áreas médicas especializadas. Avaliações futuras exigem métricas e técnicas de validação aprimoradas para capturar melhor suas capacidades e reduzir limitações como alucinações e imprecisões verdadeiras.
Confira Papel de novo O projeto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso Mais de 50k ML SubReddit
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.