Medprompt, uma estratégia instrucional em tempo real, demonstra a capacidade de orientar LLMs de uso geral para alcançar desempenho moderno em domínios especializados, como a medicina. Ao usar técnicas estruturadas de estímulo em várias etapas, como pensamento em cadeia de pensamento (CoT), exemplos de múltipla escolha e integração seletiva, o Medprompt preenche a lacuna entre modelos generalistas e de domínio específico. Esta abordagem melhora significativamente o desempenho em benchmarks médicos como o MedQA, alcançando uma redução de aproximadamente 50% nas taxas de erro sem otimização do modelo. O modelo de visualização O1 da OpenAI também é um exemplo de avanços na arquitetura LLM ao incorporar raciocínio em tempo de execução para refinar resultados dinamicamente, indo além das técnicas tradicionais de CoT para resolver tarefas complexas.
Historicamente, o treinamento prévio específico de domínio foi essencial para o alto desempenho em áreas especializadas, como visto em modelos como PubMedBERT e BioGPT. No entanto, o surgimento de grandes modelos generalistas, como o GPT-4, mudou este paradigma, com tais modelos superando os seus homólogos de domínio específico em tarefas como o USMLE. Técnicas como o Medprompt melhoram o desempenho do modelo generalista ao incorporar métodos de estímulo dinâmico, permitindo que modelos como o GPT-4 alcancem resultados superiores em benchmarks clínicos. Apesar dos avanços em modelos médicos bem ajustados, como Med-PaLM e Med-Gemini, as abordagens generalistas com técnicas refinadas de tempo de inferência, demonstradas por Medprompt e o1-preview, oferecem soluções simples e eficazes em domínios elevados.
Os pesquisadores da Microsoft e da OpenAI testaram o modelo de visualização o1, que representa uma mudança na arquitetura de IA ao incorporar o pensamento CoT durante o treinamento. Essa abordagem de “pensamento tradicional” permite a resolução de problemas passo a passo de maneira intuitiva, reduzindo a dependência de técnicas rápidas de engenharia, como o Medprompt. O estudo deles descobriu que o o1-preview superou o GPT-4, e até mesmo o Medprompt, em todos os benchmarks clínicos, e menos prompts prejudicaram seu desempenho, sugerindo que a aprendizagem dentro do conteúdo é menos eficaz em tais modelos. Embora técnicas que consomem muitos recursos, como clustering, sejam sempre eficazes, a visualização o1 alcança resultados modernos em uma taxa mais alta. Estas conclusões destacam a necessidade de novos parâmetros de referência para desafiar os modelos de pensamento tradicionais e melhorar o tempo de inovação.
Medprompt é uma estrutura projetada para aprimorar modelos de uso geral, como o GPT-4, em domínios especializados, como medicina, combinando vários prompts, raciocínio CoT e integração. Ele seleciona dinamicamente modelos adequados, usa CoT para raciocínio passo a passo e melhora a precisão agrupando vários votos de várias execuções de modelos. As técnicas de metarraciocínio agilizam a alocação de recursos por meio da computação no momento da decisão, enquanto a integração de recursos externos, como a Geração Aumentada de Recuperação (RAG), garante acesso em tempo real a informações relevantes. Técnicas avançadas de feedback e estruturas de raciocínio iterativo, como o Self-Taught Reasoner (STAR), melhoram ainda mais os resultados do modelo, enfatizando o raciocínio escalonado no tempo em relação ao treinamento anterior. A orquestração multiagente fornece soluções colaborativas para tarefas complexas.
O estudo avalia o modelo de visualização o1 em benchmarks clínicos, comparando seu desempenho com modelos GPT-4, incluindo técnicas avançadas de Medprompt. A precisão, uma métrica chave, é avaliada em conjuntos de dados como MedQA, MedMCQA, MMLU, NCLEX e JMLE-2024, bem como em materiais de preparação USMLE. Os resultados mostram que a visualização o1 muitas vezes supera o GPT-4, tendo sucesso em tarefas que exigem raciocínio e situações multilíngues como o JMLE-2024. As técnicas de informação, especialmente o agrupamento, melhoram o desempenho, embora poucas informações possam impedi-lo. o1-preview atinge maior precisão, mas incorre em custos mais elevados em comparação com GPT-4o, que oferece um melhor equilíbrio custo-desempenho. A pesquisa destaca as compensações entre precisão, custo e métodos de validação no desenvolvimento de modelos de linguagem médica em larga escala.
Concluindo, o modelo de visualização o1 da OpenAI melhora muito o desempenho do LLM, alcançando alta precisão em benchmarks clínicos sem exigir técnicas complexas de reconhecimento. Ao contrário do GPT-4 com Medprompt, a visualização o1 reduz a dependência de técnicas como poucos prompts, que às vezes têm um impacto negativo no desempenho. Embora a integração ainda seja eficiente, exige compensações cuidadosas entre custo e desempenho. O modelo estabelece uma nova fronteira de Pareto, proporcionando resultados de alta qualidade, enquanto o GPT-4o oferece uma alternativa mais econômica para determinadas tarefas. Com as pré-visualizações do o1 próximo da saturação nos benchmarks existentes, há uma necessidade urgente de testes mais desafiadores para testar ainda mais suas capacidades, especialmente em aplicações do mundo real.
Confira Detalhes e papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)