A IA teve um grande impacto nos cuidados de saúde, especialmente no diagnóstico de doenças e no planeamento de tratamentos. Outra área que recebe atenção é o desenvolvimento de Modelos Médicos de Grande Visão e Linguagem (Med-LVLMs), que combinam dados visuais e textuais para ferramentas de diagnóstico avançadas. Esses modelos têm demonstrado grande potencial para melhorar a análise de imagens médicas complexas, fornecendo respostas interativas e inteligentes que podem auxiliar os médicos na tomada de decisões clínicas. No entanto, por mais promissoras que sejam estas ferramentas, elas apresentam sérios desafios que limitam a sua adoção generalizada nos cuidados de saúde.
Um problema importante que os Med-LVLMs enfrentam é a tendência de produzir informações médicas imprecisas ou “falsificadas”. Essas suposições podem ter um impacto negativo nos resultados dos pacientes se os modelos gerarem diagnósticos incorretos ou interpretarem mal as imagens médicas. As principais razões para estes problemas são a necessidade de conjuntos de dados médicos grandes e de alta qualidade e as lacunas de distribuição entre os dados utilizados para treinar estes modelos e os dados encontrados em ambientes clínicos do mundo real. Esta incompatibilidade entre os dados de formação e os dados reais de implantação cria preocupações significativas de fiabilidade, tornando difícil confiar nestes modelos em situações médicas críticas. Além disso, as soluções atuais, como métodos de ajuste fino e geração aumentada de recuperação (RAG), têm limitações, especialmente quando usadas em vários campos médicos, como radiologia, patologia e oftalmologia.
Os métodos existentes para melhorar o desempenho dos Med-LVLMs concentram-se principalmente em dois métodos: otimização e RAG. O ajuste fino envolve o ajuste dos parâmetros do modelo com base em conjuntos de dados pequenos e especializados para melhorar a precisão, mas a disponibilidade limitada de dados rotulados de alta qualidade dificulta esta abordagem. Além disso, os modelos ajustados geralmente precisam ter melhor desempenho quando aplicados a dados novos e não observados. Em contraste, o RAG permite que os modelos recuperem informações externas durante o processo de identificação, fornecendo feedback em tempo real que pode ajudar a melhorar a precisão da verdade. No entanto, esse processo poderia ser ainda melhor. Os actuais sistemas baseados em RAG requerem frequentemente assistência para integrar vários domínios médicos, o que limita a sua fiabilidade e causa potenciais discrepâncias entre a informação devolvida e o problema médico real em questão.
Pesquisadores da UNC-Chapel Hill, Universidade de Stanford, Universidade Rutgers, Universidade de Washington, Universidade Brown e PloyU estão lançando um novo programa chamado. MMed-RAGé um sistema flexível de recuperação aumentada multimodal projetado especificamente para modelos de linguagem visual médica. O MMed-RAG visa melhorar significativamente a verdadeira precisão dos Med-LVLMs usando um método de recuperação com reconhecimento de domínio. Este processo pode lidar com diferentes tipos de imagens médicas, como radiologia, oftalmologia e patologia, garantindo que o modelo de recuperação seja adequado para um domínio médico específico. Os pesquisadores também desenvolveram um método dinâmico de seleção de contexto que ajusta o número de condições detectadas durante o processo de previsão, garantindo que o modelo utilize apenas informações relevantes e de alta qualidade. Essa seleção dinâmica ajuda a evitar armadilhas comuns em que os modelos recebem muitos ou poucos dados, o que pode levar a um ajuste inadequado.
O programa MMed-RAG baseia-se em três elementos principais:
- EU recuperação com reconhecimento de segundo plano o método garante que o modelo obtenha informações específicas do domínio que correspondam perfeitamente à imagem médica de entrada. Por exemplo, as imagens radiológicas podem ser combinadas com informações radiológicas relevantes, enquanto as imagens patológicas serão extraídas de bancos de dados específicos de patologias.
- EU seleção flexível de conteúdo O método melhora a qualidade das informações retornadas usando pontuações correspondentes para filtrar dados irrelevantes ou de baixa qualidade. Esta abordagem flexível garante que o modelo considere apenas as condições mais relevantes, reduzindo o risco de uma visão realista.
- EU Ajuste fino de preferências baseadas em RAG melhora a consistência do modelo entre modalidades, garantindo que as informações retornadas e a entrada visual estejam bem alinhadas com a verdade básica, melhorando assim a confiabilidade geral do modelo.
O MMed-RAG foi testado em todos os cinco conjuntos de dados médicos, incluindo radiologia, patologia e oftalmologia, com resultados excelentes. O sistema alcançou uma melhoria de 43,8% na precisão real em comparação com os Med-LVLMs anteriores, destacando seu potencial para melhorar a confiabilidade diagnóstica. Nas tarefas de resposta a perguntas médicas (VQA), o MMed-RAG melhorou a precisão em 18,5% e na geração de relatórios médicos alcançou uma melhoria significativa de 69,1%. Estes resultados mostram o desempenho do sistema em tarefas fechadas e abertas, onde as informações obtidas são importantes para a obtenção de respostas precisas. Além disso, o método de ajuste fino de preferência usado pelo MMed-RAG aborda a imprecisão de vários métodos, um problema comum em outros Med-LVLMs, onde os modelos lutam para combinar a entrada visual com a informação textual retornada.
As principais conclusões deste estudo incluem:
- O MMed-RAG alcançou um aumento de 43,8% na precisão real em cinco conjuntos de dados médicos.
- O sistema melhorou a precisão do VQA médico em 18,5% e a produção de relatórios médicos em 69,1%.
- Um método de recuperação sensível ao contexto garante que as imagens médicas correspondam ao contexto correto, melhorando a precisão do diagnóstico.
- A escolha de um contexto flexível ajuda a reduzir a recuperação de dados irrelevantes, o que aumenta a confiabilidade da saída do modelo.
- A otimização de preferências baseada em RAG lida com eficácia com as discrepâncias entre a entrada visual e as informações recuperadas, melhorando o desempenho geral do modelo.
Em conclusão, o MMed-RAG melhora significativamente os modelos linguísticos de percepção médica, abordando desafios importantes relacionados à precisão do modelo e à organização do modelo. Ao combinar recuperação com reconhecimento de domínio, seleção adaptativa de conteúdo e otimização de preferências, o sistema melhora a confiabilidade do Med-LVLM e melhora sua aplicabilidade a vários domínios médicos. Este sistema tem apresentado melhorias significativas na precisão do diagnóstico e na qualidade dos relatórios médicos produzidos. Esses desenvolvimentos posicionam o MMed-RAG como um passo importante para tornar o diagnóstico médico assistido por IA mais confiável e confiável.
Confira Papel e GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] A melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (atualizado)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️