O desenvolvimento de VLMs no domínio biomédico enfrenta desafios devido à falta de conjuntos de dados extensos, anotados e acessíveis ao público em vários campos. Embora os conjuntos de dados criados a partir da literatura biomédica, como o PubMed, tendam a concentrar-se menos em domínios como a radiologia e a patologia, negligenciam áreas complementares, como a biologia molecular e a farmacogenómica, que são importantes para uma compreensão clínica abrangente. As preocupações com a privacidade, a complexidade da anotação a nível de peritos e as limitações metodológicas dificultam a criação de conjuntos de dados abrangentes. Métodos anteriores, como ROCO, MEDICAT e PMC-15M, contam com filtragem específica de domínio e modelos supervisionados para extrair milhões de pares de imagens. No entanto, estas técnicas muitas vezes não conseguem capturar a grande variedade de informações biomédicas necessárias para desenvolver VLMs biomédicas padrão.
Além das limitações do conjunto de dados, o treinamento e o teste de VLMs biomédicos apresentam desafios únicos. Métodos de aprendizagem inversa, como PMC-CLIP e BiomedCLIP, mostraram-se promissores ao usar conjuntos de dados e modelos baseados na literatura para transformar a visão do alinhamento texto a texto. No entanto, seu desempenho é limitado por pequenos conjuntos de dados e recursos computacionais limitados em comparação com VLMs convencionais. Além disso, os atuais princípios de avaliação, que estão voltados principalmente para as atividades de radiologia e patologia, carecem de padronização e de trabalho extenso. Depender de parâmetros mais legíveis e conjuntos de dados menores prejudica a confiabilidade desses testes, destacando a necessidade de conjuntos de dados escalonáveis e estruturas de teste robustas que possam atender às diversas necessidades das aplicações de linguagem de visão biomédica.
Pesquisadores da Universidade de Stanford lançaram BIOMEDICA, uma estrutura de código aberto projetada para extrair, anotar e organizar um subconjunto inteiro do PubMed Central Open Access em um conjunto de dados fácil de usar. Este arquivo inclui mais de 24 milhões de pares imagem-texto de 6 milhões de artigos anotados com metadados e anotações de especialistas. Eles também lançaram o BMCA-CLIP, uma coleção de modelos estilo CLIP pré-treinados na BIOMEDICA via streaming, eliminando a necessidade de armazenamento local de 27 TB de dados. Esses modelos alcançam desempenho de última geração em 40 tarefas, incluindo radiologia, dermatologia e biologia molecular, com uma melhoria média de 6,56% na classificação trivial e requisitos computacionais reduzidos.
O processo de processamento de dados BIOMEDICA inclui extração de conjuntos de dados, rotulagem de conceito e geração de serialização. Artigos e arquivos de mídia são baixados do servidor NCBI, metadados, resumos e índices estatísticos são extraídos de arquivos nXML e da API Entrez. As imagens são agrupadas usando incorporação DINOv2 e rotuladas com taxonomia hierárquica refinada por especialistas. Os rótulos são dados por maioria de votos e distribuídos entre os clusters. O conjunto de dados, que contém mais de 24 milhões de pares de legendas e extensos metadados, é organizado no formato WebDataset para distribuição eficiente. Com 12 conceitos de imagem globais e 170 locais, a taxonomia inclui categorias como imagem clínica, microscopia e visualização de dados, enfatizando escalabilidade e acessibilidade.
Um teste de pré-treinamento contínuo no conjunto de dados BIOMEDICA utilizou 39 tarefas de classificação biomédica estabelecidas e um novo conjunto de dados de recuperação do Flickr, que inclui 40 conjuntos de dados. A referência de classificação inclui funções de patologia, radiologia, biologia, cirurgia, dermatologia e oftalmologia. São usadas métricas como precisão média de classificação e recall (de 1, 10 e 100). A filtragem de conceitos, que exclui tópicos sobre-representados, teve melhor desempenho do que a estimativa de conceitos ou o pré-treinamento do conjunto completo de dados. Os modelos treinados na BIOMEDICA alcançaram resultados de última geração, mais eficientes que os métodos anteriores, com melhor desempenho em todas as tarefas de classificação, recuperação e microscopia usando menos dados e cálculos.
Concluindo, BIOMEDICA é uma estrutura abrangente que transforma um subconjunto do PubMed Central Open Access (PMC-OA) no maior conjunto de dados pronto para aprendizagem profunda, contendo 24 milhões de pares de legendas enriquecidos com 27 campos de metadados. Projetado para atender à escassez de conjuntos de dados biomédicos heterogêneos e anotados, o BIOMEDICA fornece uma solução rápida e de código aberto para extrair e interpretar dados multimodais de mais de 6 milhões de artigos. Ao pré-treinar continuamente modelos estilo CLIP usando BIOMEDICA, a estrutura alcança classificação zero-shot de alto nível e recuperação de texto de imagem para todas as 40 tarefas biomédicas, exigindo 10 vezes menos computação e 2,5 vezes menos dados x. Todos os recursos, incluindo modelos, conjuntos de dados e código, estão disponíveis publicamente.
Confira Página de papel e design. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 65k + ML.
🚨 Recomendar plataforma de código aberto: Parlant é uma estrutura que muda a forma como os agentes de IA tomam decisões em situações voltadas para o cliente. (Promovido)
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.
📄 Conheça 'Height': ferramenta independente de gerenciamento de projetos (patrocinado)