A toxicidade induzida por medicamentos é um grande desafio no desenvolvimento de medicamentos, o que contribui significativamente para o fracasso dos ensaios clínicos. Embora as questões de eficiência sejam responsáveis pela maioria das falhas, as preocupações com a segurança são a segunda principal causa, com 24%. A toxicidade pode afetar vários sistemas orgânicos, incluindo o coração, o fígado, os rins e os pulmões, e mesmo os medicamentos aprovados podem ser suspensos devido a efeitos tóxicos inesperados na vigilância pós-comercialização. Os atuais conjuntos de dados toxicológicos, geralmente derivados de análises intensivas de mão-de-obra de especialistas sobre rótulos de medicamentos da FDA, são frequentemente pequenos e limitados a sistemas de órgãos específicos. Esses documentos, que detalham as indicações, os riscos e os resultados dos ensaios clínicos do medicamento, são sensíveis, mas demorados para serem preparados, muitas vezes excedendo 100 páginas por medicamento. Portanto, há uma necessidade urgente de modelos preditivos para identificar candidatos a medicamentos seguros no início do desenvolvimento.
Os esforços para construir conjuntos de dados para dados de toxicidade enfrentaram várias limitações. Os bancos de dados existentes, como SIDER, LiverTox e PNEUMOTOX, são frequentemente específicos de órgãos ou dependem de testes in vitro, que podem não prever com precisão os resultados in vivo. Os esforços de anotação são demorados e os métodos de teste de toxicidade variam amplamente, levando à variabilidade entre os conjuntos de dados. Por exemplo, o banco de dados de toxicidade renal da FDA, DIRIL, inclui fontes conflitantes e mais de 30% de divergências sobre determinados medicamentos. Modelos de linguagem em larga escala (LLMs), como o askFDALabel, são promissores ao simplificar a extração de dados dos rótulos da FDA, alcançando até 78% de concordância com testes de cardiotoxicidade humana. No entanto, apesar dos avanços, persistem desafios na calibração do conjunto de dados, na consistência das anotações e na inclusão completa, limitando o desempenho dos modelos de ML treinados nesses conjuntos de dados.
Pesquisadores da Universidade de Stanford e da Genmab lançaram o UniTox, um conjunto abrangente de dados de 2.418 medicamentos aprovados pela FDA, que resume e estima a toxicidade induzida por medicamentos usando GPT-4o para processar rótulos de medicamentos da FDA. Abrangendo oito toxicidades, incluindo cardiotoxicidade, toxicidade hepática e infertilidade, o UniTox é o maior banco de dados sistemático in vivo e o primeiro a incluir quase todos os medicamentos genéricos aprovados pela FDA para essas toxicidades. Os médicos confirmaram um subconjunto de anotações GPT-4o, com valores de concordância de 85-96%. Benchmarks de modelos de aprendizado de máquina treinados no UniTox demonstraram sua utilidade para previsão de toxicidade molecular, alcançando até 93% de precisão em conjuntos de dados existentes e superando o askFDALabel.
Para desenvolver o UniTox, os pesquisadores selecionaram um conjunto de dados de 2.418 medicamentos aprovados pela FDA, classificando e duplicando rótulos de medicamentos do banco de dados FDALabel, incluindo produtos biológicos. Usando o GPT-4o e um sistema de notificação em duas etapas, a equipe desenvolveu resumos e classificações de toxicidade para oito tipos de toxinas. O modelo categorizou a toxicidade usando escalas ternárias (Não, Pouco, Muito) e binárias (Sim, Não). A validação inclui comparações com conjuntos de dados existentes da FDA (DICTrank, DILIrank, DIRIL) e revisão médica, beneficiando-se de uma forte concordância. Os médicos testaram um pequeno conjunto de espécies venenosas sem dados prévios, encontrando resultados de modelos baseados na precisão do mundo real e na consistência com o conhecimento especializado.
O conjunto de dados UniTox, que inclui 2.418 medicamentos e oito tipos de toxinas, fornece um recurso abrangente para análises toxicológicas. Inclui resumos de toxinas geradas por GPT-4o, categorias ternárias e binárias e IDs de rotulagem programada de produtos (SPL). As abreviaturas encurtam os rótulos longos dos medicamentos para 297 palavras, em média, facilitando a compreensão rápida e permitindo seu uso como base para treinar preditores de toxicidade. O conjunto de dados revelou uma correlação de toxicidade, com toxicidade hepática e hematológica apresentando uma correlação muito alta (0,45). O UniTox também fornece informações sobre padrões de toxicidade entre classes de medicamentos com base nas classificações WHO-ATC, destacando diferenças ligadas às tolerâncias de risco da FDA para diferentes classes de tratamento.
Concluindo, o estudo destaca o uso do GPT-4o para resumir com sucesso rótulos complexos de medicamentos, produzindo estimativas precisas de toxicidade para todas as oito espécies, incluindo fígado, rim e cardiotoxicidade. Essas medidas mostraram forte concordância com conjuntos de dados como DILIrank e revisores clínicos, permitindo o treinamento de classificações moleculares com valor preditivo. O conjunto de dados UniTox, que inclui 2.418 medicamentos aprovados pela FDA, é grande e preenche lacunas nos testes de toxicidade em vários sistemas orgânicos. Apesar dos desafios como a interpretação de várias toxicidades e o desempenho limitado em medicamentos que falharam, o UniTox demonstra o valor dos LLMs na criação de conjuntos de dados detalhados, na melhoria das previsões de toxicidade dos medicamentos e no apoio a esforços de investigação futuros.
Confira eu Conjunto de papel e dados. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 Tendências: LG AI Research Release EXAONE 3.5: Modelos de três níveis de IA bilíngue de código aberto oferecem seguimento de comando incomparável e insights profundos de conteúdo Liderança global em excelência em IA generativa….
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
🧵🧵 [Download] Avaliação do relatório de trauma do modelo de linguagem principal (estendido)