O desenho de drogas sintéticas proporciona uma abordagem flexível para o desenvolvimento de compostos que têm como alvo proteínas patogênicas, o que permite a triagem em um grande ambiente químico e promove a descoberta de novos agentes terapêuticos. Ao contrário dos métodos convencionais, como triagem visual ou de alto rendimento, que dependem de bibliotecas de moléculas predefinidas com diversidade limitada, os modelos generativos podem criar moléculas completamente novas com propriedades químicas específicas. Esta capacidade é muito importante no tratamento da resistência aos medicamentos e na concepção de combinações de proteínas que carecem de candidatos activos. No entanto, muitas das moléculas produzidas requerem aplicações mais práticas devido ao menor foco em aspectos específicos relacionados com medicamentos, limitando a sua contribuição para o pipeline geral de descoberta de medicamentos.
Avanços recentes na aprendizagem profunda introduziram técnicas de modelagem generativa, incluindo modelos automatizados, GANs, VAEs e modelos de difusão, permitindo que compostos semelhantes a medicamentos sejam modelados em proteínas alvo. Esses métodos melhoram muito o potencial de design de medicamentos direcionados, proporcionando acesso a classes químicas anteriormente inexploradas. Apesar da sua promessa, estes métodos muitas vezes não são validados por testes biofísicos ou bioquímicos, com muitos compostos produzidos apresentando propriedades negativas semelhantes a medicamentos, tais como acessibilidade sintética limitada. Como resultado, embora os modelos generativos mostrem a capacidade de criar novos compostos, o seu impacto no mundo real na descoberta de medicamentos ainda precisa de ser limitado pelos desafios na tradução destes compostos em candidatos a medicamentos eficazes.
Pesquisadores da Microsoft Research AI for Science e de outras instituições desenvolveram o TamGen, um modelo de genética molecular direcionado que usa um modelo de linguagem química semelhante ao GPT. TamGen gera compostos semelhantes a medicamentos representando moléculas no formato de sequência SMILES, que inclui módulos para codificação de alvos proteicos e refinamento de compostos. Aplicado à descoberta de medicamentos para tuberculose, a TamGen identificou 14 compostos direcionados à protease ClpP, com a maior eficiência mostrando um IC50 de 1,9 μM. Esta abordagem melhora a qualidade molecular, padronizando a atividade da ciência farmacêutica e a acessibilidade sintética, demonstrando o potencial da TamGen para gerar novos candidatos para o desenvolvimento de antibióticos e inovação terapêutica.
TamGen é uma estrutura projetada para marcar bolsas de ligação a proteínas, representadas por sequências de aminoácidos e suas coordenadas 3D, para ligar cordas SMILES. O modelo processa entrada 3D usando camadas de aminoácidos e suas coordenadas, incluindo a adição de dados dinâmicos e translacionais. Um codificador de proteína, que utiliza atenção com reconhecimento de alcance, gera representações contínuas, enquanto um codificador de contexto baseado em VAE facilita a geração de vários músculos. Modelos de linguagem química pré-treinados refinam o resultado. O treinamento reduz o erro de geração do ligante e reforça a retenção do espaço latente. Testes com conjuntos de dados como CrossDocked e PDB confirmaram sua eficácia na produção de compostos, incluindo inibidores de tuberculose.
TamGen é uma estrutura de design de medicamentos que combina um modelo de linguagem química semelhante ao GPT, um codificador de proteína baseado em Transformer e um codificador de contexto baseado em VAE. Pré-treinado em 10 milhões de SMILES da PubChem, seu decodificador composto gera moléculas automaticamente, permitindo designs diretos e independentes. O codificador de proteína integra dados de sequência e geometria, enquanto o codificador de contexto facilita o refinamento e a otimização de múltiplas rodadas. TamGen supera outros métodos em métricas como afinidade de ligação, acessibilidade sintética e diversidade e gera compostos 85-394 vezes mais rápido. Utilizada para a protease ClpP da tuberculose, a TamGen produziu inibidores únicos com baixos valores de IC50, demonstrando o seu potencial para a descoberta eficaz de medicamentos.
Concluindo, o projeto de compostos com forte ligação a proteínas patogênicas pode acelerar a descoberta de medicamentos, examinando amplas áreas químicas usando IA generativa. TamGen, uma estrutura orientada por IA, alcançou resultados de alta qualidade, identificando potentes inibidores da protease ClpP do Mycobacterium tuberculosis. Seu sucesso reside em três aspectos: um decodificador combinatório pré-treinado que produz moléculas de alta qualidade, uma representação eficiente do pacote de proteínas usando sequência e geometria, e um decodificador de contexto baseado em VAE que permite o refinamento combinatório iterativo. Embora dada a inovação, os desafios permanecem, incluindo dados in vivo limitados e atrasos na integração. Os desenvolvimentos futuros visam combinar métodos de fabricação 3D com aprendizado por reforço para obter melhores pontuações de acoplamento, estabilidade e semelhança com medicamentos, melhorando o uso do TamGen.
Confira Papel e detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
🎙️ 🚨 'Avaliação de vulnerabilidade de um grande modelo de linguagem: uma análise comparativa dos métodos da Cruz Vermelha' Leia o relatório completo (Promovido)
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a interseção entre IA e soluções da vida real.
🧵🧵 [Download] Avaliação do relatório do modelo de risco linguístico principal (ampliado)