Google AI apresenta Tx-LLM: um modelo de linguagem em larga escala (LLM) ajustado a partir do PaLM-2 para prever múltiplas propriedades de negócios relevantes para o desenvolvimento terapêutico
Inteligência artificial

Google AI apresenta Tx-LLM: um modelo de linguagem em larga escala (LLM) ajustado a partir do PaLM-2 para prever múltiplas propriedades de negócios relevantes para o desenvolvimento terapêutico


O desenvolvimento de tratamentos é caro e demorado, geralmente demorando 10-15 anos e até US$ 2 bilhões, com muitos candidatos a medicamentos falhando durante os ensaios clínicos. A terapia bem-sucedida deve atender a vários critérios, como interação alvo, não toxicidade e farmacocinética apropriada. Os modelos atuais de IA concentram-se em tarefas especializadas dentro deste pipeline, mas o seu âmbito limitado pode prejudicar o desempenho. O Therapeutics Data Commons (TDC) fornece conjuntos de dados para ajudar os modelos de IA a prever as propriedades dos medicamentos, mas esses modelos funcionam de forma independente. Os LLMs, que se destacam em multitarefa, oferecem a capacidade de aprimorar o desenvolvimento clínico, aprendendo em diversas disciplinas usando uma abordagem unificada.

LLMs, especialmente modelos baseados em transformadores, com processamento avançado de linguagem natural, destacam-se na aprendizagem supervisionada em grandes conjuntos de dados. Pesquisas recentes mostram que os LLMs podem lidar com uma variedade de tarefas, incluindo regressão, usando representações textuais de parâmetros. Na medicina, modelos especializados, como redes neurais de grafos (GNNs), representam moléculas como gráficos para tarefas como descoberta de medicamentos. As sequências de proteínas e ácidos nucleicos também são codificadas para prever propriedades como ligação e estrutura. Os LLMs são cada vez mais utilizados em biologia e química, com modelos como o LlaSMol e modelos específicos de proteínas produzindo resultados promissores na síntese de medicamentos e em tarefas de engenharia de proteínas.

Pesquisadores do Google Research e do Google DeepMind introduziram o Tx-LLM, um grande modelo de linguagem geral aprimorado a partir do PaLM-2, projetado para lidar com várias tarefas terapêuticas. Treinado em 709 conjuntos de dados cobrindo 66 atividades em todo o caminho de descoberta de medicamentos, o Tx-LLM usa um único conjunto de pesos para processar uma variedade de substâncias químicas e biológicas, como pequenas moléculas, proteínas e ácidos nucléicos. Alcança desempenho competitivo em 43 tarefas e supera o melhor em 22. O Tx-LLM se destaca em tarefas que envolvem representações moleculares e textuais e apresenta boa transferibilidade entre diferentes tipos de medicamentos. Este modelo é uma ferramenta importante para eventual desenvolvimento de medicamentos.

Os pesquisadores compilaram um conjunto de dados chamado TxT, que contém 709 conjuntos de dados de descoberta de medicamentos do repositório TDC, com foco em 66 atividades. Cada conjunto de dados foi formatado para um conjunto de instruções, composto por quatro partes: instruções, contexto, pergunta e resposta. Essas tarefas incluíam tarefas de classificação binária, regressão e geração, com representações como a string SMILES para moléculas e sequências de aminoácidos para proteínas. O Tx-LLM é ajustado a partir do PaLM-2 usando esses dados. Eles avaliaram o desempenho do modelo usando métricas como AUROC e correlação de Spearman e precisão definida. Testes estatísticos e análises de contaminação de dados foram realizados para garantir resultados robustos.

O modelo Tx-LLM mostrou forte desempenho no conjunto de dados TDC, superando ou igualando os resultados do estado da arte (SOTA) em 43 das 66 tarefas. Ele superou o SOTA em 22 conjuntos de dados e alcançou desempenho próximo ao SOTA em 21 outros. Notavelmente, o Tx-LLM teve um bom desempenho em conjuntos de dados que incluem a sequência molecular SMILES e recursos de texto, como descritores de doenças ou células, provavelmente devido ao seu conhecimento de texto pré-treinado. No entanto, teve dificuldades em conjuntos de dados que dependiam apenas da string SMILES, onde os modelos baseados em gráficos eram mais eficientes. No geral, os resultados destacam o poder dos modelos de linguagem aperfeiçoados para tarefas que envolvem drogas e recursos baseados em texto.

Tx-LLM é o primeiro LLM treinado em vários conjuntos de dados TDC, incluindo moléculas, proteínas, células e doenças. Curiosamente, o treinamento com conjuntos de dados de moléculas não pequenas, como proteínas, melhorou o desempenho das funções de moléculas pequenas. Embora os LLMs convencionais tenham lutado com tarefas químicas especializadas, o Tx-LLM se destacou em regressão, produzindo modelos de alta qualidade em vários casos. Este modelo demonstra o potencial do desenvolvimento de medicamentos de ponta a ponta, desde a identificação genética até os ensaios clínicos. No entanto, o Tx-LLM ainda está em fase de pesquisa, com limitações no aprendizado de línguas naturais e na precisão da previsão, exigindo maior desenvolvimento e validação para aplicações mais amplas.


Confira Papel de novo Detalhes. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit

[Upcoming Event- Oct 17 202] RetrieveX – Conferência de recuperação de dados GenAI (promovida)


Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.





Source link

Você também pode gostar...

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *