Ao adaptar modelos de inteligência artificial conhecidos como modelos de macrolinguagem, os pesquisadores fizeram avanços significativos em sua capacidade de prever a estrutura das proteínas por sequência. No entanto, este método não teve sucesso para o sistema imunitário, em parte devido à inconsistência observada neste tipo de proteína.
Para superar essa limitação, os pesquisadores do MIT desenvolveram um método computacional que permite que modelos de linguagem em larga escala prevejam as propriedades dos anticorpos com mais precisão. O seu trabalho poderá permitir aos investigadores rastrear milhões de anticorpos para identificar aqueles que podem ser usados para tratar o SARS-CoV-2 e outras doenças infecciosas.
“Nosso método nos permite escalar, e outros não, a ponto de podermos encontrar algumas agulhas em um palheiro”, disse Bonnie Berger, professora de matemática da Simons, chefe do grupo de Computação e Biologia do Computer do MIT. Laboratório de Ciência e Inteligência Artificial (CSAIL) e um dos autores seniores do novo estudo. “Se pudéssemos ajudar a evitar que as empresas farmacêuticas iniciassem ensaios clínicos com o produto errado, isso realmente pouparia muito dinheiro”.
O método, que se concentra na modelagem de regiões fixas de anticorpos, tem potencial para analisar repertórios inteiros de anticorpos de indivíduos. Isto poderia ser útil no estudo da resposta imunitária de pessoas que respondem muito bem a doenças como o VIH, para ajudar a descobrir porque é que o seu sistema imunitário é tão eficaz na protecção do vírus.
Bryan Bryson, professor associado de engenharia biológica no MIT e membro do Ragon Institute do MGH, MIT e Harvard, também é o autor principal do artigo, que aparece esta semana Anais da Academia Nacional de Ciências. Rohit Singh, um ex-cientista pesquisador do CSAIL que agora é professor assistente de bioestatística, bioinformática e biologia celular na Duke University, e Chiho Im '22 são os principais autores do artigo. Pesquisadores da Sanofi e da ETH Zurich também contribuíram para o estudo.
O modelo de hipervariabilidade
As proteínas contêm longas cadeias de aminoácidos, que podem se dobrar em um grande número de estruturas possíveis. Nos últimos anos, prever essas estruturas tornou-se muito mais fácil de fazer, usando programas de inteligência artificial como o AlphaFold. Muitos desses programas, como ESMFold e OmegaFold, baseiam-se em grandes modelos de linguagem, originalmente construídos para analisar grandes quantidades de texto, permitindo-lhes aprender a prever a próxima palavra numa sequência. Essa mesma abordagem pode funcionar para o sequenciamento de proteínas – aprendendo quais estruturas proteicas provavelmente serão formadas a partir de diferentes padrões de aminoácidos.
No entanto, este processo nem sempre funciona para anticorpos, especialmente na parte do anticorpo conhecida como região constante. Os anticorpos geralmente têm uma estrutura em forma de Y, e essas regiões constantes estão localizadas nas pontas do Y, onde detectam e se ligam a proteínas estranhas, também conhecidas como antígenos. A parte inferior do Y fornece suporte estrutural e ajuda o sistema imunológico a interagir com as células imunológicas.
As regiões variáveis variam em comprimento, mas geralmente contêm menos de 40 aminoácidos. Estima-se que o sistema imunológico humano possa produzir até quintilhões de anticorpos diferentes, alterando a sequência desses aminoácidos, o que ajuda a garantir que o corpo possa responder a uma grande variedade de antígenos potenciais. Esse arranjo não é evolutivamente limitado da mesma forma que outras sequências de proteínas, por isso é difícil para grandes modelos de linguagem aprenderem a prever as suas propriedades com precisão.
“Parte da razão pela qual os modelos linguísticos são capazes de prever tão bem a estrutura das proteínas é que a evolução restringe estas sequências de uma forma que o modelo não consegue determinar o que essas restrições significariam”, disse Singh. “É como aprender as regras gramaticais observando o contexto das palavras em uma frase, o que permite descobrir o que isso significa.”
Para modelar essas regiões invariantes, os pesquisadores criaram dois módulos que se baseiam em modelos de linguagem de proteínas existentes. Um desses módulos foi treinado em sequências consistentes de cerca de 3.000 estruturas de anticorpos disponíveis no Protein Data Bank (PDB), permitindo aprender quais sequências tendem a produzir estruturas semelhantes. Outro módulo foi treinado em dados que correlacionam aproximadamente 3.700 sequências de anticorpos com a força com que se ligam a três antígenos diferentes.
O modelo computacional resultante, conhecido como AbMap, pode prever as propriedades dos anticorpos e a capacidade de ligação com base na sua sequência de aminoácidos. Para demonstrar a utilidade deste modelo, os investigadores usaram-no para prever as propriedades de um anticorpo que reduziria significativamente a proteína spike do vírus SARS-CoV-2.
Os pesquisadores começaram com um conjunto de anticorpos que se previa que se ligassem a esses alvos e depois geraram milhões de variantes alterando as regiões constantes. Seu modelo foi capaz de identificar estruturas potenciais de anticorpos com mais sucesso, com maior precisão do que os modelos tradicionais de estrutura de proteínas baseados em modelos de linguagem em larga escala.
Depois disso, os pesquisadores deram um passo extra ao agrupar os anticorpos em grupos com propriedades semelhantes. Eles selecionaram anticorpos de cada um desses grupos para testes experimentais, trabalhando com pesquisadores da Sanofi. Esse teste descobriu que 82 por cento destes anticorpos tinham melhor poder de ligação do que os anticorpos originais que entraram no modelo.
Identificar uma variedade de bons candidatos no início do processo de desenvolvimento pode ajudar as empresas farmacêuticas a evitar gastar muito dinheiro em testes de pessoas que acabarão por falhar, dizem os investigadores.
“Eles não querem colocar todos os ovos na mesma cesta”, disse Singh. “Eles não querem dizer que vou pegar este anticorpo e submetê-lo a um teste clínico, e ele acabará por ser tóxico. Pode optar por ter um conjunto de boas oportunidades e passar por todas elas, para assim ter escolha caso algo dê errado. “
Comparando anticorpos
Usando esse método, os pesquisadores também podem tentar responder a perguntas que explicam por que pessoas diferentes respondem à infecção de maneira diferente. Por exemplo, porque é que algumas pessoas contraem formas mais graves de Covid e porque é que algumas pessoas expostas ao VIH nunca são infectadas?
Os cientistas têm tentado responder a essas questões sequenciando o RNA unicelular de células do sistema imunológico em indivíduos e comparando-os – um processo conhecido como análise do repertório de anticorpos. Trabalhos anteriores mostraram que os repertórios de anticorpos de duas pessoas diferentes podem sobrepor-se em apenas 10%. No entanto, a sequência não fornece um quadro completo da função do anticorpo como informação estrutural, porque dois anticorpos com sequências diferentes podem ter estruturas e funções semelhantes.
Um novo modelo poderia ajudar a resolver esse problema, gerando rapidamente estruturas de todos os anticorpos encontrados num indivíduo. Neste estudo, os pesquisadores mostraram que quando a estrutura é levada em consideração, há maior sobreposição entre os indivíduos do que os 10% observados nas comparações sequenciais. Eles agora planejam investigar mais a fundo como essas propriedades podem influenciar a resposta do corpo a um patógeno específico.
“É aqui que o modelo de linguagem entra muito bem, porque tem a precisão da análise baseada em sequência, mas se aproxima da precisão da análise baseada em estrutura”, disse Singh.
A pesquisa foi financiada pela Sanofi e pela Clínica Abdul Latif Jameel para Aprendizado de Máquina em Saúde.