Ao estudar as mudanças na expressão genética, os investigadores aprendem como as células funcionam a nível molecular, o que pode ajudá-los a compreender o desenvolvimento de certas doenças.
Mas uma pessoa tem cerca de 20 mil genes que podem interagir de maneiras complexas, portanto, mesmo saber quais grupos de genes atingir é um problema muito complexo. Além disso, os genes trabalham juntos em módulos mutuamente regulatórios.
Os pesquisadores do MIT desenvolveram agora os fundamentos teóricos para métodos que podem identificar a melhor maneira de agrupar genes em grupos relacionados, a fim de estudar melhor as relações subjacentes de causa e efeito entre múltiplos genes.
É importante ressaltar que esta nova abordagem consegue isso usando apenas dados observacionais. Isto significa que os investigadores não precisam de realizar ensaios de intervenção dispendiosos, e por vezes impossíveis, para obter os dados necessários para compreender as relações causais.
Com o tempo, esta abordagem poderá ajudar os cientistas a identificar potenciais alvos genéticos para estimular comportamentos específicos de uma forma mais precisa e eficaz, o que lhes permitiria desenvolver tratamentos mais precisos para os pacientes.
“Na genômica, é muito importante entender o mecanismo subjacente às regiões das células. Mas as células têm uma estrutura multiescala, então o nível de abstração também é muito importante. Se você encontrar a maneira certa de combinar as informações observadas, as informações o que você aprende sobre o sistema deve ser interpretável e útil”, disse o estudante de graduação -Jiaqi Zhang, Eric e Wendy Schmidt Center Fellow e autor principal do artigo.
Zhang é acompanhado no artigo pelo coautor Ryan Welch, atualmente estudante de graduação em engenharia; e a autora sênior Caroline Uhler, professora do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) e do Instituto de Dados, Sistemas e Sociedade (IDSS) e diretora do Centro Eric e Wendy Schmidt do Broad Institute do MIT. e Harvard, e pesquisador do Laboratório de Sistemas de Informação e Decisão (LIDS) do MIT. A pesquisa será apresentada na Conferência de Sistemas de Processamento de Informação Neural.
Aprendendo com dados observacionais
O problema que os pesquisadores pretendem resolver envolve engenharia genética. Esses programas descrevem quais genes trabalham juntos para controlar outros genes em um processo biológico, como o desenvolvimento ou diferenciação celular.
Como os cientistas não conseguem aprender exatamente como todos os 20 mil genes funcionam juntos, eles usam uma técnica chamada desemaranhamento causal para aprender como agrupar grupos relacionados de genes em uma representação que lhes permita examinar melhor as relações de causa e efeito.
Em trabalhos anteriores, os pesquisadores mostraram como isso pode ser feito de forma eficaz na presença de dados de intrusão, que são dados obtidos através de mudanças disruptivas na rede.
Mas muitas vezes é dispendioso realizar ensaios de intervenção e há alguns casos em que tais ensaios são antiéticos ou a tecnologia não é suficientemente boa para que a intervenção seja eficaz.
Com apenas dados observacionais, os investigadores não podem comparar genes antes e depois de uma intervenção para aprender como grupos de genes funcionam em conjunto.
“A maioria das pesquisas sobre inferência causal adota uma abordagem intervencionista, por isso não estava claro quanta informação é possível isolar dos dados observacionais”, disse Zhang.
Os investigadores do MIT desenvolveram um método altamente geral que utiliza um algoritmo de aprendizagem automática para identificar e agrupar com sucesso grupos de variáveis observadas, por exemplo, genes, utilizando apenas dados observacionais.
Eles podem usar esta técnica para identificar módulos causais e reconstruir uma representação precisa subjacente ao mecanismo de causa e efeito. “Embora esta pesquisa seja motivada pelo problema de definição de sistemas móveis, tivemos que primeiro desenvolver uma nova teoria causal para entender o que pode e o que não pode ser aprendido a partir de dados observacionais. Com essa ideia em mãos, em trabalhos futuros poderemos aplicar nosso conhecimento aos dados genéticos e identificar módulos genéticos e suas relações regulatórias”, disse Uhler.
Representação sequencial
Usando técnicas estatísticas, os pesquisadores podem calcular uma função estatística conhecida como diferença Jacobiana para cada pontuação de variância. Uma variável causal que não afeta nenhuma variável subsequente deve ter uma variância zero.
Os pesquisadores reconstruíram a representação em uma estrutura camada por camada, começando pela remoção de variáveis da camada inferior com variância zero. Em seguida, eles trabalham de trás para frente, camada por camada, removendo variáveis com variância zero para determinar quais mutações, ou grupos de genes, estão ligados.
“Identificar a variação zero rapidamente se torna um objetivo complexo e muito difícil de resolver, portanto, encontrar um algoritmo eficiente que possa resolvê-lo foi um grande desafio”, disse Zhang.
Em última análise, o seu método produz uma representação resumida dos dados observados com camadas de variáveis interligadas que resumem com precisão a estrutura subjacente de causa e efeito.
Cada variável representa um grupo combinado de genes que trabalham juntos, e a relação entre duas variáveis representa como um grupo de genes controla outro. Seu método captura efetivamente todas as informações usadas na determinação de cada camada de variáveis.
Depois de provar que seu procedimento era teoricamente correto, os pesquisadores realizaram simulações para mostrar que o algoritmo poderia classificar corretamente representações causais lógicas usando apenas dados observacionais.
No futuro, os investigadores querem aplicar esta técnica a sistemas genéticos do mundo real. Eles também querem explorar como a sua abordagem pode fornecer mais informações sobre situações em que dados específicos de intervenção estão disponíveis ou ajudar os cientistas a compreender como conceber intervenções genéticas eficazes. No futuro, este método poderá ajudar os investigadores a determinar de forma mais eficaz quais os genes que funcionam em conjunto no mesmo sistema, o que poderá ajudar a identificar medicamentos que possam ter como alvo esses genes para tratar certas doenças.
Esta pesquisa foi financiada, em parte, pelo MIT-IBM Watson AI Lab e pelo US Office of Naval Research.