Apesar do grande acúmulo de dados genômicos, o código regulador do RNA ainda precisa ser melhor compreendido. Modelos baseados em genômica, pré-treinados em grandes conjuntos de dados, podem adaptar representações de RNA para funções de predição biológica. No entanto, os modelos atuais baseiam-se em técnicas de formação, como a modelagem de linguagem latente e a previsão do próximo token, emprestadas de domínios como texto e visão, que carecem de conhecimento biológico. Métodos experimentais como eCLIP e perfil de ribossomo facilitam o estudo da regulação do RNA, mas são caros e demorados. Modelos de aprendizado de máquina treinados em sequências genéticas fornecem uma alternativa eficiente e econômica, prevendo processos moleculares importantes, como splicing e degradação de RNA.
Pesquisas recentes propõem o uso de modelos básicos em genômica, utilizando aprendizagem auto-supervisionada (SSL) para treinar em dados não rotulados. Ao mesmo tempo, esses modelos visam generalizar bem as tarefas com menos amostras rotuladas. O sequenciamento genômico apresenta desafios devido à baixa diversidade e alta informação coletiva, pois é limitado pela dinâmica evolutiva. Como resultado, os modelos SSL frequentemente reconstroem partes não informativas do genoma, levando a um desempenho ineficiente das funções de predição de RNA. Apesar das melhorias no dimensionamento do modelo, a lacuna de desempenho entre os métodos baseados em SSL e a aprendizagem supervisionada permanece grande, indicando a necessidade de melhores técnicas de modelagem genômica.
Pesquisadores de instituições como o Vector Institute e a Universidade de Toronto introduziram o Orthrus, um modelo baseado em RNA pré-treinado usando um objetivo de aprendizagem único com extensão biológica. Orthrus aumenta a similaridade entre transcritos de RNA de isoformas de splice e genes ortólogos entre espécies, usando dados de 10 organismos modelo e mais de 400 espécies de mamíferos no Projeto Zoonomia. Ao usar relações funcionais e dinâmicas, o Orthrus supera significativamente os modelos genômicos existentes na previsão das propriedades do mRNA. O modelo se destaca em áreas com poucos dados, exigindo processamento mínimo para alcançar desempenho de última geração na previsão de materiais de RNA.
O estudo usa leituras reversas para analisar a composição e ortologia do RNA usando perda InfoNCE modificada. Isoformas de RNA e sequências ortólogas são emparelhadas para identificar semelhanças funcionais, e o modelo é treinado para minimizar perdas. O estudo apresenta quatro adições: classificação única entre espécies, transcrições históricas de mais de 400 espécies, ortologia baseada em identidade genética e inserções de sequências ocultas. O codificador Mamba, um modelo de espaço de estados otimizado para sequências longas, é usado para ler dados de RNA. As tarefas experimentais incluem meia-vida do RNA, carga de ribossomo, localização de proteínas e classificação de ontologia genética, usando vários conjuntos de dados para comparar o desempenho.
Orthrus usa leitura diferencial para construir uma representação sistemática de transcritos de RNA, maximizando a similaridade entre sequências funcionalmente relacionadas e reduzindo as não relacionadas. Este conjunto de dados foi construído emparelhando transcrições com base em splicing alternativo e relações ortólogas, assumindo que esses pares são funcionalmente mais próximos do que aleatórios. Orthrus processa a sequência de RNA com o codificador Mamba e usa perda de leitura dividida (DCL) para distinguir entre pares relacionados e não relacionados. Os resultados mostram que Orthrus supera outros modelos supervisionados na previsão de estruturas de RNA, demonstrando sua eficácia em tarefas como previsão de meia-vida de RNA e classificação de genes.
Em conclusão, Orthrus usa uma perspectiva evolutiva e funcional para capturar a diversidade de RNA usando aprendizagem diferencial para modelar similaridade de sequências decorrentes de especiação e outros eventos de recombinação. Ao contrário dos modelos preditivos anteriores que se concentram na previsão de tokens, o Orthrus pré-treina efetivamente em sequências relacionadas à evolução, reduzindo a dependência da variação genética. Esta abordagem permite uma previsão robusta de material de RNA em função da vida útil e da carga do ribossomo, mesmo em situações de poucos dados. Embora o método seja bem sucedido na captura de regiões de função compartilhada, surgem limitações potenciais nos casos em que a variação da isoforma afeta ligeiramente propriedades específicas do RNA. Orthrus mostra desempenho superior em relação aos métodos baseados em reconstrução, abrindo caminho para um melhor aprendizado da representação de RNA.
Confira Papel, Modelo em HFde novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso Mais de 50k ML SubReddit.
[Upcoming Live Webinar- Oct 29, 2024] Melhor plataforma para modelos ajustados: mecanismo de inferência Predibase (avançado)
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.