O RNA mensageiro (mRNA) desempenha um papel importante na síntese de proteínas, traduzindo a informação genética em proteínas em um processo que envolve sequências de nucleotídeos chamados códons. No entanto, os modelos linguísticos atuais utilizados para sequências biológicas, especialmente mRNA, não conseguem capturar a estrutura hierárquica dos códons de mRNA. Esta limitação leva a um menor desempenho na previsão de estruturas ou na geração de diferentes sequências de mRNA. A modelagem do mRNA é um desafio único devido à sua relação entre os códons e os aminoácidos que eles codificam, já que muitos códons podem codificar o mesmo aminoácido, mas diferem em suas propriedades biológicas. Esta estrutura sequencial de códons idênticos é importante para as funções funcionais do mRNA, especialmente em terapêuticas como vacinas e terapia genética.
Pesquisadores da Johnson & Johnson e da Universidade da Flórida Central propõem uma nova maneira de melhorar a modelagem de linguagem de mRNA, chamada Codificação Hierárquica para Modelagem de Linguagem de mRNA (HELM). HELM integra relacionamentos de classes de códons no processo de treinamento de um modelo de linguagem. Isto é conseguido corrigindo a função de perda com base na sinonímia de códons, o que efetivamente alinha o treinamento com a realidade biológica da sequência de mRNA. Especificamente, o HELM ajusta a magnitude do erro em sua função de perda dependendo se os erros envolvem os mesmos códons (considerados menos importantes) ou códons que levam a aminoácidos diferentes (considerados mais importantes). Os pesquisadores testaram o HELM contra modelos de mRNA existentes em uma variedade de tarefas, incluindo previsão de material de mRNA e anotação de região de anticorpos, e descobriram que ele melhora significativamente o desempenho – mostrando uma precisão média cerca de 8% melhor em comparação com os modelos existentes.
O núcleo do HELM reside na sua abordagem de classificação, que incorpora a estrutura de códons diretamente no treinamento do modelo de linguagem. Isso envolve o uso de perda de entropia cruzada hierárquica (HXE), onde os códons de mRNA são tratados com base em suas posições em uma estrutura semelhante a uma árvore que representa suas relações biológicas. A hierarquia começa com um nó raiz representando todos os códons, incluindo códigos codificantes e não codificadores, com subdivisões adicionais baseadas em funções biológicas, como sinais de “início” e “parada” ou aminoácidos específicos. Durante a fase de pré-treinamento, o HELM utiliza métodos de Aprendizagem de Linguagem Latente (MLM) e Modelagem de Linguagem Causal (CLM), melhorando o treinamento medindo erros proporcionais à posição dos códons dentro da estrutura do sistema. Isto garante que substituições de códons semelhantes não sejam menos penalizadas, promovendo uma compreensão mais abrangente das relações em nível de códon. Além disso, o HELM mantém compatibilidade com estruturas de linguagem padrão e pode ser facilmente implementado sem grandes alterações nos pipelines de treinamento existentes.
O HELM foi testado em vários conjuntos de dados, incluindo mRNA relacionado ao sistema imunológico e sequências normais de mRNA. Em comparação com modelos linguísticos não hierárquicos e modelos baseados em RNA de última geração, o HELM mostrou uma melhoria consistente. Em média, superou os métodos de treinamento convencionais em 8% para tarefas preditivas em seis conjuntos de dados diferentes. Por exemplo, na anotação de sequências de mRNA de anticorpos, o HELM alcançou uma precisão de melhoria de cerca de 5%, demonstrando a sua capacidade de capturar estruturas biológicas relevantes melhor do que os modelos tradicionais. O método de sequência HELM também mostrou forte agrupamento de sequências semelhantes, indicando que o modelo captura as relações biológicas com mais precisão. Além da classificação, o HELM também foi analisado quanto à sua produtividade, mostrando que pode gerar uma variedade de sequências de mRNA que estão alinhadas com mais precisão com a distribuição de dados original em comparação com bases sem sequência. A Distância Biológica de Frechet (FBD) foi usada para medir o quão bem a sequência gerada correspondia aos dados biológicos reais, e o HELM mostrou consistentemente pontuações mais baixas de FBD, indicando um alinhamento mais próximo com a sequência biológica real.
Os pesquisadores concluíram que o HELM representa um grande avanço na modelagem de sequências de mRNA, particularmente na sua capacidade de capturar a história biológica encontrada no mRNA. Ao incorporar essas relações diretamente no processo de treinamento, o HELM alcança resultados superiores em tarefas preditivas e generativas, ao mesmo tempo que requer modificações mínimas nos modelos estruturais padrão. Trabalhos futuros podem explorar métodos mais avançados, como o treinamento do HELM no espaço hiperbólico para capturar melhor as relações de fase que não podem ser facilmente modeladas no espaço euclidiano. No geral, o HELM abre caminho para uma melhor análise e utilização do mRNA, com resultados promissores em áreas como desenvolvimento terapêutico e biologia sintética.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 55k + ML.
[Trending] LLMWare apresenta Model Depot: uma coleção abrangente de modelos de linguagem pequena (SLMs) para PCs Intel
Nikhil é consultor estagiário na Marktechpost. Ele está cursando dupla graduação em Materiais no Instituto Indiano de Tecnologia, Kharagpur. Nikhil é um entusiasta de IA/ML que pesquisa constantemente aplicações em áreas como biomateriais e ciências biomédicas. Com sólida formação em Ciência de Materiais, ele explora novos desenvolvimentos e cria oportunidades para contribuir.
Ouça nossos podcasts e vídeos de pesquisa de IA mais recentes aqui ➡️