As proteínas, máquinas moleculares essenciais que evoluíram ao longo de milhões de anos, desempenham funções essenciais de suporte à vida que são sequenciadas e reveladas pelas suas estruturas 3D. Delinear seus mecanismos de ação continua sendo um grande desafio na biologia, apesar dos avanços nas ferramentas experimentais e de síntese. Embora AlphaFold e modelos similares tenham revolucionado a previsão de estruturas, a lacuna entre o conhecimento estrutural e a compreensão funcional persiste, agravada pelo crescimento significativo de sequências de proteínas não anotadas. As ferramentas tradicionais dependem da uniformidade evolutiva, o que limita o seu alcance. Os modelos emergentes de linguagem proteica são promissores, incentivando a aprendizagem profunda para compreender a “linguagem” proteica, mas dados de treino limitados, heterogéneos e ricos em contexto dificultam a sua eficácia.
Pesquisadores da Westlake University e da Nankai University desenvolveram o Evola, um modelo de linguagem proteica multimodal projetado para interpretar mecanismos moleculares de proteínas por meio de conversação em linguagem natural. Evola combina um modelo de linguagem de proteínas (PLM) como entrada, um LLM como saída e um módulo de alinhamento, permitindo uma previsão precisa da função da proteína. Treinado em um conjunto de dados sem precedentes de 546 milhões de pares de consulta-resposta de proteínas e 150 bilhões de tokens, o Evola usa geração aumentada de recuperação (RAG) e otimização de preferência direta (DPO) para otimizar a correspondência de respostas. Testado usando o novo Quadro de Resposta Instrucional (IRS), o Evola fornece informações de nível especializado, avançando na pesquisa proteômica.
Evola é um modelo multifatorial projetado para responder questões funcionais de proteínas. Combina informações específicas de proteínas com LLMs para respostas precisas e conscientes do contexto. Evola apresenta um codificador de proteína congelada, um compressor e alinhador de sequência treinável e um decodificador LLM pré-treinado. Usa otimização DPO com base nas preferências GPT e RAG para melhorar a precisão da resposta usando conjuntos de dados Swiss-Prot e ProTrek. As aplicações incluem anotação funcional de proteínas, classificação de enzimas, ontologia genética, localização subcelular e associação de doenças. O Evola está disponível em duas versões: o modelo de parâmetros 10B e o modelo de parâmetros 80B que foi treinado.
O estudo apresenta o Evola, um modelo avançado de linguagem com 80 bilhões de proteínas projetado para traduzir as funções das proteínas por meio de conversação em linguagem natural. Evola inclui um modelo de linguagem de proteína como codificador, um modelo de linguagem grande como exportador e um módulo central para compactação e alinhamento. Usa RAG para integrar informações externas e DPO para melhorar a qualidade da resposta e melhorar os resultados com base em sinais preferenciais. Experimentos usando a estrutura do IRS demonstram a capacidade da Evola de gerar informações precisas e contextualmente relevantes sobre as funções das proteínas, melhorando assim a pesquisa em proteômica e genômica funcional.
Os resultados mostram que o Evola supera os modelos existentes na previsão da função proteica e nas funções de conversação em linguagem natural. O Evola foi testado em vários conjuntos de dados e alcançou desempenho de última geração na geração de respostas precisas e sensíveis ao contexto para consultas relacionadas a proteínas. A avaliação da estrutura do IRS revelou a sua elevada precisão, interpretabilidade e consistência das respostas. A análise qualitativa destacou a capacidade da Evola de abordar questões complexas e produzir anotações de proteínas comparáveis às informações selecionadas por especialistas. Além disso, a investigação em ablação confirmou a eficácia das suas técnicas de treino, incluindo a produção melhorada de recuperação e a optimização de preferências específicas, na melhoria da qualidade da resposta e no cumprimento das condições biológicas. Isto estabelece o Evola como uma ferramenta proteômica robusta.
Concluindo, Evola é um modelo de linguagem de proteínas geradora de parâmetros de 80 bilhões, projetado para especificar a linguagem molecular das proteínas. Usando diálogo em linguagem natural, combina sequências de proteínas, estruturas e funções biológicas. A inovação da Evola reside no seu treinamento em um conjunto de dados de IA combinado de 546 milhões de pares de perguntas e respostas, cobrindo 150 bilhões de tokens – sem precedentes em escala. A utilização do DPO e do RAG melhora a qualidade da resposta e integra informações externas. Testado usando IRS, o Evola fornece informações de nível especializado, melhorando a proteômica e a genômica funcional, ao mesmo tempo que fornece uma ferramenta poderosa para desvendar a complexidade molecular das proteínas e suas funções biológicas.
Confira Papel. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.
✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)