Compreender as sequências de proteínas e suas funções sempre foi um desafio para a pesquisa de proteínas. As proteínas, muitas vezes descritas como os blocos de construção da vida, são compostas por sequências longas e complexas que determinam o seu papel nos sistemas biológicos. Apesar dos avanços na biologia computacional, compreender essas sequências de maneira significativa ainda é uma tarefa difícil. Os métodos tradicionais de análise de proteínas são demorados e caros. Mesmo com os recentes avanços tecnológicos, os investigadores lutam para mapear a vasta diversidade de estruturas proteicas e diferenças funcionais encontradas na natureza. Esta lacuna entre os dados disponíveis e a informação prática continua a ser uma barreira significativa ao desenvolvimento de novas terapias, soluções de bioengenharia e à abordagem de desafios mais amplos nas ciências da saúde e ambientais. A necessidade de uma ferramenta abrangente para análise de proteínas numa escala sem precedentes nunca foi tão urgente.
EvolutionaryScale lançou o ESM Cambrianoum novo modelo de linguagem treinado em sequências de proteínas em uma escala que captura a diversidade da vida na Terra. ESM Cambrian representa um grande avanço na bioinformática, usando técnicas de aprendizado de máquina para compreender melhor as estruturas e funções das proteínas. O modelo é treinado em bilhões de sequências de proteínas, cobrindo uma ampla gama de organismos, para encontrar padrões básicos e relações proteicas. Assim como os modelos linguísticos em larga escala revolucionaram a nossa compreensão da linguagem humana, o ESM Cambrian concentra-se em sequências de proteínas essenciais para os processos biológicos. Pretende ser um modelo flexível capaz de prever estrutura, função e facilitar novas descobertas em todos os tipos e famílias de proteínas.
Detalhes técnicos
A base tecnológica do ESM Cambrian é tão impressionante quanto os seus objetivos. A EvolutionaryScale lançou diferentes versões do modelo, incluindo o ESM C 300M e o ESM C 600M, com pesos que estão disponíveis abertamente para a comunidade de pesquisa. Esses modelos alcançam um equilíbrio entre escala e desempenho, permitindo que os cientistas façam previsões poderosas sem os desafios de infraestrutura que acompanham modelos muito grandes. A maior variante, ESM C 6B, está disponível no EvolutionaryScale Forge para pesquisa acadêmica e no AWS Sagemaker para uso comercial, com planos de lançamento no NVIDIA BioNemo em breve. Essas plataformas facilitam o acesso a essa ferramenta para usuários em ambientes acadêmicos e industriais.
O modelo, baseado na arquitetura do transformador, usa métodos de autocura para identificar relações complexas entre sequências de proteínas, tornando-o adequado para tarefas como prever o enovelamento de proteínas ou descobrir novas funções. Uma das principais vantagens do ESM Cambriano é a sua capacidade de sintetizar informações através de diferentes proteínas, o que pode acelerar a descoberta de novos medicamentos e aplicações em biologia sintética.
O ESM Cambrian foi treinado em duas fases para atingir seu desempenho máximo. Na Fase 1, com o primeiro milhão de etapas de treinamento, o modelo utilizou 512 comprimentos de contexto, com dados metagenômicos representando 64% do conjunto de dados de treinamento. Na fase 2, o modelo recebeu 500.000 etapas de treinamento adicionais, onde a duração do contexto foi aumentada para 2.048 e a proporção de dados metagenômicos foi reduzida para 37,5%. Este método de estadiamento permitiu que o modelo aprendesse de forma eficiente a partir de um conjunto diversificado de sequências de proteínas, melhorando sua capacidade de produzir diferentes proteínas.
Resultados iniciais e detalhes
Os primeiros testes do ESM Cambrian mostraram resultados promissores. A capacidade do modelo de prever a estrutura e a função das sequências proteicas é comparável aos métodos experimentais convencionais, proporcionando economias significativas em tempo e custo. O teste foi realizado utilizando o método de Rao et al. quantificar a aprendizagem não supervisionada da estrutura terciária de proteínas usando mapas de conectividade. A regressão logística foi utilizada para identificar os contatos, e a precisão dos contatos L superiores (P@L) foi avaliada para proteínas de comprimento L, com separação sequencial de 6 ou mais resíduos. A escala P@L é calculada para um conjunto limitado de estruturas de proteínas (com prazo final de 1º de maio de 2023) para regras de escalonamento e o benchmark CASP15 para avaliação de desempenho. Os primeiros insights sugerem que o ESM Cambrian é excelente no agrupamento de famílias de proteínas pouco estudadas, ajudando os pesquisadores a descobrir relações de sequências ocultas que são difíceis de analisar. Sua precisão preditiva também abre novas oportunidades na engenharia enzimática, onde é essencial compreender as nuances sutis da função das proteínas.
A disponibilidade do ESM Cambrian em plataformas como AWS Sagemaker e NVIDIA BioNemo facilitará aos usuários comerciais a integração de ferramentas de aprendizado de máquina em suas operações existentes. A decisão da EvolutionaryScale de lançar os pesos abertos ESM C 300M e ESM C 600M demonstra um compromisso com a ciência aberta, incentivando a colaboração para compreender melhor os fundamentos da vida na Terra.
A conclusão
O lançamento do ESM Cambrian pela EvolutionaryScale marca um marco importante na biologia computacional e na ciência das proteínas. Ao fornecer um modelo que pode analisar sequências de proteínas numa escala que captura a diversidade da biodiversidade global, a EvolutionaryScale demonstrou o potencial da utilização da IA na investigação biológica e abriu muitas oportunidades para acelerar a descoberta e a inovação. O ESM Cambrian deverá desempenhar um papel fundamental na engenharia de proteínas, na descoberta de medicamentos e na obtenção de uma compreensão mais profunda dos sistemas biológicos. À medida que a comunidade científica começa a explorar a utilização deste modelo, fica claro que o futuro da investigação sobre proteínas está a evoluir, com ferramentas como o ESM Cambrian a liderar o caminho.
Confira Detalhes e página do GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal.. Não se esqueça de participar do nosso SubReddit de 60k + ML.
🚨 [Must Attend Webinar]: 'Transforme provas de conceito em aplicativos e agentes de IA prontos para produção' (Promovido)
Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.
🚨🚨 WEBINAR DE IA GRATUITO: 'Acelere suas aplicações LLM com deepset e Haystack' (promovido)