Os modelos de linguagem de proteínas (pLMs), treinados em bancos de dados de sequências de proteínas, visam capturar o estado de aptidão para prever estruturas e funções de design. Embora o dimensionamento destes modelos tenha se tornado comum, ele pressupõe que as fontes de dados refletem com precisão o estado de adequação, o que pode não ser verdade. A compreensão da função das proteínas tem sido historicamente ligada a previsões estruturais baseadas em modelos físicos. No entanto, à medida que as técnicas de aprendizagem automática evoluíram, provaram ser muito eficazes na modelação do comportamento de proteínas dinâmicas. Ao tratar as sequências de proteínas como uma linguagem natural, os pLMs podem capturar informações estruturais sem depender apenas de bancos de dados estruturais, revelando relações funcionais profundas.
Pesquisadores do Chandar Lab, Mila e Amgen desenvolveram o AMPLIFY, um PLM eficiente que reduz significativamente os custos de treinamento e implantação em comparação com modelos anteriores. Ao contrário de modelos maiores, como ESM2 e ProGen2, o AMPLIFY concentra-se na melhoria da qualidade dos dados e não no tamanho do modelo, alcançando maior desempenho com 43 vezes menos parâmetros. A equipe testou três técnicas – qualidade dos dados, quantidade e etapas de treinamento – e descobriu que apenas melhorar a qualidade dos dados pode criar modelos melhores. AMPLIFY é de código aberto, incluindo sua base de código, dados e modelos, para tornar o desenvolvimento de plM mais acessível.
Conjuntos de sequências de dados de validação para pLM foram criados combinando sequências de referência do proteoma com sequências dos bancos de dados Observed Antibody Space (OAS) e Structure Classification of Proteins (SCOP). O objectivo era permitir a validação específica da função, particularmente das regiões determinantes da complementaridade das sequências de anticorpos e das funções das sequências estruturais. Proteomas de referência de alta qualidade foram selecionados com base na pontuação total do BUSCO, garantindo representação entre Bactérias, Archaea e Eukarya. Foram incluídas sequências sem validação experimental ou contendo aminoácidos não canônicos. Os conjuntos finais de validação incluíram 10.000 sequências selecionadas aleatoriamente de cada fonte após o agrupamento para minimizar a duplicação.
Para dados de treinamento, os bancos de dados UniRef, OAS, SCOP e UniProt foram analisados para remover sequências com aminoácidos ambíguos e semelhantes às sequências do conjunto de validação. O conjunto de dados de treinamento utilizou exclusivamente sequências de anticorpos pesados e leves formatadas com um token de quebra de cadeia. A arquitetura do modelo AMPLIFY incorporou os mais recentes desenvolvimentos de grandes modelos de linguagem no processamento de linguagem natural, incluindo a tarefa de ativação SwiGLU e um mecanismo de atenção com memória relevante. O processo de otimização envolveu o desenvolvimento do AdamW e do editor de recozimento de cosseno, com treinamento realizado com baixa precisão utilizando técnicas avançadas como DeepSpeed. O vocabulário foi simplificado para melhor acomodar proteínas de múltiplas cadeias, e sequências com mais de 512 resíduos foram truncadas durante o treinamento para melhorar o desempenho. Após o treinamento inicial, o comprimento do contexto foi estendido para 2.048 resíduos, seguido por etapas adicionais de treinamento para ambos os modelos AMPLIFY.
O estudo comparou o impacto do ajuste do tamanho do PLM a fatores como conteúdo, tamanho e duração do conjunto de dados de treinamento. Os autores desenvolveram seu conjunto de dados de validação usando sequências do UniRef100, pares de anticorpos da OAS e domínios SCOP, visando uma amostra mais representativa. Eles descobriram que a seleção de dados melhora significativamente o desempenho do modelo, independentemente do tamanho do modelo ou da duração do treinamento. Ao contrário das descobertas anteriores, eles observaram que o desempenho melhorou em mais de 500 mil atualizações, sugerindo que é importante usar uma variedade de dados de treinamento. Além disso, modelos grandes são propensos a overfitting, indicando a necessidade de treiná-los novamente para se adaptarem às mudanças na qualidade e quantidade de dados.
Avanços recentes em ML concentraram-se no aumento de redes neurais, especialmente para modelos de linguagem de texto e proteínas. Esta tendência tornou os modelos modernos demasiado caros para muitos investigadores, resultando muitas vezes num acesso limitado. No entanto, esta pesquisa sugere que a tecnologia dos cientistas de proteínas pode melhorar o processo de processamento, proporcionando desempenho competitivo sem a necessidade de grande escala. O sucesso do tratamento depende de uma ampla compreensão pública das proteínas, que muitas vezes é limitada. A pesquisa enfatiza a importância das tecnologias colaborativas e incentiva métodos de código aberto para facilitar o processamento iterativo de dados e o desenvolvimento de modelos, ajudando, em última análise, nos avanços médicos.
Confira Papel de novo GitHub. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Se você gosta do nosso trabalho, você vai gostar do nosso jornal..
Não se esqueça de participar do nosso SubReddit de 52k + ML.
Convidamos startups, empresas e institutos de pesquisa que trabalham em modelos de microlinguagem para participar deste próximo projeto Revista/Relatório 'Modelos de Linguagem Pequena' Marketchpost.com. Esta revista/relatório será lançada no final de outubro/início de novembro de 2024. Clique aqui para agendar uma chamada!
Sana Hassan, estagiária de consultoria na Marktechpost e estudante de pós-graduação dupla no IIT Madras, é apaixonada pelo uso de tecnologia e IA para enfrentar desafios do mundo real. Com um profundo interesse em resolver problemas do mundo real, ele traz uma nova perspectiva para a intersecção entre IA e soluções da vida real.