Pesquisadores da USC e Prime Intellect lançam METAGENE-1: um modelo de transformador autorregressivo de parâmetro 7B treinado em 1,5T pares de bases de DNA e RNA

Numa altura em que a saúde global enfrenta ameaças constantes de pandemias emergentes, a necessidade de sistemas melhorados de biovigilância e de detecção de agentes patogénicos torna-se cada vez mais evidente. Os métodos tradicionais de análise genómica, embora eficazes em casos isolados, muitas vezes têm dificuldade em lidar com as complexidades da monitorização da saúde em grande escala. Um grande desafio é identificar e compreender a diversidade genética em ambientes como águas residuais, que contêm uma rica mistura de DNA e RNA microbiano e viral. Os rápidos avanços na investigação biológica também enfatizaram a importância de modelos escaláveis, precisos e interpretáveis para analisar grandes quantidades de dados metagenómicos, ajudando a prever e mitigar problemas de saúde.

Pesquisadores da Universidade do Sul da Califórnia, Prime Intellect e Nucleic Acid Observatory lançaram o METAGENE-1, um modelo da base metagenômica. Este modelo de transformador autorregressivo de 7 bilhões foi projetado especificamente para a análise de sequências metagenômicas. O METAGENE-1 foi treinado em um conjunto de dados que consiste em mais de 1,5 trilhão de pares de bases de DNA e RNA retirados de amostras de águas residuais humanas, usando tecnologia de sequenciamento de próxima geração e uma estratégia de codificação de pares de bytes (BPE) para capturar a diversidade genômica complexa que está em esses. conjuntos de dados. O modelo é de código aberto, incentivando a colaboração e o desenvolvimento adicional na área.

Destaques técnicos e benefícios

A estrutura METAGENE-1 mapeia modelos mutantes modernos, incluindo as famílias GPT e Llama. Este conversor decodificador usa apenas o modelo de linguagem objetivo para prever o próximo token na sequência com base nos tokens anteriores. Seus principais recursos incluem:

Diversidade do conjunto de dados: Os dados de treinamento incluem sequências de dezenas de milhares de espécies, representando a diversidade de bactérias e vírus encontrados em águas residuais humanas.
Estratégia de Tokenização: O uso do token BPE permite que o modelo processe sequências de ácidos nucleicos com mais eficiência.
Infraestrutura de treinamento: uma configuração de treinamento aprimorada garantiu um treinamento estável em grandes conjuntos de dados, apesar das limitações de hardware.
Aplicativos: METAGENE-1 suporta tarefas como detecção de patógenos, detecção de anomalias e classificação de espécies, tornando-o útil para estudos metagenômicos e pesquisas em saúde pública.

Esses recursos permitem que o METAGENE-1 gere incorporações de sequências de alta qualidade e se adapte a tarefas específicas, aprimorando sua aplicação nos domínios genômico e de saúde pública.

Resultados e detalhes

O poder do METAGENE-1 foi testado em vários benchmarks, onde mostra um desempenho notável. Num benchmark de detecção de patógenos baseado em amostras de águas residuais humanas, o modelo alcançou um coeficiente de correlação de Matthews (MCC) de 92,96, que é mais eficiente do que outros modelos. Além disso, o METAGENE-1 mostrou fortes resultados em tarefas de detecção de anomalias, distinguindo efetivamente sequências metagenômicas de outras fontes de dados genômicos.

Na análise baseada na concentração genética, o METAGENE-1 superou o benchmark Gene-MTEB, alcançando uma pontuação média global de 0,59. Essa funcionalidade enfatiza sua flexibilidade tanto em situações de disparo zero quanto de ajuste fino, o que reforça seu valor no tratamento de dados metagenômicos complexos e diversos.

A conclusão

METAGENE-1 representa uma integração conceitual de inteligência artificial e metagenômica. Utilizando a construção de transformadores, o modelo fornece soluções eficazes para biovigilância e preparação para pandemias. Seu lançamento de código aberto convida os pesquisadores a colaborar e inovar, avançando no campo da ciência genômica. À medida que os desafios relacionados com os agentes patogénicos emergentes e as pandemias globais continuam, METAGENE-1 demonstra como a tecnologia pode desempenhar um papel fundamental na abordagem eficaz e responsável das preocupações de saúde pública.

Confira eu Artigo, site, página do GitHub e modelo de rosto. Todo o crédito deste estudo vai para os pesquisadores deste projeto. Além disso, não se esqueça de nos seguir Twitter e junte-se ao nosso Estação telefônica de novo LinkedIn Gracima. Não se esqueça de participar do nosso SubReddit de 60k + ML.

🚨 PRÓXIMO WEBINAR GRATUITO DE IA (15 DE JANEIRO DE 2025): Aumente a precisão do LLM com dados artificiais e inteligência experimental–Participe deste webinar para obter insights práticos sobre como melhorar o desempenho e a precisão do modelo LLM e, ao mesmo tempo, proteger a privacidade dos dados.

Asif Razzaq é o CEO da Marktechpost Media Inc. Como empresário e engenheiro visionário, Asif está empenhado em aproveitar o poder da Inteligência Artificial em benefício da sociedade. Seu mais recente empreendimento é o lançamento da Plataforma de Mídia de Inteligência Artificial, Marktechpost, que se destaca por sua ampla cobertura de histórias de aprendizado de máquina e aprendizado profundo que parecem tecnicamente sólidas e facilmente compreendidas por um amplo público. A plataforma possui mais de 2 milhões de visualizações mensais, o que mostra sua popularidade entre o público.

✅ [Recommended Read] Nebius AI Studio se expande com modelos de visão, novos modelos de linguagem, incorporados e LoRA (Aprimorado)

Source link

Destaques técnicos e benefícios

Resultados e detalhes

A conclusão

Você também pode gostar...

O que é cluster de inteligência artificial?

Descobrindo a dinâmica crítica do tamanho do lote: como os dados e o dimensionamento do modelo contribuem para o treinamento de um modelo linguístico em grande escala com novas técnicas de otimização

Um novo modelo computacional pode prever as propriedades dos anticorpos com mais precisão | Notícias do MIT

Deixe um comentário Cancelar resposta