Antigamente – tempos realmente antigos – o trabalho de projetar materiais era difícil. Os investigadores, durante mais de mil anos, tentaram fazer ouro combinando coisas como chumbo, mercúrio e enxofre, misturados no que esperavam ser a proporção certa. Até mesmo cientistas famosos como Tycho Brahe, Robert Boyle e Isaac Newton tentaram essa atividade infrutífera que chamamos de alquimia.
A ciência dos materiais já percorreu um longo caminho. Nos últimos 150 anos, os investigadores tiveram o benefício da tabela periódica de elementos para se basearem, o que lhes diz que diferentes elementos têm propriedades diferentes e que um não pode transformar-se magicamente no outro. Além disso, ao longo da última década, as ferramentas de aprendizagem automática aumentaram enormemente a nossa capacidade de determinar a estrutura e as propriedades físicas de várias moléculas e substâncias. Uma nova pesquisa realizada por um grupo liderado por Ju Li – Professor de Engenharia Nuclear da Tokyo Electric Power Company no MIT e professor de ciência e engenharia de materiais – oferece a promessa de um enorme aumento nas capacidades que podem ajudar no projeto de materiais. Os resultados de sua investigação são relatados na edição de dezembro de 2024 da Ciência Computacional da Natureza.
Atualmente, a maioria dos modelos de aprendizado de máquina usados para caracterizar sistemas moleculares são baseados na teoria do funcional da densidade (DFT), que fornece um método de mecânica quântica para determinar o valor de energia de uma molécula ou cristal observando a distribuição de densidade eletrônica. – isto é, basicamente, o número médio de elétrons encontrados em uma unidade de volume em torno de cada ponto no espaço próximo à molécula. (Walter Kohn, que co-inventou esta teoria há 60 anos, recebeu o Prémio Nobel de Química em 1998.) Embora este método tenha sido muito bem sucedido, tem outras desvantagens, segundo Li: “Primeiro, a precisão não o é. igualmente ótimo. E, em segundo lugar, diz apenas uma coisa: a energia mais baixa do sistema molecular.”
“Terapia de casal” para o resgate
Sua equipe agora depende de uma forma diferente de química computacional, também baseada na mecânica quântica, conhecida como teoria dos clusters acoplados, ou CCSD(T). “Este é o padrão ouro da química quântica”, observa Li. Os resultados dos cálculos CCSD(T) são mais precisos do que os obtidos nos cálculos DFT e podem ser tão confiáveis quanto os atualmente disponíveis experimentalmente. O problema é que fazer estes cálculos num computador é muito lento, diz ele, “e a escala é má: se duplicarmos o número de electrões num sistema, os cálculos tornam-se cem vezes mais caros”. Por essa razão, os cálculos de CCSD(T) têm sido geralmente limitados a moléculas com um pequeno número de átomos – da ordem de cerca de 10. Qualquer coisa além disso levaria muito tempo.
É aqui que entra o aprendizado de máquina. Os cálculos CCSD(T) são realizados primeiro em computadores convencionais, e os resultados são então usados para treinar uma rede neural com uma nova arquitetura especialmente projetada por Li e seus colegas. Após o treinamento, a rede neural pode realizar esses cálculos muito rapidamente usando técnicas de estimativa. Além disso, seu modelo de rede neural pode extrair mais informações sobre uma molécula do que apenas sua força. “Em trabalhos anteriores, as pessoas usaram muitos modelos diferentes para avaliar propriedades diferentes”, disse Hao Tang, estudante de doutorado do MIT em ciência e engenharia de materiais. “Aqui usamos um modelo para avaliar todas essas propriedades, por isso o chamamos de 'multitarefa'.”
A “rede hamiltoniana eletrônica multitarefa”, ou MEHnet, lança luz sobre muitas propriedades eletrônicas, como momentos de dipolo e quadrupolo, polarizabilidade eletrônica e lacuna de excitação óptica – a quantidade de energia necessária para capturar um estado fundamental de -elétron para o estado excitado mais baixo. Tang explica: “O gap de excitação afeta as propriedades ópticas do material, pois determina a frequência da luz que pode ser absorvida pela molécula”. Outra vantagem do modelo treinado por CCSD é que ele pode revelar não apenas as propriedades das subsuperfícies, mas também os estados excitados. O modelo também pode prever o espectro de absorção infravermelho de uma molécula relacionado às suas características vibracionais, onde as vibrações dos átomos dentro da molécula estão acopladas entre si, levando a diversos comportamentos coletivos.
A força da sua abordagem deve muito à arquitetura de rede. Com base no trabalho da professora assistente Tess Smidt do MIT, a equipe usa uma rede chamada rede neural de gráfico equivariante E (3), diz Tang, “onde os nós representam átomos e as arestas que conectam os nós representam ligações entre átomos. Também usamos algoritmos personalizados. que incorporam os princípios da física – relacionados à forma como as pessoas calculam as propriedades moleculares – diretamente em nosso modelo.”
Avaliação, 1, 2 3
Quando testado na análise de moléculas de hidrocarbonetos conhecidas, o modelo de Li et al. superou nossos equivalentes de DFT e combinou com resultados experimentais retirados da literatura publicada.
Qiang Zhu – especialista em recuperação de materiais da Universidade da Carolina do Norte em Charlotte (que não fez parte do estudo) – está impressionado com o que foi alcançado até agora. “Seu método permite um treinamento eficiente com um pequeno conjunto de dados, ao mesmo tempo que alcança alta precisão e eficiência computacional em comparação com os modelos existentes”, diz ele. “Este é um trabalho emocionante que demonstra a poderosa interação entre a química computacional e o aprendizado profundo, fornecendo novas ideias para o desenvolvimento de métodos de estrutura eletrônica altamente precisos.”
O grupo baseado no MIT aplicou pela primeira vez o seu modelo a pequenos elementos não metálicos – hidrogénio, carbono, azoto, oxigénio e flúor, a partir dos quais podem ser produzidos compostos orgânicos – e desde então foi mais longe na análise de elementos pesados: o silício. , fósforo, enxofre, cloro e até platina. Após o treinamento em moléculas pequenas, o modelo pode ser adaptado para moléculas cada vez maiores. “Anteriormente, a maioria dos cálculos limitava-se à análise de centenas de átomos com DFT e apenas dezenas de átomos com cálculos CCSD(T)”, disse Li. “Agora estamos falando sobre lidar com milhares de átomos e, eventualmente, talvez dezenas de milhares”.
No momento, os pesquisadores ainda estão testando moléculas conhecidas, mas o modelo pode ser usado para revelar moléculas nunca antes vistas, bem como para prever as propriedades de substâncias hipotéticas compostas por diferentes tipos de moléculas. “A ideia é usar nossas ferramentas teóricas para selecionar indivíduos promissores, que satisfaçam um determinado conjunto de critérios, antes de proporem testes a um pesquisador”, disse Tang.
É tudo uma questão de aplicativos
Olhando para o futuro, Zhu está otimista quanto às aplicações potenciais. “Esta abordagem tem potencial para triagem molecular muito alta”, diz ele. “Esse é um trabalho em que alcançar a precisão química pode ser fundamental para identificar novas moléculas e materiais de construção com propriedades desejáveis.”
Assim que demonstrarem a capacidade de analisar grandes moléculas de talvez dezenas de milhares de átomos, diz Li, “deveremos ser capazes de criar novos polímeros ou materiais” que possam ser usados no desenvolvimento de medicamentos ou dispositivos semicondutores. Testes de elementos de metais pesados podem levar ao desenvolvimento de novos materiais para baterias – atualmente uma área de grande demanda.
O futuro, na visão de Li, está totalmente aberto. Ele diz: “Não é mais apenas um lugar. “Nosso desejo é, em última análise, cobrir toda a tabela periódica com precisão de nível CCSD(T), mas com um custo computacional menor que o DFT. Isso deve nos permitir resolver muitos problemas em química, biologia e ciência dos materiais. É difícil saber, neste momento, quão ampla essa lista pode ser.”
Este trabalho foi apoiado pelo Honda Research Institute. Hao Tang reconhece o apoio da Mathworks Engineering Fellowship. Os cálculos neste trabalho foram realizados, em parte, no simulador atomístico de alta velocidade Matlantis, no Texas Advanced Computing Center, no MIT SuperCloud e no National Energy Research Scientific Computing.