MEGNet普適性圖神經網絡,精確預測分子和晶體性質
2019-05-15 14:40   來源: 丁香通  點擊次數: 關鍵詞: DeepMind MEGNet 精確預測 分子性質 晶體性質

2元彩票中500万的 www.chmhhq.tw 近年來機器學習算法在包括自然語言處理,圖像識別等諸多領域大放異彩。得益于如Materials Project1, QM92,3等材料數據庫的不斷完善和發展,機器學習正在被越來越多的應用在材料學領域的研究中。然而,由于研究目標的單一性,多數工作仍然局限于解決特定的晶體結構以及特定的材料性質預測問題。一種泛化的,普適性的機器學習模型仍然是材料學領域研究的重點目標。此研究是基于

基于DeepMind建立的圖神經網絡框架。

在材料學領域,對分子或晶體結構的特征描述需要滿足平移,轉動,鏡面不變性,以及對整體結構特異信息的表征。常見的結構特征描述由于其局域性,缺乏對整體結構信息的表達,因而不具有普適性。圖網絡模型(graph-network)是一種基于圖論的結構化模型,從理論上完美解決了這一問題。在圖論中,圖(graph)由若干給定的頂點(node)及連接頂點的邊(edge)構成。運用到分子(或晶體)結構中,原子(atom)可以由頂點(node)描述,連接原子之間的化學鍵(bond)可以由邊(edge)描述,從而可以把一個個分子或晶體結構看作一個個獨立的“圖”?;詿死嗄P偷慕峁姑枋齜椒?,科研工作者可以開發出針對任何材料結構或任何物理化學性質的普適性模型。盡管具有理論可行性,此類模型由于模型復雜度,材料數據量的限制,仍很少被應用在材料學領域中4,5。近日,UC San Diego 的 Shyue Ping Ong 課題組基于DeepMind建立的圖神經網絡框架6,開發了一套分子和晶體通用性質預測模型(MEGNet),在各項性質預測測試中達到了領先水平7。

圖 1. MEGNet 概述。每個分子/晶體結構由化學鍵信息,原子信息,和狀態信息描述。每個結構描述輸入模型后,依次更新,直到總的結構輸出性質與DFT計算值接近。

圖1中描述了該模型的工作模式: 每個結構可用三個向量表征,分別包含原子信息,化學鍵信息,和狀態函數信息。在每一次模型訓練迭代中,依次更新化學鍵向量,原子向量,和狀態函數向量,得到新的結構表征向量,直到通過該表征輸出的性質與DFT計算結果趨于一致。作者首先用QM9 分子數據集中超過130k數據作為訓練集訓練模型,并用得到的模型預測分子中的13項物理化學性質,在其中的11項中達到同類模型中的最優結果(表1)。更為先進的是,之前的工作對由狀態參數關聯的狀態函數,如內能(U0, U),焓(H),和吉布斯自由能(G),采用的是分別訓練模型進行預測的方法。

然而本工作中,作者采用加入狀態參數作為輸入的方法,可由單一模型同時預測U0, U, H和G,并保持與分別模型訓練類似的準確度,大大提高了訓練效率[YZ1] 。在針對晶體結構的應用中,作者用Materials Project數據庫中超過69k數據作為訓練集,針對生成能,能帶帶隙,體積模量和剪切模量進行了回歸(Regression)分析,并用帶隙值作為金屬和非金屬的判據進行分類(classification)分析?;毓櫸治鮒械鈉驕暈蟛睿∕AE)低于同類型模型SchNet4和CGCNN5(表2),金屬和非金屬分類分析中綜合準確率達86.9%,ROC中AUC達到0.926,與此前最優模型CGCNN類似。

表1. 不同模型在QM9上預測13項性質的平均絕對誤差(MAE)對比

表2. MEGNet和其他基于圖像模型

在Materials Project數據集的預測準確度對比

在對模型的深入分析中,作者發現,從最優模型中提取出的元素映射(embedding)與化學常識吻合。例如,將元素映射投影二維空間可發現,Eu和Yb與其他鑭系元素距離較遠,而與堿土金屬更接近,這與化學經驗相符。這樣的分析一方面佐證了模型可以學習到可靠的化學信息,另一方面可將學習到的化學信息用于遷移學習,以大大降低訓練新模型訓練所需數據量。例如,在此例中,作者通過用~69k生成熱的數據訓練的模型提取的元素映射,用于預測帶隙和彈性性質的模型訓練,后者的數據量只有生成熱的一半甚至十分之一。通過遷移學習的方法作者得到比直接訓練更低的MAE和提高兩倍的收斂速度。這為小數據量的性質的高效準確模型訓練提供了可行的方案。

在模型的使用方面,用戶可登陸//megnet.crystals.ai,根據提示輸入晶體結構編碼或cif文件即可得到模型預測的性質。另外,文章所涉及的Python代碼均已開源(https://github.com/materialsvirtuallab/megnet.git)。下面示例如何使用已有模型和訓練新的模型。

1示例一: 使用分子模型

2示例二:使用晶體模型預測剪切模量

3示例三:訓練新模型

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

編輯: dxy_k71rapz2

 

版權聲明

本網站所有注明“來源:丁香園”的文字、圖片和音視頻資料,版權均屬于丁香園所有,非經授權,任何媒體、網站或個人不得轉載,授權轉載時須注明“來源:丁香園”。本網所有轉載文章系出于傳遞更多信息之目的,且明確注明來源和作者,不希望被轉載的媒體或個人可與我們聯系,我們將立即進行刪除處理。

評論

評論 ()

本周

本月

總排行