
美國研究者借助機器學習算法,利用“廢棄”數據成功預測新材料的合成,引發學界激論:人工智能真能加速發現神奇新材料嗎?該研究所用的“計算材料學”結合計算機模型和機器學習,是對傳統研究方法的革新。計算機科學和人工智能的影響已經拓展到越來越多的領域,機器學習或將改變未來科研方式。
發現一種新的材料是非常艱難的過程,通常要經歷無數次失敗,偶爾在機緣巧合之下取得成果,還要費勁功夫反向檢測這種新材料的性質。但有一批材料科學家轉換思路,使用計算機模型和機器學習算法生成海量假想的材料,建立數據庫,從中篩選出值得合成的材料,再通過檢索這些材料可能擁有的性質進行具體應用測試,比如將這種材料用作導體表現如何、用作絕緣體性能又如何、這種材料是否具有磁性、那種材料的抗壓力是多少。
2016年5月5日,Nature 將一篇機器學習算法改變材料發現方式的論文放上封面,并提出“從失敗中學習”:美國研究者利用機器學習算法,用失敗或不成功的實驗數據預測了新材料的合成,并且在實驗中機器學習模型預測的準確率超過了經驗豐富的化學家,這意味著機器學習將改變傳統材料發現方式,發明新材料的可能性也大幅提高。
使用計算機模型和機器學習算法的好處在于,失敗的實驗數據也能用作下一輪的輸入,繼而不斷完善算法。倫敦帝國學院研究副院長、材料科學家 Neil Alford 以觀察者身份發表評論,這種做法代表了實驗科學和理論科學的真正融合。
加州大學伯克利分校的材料科學家 Gerbrand Ceder 在接受 Nature 記者采訪時說,使用機器學習算法有望大幅提高新材料發現的速度和效率。Ceder 是最早開始使用計算模型和機器學習生成假想材料的科學家之一,他以化合物磷酸鐵鋰為例:磷酸鐵鋰最初于 20 世紀 30 年代被合成,但當時世人并不認為這種材料會有多大用途,直到 1996 年科學家發現磷酸鐵鋰大有取代現有鋰離子電池的可能。
哈佛大學的研究者采用計算材料科學思路,使用“失敗”數據,成功完成了這篇被選為本期 Nature 封面的論文。
有了機器學習,再也不怕失敗了
論文標題:Machine-learning-assisted materials discovery using failed experiments
作者:Paul Raccuglia、Katherine C. Elbert、Philip D. F. Adler、Casey Falk、Malia B. Wenny、Aurelio Mollo、Matthias Zeller、Sorelle A. Friedler、Joshua Schrier、Alexander J. Norquist
來源:Nature 533, 73–76 (05 May 2016) doi:10.1038/nature17439
使用失敗實驗在機器學習輔助下進行材料發現(摘譯)
對諸如有機模板合成的金屬氧化物、金屬有機骨架(MOF)和有機鹵化鈣鈦礦等無機-有機雜化材料的研究已經持續了數十年。水熱法和(非水)溶劑熱合成已經產生了數千種新材料,這些新材料幾乎包含了元素周期表中的所有元素。然而,我們仍未充分理解這些化合物的形成過程,對新化合物的開發主要依靠試探性合成。在Materials Genome Initiative的推動下,計算機模擬和數據驅動的方法成為對實驗試錯方法的替代選擇。三個主要的策略是:基于模擬來預測材料的電荷遷移率、光生伏打性質、氣體吸附能力和鋰離子嵌入等物理性質,從而確定那些有前景的合成對象。通過整合高通量合成與測量工具,從大規模實驗數據中確定材料的結構-性質關系。基于諸如沸石結構分類和氣體吸附性能等相似的晶體結構,對材料進行聚類。
在這里,我們展示了用反應數據訓練機器學習算法,繼而預測模板合成的釩亞硒酸鹽結晶過程的反應結果。我們使用未發表的“黑暗”反應信息,這些反應信息來自那些失敗或未成功的水熱合成實驗。我們從實驗室的筆記本檔案中收集了這些信息,并運用化學信息學技術為筆記本中的原始數據添加了理化性質描述。我們用由此產生的數據訓練機器學習模型預測反應能否成功。當使用先前未經測試的、市場有售的有機砌塊進行水熱合成實驗時,我們的機器學習模型獲得了比傳統人類策略更好的效果,并成功預測了有機模板合成的無機物的形成條件,成功率達 89%。對機器學習模型進行反演后,可以揭示出關于成功產物形成條件的嶄新假設。
實驗中機器學習模型反饋機制示意圖

圖1|“黑暗”反應的反饋機制示意圖。使用從歷史反應數據中產生的機器學習模型推薦可供執行的新反應,并產生關于結晶過程的假設,這些假設可以被人類解讀。另,SVM 是支持向量機的縮寫。來源:Nature 533, 73–76
機器學習模型超越傳統人類策略

圖2|關于模板合成的釩亞硒酸鹽晶體形成的實驗結果比較,以胺相似度為橫軸。深色條表示機器學習模型的預測,淺色條表示傳統的人類策略。產生了多晶和大單晶產物的反應分別顯示為藍色和綠色。縱軸顯示了反應出現所指示的結果的概率。機器學習模型比人類策略更成功地預測了晶體形成的條件,無論用模板合成的胺數據庫中已知實例時所具有的系統相似性如何。來源:Nature 533, 73–76

電池網微信












