绝色狂妃仙魅小说,国际完美世界下载,盗墓笔记

前沿 | GAN用于材料設計：哈佛大學新研究登上Science

日期： 2018-08-09

關鍵詞： 機器學習深度生成模型個性化醫療

在材料領域，機器學習技術經常被用于特性預測，學到一個函數能繪制出符合選擇特性的分子材料。而近日哈佛大學與多倫多大學的研究者在Science上發表了一篇關于新材料設計的論文，該論文將深度生成模型引入反演設計，從而合成有機物甚至設計新型藥物。

論文：Inverse molecular design using machine learning: Generative models for matter engineering

微信圖片_20180809213620.jpg

論文地址：http://science.sciencemag.org/content/361/6400/360

摘要：新材料的發現能為社會與科技發展帶來巨大進步。當今環境下，全面探索潛在材料空間在計算方面非常困難。在這篇文章中，我們回顧了反演設計方法（inverse design）——一種以特定預期功能為起點發現專門材料的方法。近期人工智能領域的快速發展，特別是機器學習的子領域深度學習的發展，帶來了思維轉變，提出了反演分子設計的方法且快速得以利用。其中，深度生成模型被應用到了大量材料類別上：新型藥物的合理設計、有機化合物合成、太陽光電與液流電池優化以及多種固態材料等。

介紹

從個性化醫療到能源生產與存儲，21 世紀的許多挑戰都存在一個共同主題：材料永遠是解決方案的一部分。有時，這些問題的解決方案都受限于材料的物化特性，例如材料帶隙（materials bandgap）關系對太陽能發電的限制。

先前，重大材料的發現都是科學家偶然間或者多次試驗得到的。例如，人們觀察到用硫等添加劑加熱可以提高橡膠的耐用性，于是在 19 世紀從其混合物中制造了硫化橡膠。在分子層面，單個高分子鏈交叉結合，形成的新鏈在宏觀力學特性上得到增強。其他值得一提的例子像聚四氟乙烯、麻醉劑、凡士林、苯胺紫、盤尼西林也都是通過這種形式得到的。此外，這些材料來自于天然的化學成分。其他潛在藥物要么是在化學實驗室中合成的，要么是從植物、土壤細菌或者真菌中提取出來的。例如，直到 2014 年，49% 的小分子抗癌藥物都是天然化合物或者是天然化合物的衍生物。

未來，物質發現的爆炸性進展來自于所有可能的分子和固態化合物集合中未開發的區域，即化學空間。其中最大的一個分子集合——化學空間計劃——已經繪制了 1664 億個分子，至多包含 17 個重原子。其中與藥理學相關的小分子，結構數量據估計約為 1060 個。考慮到從亞納米到微觀到介觀（mesoscopic）的尺度層級，對化學空間的探索整體上變得復雜。因此，任何想要覆蓋這一空間的全局策略看起來都無法實現。模擬為在不做實驗的情況下探索這一空間提供了可能。這些分子的物化特性都由量子力學掌控，也就是可通過薛定諤方程式求解來達到精確。但在實際中，常通過損失部分準確率的近似法來減少計算時間。

盡管理論上有了巨大進步，但如今以常規方法建模分子、群集以及含缺陷的周期性固體，化學空間依然龐大無比，且需要智能導航。有鑒于此，機器學習、深度學習以及人工智能非常有潛力，因為它們的計算策略是通過經驗自動改進的。在材料領域，機器學習技術經常被用于特性預測，學到一個函數能繪制出符合選擇特性的分子材料。深度生成模型是深度學習方法的一種，能以非線性的方式建模結構與特征以及與它們相關的潛在可能性分布。通過利用大量數據中的模式，這些模型能提取表現分子特性的平均的、顯著的特征。

反演設計是發現復雜材料過程的一部分。從在實驗室發現到形成商業產品，新技術的部署周期一般是 15-20 年。依照慣例，這一過程（下圖 1）涉及到以下步驟：(i) 生成全新的或者改進材料概念并模擬其潛在適用性；(ii) 合成材料；(iii) 把材料組合成設備或者系統； (iv) 表現并測量其預期特性。這一周期生成反饋，不斷重復、改進、精煉。每個步驟都可能花費數年。

微信圖片_20180809213647.jpg

圖 1：材料發現范式的對比圖解。當前范式如左圖所示，用有機液流電池作為示例。閉環范式如右圖所示。完成這一閉環需要融合反演設計、智能軟件、AI/ML、嵌入式系統和機器人，組成一個融合的生態系統。圖：K. HOLOSKI 編輯。

在物質工程的時代，科學家們試圖加速這一閉環，減少每一步所需要的時間。最終目標是兼顧提出、創造、特征化新材料，每部分構成都能同時傳送、接收數據。這一過程被稱為「閉環」（closing the loop），且反演設計是重要的組成。

反演設計

微信圖片_20180809213720.jpg

圖 2：不同分子設計方法圖解。反演設計始于期望分子特性，終于化學空間，這不同于從化學空間到分子特性的直接方法。圖：K. HOLOSKI 編輯。

分子表征

微信圖片_20180809213742.jpg

圖 3：應用于 AQDS 分子的不同類型分子表征，這種分子被用于構建有機液流電池。從最上面順時針來看：（1）量化分子環境的出現和缺失的指紋向量；（2）使用簡化文本編碼來描述化學空間結構的 SMILES 字符串；（3）可建模模型相互作用或對稱性的勢能函數；（4）包含原子和鍵權重的圖；（5）庫侖矩陣；（6）分子鍵和分子碎片的集合；（7）原子及原子電荷的 3D 幾何圖形；（8）電子密度。圖：K. HOLOSKI 編輯。

微信圖片_20180809213822.jpg

圖 4：生成模型中幾種架構的示意圖。RNN 用于序列生成。VAE 展示的是半監督變體，由分子（x）和屬性（y）聯合訓練。Z 表示潛在空間，z 表示潛在向量。在 GAN 設定中，噪聲最終通過對抗訓練轉換成分子結構。強化學習（RL）展示了 MTCS 在 SMILES 補全任務時獲得任意獎勵的策略梯度。圖的右下方是混合結構（如 AAE，對抗自編碼器）及 ORGAN，表示 GAN 和 RL。圖：K. HOLOSKI 編輯。

展望

反演設計是加速設計物質所需的復雜框架的重要組成。反演設計的工具（尤其是那些從機器學習領域發展而來的工具）近年來發展迅速，并成功將化學空間納入概率數據驅動模型中。生成模型可以生成大量的候選分子，并且這些候選分子的物理實現將需要自動化的高吞吐量工程來驗證生成方法。社區目前并沒有開發出足夠多的成功的物質設計閉環方法。理論和實驗之間壁壘的倒塌將為我們帶來 AI 驅動的自動化實驗設備。

反演設計工具與主動學習方法（例如貝葉斯優化）的結合可以讓模型在探索化學空間時實現自適應，這將使得在高度不確定性的區域擴展模型成為可能，并允許發現包含所需特性的分子空間區域（作為組成的函數）。目標函數空間的主動學習也許能幫助我們更好地理解在開展機器學習過程中對最佳獎勵的搜索。

如我們所見，機器學習方法論的核心是分子的表征；編碼相關物理過程的表征將具有更好的泛化能力。盡管我們取得了可觀的進展，但仍存在很多需要完成的工作。分子的圖和分層表征還需要進一步研究。

將機器學習作為一種新的知識支柱集成到化學、生化、醫學和材料科學領域中，研究者們就能更迅速地采用本研究中總結出的方法。

版權聲明：本站內容除特別聲明的原創文章之外，轉載內容只為傳遞更多信息，并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題，請及時通過電子郵件或電話通知我們，以便迅速采取適當措施，避免給雙方造成不必要的經濟損失。聯系電話：010-82306118；郵箱：aet@chinaaet.com。

前沿 | GAN用于材料設計：哈佛大學新研究登上Science

日期： 2018-08-09

相關內容