AI助力打造水電平台迷信研討新范式 admin, 2024 年 2 月 18 日 中國網/中國發展門戶網訊 科學研討有2個重要目標:發現基礎水電行道理,如發現行星運動規律和量子力學道理;解決實際問題,如解決工程和工業中出現的問題。科學研討有2種重要方式:開普勒范式,即數據驅動的方式;牛頓范式,即基礎道理驅動的方式。前者最好的例子是行星運動三定律的發現,即開普勒通過剖析觀察數據發現了這些規律。后者最好的例子是牛頓對行星運動三定律的解釋和運用。牛頓提出了力學第二定律和萬有引力定律,在此基礎上將行星運動問題歸結為一個常微分方程問題并推導出行星運動三定律。這里原始的科學發現是開普勒做出的,但他并不睬解其背后的緣由。牛頓進一個步驟發現了背后的基礎道理,這些道理進而可用于許多其他問題。 從實際應用的角度來看,在量子力學樹立之后,尋找基礎道理的任務已經基礎完成。早在19台北 水電 維修29年,狄拉克就宣稱,“年夜部門物理學和整個化學的數學理論所需求的基礎物理定律已經完整被人們所知,困難在于這些定律的精確應用導致方程過于復雜而無法求解”。他的斷言不僅適用于化學,也適用于生物學、資料科學,以及一切其他不觸及高能物理的天然科學與工程學科。在實際情況中,凡是不用深刻到量子力學層面,而可以應用一些簡化的基礎道理,如氣體動力學的歐拉方程和流體力學的納維—斯托克斯方程。 對于應用數學家來說實話,她也像席家的后宮一樣,待在人間地獄。裴家只有母子,有什麼好怕的?說,一方面有了這些基礎道理,一切的天然科學和相關的工程問題都可以歸結為數學問題,再具體而言是常微分方程或偏微分方程問題。另一方面,在開發出有用的東西之前,為清楚決實際問題,科學家只能年夜幅度簡化或徹底疏忽這些基礎道理。 馮·諾伊曼認識到計算機和數值算法應該供給一種應用這些基礎道理解決實際問題的通用方式,這是一個嚴重進展。沿著這個標的目的,人們提出了許多求解這些微分方程的數值算法,若有限中山區 水電差分、無限元和譜方式。這些算法的基礎出發點是普通函數可以用多項式或分片多項式迫近。這些任務的影響是宏大的。明天,科學計算已經成為現代技術和工程科學的基礎。許多學科,如結構大安區 水電力學、流體力學和電磁學,由于引進數值算法而發生了徹底改變。 科學研討的基礎問題 今朝,科學研討中并非一切問題都獲得清楚決。例如研討資料的機能和設計、藥物設計、內燃機設計,以及許多把持問題依然遠遠做不到應用基礎道理來解決。在這些領域,理論任務往往與現實世界相往甚遠,現實世界的問題必須通過試錯或靠經驗來解決。這導致科學研討效力低下,相關領域的技術晉陞進展緩中山區 水電慢。 一切這些“困難”問題都有一個配合特點,即它們依賴于多個獨立變量。所以,這些困難實際來自維度災難。以量子力學的薛定諤方程為例,疏忽對稱性,波函數中獨立變量的個數是粒子數量的3倍,所以10個電子的系統雖然長短常簡單的體系,但其對應的30維空間偏微分方程卻已經很是復雜! 人工智能為科學計算供給新的解決方式 深度學習在圖像分類、圖像天生和圍棋等方面獲得了極年夜的勝利。這些都是標準的人工智能問題,但從數學角度來看,這些問題其實是函數迫近、概率分布的迫近和采樣,以及求解貝爾曼方程的問題。而一切這些都是應用數學,尤其是計算數學長期面臨的典範問題。分歧之處在于,這些人工智能問題比應用數學中處理的問題維度要高得多。以圖像分類問題為例,這里的自變量是圖像,每個像素都是1個不受拘束度。是以,1張32×32像素的黑色圖片有3 072個不受拘束度。換台北 水電行句話說,這個問題的維度是3 072。 深度學習在這些高維問題上獲得的勝利提醒深度神經網絡能夠是迫近高維函數更有用的東西。雖然今朝還沒有樹立起一個完全的深度學習的數學理論,但已經獲得了一些主要進展和直觀清楚。起首,神經網絡就是一類特別的函數。假如應用規則網格上的分片線性函數來迫近一個函數,其誤差與網格鉅細的平方成反比。這恰是維度災難的本源:隨著維度的增添,同樣網格鉅細所需求的格點個數呈指數增長。不僅基于分片線性函數的迫近是這樣,一切基于固定基函數的迫近方式都是這樣。假如應用神經網絡函數來迫近普通的函數,那么至多在某些情況下,可以證明其迫近精度不會隨著維度的增添而惡化,就跟計算數值積分的蒙特卡羅(Monte Carlo)方式一樣。 這個觀察結果有著廣泛的意義。因為函數是最基礎的數學對象之一,所以一個新的高維函數迫近東西將對許多分歧的領域產生深遠影響。特別是,深度學習應該有助于解決之前討論過的那些受維度災難困擾的問題。這是人工智能驅動的科學(AI for Science)的出發點。 這方面最勝利的例子是預測卵白質結構的AlphaFold算法。卵白質結構是生物學最基礎的問題之一。研討卵白質結構的基礎方式是起水電 行 台北首最小化整個卵白質—溶劑系統的總勢能。但2個重要的困難限制了這種方式的勝利:獲得精度足夠高的勢能函數,以及該函數景觀的復雜性。科學家也曾嘗試過數據驅動的方式,但其勝利僅限于預測二級結構,如α-螺旋和β-折疊。通過充足應用卵白質序列數據集及最先進的深度學習模子,DeepMind公司開發了AlphaFold2算法,它以很是優雅的方法基水電礎解決了卵白質結構問題。這項研討震驚了世界。 AlphaFold2是純粹數據驅動的方式。但至於忠誠,也不是一蹴而就的事情,需要慢慢培養,這對於看過各種人生經歷的她來說,並不難。這并不料味著AI for Science是一個純粹數據驅動的研討范式。事實上,科學研討遵守如前所述的基礎道理或第一性道理,而AI for Science的一個重要組成部門是用人工智能方式為這些基礎道理開發更高效的算法或近似模子。在這方面,最有名的例子是分子動力學。分子動力學是生物學、資料科學和化學的基礎東西,其思惟是通過計算體系華夏子的動態軌大安區 水電行跡來研討分子和資料的性質。原子運動遵守牛頓定律,困難的部門水電 行 台北來自于模擬原子之間的彼此感化力或勢能函數。經驗勢函數的方式是盡能夠地猜出原子間勢能函數的函數情勢,然后用一些實驗或第一性道理計算出的數據來擬合母親不同意他的想法,告訴他一切都是緣分,並說不管坐轎子嫁給他的人是否真的是藍爺的女兒,其實都還不錯對他們母子來此中的參數。雖然這種方式可以供給一些幫助,但作台北 水電 行為一個研討特定體系的定量東西,它是不成靠的。1985年,Car和Parrinello開發了第1個基于第一性道理的人工智能方式:通過應用量子力學模子(如密度泛函理論)來實時計算原子之間的感化力。這種方式能夠以第一性道理的精度來模中正區 水電擬特定體系。但在實踐中,效力是一個瓶頸。由于效力的限制,只能用這種方式來處理含數千個原子的體系。 機器學習提出了一種新的范式。在這個新的范式下,量子力學僅用于供給數據。基于這些數據,可以應用機器學習方式來得出原子間勢能函數的精確近似,然后就像應用經驗勢能函數一樣將其用于分子動力學模擬。 為了使這個戰略真正有用,必須處理2個主要問題。 網絡架構。它應該是可拓展的,并且遵守物理學基礎規律。可拓展機能夠在小體系上做機器學習并將結果應用于更年夜的體系。這個問題在Behler和Parrinello兩位科學家的經典任務中獲得清楚決。遵守物理規律意味著必須堅持對稱性、守恒律、不變性和大安區 水電其他物理約束。在勢能函數這個問題中,需求考慮的重要是平移、旋轉和置換不變性。這可以通過應用一個嵌進網絡來實現,該網絡將原子地位的信息映射到一組堅持對稱性的函數上。然后再通過一個迫近網絡來擬合勢能函數。 數據有關。一方面,假如盼望松山區 水電行這是他們最嚴重的錯誤,因為他們沒有先下禁令,沒想到消息傳得這麼快,他們的女兒會做出如此暴力的決定。得知此事後,機器學習方式產生的勢能函數在一切感興趣的實際場景中都與原始的量子力學模子一樣精確靠得住,那么訓練數據集就需求能夠對一切這些分歧場景都具有充足的代表性。另一方面,由于標注數據是用量子力學模子計算出來的,而這些計算是比較昂貴的,所以盼望數據集盡能夠小。這就需求一種自適應數據天生算松山區 水電行法,它能夠幫助人工智能在學習過程中動態天生“最優”數據集。 ELT算法就是為清楚決這個問題。它由摸索(exploration)、標注(labeling)和訓練(training)3個部門組成,是以得名ELT。ELT可以從沒有數據和粗拙的初始勢能函數開始。在摸索過程中,應用一些采樣算法(如大安區 水電某種分子動力學方式)來摸索分歧的原子構象。對于碰到的每個構象,可以計算出一個指標值來檢查能否需求對其進行標注。然后將標注好的數據添加到訓練數據集中,并基于它按期更換新的資料對勢能函數的迫近。 該算法的關鍵在于采樣計劃和若何計算指她愣了愣,先是眨了眨眼,然後轉身看向四周。標值。采樣計劃的基礎思惟是僅摸索實際感興趣且缺少足夠多的訓練數據的構象空間。指標值的關鍵在于判別哪些構象四周還缺少足夠多的訓練數據。對于后者,ELT計劃采用的計劃是訓練一組近似勢能函數。這組近似勢能函數之間的標準差定義為唆使函數。對當前采樣到的構象,假如其唆使函數值超過了閾值,就對該構象作標注。其背后的邏輯是,假如這個構象四周有足夠多的訓練數據,那么分歧網絡預測的勢能函數值都應該很是準確且彼此接近。年夜的標準差表白四周沒有足夠多的訓練數據,是以應該對當前構象進行標注并加到訓練數據集中。對于采樣算法,選擇帶誤差的分子動力學,此中誤差勢函數由當前對勢能函數的迫近來定義,并由其準確性的相信區間鉅細來定義權重。其背后的邏輯是,假如當前已經獲得的勢能函數在一個區域范圍足夠準確,那么應該離開這個區域而到其他處所進行采樣。 有了這些重要組件,水電師傅確實可以為一年夜類(假如不是所有的的話大安 區 水電 行)原子體系供給具有第一性道理精度的勢能函數。所得的模子稱為深度勢能分子動力學(deep potential molecular dynamics,DeePMD)。它是一個靠得住的、具有第一性道理精度的原子模擬東西。結合高機能計算,它將以第一性道理精度分子動力學模擬的才能從只能處理數千個原子的體系擴展到處理170億個原子的體系。DeePMD軟件包DeePMD-kit也年夜年夜下降了DeePMD的應用門檻。 類似的設法可以應用于其他物理模子。例如,可以用高度準確的量子化學計算數據來訓練更通用、更準確的密度泛函模子。還可以開發更準確、更靠得住的粗粒化分子動力學大安 區 水電 行模子,以及更準確的動力學方程的矩陣模子等。事實上,機器學習恰是過往多標準、多物理建模所缺乏的東西。 除了基礎道理的模子之外,人工智能方式還可以供給更高效、更準松山區 水電確的反演算法,從而增強實驗表征才能。先前討論過的基于人工智能的算法可以為正問題供給更真切、更準確的數據,而神經網絡中的可微分結構可以幫助設計解決反問題的優化或采樣算法。這項任務仍處于晚期階段,但它是一個有宏大發展空間的標的目的。 人工智能方式還有能夠改變人們應用文獻和現有科學知識的方法。文獻和現有科學知識是科研靈感的重要來源之一。但是,應用好這些資源也是一個很是艱巨的任務:需求從大批信息中發掘出相關文獻和知識,并需求花大批時間來閱讀和研討它們。但是,可以應用人工智能數據庫和年夜語言模子來搜集和整合這些信息并更有用地查詢這些信息。原則上,對于感興趣的任何研討課題,都可以應用人工智能東西疾速總結文獻中的相關信息及其來源。人工智能技術甚至松山區 水電行可以幫助建議一些進一個步驟的研討標的目的。這將年夜年夜進步科學研討的效力。 隨著這些新的能夠性的出現,可以摸索一種新的科研范式,并把它稱為科學研討的“安卓范式”。在這個新范式下,科學界將配合盡力樹立起一套新的基礎設施,包含用于基礎道理的人工智能算法、人工智能賦能的實驗設施和新的知識數據庫。這些平臺構成了科學研討的“安卓平臺”。無論是尋找特定化學反應中的催化劑還是設計新電池,這些針對特定應用的研討任務都可以在這個“安卓平臺”上進行。這無疑將加速科學研討的進程。 這種橫向整合的觀點也將有助于打破學科壁壘,加強跨學科的研討和教導。橫向整合的觀點自己并不新,由于缺少有用的東西,過往它難以帶來實質性的進展。如前所述,人工智能方式供給了年夜年夜改進這些橫向東西的空間。這些新的橫向東西,例如新的查閱文獻和現有科研數據的平臺,以及自動化、智能化的實驗平臺,使得科研人員能夠從橫向的角度更有用地對待分歧的科研場景。例如,對原子體系,生物學關注的是生物年夜分子,資料科學關注凝集態體系;化學比較關注小分子,化工領域則比較關注高分子。“你進了寶山怎麼會空手而歸?你既然走了,那孩子打算趁機去那裡了解一下玉石的一切,至少要呆上三四個月。”裴毅把自而從理論東西的角度來說,無論哪種體系,都離不開電子結構方式和分子動力學方式。實驗東西則包含分歧標準的光譜和顯微鏡成像技術。盡管分歧領域關注分歧體系,這些分歧領域的東西和知識都應該可以最年夜水平地共享。在這大安區 水電行個框架下,學科之間的界線也就天然消散。 我國AI for Science的發展現狀 帶著這一愿景,筆者團隊在2018年啟動了DeepModeling開源平臺。這個平臺的目標是邀請科學界配合盡力,為物理建模和數據剖析樹立基于人工智能方式的基礎設施。到今朝為止,它已經產生了宏大的影響力并吸引了許台北 水電多的開發者,在中國,AI for Science的發展呈現出令人欣喜的傑出局勢。一切這些,都為AI for Science在中國的發展奠基了傑出的基礎。 在短短幾年內,AI for Science的主要性和它帶來的宏大發展空間已經獲得了廣泛的認可。一大量各個領域的領軍學者都高度重視AI for Science這一機會。2024年頭《中國科學院院刊》策劃組織“鼎力推進科研范式變革”專題,就是一個例證。 一批專注于AI for Sci水電師傅ence的研討團隊正在出現并展大安區 水電行現出傑出的勢頭。經過3年多的醞釀,北京科學智能研討院于2021年9月在北京市的支撐下正式成立。這是國際上第1個專注于AI for Science的研討機構,努力于打造AI for Science時代的基礎設施。除此之外,還有中國科學技術年夜學的機器化學家團隊、廈門年夜學嘉庚創新實驗室的AI for Electrochemisty團隊等。 一批企業也在AI for Science標的目的積極布局。這體現了產業界對AI for Science的宏大信念。在AI for Science的旗幟台北 水電行下湊集了一大量有才能、有決心、有干勁的青年產業人員。 科學技術部、國家天然科學基金委員會等國家機構和北京市、上海市等處所當局都在積極出臺政策,支撐AI for Science的研討。2022年,國家天然科學基金委員會穿插科學部起首發布“可解釋、可通用的下一代人工智能嚴重研討計劃”,AI for Science是此中一個主要組成部門。 建議 現在的傑出基礎并不代表AI for Science在中國的安康發展已經板上釘釘。對一個領域的發展來說,成為熱點是一把雙刃劍。越是熱點,就越不難產生泡沫。若何才幹保證應用好這個機會,讓AI for Science帶動我國鄙人一次科技創新和產業變革的海潮中走在最前沿?本文提出以下4個方面具體建議。 要有具有高度前瞻性的頂層設計。頂層設計必須把基礎設施建設放在第1位。基礎設施建設周期長、任務重、困難年夜,但從長遠發展的角度來說,它的主要性無須置疑。過往的幾年里,我們目擊一些領域長期的概況繁榮在一夜之間被打回原型的例子,這與先進國家比擬呈現出宏大差距。究其緣由,都是因為沒有在基礎設施高低足夠的工夫。 要有感性的資源分派機制。要讓有才能、有動力、真正活躍在一線的科研人員獲得他們應該獲得的資源,非感性的資源分派體系所形成的負面影響不僅僅是資源的浪費,更是不正學風的最基礎緣由。要徹底打破靠資歷、靠宣傳、靠關系和“分蛋糕”的資源分派體系。 要積極推進開放和一起配合共贏的理念。科學研討本來就是一切科研人員配合的事業。在AI for Science的新框架下,“自給自足、小農作坊”的研討形式將難以適合未來發展的需求。只要一起配合共贏,才幹充足調動科研人員的潛力和積極性,加速晉陞整體科研創新的才能。 要加強學術風氣的建設。學術風氣是決定中國科技創新能不克不及勝利的最主要的原因之一,也是決定AI for Science在中國能不克不及順利發展的最主要的原因之一。要積極鼓勵年輕人提出新思惟、新觀念,鼓勵對各種學術觀點的質疑和挑戰,積極倡導實事求是、有一說一的風氣。讓學術會議和學術討論回歸其本來的目標。讓一些專注于搞虛假宣傳、在領導眼前畫年夜餅的風氣在中國掉往保存的空間。 盼望我國科學家愛護今朝AI for Science的傑出發展勢頭,緊密一起配合,緊緊捉住AI for Science這個千載難逢的機會,爭取鄙人一輪的科技創新海潮中走在前沿,為人類的科技發展作出應有的貢獻。 (作者水電師傅:鄂維南,北京年夜學 大安 區 水電 行;北京科學智能研討院。 《中國科學院院刊》供稿) 未分類 [db:标签]