隨著大家對生命未知領域的探索,越來越多的需要依靠測序技術對生物的過程、代謝的特性進行解析。尤其是現在廣泛利用的二代測序技術,也是基于短序列的測序方式,它能夠以一種較高性價比的方式,給廣大的科研工作者以及實際的生產過程中的工作人員,提供非常有用的信息。
這種測序技術需要我們對生物學過程,包括對計算機代碼有些理解的基礎,其中會包含一些生物信息學領域的專屬名詞,甚至會要求具備編程基礎。這也造成了大家對環境宏基因組的分析過程上手難度的增加。宏基因組的測序量,一般在6~10GB+,往往帶來的是對計算成本,尤其是計算時長高的消耗?;诒本┏壴朴嬎阒行?#xff08;以下簡稱北京超算)的算力資源和平臺,我們搭建了能夠對環境宏基因組數據進行分析的軟件和平臺,在這個平臺上能實現群落功能的分析,并且整合了宏基因組分箱技術,以及基于深度學習的病毒組分析。
1Tb的數據大約100個樣本,每個樣本測序深度在10個G左右。單純使用服務器進行分析大約需要150天,在基于北京超算搭建的宏基因組數據分析平臺上進行計算,7-20天之內就可以完成數據分析,大大的節約了時間成本和計算費用成本。
北京超算能夠提供非常強的硬件支持,滿足計算需求的同時提供7X24小時的專屬客服支持。近幾年來通過與北京超算的合作達成了一些論文計算的分析過程,并發表了一些文章。
案例1 濕地植物根際錳氧化物強化氨氧化過程
在解析錳氧化過程中,利用宏基因組分析平臺,發現錳氧化過程和氨氧化過程存在耦合作用。錳氧化的過程中其實缺乏在濕地中的探索,我們在全國各個城市進行濕地樣本收集。對根際土和非根際土進行宏基因組測序,以及常規的理化指標的測定。
可以看到,宏基因組的測序量大約是3.7個TB。19年底到20年上半年,我的整個服務器都在跑這個數據還沒有跑完。在開發了基于超算的計算流程和計算軟件后,兩個月內完成了所有的計算任務。簡單分享一下我計算的成果。
我發現在蘆葦根際中錳氧化物的豐度含量比較高。錳氧化主要是微生物(介導)的,所以我就好奇這個過程中到底有沒有錳氧化基因有一個富集呢?;虻呢S度是通過宏基因測序,然后加上計算獲得的。我在對它進行不同分類比較的時候發現,根際和非根際錳氧化基因的組成類型其實是不一樣的,植物根際可以顯著的富集幾種類型的錳氧化基因。
除此之外,濕地植物的根際核心微生物和錳氧化的含量,有些微生物是和它呈正相關的,有些是呈負相關的。正負相關的這些微生物中,最明顯的功能上的區別在于:正相關的這些微生物中有一部分是能夠執行氨氧化過程的。同樣的,在人工濕地中我們發現了錳氧化物和鐵氧化物都是微生物群落結構關鍵的驅動因子,同時,錳氧化物的含量和氨氮濃度之間呈非常顯著的正相關性。大家都知道氨氧化很大程度上是由微生物(介導)的,尤其是在人工濕地水處理的過程中。在錳的氧化過程中,錳氧化物起到了非常關鍵的作用。它們二者之間到底有沒有比較強的關聯性呢?在生物學角度,我們對錳氧化基因和氨氧化基因之間進行了線性的回歸分析,分析發現它們兩個之間有非常強的線性關系。是不是別的氮轉化的過程也和錳氧化的基因有這樣的相關性呢?我們把剩下的一些氮轉化過程的關鍵基因與錳氧化基因進行了關聯分析,發現除了氨氧化基因,別的氮轉化基因并沒有和錳氧化基因形成顯著的線性相關性。
我們又通過自建amoA的數據庫,把執行氨氧化過程的微生物分成氨氧化古菌、氨氧化細菌和完全氨氧化菌。通過比較分析,我們發現人工濕地中常規的水處理環境中,完全氨氧化菌的比重比較高,高于常規的氨氧化細菌,并且錳氧化基因的豐度也與完全氨氧化菌之間呈正相關性。
對環境的解析過程,最主要的目的之一是為了把它更好的應用于污染治理過程中,在河北省晉州市龍門村,我們搭建了一個人工濕地的中試裝置。面向當地農村的生活污水,我們在一些人工濕地中人為的向其中加入錳砂,即錳氧化物。我們發現加入的這部分錳氧化物可以提升氨氮的去除負荷,同時amoA的豐度也是得到了非常強的提升。
從自然發展到人為干預污染去除的過程中,由于前期使用超算獲得微生物相關的數據,大大節省了分析的時間,有效提升了效率。
案例2 飲用水快速濾池完全氨氧化過程
在另一個水處理的環境中,我們考察了飲用水的快速砂濾池,在這個工程水處理的裝置中微生物的一些過程。同樣,我們對它進行了采樣和測序,數據集大約是1個TB的測序深度。同樣在過程中,我們發現氨氮轉化比較好,而且和amoA的基因豐度也形成比較線性的關系。通過數據庫比對分析發現,其中完全氨氧化菌起到了非常關鍵和重要的作用。它和錳的轉化,錳氧化基因的轉化過程,一同協同對整個砂濾池中的污染物形成了降解。
利用基于北京超算開發的宏基因組數據分析平臺,能夠快速的提取其中的微生物信息,并對病毒數據進行分析,解析水環境中相對完整的相互作用的網絡;通過開發基于AI深度學習的算法,能夠對噬菌體形成非常好的識別,包括對宿主的預測。
北京超算AI智算云平臺可以提供非常豐富的GPU的計算資源,科研工作者無需自建資源即可完成建模任務,幫助沒有深度學習經驗的同學實現對病毒的解析。
(報告現場)
(本文內容整理自:中國科學院生態環境研究中心助理研究員王東麟老師在第四屆“氮素生物地球化學循環”學術論壇的報告實錄)
相關稿件