一種宏基因組16S rRNA的高通量測序數據處理及分析流程控制方法
【技術領域】
[0001] 本發(fā)明設及藥物基因組學和計算生物學領域,具體設及一種宏基因組16SrRNA的 高通量測序數據處理及分析流程控制方法。
【背景技術】
[0002] 宏基因組學在微生物研究中占據了非常重要的地位,宏基因組是W環(huán)境中微生物 的基因組的總和為研究對象。16SrRNA(smallsubunitribosomalRNA)基因是對原核微 生物進行系統化分類研究時最常用的分子標志物,廣泛用于微生物生態(tài)學研究中。近年來 隨著高通量測序技術及數據分析方法等不斷進步,大量基于16SrRNA基因的研究促進了微 生物生態(tài)學的快速發(fā)展,例如:氣候變化、水處理工程系統、大氣污染、極端環(huán)境、人體腸道、 石油污染修復和生物冶金,甚至和人體健康也密切關聯。然而使用16SrRNA作為分子標志 物時也存在諸多問題,例如水平基因轉移、多拷貝的異質性、基因擴增效率的差異、數據分 析方法的選擇等,運些問題影響了微生物群落組成和多樣性分析時的準確性,尤其是與高 通量測序技術相關的大數據處理及分析流程控制,給相關科研工作者帶來了挑戰(zhàn)和困難, 成為該領域目前急需解決的問題。
【發(fā)明內容】
[0003] 本發(fā)明要解決的技術問題是克服現有技術宏基因組16SrRNA高通量測序數據處 理中不準確性、W及分析流程中步驟繁瑣、費時費力等缺陷,提供一種16SrRNA的高通量測 序數據處理及分析流程控制方法。
[0004] 為解決上述技術方案,本發(fā)明提供一種宏基因組16SrRNA的高通量測序數據處理 及分析流程控制方法,其特征在于,其包括如下步驟: 陽0化](1)自定義參數配置文件的生成步驟;導入宏基因組16SrRNA高通量測序原始序 列數據,經過篩選和拼接得到理論上有效的16SrRNA可變區(qū)全長序列,在此基礎上進行生 物信息學參數分析;
[0006] (2)輸入步驟:用戶根據需要,輸入設定的各參數配置文件;
[0007] (3)分析步驟:根據參數配置文件,宏基因組高通量數據處理流程模塊生成對應 的自動化分析流程;
[0008] (4)執(zhí)行及輸出步驟:執(zhí)行所描述的自動化分析流程,獲得并輸出宏基因組16S rRNA分析結果報告。
[0009] 本發(fā)明的優(yōu)選技術方案中,所述的步驟(1)中,具體包括如下步驟:
[0010] (A)導入宏基因組16SrRNA高通量測序原始序列文件, W11] 做對所述的宏基因組16SrRNA高通量測序原始序列文件進行質量控制與統計, 并剔除低質量序列數據,獲得經過篩選的序列數據;
[0012] (C)將所述的經過篩選的數據進行拼接,組裝成全長的16SrRNA可變區(qū)序列;
[0013] (D)將拼接結果進行質量控制,并去除嵌合體,得到理論上有效16SrRNA的全長 序列。
[0014] 本發(fā)明的優(yōu)選技術方案中,所述的步驟(C)中,使用PANDseq拼接軟件,對重疊區(qū) 域進行比對打分,比對打分值低于0. 6時將被去除,重疊區(qū)域小于5bp或者重疊區(qū)域大于2 個mismatch也就去除,根據拼接結果選擇有效序列在400~480bp之間的序列用于下一步 分析
[0015] 本發(fā)明的優(yōu)選技術方案中,所述的步驟值)中,先UCHIME軟件在de-novo模式下 去除嵌合體序列,然后USEARCH軟件在有參模式進一步去除嵌合體序列,最終得到理論上 有效的16S rRNA可變區(qū)全長序列。
[0016] 本發(fā)明的優(yōu)選技術方案中,所述的步驟(1)中,生物信息學參數分析包括對于獲 得的16SrRNA可變區(qū)全長序列進行聚類;包括輸入指令采用使用UCLUST方法進行0TU聚 類,0TU中序列相似性設為97%,得到0TU列表及0TU代表性序列。
[0017] 本發(fā)明的優(yōu)選技術方案中,所述的步驟(1)中,包括進一步對0TU代表性序列進行 物種分類分析。所述的物種分類分析包括,物種進化分析,物種豐富度分析,物種鑒定分析 和α多樣性指數分析。
[0018] 本發(fā)明的優(yōu)選技術方案中,系統將多樣品0TU代表性序列進行聚類與差異性分 析,包括β多樣性分析和多樣品聚類分析。
[0019] 對每個0TU選擇一條代表性序列,使用畑Ρclassifier對代表性序列進行物種分 類注釋,從而得到每個樣本的群落組成。
[0020] 在本發(fā)明的一個實施方案中,使用畑P classifier貝葉斯算法對97%相似水平 的0TU代表序列進行分類學分析,并在各個水平統計每個樣本的群落組成,比對數據庫為 Silva_11116S rRNA database化ttp://www. arb-silva. de/)。
[0021] 本發(fā)明的方法還可W對多個樣品進行樣品聚類分析,如采用Qiime平臺,使用 UPGMA(Unweightedpairgroupmethodwitharithmeticmean)聚類方法,基于weighted uni化ac和unwei曲teduni化ac距離矩陣,將樣品進行聚類。
[0022] β多樣性值為兩個樣本間的相異系數,反映不同樣本間的多樣性的差異,利用各 樣品序列間的進化和豐度信息計算樣品間的距離,反映樣品間是否有顯著地微生物群落差 異。在本發(fā)明的一個實施方案中,采用Qiime平臺,首先利用來自不同環(huán)境樣品的0TU代表 序列構建一個進化樹,化i化ac度量標準根據構建的進化樹枝的長度計量兩個不同環(huán)境樣 品之間的差異?;痠化ac分析分為wei曲teduni化ac和unwei曲teduni化ac兩種度量方 法,兩者之間差異在于是否計入不同環(huán)境樣品的序列相對豐度。wei曲teduni化ac算法在 計算樹枝長度時將序列的豐度信息進行加權計算,因此unwei曲teduni化ac可W檢測樣品 間變化的存在,而wei曲teduni化ac可W更進一步定量的檢測樣品間不同譜系上發(fā)生的變 異。
[0023] 在本發(fā)明的方法中,使用Qiime平臺,采用對序列進行隨機抽樣的方法,W抽到的 有效序列數進行0TU的分析,并分別分別使用ACE算法、化ao算法、Shannon算法、Simpson 算法、Good's Coverage計算各α多樣性指數。
[0024] Ace:用來估計群落中含有0TU數目的指數,由化ao提出,是生態(tài)學中估計物種總 數常用指數之一。(ht1:p: //www.mothur.org/wdki/Ace) 陽ο巧]
[0026] Πι:表示含有i條序列的OTU數目;
[0027] 油unf:設定的一個0TU豐度闊值;
[0028] Srare:低于或等于該豐度闊值的0TU數目;
[0029] Sgbu"d:高于該豐度闊值的0TU數目;
[0030] 化ao:是用化aol算法估計樣品中所含0TU數目的指數,化ao在生態(tài)學中常用來 評估物種總數。(ht1:p://www.mothur.org/wdki/Qiao)
[0031]
陽03引 Schaol:最終評估的0TU數目; 陽03引 S"bs:實際測出的0TU數目; W34]Πι:表示含有1條序列的0TU數目; W35] Π2:表示含有2條序列的0TU數目;
[0036] 化annon:常用于反映α多樣性指數,用來估算樣品中微生物多樣性?;痑nnon值 越大,說明群落多樣性越高。(ht1:p://www.mothur.org/wdki/Siannon)
[0037]
陽03引 S"bs:實際測出的0TU數目; W39]Πι:表示含有i條序列的0TU數目; W40]N:所有測得序列數。
[0041] Simpson:辛普森多樣性指數,由EdwardHu曲Simpson(1949)提出,在生態(tài)學 中常用來定量的描述一個區(qū)域的生物多樣性。Simpson指數越大,說明群落多樣性越低。 (http://www.mothur.org/wiki/Simpson)
[0042]
陽〇創(chuàng) S"bs:實際測出的0TU數目;
[0044]Πι:表示含有i條序列的0TU數目; W45]N:所有測得序列數。
[0046] Good'sCoverage:是指各樣本文庫的覆蓋率,其數值越高,則樣本中序列沒有被 測出的概率越低。(ht1:p: //www.mothur.org/wdki/Coverage)
[0047]
W48]Πι:表示含有1條序列的OTU數目; W例 N:所有測得序列數。
[005