本發(fā)明涉及一種基于基因組的物種分析技術(shù),特別是一種微生物識別方法及系統(tǒng)。
背景技術(shù):
已有的微生物研究方法需要先對微生物進(jìn)行分離培養(yǎng),但是據(jù)估計只有大約1%的原核微生物能夠在實驗室中培養(yǎng)。已有的微生物識別(microorganismsidentification)系統(tǒng)均為基于生物化學(xué)反應(yīng)或化學(xué)成分分析的原理,沒有基于基因組學(xué)分析的系統(tǒng)方法。傳統(tǒng)方法對微生物識別的分辨率低,依靠有限的生物化學(xué)反應(yīng)或者有限的成分組合在較多的場合無法區(qū)分不同的微生物,傳統(tǒng)的方法研究微生物具有很大的局限性。
隨著各種微生物基因組的測定,利用微生物基因組序列作為標(biāo)準(zhǔn)材料進(jìn)行物種識別成為可能。盡管已經(jīng)有理論證明,平均核酸匹配度(averagenucleotideidentity,ani)距離或者(insilicodna–dnahybridization,isddh)值等指標(biāo)可以作為確定物種判別性的科學(xué)依據(jù)。但是因其計算效率低,只能就給定的2個數(shù)據(jù)樣本進(jìn)行比較計算,無法作為實用的“數(shù)據(jù)庫搜索”方法使用。因此,判別性的距離計算需要和一個能快速在基因組數(shù)據(jù)庫中搜索,得到數(shù)據(jù)庫中距離最近記錄的方法結(jié)合。
搜索核酸序列遺傳距離的方法可以用來測量遺傳多樣性以及推斷其是否近緣或最近共同祖先,乃至推斷其是否同一物種。對于給定的一個核酸序列集合,找到與查詢序列距離最近元素目前主要是使用基于序列比對(sequencealignment)的方法,通過比對結(jié)果進(jìn)行打分,從而計算序列兩兩之間的距離,得到距離矩陣,從而進(jìn)行距離判斷。
現(xiàn)有方法在同一物種之間(geneticdivergence較小),核酸序列長度較短(如病毒基因組片段),序列數(shù)量較少的時候具有可以接受的性能。而當(dāng)序列較長(如細(xì)菌全基因組),序列數(shù)量較多(千級,萬級乃至更多),遺傳距離較大(不同物種之間)時,性能下降嚴(yán)重。隨著基因組序列數(shù)據(jù)(庫)容量的增多,目前的方法學(xué)的性能無法滿足應(yīng)用需要。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有技術(shù)存在的上述問題,本發(fā)明的目的在于提供一種微生物識別方法及系統(tǒng),使得給定的查詢基因組能夠在短時間并消耗較少計算資源的情況下快速在萬級或更多的微生物全基因組序列中命中遺傳距離最短的記錄,并且準(zhǔn)確判斷查詢基因組序列是否和命中記錄為同一屬種。
本發(fā)明提供了一種微生物識別方法,包括以下步驟:
步驟一,輸入待檢測微生物的全基因組序列;
步驟二,計算上述全基因序列的特征向量,將上述特征向量與數(shù)據(jù)庫中預(yù)存的特征向量進(jìn)行距離計算和排序定位,搜索并收斂至記錄數(shù)少于等于預(yù)設(shè)數(shù)量為止;
步驟三,對搜索得到的一組同輸入序列距離最近的記錄,進(jìn)行平均核酸匹配度指標(biāo)ani/isddh和序列比對長度比例的計算,用于判斷該待測微生物的屬種或亞種。
優(yōu)選地,所述步驟二中的序列特征為基因組dna的k-mer頻數(shù)。
優(yōu)選地,所述步驟二中的距離為空間距離。
優(yōu)選地,所述步驟二還包括以下步驟:
根據(jù)輸入特征向量同預(yù)存特征向量計算距離迭代縮小搜索空間,收斂至距離最小的若干記錄;
搜索過程中使用不同的k值同預(yù)存或?qū)崟r計算的向量進(jìn)行距離計算;k-mer頻數(shù)根據(jù)需要進(jìn)行均一化處理。
本發(fā)明還提供了一種微生物識別系統(tǒng),包括輸入裝置、計算裝置、比較裝置、輸出裝置和數(shù)據(jù)庫,所述輸入裝置用于錄入數(shù)據(jù),所述計算裝置用于計算數(shù)值、搜索和排序定位,所述比較裝置用于比較計算值與預(yù)設(shè)值之間的大小關(guān)系,所述輸出裝置用于輸出結(jié)果,所述數(shù)據(jù)庫用于存儲數(shù)據(jù)。
優(yōu)選地,所述數(shù)據(jù)庫設(shè)有基因組序列子數(shù)據(jù)庫。
優(yōu)選地,所述數(shù)據(jù)庫設(shè)有基因組序列衍生結(jié)構(gòu)注釋和功能注釋信息子數(shù)據(jù)庫。
優(yōu)選地,所述數(shù)據(jù)庫設(shè)有基因組元信息子數(shù)據(jù)庫。
優(yōu)選地,所述數(shù)據(jù)庫設(shè)有基因組序列衍生特征子數(shù)據(jù)庫。
優(yōu)選地,所述基因組序列子數(shù)據(jù)庫用于保存單個微生物分離株的全基因組序列拼裝。
綜上所述,本發(fā)明具有以下優(yōu)點:
本發(fā)明本發(fā)明提供數(shù)據(jù)庫系統(tǒng)以保存參考基因組記錄,管理方便。特征計算可僅在記錄插入時進(jìn)行一次,無需每次查詢時進(jìn)行反復(fù)計算,提高了查詢效率并降低了查詢時的計算開銷。本識別方法效率高,計算開銷小,運(yùn)行周期短,并可以得到確定的微生物屬種識別依據(jù)。同時魯棒性強(qiáng),隨機(jī)刪除輸入基因組序列50%甚至更多的成分之后亦能得到可靠結(jié)果輸出。且本方法可不依賴特定的遺傳標(biāo)記(如16srrna基因等)。
附圖說明
圖1為本發(fā)明實施例的微生物識別系統(tǒng)的結(jié)構(gòu)框圖。
具體實施方式
下面結(jié)合實施方式及附圖對本發(fā)明作進(jìn)一步詳細(xì)、完整地說明。
如圖1所示,一種微生物識別系統(tǒng),包括輸入裝置、計算裝置、比較裝置、輸出裝置和數(shù)據(jù)庫,所述輸入裝置用于錄入數(shù)據(jù),所述計算裝置用于計算數(shù)值、搜索和排序定位,所述比較裝置用于比較計算值與預(yù)設(shè)值之間的大小關(guān)系,所述輸出裝置用于輸出結(jié)果,所述數(shù)據(jù)庫用于存儲數(shù)據(jù)。所述數(shù)據(jù)庫設(shè)有基因組序列子數(shù)據(jù)庫。所述數(shù)據(jù)庫設(shè)有基因組序列衍生結(jié)構(gòu)注釋和功能注釋信息子數(shù)據(jù)庫。所述數(shù)據(jù)庫設(shè)有基因組元信息子數(shù)據(jù)庫。所述數(shù)據(jù)庫設(shè)有基因組序列衍生特征子數(shù)據(jù)庫。所述基因組序列子數(shù)據(jù)庫用于保存單個微生物分離株的全基因組序列拼裝。
一種微生物識別方法,包括以下步驟:
步驟一,輸入待檢測微生物的全基因組序列;
步驟二,計算上述全基因序列的特征向量,將上述特征向量與數(shù)據(jù)庫中預(yù)存的特征向量進(jìn)行距離計算和排序定位,搜索并收斂至記錄數(shù)少于等于預(yù)設(shè)數(shù)量為止;
步驟三,對搜索得到的一組同輸入序列距離最近的記錄,進(jìn)行平均核酸匹配度指標(biāo)ani/isddh和序列比對長度比例的計算,用于判斷該待測微生物的屬種或亞種。
所述步驟二中的序列特征為基因組dna的k-mer頻數(shù)。
所述步驟二中的距離為空間距離。
當(dāng)然其他的距離參數(shù)也是可行的。
所述步驟二還包括以下步驟:
根據(jù)輸入特征向量同預(yù)存特征向量距離迭代縮小搜索空間,收斂至距離最小的若干記錄;
搜索過程中使用不同的k值(取整數(shù))同預(yù)存或?qū)崟r計算的向量進(jìn)行距離計算;k-mer頻數(shù)根據(jù)需要進(jìn)行均一化處理。
利用dnasubstrings的計算高效,快速得到每個參考基因組序列的特征,并將這個向量特征保存在數(shù)據(jù)庫中(以空間換取時間)。
查詢的時候,向量空間中2個點(一維,二維或者更高維)的距離就被當(dāng)做是“遺傳距離”。實際過程是先計算一維距離,得到一個子空間。然后在這個子空間內(nèi),迭代二維或者更高維的空間距離計算,收斂到空間內(nèi)的記錄個數(shù)少于等于預(yù)設(shè)的數(shù)量n為止。
注意,在計算結(jié)果中,無論是哪一輪迭代,距離最短的2個點在生物學(xué)理論上均無法定義其是否同一個物種。這個步驟的目的是縮小ani/isddh計算的樣本量。需要指出的是, ani/isddh指標(biāo)最近的參考點,和用向量距離計算得到的參考點可能不一致。
最后,查詢序列和最后得到的n個參考基因組之間進(jìn)行ani/isddh指標(biāo)計算,根據(jù)ani/isddh計算結(jié)果的排序輸出,判斷查詢和哪個記錄是同一物種(超過閾值),并且使用ani/isddh指標(biāo)作為距離判斷和查詢最近的參考是哪個。
同時本發(fā)明上述實施例僅為說明本發(fā)明技術(shù)方案之用,僅為本發(fā)明技術(shù)方案的列舉,并不用于限制本發(fā)明的技術(shù)方案及其保護(hù)范圍(譬如,使用manhattandistance或cosinedistance等替代實施例中的歐氏距離;利用改方案的魯棒性,使用精簡過的全基因組序列,替代實施例中的全長基因組序列作為輸入等;利用精簡過的特征向量替代實施例中描述的向量等)。采用等同技術(shù)手段、等同設(shè)備等對本發(fā)明權(quán)利要求書及說明書所公開的技術(shù)方案的改進(jìn)應(yīng)當(dāng)認(rèn)為是沒有超出本發(fā)明權(quán)利要求書及說明書所公開的范圍。