專利名稱:一種環(huán)境微生物檢測方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于生物工程領(lǐng)域,尤其涉及一種環(huán)境微生物檢測方法和系統(tǒng)。
背景技術(shù):
決定生物性狀的蛋白質(zhì)和RNA分子都是以DNA四種堿基的編碼序列形式,將信息 儲存于生物細胞中。這種DNA分子包含了生物體的全套遺傳信息。為了從整體角度去了解 遺傳信息的功能和作用,最重要的一步是將該生物的全套遺傳信息測定出來,即知道該生 物所有的DNA堿基排列順序。傳統(tǒng)的基因組測序主要采用"Sanger"法測序技術(shù),也稱作 "末端終止法"測序技術(shù)。這種測序方法的最大缺點是成本高、產(chǎn)量低。近年來,以Solexa 為代表的"新一代高通量測序技術(shù)"悄然興起。以"邊合成邊測序"為原理的Solexa測序技 術(shù),有效地改進了傳統(tǒng)Sanger測序法的不足,具有成本低、通量高、時間短、測序準確率高、 操作簡便等諸多優(yōu)點。 微生物在自然界中是無處不在,無處不有的,數(shù)目巨大。微生物對于地球上的生命 是至關(guān)重要的,它們可以將重要的元素轉(zhuǎn)換為能量,保持大氣中的化學平衡,為植物和動物 提供養(yǎng)分。微生物還可以用于實現(xiàn)許多商業(yè)目的,如制造抗生素、提高農(nóng)業(yè)效率以及生產(chǎn)生 物燃料。此外還有一小部分微生物對人有害,導致各種疾病的發(fā)生。從歷史觀點來看,微生 物研究主要集中于研究個體物種。但大多數(shù)微生物是以群落的形式存在于各種環(huán)境中(生 物內(nèi)環(huán)境、外環(huán)境、極端環(huán)境等),而無法在實驗室里單獨培養(yǎng)。對于環(huán)境中復雜的微生物 群落,傳統(tǒng)的研究方法是針對特定的保守基因(如16S rRNA等)使用PCR技術(shù)擴增后進行 測序。通過對這些保守基因的進化分類分析,從而將環(huán)境微生物進行分類。這是從物種、甚 至較高的分類級別來對環(huán)境微生物進行檢測的方法。這種方法可以檢測出環(huán)境中未知的微 生物,并且具有操作簡單、技術(shù)完備、成本低廉等優(yōu)點。但是隨著微生物研究的不斷深入、已 公布的微生物基因組數(shù)目日益增多,我們發(fā)現(xiàn)基于保守基因測序的檢測方法存在如下局限 性 1、無法識別痕量的物種。通過PCR擴增測序得到的都是豐度較高物種的基因序 列。對于豐度較低的物種,需要大量的Sanger測序才能發(fā)現(xiàn)。 2、不能簡單地由幾個基因來對物種進行檢測。通過對現(xiàn)有703種細菌基因組序列 的比較分析和對真實環(huán)境樣品的16S rRNA測序分析后發(fā)現(xiàn)很多近緣物種的16S rRNA基 因非常保守,幾乎不存在差異,但是在表型上、功能上卻差異顯著。 3、檢測只能在物種或更高的分類級別上,所得到較高級別的分類信息對以后的功 能研究沒有太大的作用。而即使是同一種細菌,不同菌株之間也會存在很大差異。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種環(huán)境微生物檢測方法和系統(tǒng),旨在解決現(xiàn)有的環(huán)境微 生物檢測方法難以識別痕量的物種的問題。 本發(fā)明是這樣實現(xiàn)的,一種環(huán)境微生物檢測方法,所述方法包括下述步驟
采用高通量的測序技術(shù)對從環(huán)境樣本中提取的DNA進行測序,得到DNA標簽序 列; 去除所述DNA標簽序列中存在的載體污染; 將去除載體污染后得到的DNA標簽序列與已知數(shù)據(jù)庫中的已知序列進行比對,并 根據(jù)比對結(jié)果確定所述DNA標簽序列所屬的分類。
作為一個實施例,該方法還包括下述步驟 對已知數(shù)據(jù)庫中的已知序列進行預處理,得到能唯一代表一個物種的DNA序列片 段; 計算特有序列中每一位堿基上DNA標簽序列的覆蓋次數(shù),通過泊松分布擬合得到 特有序列的平均測序深度; 計算特有序列中有多少位堿基被DNA標簽序列覆蓋,從而得到特有序列的覆蓋 度; 計算整條序列中有多少位堿基被DNA標簽序列覆蓋,從而得到整條序列的覆蓋 度; 根據(jù)所述特有區(qū)域的平均測序深度、特有序列的覆蓋度以及整條序列的覆蓋度判 斷出所述特有序列代表的物種被發(fā)現(xiàn)的可信度。 本發(fā)明的另一目的在于提供一種環(huán)境微生物檢測系統(tǒng),所述系統(tǒng)包括 DNA測序單元,用于采用高通量的測序技術(shù)對從環(huán)境樣本中提取的DNA進行測序,
得到DNA標簽序列; 載體污染去除單元,用于去除所述DNA標簽序列中存在的載體污染; 所屬分類確定單元,用于將去除載體污染后得到的DNA標簽序列與已知數(shù)據(jù)庫中
的已知序列進行比對,并根據(jù)比對結(jié)果確定所述DNA標簽序列所屬的分類。 作為一個實施例,該系統(tǒng)還包括 已知序列預處理單元,用于對已知數(shù)據(jù)庫中的已知序列進行預處理,得到能唯一 代表一個物種的DNA序列片段; 測序深度計算單元,用于計算特有序列中每一位堿基上DNA標簽序列的覆蓋次 數(shù),通過泊松分布擬合得到特有序列的平均測序深度; 覆蓋度計算單元,用于計算特有序列中有多少位堿基被DNA標簽序列覆蓋,從而 得到特有序列的覆蓋度,并計算整條序列中有多少位堿基被DNA標簽序列覆蓋,從而得到 整條序列的覆蓋度; 可信度判斷單元,用于根據(jù)所述特有區(qū)域的平均測序深度、特有序列的覆蓋度以
及整條序列的覆蓋度判斷出所述特有序列代表的物種被發(fā)現(xiàn)的可信度的高低。 本發(fā)明提供的環(huán)境微生物檢測方法和系統(tǒng),在對環(huán)境樣本中提取的DNA進行測序
過程中引入了高通量的測序技術(shù),并在序列比對時,首先去除載體污染,再將該DNA標簽序
列與已知數(shù)據(jù)庫中的已知序列進行全面比對,可以對環(huán)境采樣中更多的DNA測序,甚至能
夠?qū)崿F(xiàn)對全部DNA進行測序,并更加全面地對DNA序列進行比對,從而能夠有效地識別痕量
的物種??梢詸z測到環(huán)境樣本中可能存在哪些微生物物種或哪一類微生物物種。進一步通
過在已知數(shù)據(jù)庫中對更多的,甚至所有特有序列進行處理得到平均測序深度、覆蓋度以及
整條序列的覆蓋度來確定特有序列代表的物種被發(fā)現(xiàn)的可信度的高低,從而將檢測精度細
6致到可以區(qū)分近緣物種、甚至不同菌株。
圖1是本發(fā)明實施例提供的環(huán)境微生物檢測方法的實現(xiàn)流程圖; 圖2是本發(fā)明實施例提供的將DNA標簽序列與已知序列進行比對,確定DNA標簽
序列的所述分類的示意圖; 圖3是本發(fā)明實施例提供的連續(xù)的映射到唯一位置的模擬標簽序列確定特有序 列的示意圖; 圖4是本發(fā)明實施例提供的環(huán)境微生物檢測系統(tǒng)的結(jié)構(gòu)框圖。
具體實施例方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。 在本發(fā)明實施例中,采用高通量的測序技術(shù)對從環(huán)境樣本中提取的DNA進行測
序,得到DNA標簽序列,去除該DNA標簽序列中可能存在的載體污染后,將該DNA標簽序列
與已知數(shù)據(jù)庫中的已知序列進行比對,從而得到該DNA標簽序列的所屬分類。 圖1示出了本發(fā)明實施例提供的環(huán)境微生物檢測方法的實現(xiàn)流程,詳述如下 在步驟S101中,采用高通量的測序技術(shù)對從環(huán)境樣本中提取的DNA進行測序,得
到DNA標簽序列。 其中高通量的測序技術(shù)為以Solexa、 Solid等為代表的第二代測序技術(shù)。由于采
用高通量的測序技術(shù)對DNA進行測序的具體過程是現(xiàn)有技術(shù),因此,在本發(fā)明實施例中,僅
簡述采用高通量的測序技術(shù)對從環(huán)境樣本中提取的DNA進行測序的過程 a、從環(huán)境樣本中提取DNA樣品。在提取DNA樣品時,需要保證樣品中DNA的高質(zhì)
量和微生物的多樣性。 b、對上述DNA樣品進行文庫制備。在本發(fā)明實施例中,如果需要構(gòu)建雙向測序文 庫,則為了有效的解決高GC含量物種的測序難題,在文庫制備過程中,插入片段的長度一 般小于200bp較為合適。 c、進行高通量的DNA測序反應,得到大量的DNA標簽序列(也稱為測序片段,可用 reads表不)。 本步驟中,為提高檢測的精確性,優(yōu)選可以對從環(huán)境樣本中提取的全部DNA進行 測序。 在步驟S102中,去除步驟S101得到的該DNA標簽序列中可能存在的載體污染。
由于在測序反應中所使用的載體序列是特定的,因此,由測序反應得到的DNA標 簽序列中可能包含這些特定的載體序列或者特定的載體序列的一部分。通過在DNA標簽序 列中搜索特定的載體序列字串,即可判斷該DNA標簽序列是否被特定的載體序列污染,進 而去除該DNA標簽序列中存在的載體污染。 在步驟S103中,將經(jīng)去除污染后的該DNA標簽序列與已知數(shù)據(jù)庫中的已知序列進 行比對,并根據(jù)比對結(jié)果得到該DNA標簽序列的所屬分類。
7
其中已知數(shù)據(jù)庫包括但不限于細菌基因組數(shù)據(jù)庫、真菌基因組數(shù)據(jù)庫、病毒 Genbank數(shù)據(jù)庫、核糖體數(shù)據(jù)庫(RDP數(shù)據(jù)庫)、環(huán)境微生物的非冗余核酸序列數(shù)據(jù)庫(Env nt數(shù)據(jù)庫)、非冗余核酸序列數(shù)據(jù)庫(nt數(shù)據(jù)庫)。在本發(fā)明實施例中,可以根據(jù)環(huán)境微生 物的檢測需求,從上述多個已知數(shù)據(jù)庫中選擇一個或者多個已知數(shù)據(jù)庫中的已知序列與該 DNA標簽序列進行比對。而當環(huán)境樣本較復雜時,則可以選擇將所有的已知數(shù)據(jù)庫中的已知 序列與DNA標簽序列進行比對。 在本發(fā)明實施例中,采用短串序列的映射方法將DNA標簽序列與已知數(shù)據(jù)庫中的 已知序列進行比對,將DNA標簽序列與已知序列之間的最佳匹配序列所屬的分類確定為該 DNA標簽序列的所屬分類。其中DNA標簽序列與已知序列之間的最佳匹配序列是指DNA標 簽序列比對到已知序列上具有最少堿基錯配的序列。當采用短串序列的映射方法將DNA標 簽序列與已知數(shù)據(jù)庫中的已知序列進行比對時,可能得到的多個最佳匹配序列,即DNA標 簽序列可以同時以最佳的匹配形式比對上多條已知序列,此時,將該DNA標簽序列比對上 的多條已知序列的最近的共同所屬分類作為該DNA的所屬分類。 請參閱圖2,當DNA標簽序列同時比對上已知數(shù)據(jù)庫中的多條已知序列,分別 為禾中(species):澄色綠屈燒菌(Chlorof lexusaurantiacus) 、 species :綠色糸狀細菌 (Roseiflexus castenholzii)禾口 species :Roseiflexus sp. RS-1時,由于上述多條已知序 列的最近的共同所屬分類為科(family):綠屈撓菌科(Chloroflexaceae),因此,將上述多 條已知序列的最近的共同所屬分類family :Chloroflexaceae作為DNA標簽序列的所屬分 類。 由于微生物基因組的突變率較高,所以在將DNA標簽序列與已知數(shù)據(jù)庫中的已知 序列進行比對時,允許預設(shè)個數(shù)的錯配以及小的插入缺失序列。其中預設(shè)個數(shù)的錯配可以 根據(jù)經(jīng)驗設(shè)置。 通過上述步驟,可以得到環(huán)境樣品在不同分類水平上的多樣性信息。 通過上述微生物檢測方法可以檢測到環(huán)境樣本中可能存在哪些微生物物種或哪
一類微生物物種,但難以檢測到物種存在的可信度,以及在物種存在的可信度高時,該物種
在環(huán)境中所占的比例。 因此為了合理地解決上述兩個問題,在本發(fā)明另一實施例中,可以進一步包括如 下步驟S104-S107。其中,步驟S104-S107在步驟S103將DNA標簽序列與已知數(shù)據(jù)庫中的 已知序列進行比對之前執(zhí)行,也可以與步驟S103同步或在步驟S103之后進行。
在步驟S104中,對已知數(shù)據(jù)庫中的已知序列進行預處理,得到能唯一代表一個物 種的特有序列。其具體步驟如下 a、根據(jù)已知數(shù)據(jù)庫中的已知序列產(chǎn)生模擬標簽序列。其具體過程如下 從已知序列的第一位堿基開始,取預設(shè)長度( 一般取44bp)的DNA序列作為第一
個模擬標簽序列,接著從已知序列的第二位堿基開始,取同樣長度的DNA序列作為第二個
模擬標簽序列,依此類推,從已知序列的每一位堿基開始,取同樣長度的DNA序列作為模擬
標簽序列。 b、將得到的各模擬標簽序列映射到已知序列上,并記錄映射到唯一位置的模擬標 簽序列。 在本發(fā)明實施例中,可以采用任意一種序列映射方法,例如SOAP比對方法,將模擬標簽序列映射到已知序列上,因此,在此不再贅述。將模擬標簽序列映射到已知序列上 時,由于經(jīng)測序得到的測序片段總會有一定的錯誤率存在,為了避免在實際操作中因為該 測序錯誤而將真實DNA標簽序列映射到另一位置,在本發(fā)明實施例中,在允許測序錯誤的 前提下,將模擬標簽序列映射到已知序列上。 c、查找連續(xù)的映射到唯一位置的模擬標簽序列,得到能唯一代表一個物種的特有 序列。其中特有序列是指能唯一代表一個物種的DNA序列片段。 一般,特有序列的個數(shù)會 有多個,為提高檢測的精確性,本實施例中優(yōu)選找出所有的特有序列。所述特有序列的測序 深度代表該物種在樣品中的含量。其具體過程如下 查找連續(xù)的映射到唯一位置的模擬標簽序列,得到唯一映射的模擬標簽序列的連 續(xù)區(qū)域。將該連續(xù)區(qū)域的頭尾兩部分各去掉(模擬標簽序列長度-l)個位點后的連續(xù)區(qū)域 內(nèi)的序列作為特有序列。因為該連續(xù)區(qū)域的頭尾兩部分中只被部分的模擬標簽序列唯一映 射,而理想的情況是每一個位點都被模擬標簽序列的長度個序列唯一映射的連續(xù)區(qū)域才能 唯一的代表一個物種。因此,需要將上述連續(xù)區(qū)域的頭尾兩部分各去掉(模擬標簽序列長 度-l)個位點后的連續(xù)區(qū)域作為特有序列。最后,將已知序列上全部特有序列的連接起來, 做為能唯一代表這個物種DNA序列片段的"特有序列"。在本發(fā)明實施例中,當需要了解所 有從環(huán)境樣本中檢測到的微生物物種的存在的可信度和在環(huán)境中所占的比例時,則需要對 已知數(shù)據(jù)庫中的所有已知序列進行上述預處理,得到能唯一代表一個物種的特有區(qū)域,由 于已知數(shù)據(jù)庫中可能包括多個物種,因此經(jīng)預處理后,得到能唯一代表一個物種的特有區(qū) 域有多個,分別唯一代表不同的物種。 請參閱圖3,當查找到的連續(xù)的映射到唯一位置的模擬標簽序列為短序列1至短 序列n,將查找到的連續(xù)的唯一比對上的區(qū)域的頭尾兩部分各去掉(模擬標簽序列長度-l) 個位點后的連續(xù)區(qū)域作為特有序列。 在步驟S105中,計算特有序列中每一位堿基上DNA標簽序列的覆蓋次數(shù),通過泊 松分布擬合得到特有序列的平均測序深度(記為d)。其中,本步驟所述DNA標簽序列對應 于步驟S102經(jīng)去除污染后的該DNA標簽序列。根據(jù)試驗結(jié)果,特有序列所代表的物種在樣 品中的含量是隨著特有序列的平均測序深度的增加而增加的,因此,當需要了解從環(huán)境樣 本中檢測到的物種的相對含量比時,在計算特有序列的平均測序深度時,計算唯一代表每 種物種的特有序列的平均測序深度,此時,該方法還包括下述步驟 根據(jù)計算得到的唯一代表每種物種的特有序列的平均測序深度比,得到每種特有 序列代表的物種的相對含量比。由于特有序列所代表的物種在樣品中的含量是隨著特有序 列的平均測序深度的增加而增加的,因此,計算得到的唯一代表每種物種的特有序列的平 均測序深度比即為每種特有序列代表的物種的相對含量比。 如假設(shè)計算得到的唯一代表物種A的特有序列的平均測序深度為20,唯一代表物 種B的特有序列的平均深度為100,唯一代表物種C的特有序列的平均深度為30時,則根據(jù) 上述計算結(jié)果,可以得到物種A、物種B和物種C之間的相對含量比為20 : 100 : 30。
在步驟S106中,計算特有序列中有多少位堿基被DNA標簽序列覆蓋,將被覆蓋的 堿基位數(shù)除以特有序列中總的堿基位數(shù),從而得到特有序列的覆蓋度(記為c)。并計算整 條序列中(包括特有序列和DNA標簽序列非唯一比對上的序列)有多少位堿基被DNA標簽 序列覆蓋,將被覆蓋的堿基位數(shù)除以整條序列中的堿基位數(shù),從而得到整條序列的覆蓋度(記為c')。比如某一序列中有100位堿基(即長度為100bp),其中80位堿基被覆蓋,則 計算得到該序列的覆蓋度是0. 8。 在步驟S107中,根據(jù)DNA標簽序列的平均測序深度d、特有序列的覆蓋度c以及整 條序列的覆蓋度c'計算特有序列代表的物種序列被發(fā)現(xiàn)的可信度,例如可采用如下算法計
算可信度可信度 — i (當P接近1時,可信度最高;當P接近0時,可信度最低),其
中e表示測序的校正因子,不同的測序方法,e的值可能不同。通常情況下,式c《c'成
立;如果實際數(shù)據(jù)中c > c',則表明該物種序列有異常情況。 圖4示出了本發(fā)明實施例提供的環(huán)境微生物檢測系統(tǒng)的結(jié)構(gòu),為了便于說明,僅 示出了與本發(fā)明實施例相關(guān)的部分。其中 DNA測序單元41采用高通量的測序技術(shù)對從環(huán)境樣本中提取的DNA進行測序,得 到DNA標簽序列。其中高通量的測序技術(shù)為以Solexa、Solid等為代表的第二代測序技術(shù)。 該DNA測序單元41包括DNA樣品提取模塊411、文庫制備模塊412和測序模塊413。其中 DNA樣品提取模塊411從環(huán)境樣本中提取DNA樣品。在提取DNA樣品時,需要保證樣品中 DNA的高質(zhì)量和微生物的多樣性。文庫制備模塊412對上述DNA樣品進行文庫制備。測序 模塊413進行高通量的DNA測序反應,得到大量的DNA標簽序列。由于測序模塊413的具 體測序過程屬于現(xiàn)有技術(shù),因此,此處不再贅述。 載體污染去除單元42去除DNA測序單元41得到的DNA標簽序列中可能存在的載 體污染。在本發(fā)明實施例中,由于在測序反應中所使用的載體序列是特定的,因此,由測序 反應得到的DNA標簽序列中可能包含這些特定的載體序列或者特定的載體序列的一部分。 通過在DNA標簽序列中搜索特定的載體序列字串,即可判斷該DNA標簽序列是否被特定的 載體序列污染,進而去除該DNA標簽序列中存在的載體污染。 所屬分類確定單元43將載體污染去除單元42處理后的DNA標簽序列與已知數(shù)據(jù) 庫中的已知序列進行比對,并根據(jù)比對結(jié)果得到該DNA標簽序列所屬的分類。其中已知數(shù) 據(jù)庫為細菌基因組數(shù)據(jù)庫、真菌基因組數(shù)據(jù)庫、病毒Genbank數(shù)據(jù)庫、RDP數(shù)據(jù)庫、Env nt數(shù) 據(jù)庫、nt數(shù)據(jù)庫中一種或者多種組合。 在本發(fā)明實施例中,采用短串序列的映射方法將DNA標簽序列與已知數(shù)據(jù)庫中的 已知序列進行比對,得到DNA標簽序列與已知序列之間的最佳匹配形式。其中DNA標簽序 列與已知序列之間的最佳匹配形式是指DNA標簽序列比對到已知序列上具有最少堿基錯 配的位置。根據(jù)得到的DNA標簽序列與已知序列中之間的最佳匹配形式即可得到該DNA標 簽序列所屬的分類。當采用短串序列的映射方法將DNA標簽序列與已知數(shù)據(jù)庫中的已知序 列進行比對時,可能得到的多個最佳匹配形式,即DNA標簽序列可以同時以最佳的匹配形 式比對上多條已知序列,此時,將該DNA標簽序列比對上的多條已知序列的最近的共同所 屬分類作為該DNA的所屬分類。 通過上述微生物檢測方法可以檢測到環(huán)境樣本中可能存在哪些微生物物種或哪 一類微生物物種,但難以檢測到物種存在的可信度,以及在物種存在的可信度高時,該物種 在環(huán)境中所占的比例。因此為了合理地解決上述兩個問題,在本發(fā)明另一實施例中,該系統(tǒng) 還包括已知序列預處理單元44、測序深度計算單元45、覆蓋度計算單元46和可信度判斷單
10元47。 其中已知序列預處理單元44對已知數(shù)據(jù)庫中的已知序列進行預處理,得到能唯 一代表一個物種的DNA序列片段。其包括模擬標簽序列產(chǎn)生模塊441、模擬標簽序列映射模 塊442、特有序列獲取模塊443。 其中模擬標簽序列產(chǎn)生模塊441從已知序列的每一位堿基開始,取同樣長度的 DNA序列作為模擬標簽序列。 模擬標簽序列映射模塊442將得到的各模擬標簽序列映射到已知序列上,并記錄 映射到唯一位置的模擬標簽序列。 特有序列獲取模塊443查找連續(xù)的映射到唯一位置的模擬標簽序列區(qū)域,并將該 區(qū)域的頭尾兩部分各去掉(模擬標簽序列長度-l)個位點后的連續(xù)區(qū)域內(nèi)的序列作為特有 序列。最后,將已知序列上全部特有序列連接起來,做為能唯一代表這個物種DNA序列片段 的"特有序列"。由于該區(qū)域的頭尾兩部分中只被部分的模擬標簽序列唯一映射,而理想的 情況是每一個位點都被模擬標簽序列的長度個序列唯一映射的連續(xù)區(qū)域才能唯一的代表 一個物種。因此,需要將上述連續(xù)區(qū)域的頭尾兩部分各去掉(模擬標簽序列長度-l)個位 點后的連續(xù)區(qū)域作為特有序列,以使該特有序列的DNA序列片段能唯一代表一個物種。
測序深度計算單元45計算特有序列中每一位堿基上DNA標簽序列的覆蓋次數(shù),通 過泊松分布擬合得到特有序列的平均測序深度(記為d)。該特有序列的平均測序深度即為 比對到該特有序列的DNA標簽序列代表的物種在樣品中的含量。 覆蓋度計算單元46計算特有序列和整條序列的覆蓋度。其包括特有序列覆蓋度 計算模塊461和整條序列覆蓋度計算模塊462。特有序列覆蓋度計算模塊461計算特有序 列中有多少位堿基被DNA標簽序列覆蓋,從而得到特有序列的覆蓋度(記為c)。整條序列 覆蓋度計算模塊462計算整條序列中(包括特有序列和DNA標簽序列非唯一比對上的序 列)有多少位堿基被DNA標簽序列覆蓋,從而得到整條序列的覆蓋度(記為c')。
可信度判斷單元47根據(jù)特有序列的平均測序深度d、特有序列的覆蓋度c以及整 條序列的覆蓋度c'判斷出該特有序列所代表的物種序列被發(fā)現(xiàn)的可信度。在本發(fā)明實施
例中,當c近似等于l-"^且c《c'時,則認為該物種序列被發(fā)現(xiàn)的可信度高,其中e表
示測序的校正因子,不同的測序方法,e的值可能不同。否則認為該物種序列被發(fā)現(xiàn)的可 信度低。 當需要了解從環(huán)境樣本中檢測到的物種的相對含量比時,在本發(fā)明另一實施例 中,該系統(tǒng)還包括含量比計算單元48。該含量比計算單元48根據(jù)計算得到的唯一代表每種 物種的特有序列的平均測序深度比,得到每種特有序列代表的物種的相對含量比。由于特 有序列所代表的物種在樣品中的含量是隨著特有序列的平均測序深度的增加而增加的,因 此唯一代表每種物種的特有序列的平均測序深度比即為每種特有序列代表的物種的相對 含量比。在本發(fā)明實施例中,通過采用高通量的測序技術(shù)對提取的DNA樣品進行測序,得到 DNA標簽序列,再將測序序列與已知數(shù)據(jù)庫中的已知序列進行比對,根據(jù)比對結(jié)果得到DNA 標簽序列的所屬分類,從而可以檢測到環(huán)境樣本中可能存在哪些微生物物種或哪一類微生 物物種。通過對已知數(shù)據(jù)庫中的已知序列進行預處理,得到能唯一代表一個物種的特有序 列,再通過計算特有序列中每一位堿基上DNA標簽序列的覆蓋次數(shù),采用泊松分布擬合得到特有序列的平均測序深度,從而檢測出該特有序列代表的物種在樣品中的含量。同時通 過計算特有區(qū)域的覆蓋度和整條序列的覆蓋度,從而根據(jù)特有序列的平均測序深度、特有 區(qū)域的覆蓋度和整條序列的覆蓋度可以判斷特有序列所代表的物種被發(fā)現(xiàn)的可信度。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
一種環(huán)境微生物檢測方法,其特征在于,所述方法包括下述步驟輸入從環(huán)境樣本中提取的DNA數(shù)據(jù),采用高通量的測序方法對從環(huán)境樣本中提取的DNA進行測序,得到DNA標簽序列;去除所述DNA標簽序列中存在的載體污染;將去除載體污染后得到的DNA標簽序列與已知數(shù)據(jù)庫中的已知序列進行比對,并根據(jù)比對結(jié)果確定所述DNA標簽序列所屬的分類。
2. 如權(quán)利要求l所述的方法,其特征在于,將去除載體污染后得到的DNA標簽序列與已 知數(shù)據(jù)庫中的已知序列進行比對,并根據(jù)比對結(jié)果確定所述DNA標簽序列所屬的分類的步 驟還包括采用短串序列的映射方法將所述DNA標簽序列與已知數(shù)據(jù)庫中的已知序列進行比對, 將所述DNA標簽序列與已知序列之間的最佳匹配序列所屬的分類確定為所述DNA標簽序列 的所屬分類,所述DNA標簽序列與已知序列之間的最佳匹配序列為所述DNA標簽序列比對 到已知序列上具有最少堿基錯配的序列。
3. 如權(quán)利要求2所述的方法,其特征在于,當所述DNA標簽序列與已知序列之間的最佳 匹配序列有多個時,將該多個最佳匹配序列的最近的共同所屬分類確定為所述DNA標簽序 列的所述分類。
4. 如權(quán)利要求1所述的方法,其特征在于,所述方法還包括下述步驟 對已知數(shù)據(jù)庫中的已知序列進行預處理,得到能唯一代表一個物種的DNA序列片段; 計算特有序列中每一位堿基上DNA標簽序列的覆蓋次數(shù),通過泊松分布擬合得到特有序列的平均測序深度;計算特有序列中有多少位堿基被DNA標簽序列覆蓋,從而得到特有序列的覆蓋度; 計算整條序列中有多少位堿基被DNA標簽序列覆蓋,從而得到整條序列的覆蓋度; 根據(jù)所述特有區(qū)域的平均測序深度、特有序列的覆蓋度以及整條序列的覆蓋度判斷出所述特有序列代表的物種被發(fā)現(xiàn)的可信度。
5. 如權(quán)利要求4所述的方法,其特征在于,所述對已知數(shù)據(jù)庫中的已知序列進行預處 理,得到能唯一代表一個物種的DNA序列片段的步驟包括根據(jù)從已知序列的每一位堿基開始,取預設(shè)長度的DNA序列作為模擬標簽序列; 將所述模擬標簽序列映射到已知序列上,并記錄映射到唯一位置的模擬標簽序列; 查找連續(xù)的映射到唯一位置的模擬標簽序列區(qū)域,并將所述區(qū)域的頭尾兩部分各去掉模擬標簽序列長度-1個位點后的連續(xù)區(qū)域內(nèi)的序列作為特有序列,將已知序列中的特有序列連接起來,作為能唯一代表一個物種DNA序列片段的特有序列。
6. 如權(quán)利要求4所述的方法,其特征在于,根據(jù)所述特有區(qū)域的平均測序深度、特有序 列的覆蓋度以及整條序列的覆蓋度判斷出所述特有序列代表的物種被發(fā)現(xiàn)的可信度的步 驟具體為<formula>formula see original document page 2</formula>可信度 — ^_當P接近l時,可信度最高;當P接近O時,可信度最低,其中c為特有序列的覆蓋度,d為特有序列的平均測序深度,c'為整條序列的覆蓋度。e為測序的校 正因子。
7. 如權(quán)利要求4所述的方法,其特征在于,所述計算特有序列中每一位堿基上DNA標簽 序列的覆蓋次數(shù),通過泊松分布擬合得到特有序列的平均測序深度還包括下述步驟根據(jù)計算得到的唯一代表每種物種的特有序列的平均測序深度比,得到每種特有序列 代表的物種的相對含量比。
8. 如權(quán)利要求1-7任意一項所述的方法,其特征在于,所述采用高通量的測序技術(shù)對 從環(huán)境樣本中提取的DNA進行測序過程為對環(huán)境樣本中提取的全部DNA進行測序。
9. 一種環(huán)境微生物檢測系統(tǒng),其特征在于,所述系統(tǒng)包括DNA測序單元,用于采用高通量的測序技術(shù)對輸入的從環(huán)境樣本中提取的DNA進行測序,得到DNA標簽序列;載體污染去除單元,用于去除所述DNA標簽序列中存在的載體污染; 所屬分類確定單元,用于將去除載體污染后得到的DNA標簽序列與已知數(shù)據(jù)庫中的已知序列進行比對,并根據(jù)比對結(jié)果確定所述DNA標簽序列所屬的分類。
10. 如權(quán)利要求9所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括已知序列預處理單元,用于對已知數(shù)據(jù)庫中的已知序列進行預處理,得到能唯一代表 一個物種的DNA序列片段;測序深度計算單元,用于計算特有序列中每一位堿基上DNA標簽序列的覆蓋次數(shù),通 過泊松分布擬合得到特有序列的平均測序深度;覆蓋度計算單元,用于計算特有序列中有多少位堿基被DNA標簽序列覆蓋,從而得到 特有序列的覆蓋度,并計算整條序列中有多少位堿基被DNA標簽序列覆蓋,從而得到整條 序列的覆蓋度;可信度判斷單元,用于根據(jù)所述特有區(qū)域的平均測序深度、特有序列的覆蓋度以及整 條序列的覆蓋度判斷出所述特有序列代表的物種被發(fā)現(xiàn)的可信度的高低。
11. 如權(quán)利要求10所述的系統(tǒng),其特征在于,所述已知序列預處理單元包括 模擬標簽序列產(chǎn)生模塊,用于根據(jù)從已知序列的每一位堿基開始,取預設(shè)長度的DNA序列作為模擬標簽序列;模擬標簽序列映射模塊,用于將所述模擬標簽序列映射到已知序列上,并記錄映射到 唯一位置的模擬標簽序列;特有序列獲取模塊,用于查找連續(xù)的映射到唯一位置的模擬標簽序列區(qū)域,并將所述 區(qū)域的頭尾兩部分各去掉模擬標簽序列長度-1個位點后的連續(xù)區(qū)域內(nèi)的序列作為特有序 列,將已知序列中的特有序列連接起來,作為能唯一代表一個物種DNA序列片段的特有序 列。
12. 如權(quán)利要求IO所述的系統(tǒng),其特征在于,所述可信度判斷單元判斷可信度 <formula>formula see original document page 3</formula>當P接近1時,可信度最高;當P接近0時,可信度最低,其中c為特有序列的覆蓋度,d為特有序列的平均測序深度,c'為整條序列的覆蓋度。e為測序的校正因子。
13. 如權(quán)利要求12所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括含量比計算單元,用于根據(jù)計算得到的唯一代表每種物種的特有序列的平均測序深度 比,得到每種特有序列代表的物種的相對含量比。
14.如權(quán)利要求9-13任意一項所述的系統(tǒng),其特征在于,所述DNA測序單元對環(huán)境樣本 中提取的全部DNA進行測序。
全文摘要
本發(fā)明適用于生物工程領(lǐng)域,提供了一種環(huán)境微生物檢測方法和系統(tǒng),所述方法包括下述步驟采用高通量的測序技術(shù)對從環(huán)境樣本中提取的DNA進行測序,得到DNA標簽序列;去除所述DNA標簽序列中存在的載體污染;將所述DNA標簽序列與已知數(shù)據(jù)庫中的已知序列進行比對,并根據(jù)比對結(jié)果確定所述DNA標簽序列的所屬分類。本發(fā)明實施例可以檢測到環(huán)境樣本中可能存在哪些微生物物種或哪一類微生物物種。
文檔編號C12Q1/68GK101748213SQ20091025813
公開日2010年6月23日 申請日期2009年12月14日 優(yōu)先權(quán)日2008年12月12日
發(fā)明者張秀清, 李瑞強, 楊煥明, 汪建, 王俊, 覃俊杰 申請人:深圳華大基因研究院;深圳華大基因科技有限公司