制備參考數(shù)據(jù)庫及對待測游離核酸樣本進行目標區(qū)域序列比對的方法
【專利摘要】本發(fā)明公開了制備參考數(shù)據(jù)庫及對待測游離核酸樣本進行目標區(qū)域序列比對的方法。其中,制備參考數(shù)據(jù)庫的方法包括:對多個游離核酸樣本進行測序;確定多個測序序列中比對到參考序列的目標區(qū)域上的每一個堿基的測序深度;將該測序深度針對每一個堿基在參考序列上的位置進行作圖;基于所得到的圖和所述多個游離核酸樣本的個數(shù),確定篩選閾值;基于該篩選閾值,對該參考序列的目標區(qū)域進行篩選,以便獲得參考數(shù)據(jù)庫。利用該方法,能夠有效地針對目標區(qū)域進行參考數(shù)據(jù)庫的制備,使制備獲得的參考數(shù)據(jù)庫的序列相對于目標區(qū)域大大減少,進而將該參考數(shù)據(jù)庫用于待測游離核酸樣本的目標區(qū)域序列比對時,工作量顯著降低,但比對結(jié)果準確、可靠。
【專利說明】制備參考數(shù)據(jù)庫及對待測游離核酸樣本進行目標區(qū)域序列比對的方法
【技術領域】
[0001]本發(fā)明涉及制備參考數(shù)據(jù)庫及對待測游離核酸樣本進行目標區(qū)域序列比對的方法。
【背景技術】
[0002]目前常用的對游離核酸樣本進行目標區(qū)域序列比對分析的方法,主要步驟包括:數(shù)據(jù)的質(zhì)控;測序序列比對到參考序列上;統(tǒng)計參考序列的覆蓋度;給出Z值。其中,Z值是實際數(shù)據(jù)和一個參考數(shù)據(jù)集的標準差,基于Z值,可以確定樣本在目標區(qū)域是否存在異常。然而,該方法存在較多問題,例如:測序序列的比對時間久,Z值統(tǒng)計偏差較多。
[0003]因而,現(xiàn)階段的對游離核酸樣本進行目標區(qū)域序列比對的方法,仍有待改進。
【發(fā)明內(nèi)容】
[0004]本發(fā)明旨在至少解決現(xiàn)有技術中存在的技術問題之一。為此,本發(fā)明的一個目的在于提出一種能夠有效用于目標區(qū)域序列比對的參考數(shù)據(jù)庫,以及能夠快速、高效地對待測游離核酸樣本進行目標區(qū)域序列比對的方法。
[0005]根據(jù)本發(fā)明的一個方面,本發(fā)明提供了一種制備參考數(shù)據(jù)庫的方法。根據(jù)本發(fā)明的實施例,該方法包括以下步驟:(I)對多個游離核酸樣本進行測序,以便獲得多個測序序列;(2)確定所述多個測序序列中比對到參考序列的目標區(qū)域上的每一個堿基的測序深度;(3)將所述測序深度針對所述比對到參考序列的目標區(qū)域上的每一個堿基在參考序列上的位置進行作圖,其中,所述測序深度為Y軸,所述堿基在參考序列上的位置為X軸;(4)基于所述步驟(3)中所得到的圖和所述多個游離核酸樣本的個數(shù),確定比對到所述參考序列的目標區(qū)域上的多段連續(xù)區(qū)域的測序深度,作為篩選閾值;(5)基于所述篩選閾值,對所述參考序列的目標區(qū)域進行篩選,以便獲得經(jīng)過篩選的目標區(qū)域,所述經(jīng)過篩選的目標區(qū)域構(gòu)成所述參考數(shù)據(jù)庫。
[0006]發(fā)明人驚奇地發(fā)現(xiàn),利用本發(fā)明的制備參考數(shù)據(jù)庫的方法,能夠有效地針對目標區(qū)域進行參考數(shù)據(jù)庫的制備,即去除實際測序數(shù)據(jù)進行分析時參考數(shù)據(jù)庫中的冗余部分,使最終篩選獲得的數(shù)據(jù)即制備獲得的參考數(shù)據(jù)庫的序列相對于目標區(qū)域大大減少,甚至僅為目標區(qū)域序列長度的幾分之一,進而,將該參考數(shù)據(jù)庫用于游離核酸樣本的目標區(qū)域序列比對時,工作量顯著降低,但比對結(jié)果準確、可靠。
[0007]另外,根據(jù)本發(fā)明上述實施例的制備參考數(shù)據(jù)庫的方法還可以具有如下附加的技術特征:
[0008]根據(jù)本發(fā)明的實施例,所述游離核酸樣本來源于哺乳動物優(yōu)選人的外周血。
[0009]根據(jù)本發(fā)明的實施例,利用選自Hiseq、Miseq、1n Torrent、Proton、S0LiD、454和單分子測序裝置的至少一種進行所述測序。由此,測序通量高,準確性好。
[0010]根據(jù)本發(fā)明的實施例,所述參考序列為人類基因組序列。根據(jù)本發(fā)明的一些具體示例,所述參考序列為選自人類染色體,優(yōu)選人類21號染色體、18號染色體、13號染色體、X染色體和Y染色體上的至少一段的序列。由此,能夠有效實現(xiàn)制備獲得人類染色體上特定區(qū)域的參考數(shù)據(jù)庫。
[0011]根據(jù)本發(fā)明的實施例,所述篩選閾值是通過以下步驟確定的:計算所述多個測序序列對所述游離核酸樣本所來源物種的整個基因組的覆蓋度值M ;在步驟(3)中所得到的圖上,選取測序深度為N的比對到所述參考序列的目標區(qū)域上的多段連續(xù)區(qū)域,作為待測區(qū)域,其中N大于M ;基于所述多個游離核酸樣本在所述待測區(qū)域的比對結(jié)果,確定所述多個游離核酸樣本是否存在異常,以便獲得第一異常確定結(jié)果;將所述多個測序序列直接比對到所述參考序列,并基于直接比對結(jié)果,確定所述多個核酸樣本是否存在異常,以便獲得第二異常確定結(jié)果;以及將所述第一異常確定結(jié)果和所述第二異常確定結(jié)果進行比較,并以所述多個游離核酸樣本中99.9%以上的樣本的所述第一異常確定結(jié)果和所述第二異常確定結(jié)果一致時的N值作為篩選閾值。
[0012]根據(jù)本發(fā)明的實施例,所述經(jīng)過篩選的目標區(qū)域為測序深度大于所述篩選閾值的比對到所述參考序列的目標區(qū)域上的多段連續(xù)區(qū)域。
[0013]根據(jù)本發(fā)明的另一方面,本發(fā)明還提供了一種對待測游離核酸樣本進行目標區(qū)域序列比對的方法。根據(jù)本發(fā)明的實施例,該方法包括:根據(jù)前面所述的制備參考數(shù)據(jù)庫的方法,針對所述目標區(qū)域制備參考數(shù)據(jù)庫;對所述待測游離核酸樣本進行測序,以便獲得測序數(shù)據(jù);以及將所述測序數(shù)據(jù)與所述參考數(shù)據(jù)庫進行比對。
[0014]根據(jù)本發(fā)明的實施例,利用本發(fā)明的對待測游離核酸樣本進行目標區(qū)域序列比對的方法,能夠有效實現(xiàn)對待測游離核酸樣本的序列比對,并且相對于目前的測序比對方法,本發(fā)明的方法操作簡便、成本低、工作量小、快速高效,且結(jié)果準確可靠。
[0015]根據(jù)本發(fā)明的實施例,所述目標區(qū)域為選自人類染色體,優(yōu)選人類21號染色體、18號染色體、13號染色體、X染色體和Y染色體上的至少一段的序列。由此,能夠有效實現(xiàn)對待測游離核酸樣本的人類染色體特定區(qū)域的序列比對。
[0016]根據(jù)本發(fā)明的實施例,進一步包括:基于比對結(jié)果,確定所述待測游離核酸樣本是否存在異常。
[0017]根據(jù)本發(fā)明的實施例,利用選自Hiseq、Miseq、1n Torrent、Proton、S0LiD、454和單分子測序裝置的至少一種進行所述測序。由此,測序通量高、結(jié)果準確,有利于后續(xù)的比對分析。
[0018]本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0019]本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
[0020]圖1顯示了根據(jù)本發(fā)明實施例的制備參考數(shù)據(jù)庫的方法的流程示意圖;
[0021]圖2顯示了根據(jù)本發(fā)明一個實施例,比對到21號染色體上的堿基的測序深度分布圖;
[0022]圖3顯示了根據(jù)本發(fā)明一個實施例,在圖2上進行閾值篩選后的結(jié)果圖。【具體實施方式】
[0023]下面詳細描述本發(fā)明的實施例。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0024]需要說明的是,術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括一個或者更多個該特征。進一步地,在本發(fā)明的描述中,除非另有說明,“多個”的含義是兩個或兩個以上。
[0025]制備參考數(shù)據(jù)庫的方法
[0026]根據(jù)本發(fā)明的一個方面,本發(fā)明提供了一種制備參考數(shù)據(jù)庫的方法。根據(jù)本發(fā)明的實施例,參照圖1,該方法包括以下步驟:
[0027]( I)對多個游離核酸樣本進行測序
[0028]首先,對多個游離核酸樣本進行測序,以便獲得多個測序序列。
[0029]根據(jù)本發(fā)明的實施例,所述游離核酸樣本的來源不受特別限制。根據(jù)本發(fā)明的一些具體示例,所述游離核酸樣本來源于哺乳動物優(yōu)選人的外周血游離DNA。
[0030]根據(jù)本發(fā)明的實施例,可以采用的測序裝置不受特別限制,只要能夠有效實現(xiàn)對多個游離核酸樣本的測序即可。根據(jù)本發(fā)明的一些具體示例,可以利用選自Hiseq、Miseq、1n Torrent、Proton、S0LiD、454和單分子測序裝置的至少一種進行所述測序。由此,測序通量高,準確性好。
[0031](2)確定多個測序序列中比對到參考序列的目標區(qū)域上的每一個堿基的測序深度
[0032]其次,確定所述多個測序序列中比對到參考序列的目標區(qū)域上的每一個堿基的測序深度。
[0033]根據(jù)本發(fā)明的實施例,所述參考序列為人類基因組序列。根據(jù)本發(fā)明的一些具體示例,所述參考序列為選自人類染色體,優(yōu)選人類21號染色體、18號染色體、13號染色體、X染色體和Y染色體上的至少一段的序列。由此,能夠有效實現(xiàn)制備獲得人類染色體上特定區(qū)域的參考數(shù)據(jù)庫。
[0034](3)將所述測序深度針對所述每一個堿基在參考序列上的位置進行作圖
[0035]接著,將所述測序深度針對所述比對到參考序列的目標區(qū)域上的每一個堿基在參考序列上的位置進行作圖,其中,所述測序深度為Y軸,所述堿基在參考序列上的位置為X軸。
[0036](4)基于所得到的圖和所述多個游離核酸樣本的個數(shù),確定篩選閾值
[0037]接下來,基于所述步驟(3)中所得到的圖和所述多個游離核酸樣本的個數(shù),確定比對到所述參考序列的目標區(qū)域上的多段連續(xù)區(qū)域的測序深度,作為篩選閾值。
[0038]根據(jù)本發(fā)明的實施例,所述篩選閾值是通過以下步驟確定的:計算所述多個測序序列對所述游離核酸樣本所來源物種的整個基因組的覆蓋度值M ;在步驟(3)中所得到的圖上,選取測序深度為N的比對到所述參考序列的目標區(qū)域上的多段連續(xù)區(qū)域,作為待測區(qū)域,其中N大于M ;基于所述多個游離核酸樣本在所述待測區(qū)域的比對結(jié)果,確定所述多個游離核酸樣本是否存在異常,以便獲得第一異常確定結(jié)果;將所述多個測序序列直接比對到所述參考序列,并基于直接比對結(jié)果,確定所述多個核酸樣本是否存在異常,以便獲得第二異常確定結(jié)果;以及將所述第一異常確定結(jié)果和所述第二異常確定結(jié)果進行比較,并以所述多個游離核酸樣本中99.9%以上的樣本的所述第一異常確定結(jié)果和所述第二異常確定結(jié)果一致時的N值作為篩選閾值。
[0039]具體地,例如:對10個人類游離核酸樣本進行21號染色體三體的檢測時,第一異常確定結(jié)果為5個陽性和5個陰性,而正常測序比對獲得的檢測結(jié)果即第二異常確定結(jié)果為6個陽性和4個陰性,其中有2個檢測結(jié)果不正確,則僅有80%的樣本的第一異常確定結(jié)果和第二異常確定結(jié)果一致,則此時的N值就不能作為篩選閾值。進而,可以選擇大于該N值的測序深度,繼續(xù)上述檢測,直至所述多個游離核酸樣本中99.9%以上的樣本的所述第一異常確定結(jié)果和所述第二異常確定結(jié)果一致時,可將該N值作為篩選閾值。
[0040](5)基于篩選閾值對參考序列的目標區(qū)域進行篩選,以便獲得參考數(shù)據(jù)庫
[0041]然后,基于所述篩選閾值,對所述參考序列的目標區(qū)域進行篩選,以便獲得經(jīng)過篩選的目標區(qū)域,所述經(jīng)過篩選的目標區(qū)域構(gòu)成所述參考數(shù)據(jù)庫。具體地,根據(jù)本發(fā)明的實施例,所述經(jīng)過篩選的目標區(qū)域為測序深度大于所述篩選閾值的比對到所述參考序列的目標區(qū)域上的多段連續(xù)區(qū)域。
[0042]發(fā)明人驚奇地發(fā)現(xiàn),利用本發(fā)明的制備參考數(shù)據(jù)庫的方法,能夠有效地針對目標區(qū)域(例如人類21號染色體)進行參考數(shù)據(jù)庫的制備,即去除實際測序數(shù)據(jù)中的冗余部分,使最終篩選獲得的數(shù)據(jù)即制備獲得的參考數(shù)據(jù)庫的序列相對于目標區(qū)域大大減少,甚至僅為目標區(qū)域序列長度的幾分之一,進而,將該參考數(shù)據(jù)庫用于游離核酸樣本的目標區(qū)域序列(例如人類21號染色體)的比對時,工作量顯著降低,但比對結(jié)果準確、可靠。
[0043]對待測游離核酸樣本進行目標區(qū)域序列比對的方法
[0044]根據(jù)本發(fā)明的另一方面,本發(fā)明還提供了一種對待測游離核酸樣本進行目標區(qū)域序列比對的方法。根據(jù)本發(fā)明的實施例,該方法包括:
[0045]首先,根據(jù)前面所述的制備參考數(shù)據(jù)庫的方法,針對所述目標區(qū)域制備參考數(shù)據(jù)庫。根據(jù)本發(fā)明的實施例,所述目標區(qū)域為選自人類染色體,優(yōu)選人類21號染色體、18號染色體、13號染色體、X染色體和Y染色體上的至少一段的序列。由此,能夠有效實現(xiàn)對待測游離核酸樣本的人類染色體特定區(qū)域的序列比對。
[0046]接著,對所述待測游離核酸樣本進行測序,以便獲得測序數(shù)據(jù)。根據(jù)本發(fā)明的實施例,可以采用的測序裝置不受特別限制,只要能夠有效實現(xiàn)對多個游離核酸樣本的測序即可。根據(jù)本發(fā)明的一些具體示例,可以利用選自Hiseq、Miseq、1n Torrent、Proton、S0LiD、454和單分子測序裝置的至少一種進行所述測序。由此,測序通量高、結(jié)果準確,有利于后續(xù)的比對分析。
[0047]然后,將所述測序數(shù)據(jù)與所述參考數(shù)據(jù)庫進行比對。
[0048]根據(jù)本發(fā)明的實施例,可以進一步包括:基于比對結(jié)果,確定所述待測游離核酸樣本是否存在異常。由此,基于本發(fā)明的方法能夠有效實現(xiàn)對游離核酸樣本進行序列分析和倍型異常檢測,例如可以有效地用于例如孕婦胎兒21號染色體三體的檢測。
[0049]根據(jù)本發(fā)明的實施例,利用本發(fā)明的對待測游離核酸樣本進行目標區(qū)域序列比對的方法,能夠有效實現(xiàn)對待測游離核酸樣本目標區(qū)域例如人類21號染色體的序列比對,并且相對于目前的目標區(qū)域測序比對方法,本發(fā)明的方法操作簡便、成本低、工作量小、快速高效,且結(jié)果準確可靠。[0050]下面將結(jié)合實施例對本發(fā)明的方案進行解釋。本領域技術人員將會理解,下面的實施例僅用于說明本發(fā)明,而不應視為限定本發(fā)明的范圍。實施例中未注明具體技術或條件的,按照本領域內(nèi)的文獻所描述的技術或條件(例如參考J.薩姆布魯克等著,黃培堂等譯的《分子克隆實驗指南》,第三版,科學出版社)或者按照產(chǎn)品說明書進行。所用試劑或儀器未注明生產(chǎn)廠商者,均為可以通過市購獲得的常規(guī)產(chǎn)品,例如可以采購自Illumina公司。
[0051]實施例1:
[0052]參照圖1,根據(jù)本發(fā)明的制備參考數(shù)據(jù)庫的方法,按照以下步驟,以人類21號染色體為目標區(qū)域,制備參考數(shù)據(jù)庫:
[0053](I)利用Illumina Hiseq PE-100程序測序?qū)?20個來源于孕婦外周血的游離核酸樣本進行測序,以便獲得多個測序序列,具體操作流程詳見Hiseq操作說明書。其中,每個樣本約5M(百萬)個測序序列,每個測序序列的讀長為35個堿基。
[0054](2)確定所述多個測序序列比對到參考序列的目標區(qū)域上的每一個堿基的測序深度。其中,該參考序列的目標區(qū)域即前述的人類21號染色體的核苷酸序列。
[0055](3)將所述測序深度針對所述比對到21號染色體上的每一個堿基在人基因組上的位置進行作圖,其中,所述測序深度為Y軸,所述堿基在人基因組上的位置為X軸。結(jié)果,見圖2。
[0056](4)計算所述多個測序序列對人類基因組的覆蓋度值M ;在圖2上選取測序深度為N的比對到所述21號染色體上的多段連續(xù)區(qū)域,作為待測區(qū)域,其中N大于M ;基于所述多個游離核酸樣本在所述待測區(qū)域的比對結(jié)果,確定所述多個游離核酸樣本是否存在異常,以便獲得第一異常確定結(jié)果;將所述多個測序序列直接比對到人基因組上,并基于直接比對結(jié)果,確定所述多個核酸樣本是否存在21號染色體三體的情況,以便獲得第二異常確定結(jié)果;以及將所述第一異常確定結(jié)果和所述第二異常確定結(jié)果進行比較,并以所述多個游離核酸樣本中99.9%以上的樣本的所述第一異常確定結(jié)果和所述第二異常確定結(jié)果一致時的N值作為篩選閾值。
[0057]具體地:
[0058]首先,將前面獲得的120個樣本的多個測序序列直接比對到人基因組上,經(jīng)生物信息分析得到了所述第二異常確定結(jié)果:120個樣本中有9個為21三體陽性,其余為正常樣本。
[0059]然后,在步驟(I)中120個樣本經(jīng)測序總共得到約600M (0.6G)個測序序列,按照一個人的基因組為3G(30億)個堿基計算,其對整個人基因組的覆蓋度值M=0.6G*35/3G=7倍。進而,經(jīng)過反復的檢測,發(fā)明人發(fā)現(xiàn),當在圖2上選取測序深度為N=13的比對到21號染色體上的多段連續(xù)區(qū)域,即該圖上13倍覆蓋度的多段連續(xù)區(qū)域作為待測區(qū)域時,獲得的第一異常確定結(jié)果與前述的第二異常確定結(jié)果一致,即可以檢測到120個樣本中所有的21三體陽性樣本(9個為陽性)。從而,將篩選閾值確定為13 (倍測序深度)。
[0060](5)基于所述篩選閾值13 (倍測序深度),對21號染色體區(qū)域進行篩選,具體地,在圖2上篩選測序深度大于13的比對到21號染色體上的多段連續(xù)區(qū)域作為經(jīng)過篩選的目標區(qū)域,結(jié)果見圖3。如圖3所示,圖中陰影部分涉及的21號染色體區(qū)域,即為經(jīng)過篩選的目標區(qū)域(約為21染色體區(qū)域長度的1/10),所述經(jīng)過篩選的目標區(qū)域構(gòu)成所述參考數(shù)據(jù)庫。[0061]實施例2
[0062]根據(jù)本發(fā)明的對待測游離核酸樣本進行目標區(qū)域序列比對的方法,對50個人外周血游離DNA樣本(已知9個為21三體陽性,41個正常)進行21號染色體序列比對以及21三體檢測,具體步驟如下:
[0063]1、Hiseq 測序
[0064]基于Illumina Hiseq PE-100測序標準,對50個人外周血游離DNA樣本進行文庫構(gòu)建,并利用Illumina Hiseq PE-100測序儀進行測序,具體操作流程詳見Hiseq操作說明書。其中,測序序列為5M,每個測序序列的讀長為35個堿基。
[0065]由此,獲得各人外周血游離DNA樣本的測序結(jié)果。
[0066]2、比對分析
[0067]將上述獲得的各人外周血游離DNA樣本的測序結(jié)果,與實施例1中制備的參考數(shù)據(jù)庫進行比對,即僅選取圖3中陰影部分涉及的21號染色體區(qū)域進行測序序列比對分析。進而,基于比對結(jié)果,確定50個人外周血游離DNA樣本中9個為21三體陽性,41個正常。
與已知結(jié)果完全一致。
[0068]并且,基于參考數(shù)據(jù)庫僅為21號染色體區(qū)域的1/10,從而在不改變原來的測序方法,每個樣本測序約5M的序列,在計算分析的時候,只需要原來的1/10的計算量,就可以達到區(qū)分陽性樣本的效果。換言之,在同樣的測序量的基礎上,在數(shù)據(jù)分析時,采用本發(fā)明的方法,可以節(jié)省90%的計算資源。
[0069]在本說明書的描述中,參考術語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
[0070]盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領域的普通技術人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由權利要求及其等同物限定。
【權利要求】
1.一種制備參考數(shù)據(jù)庫的方法,其特征在于,包括以下步驟: (1)對多個游離核酸樣本進行測序,以便獲得多個測序序列; (2)確定所述多個測序序列中比對到參考序列的目標區(qū)域上的每一個堿基的測序深度; (3)將所述測序深度針對所述比對到參考序列的目標區(qū)域上的每一個堿基在參考序列上的位置進行作圖,其中,所述測序深度為Y軸,所述堿基在參考序列上的位置為X軸; (4)基于所述步驟(3)中所得到的圖和所述多個游離核酸樣本的個數(shù),確定比對到所述參考序列的目標區(qū)域上的多段連續(xù)區(qū)域的測序深度,作為篩選閾值; (5)基于所述篩選閾值,對所述參考序列的目標區(qū)域進行篩選,以便獲得經(jīng)過篩選的目標區(qū)域,所述經(jīng)過篩選的目標區(qū)域構(gòu)成所述參考數(shù)據(jù)庫。
2.根據(jù)權利要求1所述的方法,其特征在于,所述游離核酸樣本來源于哺乳動物優(yōu)選人的外周血。
3.根據(jù)權利要求1所述的方法,其特征在于,利用選自Hiseq、Miseq、1nTorrent、Proton、S0LiD、454和單分子測序裝置的至少一種進行所述測序。
4.根據(jù)權利要求1所述的方法,其特征在于,所述參考序列為人類基因組序列。
5.根據(jù)權利要求4所述的方法,其特征在于,所述參考序列為選自人類染色體,優(yōu)選人類21號染色體、18號染色體、13號染色體、X染色體和Y染色體上的至少一段的序列。
6.根據(jù)權利要求1所述的方法,其特征在于,所述篩選閾值是通過以下步驟確定的: 計算所述多個測序序列對所述游離核酸樣本所來源物種的整個基因組的覆蓋度值M ; 在步驟(3)中所得到的圖上,選取測序深度為N的比對到所述參考序列的目標區(qū)域上的多段連續(xù)區(qū)域,作為待測區(qū)域,其中N大于M ; 基于所述多個游離核酸樣本在所述待測區(qū)域的比對結(jié)果,確定所述多個游離核酸樣本是否存在異常,以便獲得第一異常確定結(jié)果; 將所述多個測序序列直接比對到所述參考序列,并基于直接比對結(jié)果,確定所述多個核酸樣本是否存在異常,以便獲得第二異常確定結(jié)果;以及 將所述第一異常確定結(jié)果和所述第二異常確定結(jié)果進行比較,并以所述多個游離核酸樣本中99.9%以上的樣本的所述第一異常確定結(jié)果和所述第二異常確定結(jié)果一致時的N值作為篩選閾值。
7.根據(jù)權利要求1所述的方法,其特征在于,所述經(jīng)過篩選的目標區(qū)域為測序深度大于所述篩選閾值的比對到所述參考序列的目標區(qū)域上的多段連續(xù)區(qū)域。
8.一種對待測游離核酸樣本進行目標區(qū)域序列比對的方法,其特征在于,包括: 根據(jù)權利要求1~7任一項所述的方法,針對所述目標區(qū)域制備參考數(shù)據(jù)庫; 對所述待測游離核酸樣本進行測序,以便獲得測序數(shù)據(jù);以及 將所述測序數(shù)據(jù)與所述參考數(shù)據(jù)庫進行比對。
9.根據(jù)權利要求8所述的方法,其特征在于,所述目標區(qū)域為選自人類染色體,優(yōu)選人類21號染色體、18號染色體、13號染色體、X染色體和Y染色體上的至少一段的序列。
10.根據(jù)權利要求8所述的方法,進一步包括: 基于比對結(jié)果,確定所述待測游離核酸樣本是否存在異常。
11.根據(jù)權利要求8所述的方法,其特征在于,利用選自Hiseq、Miseq、1nTorrent、Proton、S0LiD、454和單分子測序裝置的至少一種進行所述測序。
【文檔編號】G06F19/22GK103955630SQ201410117470
【公開日】2014年7月30日 申請日期:2014年3月26日 優(yōu)先權日:2014年3月26日
【發(fā)明者】田埂, 郎繼東, 方建火, 張麗娜 申請人:田埂