本發(fā)明涉及生物檢測領(lǐng)域,特別是基于亞硫酸鹽處理的目標(biāo)區(qū)域DNA文庫的捕獲、測序與分析。更具體來說,本發(fā)明涉及針對(duì)目標(biāo)區(qū)域進(jìn)行DNA甲基化測序的方法。
背景技術(shù):
:DNA甲基化是表觀遺傳學(xué)的重要研究內(nèi)容之一,它能夠調(diào)節(jié)基因的表達(dá)和關(guān)閉,與癌癥、衰老、老年癡呆等許多疾病密切相關(guān),是當(dāng)前科學(xué)研究和臨床診斷應(yīng)用的熱點(diǎn)之一。亞硫酸鹽處理是DNA甲基化測序的金標(biāo)準(zhǔn),其原理是用亞硫酸鹽處理基因組DNA,未發(fā)生甲基化的胞嘧啶被轉(zhuǎn)化為尿嘧啶,而甲基化的胞嘧啶不變,繼而通過測序比對(duì)參考基因組上相同位置的C是否轉(zhuǎn)化為T來判斷該C位點(diǎn)是否有甲基化。隨著高通量測序技術(shù)的成熟,亞硫酸鹽處理技術(shù)已經(jīng)應(yīng)用在全基因組DNA甲基化測序中,例如WholeGenomeBisulfiteSequencing(WGBS)。WGBS可以獲得全基因組水平范圍的DNA甲基化分布以及每個(gè)C的DNA甲基化水平。目前,針對(duì)人類基因組而言,WGBS為了得到全基因組水平的覆蓋,以及較為可靠的甲基化水平,需至少產(chǎn)出180Gb的有效數(shù)據(jù)量,才可以滿足人基因組DNA的雙鏈各30倍的平均深度;并且由于所測基因組DNA往往來源于異質(zhì)性的細(xì)胞組成,而DNA甲基化是細(xì)胞特異性的,因此為了獲得足夠準(zhǔn)確的、每個(gè)C的DNA甲基化水平,理論上來說,每個(gè)C的測序深度越高越好,但越高的測序深度將導(dǎo)致測序成本的急劇上升。雖然目前針對(duì)遺傳變異的目標(biāo)區(qū)域測序已然成熟,但針對(duì)目標(biāo)區(qū)域的DNA甲基化測序技術(shù)尚未成熟。同時(shí),與特定疾病相關(guān)的DNA甲基化狀態(tài)改變已經(jīng)被大量報(bào)道,例如腫瘤發(fā)生發(fā)展相關(guān)的DNA甲基化改變主要發(fā)生在抑癌基因或致癌基因的啟動(dòng)子區(qū)域。因此,針對(duì)目標(biāo)區(qū)域的DNA甲基化測序技術(shù)開發(fā),對(duì)于疾病的科學(xué)研究或臨床診斷具有廣闊的應(yīng)用價(jià)值。技術(shù)實(shí)現(xiàn)要素:為了解決上述問題,本發(fā)明提供了一種針對(duì)目標(biāo)區(qū)域進(jìn)行DNA甲基化測序的方法。在第一方面,本發(fā)明提供了一種針對(duì)目標(biāo)區(qū)域進(jìn)行DNA甲基化測序的方法,所述方法包括:a)提供包含目標(biāo)核酸序列的核酸樣品和與目標(biāo)核酸序列一致或?qū)δ繕?biāo)序列具有特異性的誘餌序列;b)以所述誘餌序列為模板進(jìn)行鏈聚合酶擴(kuò)增得到DNA雙鏈池,隨后對(duì)DNA雙鏈池進(jìn)行DNA甲基化轉(zhuǎn)移酶處理和亞硫酸鹽處理,進(jìn)而通過體外轉(zhuǎn)錄制備核酸類似物,所述核酸類似物帶有結(jié)合部分,例如生物素結(jié)合部分;c)使所述核酸樣品片段化并進(jìn)行亞硫酸鹽處理,優(yōu)選制備全基因組DNA甲基化文庫;d)所述核酸類似物與所述處理的核酸樣品雜交,使得所述核酸類似物與所述片段化的核酸樣品中的目標(biāo)區(qū)域核酸形成核酸類似物/DNA雜交復(fù)合物;e)通過所述結(jié)合部分,去除所述處理的核酸樣品中的非目標(biāo)區(qū)域的核酸;f):對(duì)步驟e)后獲得的目標(biāo)區(qū)域核酸進(jìn)行測序。在一個(gè)實(shí)施方案中,在步驟b)的對(duì)DNA雙鏈池進(jìn)行體外DNA甲基轉(zhuǎn)移酶處理時(shí),所述DNA甲基轉(zhuǎn)移酶選自dam甲基轉(zhuǎn)移酶、AluI甲基轉(zhuǎn)移酶、CpG甲基轉(zhuǎn)移酶(M.SssI)、EcoRI甲基轉(zhuǎn)移酶、G9a甲基轉(zhuǎn)移酶、GpC甲基轉(zhuǎn)移酶(M.CviPI)、HumanDNA(cytosine-5)甲基轉(zhuǎn)移酶(Dnmt1)、HumanPRMT1甲基轉(zhuǎn)移酶、MspI甲基轉(zhuǎn)移酶、SET7甲基轉(zhuǎn)移酶、SET8甲基轉(zhuǎn)移酶和T4Phageβ-葡糖基轉(zhuǎn)移酶(T4-BGT)等。在一個(gè)實(shí)施方案中,在步驟e)和f)之間還包括步驟f’):對(duì)所述核酸類似物/DNA雜交復(fù)合物進(jìn)行擴(kuò)增,對(duì)所述片段化的核酸樣品中的目標(biāo)區(qū)域核酸進(jìn)行富集。優(yōu)選地,在步驟c)還包括在所述核酸樣品片段兩端連接接頭序列,并且在步驟e)和f)之間還包括步驟f’)根據(jù)所述接頭序列對(duì)所述核酸類似物/DNA雜交復(fù)合物進(jìn)行擴(kuò)增,達(dá)到富集所述核酸樣品片段中目標(biāo)區(qū)域核酸目的。在一個(gè)實(shí)施方案中,其中所述誘餌序列具有選自如下的特性:i)自身不產(chǎn)生發(fā)夾結(jié)構(gòu)并且相互之間無二聚體產(chǎn)生,ii)拷貝數(shù)根據(jù)所述目標(biāo)核酸序列的GC含量和/或空間結(jié)構(gòu)進(jìn)行補(bǔ)償,iii)當(dāng)所述目標(biāo)區(qū)域是極高或者極低GC含量區(qū)域時(shí)或者當(dāng)目標(biāo)區(qū)域是低復(fù)雜度區(qū)域時(shí),用所述目標(biāo)區(qū)域兩側(cè)區(qū)域作為替代區(qū)域設(shè)計(jì)誘餌,設(shè)計(jì)方法與所述目標(biāo)區(qū)域一致,和iv)無特異性結(jié)合。在一個(gè)實(shí)施方案中,在步驟b)的對(duì)DNA雙鏈池進(jìn)行體外DNA甲基轉(zhuǎn)移酶處理,造成所述DNA雙鏈池中DNA雙鏈的部分C隨機(jī)甲基化。在一個(gè)實(shí)施方案中,所述誘餌序列的拷貝數(shù)還根據(jù)所述目標(biāo)核酸序列受關(guān)注情況進(jìn)行補(bǔ)償。在一個(gè)實(shí)施方案中,其中所述核酸樣品是基因組DNA,使全基因組DNA樣品片段化并進(jìn)行亞硫酸鹽處理,制備全基因組DNA甲基化文庫。在一個(gè)實(shí)施方案中,所述誘餌序列在固體載體上,例如在微陣列載玻片上。在一個(gè)實(shí)施方案中,所述固體載體也為多種珠子或者為微陣列。在一個(gè)實(shí)施方案中,部分或者全部所述核酸類似物帶有結(jié)合部分。在一個(gè)實(shí)施方案中,步驟b)中利用核酸類似物GNA、LNA、PNA、TNA或嗎啉核酸進(jìn)行體外轉(zhuǎn)錄,制備核酸類似物,優(yōu)選其中部分所述核酸類似物帶有結(jié)合部分。在一個(gè)實(shí)施方案中,其中所述結(jié)合部分為生物素結(jié)合部分。在一個(gè)實(shí)施方案中,根據(jù)所述目標(biāo)序列的GC含量對(duì)所述誘餌序列拷貝數(shù)進(jìn)行補(bǔ)償,GC含量越小或者越大,所述目標(biāo)序列對(duì)應(yīng)的誘餌序列拷貝數(shù)增加的就越多。在一個(gè)實(shí)施方案中,拷貝數(shù)根據(jù)所述目標(biāo)核酸序列的GC含量進(jìn)行補(bǔ)償是指:以GC含量在50%的誘餌序列拷貝數(shù)系數(shù)為基準(zhǔn)1,GC含量在10%-90%之間偏離50%每1%,誘餌序列拷貝數(shù)系數(shù)增加0.08-0.12。在一個(gè)具體實(shí)施方案中,誘餌序列拷貝數(shù)補(bǔ)償方法為:根據(jù)所述目標(biāo)序列的GC含量大小從高到低分為6檔,其中第1檔:10%-30%;第2檔:30%-40%;第3檔:40%-60%;第4檔:60%-70%;第5檔:70%-90%;第6檔:小于10%或大于90%,其中第3檔的誘餌序列的拷貝數(shù)為基準(zhǔn)拷貝數(shù),第2檔和第4檔的誘餌序列的拷貝數(shù)多于第3檔,例如是第3擋的2.2-2.8倍,第1檔和第5檔的誘餌序列的拷貝數(shù)更多,例如是第3擋的3-4倍。對(duì)于第6檔,GC含量小于10%或大于90%,以及目標(biāo)區(qū)域是低復(fù)雜序列的情況,誘餌序列設(shè)計(jì)方法是:用所述目標(biāo)區(qū)域兩側(cè)區(qū)域作為替代區(qū)域設(shè)計(jì)探針,一般選擇目標(biāo)區(qū)域兩側(cè)300bp以內(nèi)區(qū)域作為替代區(qū)域,優(yōu)選150bp以內(nèi)的區(qū)域。在一個(gè)實(shí)施方案中,其中所述誘餌序列長度為60-150bp,優(yōu)選80-120bp。在一個(gè)實(shí)施方案中,其中所述與目標(biāo)核酸序列一致或者對(duì)目標(biāo)序列具有特異性是指,誘餌序列在非目標(biāo)區(qū)域上結(jié)合的熱力學(xué)穩(wěn)定性要顯著弱于在目標(biāo)區(qū)域上結(jié)合的熱力學(xué)穩(wěn)定性,優(yōu)選與目標(biāo)區(qū)域Tm-與非特異區(qū)域Tm≥5℃,更優(yōu)選與目標(biāo)區(qū)域Tm-與非特異區(qū)域Tm≥10℃;優(yōu)選Tm的值基于SantaLucia2007熱力學(xué)參數(shù)表的最鄰近法計(jì)算。在一個(gè)實(shí)施方案中,其中所述無二聚體產(chǎn)生是指,任意兩個(gè)誘餌序列之間形成的二聚體,其Tm≤47℃,優(yōu)選≤37℃;優(yōu)選Tm的值基于SantaLucia2007熱力學(xué)參數(shù)表的最鄰近法計(jì)算。在一個(gè)實(shí)施方案中,其中所述無發(fā)卡結(jié)構(gòu)產(chǎn)生是指,任一誘餌序列自身形成發(fā)卡結(jié)構(gòu),其Tm≤47℃,優(yōu)選≤37℃;優(yōu)選Tm的值基于SantaLucia2007熱力學(xué)參數(shù)表的最鄰近法計(jì)算。在一個(gè)實(shí)施方案中,其中對(duì)每個(gè)目標(biāo)區(qū)域,所述誘餌序列是在特異性、二聚體、發(fā)卡結(jié)構(gòu)以及與目標(biāo)區(qū)域的相對(duì)位置方面綜合評(píng)分最優(yōu)的一個(gè)或者多個(gè)誘餌序列,所述綜合評(píng)分通過如下的打分函數(shù)進(jìn)行:S=a×S特異性+b×S二聚體+c×S發(fā)卡結(jié)構(gòu)+d×S相對(duì)距離,其中a=0.26-0.34、b=0.08-0.12、c=0.17-0.23、d=0.35-0.45,具體的打分計(jì)算方法如下:S特異性的打分計(jì)算:對(duì)新設(shè)計(jì)的任一條誘餌序列,在基因組上對(duì)其進(jìn)行序列比對(duì),對(duì)其每一條比對(duì)上的序列分別計(jì)算所述誘餌序列與比對(duì)上的序列之間Tm,所述誘餌序列與目標(biāo)區(qū)域Tm其與任一比對(duì)上序列Tm之差≥5℃,優(yōu)選≥10℃,計(jì)算所述誘餌序列與所有比對(duì)上的序列之間的平均Tm,S特異性=1-Tm平均值/(Tm目標(biāo)-5),優(yōu)選S特異性=1-Tm平均值/(Tm目標(biāo)-10),其中Tm平均值是誘餌序列與所有非特異區(qū)域比對(duì)結(jié)果的平均Tm值,Tm目標(biāo)是誘餌序列與目標(biāo)區(qū)域Tm;S二聚體的打分計(jì)算:對(duì)新設(shè)計(jì)的任一條誘餌序列,與每一條已經(jīng)設(shè)計(jì)的誘餌序列進(jìn)行二聚體比對(duì)分析,對(duì)其每一條比對(duì)上的序列分別計(jì)算所述誘餌序列與所述比對(duì)上的誘餌序列之間的Tm,所述Tm<47℃,計(jì)算所述誘餌序列與所有比對(duì)上的誘餌序列之間的平均Tm,S二聚體=(47–Tm平均值)/47,優(yōu)選所述Tm<37℃,計(jì)算所述誘餌序列與所有比對(duì)上的誘餌序列之間的平均Tm,S二聚體=(37–Tm平均值)/37;S發(fā)卡結(jié)構(gòu)的打分計(jì)算:對(duì)任一條誘餌序列,計(jì)算其最佳的自身比對(duì)結(jié)構(gòu),并計(jì)算所述結(jié)構(gòu)的Tm,所述Tm<47℃,并且S發(fā)卡結(jié)構(gòu)=(47–Tm)/47,優(yōu)選所述Tm<37℃,并且S發(fā)卡結(jié)構(gòu)=(37–Tm平均值)/37;S相對(duì)距離的打分計(jì)算:對(duì)于目標(biāo)區(qū)域坐標(biāo),對(duì)新設(shè)計(jì)的任一條誘餌序列,計(jì)算其與所述目標(biāo)區(qū)域坐標(biāo)差值δDistance,δDistance小于150,S相對(duì)距離=(150-δDistance)/150。在第二方面,本發(fā)明還提供了實(shí)施本發(fā)明的方法的特異性誘餌序列,所述特異性誘餌序列是本發(fā)明第一方面中涉及到的誘餌序列。在一個(gè)實(shí)施方案中,所述特異性誘餌序列與目標(biāo)核酸序列一致或?qū)δ繕?biāo)序列具有特異性,并且i)自身不產(chǎn)生發(fā)夾結(jié)構(gòu)并且相互之間無二聚體產(chǎn)生,ii)拷貝數(shù)根據(jù)所述目標(biāo)核酸序列的GC含量和/或空間結(jié)構(gòu)進(jìn)行補(bǔ)償,iii)當(dāng)所述目標(biāo)區(qū)域是極高或者極低GC含量區(qū)域時(shí)或者當(dāng)目標(biāo)區(qū)域是低復(fù)雜度區(qū)域時(shí),用所述目標(biāo)區(qū)域兩側(cè)區(qū)域作為替代區(qū)域設(shè)計(jì)探針,設(shè)計(jì)方法與所述目標(biāo)區(qū)域一致。在一個(gè)實(shí)施方案中,所述誘餌序列的拷貝數(shù)還根據(jù)所述目標(biāo)核酸序列受關(guān)注情況進(jìn)行補(bǔ)償。在第三方面,本發(fā)明還提供了一種試劑盒,所述試劑盒包括本發(fā)明第二方面所述的誘餌序列,所述試劑盒還包括雙鏈接頭分子、多種不同的寡核苷酸探針。在一個(gè)實(shí)施方案中,所述試劑盒包含用于實(shí)現(xiàn)本發(fā)明第一方面的方法的組合物和試劑。所述試劑盒包括,但不限于,雙鏈接頭分子、多種不同的寡核苷酸探針、與目標(biāo)核酸序列一致或?qū)δ繕?biāo)序列具有特異性的誘餌序列,所述誘餌序列:i)自身不產(chǎn)生發(fā)夾結(jié)構(gòu)并且相互之間無二聚體產(chǎn)生,ii)拷貝數(shù)根據(jù)所述目標(biāo)核酸序列的GC含量、空間結(jié)構(gòu)和/或受關(guān)注情況進(jìn)行補(bǔ)償,iii)當(dāng)所述目標(biāo)區(qū)域是極高或者極低GC含量區(qū)域時(shí)或者當(dāng)目標(biāo)區(qū)域是低復(fù)雜度區(qū)域時(shí),用所述目標(biāo)區(qū)域兩側(cè)區(qū)域作為替代區(qū)域設(shè)計(jì)探針,設(shè)計(jì)方法與所述目標(biāo)區(qū)域一致,iv)無特異性結(jié)合。在某些實(shí)施方案中,試劑盒包含兩種不同雙鏈接頭分子。所述試劑盒可進(jìn)一步包含至少一種或多種其他成分,所述其他成分選自DNA聚合酶、T4多核苷酸激酶、T4DNA連接酶、雜交液、洗滌液和/或洗脫液。在某些實(shí)施方案中,所述試劑盒包含磁體。在某些實(shí)施方案中,所述試劑盒包含一種或多種酶,以及相應(yīng)的試劑、緩沖液等,例如限制性內(nèi)切酶,例如MlyI,以及用于使用MlyI進(jìn)行限制性酶切反應(yīng)的緩沖液/試劑。具體實(shí)施方式本發(fā)明提供了一種針對(duì)目標(biāo)區(qū)域進(jìn)行DNA甲基化測序的方法,所述包括:誘餌序列設(shè)計(jì),誘餌序列的核酸合成(用合成常規(guī)引物或固相合成的方法),用體外鏈聚合酶擴(kuò)增得到DNA雙鏈池,隨后對(duì)DNA雙鏈池進(jìn)行體外DNA甲基轉(zhuǎn)移酶的處理,進(jìn)而通過體外轉(zhuǎn)錄制備核酸類似物,所述核酸類似物帶有結(jié)合部分;核酸樣品前處理(按全基因組DNA文庫制備的方法進(jìn)行),樣品是基因組DNA;核酸類似物與全基因組DNA文庫歸屬于目標(biāo)區(qū)域的核酸以互補(bǔ)配對(duì)原則形成核酸類似物/DNA雜交復(fù)合物;洗脫去除低互補(bǔ)配對(duì)的核酸類似物/DNA雜交體,去除全基因組DNA文庫中非目標(biāo)區(qū)域的核酸;根據(jù)核酸樣品前處理所加的接頭序列,對(duì)互補(bǔ)配對(duì)的核酸類似物/DNA進(jìn)行特異性擴(kuò)增,達(dá)到富集目標(biāo)序列核酸的目的。在發(fā)明中,術(shù)語“樣品”以其最廣泛的意思使用,其意在包括從任何來源,優(yōu)選從生物來源獲得的樣本或培養(yǎng)物。生物樣品可從動(dòng)物(包括人)獲得,并包括液體、固體、組織和氣體。生物樣品包括血液制品,例如血漿、血清等等。因此,“核酸樣品”包含任何來源的DNA。在本申請(qǐng)中,核酸樣品優(yōu)選源自生物來源,例如人或非人細(xì)胞、組織等等。術(shù)語“非人”系指所有非人動(dòng)物和實(shí)體,包括但不限于,脊椎動(dòng)物例如嚙齒動(dòng)物、非人靈長動(dòng)物、綿羊、牛、反芻動(dòng)物、兔類動(dòng)物、豬、山羊、馬、犬、貓、鳥類等等。非人還包括無脊椎動(dòng)物和原核生物,例如細(xì)菌、植物、酵母、病毒等等。因此,用于本發(fā)明的方法和系統(tǒng)的核酸樣品為源自任何生物,無論真核或者原核的核酸樣品。在發(fā)明中,發(fā)明人發(fā)現(xiàn)目標(biāo)區(qū)域的GC含量對(duì)全基因組DNA甲基化文庫中歸屬于不同目標(biāo)區(qū)域內(nèi)的核酸捕獲效率有較大影響。為了達(dá)到對(duì)全基因組DNA甲基化文庫中歸屬于多個(gè)目標(biāo)區(qū)域的有效捕獲,優(yōu)選根據(jù)所述目標(biāo)區(qū)域列的GC含量對(duì)所述誘餌序列拷貝數(shù)進(jìn)行補(bǔ)償,GC含量越小或者越大,所述目標(biāo)序列對(duì)應(yīng)的誘餌序列拷貝數(shù)增加的就越多。發(fā)明人發(fā)現(xiàn),對(duì)于GC含量在50%左右,例如±10%,的目標(biāo)序列可以獲得良好的目標(biāo)序列捕獲效率;對(duì)于其他GC含量的目標(biāo)序列,需要進(jìn)行誘餌序列拷貝數(shù)補(bǔ)償才能獲得良好的目標(biāo)序列捕獲效率。經(jīng)過用人類基因組序列進(jìn)行全面測試,發(fā)明人發(fā)現(xiàn),為了達(dá)到更好的目標(biāo)序列捕獲效率,以GC含量在50%的誘餌序列拷貝數(shù)系數(shù)為基準(zhǔn)1,GC含量10%-90%之間偏離50%每1%,誘餌序列拷貝數(shù)系數(shù)增加0.08-0.12。例如,GC含量為68%時(shí),偏離18%,誘導(dǎo)序列拷貝數(shù)系數(shù)為2.44-3.16。對(duì)于GC含量小于10%或大于90%屬于低復(fù)雜序列的情況,這種情況下對(duì)應(yīng)的誘餌序列設(shè)計(jì)方法是:當(dāng)所述目標(biāo)區(qū)域是極高或者極低GC含量區(qū)域時(shí)或者當(dāng)目標(biāo)區(qū)域是低復(fù)雜度區(qū)域時(shí),用所述目標(biāo)區(qū)域兩側(cè)區(qū)域作為替代區(qū)域設(shè)計(jì)探針,一般選擇目標(biāo)區(qū)域兩側(cè)300bp以內(nèi)區(qū)域作為替代區(qū)域,優(yōu)選150bp以內(nèi)的區(qū)域。在本發(fā)明中,低復(fù)雜度區(qū)域是指由很少種類的元素(如寡核苷酸)所組成的一個(gè)區(qū)域,例如微衛(wèi)星這種簡單重復(fù)序列。在本發(fā)明中,優(yōu)選對(duì)片段化后的樣品DNA片段進(jìn)行建庫。在一個(gè)實(shí)施方案中,誘餌序列拷貝數(shù)補(bǔ)償方法可以簡單地表示為:根據(jù)所述目標(biāo)序列的GC含量大小從高到低分為6檔,其中第1檔:10%-30%;第2檔:30%-40%;第3檔:40%-60%;第4檔:60%-70%;第5檔:70%-90%;第6檔:小于10%或大于90%,其中第3檔的誘餌序列的拷貝數(shù)為基準(zhǔn)拷貝數(shù),第2檔和第4檔對(duì)應(yīng)的誘餌序列的拷貝數(shù)需要增加,例如是第3擋的2.2-2.8倍,第1檔和第5檔的誘餌序列的拷貝數(shù)需要增加更多,例如是第3擋的3-4倍。在一個(gè)實(shí)施方案中,對(duì)于第6檔,GC含量小于10%或大于90%或者在GC含量是低復(fù)雜序列的情況,誘餌序列設(shè)計(jì)方法是:用所述目標(biāo)區(qū)域兩側(cè)區(qū)域作為替代區(qū)域設(shè)計(jì)探針,一般選擇目標(biāo)區(qū)域兩側(cè)300bp以內(nèi)區(qū)域作為替代區(qū)域,優(yōu)選150bp以內(nèi)的區(qū)域。在一個(gè)實(shí)施方案中,其中對(duì)每個(gè)目標(biāo)區(qū)域,所述誘餌序列是在特異性、二聚體、發(fā)卡結(jié)構(gòu)以及與目標(biāo)區(qū)域的相對(duì)位置方面綜合評(píng)分最優(yōu)的一個(gè)或者多個(gè)誘餌序列,所述綜合評(píng)分通過如下的打分函數(shù)進(jìn)行:S=a×S特異性+b×S二聚體+c×S發(fā)卡結(jié)構(gòu)+d×S相對(duì)距離,其中a=0.26-0.34、b=0.08-0.12、c=0.17-0.23、d=0.35-0.45。S特異性等打分均為0到1之間的數(shù)值,具體的打分計(jì)算方法如下:S特異性的打分規(guī)則:對(duì)新設(shè)計(jì)的任一條誘餌序列,在基因組上對(duì)其進(jìn)行序列比對(duì),采用BLAT軟件,使用默認(rèn)參數(shù),對(duì)其每一條比對(duì)結(jié)果,分別計(jì)算熱力學(xué)Tm參數(shù),如果有與目標(biāo)區(qū)域Tm-與非特異區(qū)域Tm<5℃,優(yōu)選<10℃,則放棄該誘餌序列,重新設(shè)計(jì);否則計(jì)算所有非特異區(qū)域比對(duì)結(jié)果的平均Tm值,最終S特異性=1-Tm平均值/(Tm目標(biāo)-5),其中優(yōu)選S特異性=1-Tm平均值/(Tm目標(biāo)-10),其中Tm平均值是誘餌序列與所有非特異區(qū)域比對(duì)結(jié)果的平均Tm值,Tm目標(biāo)是誘餌序列與目標(biāo)區(qū)域Tm;S二聚體的打分規(guī)則:對(duì)新設(shè)計(jì)的任一條誘餌序列,與每一條已經(jīng)設(shè)計(jì)的誘餌序列進(jìn)行二聚體比對(duì)分析,采用BLAT軟件,使用默認(rèn)參數(shù),對(duì)其每一條比對(duì)結(jié)果,分別計(jì)算熱力學(xué)Tm參數(shù),如果有Tm≥47℃,則放棄該誘餌序列,重新設(shè)計(jì);否則計(jì)算所有比對(duì)結(jié)果的平均Tm值,最終S二聚體=(47–Tm平均值)/47,優(yōu)選如果有Tm≥37℃,則放棄該誘餌序列,重新設(shè)計(jì);否則計(jì)算所有比對(duì)結(jié)果的平均Tm值,S二聚體=(37–Tm平均值)/37;S發(fā)卡結(jié)構(gòu)的打分規(guī)則:對(duì)任一條誘餌序列,采用Smith-Waterman算法,計(jì)算其最佳的自身比對(duì)結(jié)構(gòu),并根據(jù)此結(jié)構(gòu)計(jì)算其熱力學(xué)Tm參數(shù)值,如果有Tm≥47℃,則放棄該誘餌序列,重新設(shè)計(jì);否則其S發(fā)卡結(jié)構(gòu)=(47–Tm)/47,優(yōu)選如果有Tm≥37℃,則放棄該誘餌序列,重新設(shè)計(jì);否則其S發(fā)卡結(jié)構(gòu)=(37–Tm平均值)/37;S相對(duì)距離的打分規(guī)則:已知待設(shè)計(jì)目標(biāo)區(qū)域坐標(biāo),對(duì)任一條誘餌序列,計(jì)算其與目標(biāo)區(qū)域坐標(biāo)差值δDistance,設(shè)定可接受的差值為150,該數(shù)值是經(jīng)驗(yàn)數(shù)值;如果差值大于150,則放棄該誘餌序列,重新設(shè)計(jì);否則其S相對(duì)距離=(150-δDistance)/150。在與目標(biāo)區(qū)域坐標(biāo)差值150范圍內(nèi)無法設(shè)計(jì)出合適的誘餌序列,也可以將差值設(shè)置為300,其S相對(duì)距離=(300-δDistance)/300。在本發(fā)明中,序列的Tm的計(jì)算不拘泥于具體的方法,各種方法計(jì)算的Tm值均可以用于本發(fā)明,各種方法得到的Tm值基本不能逆轉(zhuǎn)本發(fā)明的效果,只是效果的程度會(huì)有差異。雖然SantaLucia2007熱力學(xué)參數(shù)表的最鄰近法可以計(jì)算Tm,但其他方法計(jì)算的Tm值可以與之相對(duì)應(yīng),本領(lǐng)域技術(shù)人員可以經(jīng)過簡單的試驗(yàn)比較各種方法計(jì)算得到的Tm,從而對(duì)各種方法計(jì)算的Tm值作出適當(dāng)選擇。根據(jù)發(fā)明人的經(jīng)驗(yàn),對(duì)于人基因組編碼區(qū)而言,超過99%的目標(biāo)區(qū)域均可以設(shè)計(jì)出適合本發(fā)明的誘餌序列,表明我們前述對(duì)GC區(qū)域的分檔以及對(duì)Tm值的過濾都是合理的。在某些實(shí)施方案中,所述DNA甲基轉(zhuǎn)移酶包括但不限于dam甲基轉(zhuǎn)移酶、AluI甲基轉(zhuǎn)移酶、CpG甲基轉(zhuǎn)移酶(M.SssI)、EcoRI甲基轉(zhuǎn)移酶、G9a甲基轉(zhuǎn)移酶、GpC甲基轉(zhuǎn)移酶(M.CviPI)、HumanDNA(cytosine-5)甲基轉(zhuǎn)移酶(Dnmt1)、HumanPRMT1甲基轉(zhuǎn)移酶、MspI甲基轉(zhuǎn)移酶、SET7甲基轉(zhuǎn)移酶、SET8甲基轉(zhuǎn)移酶和T4Phageβ-葡糖基轉(zhuǎn)移酶(T4-BGT)等。在本發(fā)明中,甲基轉(zhuǎn)移酶在反應(yīng)過程中,酶作為親核催化劑首先結(jié)合到嘧啶雜環(huán)的6位碳原子上,使5位碳原子帶有一個(gè)負(fù)電荷,進(jìn)而促進(jìn)5位碳原子與S-腺苷-甲硫氨酸中的活性甲基結(jié)合。在本發(fā)明中,使用DNA甲基轉(zhuǎn)移酶時(shí),并不能使甲基化轉(zhuǎn)移酶效率達(dá)到100%,可以在酶的濃度和處理時(shí)間上進(jìn)行調(diào)整,也就是說處理后并不是所有C都已經(jīng)甲基化,而是部分地或隨機(jī)地進(jìn)行了甲基化。在本發(fā)明中,進(jìn)行DNA甲基轉(zhuǎn)移酶處理和亞硫酸鹽,進(jìn)行DNA甲基轉(zhuǎn)移酶處理的目的是將探針上的序列中的C進(jìn)行隨機(jī)甲基化修飾,經(jīng)過修飾后,再使用亞硫酸鹽處理時(shí),已經(jīng)甲基化的位點(diǎn)C就不會(huì)再轉(zhuǎn)化成U,模擬了甲基化位點(diǎn)在基因組位置上的隨機(jī)性,這樣處理后的探針,可以和含有甲基化位點(diǎn)的文庫片段很好的結(jié)合,從而將信息富集出來,因而檢測出甲基化位點(diǎn)。在本發(fā)明中,優(yōu)選地,對(duì)DNA雙鏈池進(jìn)行體外DNA甲基轉(zhuǎn)移酶處理,造成所述DNA雙鏈池中DNA雙鏈的部分C隨機(jī)甲基化。在某些實(shí)施方案中,所述核酸類似物與全基因組DNA甲基化文庫中目標(biāo)區(qū)域內(nèi)的核酸之間的雜交在優(yōu)選地嚴(yán)格條件下進(jìn)行,所述嚴(yán)格條件足以支持所述核酸類似物/DNA之間的雜交,其中所述核酸類似物包含連接化合物和所述全基因組DNA甲基化文庫中目標(biāo)區(qū)域核酸的互補(bǔ)區(qū)域,以提供所述核酸類似物/DNA雜交復(fù)合物。所述復(fù)合物隨后通過所述連接化合物捕獲,并在足以去除全基因組DNA甲基化文庫中非目標(biāo)區(qū)域核酸的條件下洗滌,然后所雜交的目標(biāo)核酸序列從所捕獲的核酸類似物/DNA復(fù)合物中洗脫。在某些實(shí)施方案中,所述核酸類似物包含化學(xué)基團(tuán)或連接化合物,例如結(jié)合部分例如生物素、地高辛等等,其能結(jié)合于固體載體。所述固體載體可以包含相應(yīng)的捕獲化合物,例如用于生物素的鏈霉親和素或用于地高辛的地高辛抗體。本發(fā)明不限于所使用的連接化合物,并且替代的連接化合物等同適用于本發(fā)明的方法、誘餌序列和試劑盒。在本發(fā)明的實(shí)施方案中,所述多個(gè)目標(biāo)核酸分子優(yōu)選包含一種生物的全基因組或至少一條染色體或一種任意大小分子量的核酸分子。優(yōu)選地,所述核酸分子的大小至少約200kb、至少約500kb、至少約1Mb、至少約2Mb、或至少約5Mb,更優(yōu)選大小約100kb至約5Mb、約200kb至約5Mb、約500kb至約5Mb、約1Mb至約2Mb或約2Mb至約5Mb。在某些實(shí)施方案中,所述目標(biāo)核酸來自動(dòng)物、植物或微生物,在優(yōu)選的實(shí)施方案中,所述目標(biāo)核酸分子選來自人。在某些實(shí)施方案中,所述多個(gè)目標(biāo)核酸分子為一組基因組DNA分子。所述誘餌序列可選自例如限定來自多個(gè)遺傳基因座的多種外顯子、內(nèi)含子或調(diào)控序列的多個(gè)誘餌序列;限定至少一個(gè)單獨(dú)遺傳基因座的全序列的多個(gè)誘餌序列,所述基因座大小任意,優(yōu)選至少1Mb,或至少上述特定大小之一;限定單核苷酸多態(tài)性(SNP)的多種誘餌序列;或限定一種陣列的多種誘餌序列,例如設(shè)計(jì)為捕獲至少一條完整染色體的全序列的嵌合陣列。在本文中,術(shù)語“雜交”系指互補(bǔ)核酸的配對(duì)。雜交和雜交強(qiáng)度(例如核酸之間結(jié)合的強(qiáng)度)受多種因素的影響,例如核酸之間互補(bǔ)的程度、使用雜交條件的嚴(yán)格程度、所形成雜交體的解鏈溫度(Tm)以及核酸的GC含量值。雖然本發(fā)明不受限于具體的雜交條件,但優(yōu)選使用嚴(yán)格的雜交條件。嚴(yán)格的雜交條件取決于序列并隨雜交參數(shù)(例如鹽濃度、有機(jī)物存在等)而變化。通常,“嚴(yán)格的”條件選擇為在規(guī)定的離子強(qiáng)度和pH下低于特定核酸序列的Tm約5℃到約20℃。優(yōu)選地,嚴(yán)格的條件為低于結(jié)合互補(bǔ)核酸的具體核酸的溫度熔點(diǎn)約5℃到10℃。所述Tm是50%核酸(例如目標(biāo)核酸)與完全配對(duì)探針雜交的溫度(在規(guī)定的離子強(qiáng)度和pH下)。在本文中,“嚴(yán)格的條件”,例如可為50%甲酰胺,5×SSC(0.75MNaCl,0.075M檸檬酸鈉),50mM磷酸鈉(pH6.8),0.1%焦磷酸鈉,5×Denhardt溶液、超聲波處理的鮭魚精子DNA(50mg/ml),0.1%SDS,以及10%硫酸葡聚糖在42℃下雜交,在42℃以0.2×SSC(氯化鈉/檸檬酸鈉)和在55℃以50%甲酰胺洗滌,然后在55℃以含有EDTA的0.1×SSC洗滌。例如,預(yù)計(jì)包含35%甲酰胺、5×SSC和0.1%(w/v)十二烷基硫酸鈉(SDS)的緩沖液適合在適度非嚴(yán)格條件下在45℃雜交16-72小時(shí)。在本文中,術(shù)語“引物”系指寡核苷酸,無論天然存在經(jīng)純化、酶切后得到的或者經(jīng)合成方法產(chǎn)生的,當(dāng)置于誘導(dǎo)與核酸鏈互補(bǔ)的引物延伸產(chǎn)物的合成的條件下(例如在核苷酸和誘導(dǎo)試劑例如DNA聚合酶存在下,并在合適的溫度和pH下),能夠作為合成的起點(diǎn)。所述引物優(yōu)選為具有最大擴(kuò)增效率的單鏈。優(yōu)選地,所述引物為寡脫氧核苷酸。所述引物必須足夠長以在所述誘導(dǎo)試劑存在下引發(fā)延伸產(chǎn)物的合成。所述引物的確切長度取決于很多因素,包括溫度、引物來源和所使用方法。在本文中,術(shù)語“誘餌”或“誘餌序列”系指寡核苷酸(例如核苷酸序列),無論天然存在經(jīng)純化、酶切后得到的或者經(jīng)合成、重組或PCR擴(kuò)增產(chǎn)生的,能夠與另一目標(biāo)寡核苷酸例如目標(biāo)核酸序列的至少一部分雜交。探針可為單鏈或雙鏈。探針可用于特定基因序列的檢測、鑒別和分離。在本文中,術(shù)語“目標(biāo)核酸分子”是指來自目標(biāo)基因組區(qū)域的分子或序列。預(yù)選的探針確定了目標(biāo)核酸分子的范圍。因此,所述“目標(biāo)”試圖與其它核酸序列區(qū)分出來。一個(gè)“片段”定義為所述目標(biāo)序列中的一個(gè)核酸區(qū)域,如作為核酸序列的一個(gè)“片段”或一“部分”。在本文中,術(shù)語“分離”當(dāng)用于涉及核酸時(shí),如用于“分離核酸”時(shí),系指核酸序列從其天然來源通常結(jié)合的至少一種其他組分或污染物中被鑒別并分離出來。分離的核酸以不同于其天然存在的形式存在。相反,未分離的核酸例如DNA和RNA的核酸以其天然存在的狀態(tài)存在。所述分離的核酸、寡核苷酸或多核苷酸可以單鏈形式或雙鏈形式存在。在本文中,術(shù)語“與目標(biāo)核酸序列一致的誘餌序列”是指其互補(bǔ)序列可以與目標(biāo)核酸序列雜交的序列。優(yōu)選,在嚴(yán)格的條件下進(jìn)行雜交。當(dāng)所述目標(biāo)區(qū)域是極高或者極低GC含量區(qū)域時(shí)或者當(dāng)目標(biāo)區(qū)域是低復(fù)雜度區(qū)域時(shí),由于該區(qū)域無法設(shè)計(jì)誘餌序列,即誘餌序列覆蓋率為零,那么會(huì)在該目標(biāo)區(qū)域左右兩側(cè)尋找合適區(qū)域設(shè)計(jì)誘餌序列;一般會(huì)在左右兩側(cè)300bp以內(nèi)的范圍設(shè)計(jì)誘餌序列;優(yōu)選150bp以內(nèi)的區(qū)域。在本發(fā)明的實(shí)施方案中,用于在本文所述的捕獲方法和試劑盒中使用的誘餌序列的轉(zhuǎn)錄引物包含連接化合物,例如結(jié)合部分。結(jié)合部分包含任何連接或引入用于隨后捕獲核酸類似物/目標(biāo)核酸雜交復(fù)合物的擴(kuò)增引物的5’端的部分。結(jié)合部分為引入引物序列5’端的任何序列,例如可捕獲的6組氨酸(6HIS)序列。例如,包含6HIS序列的引物可被鎳捕獲,例如在鎳包被或包含鎳包被珠子、顆粒等的管子、微孔、或純化柱中,其中所述珠子包裝入柱子中,樣品裝入并通過柱子以捕獲復(fù)雜度降低的復(fù)合物(例如,和隨后的目標(biāo)洗脫)。用于本發(fā)明的實(shí)施方案的另一種結(jié)合部分的實(shí)例包括半抗原,例如地高辛,例如其連接到擴(kuò)增引物的5’端。地高辛可使用地高辛抗體捕獲,例如包被或包含抗地高辛抗體的基質(zhì)。在某些實(shí)施方案中,所述結(jié)合部分為生物素,用鏈霉親和素包被所述捕獲基質(zhì),例如珠子如順磁顆粒,用于從非特異性雜交目標(biāo)核酸中分離所述目標(biāo)核酸/轉(zhuǎn)錄產(chǎn)物復(fù)合物。例如,當(dāng)生物素為結(jié)合部分時(shí),鏈霉親和素(SA)包被的基質(zhì),例如SA包被的珠子(例如磁珠/顆粒)用于捕獲所述生物素標(biāo)記的核酸類似物/目標(biāo)復(fù)合物。洗滌所述SA結(jié)合的復(fù)合物,所雜交的目標(biāo)核酸從所述復(fù)合物洗脫進(jìn)行測序??墒褂脽o掩膜陣列合成技術(shù)在固體載體上并行提供序列中與所述基因組至少一個(gè)區(qū)域?qū)?yīng)的誘餌序列。替代性地,探針可使用標(biāo)準(zhǔn)DNA合成儀連續(xù)獲得并應(yīng)用到所述固體載體,或可從有機(jī)體獲得并固定于所述固體載體。雜交之后,未雜交或與所述核酸類似物非特異性雜交的核酸通過洗滌從所述載體結(jié)合的核酸類似物中分離。剩余的核酸與所述核酸類似物特異性結(jié)合,在例如熱水中或在包含例如TRIS緩沖液和/或EDTA的核酸洗脫緩沖液中從所述固體載體洗脫,以產(chǎn)生所述目標(biāo)核酸分子富集的洗脫物?;蛘撸糜谀繕?biāo)分子的誘餌序列可如上所述在固體載體上合成,作為誘餌序列集合從所述固體載體釋放并擴(kuò)增。所述轉(zhuǎn)錄的釋放核酸類似物集合可共價(jià)或非共價(jià)固定于載體,例如玻璃、金屬、陶瓷、或聚合珠子或其它固體載體。所述核酸類似物可設(shè)計(jì)為從所述固體載體方便釋放,例如在最接近載體的核酸類似物末端或其附近提供酸或堿不穩(wěn)定的核酸序列,其分別在低或高pH條件下釋放所述核酸類似物。本領(lǐng)域已知多種可剪切的連接化合物。所述載體可以,例如,以具有液體進(jìn)口和出口的圓柱提供。本領(lǐng)域熟悉將核酸固定到載體的方法,例如通過將生物素標(biāo)記的核苷酸結(jié)合到所述核酸類似物中,并使用鏈霉親和素包被所述載體,由此所述包被的載體非共價(jià)吸引并固定所述集合中的所述核酸類似物。所述樣品在雜交條件下通過所述包含核酸類似物的載體,由此與所述固定載體雜交的目標(biāo)核酸分子可洗脫,用于之后的分析或其它用途。術(shù)語“核酸”可包括,例如,但不限于:脫氧核糖核酸(DNA)、核糖核酸(RNA)和人工核酸比如肽核酸(PNA)、嗎啉核酸(morpholino)和鎖核酸(LNA)、甘油核酸(glycolnucleicacid,GNA)和蘇糖核酸(TNA)。在本文中,術(shù)語“核酸”、“核酸序列”或者“核酸分子”應(yīng)該從廣義解釋,舉例來說,可以是核糖核酸(RNA)或脫氧核糖核酸(DNA)或者其模擬物的寡聚物或者聚合物。該術(shù)語包括由天然核堿基、糖類和共價(jià)核苷間(骨架)連接構(gòu)成的分子以及具有非天然核堿基、糖類和共價(jià)核苷間(骨架)連接構(gòu)成的具有類似功能的分子或者其組合。因?yàn)樗璧男再|(zhì),比如對(duì)核酸靶分子親和力增強(qiáng)以及在核酸酶和其他酶存在時(shí)穩(wěn)定性増加,這樣的經(jīng)修飾或者取代的核酸可能比天然形式更優(yōu)選,并且在本文中用術(shù)語“核酸類似物”或者“核酸模擬物”來描述。核酸模擬物的優(yōu)選實(shí)例是包含肽核酸(PNA)、鎖核酸(LNA)、木-鎖核酸Uylo-LNA)、硫代磷酸酷、2’-甲氧基、2’-甲氧基乙氧基、嗎啉核酸和氨基磷酸酯的分子或者功能上類似的核酸衍生物。實(shí)施例實(shí)施例1:誘餌序列的設(shè)計(jì)隨機(jī)選擇人基因組上外顯子和內(nèi)含子上1000個(gè)位點(diǎn)(這些位點(diǎn)的分布見表)用于測試本發(fā)明的方法。對(duì)這1000個(gè)隨機(jī)靶序列設(shè)計(jì)誘餌序列用于后續(xù)測試。表1:隨機(jī)選擇的1000個(gè)位點(diǎn)的染色體分布染色體個(gè)數(shù)染色體個(gè)數(shù)chr192chr1273chr267chr1323chr353chr1415chr443chr1529chr545chr1641chr6124chr1736chr742chr1814chr846chr1931chr934chr2021chr1061chr219chr1180chr2221誘餌序列設(shè)計(jì)包括以下步驟:1.首先,目標(biāo)序列特異性分析包括如下步驟:a)根據(jù)目標(biāo)序列GC含量大小從高到低分為5檔,其中1檔:10%-30%;2檔:30%-40%;3檔:40%-60%;4檔:60%-70%;5檔:70%-90%;b)分析目標(biāo)序列空間結(jié)構(gòu),標(biāo)記能形成穩(wěn)定空間結(jié)構(gòu)的目標(biāo)序列;2.其次,對(duì)誘餌序列的設(shè)定標(biāo)準(zhǔn)以及評(píng)分:a)目標(biāo)序列長度在60-150bp范圍;b)保持特異性,特異性的原則是,誘餌序列在非目標(biāo)區(qū)域上結(jié)合的熱力學(xué)穩(wěn)定性要顯著弱于在目標(biāo)區(qū)域上結(jié)合的熱力學(xué)穩(wěn)定性;一般分析的指標(biāo)為Tm(目標(biāo)區(qū)域)-Tm(非特異區(qū)域)≥(非特異區(qū)域)5℃;部分?jǐn)?shù)據(jù)Tm(目標(biāo)區(qū)域)-Tm(非特異區(qū)域)≥10℃進(jìn)行對(duì)比(強(qiáng)特異性限制);不同熱力學(xué)計(jì)算方法,對(duì)計(jì)算結(jié)果影響較大,這里是基于SantaLucia2007熱力學(xué)參數(shù)表的最鄰近法計(jì)算;c)無二級(jí)結(jié)構(gòu)產(chǎn)生,二級(jí)結(jié)構(gòu)包括二聚體和發(fā)卡結(jié)構(gòu),即所設(shè)計(jì)的誘餌序列不允許產(chǎn)生二聚體或者發(fā)卡結(jié)構(gòu);任意兩個(gè)誘餌序列之間形成的二聚體,其Tm≤47℃,部分?jǐn)?shù)據(jù)≤37℃進(jìn)行對(duì)比(嚴(yán)格二聚體限制);任一誘餌序列自身形成發(fā)卡結(jié)構(gòu),其Tm≤47℃,部分?jǐn)?shù)據(jù)≤37℃進(jìn)行對(duì)比(嚴(yán)格發(fā)夾結(jié)構(gòu)限制);不同熱力學(xué)計(jì)算方法,對(duì)計(jì)算結(jié)果影響較大,這里是基于SantaLucia2007熱力學(xué)參數(shù)表的最鄰近法計(jì)算;d)對(duì)每個(gè)目標(biāo)區(qū)域,分析候選誘餌序列,根據(jù)每個(gè)候選序列的特異性、二聚體、發(fā)卡結(jié)構(gòu)以及與目標(biāo)區(qū)域的相對(duì)位置,設(shè)計(jì)綜合評(píng)分,然后根據(jù)評(píng)分結(jié)果,選擇最優(yōu)的一個(gè)或者多個(gè)誘餌序列(即打分函數(shù)值最大的),:S=a×S特異性+b×S二聚體+c×S發(fā)卡結(jié)構(gòu)+d×S相對(duì)距離,其中a=0.26-0.34、b=0.08-0.12、c=0.17-0.23、d=0.35-0.45,打分通過自有軟件計(jì)算提供,規(guī)則如下:S特異性的打分規(guī)則:對(duì)新設(shè)計(jì)的任一條誘餌序列,在基因組上對(duì)其進(jìn)行序列比對(duì),采用BLAT軟件,使用默認(rèn)參數(shù),對(duì)其每一條比對(duì)結(jié)果,分別計(jì)算熱力學(xué)Tm參數(shù),如果有與目標(biāo)區(qū)域Tm-與非特異區(qū)域Tm<5℃,則放棄該誘餌序列,重新設(shè)計(jì),其中部分?jǐn)?shù)據(jù)<10℃作為對(duì)比;否則計(jì)算所有比對(duì)結(jié)果的平均Tm值,最終S特異性=1-Tm平均值/(Tm目標(biāo)-5),部分?jǐn)?shù)據(jù)S特異性=1-Tm平均值/(Tm目標(biāo)-10)作為對(duì)比,其中Tm平均值是誘餌序列與所有非特異區(qū)域比對(duì)結(jié)果的平均Tm值,Tm目標(biāo)是誘餌序列與目標(biāo)區(qū)域Tm;S二聚體的打分規(guī)則:對(duì)新設(shè)計(jì)的任一條誘餌序列,與每一條已經(jīng)設(shè)計(jì)的誘餌序列進(jìn)行二聚體比對(duì)分析,采用BLAT軟件,使用默認(rèn)參數(shù),對(duì)其每一條比對(duì)結(jié)果,分別計(jì)算熱力學(xué)Tm參數(shù),如果有Tm≥47℃,則放棄該誘餌序列,重新設(shè)計(jì);否則計(jì)算所有比對(duì)結(jié)果的平均Tm值,最終S二聚體=(47–Tm平均值)/47,部分?jǐn)?shù)據(jù)Tm≥37℃作為對(duì)比,則放棄該誘餌序列,重新設(shè)計(jì);否則計(jì)算所有比對(duì)結(jié)果的平均Tm值,S二聚體=(37–Tm平均值)/37;S發(fā)卡結(jié)構(gòu)的打分規(guī)則:對(duì)任一條誘餌序列,采用Smith-Waterman算法,計(jì)算其最佳的自身比對(duì)結(jié)構(gòu),并根據(jù)此結(jié)構(gòu)計(jì)算其熱力學(xué)Tm參數(shù)值,如果有Tm≥47℃,則放棄該誘餌序列,重新設(shè)計(jì);否則其S發(fā)卡結(jié)構(gòu)=(47–Tm)/47,部分?jǐn)?shù)據(jù)如果有Tm≥37℃作為對(duì)比,則放棄該誘餌序列,重新設(shè)計(jì);否則其S發(fā)卡結(jié)構(gòu)=(37–Tm平均值)/37;S相對(duì)距離的打分規(guī)則:已知待設(shè)計(jì)目標(biāo)區(qū)域坐標(biāo),對(duì)任一條誘餌序列,計(jì)算其與目標(biāo)區(qū)域坐標(biāo)差值δDistance,設(shè)定可接受的差值為150,該數(shù)值是經(jīng)驗(yàn)數(shù)值;如果差值大于150,則放棄該誘餌序列,重新設(shè)計(jì);否則其S相對(duì)距離=(150-δDistance)/150。在與目標(biāo)區(qū)域坐標(biāo)差值150范圍內(nèi)無法設(shè)計(jì)出合適的誘餌序列,作為對(duì)比還將部分差值設(shè)置為300,其S相對(duì)距離=(300-δDistance)/300。3.再次,根據(jù)具體目標(biāo)區(qū)域情況,進(jìn)行誘餌序列拷貝數(shù)補(bǔ)償:a)根據(jù)目標(biāo)序列的穩(wěn)定性分類情況,以3檔的誘餌序列拷貝數(shù)作為基準(zhǔn)拷貝數(shù)(即基準(zhǔn)1);1檔和5檔對(duì)應(yīng)的誘餌序列需要增加較多的拷貝數(shù),是第3擋的2.5倍;其次是2檔和4檔,其對(duì)應(yīng)的誘餌序列也需要稍多的拷貝數(shù)是第3擋的3.5倍;b)對(duì)于形成穩(wěn)定空間結(jié)構(gòu)的目標(biāo)序列,誘餌序列拷貝數(shù)翻倍;c)對(duì)于目標(biāo)區(qū)域可能是重點(diǎn)關(guān)注區(qū)域時(shí),例如可能是融合事件發(fā)生的區(qū)域,誘餌序列拷貝數(shù)翻倍;d)另外在相同條件下進(jìn)行誘餌序列拷貝數(shù)不補(bǔ)償?shù)钠叫性囼?yàn)作為對(duì)照。4.最后,當(dāng)目標(biāo)序列無法設(shè)計(jì)探針時(shí),例如,當(dāng)目標(biāo)區(qū)域是極高或者極低GC含量區(qū)域時(shí),或者當(dāng)目標(biāo)區(qū)域是低復(fù)雜度區(qū)域時(shí)(低復(fù)雜度區(qū)域是指由很少種類的元素如寡核苷酸所組成的一個(gè)區(qū)域,例如微衛(wèi)星這種簡單重復(fù)序列),由于該區(qū)域無法設(shè)計(jì)誘餌序列,即誘餌序列覆蓋率為零,那么會(huì)在該目標(biāo)區(qū)域左右兩側(cè)尋找合適區(qū)域設(shè)計(jì)誘餌序列;一般會(huì)在左右兩側(cè)300bp以內(nèi)的范圍設(shè)計(jì)誘餌序列;如果150bp以內(nèi)的區(qū)域能設(shè)計(jì)出合適的誘餌序列,則記錄作為對(duì)照。本實(shí)施例中隨機(jī)選擇的目標(biāo)序列中有138個(gè)屬于這種情況,68個(gè)在其左右150bp以內(nèi)的區(qū)域成功設(shè)計(jì)出誘餌序列,另外22個(gè)在其左右150-300bp內(nèi)成功設(shè)計(jì)出誘餌序列,仍有48個(gè)在這些區(qū)域都無法設(shè)計(jì)探針。5.最終設(shè)計(jì)的誘餌序列見情況見表2。表2:誘餌序列設(shè)計(jì)情況其中嚴(yán)格打分函數(shù)限制的條件是:與目標(biāo)區(qū)域Tm-與非特異區(qū)域Tm≥10℃,S特異性=Tm平均值/37;Tm<37℃,S二聚體=(37–Tm平均值)/37;Tm<37℃,S發(fā)卡結(jié)構(gòu)=(37–Tm平均值)/37。實(shí)施例2:誘餌序列的制備按照實(shí)施例1設(shè)計(jì)的誘餌序列進(jìn)行序列制備,誘餌序列制備方法如下:1.在誘餌序列5’端和3’端分別添加長度為20個(gè)堿基的特異性序列,特異性序列設(shè)計(jì)原則是:1)不會(huì)在目標(biāo)(待捕獲)基因組上產(chǎn)生非特異擴(kuò)增產(chǎn)物;2)GC含量位于30%-70%之間,優(yōu)選40%-60%之間;3)兩兩之間不會(huì)形成二聚體,或者形成的二聚體自由能≤47℃,優(yōu)選≤37℃。從而形成待合成序列,所有誘餌序列同一對(duì)特異性序列,舉例如下:5’端特異性序列-誘餌序列(60-150bp不等)-3’端特異性序列為(SEQIDNO.1):ATATAGATGCCGTCCTAGCG-NNNNNNNNNN……NNNNNNNNNN-TGGGCACAGGAAAGATACTT。其中“NNNNNNNNNN……NNNNNNNNNN”表示誘餌序列。2.特異性序列通過本發(fā)明人自主開發(fā)的液相雜交捕獲測序探針設(shè)計(jì)軟件生成。3.將待合成序列利用本領(lǐng)域公知的芯片方法大規(guī)模合成寡核苷酸,接著用用氨水將芯片上的寡核苷酸洗脫下來,經(jīng)過純化后溶于雙蒸水中,形成寡核苷酸池。4.以寡核苷酸池為模板,與5’端特異性序列和3’端特異性序列互補(bǔ)的5’端引物和3’端引物為引物,利用Taq聚合酶(JumpStartTaqDNAPolymerase采購至Sigma,CatalogNo.D6558)進(jìn)行聚合酶鏈?zhǔn)椒磻?yīng)擴(kuò)增,獲得大量的雙鏈DNA池,具體操作步驟如下:1)反應(yīng)體系如下:試劑名稱體積水37μl10×PCR緩沖液5μl10mMdATP1μl10mMdCTP1μl10mMdGTP1μl10mMdTTP1μl5’端引物(10μM,C已進(jìn)行甲基化修飾)1μl3’端引物(10μM,C已進(jìn)行甲基化修飾)1μlJumpStartTaqDNAPolymerase1μl寡核苷酸池1μl2)反應(yīng)條件如下:3)使用QIAGENPCR純化試劑盒(QIAGEN、CatNo./ID28104),根據(jù)其操作說明書進(jìn)行PCR產(chǎn)物純化:4)使用DNA甲基轉(zhuǎn)移酶AluI甲基轉(zhuǎn)移酶(NewEnglandBiolabs,M0220S)或是以下括號(hào)中的兩種【EcoRI甲基轉(zhuǎn)移酶、G9a甲基轉(zhuǎn)移酶、GpC甲基轉(zhuǎn)移酶(M.CviPI)、HumanDNA(cytosine-5)甲基轉(zhuǎn)移酶(Dnmt1)、HumanPRMT1甲基轉(zhuǎn)移酶、MspI甲基轉(zhuǎn)移酶、SET7甲基轉(zhuǎn)移酶、SET8甲基轉(zhuǎn)移酶和T4Phageβ-葡糖基轉(zhuǎn)移酶(T4-BGT)】對(duì)上一步產(chǎn)物37℃進(jìn)行10min處理:名稱體積AluI甲基轉(zhuǎn)移酶(5U/ul)2ulMspI甲基轉(zhuǎn)移酶(5U/ul)2ulGpC甲基轉(zhuǎn)移酶(4U/ul)2ul10XAluI甲基轉(zhuǎn)移酶反應(yīng)緩沖物5ulS-腺苷基蛋氨酸(32mM).1ul水38ul5)使用EZDNAMethylation-GoldTMKit(ZYMOResearch,貨號(hào)D5005)對(duì)上一步產(chǎn)物進(jìn)行亞硫酸鹽翻轉(zhuǎn)處理;6)使用5’端引物的5’端帶T7序列(SEQIDNO.2:TAATACGACTCACTATAGGG)作為正向引物與3’端引物作為反向引物,利用Taq聚合酶(JumpStartTaqDNAPolymerase采購至Sigma,CatalogNo.D6558)進(jìn)行聚合酶鏈?zhǔn)椒磻?yīng)擴(kuò)增,形成5’端帶T7序列的雙鏈DNA池。操作如下:7)反應(yīng)體系:試劑名稱體積水37μl10×PCR緩沖液5μl10mMdATP1μl10mMdCTP1μl10mMdGTP1μl10mMdTTP1μlBAITS_5_PRIMER_N-T7(10μM)1μlBAITS_3_PRIMER_N(10μM)1μlJumpStartTaqDNAPolymerase1μl寡核苷酸池1μl8)反應(yīng)條件如下:采用凝膠電泳對(duì)上一步PCR反應(yīng)產(chǎn)物進(jìn)行分離,去除非特異條帶,回收120-210bp區(qū)域片段,采用Qiagen膠回收試劑盒(QIAquickGelExtractionKit,CatNo./ID28704)進(jìn)行純化;9)采用T7HighYieldRNATranscriptionKit(Vazyme,TR101-01/02),利用核酸類似物(甘油核酸GNA、鎖核酸LNA、肽核酸PNA、蘇糖核酸TNA或嗎啉核酸)的NTP和生物素標(biāo)記的UTP為底物,對(duì)上一步膠回收純化產(chǎn)物進(jìn)行體外轉(zhuǎn)錄,制備成含生物素標(biāo)記的核酸類似物池:試劑名稱體積(μl)ATP類似物(GNA、LNA、PNA、TNA或嗎啉核酸,10mM)2CTP類似物(GNA、LNA、PNA、TNA或嗎啉核酸,10mM)2GTP類似物(GNA、LNA、PNA、TNA或嗎啉核酸,10mM)2UTP類似物(GNA、LNA、PNA、TNA或嗎啉核酸,10mM)1.6生物素-UTP(1mM)310×緩沖物2反應(yīng)緩沖物(10×)2上一步含T7序列的膠回收純化產(chǎn)物5.437℃孵育8-12小時(shí),得到最高產(chǎn)量核酸類似物池,純化后稀釋至500ng/μl,置于-80℃冰箱保存。另外以標(biāo)準(zhǔn)核酸ATP、CTP、GTP、UTP和Biotin-UTP中相同條件下平行試驗(yàn)作為對(duì)照。實(shí)施3:目標(biāo)區(qū)域文庫捕獲1.用于高通量捕獲測序的DNA文庫制備:1)取被測物種的基因組DNA1μg,使用超聲波破碎儀Bioruptorpico進(jìn)行隨機(jī)打斷至150-250bp小片段;2)使用IlluminaTruSeqDNAlibrarypreparation試劑盒進(jìn)行捕獲前小片段文庫制備(將試劑盒中接頭替換,接頭上C堿基全部進(jìn)行甲基化修飾),只使用其中試劑至接頭連接模塊;3)使用EZDNAMethylation-GoldTMKit(ZYMOResearch,貨號(hào)D5005)對(duì)連接產(chǎn)物進(jìn)行處理;4)對(duì)上一步處理產(chǎn)物進(jìn)行擴(kuò)增,采用NEB高保真PCR試劑盒(High-FidelityPCRKit,NewEnglandBiolabs,Catalog#E0553S):①反應(yīng)體系:試劑名稱體積5×PhusionHF10μl10mMdNTPs1μlPostPrmierMix(均10μM)1μl重懸磁珠(步驟20)20μlPhusionDNA聚合酶0.5μlH2O17.5μl②反應(yīng)條件如下:③使用BeckmanAgencourtAMPureXPKit[Beckman(p/nA63880)]進(jìn)行PCR產(chǎn)物純化;2.使用制備完的核酸類似物池和目標(biāo)物種的小片段文庫進(jìn)行目標(biāo)區(qū)域文庫雜交捕獲:1)封閉引物準(zhǔn)備:按照以上引物序列進(jìn)行合成,每種合成100OD,將每種引物稀釋至1000μM,并按照等體積混合,命名為Block1;2)將cot-1DNA與salmonspermDNA稀釋至100ng/μl,并等體積混合,標(biāo)記為Block2;3)取6μlBlock1與5μlBlock2進(jìn)行混合,標(biāo)記為BlockMix;4)取1μg小片段基因組文庫與11μlBlockMix混合,并使用低溫冷凍干燥離心機(jī)進(jìn)行濃縮至9μl,標(biāo)記為試劑S1,置于冰上待用;6)取20μl雜交液(20×SSPE,2×Dennard`s,1mMEDTA,1%SDS)置于65℃金屬浴上預(yù)熱,標(biāo)記為S2;7)取5μl純水,混勻后加入2μl500ng/μl核酸類似物池,緩慢吸打數(shù)次混勻,標(biāo)記為S3,置于冰上待用;8)將PCR儀參數(shù)設(shè)置成95℃,5min;65℃,16h;65℃,恒溫;熱蓋105℃;9)將S1置于PCR模塊上,啟動(dòng)PCR程序,程序運(yùn)行至65℃5min后,將S2放入PCR儀模塊,繼續(xù)孵育5min后,將S3放入PCR儀模塊,繼續(xù)孵育2min;10)將移液器調(diào)至13μl,取13μlS2轉(zhuǎn)移至S3,取9μlS1轉(zhuǎn)移至S3,緩慢吸打數(shù)次充分混勻混合物,密封管蓋,蓋上PCR熱蓋,孵育16小時(shí)進(jìn)行探針與文庫雜交;11)取50μlDynabeadsMyOneStreptavidinT1(Invitrogen,貨號(hào):65601)置于1.5ml低吸附離心管內(nèi),加入200μl結(jié)合液[0.5MNaCl(Ambion,貨號(hào):AM9760G),2mMTris-HCl,pH8.0(Ambion,貨號(hào):AM9855G),0.2mMEDTA(Ambion,貨號(hào):AM9260G)],吸打混勻后置于磁力架上1min,移除上清液;12)將離心管從磁力架上取下,再加入200μl結(jié)合液,吸打混勻后置于磁力架上1min,移除上清;13)重復(fù)步驟11兩次,共進(jìn)行3次磁珠清洗,最后用200μl結(jié)合液重懸磁珠;14)將探針、文庫雜交混合液(步驟9產(chǎn)物)轉(zhuǎn)移至磁珠重懸液內(nèi),密封管蓋,置于旋轉(zhuǎn)混勻儀上混勻結(jié)合30min;15)將離心管置于磁力架上2min,移除上清液;16)將離心管從磁力架上取下,加入200μl清洗液1[10×SSC(Ambion,貨號(hào):AM9763),1%SDS(Invitrogen,貨號(hào):24730020)]重懸磁珠,密封管蓋,置于旋轉(zhuǎn)混勻儀上清洗10min;17)將離心管置于磁力架上2min,移除上清;18)把離心管從磁力架上取下,加入200μl65℃預(yù)熱的清洗液2[1×SSC(Ambion,貨號(hào):AM9763),5%SDS(Invitrogen,貨號(hào):24730020)]重懸磁珠,并置于PCR儀模塊上65℃孵育10min;19)將離心管置于磁力架上2min,移除上清;20)重復(fù)步驟17-18兩次,共進(jìn)行3次清洗;21)向離心管內(nèi)加入200μl80%乙醇溶液,靜置30s,移除全部酒精,室溫晾干2min,加入20μl純水緩慢吸打數(shù)次重懸磁珠;3.PCR富集目標(biāo)區(qū)域捕獲產(chǎn)物,采用NEB高保真PCR試劑盒(High-FidelityPCRKit,NewEnglandBiolabs,Catalog#E0553S):1)反應(yīng)體系:試劑名稱體積5×PhusionHF10μl10mMdNTPs1μlPostPrmierMix(均10μM)1μl重懸磁珠(步驟20)20μlPhusionDNA聚合酶0.5μlH2O17.5μl2)反應(yīng)條件如下:3)使用BeckmanAgencourtAMPureXPKit[Beckman(p/nA63880)]進(jìn)行PCR產(chǎn)物純化;4)使用Illumina測序平臺(tái)進(jìn)行目標(biāo)區(qū)域捕獲文庫進(jìn)行高通量測序,測序讀長建議使用PE150模式。3.結(jié)果1)采用Illumina高通量測序儀Hiseq4000,對(duì)測序文庫進(jìn)行上機(jī)測序,得到1000個(gè)位點(diǎn)的測序數(shù)據(jù);2)利用Bismark軟件,將測序數(shù)據(jù)與人類參考基因hg19進(jìn)行比對(duì),所用的參數(shù)為:bismark--bowtie2-p4-L32,比對(duì)完成后利用samtoolsview工具篩選出目標(biāo)區(qū)域的數(shù)據(jù)并計(jì)算甲基化水平。3)采用samtools-1.2軟件中的samtoolsstats工具統(tǒng)計(jì)測序數(shù)據(jù)的大小、比對(duì)率、重復(fù)率、質(zhì)量值,接著再用軟件中的samtoolsdepth工具,計(jì)算目標(biāo)區(qū)域每個(gè)位置的測序深度;4)根據(jù)目標(biāo)區(qū)域每個(gè)位置的測序深度,分別統(tǒng)計(jì)測序深度≥1、≥4、≥10及≥20的堿基數(shù)量,再將該堿基數(shù)量除以目標(biāo)區(qū)域的總堿基數(shù)量,從而得到1×覆蓋率、4×覆蓋率、10×覆蓋率及20×覆蓋率的參數(shù)。表3:1000個(gè)位點(diǎn)捕獲測序結(jié)果從以上表3可以看出,以LNA為例,平均深度有106.93層;4×覆蓋率有74.48%,而20×覆蓋率也有59.5%,具有較好的覆蓋率和均一性,而總數(shù)據(jù)量僅為2.97Mbreads。這樣的結(jié)果帶來的有益效果有:1)測序量小,有效降低成本;2)平均測序深度高,即每一個(gè)目標(biāo)位點(diǎn)被測序多次,因而數(shù)據(jù)準(zhǔn)確性高;3)覆蓋率高,遺漏位點(diǎn)少;4)均一性好,即絕大多數(shù)位點(diǎn)具有相近的覆蓋深度。根據(jù)對(duì)作為比較的數(shù)據(jù)子集以及對(duì)照數(shù)據(jù)的分析,誘餌序列拷貝數(shù)不補(bǔ)償?shù)那闆r下覆蓋率和均一性分別下降4.8和5.0個(gè)百分點(diǎn);強(qiáng)特異性限制、嚴(yán)格二聚體限制、嚴(yán)格發(fā)夾結(jié)構(gòu)限制和嚴(yán)格打分函數(shù)限制的情況下覆蓋率和均一性分別增加6.8和7.3個(gè)百分點(diǎn);150bp以內(nèi)的區(qū)域與150-300bp內(nèi)的區(qū)域覆蓋率和均一性分別大2.4和3.5個(gè)百分點(diǎn);以標(biāo)準(zhǔn)核酸ATP、CTP、GTP、UTP和Biotin-UTP平行試驗(yàn)覆蓋率和均一性分別降低5.1和4.9個(gè)百分點(diǎn)。雖然已經(jīng)結(jié)合優(yōu)選實(shí)施例對(duì)本發(fā)明進(jìn)行了描述,但應(yīng)當(dāng)理解本發(fā)明的保護(hù)范圍并不局限于這里所描述的實(shí)施例。結(jié)合這里披露的本發(fā)明的說明和實(shí)踐,本發(fā)明的其他實(shí)施例對(duì)于本領(lǐng)域技術(shù)人員都是易于想到和理解的。說明和實(shí)施例僅被認(rèn)為是示例性的,本發(fā)明的真正范圍和主旨均由權(quán)利要求所限定。當(dāng)前第1頁1 2 3