本發(fā)明涉及一組用于多重pcr的引物池及其應(yīng)用,特別涉及用于擴(kuò)增樣品中cfdna多個(gè)目標(biāo)的ngs建庫(kù)引物池及其應(yīng)用。
背景技術(shù):
:wgs全基因組測(cè)序可獲得整個(gè)基因組的突變、插入、缺失以及拷貝數(shù)目等結(jié)構(gòu)變異。然而,由于全基因組數(shù)據(jù)量巨大,以30x進(jìn)行測(cè)序?yàn)槔?,人類全基因組就會(huì)產(chǎn)生超過9og的測(cè)序數(shù)據(jù)量。而腫瘤等相關(guān)的低突變頻率,以及插入、缺失、拷貝數(shù)等測(cè)序,則需要至少5000x層次以上的覆蓋度,全基因組測(cè)序會(huì)產(chǎn)生15t以上的測(cè)序數(shù)據(jù)量。特別是體液標(biāo)本中腫瘤相關(guān)的游離dna,或者孕婦外周血中源自胎兒的游離dna含量極低,全基因組的測(cè)序量將超過200t。這樣大規(guī)模的測(cè)序數(shù)據(jù),顯著增加測(cè)序的成本,對(duì)數(shù)據(jù)的分析工作造成極大的困難,進(jìn)而制約測(cè)序的應(yīng)用。因此,在不做任何信號(hào)擴(kuò)增就進(jìn)行ngs高通量測(cè)序,得到的絕大多數(shù)信息是正常細(xì)胞基因組的信息。在這么強(qiáng)大的背景噪音下,檢測(cè)的特異性和敏感性就都成問題。不但如此,因?yàn)榛ㄙM(fèi)大量的人力和財(cái)力來做測(cè)序得到的99.99%都是無用的信息,相當(dāng)于高通量地產(chǎn)生垃圾。為解決這個(gè)難題,針對(duì)高通量測(cè)序平臺(tái)而建立的多重pcr目標(biāo)區(qū)域的捕獲與富集技術(shù)應(yīng)運(yùn)而生。胎兒或者腫瘤游離dna的目標(biāo)區(qū)域捕獲技術(shù)是指通過特定的技術(shù)手段,定向捕獲目標(biāo)區(qū)域的核酸短片段序列(例如游離dna片段的長(zhǎng)度中位值是165bp),然后進(jìn)行建庫(kù)測(cè)序,以達(dá)到在對(duì)目標(biāo)區(qū)域進(jìn)行深度測(cè)序的目的,同時(shí)也使得測(cè)序成本與生物信息數(shù)據(jù)分析成本大大降低。由于pcr反應(yīng)很靈敏,pcr的效果很容易受到污染和脫靶效應(yīng)的影響。我們?cè)谠O(shè)計(jì)pcr實(shí)驗(yàn)時(shí)須得將引物設(shè)計(jì)、反應(yīng)條件和酶的選擇一一考慮周全。這一點(diǎn)在多重pcr中尤為明顯,因?yàn)槎嘀豴cr需要在一個(gè)管中同時(shí)檢測(cè)多個(gè)目標(biāo)。制約多重pcr技術(shù)應(yīng)用的主要因素包括:非特異擴(kuò)增和引物二聚體的產(chǎn)生,pcr反應(yīng)的熱力學(xué)參數(shù)tm選擇,以及如何達(dá)到檢測(cè)目標(biāo)區(qū)域覆蓋層數(shù)的均衡。將多重pcr的擴(kuò)增產(chǎn)物應(yīng)用于高通量測(cè)序時(shí),這就帶來一個(gè)更大的難題:高通量測(cè)序研究的疾病基因區(qū)域通常是很多而且是不連續(xù)的,一般研究區(qū)域量在上千個(gè),典型的研究區(qū)域量有近6000個(gè),在一些臨床檢測(cè)的應(yīng)用案例上甚至多達(dá)兩萬個(gè)。而現(xiàn)在多重pcr技術(shù)都是比較廣泛應(yīng)用于長(zhǎng)度較小的目標(biāo)區(qū)域的捕獲。超大規(guī)格的多重pcr技術(shù)非常難以實(shí)現(xiàn)。因此,本領(lǐng)域中需要能有效降低非特異擴(kuò)增和二聚體產(chǎn)生的應(yīng)用于ngs建庫(kù)的多重pcr技術(shù)出現(xiàn),pcr引物池的反應(yīng)溫度tm要求接近,以及檢測(cè)目標(biāo)區(qū)域的測(cè)序?qū)訑?shù)要求均勻。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于用于擴(kuò)增cfdna樣品中多個(gè)目標(biāo)的ngs建庫(kù)引物池及基于其的試劑盒。本發(fā)明所采取的技術(shù)方案是:用于擴(kuò)增cfdna樣品中多個(gè)目標(biāo)的引物池,引物池中的引物由通用引物段和特異性引物段組成,通用引物段連接在特異性引物的5’端,至少一條引物的通用引物段和特異性引物段之間連接有調(diào)整引物tm的(n)k序列,各引物的tm值之間的差值不超過10℃。作為上述引物池的進(jìn)一步改進(jìn),引物池中引物的結(jié)構(gòu)通式為:capl:通用引物+(n)k+特異性引物,k為1~15之間的整數(shù);cap2:通用引物+特異性引物。作為上述引物池的進(jìn)一步改進(jìn),通用引物段的序列與目的基因不同源。作為上述引物池的進(jìn)一步改進(jìn),引物池中的引物的通用引物段為:gspl:ctttccctacacgacgctcttccgatct(seqidno:1)gsp2:ggagttcagacgtgtgctcttccgatct(seqidno:2)。作為上述引物池的進(jìn)一步改進(jìn),特異性引物段的堿基個(gè)數(shù)24~35。作為上述引物池的進(jìn)一步改進(jìn),特異性引物段的解鏈溫度為62~70℃。作為上述引物池的進(jìn)一步改進(jìn),特異性引物段的gc含量為50~60%。作為上述引物池的進(jìn)一步改進(jìn),引物的tm值基于santalucia熱力學(xué)參數(shù)表的最鄰近法計(jì)算得到。一種用于擴(kuò)增cfdna樣品的多重pcr試劑盒,其特征在于:多重pcr試劑盒使用的引物池如上所示。一種多重pcr方法,包括使用上述的引物池進(jìn)行多重pcr擴(kuò)增。本發(fā)明的有益效果是:本發(fā)明引物池中的引物具有接近的tm,非特異性擴(kuò)增比較低,同時(shí)易于進(jìn)一步擴(kuò)增,可以方便地達(dá)到檢測(cè)目標(biāo)區(qū)域覆蓋層數(shù)。本發(fā)明的方法,可以在同一體系中同時(shí)進(jìn)行上千重pcr,打破了常規(guī)多重pcr一般不超過100重的限制。附圖說明圖1是不同引物多重pcr產(chǎn)物的凝膠電泳圖;圖2是正常樣本和三體樣品中13/18/21號(hào)染色體的z值分布情況圖。具體實(shí)施方式用于擴(kuò)增cfdna樣品中多個(gè)目標(biāo)的引物池,引物池中的引物由通用引物段和特異性引物段組成,通用引物段連接在特異性引物的5’端,至少一條引物的通用引物段和特異性引物段之間連接有調(diào)整引物tm的(n)k序列,各引物的tm值之間的差值不超過10℃。(n)k序列是不同長(zhǎng)度的n堿基序列,用于調(diào)整整個(gè)引物池的tm值,保證引物池的整體擴(kuò)增效率,并提升高通量測(cè)序的目標(biāo)區(qū)域覆蓋度。對(duì)于每個(gè)引物池,都從k={1..15}之間進(jìn)行測(cè)算,計(jì)算增加k個(gè)n堿基后的引物池tm值波動(dòng)范圍以及引物二聚體情況,選擇使整體引物池波動(dòng)最小,同時(shí)使得引物二聚體能量最低的k值。引物二聚體能量值采用breslauer等人提出的,以最接近的相鄰核苷酸的動(dòng)力學(xué)數(shù)值(自由能)來預(yù)測(cè)雙鏈穩(wěn)定性的方法,所有的計(jì)算都在25℃條件下進(jìn)行。無二聚體產(chǎn)生,即在所述多重pcr體系中,同一反應(yīng)體系內(nèi)的所有引物兩兩之間不能形成穩(wěn)定的二聚體,判定的標(biāo)準(zhǔn)為:tm(與目標(biāo)產(chǎn)物)減去tm(二聚體)≥5℃。無發(fā)卡結(jié)構(gòu)產(chǎn)生,即在所述多重pcr體系中任何引物自身都不形成穩(wěn)定的發(fā)卡結(jié)構(gòu),判定的標(biāo)準(zhǔn)為:tm(與目標(biāo)產(chǎn)物)減去tm(發(fā)卡結(jié)構(gòu))≥5℃,優(yōu)選tm(與目標(biāo)產(chǎn)物)減去tm(發(fā)卡結(jié)構(gòu))≥10℃。作為上述引物池的進(jìn)一步改進(jìn),引物池中引物的結(jié)構(gòu)通式為:capl:通用引物+(n)k+特異性引物,k為1~15之間的整數(shù);cap2:通用引物+特異性引物。為避免通用引物引起的非特異性擴(kuò)增,作為上述引物池的進(jìn)一步改進(jìn),通用引物段的序列與目的基因不同源。作為上述引物池的進(jìn)一步改進(jìn),引物池中的引物的通用引物段為:gspl:ctttccctacacgacgctcttccgatctgsp2:ggagttcagacgtgtgctcttccgatct。作為上述引物池的進(jìn)一步改進(jìn),特異性引物段的堿基個(gè)數(shù)24~35。作為上述引物池的進(jìn)一步改進(jìn),特異性引物段的解鏈溫度為62~70℃。作為上述引物池的進(jìn)一步改進(jìn),特異性引物段的gc含量為50~60%。作為上述引物池的進(jìn)一步改進(jìn),引物的tm值基于santalucia熱力學(xué)參數(shù)表的最鄰近法計(jì)算得到。雖然santalucia熱力學(xué)參數(shù)表的最鄰近法可以計(jì)算tm,但其他方法計(jì)算的tm值可以與之相對(duì)應(yīng),本領(lǐng)域技術(shù)人員可以經(jīng)過簡(jiǎn)單的試驗(yàn)比較各種方法計(jì)算得到的tm,從而對(duì)各種方法計(jì)算的tm值作出適當(dāng)選擇。一種用于擴(kuò)增cfdna樣品的多重pcr試劑盒,其特征在于:多重pcr試劑盒使用的引物池如上所示。一種多重pcr方法,包括使用上述的引物池進(jìn)行多重pcr擴(kuò)增。引物的設(shè)計(jì)方式:根據(jù)捕獲dna區(qū)域的不同,特異性引物設(shè)計(jì)方法如下:1)引物的設(shè)計(jì)流程首先使用權(quán)威軟件primer3(mit,cambridge,ma)設(shè)計(jì)出預(yù)選引物組合m1;2)通過ucscgenomebrowser對(duì)m1組合進(jìn)行本種群的目標(biāo)擴(kuò)增區(qū)域預(yù)測(cè),確認(rèn)沒有發(fā)生目標(biāo)區(qū)域的脫靶,從而把m1組合優(yōu)化為m2組合;3)通過全基因組blast搜索來避免重復(fù)序列,通過結(jié)構(gòu)預(yù)測(cè)來避免高度折疊區(qū)域,再通過配對(duì)測(cè)試來剔除可能的引物二聚體,把m2組合里面的不適合引物剔除,得到引物組合m3;4)把m3引物組合根據(jù)tm值跨度分為3-5份引物組,對(duì)于每個(gè)引物組,分別在引物5’端添加不同k長(zhǎng)度的n堿基并添加通用引物段,進(jìn)而把組間tm值范圍調(diào)整到9℃以內(nèi),把組內(nèi)tm值范圍調(diào)整到5℃以內(nèi)。特別的,特異性序列的長(zhǎng)度為24~35個(gè)堿基,解鏈溫度為62~70℃。進(jìn)一步的,平均解鏈溫度在65℃以上,如65~70℃間,gc含量控制在50~60%。多重pcr反應(yīng)步驟包括如下三步:1)預(yù)變性:95℃維持3.5min;第二步擴(kuò)增:變性步驟在96-98℃下維持30s、梯度退火在在65℃下維持30s,延伸步驟在72℃下維持30s;2)擴(kuò)增根據(jù)模板的投入量擴(kuò)增10-20個(gè)循環(huán),退火時(shí)間根據(jù)擴(kuò)增目標(biāo)序列的個(gè)數(shù)而相應(yīng)改變;3)擴(kuò)增在72℃下延伸5min,在本輪多重pcr反應(yīng)中,采用梯度退火,退火溫度為60~58℃,使每對(duì)引物均能與模板高效互補(bǔ)結(jié)合,提高擴(kuò)增效率。下面結(jié)合一個(gè)具體實(shí)施案例實(shí)驗(yàn),進(jìn)一步說明本發(fā)明的技術(shù)方案。實(shí)施例1:利用孕婦外周血檢測(cè)胎兒染色體非整倍性。用于驗(yàn)證本發(fā)明在nipt(無創(chuàng)產(chǎn)前檢測(cè))領(lǐng)域的應(yīng)用,可正確識(shí)別出選自21三體性、13三體性、18三體性以及x單體性的多個(gè)染色體非整倍性陽性樣品。一、血樣采集與處理1)對(duì)275個(gè)孕婦(孕周12周以上)靜脈采血5ml外周血。2)分離血漿:采血管離心1600g,10min。取上清血漿轉(zhuǎn)移至ep管中。將上述ep管16000g離心,10min,槍頭對(duì)著非白細(xì)胞沉淀處,吸取上清。立即進(jìn)行下一步或者放于-80℃冰箱中保存。3)使用qiagen血漿dna提取試劑盒提取血漿中的cfdna。二、區(qū)域富集發(fā)明人對(duì)上述所提cfdna按照具體實(shí)施方式進(jìn)行多重pcr擴(kuò)增,擴(kuò)增人類基因組上16,000多個(gè)短片段用于測(cè)試本發(fā)明。nipt無創(chuàng)產(chǎn)前胎兒游離dna的目標(biāo)區(qū)域富集方法,實(shí)驗(yàn)步驟按照具體實(shí)施方式的方法進(jìn)行。表1:無創(chuàng)產(chǎn)前(nipt)選擇的一萬六千個(gè)短片段多重pcr擴(kuò)增的染色體分布三、大規(guī)模測(cè)序使用illumina測(cè)序儀進(jìn)行測(cè)序,測(cè)序進(jìn)行76個(gè)循環(huán)。整個(gè)測(cè)序過程按照制造商推薦的步驟進(jìn)行。測(cè)序完成后,結(jié)果輸出為fastq格式文件。四、測(cè)序數(shù)據(jù)處理將測(cè)序數(shù)據(jù)上傳至無創(chuàng)產(chǎn)前胎兒染色體非整倍性分析平臺(tái)進(jìn)行分析。該平臺(tái)采用大樣本常用的z-值(z-score)算法,將reads與人類參考基因組進(jìn)行比對(duì),然后計(jì)算每個(gè)樣品的每條染色體唯一比對(duì)序列數(shù)占人類染色體的百分比。z-值這個(gè)統(tǒng)計(jì)量反應(yīng)的是當(dāng)前數(shù)值距離平均數(shù)的相對(duì)標(biāo)準(zhǔn)距離,z-值的應(yīng)用條件為大樣本量以及數(shù)據(jù)符合正態(tài)分布,計(jì)算公式如下:代號(hào)解釋:chrnz-scorefortestsample:所檢測(cè)樣本的z-值;n:為指定的第n染色體;%chrnsample:待測(cè)樣品第n條染色體唯一比對(duì)序列數(shù)占人類染色體的百分比,通過高通量測(cè)序后軟件分析獲得;mean%chrnreference:參照樣品第n條染色體比例平均值;s.d.%chrnreference:參照樣品第n條染色體比例的標(biāo)準(zhǔn)偏差。計(jì)算結(jié)果如圖2所示。根據(jù)該算法和正態(tài)分布規(guī)律,z-值=3定為參考值分界點(diǎn)。z-值>3則判斷為胎兒染色體非整倍體陽性。所有17個(gè)陽性樣品的z-值均大于3,陽性檢出率為100%。五、選取三個(gè)孕婦血漿樣品用于以下測(cè)試:擴(kuò)增產(chǎn)物tm范圍對(duì)測(cè)序結(jié)果的影響:tm(目標(biāo)產(chǎn)物)-tm(非目標(biāo)產(chǎn)物)的差值越大,捕獲效率和覆蓋率越高,tm(目標(biāo)產(chǎn)物)-tm(非目標(biāo)產(chǎn)物)≥9℃才可達(dá)到良好的捕獲效率和100×覆蓋率。增加特異性(n)k引物對(duì)擴(kuò)增效率的影響不同引物多重pcr擴(kuò)增后的凝膠電泳圖如圖1所示,圖中,使用不含(n)k引物段擴(kuò)增的樣品a:a1;使用不含(n)k引物段擴(kuò)增的樣品b:b1使用不含(n)k引物段擴(kuò)增的樣品c:c1;使用含有(n)k引物段擴(kuò)增的樣品a:a2使用含有(n)k引物段擴(kuò)增的樣品b:b2;使用含有(n)k引物段擴(kuò)增的樣品c:c2;從圖中可以看出,所建的高通量測(cè)序文庫(kù)的目標(biāo)條帶更專一,濃度更高。增加特異性(n)k引物對(duì)測(cè)序區(qū)域覆蓋的影響:擴(kuò)增引物特點(diǎn)10mreads下的目標(biāo)區(qū)域覆蓋度使用不含(n)k引物段擴(kuò)增的樣品a:a186.24%使用不含(n)k引物段擴(kuò)增的樣品b:b179.58%使用不含(n)k引物段擴(kuò)增的樣品c:c188.50%使用含有(n)k引物段擴(kuò)增的樣品a:a294.55%使用含有(n)k引物段擴(kuò)增的樣品b:b293.13%使用含有(n)k引物段擴(kuò)增的樣品c:c296.25%表中的數(shù)據(jù)表明,含有(n)k引物段擴(kuò)增的樣品,所獲得的目標(biāo)區(qū)域覆蓋度越大,也就是能夠檢測(cè)的目標(biāo)dna更全面。sequencelisting<110>廣州萬德基因醫(yī)學(xué)科技有限公司<120>用于擴(kuò)增cfdna樣品中多個(gè)目標(biāo)的ngs建庫(kù)引物池及應(yīng)用<130><160>2<170>patentinversion3.5<210>1<211>28<212>dna<213>人工引物<400>1ctttccctacacgacgctcttccgatct28<210>2<211>28<212>dna<213>人工引物<400>2ggagttcagacgtgtgctcttccgatct28當(dāng)前第1頁(yè)12