本發(fā)明屬于高通量基因測序領域,具體而言,本發(fā)明涉及一種用于提高擴增子文庫數(shù)據(jù)均一性的文庫構建方法。
背景技術:
:擴增子捕獲測序技術是一種靶向捕獲測序技術,主要利用多重PCR技術對多個目標區(qū)域序列進行特異性擴增和富集,得到目標區(qū)域的擴增子,然后采用二代測序技術對擴增子進行測序,獲取目標區(qū)域的序列信息。擴增子捕獲測序技術與液相芯片雜交技術相比,具有文庫構建周期短、測序深度高、成本低、panel設計靈活等優(yōu)點,因此基于該技術開發(fā)出來的測序產(chǎn)品在靶向測序領域越來越受到消費者的歡迎和青睞。盡管擴增子捕獲測序技術優(yōu)點眾多,但是也存在一些不足,其突出缺點就是文庫數(shù)據(jù)均一性差,具體表現(xiàn)為擴增子測序深度高低不一、參差不齊、標準差大。文庫均一性差會帶來兩個嚴重問題:第1是顯著增加測序的成本:在靶向測序領域,通常要求每個擴增子都達到某個可信測序深度,從而保證數(shù)據(jù)分析結果的可靠性。均一性差表明文庫中有大量的擴增子低于可信測序深度,因此需要增大測序數(shù)據(jù)總量,將它們的測序深度提高到可信測序深度,這無疑增加了測序的成本。均一性差同時還表明文庫中有多個擴增子的測序深度顯著高于可信測序深度。這些高出可信測序深度的數(shù)據(jù)本質上屬于冗余的無效數(shù)據(jù),實際上降低了測序數(shù)據(jù)的利用率,增加了測序的成本。第二個嚴重問題是限制擴增子文庫的通量。大量研究結果表明,隨著擴增子通量的增加,引物二聚體和非特異性條帶大量產(chǎn)生,導致文庫的均一性急劇下降。綜上所述,提高文庫的均一性已經(jīng)成為擴增子捕獲測序
技術領域:
亟待解決的問題,也是進一步降低擴增子測序費用、提高擴增子通量必須邁過的難關。對于文庫均一性差產(chǎn)生的原因,目前的主流觀點認為是由內因和外因所致。內因主要是擴增子的擴增效率不同,導致擴增子經(jīng)過相同循環(huán)數(shù)后積累的數(shù)量高低不一。進一步研究發(fā)現(xiàn),擴增子的擴增效率很大程度上受引物序列和引物數(shù)量的影響,比如某些引物序列更易被DNA聚合酶識別和結合,從而導致該擴增子的數(shù)量增多;增多某些引物序列的數(shù)量則通常會提高相應擴增子的數(shù)量。外因主要是引物二聚體、非特異性條帶和靶條帶序列互補形成的融合體,因為它們的產(chǎn)生不但會消耗目標擴增子所需要的引物,同時也會消耗反應體系的底物和DNA聚合酶,導致目標擴增子數(shù)量急劇下降。需要強調的是,它們對均一性的影響能力隨著擴增子通量的增高而顯著增強。針對內因,目前最常用的解決手段是人工調整多重引物數(shù)量之間的比例,從而調整擴增子之間的數(shù)量比例,提高數(shù)據(jù)的均一性。該方法雖然有效,但是需要反復多次調整,如果擴增子的通量高,那么工作量極大,在實際工作中難以實行。針對外因,特別是高通量的擴增子文庫,目前的解決辦法有兩個。第1個解決方案是將擴增子或者多重引物劃分到2個及2個以上的反應管(pool),從而降低單個反應管內多重引物的數(shù)量,減小二聚體和非特異性條帶的產(chǎn)生,提高文庫的均一性。需要強調的是,劃分反應管也是利用擴增子捕獲測序技術研究長片段基因序列的一種必備手段,因為illumina的測序讀長通常為300bp,因此需要將長片段劃分為多個頭尾部分重合的擴增子,這個操作叫做tiling。為避免擴增子序列之間互補配對形成人工融合體,需要將無序列配對擴增子的引物劃分為一個反應管。第2個解決方案是提高引物的設計能力,避免產(chǎn)生引物二聚體和非特異性條帶。針對外因的兩個解決辦法理論上非常有效,但是實際效果差強人意。對于反應管策略,經(jīng)常遇到的問題有兩個:一是反應管劃分不合理,導致反應管內仍然會產(chǎn)生大量引物二聚體和非特異性條帶;二是將各個反應管內的擴增子進行混合(pooling)時,往往混合不均勻,導致某些反應管內的擴增子數(shù)量偏多,某些反應管內的擴增子數(shù)量偏少,反而降低了文庫的均一性。對于引物設計策略,難以保證所有引物高效擴增的同時,避免引物二聚體和非特異性條帶的產(chǎn)生。因此,本領域急需解決上述問題的方法,提高文庫的均一性。技術實現(xiàn)要素:本發(fā)明提供了一種提高擴增子文庫數(shù)據(jù)均一性的文庫構建方法,所述方法包括如下步驟:1)確定多個目標區(qū)域的擴增子序列,并針對每個所述多個擴增子序列分別設計多重引物,所述多重引物的5’端含有通用序列,為測序接頭序列3’端的一部分;2)將多重引物劃分為多個反應管,每個反應管內的多重引物滿足:a)每個反應管內所有引物的解鏈溫度基本一致;b)反應管內的引物相互之間不能形成引物二聚體;c)引物只能引發(fā)目標擴增子的擴增,不會引發(fā)非特異性擴增條帶的形成;d)引物擴增得到擴增子之間不存在序列上的互補,不會形成人工融合體;3)計算每條引物的起始用量,使每個擴增子得到均一性擴增,并根據(jù)步驟2)劃分的反應管,制備每個反應管的多重引物混合物;4)用每個反應管的多重引物混合物對目標區(qū)域序列進行第1輪擴增,得到擴增子,將通用序列引入到擴增子的兩側;5)對步驟4)獲得的每個反應管的擴增子進行純化(優(yōu)選采用磁珠)和定量;6)將所有所述反應管的擴增子進行混合,并使各個擴增子的數(shù)目大致相當,例如相差在10%以內,優(yōu)選5%以內;7)以混合后的擴增子混合物為模板、以測序接頭引物進行第2輪PCR反應,將測序接頭(優(yōu)選P5和P7)引入到擴增子的兩側;8)對擴增子文庫進行純化(優(yōu)選采用磁珠)、定量、測序(優(yōu)選二代測序)。在一個實施方案中,每個反應管內所有引物的解鏈溫度基本一致,標準是所有引物的解鏈溫度的標準差≤5℃,優(yōu)選≤2℃;在一個實施方案中,反應管內的引物相互之間不能形成引物二聚體,設定反應管內引物的平均解鏈溫度為Tprimer,二聚體的解鏈溫度為Tdimer,那么分析的標準是Tprimer-Tdimer≥10℃,優(yōu)選≥15℃。在一個實施方案中,引物只能引發(fā)目標擴增子的擴增,不會引發(fā)非特異性擴增條帶的形成,設定反應管內目標擴增子引物的平均解鏈溫度為Tprimer,非特異擴增子引物的解鏈溫度為Tnon-specific,那么分析的標準是Tprimer–Tnon-specific≥10℃,優(yōu)選≥15℃。在一個實施方案中,擴增子之間不存在序列上的互補,不會形成人工融合體,將擴增子之間進行兩兩比對,并對比對結果進行熱力學解鏈溫度(Tpp)計算,設定反應管內目標擴增子引物的平均解鏈溫度為Tprimer,那么分析的標準是Tprimer–Tpp≥10℃,優(yōu)選≥15℃。在一個實施方案中,使得每個反應管內擴增子的數(shù)目基本一致,可以按如下進行:對于每個反應管中的引物,引物A與DNA模板(T)結合的平衡方程為:其中在溫度t下,有平衡常數(shù)其中ΔGA=-RT×ln(KA),[AT]為擴增產(chǎn)物、[A]為引物A濃度、[T]為模板濃度、R是氣體常數(shù),約等于1.9872cal/(K·mol),T是絕對溫度,對于引物B有同樣的計算公式其中ΔGB=-RT×ln(KB),[BT]為擴增產(chǎn)物、[B]為引物B濃度、[T]為模板濃度、R是氣體常數(shù),約等于1.9872cal/(K·mol),T是絕對溫度;使得[AT]=[BT],因此有公式:而對于每條引物,ΔG是自由能變化量,可以通過基于熱力學的最鄰近法計算獲得;因此,對于每個反應管中的引物,選定任意一個引物的濃度作為基準濃度,剩余的每一個引物都可以通過上面的公式算出與基準引物濃度的比例,從而可以確定每個引物的濃度,例如使得[A]=[B]。在一個實施方案中,使得各個反應管之間的擴增子數(shù)目基本大致進行混合,可以按如下方式實現(xiàn):調節(jié)各反應管擴增子合并時所需體積,所述體積由各反應管內擴增子的數(shù)目和濃度決定。比如擴增子劃分為3個反應管,每個反應管內的擴增子數(shù)目分別為A、B和C,對應的濃度分別為a、b和c,那么這三個反應管合并所需的體積分別為:1、aB/Ab和aC/Ac。附圖說明圖1是文庫構建流程。具體實施方式本發(fā)明涉及提高擴增子文庫數(shù)據(jù)均一性的文庫構建,包括4個方面的內容:第1方面提供一種劃分擴增子為2個及2個以上反應管的方法,反應管內部基本不會產(chǎn)生引物二聚體、非特異性條帶以及擴增子部分序列互補形成的人工融合體,保證擴增子高效擴增;第2方面提供一種確認每條引物初始量的計算方法,使每條擴增子均一化擴增;第3方面提供一種合并反應管擴增子的混合方法,反應管與反應管之間的擴增子均勻混合;第4方面提供一種基于上述三方面的方法提高文庫均勻一性的擴增子文庫構建方法,其優(yōu)勢是擴增子文庫的數(shù)據(jù)均一性好。在第1方面劃分擴增子為2或2個以上反應管的方法中,所述方法滿足以下條件:1)確定多個目標區(qū)域的擴增子序列,并針對每個所述多個擴增子序列分別設計多重引物,所述多重引物的5’端含有通用序列,為測序接頭序列3’端的一部分,長度根據(jù)擴增子的重數(shù)而定;2)每個pool內所有引物的解鏈溫度基本一致,標準是所有引物的解鏈溫度的標準差≤5℃,優(yōu)選≤2℃;3)反應管內的引物相互之間不能形成引物二聚體,設定反應管內引物的平均解鏈溫度為Tprimer,二聚體的解鏈溫度為Tdimer,那么分析的標準是Tprimer-Tdimer≥10℃,優(yōu)選≥15℃;4)引物只能引發(fā)目標擴增子的擴增,不會引發(fā)非特異性擴增條帶的形成,設定反應管內目標擴增子引物的平均解鏈溫度為Tprimer,非特異擴增子引物的解鏈溫度為Tnon-specific,那么分析的標準是Tprimer–Tnon-specific≥10℃,優(yōu)選≥15℃;5)擴增子之間不存在序列上的互補,不會形成人工融合體,將擴增子之間進行兩兩比對,并對比對結果進行熱力學解鏈溫度(Tpp)計算,設定反應管內目標擴增子引物的平均解鏈溫度為Tprimer,那么分析的標準是Tprimer–Tpp≥10℃,優(yōu)選≥15℃。在本發(fā)明中,目標擴增子引物的解鏈溫度Tprimer是引物與目標序列之間的解鏈溫度。第2方面確認引物初始量的計算方法基于如下的熱力學雜交理論化學平衡方程:對于每個反應管中的引物,引物A與DNA模板(T)結合的平衡方程為:其中在溫度t下,有平衡常數(shù)其中ΔGA=-RT×ln(KA),[AT]為擴增產(chǎn)物、[A]為引物A濃度、[T]為模板濃度、R是氣體常數(shù),約等于1.9872cal/(K·mol),T是絕對溫度,對于引物B有同樣的計算公式其中ΔGB=-RT×ln(KB),[BT]為擴增產(chǎn)物、[B]為引物B濃度、[T]為模板濃度、R是氣體常數(shù),約等于1.9872cal/(K·mol),T是絕對溫度;由于DNA模板均為基因組DNA,因此所有的引物具有共同的模板DNA,均一性擴增的目標是所有的擴增產(chǎn)物含量一致,也就是[AT]=[BT],因此有公式:而對于每條引物,ΔG是自由能變化量,可以通過基于熱力學的最鄰近法計算獲得;因此,對于每個反應管中的引物,選定任意一個引物的濃度作為基準濃度,剩余的每一個引物都可以通過上面的公式算出與基準引物濃度的比例,從而可以確定每個引物的濃度。在本發(fā)明中,計算每條引物的起始用量,使每個擴增子得到均一性擴增,所述起始用量可以在計算值的基礎上上下浮動不大于10%;所述擴增子得到均一性擴增是指擴增子濃度差別不大于20%,優(yōu)選不大于10,最優(yōu)選不大于5%。在第3方面合并各反應管擴增子的混合方法中,各反應管合并時所需體積由各反應管內擴增子的數(shù)目和濃度決定。比如擴增子劃分為3個反應管,每個反應管內的擴增子數(shù)目分別為A、B和C,對應的濃度分別為a、b和c,那么這三個反應管合并所需的體積分別為:1、aB/Ab和aC/Ac。第4方面提供了一種基于上述三方面的方法提高文庫均一性的擴增子文庫構建方法,所述方法包括以下步驟:1)確定多個目標區(qū)域的擴增子序列,并針對每個所述多個擴增子序列分別設計多重引物,所述多重引物的5’端含有通用序列,為測序接頭序列3’端的一部分;2)按照第1方面的方法將擴增子劃分為多個反應管;3)按照第2方面的方法計算出每條引物的起始用量,并根據(jù)步驟2)中劃分的反應管制備每個反應管的多重引物混合物;4)用每個反應管的多重引物混合物對目標區(qū)域進行第1輪擴增,得到擴增子,將通用序列引入到擴增子的兩側;5)對步驟4)獲得的每個反應管的擴增子進行純化(優(yōu)選采用磁珠)和定量;6)按照第3方面的方法將所有所述反應管的擴增子進行混合;7)以混合后的擴增子混合物為模板、以測序接頭引物進行第2輪PCR反應,將測序接頭(優(yōu)選P5和P7)引入到擴增子的兩側;8)對擴增子文庫進行純化(優(yōu)選采用磁珠)、定量、測序(優(yōu)選二代測序)。在本發(fā)明的實施例中:檢測的目標區(qū)域序列共780個(表1和表2),以人正常乳腺細胞HTB-125提取得到的gDNA為模板,構建多重PCR靶向捕獲測序文庫,平行重復實驗3次(樣品1-3)。實施例1:如何劃分反應管;1.確定多個目標區(qū)域的擴增子序列,并針對每個所述多個擴增子序列分別設計引物,所述引物的3’端為特異性序列(表1和表2),與目標片段序列互補配對;所述引物的5’端為通用序列,其中上游引物的通用序列(SEQIDNO.1)GAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT,下游引物的通用序列為(SEQIDNO.2)CATCATTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT。2.每個反應管內所有引物的解鏈溫度基本一致,標準是所有引物的解鏈溫度的標準差≤5℃,優(yōu)選≤2℃;3.反應管內的引物相互之間不能形成引物二聚體,設定反應管內引物的平均解鏈溫度為Tprimer,二聚體的解鏈溫度為Tdimer,那么分析的標準是Tprimer-Tdimer≥10℃,優(yōu)選≥15℃;4.引物只能引發(fā)目標擴增子的擴增,不會引發(fā)非特異性擴增條帶的形成,設定反應管內目標擴增子引物的平均解鏈溫度為Tprimer,非特異擴增子引物的解鏈溫度為Tnon-specific,那么分析的標準是Tprimer–Tnon-specific≥10℃,優(yōu)選≥15℃;5.擴增子之間不存在序列上的互補,不會形成人工融合體,將擴增子之間進行兩兩比對,并對比對結果進行熱力學解鏈溫度(Tpp)計算,設定反應管內目標擴增子引物的平均解鏈溫度為Tprimer,那么分析的標準是Tprimer–Tpp≥10℃,優(yōu)選≥15℃。按照所述原則進行多重引物設計和劃分反應管,將擴增780個目標區(qū)域的多重引物劃分為兩個反應管,分別命名為Tube-1和Tube-2。Tube-1中有388對多重引物,Tube-2中有392對多重引物(參見表1和表2)。實施例2反應管內的引物初始量的計算;對于每個反應管中的引物,引物A與DNA模板(T)結合的平衡方程為:其中在溫度t下,有平衡常數(shù)其中ΔGA=-RT×ln(KA),[AT]為擴增產(chǎn)物、[A]為引物A濃度、[T]為模板濃度、R是氣體常數(shù),約等于1.9872cal/(K·mol),T是絕對溫度,對于引物B有同樣的計算公式其中ΔGB=-RT×ln(KB),[BT]為擴增產(chǎn)物、[B]為引物B濃度、[T]為模板濃度、R是氣體常數(shù),約等于1.9872cal/(K·mol),T是絕對溫度;由于DNA模板均為基因組DNA,因此所有的引物具有共同的模板DNA,均一性擴增的目標是所有的擴增產(chǎn)物含量一致,也就是[AT]=[BT],因此有公式:而對于每條引物,ΔG是自由能變化量,可以通過基于熱力學的最鄰近法計算獲得;因此,對于每個反應管中的引物,選定任意一個引物的濃度作為基準濃度,剩余的每一個引物都可以通過上面的公式算出與基準引物濃度的比例,從而可以確定每個引物的濃度。將所述濃度的引物混合,制備每個反應管的多重引物混合物。根據(jù)上述引物起始量的計算方法,得出Tube-1和Tube-2每條引物的起始量(見表1和表2),并將其混合,分別得到Tube-1和Tube-2的多重引物混合物。表1:Tuble-1中的引物序列(3’特異性序列)、引物退火溫度和起始用量(引物編號:T1P1-T1P388)表2:Tuble-2中的引物序列(3’特異性序列)、引物退火溫度和起始用量(引物編號:T2P1-T2P392)實施例3擴增子文庫的構建。第1步:第1輪多重PCR反應擴增目標區(qū)域得到擴增子按照圖1所示,每個樣本進行2個多重PCR反應,分別為Tube-1和Tube-2。每個反應加入相應的多重引物混合物(primermixture),同時加入相應量的樣本gDNA。反應采用的DNA聚合酶為文獻報道適用于二代測序文庫構建DNA聚合酶,具有高保真性和強擴增能力。本實施例使用常用DNA聚合酶PhusionDNAPolymerases(Thermoscientific)、High-FidelityDNAPolymerase(NEB)、Q5High-FidelityDNApolymerase(NEB)、Hifipolymerase(KAPA)、KODFX(TOYOBO)等。上述反應體系和反應條件為適用于本實施例的反應條件。采用本發(fā)明提高的方法構建擴增子文庫時,反應體系及反應條件可以根據(jù)擴增子的數(shù)目和所用DNA聚合酶的種類做相應的調整。第2步:采用磁珠對第1輪多重PCR產(chǎn)物進行純化2.1向第一輪的25μl多重PCR產(chǎn)物內加入45μl磁珠,充分混合后,靜止10min;2.2將混勻磁珠的多重PCR產(chǎn)物放置于磁力架上,待磁珠被吸附后,移去管中的液體,加入180μl的80%乙醇,靜置30s;2.3移去80%乙醇,再加入180μl的80%乙醇,靜置30s;2.4移去80%乙醇,靜置5min,待80%乙醇徹底揮發(fā)后,加入30μlddH2O洗脫;2.5將PCR管放置于磁力架上,待磁珠被吸附后,將洗脫液轉移到新的PCR管內,管中液體則為第1輪擴增得到的擴增子。第3步:用Qbit定量儀(Thermoscientific)對上述擴增子進行定量;3.1制備定量緩沖液:取197μl染料緩沖液與1μl熒光定量染料于定量管內,充分混勻;3.2將2μl第1輪得到的擴增子產(chǎn)物和定量緩沖液混勻,避光靜置2min;3.3.將定量管放置于Qbit定量儀中,測量出擴增子的濃度。Tube-1的擴增產(chǎn)物濃度為5.4ng/μl,Tube-2的擴增產(chǎn)物濃度為6.0ng/μl。第4步:將純化后Tube-1和Tube-2的PCR產(chǎn)物進行混合4.1擴增產(chǎn)物混合的體積與每個反應管內的目標區(qū)域數(shù)目和第1輪多重PCR產(chǎn)物的濃度相關。對于擴增子劃分為2個反應管的情況,反應管內的擴增子數(shù)目分別為A和B,擴增子濃度分別為a和b,則兩個反應管合并所需的體積分別為:1和aB/Ab。本實施例中,Tube-1和Tube-2擴增子數(shù)目分別為388和392濃度分別為5.4ng/μl和6.0ng/μl,因此兩者混合的體積比例約為1:0.91,混合后的總體積為5μl。第5步:進行第2輪PCR反應,使擴增子兩側帶上測序接頭序列P5(序列為:AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT;SEQIDNO.3)和P7(序列為:CAAGCAGAAGACGGCATACGAGATTCATCATTGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT;SEQIDNO.4)。第6步:對步驟5得到的擴增產(chǎn)物進行純化6.1向第2輪的25μlPCR產(chǎn)物內加入45μl磁珠,充分混合后,靜止10min;6.2將混勻磁珠的PCR產(chǎn)物放置于磁力架上,待磁珠被吸附后,移去管中的液體,加入180μl的80%乙醇,靜置30s;6.3移去80%乙醇,再加入180μl的80%乙醇,靜置30s;6.4移去再加入的80%乙醇,靜置5min,待80%乙醇徹底揮發(fā)后,加入20μlTE緩沖液洗脫,然后將PCR管放置于磁力架上,待磁珠被吸附后,將洗脫液轉移到新的PCR管內,管中液體則為制備好的擴增子文庫。第7步:對文庫進行定量7.1制備定量緩沖液:取197μl染料緩沖液與1μl熒光定量染料于定量管內,充分混勻;7.2將2μl擴增子文庫和定量緩沖液混勻,避光靜置2min;7.3.將定量管放置于Qbit定量儀中,測量出擴增子的濃度。第8步:對擴增子文庫進行二代測序按照illumina公司提供的測序流程,對文庫進行測序和數(shù)據(jù)分析。本實施例得到的分析結果如表3所示,采用本發(fā)明提供的方法構建的文庫,比對率、覆蓋率、捕獲率、測序深度高。表3:760個目標區(qū)域的測序分析結果文庫名稱比對率(%)覆蓋率(%)捕獲率(%)20×覆蓋率ABC樣品197.7698.2696.4799.9194.0789.9712.37樣品295.2498.7795.6599.2494.2188.5113.89樣品395.6597.8995.7598.7895.0387.6212.48注:A:20%平均測序深度百分率;B:30%平均測序深度百分率;C:10%側翼平均測序深度百分率。當前第1頁1 2 3