本發(fā)明涉及生物
技術(shù)領(lǐng)域:
,具體而言,涉及一種ctDNA超低頻突變檢測(cè)文庫(kù)的構(gòu)建方法、試劑盒及文庫(kù)檢測(cè)數(shù)據(jù)的分析方法。
背景技術(shù):
:ctDNA(circulatingtumorDNA),即循環(huán)腫瘤DNA,是由腫瘤細(xì)胞釋放到血液循環(huán)系統(tǒng)中的DNA,它們攜帶有腫瘤細(xì)胞中所有的基因突變信息,因此,理論上可以通過(guò)檢測(cè)ctDNA的突變狀態(tài)來(lái)反應(yīng)腫瘤組織的突變狀態(tài)。因?yàn)闊o(wú)論是原發(fā)部位腫瘤還是轉(zhuǎn)移部位腫瘤,均在持續(xù)不斷的向血液中釋放腫瘤DNA,所以ctDNA體現(xiàn)的是患者整體的腫瘤基因突變情況,因而更加全面;僅僅需要抽取一管血液就可以進(jìn)行檢測(cè)的便利性,也使之克服了腫瘤組織難以取樣和不方便長(zhǎng)期監(jiān)測(cè)的問(wèn)題。因此,基于血液的無(wú)創(chuàng)或者微創(chuàng)的腫瘤基因檢測(cè)技術(shù)備受關(guān)注,有著廣闊的應(yīng)用前景。但是,在能夠獲得大規(guī)模臨床應(yīng)用之前,ctDNA檢測(cè)技術(shù)還有幾個(gè)技術(shù)瓶頸需要克服:1)人體正常細(xì)胞的凋亡,也會(huì)釋放大量的游離DNA到血液中,這些游離DNA為ctDNA的檢測(cè)制造了大量的背景噪音。一般認(rèn)為,血漿中ctDNA占游離DNA的比例從0.1%到93%不等,因此,ctDNA檢測(cè)技術(shù)需要克服的第一個(gè)瓶頸是超低頻突變的檢出。2)血液中游離DNA的總量很低,每10ml全血平均只能提取到50ng左右的游離DNA,而腫瘤相關(guān)突變種類很多,常規(guī)技術(shù)無(wú)法使用這么少的DNA進(jìn)行多項(xiàng)DNA突變檢測(cè)實(shí)驗(yàn)。對(duì)于多重基因的檢測(cè),目前最常使用的技術(shù)是二代測(cè)序(NGS),以Illumina公司的Hiseq和Nextseq測(cè)序儀為代表的第二代測(cè)序技術(shù),具有檢測(cè)通量高(每次運(yùn)行可以產(chǎn)生上百G的基因數(shù)據(jù)),覆蓋面廣(可以進(jìn)行人類全基因組的測(cè)序分析),性價(jià)比高(平均每G成本僅需幾十塊錢)等優(yōu)點(diǎn),因此特別適用于多個(gè)基因的多種突變類型的并行檢測(cè)。在進(jìn)行二代測(cè)序文庫(kù)構(gòu)建的過(guò)程中,無(wú)可避免地會(huì)進(jìn)行PCR反應(yīng),而PCR的過(guò)程勢(shì)必會(huì)引入堿基的錯(cuò)誤。據(jù)報(bào)道,一般的高保真酶的復(fù)制錯(cuò)誤率在10-6左右,并且會(huì)隨著PCR循環(huán)數(shù)的增多,這個(gè)數(shù)值還會(huì)增大;另外,目前測(cè)序精度最高的測(cè)序儀Hiseq和Nextseq的單堿基測(cè)序錯(cuò)誤率都在0.01%-1%之間。以上這兩點(diǎn)對(duì)于檢測(cè)超低頻的ctDNA突變會(huì)造成很大的背景噪音。在0.1%及以下的檢測(cè)限的情況下,很難區(qū)分模板DNA的突變和PCR及測(cè)序的錯(cuò)誤,這樣會(huì)導(dǎo)致檢測(cè)的特異度降低。為了解決ctDNA的超低頻檢測(cè)背景噪音高的問(wèn)題,目前常規(guī)的辦法為提高測(cè)序深度,通過(guò)加大測(cè)序的數(shù)據(jù)量來(lái)增加變異檢測(cè)時(shí)的reads(讀段)支持?jǐn)?shù),從而排除測(cè)序錯(cuò)誤。但是,由于ctDNA的模板含量低,大數(shù)據(jù)量會(huì)造成大量的復(fù)制品(duplicate),測(cè)序深度的增加與數(shù)據(jù)量的增加并不是具有線性關(guān)系,因此,在造成數(shù)據(jù)浪費(fèi)的同時(shí)還會(huì)由于測(cè)序深度的限制導(dǎo)致檢測(cè)限并不是很高,通常只能檢測(cè)0.5%左右的突變。另一種辦法為通過(guò)模板DNA分子的內(nèi)源性“標(biāo)簽”,即DNA分子兩端的堿基序列來(lái)判定下機(jī)數(shù)據(jù)中的reads是否來(lái)自于同一條DNA原始分子,來(lái)源于同一條DNA原始分子的reads將會(huì)根據(jù)每條reads的突變情況確定真實(shí)的突變情況。但是,由于內(nèi)源性“標(biāo)簽”所標(biāo)記的DNA分子數(shù)有限,會(huì)出現(xiàn)多個(gè)DNA原始分子標(biāo)簽序列相同的情況,這樣會(huì)導(dǎo)致檢測(cè)的靈敏度下降。技術(shù)實(shí)現(xiàn)要素:本發(fā)明旨在提供一種ctDNA超低頻突變檢測(cè)文庫(kù)的構(gòu)建方法、試劑盒及文庫(kù)檢測(cè)數(shù)據(jù)的分析方法,以提高ctDNA超低頻突變檢測(cè)靈敏度。為了實(shí)現(xiàn)上述目的,根據(jù)本發(fā)明的一個(gè)方面,提供了一種ctDNA超低頻突變檢測(cè)文庫(kù)的構(gòu)建方法。該構(gòu)建方法包括以下步驟:S1,從全血中提取cfDNA;S2,對(duì)cfDNA進(jìn)行末端修復(fù)及3’端添加A堿基;S3,將S2得到的cfDNA的末端連接含有隨機(jī)標(biāo)簽序列的接頭;S4,根據(jù)接頭的序列及目標(biāo)區(qū)域設(shè)計(jì)多重PCR的引物進(jìn)行目標(biāo)區(qū)域捕獲,多重PCR的引物中上游引物為通用引物,匹配接頭的序列,下游引物為擴(kuò)增目標(biāo)區(qū)域的特異性引物;S5,對(duì)S4的PCR產(chǎn)物進(jìn)行磁珠純化,去除掉未非特異性擴(kuò)增的小片段DNA及引物二聚體;以及S6,對(duì)S5的產(chǎn)物進(jìn)行PCR擴(kuò)增,同時(shí)引入index序列,得到ctDNA超低頻突變的文庫(kù)。進(jìn)一步地,隨機(jī)標(biāo)簽序列的長(zhǎng)度為12bp。進(jìn)一步地,接頭包括如SEQIDNO.1和SEQIDNO.2所示的脫氧核苷酸序列。根據(jù)本發(fā)明的另一方面,提供了一種用于ctDNA超低頻突變檢測(cè)文庫(kù)構(gòu)建的試劑盒。該試劑盒包括:cfDNA提取試劑、對(duì)cfDNA進(jìn)行末端修復(fù)及3’端添加A堿基的試劑、含有隨機(jī)標(biāo)簽序列的接頭、接頭連接試劑、根據(jù)接頭的序列及目標(biāo)區(qū)域設(shè)計(jì)的多重PCR引物,多重PCR引物中上游引物為通用引物,匹配接頭的序列,下游引物為擴(kuò)增目標(biāo)區(qū)域的特異性引物,對(duì)PCR產(chǎn)物進(jìn)行磁珠純化的試劑,去除掉未非特異性擴(kuò)增的小片段DNA及引物二聚體的試劑,用于PCR擴(kuò)增的試劑,將index序列引入DNA片段的引物。進(jìn)一步地,隨機(jī)標(biāo)簽序列的長(zhǎng)度為12bp。進(jìn)一步地,接頭包括如SEQIDNO.1和SEQIDNO.2所示的脫氧核苷酸序列。根據(jù)本發(fā)明的再一方面,提供了一種文庫(kù)檢測(cè)數(shù)據(jù)的分析方法。該分析方法中文庫(kù)上述ctDNA超低頻突變檢測(cè)文庫(kù),包括以下步驟:S1,對(duì)文庫(kù)測(cè)序后的數(shù)據(jù)通過(guò)隨機(jī)標(biāo)簽序列進(jìn)行聚類分析,排除掉PCR擴(kuò)增錯(cuò)誤及測(cè)序錯(cuò)誤產(chǎn)生的序列數(shù)據(jù);S2,剩余的數(shù)據(jù)質(zhì)控合格后進(jìn)入變異檢測(cè)分析。進(jìn)一步地,S2包括:采用samtools軟件進(jìn)行突變檢測(cè),并根據(jù)聚類完的標(biāo)簽序列進(jìn)行計(jì)數(shù),在同一標(biāo)簽中支持突變的reads占80%以上則計(jì)數(shù),所有標(biāo)簽在同一個(gè)突變出現(xiàn)2次算作陽(yáng)性檢出,合并點(diǎn)突變檢出結(jié)果,使用annovar軟件進(jìn)行注釋,得到氨基酸水平突變注釋。應(yīng)用本發(fā)明的技術(shù)方案,通過(guò)對(duì)二代測(cè)序前文庫(kù)中的每一條目標(biāo)序列添加外源的“標(biāo)簽”,文庫(kù)測(cè)序后的數(shù)據(jù)可通過(guò)標(biāo)簽序列進(jìn)行聚類分析,識(shí)別出原始的DNA模板,排除掉PCR錯(cuò)誤及測(cè)序錯(cuò)誤,提高檢測(cè)的特異度。并且,由于添加的是外源標(biāo)簽,可以通過(guò)增加標(biāo)簽的多樣性來(lái)防止多個(gè)DNA分子添加相同標(biāo)簽序列的情況,從而保證檢測(cè)的靈敏度不受影響。附圖說(shuō)明構(gòu)成本申請(qǐng)的一部分的說(shuō)明書附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí)施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。在附圖中:圖1示出了根據(jù)本發(fā)明實(shí)施方式的ctDNA超低頻突變檢測(cè)的流程示意圖;圖2示出了根據(jù)本發(fā)明實(shí)施方式的ctDNA超低頻突變檢測(cè)的文庫(kù)的構(gòu)建方法的原理示意圖;以及圖3示出了實(shí)施例1中未加隨機(jī)標(biāo)簽序列的測(cè)序結(jié)果在基因組目標(biāo)區(qū)域上每個(gè)位點(diǎn)的背景噪音圖;以及圖4示出了實(shí)施例1中加隨機(jī)標(biāo)簽序列以后的測(cè)序結(jié)果在基因組目標(biāo)區(qū)域上每個(gè)位點(diǎn)的背景噪音圖。具體實(shí)施方式需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本發(fā)明。根據(jù)本發(fā)明一種典型的實(shí)施方式,提供一種ctDNA超低頻突變檢測(cè)文庫(kù)的構(gòu)建方法。該構(gòu)建方法包括以下步驟:S1,從全血中提取cfDNA(cellfreeDNA);S2,對(duì)cfDNA進(jìn)行末端修復(fù)及3’端添加A堿基;S3,將S2得到的cfDNA的末端連接含有隨機(jī)標(biāo)簽序列的接頭;S4,根據(jù)接頭的序列及目標(biāo)區(qū)域設(shè)計(jì)多重PCR的引物進(jìn)行目標(biāo)區(qū)域捕獲,多重PCR的引物中上游引物為通用引物,匹配接頭的序列,下游引物為擴(kuò)增目標(biāo)區(qū)域的特異性引物;S5,對(duì)S4的PCR產(chǎn)物進(jìn)行磁珠純化,去除掉未非特異性擴(kuò)增的小片段DNA及引物二聚體;以及S6,對(duì)S5的產(chǎn)物進(jìn)行PCR擴(kuò)增,同時(shí)引入index序列,得到ctDNA超低頻突變的文庫(kù)。應(yīng)用本發(fā)明的技術(shù)方案,通過(guò)對(duì)二代測(cè)序前文庫(kù)中的每一條目標(biāo)序列添加外源的“標(biāo)簽”,文庫(kù)測(cè)序后的數(shù)據(jù)可通過(guò)標(biāo)簽序列進(jìn)行聚類分析,識(shí)別出原始的DNA模板,排除掉PCR錯(cuò)誤及測(cè)序錯(cuò)誤,提高檢測(cè)的特異度。并且,由于添加的是外源標(biāo)簽,可以通過(guò)增加標(biāo)簽的多樣性來(lái)防止多個(gè)DNA分子添加相同標(biāo)簽序列的情況,從而保證檢測(cè)的靈敏度不受影響。本發(fā)明中,通過(guò)對(duì)目標(biāo)DNA分子添加隨機(jī)標(biāo)簽來(lái)進(jìn)行標(biāo)記;添加隨機(jī)標(biāo)簽的建庫(kù)方法是基于多重PCR目標(biāo)區(qū)域捕獲技術(shù),采用通用的上游引物及目標(biāo)區(qū)域特異性的下游引物來(lái)實(shí)現(xiàn)文庫(kù)構(gòu)建的;通過(guò)對(duì)添加的隨機(jī)標(biāo)簽序列進(jìn)行聚類分析,通過(guò)分子計(jì)數(shù)來(lái)區(qū)分真突變及PCR或測(cè)序錯(cuò)誤。優(yōu)選的,隨機(jī)標(biāo)簽序列為ATGC四種堿基組成,長(zhǎng)度為12bp,分別連接在cfDNA的前后兩端。根據(jù)本發(fā)明一種典型的實(shí)施方式,接頭包括如SEQIDNO.1和SEQIDNO.2所示的脫氧核苷酸序列。根據(jù)本發(fā)明一種典型的實(shí)施方式,提供一種用于ctDNA超低頻突變檢測(cè)文庫(kù)構(gòu)建的試劑盒。該試劑盒包括:cfDNA提取試劑、對(duì)cfDNA進(jìn)行末端修復(fù)及3’端添加A堿基的試劑、含有隨機(jī)標(biāo)簽序列的接頭、接頭連接試劑、根據(jù)接頭的序列及目標(biāo)區(qū)域設(shè)計(jì)的多重PCR引物,多重PCR引物中上游引物為通用引物,匹配接頭的序列,下游引物為擴(kuò)增目標(biāo)區(qū)域的特異性引物,對(duì)PCR產(chǎn)物進(jìn)行磁珠純化的試劑,去除掉未非特異性擴(kuò)增的小片段DNA及引物二聚體的試劑,用于PCR擴(kuò)增的試劑,將index序列引入DNA片段的引物。優(yōu)選的,隨機(jī)標(biāo)簽序列為ATGC四種堿基組成,長(zhǎng)度12bp,分別連接在readscfDNA的前后兩端。根據(jù)本發(fā)明一種典型的實(shí)施方式,接頭包括如SEQIDNO.1和SEQIDNO.2所示的脫氧核苷酸序列。根據(jù)本發(fā)明一種典型的實(shí)施方式,提供一種文庫(kù)檢測(cè)數(shù)據(jù)的分析方法,文庫(kù)為上述ctDNA超低頻突變檢測(cè)文庫(kù)。該分析方法包括以下步驟:S1,對(duì)文庫(kù)測(cè)序后的數(shù)據(jù)通過(guò)隨機(jī)標(biāo)簽序列進(jìn)行聚類分析,排除掉PCR擴(kuò)增錯(cuò)誤及測(cè)序錯(cuò)誤產(chǎn)生的序列數(shù)據(jù);S2,剩余的數(shù)據(jù)質(zhì)控合格后進(jìn)入變異檢測(cè)分析。優(yōu)選的,S2包括:采用samtools軟件進(jìn)行突變檢測(cè),并根據(jù)聚類完的標(biāo)簽序列進(jìn)行計(jì)數(shù),在同一標(biāo)簽中支持突變的reads占80%以上則計(jì)數(shù),所有標(biāo)簽在同一個(gè)突變出現(xiàn)2次算作陽(yáng)性檢出,合并點(diǎn)突變檢出結(jié)果,使用annovar軟件進(jìn)行注釋,得到氨基酸水平突變注釋。本發(fā)明涉及了一種針對(duì)血液ctDNA樣本進(jìn)行目標(biāo)區(qū)域捕獲的超低頻檢測(cè)的二代測(cè)序文庫(kù)的構(gòu)建及數(shù)據(jù)分析方法。該方法包括了設(shè)計(jì)特定的測(cè)序接頭序列,接頭序列尾端加上一定數(shù)量的隨機(jī)堿基(即上文所述“標(biāo)簽”);目標(biāo)區(qū)域及標(biāo)簽的擴(kuò)增,測(cè)序接頭的引入、Illumina平臺(tái)HiseqX測(cè)序以及自主開發(fā)的針對(duì)此方法的信息分析流程等步驟。本發(fā)明提供了一種利用NGS技術(shù)檢測(cè)血漿ctDNA超低頻突變的文庫(kù)構(gòu)建方法及數(shù)據(jù)分析方法。采用本發(fā)明提供的方法,可以有效的去除掉由于PCR及測(cè)序引入的錯(cuò)誤突變,降低檢測(cè)的背景噪音。對(duì)于0.1%的檢測(cè)限,其靈敏度可以達(dá)到90%以上,特異度高達(dá)99.9%。如圖1所示,應(yīng)用本發(fā)明的技術(shù)方案主要包括實(shí)驗(yàn)流程和信息分析流程兩大部分,實(shí)施上述技術(shù)方案包括具體以下步驟(圖1示出了最主要的步驟):1)從全血中分離血漿,并從血漿中提取cfDNA;2)含有隨機(jī)標(biāo)簽序列的接頭制作;3)cfDNA片段末端修復(fù)及3’端添加A堿基;4)接頭的連接,將末端連接A堿基的DNA片段末端連接步驟2)中的含有隨機(jī)標(biāo)簽序列的接頭;5)基于多重PCR的目標(biāo)區(qū)域捕獲:根據(jù)步驟4)中添加的接頭序列及目標(biāo)區(qū)域(感興趣的研究位點(diǎn)),設(shè)計(jì)多重PCR的引物,其中上游引物為通用引物,匹配步驟4)中添加的接頭序列;下游引物為目標(biāo)區(qū)域特異性引物;6)對(duì)步驟5)中的PCR產(chǎn)物進(jìn)行磁珠純化,去除掉未非特異性的小片段DNA及引物二聚體;7)文庫(kù)的擴(kuò)增及index的引入:采用特定的引物對(duì)步驟6)后的產(chǎn)物進(jìn)行PCR擴(kuò)增,同時(shí)對(duì)文庫(kù)添加index序列;8)文庫(kù)檢測(cè):使用安捷倫2100Bioanalyzer檢測(cè)插入片段大??;使用qPCR定量檢測(cè)文庫(kù)產(chǎn)量;9)文庫(kù)上機(jī):采用IlluminaHiseqX平臺(tái)對(duì)文庫(kù)檢測(cè)后的文庫(kù)進(jìn)行上機(jī)測(cè)序;10)下機(jī)數(shù)據(jù)的分析。本發(fā)明的ctDNA超低頻突變檢測(cè)的文庫(kù)的構(gòu)建方法的原理示意圖如圖2所示。其中第一步為模板DNA分子(1為待測(cè)位點(diǎn))與含隨機(jī)標(biāo)簽序列的接頭連接(2為隨機(jī)標(biāo)簽序列);第二步為多重PCR擴(kuò)增目標(biāo)區(qū)域(3為通用序列的上游引物,4為含有一段通用序列的下游引物);第三步為文庫(kù)富集及引入測(cè)序接頭和index序列(5為index序列);第四為構(gòu)建后的文庫(kù)結(jié)構(gòu)的示意圖(6和7均為測(cè)序接頭)。下面將結(jié)合實(shí)例進(jìn)一步說(shuō)明本發(fā)明的有益效果。實(shí)施例11.非小細(xì)胞肺癌患者全血10ml,采用streck公司的BCT管進(jìn)行收集和運(yùn)輸,運(yùn)輸溫度為室溫,運(yùn)輸時(shí)間不超過(guò)72h。血漿的分離采用兩步離心法,即1600g離心10min,取上清,再16000g離心10min,上清即為分離好的血漿,該血漿保存于-80℃中。血漿中cfDNA的提取采用Qiagen公司的circulating循環(huán)DNA提取試劑盒,提取好的cfDNA存放在-20℃中備用。樣本名稱及提取量見表1。表12.合成帶有標(biāo)簽序列的接頭。接頭序列見表2(本例中采用的標(biāo)簽序列長(zhǎng)度為12個(gè)堿基),最多可以標(biāo)記412個(gè)DNA分子。合成好的引物采用EB(ElutionBuffer)洗脫緩沖液進(jìn)行溶解,終濃度為100uM,等比例摩爾數(shù)混合之后95℃加熱5min,然后緩慢降溫至室溫完成退火。采用乙醇沉淀法對(duì)退火完成后的接頭進(jìn)行純化,最后采用100ul無(wú)核酸酶水溶解,終濃度為20uM。表2名稱序列(5’-3’)SEQIDNO.1TCTACACTCTTTCCCTACACGCTCTTCCGATCTNNNNNNNNNNNNTSEQIDNO.2CACTGACCTCAAGTCTGCACACGAGAAGGCTAGANNNNNNNNNNNN注:含有標(biāo)簽序列的接頭,其中N代表隨機(jī)堿基。3.末端修復(fù)及3’端加A堿基參照下表3配比準(zhǔn)備反應(yīng)混合液,用槍輕柔地上下吹吸混勻。表3放入PCR儀,按下表4設(shè)置程序進(jìn)行反應(yīng)(蓋溫設(shè)為70℃,前30min不蓋熱蓋,溫度到達(dá)65℃,立即蓋上熱蓋)。表44.接頭連接按照下表5的配比準(zhǔn)備反應(yīng)混合液,用槍輕柔地上下吹吸混勻。表5分為2管,每管55ul,放于PCR儀上,20℃反應(yīng)15min。反應(yīng)結(jié)束后,使用0.8×的AMPureXP(Beckman公司)磁珠純化DNA樣本。5.PCR擴(kuò)增捕獲目標(biāo)區(qū)域按照下表6的配比準(zhǔn)備反應(yīng)混合液,用槍輕柔地上下吹吸混勻。表6用于多重PCR擴(kuò)增的上下游引物的序列見表7。表7名稱序列(5’-3’)SEQIDNO.3TCTACACTCTTTCCCTACACGACGCTSEQIDNO.4GGAGTTCAGACCGTGTGCTCTTCCGATCTN注:下游引物為混合物,N代表針對(duì)不同的位點(diǎn)設(shè)計(jì)的不同特異性引物,具體的N部分序列見表8。表8放入PCR儀,按下表9設(shè)置程序反應(yīng)。表9反應(yīng)結(jié)束后,采用1.2×的AMPureXP磁珠對(duì)擴(kuò)增產(chǎn)物進(jìn)行純化,最后將文庫(kù)溶于25ulNF-water(Ambion公司)中。6.文庫(kù)的富集及引入index序列采用含有Illumina的index引物對(duì)上一步的文庫(kù)進(jìn)行擴(kuò)增,同時(shí)引入index序列在上機(jī)時(shí)區(qū)分文庫(kù),在本實(shí)施例中,采用的index序列為1號(hào),按照下表10配制反應(yīng)液。表10上下游引物序列見表11。表11引物名稱序列(5’-3’)SEQIDNO.48AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACASEQIDNO.49CAAGCAGAAGACGGCATACGAGATCGTGATGTGACTGGAGTTCA放入PCR儀,按下表12設(shè)置程序反應(yīng)。表12反應(yīng)結(jié)束后,采用1.2×的AMPureXP磁珠對(duì)擴(kuò)增產(chǎn)物進(jìn)行純化,最后將文庫(kù)溶于30ulNF-water中。采用Qubit熒光計(jì)對(duì)文庫(kù)進(jìn)行精確定量。7.文庫(kù)檢測(cè)及上機(jī)測(cè)序?qū)⒉襟E6中的純化產(chǎn)物稀釋到2ng/ul,取出1ul進(jìn)行安捷倫2100Bioanalyzer(美國(guó)安捷倫公司)檢測(cè);另外,再取出1ul用于qPCR檢測(cè),根據(jù)檢測(cè)結(jié)果決定上機(jī)濃度。根據(jù)上步所得的濃度,將文庫(kù)稀釋到上機(jī)要求后(2nmol),在Illumina公司的HiseqX測(cè)序平臺(tái)上進(jìn)行PE150測(cè)序。8.下機(jī)質(zhì)控要求總數(shù)據(jù)量大于2G,目標(biāo)區(qū)域數(shù)據(jù)占比大于80%,平均測(cè)序深度50000X以上。合并相同標(biāo)簽序列時(shí)平均同一標(biāo)簽支持?jǐn)?shù)8個(gè)reads以上。合并后平均測(cè)序深度3000X以上,所有目標(biāo)區(qū)域測(cè)序深度大于2000X的在90%以上,實(shí)施例中的樣本質(zhì)控?cái)?shù)據(jù)見表13。表139.突變分析質(zhì)控合格的數(shù)據(jù)進(jìn)入變異檢測(cè)分析,對(duì)做好標(biāo)記的序列采用samtools軟件進(jìn)行突變的檢測(cè),并且根據(jù)聚類好的標(biāo)簽序列進(jìn)行計(jì)數(shù),在同一標(biāo)簽中支持突變的reads占80%以上就計(jì)數(shù)。所有標(biāo)簽在同一個(gè)突變出現(xiàn)2次就算作陽(yáng)性檢出。合并點(diǎn)突變檢出結(jié)果,并且使用annovar軟件進(jìn)行注釋,得到氨基酸水平突變注釋。對(duì)比數(shù)據(jù)庫(kù)找到癌癥靶向用藥相關(guān)檢測(cè)結(jié)果。本實(shí)施例中的檢測(cè)結(jié)果,WHX樣本的突變位點(diǎn)檢出情況見表14。表1410.數(shù)字PCR對(duì)檢測(cè)結(jié)果的驗(yàn)證對(duì)于檢測(cè)到的低頻位點(diǎn),EGFRp.T790M,為了證明該方法檢測(cè)的準(zhǔn)確性,采用目前公認(rèn)的靈敏度最高的檢測(cè)方法,數(shù)字PCR來(lái)進(jìn)行驗(yàn)證。驗(yàn)證的結(jié)果為帶有0.15%頻率的EGFR:p.T790M陽(yáng)性突變,這與本發(fā)明提供的方法的檢測(cè)結(jié)果十分一致。圖3和圖4所示為采用實(shí)施例1中的方法未加隨機(jī)標(biāo)簽序列和添加標(biāo)簽序列對(duì)同一個(gè)正常人的cfDNA樣本進(jìn)行檢測(cè)的背景噪音圖。在正常人的樣本中,我們默認(rèn)是不會(huì)有很多0.5%以下的突變。如圖3所示,對(duì)于未加隨機(jī)標(biāo)簽序列的實(shí)驗(yàn)而言,檢測(cè)到非常多的0.5%突變頻率以下的突變位點(diǎn)。而添加標(biāo)簽序列后,如圖4所示,0.2%突變頻率的位點(diǎn)僅有少數(shù)。從單核苷酸突變頻率上來(lái)看,未加隨機(jī)標(biāo)簽序列的實(shí)驗(yàn),單核苷酸的突變率達(dá)到了2.7*10-4,本發(fā)明提供的方法單核苷酸的突變率僅有4.3*10-6,更加接近文章中報(bào)道的正常人的突變率(3.0*10-6)?,F(xiàn)有的技術(shù)對(duì)于檢測(cè)超低頻(突變頻率0.5%以下)突變沒(méi)有十分好的辦法,通常會(huì)采用加大測(cè)序數(shù)據(jù)量,從而增加突變的reads支持?jǐn)?shù)來(lái)判定真陽(yáng)性和假陽(yáng)性,由于ctDNA的含量極低,這種方式會(huì)造成數(shù)據(jù)量的大量浪費(fèi),同時(shí)對(duì)于頻率在0.5%以下的突變位點(diǎn)并不能很好的進(jìn)行區(qū)分。另一種方法是根據(jù)分子內(nèi)源性“標(biāo)簽”來(lái)校正背景噪音,但是由于內(nèi)源性的分子“標(biāo)簽”有限,導(dǎo)致假陰性率較高。本發(fā)明提供的方法通過(guò)添加外源性的分子“標(biāo)簽”,經(jīng)過(guò)聚類分析排除掉PCR引入的錯(cuò)誤以及測(cè)序錯(cuò)誤,從而有效地去除掉背景噪音,使得檢測(cè)0.1%左右的突變的準(zhǔn)確性大大提高。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對(duì)于本領(lǐng)域的技術(shù)人員來(lái)說(shuō),本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。SEQUENCELISTING<110>天津諾禾醫(yī)學(xué)檢驗(yàn)所有限公司<120>ctDNA超低頻突變檢測(cè)文庫(kù)的構(gòu)建方法、試劑盒及文庫(kù)檢測(cè)數(shù)據(jù)的分析方法<130>PN58854NHZY<160>49<170>PatentInversion3.5<210>1<211>46<212>DNA<213>artificial<220><223>含有隨機(jī)標(biāo)簽序列的接頭<220><221>misc_feature<222>(34)..(45)<223>nisa,c,g,ort<400>1tctacactctttccctacacgctcttccgatctnnnnnnnnnnnnt46<210>2<211>46<212>DNA<213>artificial<220><223>含有隨機(jī)標(biāo)簽序列的接頭<220><221>misc_feature<222>(35)..(46)<223>nisa,c,g,ort<400>2cactgacctcaagtctgcacacgagaaggctagannnnnnnnnnnn46<210>3<211>26<212>DNA<213>artificial<220><223>用于多重PCR擴(kuò)增的上游引物<400>3tctacactctttccctacacgacgct26<210>4<211>30<212>DNA<213>artificial<220><223>用于多重PCR擴(kuò)增的下游引物<220><221>misc_feature<223>N代表針對(duì)不同的位點(diǎn)設(shè)計(jì)的不同特異性引物<220><221>misc_feature<222>(30)..(30)<223>nisa,c,g,ort<400>4ggagttcagaccgtgtgctcttccgatctn30<210>5<211>24<212>DNA<213>artificial<220><223>NRAS_1R<400>5cacccccaggattcttacagaaaa24<210>6<211>23<212>DNA<213>artificial<220><223>NRAS_2R<400>6caagtgtgatttgccaacaagga23<210>7<211>24<212>DNA<213>artificial<220><223>NRAS_3R<400>7gttcttgctggtgtgaaatgactg24<210>8<211>26<212>DNA<213>artificial<220><223>PIK3CA_1R<400>8agaaaaccattacttgtccatcgtct26<210>9<211>25<212>DNA<213>artificial<220><223>PIK3CA_2R<400>9gcacttacctgtgactccatagaaa25<210>10<211>27<212>DNA<213>artificial<220><223>PIK3CA_3R<400>10cataagagagaaggtttgactgccata27<210>11<211>27<212>DNA<213>artificial<220><223>PIK3CA_4R<400>11caaacaagtttatatttccccatgcca27<210>12<211>24<212>DNA<213>artificial<220><223>PIK3CA_5R<400>12tgctgttcatggattgtgcaattc24<210>13<211>28<212>DNA<213>PIK3CA_6R<400>13agcatcagcatttgactttaccttatca28<210>14<211>28<212>DNA<213>artificial<220><223>PIK3CA_7R<400>14gtggaagatccaatccatttttgttgtc28<210>15<211>22<212>DNA<213>artificial<220><223>PIK3CA_8R<400>15ggttgaaaaagccgaaggtcac22<210>16<211>33<212>DNA<213>artificial<220><223>PIK3CA_9R<400>16tttaagattacgaaggtattggtttagacagaa33<210>17<211>28<212>DNA<213>artificial<220><223>PIK3CA_10R<400>17tcaatcagcggtataatcaggagttttt28<210>18<211>28<212>DNA<213>artificial<220><223>PIK3CA_11R<400>18ccttttgtgtttcatccttcttctcctg28<210>19<211>28<212>DNA<213>artificial<220><223>EGFR_1R<400>19tcagtccggttttatttgcatcatagtt28<210>20<211>23<212>DNA<213>artificial<220><223>EGFR_2R<400>20gtgccagggaccttaccttatac23<210>21<211>22<212>DNA<213>artificial<220><223>EGFR_3R<400>21tccagaccagggtgttgttttc22<210>22<211>20<212>DNA<213>artificial<220><223>EGFR_4R<400>22cggacatagtccaggaggca20<210>23<211>21<212>DNA<213>artificial<220><223>EGFR_5R<400>23ccccatggcaaactcttgcta21<210>24<211>26<212>DNA<213>artificial<220><223>EGFR_6R<400>24gcatgtgttaaacaatacagctagtg26<210>25<211>20<212>DNA<213>artificial<220><223>EGFR_7R<400>25ctgaggttcagagccatgga20<210>26<211>25<212>DNA<213>artificial<220><223>EGFR_8R<400>26cccaaagactctccaagatgggata25<210>27<211>23<212>DNA<213>artificial<220><223>MET_1R<400>27agaagttgatgaaccggtccttt23<210>28<211>27<212>DNA<213>artificial<220><223>MET_2R<400>28tctgacttggtggtaaacttttgagtt27<210>29<211>27<212>DNA<213>artificial<220><223>MET_3R<400>29gcaaaccacaaaagtatactccatggt27<210>30<211>27<212>DNA<213>artificial<220><223>MET_4R<400>30ggagacatctcacattgtttttgttga27<210>31<211>29<212>DNA<213>artificial<220><223>MET_5R<400>31cggtagtctacagattcatttgaaaccat29<210>32<211>27<212>DNA<213>artificial<220><223>MET_6R<400>32gcttttcaaaaggcttaaacacaggat27<210>33<211>23<212>DNA<213>artificial<220><223>MET_7R<400>33aggccccatacaatttgatgaca23<210>34<211>21<212>DNA<213>artificial<220><223>RET_1R<400>34ccttgttgggacctcagatgt21<210>35<211>26<212>DNA<213>artificial<220><223>RET_2R<400>35actttgcgtggtgtagatatgatcaa26<210>36<211>21<212>DNA<213>artificial<220><223>RET_3R<400>36gtggtagcagtggatgcagaa21<210>37<211>18<212>DNA<213>artificial<220><223>RET_4R<400>37ccatggtgcacctgggat18<210>38<211>22<212>DNA<213>artificial<220><223>ERBB2_1R<400>38gccatagggcataagctgtgtc22<210>39<211>23<212>DNA<213>artificial<220><223>ERBB2_2R<400>39ccttggtccttcacctaaccttg23<210>40<211>23<212>DNA<213>artificial<220><223>ERBB2_3R<400>40gtcatatctccccaaaccccaat23<210>41<211>21<212>DNA<213>artificial<220><223>ALK_1R<400>41ggaagagtggccaagattgga21<210>42<211>22<212>DNA<213>artificial<220><223>ALK_2R<400>42gcccagactcagctcagttaat22<210>43<211>29<212>DNA<213>artificial<220><223>KRAS_1R<400>43gtaaaaggtgcactgtaataatccagact29<210>44<211>27<212>DNA<213>artificial<220><223>KRAS_2R<400>44gactctgaagatgtacctatggtccta27<210>45<211>27<212>DNA<213>artificial<220><223>KRAS_3R<400>45aggcctgctgaaaatgactgaatataa27<210>46<211>27<212>DNA<213>artificial<220><223>BRAF_1R<400>46tttctttttctgtttggcttgacttga27<210>47<211>28<212>DNA<213>artificial<220><223>BRAF_2R<400>47gcttgctctgataggaaaatgagatcta28<210>48<211>41<212>DNA<213>artificial<220><223>引入index序列的上游引物<400>48aatgatacggcgaccaccgagatctacactctttccctaca41<210>49<211>44<212>DNA<213>artificial<220><223>引入index序列的下游引物<400>49caagcagaagacggcatacgagatcgtgatgtgactggagttca44當(dāng)前第1頁(yè)1 2 3