一種脫落細(xì)胞dna低頻突變富集測(cè)序方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于生物信息學(xué)高通量測(cè)序技術(shù)領(lǐng)域,具體涉及一種脫落細(xì)胞DNA低頻突 變富集測(cè)序方法。
【背景技術(shù)】
[0002] 脫落細(xì)胞是指自然管腔器官內(nèi)表面粘膜正常情況下,人體器官粘膜上皮細(xì)胞經(jīng)常 有脫落更新,一般分為3大類:鼻咽部、口腔、食腸管、陰道等的自然脫落細(xì)胞以及部分人工 刷洗所得細(xì)胞;體腔抽出液(胸腔積液,腦脊液,心包腔積液等);針吸細(xì)胞。由于其具有安 全性,設(shè)備操作簡(jiǎn)便性,以及基于其組織病理特性,逐漸發(fā)展出一門新興學(xué)科,脫落細(xì)胞病 理學(xué),廣泛應(yīng)用于相關(guān)腫瘤早篩檢測(cè)診斷中。但傳統(tǒng)檢測(cè)存在一定的誤診率,約有10-40% 假陰性,主要原因一方面是由于細(xì)胞學(xué)檢查局限性,只看單個(gè)或一小堆細(xì)胞,不能全面觀察 病變組織結(jié)構(gòu)。另一方面脫落細(xì)胞學(xué)診斷難度較大,需要有經(jīng)驗(yàn)的醫(yī)生復(fù)驗(yàn)。遇到可疑或 無把握病例應(yīng)重復(fù)取材,需仔細(xì)觀察。此外整體的傳統(tǒng)臨床檢測(cè)診斷過程依然費(fèi)時(shí),費(fèi)力, 急需要一種更高精準(zhǔn)實(shí)用性的檢測(cè)手段。
[0003] 目前隨著分子生物學(xué)以及測(cè)序技術(shù)的飛速發(fā)展,基于高通量測(cè)序技術(shù)的脫落細(xì)胞 檢測(cè)正逐步走入臨床,尤其是基于宮頸脫落細(xì)胞的HPV分型的高通量測(cè)序技術(shù)以其簡(jiǎn)便, 快速,高通量,高準(zhǔn)確性等特點(diǎn),正逐步取代傳統(tǒng)的宮頸巴氏涂片法,但是目前常規(guī)測(cè)序技 術(shù)本身存在有一定的錯(cuò)誤率,且由于個(gè)體差異,腫瘤發(fā)生發(fā)展時(shí)期,取材操作等原因,脫落 細(xì)胞中的腫瘤細(xì)胞豐度往往存在很大波動(dòng),甚至〇. 1 %左右的低豐度水平,從而導(dǎo)致基于常 規(guī)測(cè)序技術(shù)仍然存在一定的假陰性以及假陽(yáng)性。因此亟需一種準(zhǔn)確率高、操作簡(jiǎn)便的測(cè)序 技術(shù)用于脫落細(xì)胞DNA的檢測(cè),為疾病的早期篩查提供可信賴的檢測(cè)手段。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種脫落細(xì)胞DNA低頻突變富集測(cè)序方法以克服現(xiàn)有技術(shù)的不足。
[0005] 本發(fā)明提供的一種脫落細(xì)胞DNA低頻突變富集測(cè)序方法,包括以下步驟:
[0006] (1)脫落細(xì)胞的DNA提取與打斷;
[0007] (2)打斷后的脫落細(xì)胞DNA文庫(kù)構(gòu)建;
[0008] (3)通用文庫(kù)TT-COLD PCR擴(kuò)增富集;
[0009] (4)探針富集捕獲、雜交捕獲產(chǎn)物的擴(kuò)增與上機(jī)測(cè)序;
[0010] (5)正反雙鏈糾錯(cuò)低頻信息分析。
[0011] 本發(fā)明方法的流程圖見圖1。
[0012] 其中,步驟(1)所述的脫落細(xì)胞來自人類,步驟(2)的文庫(kù)構(gòu)建方法按照3步酶促 反應(yīng),即末端修復(fù),加"A"和文庫(kù)接頭連接。
[0013] 文庫(kù)接頭使用的引物為:
[0014] 接頭第一鏈:TACACTCTITCCCTACACGACGCTCTTCCGATCT,
[0015] 接頭第二鏈:GATCGGAAGAGCACACGTCTGAACTCCAGTCAC。
[0016] 本發(fā)明方法中,步驟(3)通用文庫(kù)TT-COLD PCR擴(kuò)增富集包括以下步驟:
[0017] 1)確定文庫(kù)的Tm值;
[0018] 2)繞過每個(gè)插入片段存在的特異Tc值,基于1對(duì)通用引物,在1個(gè)系列的循環(huán)條 件下,對(duì)文庫(kù)中所有片段上的各種突變類型進(jìn)行富集;設(shè)定Tc min~TM-2. 5,之后Tc以 0.5°C逐步遞增,在每個(gè)Tc條件下分別進(jìn)行FULL COLD PCR;所述插入片段是指文庫(kù)中與接 頭連接的DNA片段。
[0019] 進(jìn)一步地,文庫(kù)Tm值通過以下方法來確定,對(duì)正常人脫落細(xì)胞DNA的文庫(kù)采用一 對(duì)引物使用熒光定量PCR,根據(jù)溶解曲線分析獲得文庫(kù)Tm值;所述引物的序列為:
[0020] 上游引物:
[0021] AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT,
[0022] 下游引物:
[0023] CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT,其 中 xxxxxxxx 為 index 標(biāo)簽。
[0024] 上述步驟2)中,所述1對(duì)通用引物為通用文庫(kù)TT-COLDPCR引物,其核苷酸序列 為:
[0025] 上游引物:
[0026] AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT,
[0027] 下游引物:
[0028] CAAGCAGAAGACGGCATACGAGATxxxxxxxxGTGACTGGAGTTCAGACGTGTGCTCTTCCGATCT,其 中 xxxxxxxx 為 index 標(biāo)簽。
[0029] 上述步驟2)中,所述1個(gè)系列循環(huán)條件為:
[0030]
[0031]
[0032] 本發(fā)明方法中,步驟(4)所述探針富集捕獲是將擴(kuò)增后的文庫(kù)質(zhì)控合格后,采用 富集探針芯片進(jìn)行雜交捕獲,并對(duì)雜交捕獲產(chǎn)物進(jìn)行PCR擴(kuò)增,然后進(jìn)行上機(jī)測(cè)序;
[0033] 富集探針芯片的設(shè)計(jì)方法為:基于目的基因的用途確定芯片捕獲區(qū)間,參考目標(biāo) DNA所屬的數(shù)據(jù)庫(kù),在一定堿基范圍內(nèi),確定至少1個(gè)最重要的熱點(diǎn)變異位點(diǎn),同時(shí)針對(duì)該 位點(diǎn)存在的多種突變類型,以幾種主要類型作為參考,基于相應(yīng)的發(fā)生頻率作為其在該位 點(diǎn)總探針覆蓋水平所占的比例;針對(duì)熱點(diǎn)變異,將基于人基因組參考序列hgl9設(shè)計(jì)的探針 替換為基于突變堿基設(shè)計(jì)的探針,其他位點(diǎn)探針不變,同時(shí)熱點(diǎn)變異探針總覆蓋度與其他 區(qū)域正常探針覆蓋度的差異比例不少于3 :1,從而實(shí)現(xiàn)捕獲時(shí)對(duì)熱點(diǎn)變異的富集。
[0034] 本發(fā)明方法中,步驟(5)正反雙鏈糾錯(cuò)低頻信息分析(RealSeq Pipeline)具體方 法為:
[0035] 1)基于測(cè)序結(jié)果,截取成對(duì)測(cè)序序列中的測(cè)序序列一的前12bp堿基和測(cè)序序列 二的前12bp堿基作為標(biāo)簽,且根據(jù)字母序排列以較小的標(biāo)簽在前連接成24bp的一條索引, 同時(shí)根據(jù)標(biāo)簽的排列組合方式,選定正鏈和反鏈
[0036] 2)對(duì)索引進(jìn)行外部排序,以達(dá)到將同一個(gè)DNA模板的所有測(cè)序重復(fù)測(cè)序序列聚集 到一起的目的;
[0037] 3)對(duì)聚集起來的擁有相同索引的測(cè)序序列進(jìn)行中心聚類,根據(jù)其序列之間的漢明 距離,將每個(gè)有相同索引的大簇聚集成若干個(gè)小簇,每個(gè)小簇中任意兩對(duì)成對(duì)測(cè)序序列的 漢明距離不超過10,以達(dá)到區(qū)分開擁有相同索引卻來自不同DNA模板的測(cè)序序列的目的;
[0038] 4)對(duì)步驟3)中獲得的同一個(gè)DNA模板的重復(fù)簇進(jìn)行篩選,若正鏈和反鏈的測(cè)序序 列數(shù)都達(dá)到2對(duì)以上,則進(jìn)行后續(xù)分析;
[0039] 5)對(duì)滿足4)中條件的簇進(jìn)行糾錯(cuò),并產(chǎn)生一對(duì)無錯(cuò)的新測(cè)序序列.對(duì)于DNA模板 的每一個(gè)測(cè)序堿基,若某種堿基型在正鏈的測(cè)序序列中的一致率達(dá)到80%,且在反鏈測(cè)序 序列中的一致率也達(dá)到80 %,則記新測(cè)序序列的這個(gè)堿基為此堿基型,否則記為N,這樣便 得到了代表原始DNA模板序列的新測(cè)序序列;
[0040] 6)將新測(cè)序序列用bwa mem算法重新比對(duì)到基因組上,篩除比對(duì)質(zhì)量小于30的測(cè) 序序列;
[0041] 7)根據(jù)6)中得到的測(cè)序序列進(jìn)行統(tǒng)計(jì),得到捕獲區(qū)域內(nèi)每個(gè)位點(diǎn)的堿基型分布, 統(tǒng)計(jì)目標(biāo)區(qū)域覆蓋大小、平均測(cè)序深度,正反鏈互配率,低頻突變率;
[0042] 8)Call SNV/InDel/SV/CNV :根據(jù)患者樣品與對(duì)照樣品信息的比對(duì),用mutect流 程 call somatic SNV 變異;用 gatk 流程 call somatic InDel 變異;用 contra, py 流程 call CNV ;用 somVar 流程 call SV ;
[0043] 所使用的篩選參數(shù)為:對(duì)照位點(diǎn)變異率< 2% ;糾錯(cuò)后變異測(cè)序序列條數(shù)多2 ;突 變預(yù)測(cè)P值< 〇. 05 ;
[0044] 9)變異注釋:注釋變異的功能、變異測(cè)序序列支持?jǐn)?shù)、變異頻率、氨基酸變異及已 有變異數(shù)據(jù)庫(kù)中的該變異的情況。
[0045] 進(jìn)一步地,上述步驟1)中,基于插入片段兩端的序列堿基作為標(biāo)簽,所述插入片 段是文庫(kù)中與接頭引物相連接的DNA片段,經(jīng)雙末端測(cè)序,每個(gè)片段將形成一對(duì)成對(duì)測(cè)序 序列;將成對(duì)測(cè)序序列的測(cè)序序列1的如12bp喊基和測(cè)序序列2的如12bp喊基作為標(biāo)簽, 字母序排列以較小的標(biāo)簽在前連接成24bp的一條索引,并且以這24bp作為成對(duì)測(cè)序序列 的索引,測(cè)序序列1的標(biāo)簽在前就標(biāo)記成正鏈;測(cè)序序列2的標(biāo)簽在前就標(biāo)記為反鏈。
[0046] 本發(fā)明提供了 一種脫落細(xì)胞DNA低頻突變富集測(cè)序試劑盒,其含有富集探針芯 片,所述芯片上探針是將基于人基因組參考序列hgl9設(shè)計(jì)的探針替換為基于突變堿基設(shè) 計(jì)的探針,其他位點(diǎn)探針不變,且熱點(diǎn)變異探針總覆蓋度與其他區(qū)域正常探針覆蓋度的差 異至少為3:1 ;
[0047] 基于目標(biāo)DNA突變堿基設(shè)計(jì)探針的原則為:基于目的基因的用途確定芯片捕獲區(qū) 間,參考目標(biāo)DNA所屬的數(shù)據(jù)庫(kù),在一定堿基范圍內(nèi),確定至少1個(gè)最重要的熱點(diǎn)變異位點(diǎn), 同時(shí)針對(duì)該位點(diǎn)存在的多種突變類型,以幾種主要類型作為參考,基于相應(yīng)的發(fā)生頻率作 為其在該位點(diǎn)總探針覆蓋水平所占的比例。
[0048] 本發(fā)明提供了一種脫落細(xì)胞DNA低頻突變富集測(cè)序系統(tǒng),包括以下操作單元:
[0049] (1)脫落細(xì)胞DNA提取與DNA打斷單元;
[0050] ⑵脫落細(xì)胞DNA文庫(kù)構(gòu)建單元;
[0051] (3)通用文庫(kù)TT-COLD PCR擴(kuò)增富集單元;
[0052](4)探針富集捕獲單元、雜交捕獲產(chǎn)物的擴(kuò)增與上機(jī)測(cè)序單元;
[0053] (5)正反雙鏈糾錯(cuò)低頻信息分析單元。
[0054] 其中,操作單元(1)血漿ctDNA的提取與文庫(kù)構(gòu)建具體操作為:抽取早期患者外周 血5-10mL,常溫或4°C存于EDTA抗凝管中,在4-6小時(shí)內(nèi)對(duì)外周血進(jìn)行分離,得到血漿和白 細(xì)胞,白細(xì)胞提取的DN