單核苷酸多態(tài)性的檢測(cè)方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及基因組學(xué)及生物信息學(xué)技術(shù)領(lǐng)域,具體涉及一種單核苷酸多態(tài)性的檢 測(cè)方法及裝置。
【背景技術(shù)】
[0002] 隨著測(cè)序技術(shù)的發(fā)展,高通量測(cè)序技術(shù)被廣泛的應(yīng)用到生命科學(xué)的各個(gè) 領(lǐng)域,高通量測(cè)序技術(shù)(High-throughput sequencing)又稱(chēng)"下一代"測(cè)序技術(shù) (〃Next_generation〃sequencing technology),能一次并行對(duì)幾十萬(wàn)到幾百萬(wàn)條脫氧核糖 核酸(DNA,Deoxyribonucleic acid)分子進(jìn)行序列測(cè)定和一般讀長(zhǎng)(reads)較短等為標(biāo) 志,亦能用于核糖核酸(RNA,Ribonucleic Acid)測(cè)序(RNA-seq,RNA sequencing)。目前 高通量測(cè)序平臺(tái)有多種,包括 Illumina Solexa/Hiseq、Roche454、Life Technologies ABI SOLiD/Ion Torren,PacBio、Helicos單分子測(cè)序平臺(tái)以及納米孔測(cè)序平臺(tái)等。不同測(cè)序平 臺(tái)的測(cè)序原理有所不同,但步驟基本包括文庫(kù)制備,測(cè)序等。
[0003] 對(duì)測(cè)序數(shù)據(jù)的處理分析包括變異的識(shí)別檢測(cè),根據(jù)結(jié)構(gòu)的大小,變異可分為單 核苷酸多態(tài)性(single nucleotide polymorphism,SNP)、插入缺失(indel)、拷貝數(shù)變異 (cope number variants, CNVs)、重復(fù)、倒置、平衡/非平衡易位和染色體非整倍性等多種 類(lèi)型。SNP是指單個(gè)核苷酸變異,是人類(lèi)可遺傳變異中最常見(jiàn)的一種,包括置換、顛換、缺失 和插入,理論上每一個(gè)SNP位點(diǎn)都可以有4種不同的變異形式,但實(shí)際發(fā)生的只有轉(zhuǎn)換和顛 換。SNP在基因組中分布相當(dāng)廣泛,譬如在人類(lèi)基因組中約每1000堿基就出現(xiàn)一次。研究 表明,SNP可能與個(gè)體表型差異、對(duì)藥物或疾病的易感性等等相關(guān)。目前的高通量測(cè)序中, 在連續(xù)相同堿基處容易發(fā)生測(cè)序錯(cuò)誤。譬如Ion Proton測(cè)序平臺(tái),其測(cè)序原理是當(dāng)DNA聚 合酶把核苷酸聚合到延伸的DNA鏈上時(shí),會(huì)釋放出一個(gè)氫離子導(dǎo)致反應(yīng)池中的pH發(fā)生改 變,位于池下的離子感受器感受到信號(hào),再把化學(xué)信號(hào)直接轉(zhuǎn)化為數(shù)字信號(hào),從而讀出DNA 序列;對(duì)于連續(xù)η個(gè)相同堿基,則DNA聚合酶將連續(xù)η核苷酸結(jié)合的時(shí)候,釋放出來(lái)的H+離 子信號(hào)強(qiáng)度并不是結(jié)合單個(gè)核苷酸的釋放出來(lái)的完整的η倍,在測(cè)讀連續(xù)堿基時(shí)易發(fā)生錯(cuò) 誤,對(duì)后續(xù)變異檢測(cè)的準(zhǔn)確性造成影響。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種SNP的檢測(cè)方法及裝置,以提高測(cè)序分析結(jié)果的準(zhǔn)確率。
[0005] 依據(jù)本發(fā)明的一方面提供一種SNP的檢測(cè)方法,其特征在于,
[0006] 獲取含有核酸序列信息的讀段序列;
[0007] 將讀段序列與參考序列進(jìn)行比對(duì),獲取比對(duì)上的讀段序列;
[0008] 將比對(duì)上的讀段序列按照5'端比對(duì)位置劃分為不同的冗余讀段序列組;
[0009] 對(duì)不同冗余讀段序列組中的每個(gè)冗余讀段序列組中的每個(gè)讀段序列進(jìn)行計(jì)分,依 據(jù)讀段序列的得分從一個(gè)冗余讀段序列組中得到一個(gè)代表讀段序列組;
[0010] 判斷代表讀段序列組是否存在支持假陰性單核苷酸多態(tài)性SNP的讀段序列,
[0011] 若判斷結(jié)果為是,則從代表讀段序列組中去除支持假陰性SNP的代表讀段序列, 獲得不支持假陰性SNP的代表讀段序列組;若判斷結(jié)果為否,則代表讀段序列組為不支持 假陰性SNP的代表讀段序列組;
[0012] 依據(jù)不支持假陰性SNP的代表讀段序列組進(jìn)行SNP檢測(cè)。
[0013] 依據(jù)本發(fā)明的另一方面提供一種SNP的檢測(cè)裝置,包括:數(shù)據(jù)輸入單元,用于輸入 數(shù)據(jù);數(shù)據(jù)輸出單元,用于輸出數(shù)據(jù);存儲(chǔ)單元,用于存儲(chǔ)數(shù)據(jù),其中包括可執(zhí)行的程序;處 理器,與數(shù)據(jù)輸入單元、數(shù)據(jù)輸出單元及存儲(chǔ)單元數(shù)據(jù)連接,用于執(zhí)行存儲(chǔ)單元中存儲(chǔ)的可 執(zhí)行的程序,該程序的執(zhí)行包括完成上述SNP的檢測(cè)方法。
[0014] 本發(fā)明的有益效果是:通過(guò)判斷堿基是否存在假陰性SNP以去除假陽(yáng)性SNP,從而 提高測(cè)序分析結(jié)果準(zhǔn)確率。
【附圖說(shuō)明】
[0015] 圖1為本發(fā)明實(shí)施例一的高通量測(cè)序流程圖;
[0016] 圖2為本發(fā)明實(shí)施例一的流程圖;
[0017] 圖3為本發(fā)明實(shí)施例二的流程圖。
【具體實(shí)施方式】
[0018] 下面通過(guò)【具體實(shí)施方式】結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
[0019] 現(xiàn)有的高通量測(cè)序平臺(tái)有多種,包括Roche454,Ion PGM和Ion Proton等。本發(fā) 明中的實(shí)施例以Ion Proton測(cè)序平臺(tái)作說(shuō)明。本發(fā)明提供的方法適用于DNA或RNA的SNP 檢測(cè),因此將分別以實(shí)施例作闡述。實(shí)施例中樣本DNA或RNA的提取、構(gòu)建文庫(kù)等均可利用 現(xiàn)有技術(shù)進(jìn)行,測(cè)序文庫(kù)構(gòu)建步驟一般包括打斷、末端修復(fù)、加 proton接頭、擴(kuò)增等,請(qǐng)參 考圖1,RNA樣本的文庫(kù)構(gòu)建一般還包括將RNA反轉(zhuǎn)錄為DNA來(lái)進(jìn)行文庫(kù)構(gòu)建,測(cè)序步驟及 參數(shù)可以根據(jù)測(cè)序平臺(tái)、樣本種類(lèi)等有所調(diào)整,不構(gòu)成對(duì)本發(fā)明的限制。實(shí)施例中未注明具 體條件的,按照常規(guī)條件或制造商建議的條件進(jìn)行;所用試劑或儀器未注明生產(chǎn)廠(chǎng)商的,均 為可以通過(guò)市面購(gòu)買(mǎi)獲得的常規(guī)產(chǎn)品。
[0020] 實(shí)施例一:
[0021] 本實(shí)施例采用RNA樣本構(gòu)建文庫(kù)。RNA樣本使用人組織混合液RNA的微陣列 質(zhì)量控制標(biāo)準(zhǔn)品(UHRR-MAQC,Universal Human Reference RNA-MicroArray Quality Control)和人腦混合液RNA微陣列質(zhì)量控制標(biāo)準(zhǔn)品(HBRR-MAQC,Human Brain Reference RNA-MicroArray Quality Control),其中 UHRR-MAQC 標(biāo)準(zhǔn)品米購(gòu)自安捷倫公司(Agilent Technologies, Inc. ),HBRR-MAQC購(gòu)自Ambion公司。在其他【具體實(shí)施方式】中,亦可以使用 其他種類(lèi)的RNA標(biāo)準(zhǔn)品,或是采購(gòu)自其他公司所生產(chǎn)的RNA標(biāo)準(zhǔn)品,對(duì)本發(fā)明不構(gòu)成限制。
[0022] 本實(shí)施例構(gòu)建文庫(kù)的過(guò)程如下:取總RNA樣品,用DEPCXdiethyl pyrocarbonate, 焦碳酸二乙酯)水稀釋?zhuān)靹颍?5°C變性,使用dT (Dynalbeads 01igo)25·珠將總RNA中的 信使RNA(mRNA)調(diào)取出來(lái)并純化;將所得mRNA與打斷試劑混合得到打斷的mRNA,再與試劑 I混合進(jìn)行一鏈合成反應(yīng);將一鏈合成反應(yīng)后的體系與試劑II混合,進(jìn)行二鏈合成反應(yīng),反 應(yīng)完成后,用Ampure XP磁珠純化二鏈產(chǎn)物;所得二鏈產(chǎn)物與試劑III混合進(jìn)行末端修復(fù), 并用Ampure XP磁珠純化末端修復(fù)產(chǎn)物;所得末端修復(fù)產(chǎn)物與試劑IV混合進(jìn)行加接頭,并 用Ampure XP磁珠純化加接頭產(chǎn)物;采用PCR儀擴(kuò)增,并用Ampure XP磁珠純化PCR產(chǎn)物, 獲得測(cè)序文庫(kù)。構(gòu)建轉(zhuǎn)錄本文庫(kù)或其它RNA文庫(kù)亦可利用現(xiàn)有方法,文庫(kù)構(gòu)建并不構(gòu)成本 發(fā)明的限制。
[0023] 試劑 I :0· 5 μ 1 的 IOOmM 二硫蘇糖(DTT,DL-Dithiothreitol)、0· 5 μ 1 的 IOmM 脫 氧核糖核苷三憐酸(dNTP Mix,deoxy-ribonucleoside triphosphate)、0·5μ1 的 RNases 抑制劑(RNase Inhibitor)。
[0024] 試劑 II :10μ I GEX Second Strand Buffer、2y IlOmM dNTP Mix,0· 2μ 1 逆轉(zhuǎn)錄 酶 RNaseH、2.5yl DNA 聚合酶 I (DNA Pol I)。
[0025] 試劑 III :5μ IlOX 末端修復(fù)緩沖液(End R印air Buffer)、0.4y 125mM dNTP Μ?χ、1·2μ1 T4DNA 聚合酶(T4DNA Polymerase)、0.2yl Klenow DNA 聚合酶(Klenow DNA Polymerase)、I. 2μ I T4 多聚核苷酸激酶(T4PNK)。
[0026] 試劑 IV :2 μ I T4DNA 連接酶(T4DNA Ligase)、2 μ I proton Adapter Oligo Mix(12um),25μ 12X Rapid T4DNA Ligase Buffer0
[0027] 利用Agilent2100質(zhì)檢構(gòu)建得的文庫(kù),上機(jī)測(cè)序,獲得測(cè)序序列,即獲得讀段序列 (reads)。
[0028] 請(qǐng)參考圖2,本實(shí)施例提供的SNP檢測(cè)方法的實(shí)現(xiàn)流程具體包括:
[0029] SlOO :獲取含有核酸序列信息的讀段序列reads
[0030] SlOl :將讀段序列與參考序列進(jìn)行比對(duì),獲取比對(duì)上的讀段序列
[0031] 本實(shí)施例中利用reads與參考基因進(jìn)行比對(duì),從而提高比對(duì)準(zhǔn)確性及比對(duì)效率。 對(duì)于真核生物,基因是由基因組中的外顯子拼接而成,而測(cè)序平臺(tái)測(cè)出來(lái)的是拼接之后的 序列,直接和參考基因進(jìn)行比對(duì)可以較為直接、準(zhǔn)確。另外,在輸出比對(duì)結(jié)果時(shí),本實(shí)施例是 輸出所有的匹配結(jié)果,而不是一般地只輸出唯一匹配的reads。一個(gè)基因包括多個(gè)轉(zhuǎn)錄本, 很多轉(zhuǎn)錄本是來(lái)自外顯子的不同組合方式,所以有些轉(zhuǎn)錄本會(huì)有許多同源序列,所以有許 多序列會(huì)比對(duì)到多個(gè)轉(zhuǎn)錄本上,因此保留所有這些堿基序列,用來(lái)判斷這