利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法
【專利摘要】本發(fā)明提供的是一種利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法。1)利用半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度一致時(shí)的測(cè)得電壓值,計(jì)算堿基長(zhǎng)度已知時(shí)測(cè)得電壓值的先驗(yàn)概率分布;2)當(dāng)半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度不一致時(shí),對(duì)測(cè)序數(shù)據(jù)的堿基長(zhǎng)度進(jìn)行校正,利用下式計(jì)算測(cè)得電壓值已知時(shí),假定堿基長(zhǎng)度為l時(shí)的值Sl;取Sl最大時(shí)對(duì)應(yīng)的堿基長(zhǎng)度l,即為測(cè)得電壓值已知時(shí)被測(cè)堿基的堿基長(zhǎng)度,完成測(cè)序數(shù)據(jù)校正。本發(fā)明創(chuàng)新性地提出測(cè)得電壓值解算堿基長(zhǎng)度的過程中,在測(cè)得電壓值基礎(chǔ)上,引入?yún)⒖蓟蚪M信息,以實(shí)現(xiàn)對(duì)測(cè)序數(shù)據(jù)的校正。
【專利說明】
利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及的是一種分子生物信息檢測(cè)方法。具體是針對(duì)新一代半導(dǎo)體測(cè)序平臺(tái) 的測(cè)序數(shù)據(jù)校正方法。
【背景技術(shù)】
[0002] 隨著生物檢測(cè)技術(shù)的迅猛發(fā)展,11111111;[1^的301613、1^€6 3(^611068的454和4131的 SOLiD等第二代測(cè)序平臺(tái)逐漸被新一代測(cè)序平臺(tái)所取代。這包括Illumina的MiSeq、 NextSeq、HiSeq系列,ABI的Ion Torrent、Ion Proton、Ion PGM系列,以及Oxford Nanopore Technologies的MinlON等。盡管新一代測(cè)序平臺(tái)的推出使得生物信息檢測(cè)的深度更深、成 本更低、效率更高,但由于檢測(cè)原理不同,原有高通量測(cè)序數(shù)據(jù)的解讀方法將不得不作出相 應(yīng)改變。
[0003] 在新推出的新一代測(cè)序平臺(tái)中,ABI的Ion Torrent、Ion Proton、Ion PGM系列采 用了獨(dú)特的半導(dǎo)體測(cè)序技術(shù)。該技術(shù)利用半導(dǎo)體芯片進(jìn)行測(cè)序,擺脫了傳統(tǒng)技術(shù)中光學(xué)成 像裝置的限制,極大的提高了測(cè)序速度,縮減了測(cè)序成本,并使測(cè)序技術(shù)應(yīng)用于臨床成為可 能。
[0004] 半導(dǎo)體測(cè)序技術(shù)的測(cè)序原理是:在半導(dǎo)體芯片布滿油滴的微孔中放入富含待測(cè)序 堿基序列的微球,待測(cè)序堿基序列呈單鏈形態(tài)。一個(gè)檢測(cè)周期,向微孔中加入々、(:^^等四 種脫氧核糖核苷酸中的一種。當(dāng)加入的脫氧核糖核苷酸與待測(cè)序的堿基序列相匹配并發(fā)生 結(jié)合反應(yīng)時(shí),釋放出氫離子,導(dǎo)致溶液PH值發(fā)生變化。半導(dǎo)體芯片后端的傳感器將PH值轉(zhuǎn)變 為電壓信號(hào)輸出。依據(jù)所加的脫氧核糖核苷酸類型和輸出電壓信號(hào)的幅值,解讀出此次檢 測(cè)周期測(cè)得的堿基類型和堿基長(zhǎng)度。重復(fù)上述過程,即可完成整個(gè)測(cè)序。理論上,一個(gè)檢測(cè) 周期,被測(cè)堿基的堿基長(zhǎng)度為n時(shí),測(cè)序平臺(tái)應(yīng)輸出n伏電壓。但實(shí)際上,輸出電壓的幅值不 會(huì)正好是n伏,因此,如何依據(jù)輸出的電壓值準(zhǔn)確判定被測(cè)堿基的堿基長(zhǎng)度是半導(dǎo)體測(cè)序平 臺(tái)的一個(gè)關(guān)鍵技術(shù)問題。
[0005] 在實(shí)際應(yīng)用中,半導(dǎo)體測(cè)序平臺(tái)測(cè)序完成后,會(huì)自動(dòng)生成SFF和BAM兩個(gè)文件。SFF 文件存儲(chǔ)的是原始測(cè)序數(shù)據(jù),包括若干條測(cè)序讀數(shù),一個(gè)測(cè)序讀數(shù)對(duì)應(yīng)一個(gè)被測(cè)堿基序列。 每個(gè)測(cè)序讀數(shù)包含每次檢測(cè)周期檢測(cè)的堿基類型、測(cè)得電壓值、根據(jù)測(cè)得電壓值解算得到 的堿基長(zhǎng)度,以及據(jù)此推算得到的測(cè)序序列。BAM文件是每個(gè)測(cè)序讀數(shù)的堿基序列在參考基 因組中的匹配映射結(jié)果。由于SFF文件中,測(cè)得電壓值解算堿基長(zhǎng)度僅考慮了電壓值本身, 因此,存在一定的錯(cuò)誤率。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明的目的在于提供一種能有效提高半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)的準(zhǔn)確性的利 用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法。
[0007] 本發(fā)明的目的是這樣實(shí)現(xiàn)的:
[0008] (1)由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的SFF原始測(cè)序文件,獲得每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢 測(cè)周期中檢測(cè)堿基的種類和測(cè)得電壓值,以及該檢測(cè)周期的序號(hào);
[0009] (2)由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的BAM匹配映射文件,根據(jù)描述每一個(gè)測(cè)序讀數(shù)的堿基 序列在參考基因組上匹配映射結(jié)果的CIGAR字符串和MD標(biāo)記信息,提取每一個(gè)測(cè)序讀數(shù)在 每一個(gè)檢測(cè)周期中檢測(cè)堿基的解讀長(zhǎng)度,以及參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度;
[0010] (3)測(cè)序數(shù)據(jù)校正
[0011] 1)利用半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿 基的長(zhǎng)度一致時(shí)的測(cè)得電壓值,計(jì)算堿基長(zhǎng)度已知時(shí)測(cè)得電壓值的先驗(yàn)概率分布;
[0012] 2)當(dāng)半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基 的長(zhǎng)度不一致時(shí),對(duì)測(cè)序數(shù)據(jù)的堿基長(zhǎng)度進(jìn)行校正,利用下式計(jì)算測(cè)得電壓值已知時(shí),假定 堿基長(zhǎng)度為1時(shí)的值Si,
[0014] 式中,表示測(cè)得電壓值已知時(shí)、基于先驗(yàn)概率分布、利用貝葉斯公式計(jì)算得到 的堿基類型為i、檢測(cè)周期序號(hào)為j、堿基長(zhǎng)度為1的后驗(yàn)概率,OSSwShSpm表示堿基長(zhǎng)度 為1時(shí)、與參考基因組對(duì)應(yīng)堿基長(zhǎng)度不一致的懲罰值,不一致程度越大,懲罰值越大,0<S pe5n ;
[0015] 3)取51最大時(shí)對(duì)應(yīng)的堿基長(zhǎng)度1,即為測(cè)得電壓值已知時(shí)被測(cè)堿基的堿基長(zhǎng)度,完 成測(cè)序數(shù)據(jù)校正。
[0016] 按不同的堿基長(zhǎng)度、不同的檢測(cè)周期序號(hào)、不同的堿基類型分別計(jì)算測(cè)得電壓值 的先驗(yàn)概率分布。
[0017] 由于相同物種不同個(gè)體的基因組之間的差異非常小,本發(fā)明創(chuàng)新性地提出測(cè)得電 壓值解算堿基長(zhǎng)度的過程中,在測(cè)得電壓值基礎(chǔ)上,引入?yún)⒖蓟蚪M信息,以實(shí)現(xiàn)對(duì)測(cè)序數(shù) 據(jù)的校正。
[0018] 本發(fā)明的效果在于:利用參考基因組信息對(duì)半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)進(jìn)行校 正,從而有效提高該類測(cè)序平臺(tái)測(cè)序數(shù)據(jù)的準(zhǔn)確性。
【附圖說明】
[0019] 圖1為已知堿基長(zhǎng)度的被測(cè)電壓值的先驗(yàn)概率分布(堿基類型=A,檢測(cè)周期序號(hào) =1-50)〇
[0020] 圖2為測(cè)序數(shù)據(jù)校正前后的錯(cuò)誤率表。
[0021] 圖3為本發(fā)明的流程圖。
【具體實(shí)施方式】
[0022]下面舉例對(duì)本發(fā)明作進(jìn)一步描述:
[0023]結(jié)合圖3本發(fā)明的主要步驟包括:
[0024] 1、由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的SFF原始測(cè)序文件,獲得每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢 測(cè)周期中檢測(cè)堿基的種類和測(cè)得電壓值,以及該檢測(cè)周期的序號(hào)。
[0025] 每個(gè)測(cè)序過程中,每個(gè)檢測(cè)周期加入的脫氧核糖核苷酸的種類是固定不變的,因 此,根據(jù)檢測(cè)周期的序號(hào)可以得到該檢測(cè)周期的檢測(cè)堿基種類,同時(shí)從文件中讀出該檢測(cè) 周期的測(cè)得電壓值。
[0026] 理論上,被測(cè)堿基的堿基長(zhǎng)度為n時(shí),測(cè)序平臺(tái)應(yīng)輸出n伏電壓。但實(shí)際上,輸出電 壓的幅值不會(huì)正好是n伏。
[0027] 2、由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的BAM匹配映射文件,根據(jù)描述每一個(gè)測(cè)序讀數(shù)的堿基 序列在參考基因組上匹配映射結(jié)果的CIGAR字符串和MD標(biāo)記信息,提取每一個(gè)測(cè)序讀數(shù)在 每一個(gè)檢測(cè)周期中檢測(cè)堿基的解讀長(zhǎng)度,以及參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度。
[0028]具體來講,就是根據(jù)BAM文件中的CIGAR字符串和MD標(biāo)記信息,對(duì)參考基因組堿基 序列進(jìn)行還原。從該還原序列中提取每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢測(cè)周期中檢測(cè)堿基的解讀 長(zhǎng)度,以及參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度。
[0029] 3、測(cè)序數(shù)據(jù)校正
[0030] 首先,利用半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng) 堿基的長(zhǎng)度一致時(shí)的測(cè)得電壓值,計(jì)算堿基長(zhǎng)度已知時(shí)測(cè)得電壓值的先驗(yàn)概率分布。為了 保證分析精度,按不同的堿基長(zhǎng)度、不同的檢測(cè)周期序號(hào)、不同的堿基類型分別計(jì)算測(cè)得電 壓值的先驗(yàn)概率分布。
[0031] 然后,當(dāng)半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿 基的長(zhǎng)度不一致時(shí),對(duì)測(cè)序數(shù)據(jù)的堿基長(zhǎng)度進(jìn)行校正。利用下式計(jì)算測(cè)得電壓值已知時(shí),假 定堿基長(zhǎng)度為1時(shí)的值Si。
[0033]式中,表示測(cè)得電壓值已知時(shí),基于先驗(yàn)概率分布,利用貝葉斯公式計(jì)算得到 的堿基類型為i,檢測(cè)周期序號(hào)為j,堿基長(zhǎng)度為1的后驗(yàn)概率,OSSwShSpm表示堿基長(zhǎng)度 為1時(shí),與參考基因組對(duì)應(yīng)堿基長(zhǎng)度不一致的懲罰值,不一致程度越大,懲罰值越大,〇<S pe5n <1。取31最大時(shí)對(duì)應(yīng)的堿基長(zhǎng)度1,即為測(cè)得電壓值已知時(shí)被測(cè)堿基的堿基長(zhǎng)度,從而完成 測(cè)序數(shù)據(jù)校正。
[0034] 4、實(shí)驗(yàn)驗(yàn)證
[0035] 針對(duì)一個(gè)生物樣本用Ion Proton測(cè)序平臺(tái)進(jìn)行了測(cè)序。從平臺(tái)生成的SFF和BAM文 件中,提取了每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢測(cè)周期中檢測(cè)堿基的種類和測(cè)得電壓值,檢測(cè)周 期的序號(hào),檢測(cè)堿基的解讀長(zhǎng)度,以及參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度。
[0036] 隨后,利用檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度一致時(shí)的測(cè)得電 壓值,計(jì)算堿基長(zhǎng)度已知時(shí)測(cè)得電壓值的先驗(yàn)概率。為了保證分析精度,按不同的堿基長(zhǎng)度 (2,3,4,5,6)、不同的檢測(cè)周期序號(hào)(1-50,51-100,101-150,151-200,200-249)、不同的堿 基類型(A,C,G,T)分別計(jì)算測(cè)得電壓值的100個(gè)先驗(yàn)概率分布。圖1為堿基類型為A,檢測(cè)周 期序號(hào)為1-50,堿基長(zhǎng)度分別為2,3,4,5,6時(shí)的先驗(yàn)概率分布曲線。
[0037] 然后,當(dāng)半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿 基的長(zhǎng)度不一致時(shí),利用所提方法對(duì)測(cè)序數(shù)據(jù)的堿基長(zhǎng)度進(jìn)行校正。這里,S pen定義為:錯(cuò)配 0.1,插入/刪除0.2*n,n為插入或刪除的堿基個(gè)數(shù),最大不超過5。
[0038] 最后,對(duì)同一個(gè)生物樣本用11 lumina測(cè)序平臺(tái)進(jìn)行了測(cè)序,由于11 lumina測(cè)序平 臺(tái)一個(gè)檢測(cè)周期只檢測(cè)一個(gè)堿基,因此,可精確測(cè)定堿基長(zhǎng)度。
[0039]以Illumina測(cè)序平臺(tái)的測(cè)序結(jié)果為依據(jù),利用本發(fā)明所提方法校正的測(cè)序數(shù)據(jù)的 錯(cuò)誤率遠(yuǎn)小于校正前測(cè)序數(shù)據(jù)的錯(cuò)誤率。具體見圖2的測(cè)序數(shù)據(jù)校正前后的錯(cuò)誤率表。
【主權(quán)項(xiàng)】
1. 一種利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法,其特征是: (1) 由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的SFF原始測(cè)序文件,獲得每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢測(cè)周 期中檢測(cè)堿基的種類和測(cè)得電壓值,以及該檢測(cè)周期的序號(hào); (2) 由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的BAM匹配映射文件,根據(jù)描述每一個(gè)測(cè)序讀數(shù)的堿基序列 在參考基因組上匹配映射結(jié)果的CIGAR字符串和MD標(biāo)記信息,提取每一個(gè)測(cè)序讀數(shù)在每一 個(gè)檢測(cè)周期中檢測(cè)堿基的解讀長(zhǎng)度,以及參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度; (3) 測(cè)序數(shù)據(jù)校正 1) 利用半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的 長(zhǎng)度一致時(shí)的測(cè)得電壓值,計(jì)算堿基長(zhǎng)度已知時(shí)測(cè)得電壓值的先驗(yàn)概率分布; 2) 當(dāng)半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng) 度不一致時(shí),對(duì)測(cè)序數(shù)據(jù)的堿基長(zhǎng)度進(jìn)行校正,利用下式計(jì)算測(cè)得電壓值已知時(shí),假定堿基 長(zhǎng)度為1時(shí)的值Si,式中,Sljl表示測(cè)得電壓值已知時(shí)、基于先驗(yàn)概率分布、利用貝葉斯公式計(jì)算得到的堿 基類型為i、檢測(cè)周期序號(hào)為j、堿基長(zhǎng)度為1的后驗(yàn)概率,:心^表示堿基長(zhǎng)度為1 時(shí)、與參考基因組對(duì)應(yīng)堿基長(zhǎng)度不一致的懲罰值,不一致程度越大,懲罰值越大,OSS pe3nS 1; 3) 取51最大時(shí)對(duì)應(yīng)的堿基長(zhǎng)度1,即為測(cè)得電壓值已知時(shí)被測(cè)堿基的堿基長(zhǎng)度,完成測(cè) 序數(shù)據(jù)校正。2. 根據(jù)權(quán)利要求1所述的利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方 法,其特征是:按不同的堿基長(zhǎng)度、不同的檢測(cè)周期序號(hào)、不同的堿基類型分別計(jì)算測(cè)得電 壓值的先驗(yàn)概率分布。
【文檔編號(hào)】G06F19/20GK105893788SQ201610265225
【公開日】2016年8月24日
【申請(qǐng)日】2016年4月26日
【發(fā)明人】馮偉興, 薛丁愷, 趙森, 陳多嬌, 賀波
【申請(qǐng)人】哈爾濱工程大學(xué)