利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法

文檔序號(hào)：10535230閱讀：356來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法
【專利摘要】本發(fā)明提供的是一種利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法。1)利用半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度一致時(shí)的測(cè)得電壓值，計(jì)算堿基長(zhǎng)度已知時(shí)測(cè)得電壓值的先驗(yàn)概率分布；2)當(dāng)半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度不一致時(shí)，對(duì)測(cè)序數(shù)據(jù)的堿基長(zhǎng)度進(jìn)行校正，利用下式計(jì)算測(cè)得電壓值已知時(shí)，假定堿基長(zhǎng)度為l時(shí)的值Sl；取Sl最大時(shí)對(duì)應(yīng)的堿基長(zhǎng)度l，即為測(cè)得電壓值已知時(shí)被測(cè)堿基的堿基長(zhǎng)度，完成測(cè)序數(shù)據(jù)校正。本發(fā)明創(chuàng)新性地提出測(cè)得電壓值解算堿基長(zhǎng)度的過程中，在測(cè)得電壓值基礎(chǔ)上，引入?yún)⒖蓟蚪M信息，以實(shí)現(xiàn)對(duì)測(cè)序數(shù)據(jù)的校正。
【專利說明】
利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及的是一種分子生物信息檢測(cè)方法。具體是針對(duì)新一代半導(dǎo)體測(cè)序平臺(tái) 的測(cè)序數(shù)據(jù)校正方法。
【背景技術(shù)】
[0002] 隨著生物檢測(cè)技術(shù)的迅猛發(fā)展，11111111；[1^的301613、1^€6 3(^611068的454和4131的 SOLiD等第二代測(cè)序平臺(tái)逐漸被新一代測(cè)序平臺(tái)所取代。這包括Illumina的MiSeq、 NextSeq、HiSeq系列，ABI的Ion Torrent、Ion Proton、Ion PGM系列，以及Oxford Nanopore Technologies的MinlON等。盡管新一代測(cè)序平臺(tái)的推出使得生物信息檢測(cè)的深度更深、成本更低、效率更高，但由于檢測(cè)原理不同，原有高通量測(cè)序數(shù)據(jù)的解讀方法將不得不作出相應(yīng)改變。
[0003] 在新推出的新一代測(cè)序平臺(tái)中，ABI的Ion Torrent、Ion Proton、Ion PGM系列采用了獨(dú)特的半導(dǎo)體測(cè)序技術(shù)。該技術(shù)利用半導(dǎo)體芯片進(jìn)行測(cè)序，擺脫了傳統(tǒng)技術(shù)中光學(xué)成像裝置的限制，極大的提高了測(cè)序速度，縮減了測(cè)序成本，并使測(cè)序技術(shù)應(yīng)用于臨床成為可能。
[0004] 半導(dǎo)體測(cè)序技術(shù)的測(cè)序原理是:在半導(dǎo)體芯片布滿油滴的微孔中放入富含待測(cè)序堿基序列的微球，待測(cè)序堿基序列呈單鏈形態(tài)。一個(gè)檢測(cè)周期，向微孔中加入々、(:^^等四種脫氧核糖核苷酸中的一種。當(dāng)加入的脫氧核糖核苷酸與待測(cè)序的堿基序列相匹配并發(fā)生結(jié)合反應(yīng)時(shí)，釋放出氫離子，導(dǎo)致溶液PH值發(fā)生變化。半導(dǎo)體芯片后端的傳感器將PH值轉(zhuǎn)變為電壓信號(hào)輸出。依據(jù)所加的脫氧核糖核苷酸類型和輸出電壓信號(hào)的幅值，解讀出此次檢測(cè)周期測(cè)得的堿基類型和堿基長(zhǎng)度。重復(fù)上述過程，即可完成整個(gè)測(cè)序。理論上，一個(gè)檢測(cè) 周期，被測(cè)堿基的堿基長(zhǎng)度為n時(shí)，測(cè)序平臺(tái)應(yīng)輸出n伏電壓。但實(shí)際上，輸出電壓的幅值不會(huì)正好是n伏，因此，如何依據(jù)輸出的電壓值準(zhǔn)確判定被測(cè)堿基的堿基長(zhǎng)度是半導(dǎo)體測(cè)序平臺(tái)的一個(gè)關(guān)鍵技術(shù)問題。
[0005] 在實(shí)際應(yīng)用中，半導(dǎo)體測(cè)序平臺(tái)測(cè)序完成后，會(huì)自動(dòng)生成SFF和BAM兩個(gè)文件。SFF 文件存儲(chǔ)的是原始測(cè)序數(shù)據(jù)，包括若干條測(cè)序讀數(shù)，一個(gè)測(cè)序讀數(shù)對(duì)應(yīng)一個(gè)被測(cè)堿基序列。每個(gè)測(cè)序讀數(shù)包含每次檢測(cè)周期檢測(cè)的堿基類型、測(cè)得電壓值、根據(jù)測(cè)得電壓值解算得到的堿基長(zhǎng)度，以及據(jù)此推算得到的測(cè)序序列。BAM文件是每個(gè)測(cè)序讀數(shù)的堿基序列在參考基因組中的匹配映射結(jié)果。由于SFF文件中，測(cè)得電壓值解算堿基長(zhǎng)度僅考慮了電壓值本身，因此，存在一定的錯(cuò)誤率。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的在于提供一種能有效提高半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)的準(zhǔn)確性的利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法。
[0007] 本發(fā)明的目的是這樣實(shí)現(xiàn)的：
[0008] (1)由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的SFF原始測(cè)序文件，獲得每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢測(cè)周期中檢測(cè)堿基的種類和測(cè)得電壓值，以及該檢測(cè)周期的序號(hào)；
[0009] (2)由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的BAM匹配映射文件，根據(jù)描述每一個(gè)測(cè)序讀數(shù)的堿基序列在參考基因組上匹配映射結(jié)果的CIGAR字符串和MD標(biāo)記信息，提取每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢測(cè)周期中檢測(cè)堿基的解讀長(zhǎng)度，以及參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度；
[0010] (3)測(cè)序數(shù)據(jù)校正
[0011] 1)利用半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度一致時(shí)的測(cè)得電壓值，計(jì)算堿基長(zhǎng)度已知時(shí)測(cè)得電壓值的先驗(yàn)概率分布；
[0012] 2)當(dāng)半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度不一致時(shí)，對(duì)測(cè)序數(shù)據(jù)的堿基長(zhǎng)度進(jìn)行校正，利用下式計(jì)算測(cè)得電壓值已知時(shí)，假定堿基長(zhǎng)度為1時(shí)的值Si，
[0014] 式中，表示測(cè)得電壓值已知時(shí)、基于先驗(yàn)概率分布、利用貝葉斯公式計(jì)算得到的堿基類型為i、檢測(cè)周期序號(hào)為j、堿基長(zhǎng)度為1的后驗(yàn)概率，OSSwShSpm表示堿基長(zhǎng)度為1時(shí)、與參考基因組對(duì)應(yīng)堿基長(zhǎng)度不一致的懲罰值，不一致程度越大，懲罰值越大，0<S pe5n ;
[0015] 3)取51最大時(shí)對(duì)應(yīng)的堿基長(zhǎng)度1，即為測(cè)得電壓值已知時(shí)被測(cè)堿基的堿基長(zhǎng)度，完成測(cè)序數(shù)據(jù)校正。
[0016] 按不同的堿基長(zhǎng)度、不同的檢測(cè)周期序號(hào)、不同的堿基類型分別計(jì)算測(cè)得電壓值的先驗(yàn)概率分布。
[0017] 由于相同物種不同個(gè)體的基因組之間的差異非常小，本發(fā)明創(chuàng)新性地提出測(cè)得電壓值解算堿基長(zhǎng)度的過程中，在測(cè)得電壓值基礎(chǔ)上，引入?yún)⒖蓟蚪M信息，以實(shí)現(xiàn)對(duì)測(cè)序數(shù) 據(jù)的校正。
[0018] 本發(fā)明的效果在于：利用參考基因組信息對(duì)半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)進(jìn)行校正，從而有效提高該類測(cè)序平臺(tái)測(cè)序數(shù)據(jù)的準(zhǔn)確性。
【附圖說明】
[0019] 圖1為已知堿基長(zhǎng)度的被測(cè)電壓值的先驗(yàn)概率分布(堿基類型=A，檢測(cè)周期序號(hào) =1-50)〇
[0020] 圖2為測(cè)序數(shù)據(jù)校正前后的錯(cuò)誤率表。
[0021] 圖3為本發(fā)明的流程圖。
【具體實(shí)施方式】
[0022]下面舉例對(duì)本發(fā)明作進(jìn)一步描述：
[0023]結(jié)合圖3本發(fā)明的主要步驟包括：
[0024] 1、由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的SFF原始測(cè)序文件，獲得每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢測(cè)周期中檢測(cè)堿基的種類和測(cè)得電壓值，以及該檢測(cè)周期的序號(hào)。
[0025] 每個(gè)測(cè)序過程中，每個(gè)檢測(cè)周期加入的脫氧核糖核苷酸的種類是固定不變的，因此，根據(jù)檢測(cè)周期的序號(hào)可以得到該檢測(cè)周期的檢測(cè)堿基種類，同時(shí)從文件中讀出該檢測(cè) 周期的測(cè)得電壓值。
[0026] 理論上，被測(cè)堿基的堿基長(zhǎng)度為n時(shí)，測(cè)序平臺(tái)應(yīng)輸出n伏電壓。但實(shí)際上，輸出電壓的幅值不會(huì)正好是n伏。
[0027] 2、由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的BAM匹配映射文件，根據(jù)描述每一個(gè)測(cè)序讀數(shù)的堿基序列在參考基因組上匹配映射結(jié)果的CIGAR字符串和MD標(biāo)記信息，提取每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢測(cè)周期中檢測(cè)堿基的解讀長(zhǎng)度，以及參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度。
[0028]具體來講，就是根據(jù)BAM文件中的CIGAR字符串和MD標(biāo)記信息，對(duì)參考基因組堿基序列進(jìn)行還原。從該還原序列中提取每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢測(cè)周期中檢測(cè)堿基的解讀長(zhǎng)度，以及參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度。
[0029] 3、測(cè)序數(shù)據(jù)校正
[0030] 首先，利用半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng) 堿基的長(zhǎng)度一致時(shí)的測(cè)得電壓值，計(jì)算堿基長(zhǎng)度已知時(shí)測(cè)得電壓值的先驗(yàn)概率分布。為了保證分析精度，按不同的堿基長(zhǎng)度、不同的檢測(cè)周期序號(hào)、不同的堿基類型分別計(jì)算測(cè)得電壓值的先驗(yàn)概率分布。
[0031] 然后，當(dāng)半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度不一致時(shí)，對(duì)測(cè)序數(shù)據(jù)的堿基長(zhǎng)度進(jìn)行校正。利用下式計(jì)算測(cè)得電壓值已知時(shí)，假定堿基長(zhǎng)度為1時(shí)的值Si。
[0033]式中，表示測(cè)得電壓值已知時(shí)，基于先驗(yàn)概率分布，利用貝葉斯公式計(jì)算得到的堿基類型為i，檢測(cè)周期序號(hào)為j，堿基長(zhǎng)度為1的后驗(yàn)概率，OSSwShSpm表示堿基長(zhǎng)度為1時(shí)，與參考基因組對(duì)應(yīng)堿基長(zhǎng)度不一致的懲罰值，不一致程度越大，懲罰值越大，〇<S pe5n <1。取31最大時(shí)對(duì)應(yīng)的堿基長(zhǎng)度1，即為測(cè)得電壓值已知時(shí)被測(cè)堿基的堿基長(zhǎng)度，從而完成測(cè)序數(shù)據(jù)校正。
[0034] 4、實(shí)驗(yàn)驗(yàn)證
[0035] 針對(duì)一個(gè)生物樣本用Ion Proton測(cè)序平臺(tái)進(jìn)行了測(cè)序。從平臺(tái)生成的SFF和BAM文件中，提取了每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢測(cè)周期中檢測(cè)堿基的種類和測(cè)得電壓值，檢測(cè)周期的序號(hào)，檢測(cè)堿基的解讀長(zhǎng)度，以及參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度。
[0036] 隨后，利用檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度一致時(shí)的測(cè)得電壓值，計(jì)算堿基長(zhǎng)度已知時(shí)測(cè)得電壓值的先驗(yàn)概率。為了保證分析精度，按不同的堿基長(zhǎng)度 (2，3，4,5，6)、不同的檢測(cè)周期序號(hào)（1-50,51-100,101-150,151-200,200-249)、不同的堿基類型(A，C，G，T)分別計(jì)算測(cè)得電壓值的100個(gè)先驗(yàn)概率分布。圖1為堿基類型為A，檢測(cè)周期序號(hào)為1-50，堿基長(zhǎng)度分別為2，3，4，5，6時(shí)的先驗(yàn)概率分布曲線。
[0037] 然后，當(dāng)半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度不一致時(shí)，利用所提方法對(duì)測(cè)序數(shù)據(jù)的堿基長(zhǎng)度進(jìn)行校正。這里，S pen定義為:錯(cuò)配 0.1，插入/刪除0.2*n，n為插入或刪除的堿基個(gè)數(shù)，最大不超過5。
[0038] 最后，對(duì)同一個(gè)生物樣本用11 lumina測(cè)序平臺(tái)進(jìn)行了測(cè)序，由于11 lumina測(cè)序平臺(tái)一個(gè)檢測(cè)周期只檢測(cè)一個(gè)堿基，因此，可精確測(cè)定堿基長(zhǎng)度。
[0039]以Illumina測(cè)序平臺(tái)的測(cè)序結(jié)果為依據(jù)，利用本發(fā)明所提方法校正的測(cè)序數(shù)據(jù)的錯(cuò)誤率遠(yuǎn)小于校正前測(cè)序數(shù)據(jù)的錯(cuò)誤率。具體見圖2的測(cè)序數(shù)據(jù)校正前后的錯(cuò)誤率表。
【主權(quán)項(xiàng)】
1. 一種利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法，其特征是： (1) 由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的SFF原始測(cè)序文件，獲得每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢測(cè)周期中檢測(cè)堿基的種類和測(cè)得電壓值，以及該檢測(cè)周期的序號(hào)； (2) 由半導(dǎo)體測(cè)序平臺(tái)產(chǎn)生的BAM匹配映射文件，根據(jù)描述每一個(gè)測(cè)序讀數(shù)的堿基序列在參考基因組上匹配映射結(jié)果的CIGAR字符串和MD標(biāo)記信息，提取每一個(gè)測(cè)序讀數(shù)在每一個(gè)檢測(cè)周期中檢測(cè)堿基的解讀長(zhǎng)度，以及參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度； (3) 測(cè)序數(shù)據(jù)校正 1) 利用半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng)度一致時(shí)的測(cè)得電壓值，計(jì)算堿基長(zhǎng)度已知時(shí)測(cè)得電壓值的先驗(yàn)概率分布； 2) 當(dāng)半導(dǎo)體測(cè)序平臺(tái)測(cè)序數(shù)據(jù)中檢測(cè)堿基的解讀長(zhǎng)度與參考基因組中對(duì)應(yīng)堿基的長(zhǎng) 度不一致時(shí)，對(duì)測(cè)序數(shù)據(jù)的堿基長(zhǎng)度進(jìn)行校正，利用下式計(jì)算測(cè)得電壓值已知時(shí)，假定堿基長(zhǎng)度為1時(shí)的值Si，式中，Sljl表示測(cè)得電壓值已知時(shí)、基于先驗(yàn)概率分布、利用貝葉斯公式計(jì)算得到的堿基類型為i、檢測(cè)周期序號(hào)為j、堿基長(zhǎng)度為1的后驗(yàn)概率，:心^表示堿基長(zhǎng)度為1 時(shí)、與參考基因組對(duì)應(yīng)堿基長(zhǎng)度不一致的懲罰值，不一致程度越大，懲罰值越大，OSS pe3nS 1; 3) 取51最大時(shí)對(duì)應(yīng)的堿基長(zhǎng)度1，即為測(cè)得電壓值已知時(shí)被測(cè)堿基的堿基長(zhǎng)度，完成測(cè) 序數(shù)據(jù)校正。2. 根據(jù)權(quán)利要求1所述的利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法，其特征是：按不同的堿基長(zhǎng)度、不同的檢測(cè)周期序號(hào)、不同的堿基類型分別計(jì)算測(cè)得電壓值的先驗(yàn)概率分布。
【文檔編號(hào)】G06F19/20GK105893788SQ201610265225
【公開日】2016年8月24日
【申請(qǐng)日】2016年4月26日
【發(fā)明人】馮偉興, 薛丁愷, 趙森, 陳多嬌, 賀波
【申請(qǐng)人】哈爾濱工程大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：馮偉興;薛丁愷;趙森;陳多嬌;賀波;
技術(shù)所有人：哈爾濱工程大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

全基因組測(cè)序相關(guān)技術(shù)

基因組測(cè)序相關(guān)技術(shù)

宏基因組測(cè)序相關(guān)技術(shù)

基因組重測(cè)序相關(guān)技術(shù)

人類基因組測(cè)序相關(guān)技術(shù)

簡(jiǎn)化基因組測(cè)序相關(guān)技術(shù)

全基因組重測(cè)序相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

利用參考基因組信息的半導(dǎo)體測(cè)序平臺(tái)的測(cè)序數(shù)據(jù)校正方法