亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

定點檢測變異的方法和裝置與流程

文檔序號:12786727閱讀:711來源:國知局
定點檢測變異的方法和裝置與流程

本發(fā)明涉及生物信息領(lǐng)域,具體的,本發(fā)明涉及定點檢測變異的方法和裝置,更具體的,本發(fā)明涉及一種定點檢出變異的方法、一種定點檢出變異的裝置、一種檢測融合基因突變的方法和一種檢測融合基因突變的裝置。



背景技術(shù):

癌癥由遺傳基因的改變導(dǎo)致,不同癌癥、不同患者具有不同類型的基因變異,找到癌癥患者的基因突變類型是個體化的治療的基礎(chǔ),同時能夠幫助我們更清晰的認識癌癥的機理。

目前,臨床上主要通過armsPCR方法來檢測SNV、INDEL,通過FISH的方法來檢測基因融合,這兩種實驗方法價格高,探針是針對特定突變設(shè)計的,難增加新的突變檢測位點。

隨著基因組學(xué)和生物信息學(xué)的不斷發(fā)展,NGS高通量方法逐漸在這個領(lǐng)域內(nèi)得到應(yīng)用。利用高通量方法同時對患者的癌癥組織和正常血細胞對照進行測序,首先在癌癥組織中檢測變異,然后去掉在對照中存在的germline變異(生殖細胞變異),從而得到最終的somatic變異(體細胞變異)。在這種情況下,檢測結(jié)果中會包含大量的臨床意義未明的變異,這類變異對臨床醫(yī)生并沒有有效的指導(dǎo)作用;檢測過程中同時需要癌癥組織和血細胞進行測序,增加了工作量;更重要的是INDEL附近的堿基的比對質(zhì)量會下降,例如對EGFRc.2238_2248>GC這類肺癌中存在的復(fù)雜INDEL(complex INDEL)變異,缺失(deletion)后插入的GC堿基可能會比對到不同的位置,傳統(tǒng)的變異檢測方法對這種變異的檢測很困難。



技術(shù)實現(xiàn)要素:

依據(jù)本發(fā)明的一方面提供一種定點檢出變異的方法,該方法包括:基于所述變異的已知信息,確定所述變異的指定位點和包含所述變異的參考序列;獲取待測樣本的核酸的測序數(shù)據(jù),所述測序數(shù)據(jù)包括多個讀段;提取所述測序數(shù)據(jù)中包含所述指定位點的讀段,獲得指定讀段;以所述指定讀段上的指定位點為中心,往兩端方向各延伸N個bp,獲得指定片段,4≤N≤10;將所述指定片段與所述包含所述變異的參考序列進行比對,獲得支持讀段,所述支持讀段為與所述參考序列匹配的指定片段所在的讀段;統(tǒng)計所述支持讀段的量,基于所述支持讀段的量判斷所述變異是否存在。

依據(jù)本發(fā)明的另一方面提供一種計算機可讀存儲介質(zhì),用于存儲供計算機執(zhí)行的第一程序,本領(lǐng)域普通技術(shù)人員可以理解,在執(zhí)行該第一程序時,通過指令相關(guān)硬件可完成上述定點檢出變異的方法的全部或部分步驟。所稱存儲介質(zhì)可以包括:只讀存儲器、隨機存儲器、磁盤或光盤等。

依據(jù)本發(fā)明的再一方面提供一種定點檢出變異的裝置,該裝置包括:數(shù)據(jù)輸入單元,用于輸入數(shù)據(jù);數(shù)據(jù)輸出單元,用于輸出數(shù)據(jù);處理器,用于執(zhí)行第一計算機可執(zhí)行程序,所述第一計算機可執(zhí)行程序的執(zhí)行包括完成上述本發(fā)明一方面的定點檢出變異的方法;存儲單元,與所述數(shù)據(jù)輸入單元、數(shù)據(jù)輸出單元和處理器相連,用于存儲數(shù)據(jù),其中包括所述第一計算機可執(zhí)行程序。

上述本發(fā)明一方面的方法、計算機可讀存儲介質(zhì)和/或裝置,基于關(guān)注讀段中是否存在發(fā)生變異后應(yīng)當具有的序列特征來進行定點變異檢測,能夠規(guī)避變異位點附近比對質(zhì)量下降、變異位點周邊比對存在干擾等問題,能夠快速精確的檢出變異。

依據(jù)本發(fā)明的一方面提供一種檢測融合基因突變的方法,該方法包括:獲取待測樣本的測序結(jié)果,所述測序結(jié)果包括多個讀段;提取所述測序結(jié)果中的割裂讀段,所述割裂讀段為同一讀段的兩部分分別匹配到參考序列兩個不同位置的讀段;分析匹配到所述參考序列上相同位置的割裂讀段的數(shù)量,確定候選斷點;定義所述參考序列上候選斷點相應(yīng)位置為第一融合基因位置,截取匹配到所述第一融合基因位置的割裂讀段的不匹配所述第一融合基因位置的部分,以獲得第一割裂片段,將所述第一割裂片段進行組裝,獲得第一一致性序列;將所述第一一致性序列與所述參考序列進行比對,定義所述第一一致性序列與所述參考序列匹配的位置為第二融合基因位置;截取匹配到所述第二融合基因位置的割裂讀段的不匹配所述第二融合基因位置的部分,獲得第二割裂片段,將所述第二割裂片段進行組裝,獲得第二一致性序列;將所述第二一致性序列與所述參考序列進行比對,若所述第二一致性序列與所述參考序列匹配的位置為所述第一融合基因位置,確定存在所述融合基因突變。

依據(jù)本發(fā)明的另一方面提供一種計算機可讀存儲介質(zhì),用于存儲供計算機執(zhí)行的第二程序,本領(lǐng)域普通技術(shù)人員可以理解,在執(zhí)行該第二程序時,通過指令相關(guān)硬件可完成上述檢測融合基因突變的方法的全部或部分步驟。所稱存儲介質(zhì)可以包括:只讀存儲器、隨機存儲器、磁盤或光盤等。

依據(jù)本發(fā)明的再一方面提供一種檢測融合基因突變的裝置,該裝置包括:數(shù)據(jù)輸入模塊,用于輸入數(shù)據(jù);數(shù)據(jù)輸出模塊,用于輸出數(shù)據(jù);處理器,用于執(zhí)行第二計算機可執(zhí)行程序,所述第二計算機可執(zhí)行程序的執(zhí)行包括完成上述本發(fā)明一方面的檢測融合基因突變的方法;存儲模塊,與所述數(shù)據(jù)輸入模塊、數(shù)據(jù)輸出模塊和處理器相連,用于存儲數(shù)據(jù),其中包括所述第二計算機可執(zhí)行程序。

利用上述本發(fā)明一方面的方法、計算機可讀存儲介質(zhì)和/或裝置,能夠準確高效的檢測融合基因突變。

附圖說明

本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施方式的描述中將變得明顯和容易理解,其中:

圖1顯示本發(fā)明的一個實施例中的定點檢出變異的方法的流程。

圖2顯示本發(fā)明的一個實施例中的定點檢出變異的裝置的示意圖。

圖3顯示本發(fā)明的一個實施例中的基于不同的測序深度、利用模型公式進行計算繪制的ROC曲線。

圖4顯示本發(fā)明的一個實施例中的基于不同的等位基因頻率、利用模型公式進行計算繪制的ROC曲線。

圖5顯示本發(fā)明的一個實施例中的基于BGISEQ-100測序平臺的單樣本測序數(shù)據(jù)確定變異檢出的流程。

圖6顯示本發(fā)明的一個實施例中的變異檢出部分結(jié)果。

圖7顯示本發(fā)明的一個實施例中自動生成的樣本檢測報告的示意圖。

圖8顯示本發(fā)明的一個實施例中基于讀段比對的SNV位點的檢出圖。

具體實施方式

參見圖1,根據(jù)本發(fā)明的實施例提供的一種定點檢出變異的方法,該方法包括以下步驟:

S10確定變異的指定位點和包含該變異的參考序列。

基于所述變異的已知信息,例如變異在參考基因組上的位置、類型、等位基因突變頻率等,確定所述變異的指定位點和包含所述變異的參考序列,包括確定變異存在時應(yīng)當出現(xiàn)的序列、序列的起始位置和序列的終止位置等。

所述變異選自SNP和INDEL中的至少一種。所稱變異的指定位點指,存在該變異時具有的特征序列的至少一部分,指定位點可以是單核苷酸,也可以是多個核苷酸。所稱的參考序列指預(yù)先確定的序列,可以是預(yù)先獲得的待測樣本所屬生物類別的任意參考模板,例如,若待測樣本來源的為人類個體,參考序列可選擇NCBI數(shù)據(jù)庫提供的HG19,進一步地,也可以預(yù)先配置包含更多參考序列的資源庫,例如依據(jù)待測樣本來源個體的狀態(tài)、地域等因素選擇或是測定組裝出更接近的序列作為參考序列。所稱包含變異的參考序列為存在該變異的參考序列,例如參考基因組存在該變異后變成的序列。

S12獲取待測樣本的核酸的測序數(shù)據(jù)。

獲取待測樣本的核酸的測序數(shù)據(jù),所述測序數(shù)據(jù)包括多個讀段。

所稱的測序數(shù)據(jù)通過對核酸序列進行測序文庫制備、上機測序獲得。根據(jù)本發(fā)明的實施例,獲取所述測序數(shù)據(jù),包括:獲取待測樣本中的核酸,制備所述核酸的測序文庫,對所述測序文庫進行測序。測序文庫的制備方法根據(jù)所選擇的測序方法的要求進行,測序方法依據(jù)所選的測序平臺的不同,可選擇但不限于Illumina公司的Hisq2000/2500測序平臺、Life Technologies公司的Ion Torrent平臺和單分子測序平臺,測序方式可以選擇單端測序,也可以選擇雙末端測序,獲得的下機數(shù)據(jù)是測讀出來的片段,稱為讀段(reads)。

需要說明的是,上述S10和S12之間無先后順序的限制,可先進行S10再進行S12,也可先進行S12再進行S10。

S14提取所述測序數(shù)據(jù)中包含所述指定位點的讀段。

提取所述測序數(shù)據(jù)中包含所述指定位點的讀段,獲得指定讀段。所稱的指定讀段也包含存在變異時應(yīng)當具有的特征序列的至少一部分。

根據(jù)本發(fā)明的一個實施例,所述提取測序數(shù)據(jù)中包含所述指定位點的讀段,獲得指定讀段,包括:將所述測序數(shù)據(jù)與包含所述變異的參考序列進行比對,獲得比對結(jié)果,將比對結(jié)果中的比對到所述參考序列上對應(yīng)的指定位點位置的讀段為所述指定讀段。比對可以利用已知比對軟件進行,例如SOAP、BWA和TeraMap等。

根據(jù)本發(fā)明的一個實施例,在獲得比對結(jié)果后,對比對結(jié)果中的reads進行去重,去除重復(fù)的reads,例如去除由于測序文庫構(gòu)建過程中的擴增而帶來的重復(fù)片段,能夠減小后續(xù)處理依據(jù)的數(shù)據(jù)量,利于基于比對結(jié)果進行快速定點檢測檢測。

S16以指定讀段上的指定位點為中心,往兩端方向各延伸N個bp,獲得指定片段。

以所述指定讀段上的指定位點為中心,往兩端方向各延伸N個bp,獲得指定片段,4≤N≤10。發(fā)明人經(jīng)過大量分析驗證,確定N的數(shù)值范圍。確定的該延伸長度的范圍,使獲得的指定片段能夠用于后續(xù)高效篩選確定出可靠的特定讀段,以用于定點變異檢出。N若小于4,會使后續(xù)獲得的比對結(jié)果復(fù)雜度增加,增加后續(xù)分析難度;而N若大于10,會使后續(xù)獲得的比對結(jié)果中的特定讀段的數(shù)量大大減少,不利于后續(xù)基于統(tǒng)計準確判定變異是否存在。根據(jù)本發(fā)明的一個較佳實施例,使N=5,即使得獲得的指定片段達11bp左右,利于后續(xù)快速確定出可靠的、數(shù)目足夠的特定讀段以用于變異判定。

S18將所述指定片段與所述包含所述變異的參考序列進行比對,獲得支持讀段。

將所述指定片段與所述包含所述變異的參考序列進行比對,獲得支持讀段,所述支持讀段為與所述參考序列匹配的指定片段所在的讀段。

根據(jù)本發(fā)明的較佳實施例,獲得指定讀段之后,對所述指定讀段進行過濾,其中包括過濾掉指定位點位于讀段的末端N bp內(nèi)的指定讀段。如此,除去相對不可靠或者說難以確定是否可靠的數(shù)據(jù),利于后續(xù)步驟的高效快速進行。

所稱的匹配意同比對上。具體比對時,可以利用已知比對軟件進行,例如SOAP、BWA和TeraMap等,本發(fā)明對此不作限制。在比對過程中,根據(jù)比對參數(shù)的設(shè)置,一對或一條reads最多允許有n個堿基錯配(mismatch),例如設(shè)置n為1或2,若reads中有超過n個堿基發(fā)生錯配,則視為該對Reads無法比對到參考序列,或者,若錯配的n個堿基全部位于reads對中的一個reads,則視為該reads對中的該reads無法比對到參考序列。

根據(jù)本發(fā)明的一個較佳實施例,所稱的匹配為完全匹配,即指定片段與含變異的參考序列零錯配,包含這些指定片段的讀段為支持讀段。即支持讀段為支持變異的讀段,為包含該變異發(fā)生時應(yīng)當具有的特征序列的讀段。

S20基于所述支持讀段的量判斷所述變異是否存在。

統(tǒng)計所述支持讀段的量,基于所述支持讀段的量判斷所述變異是否存在。所稱的支持讀段的量,包括支持讀段的數(shù)目、數(shù)目所占的比例、其上特定堿基的測序深度、堿基測序錯誤率等

根據(jù)本發(fā)明的一個實施例,所稱的測序數(shù)據(jù)中的讀段的長度不相同,例如測序數(shù)據(jù)是利用Life Technologies公司的Ion Torrent系列中的Proton測序平臺進行測序獲得的。

發(fā)明人發(fā)現(xiàn),肺癌變異檢測試劑盒針對特定位點的特定變異進行檢測,現(xiàn)有的變異檢出程序均是對整個區(qū)域所有位點進行循環(huán)遍歷,為了保證大范圍檢出的準確性而將檢出條件設(shè)置很高,但對特定位點的特定變異檢出,檢出精度可以提高。發(fā)明人還發(fā)現(xiàn),Proton測序或者BGISEQ-100測序中,由于測序文庫構(gòu)建中,插入片段兩端的接頭(P接頭和A接頭)的不對稱性,會使得測到的正鏈reads和負鏈reads必定來自于不同的模板,不會是同一個模板的PCR產(chǎn)物;故對于基因組上特定位置的特定變異,例如EGFR L858R、KRASG12C等,限定鏈偏向(strand bias)的限制可以很大程度上保證變異檢測的真實性。所稱的正鏈reads和負鏈reads是相對的,互為反向互補。

發(fā)明人據(jù)上述發(fā)現(xiàn)以及為解決以上問題而建立參考值模型,確定閾值(cutoff值),并證明了在此模型和cutoff值的情況下變異檢測具有高的靈敏度(sensitivity)和特異性(specificity)。所稱模型基于以下兩點假設(shè)而建立:(1)對于任一位點,假設(shè)參考基因組對應(yīng)的堿基為r∈{A,T,C,G},(2)對于任一位點,假設(shè)覆蓋該位點的所有讀段的對應(yīng)堿基為bi,堿基質(zhì)量值為qi,則對應(yīng)的堿基錯誤率為i=1,2,...,d d表示該位點對應(yīng)的測序深度。所稱模型可表示為其中M0表示所述位點的變異不存在,該位點與參考基因組堿基不同是由于系統(tǒng)誤差導(dǎo)致的;表示所述位點的變異真實存在,所述變異為r突變?yōu)閙,f為等位基因突變頻率,既不為r、也不為m的堿基是系統(tǒng)誤差造成的;L(M0)表示所述位點的測序數(shù)據(jù)的分布情況符合M0的概率,表示該所述位點的測序數(shù)據(jù)的分布情況符合的概率,

根據(jù)本發(fā)明的一個實施例,所述基于支持讀段的數(shù)量判斷所述變異是否存在,包括將所述支持讀段的量代入到所述模型中,包括將所述支持讀段的量代入到上述式I以確定L(M0),將所述支持讀段的量代入到上述式III以確定計算獲得參考值LOD(m,f);將所述參考值與閾值比較,當所述參考值大于所述閾值,判定所述待測樣本存在所述變異。

所稱閾值的取值范圍為0至10。利用所稱模型確定閾值,可以通過設(shè)置置信度,例如通常設(shè)置為95%或99%,確定該置信度對應(yīng)的參考值為閾值。當利用上述步驟檢測某一待測樣本計算得的參考值大于所述閾值時,表明定點檢出的變異95%或99%可信。

根據(jù)本發(fā)明的實施例,利用ROC分析進行評估,確定閾值。ROC曲線(receiver operating characteristic curve,接收者操作特征曲線),是一種二元分類模型,即輸出結(jié)果只有兩種類別的模型??紤]一個二分問題,即將實例分成正類(positive)或負類(negative),對一個二分問題來說,會出現(xiàn)四種情況:如果一個實例是正類并且也被預(yù)測成正類,即為真正類(True positive,TP),如果實例是負類被預(yù)測成正類,稱之為假正類(False positive,F(xiàn)P),相應(yīng)地,如果實例是負類被預(yù)測成負類,稱之為真負類(True negative,TN),正類被預(yù)測成負類則為假負類(false negative,F(xiàn)N)。TP:正確肯定的數(shù)目;FN:漏報,沒有正確找到的匹配的數(shù)目;FP:誤報,給出的匹配是不正確的;TN:正確拒絕的非匹配對數(shù)。為了形象化這一變化,引入ROC,ROC曲線可以用于評價一個分類器,即評價引入不同候選閾值的變異判定模型。AUC(Area Under roc Curve)為ROC曲線下方的面積,AUC值介于0.5到1.0之間,AUC越大,分類器分類效果越好。

發(fā)明人根據(jù)以上方法欲檢測樣本中是否存在某個/些已知變異,例如EGFR EX19某一區(qū)域是否存在15~18bp的缺失(deletion),針對于之類已知的變異的基因型,該方法提高了檢出的敏感性和特異性。若根據(jù)該方法檢測結(jié)果判定不存在目標已知變異基因型,則可以利用敏感性和特異性相對較低的已知的變異檢測方法/軟件補充檢測,判斷在該區(qū)域是否有未知基因型存在。

根據(jù)本發(fā)明的實施例提供的一種計算機可讀存儲介質(zhì),用于存儲供計算機執(zhí)行的第一程序,本領(lǐng)域普通技術(shù)人員可以理解,在執(zhí)行該第一程序時,通過指令相關(guān)硬件可完成上述定點檢出變異的方法的全部或部分步驟。所稱存儲介質(zhì)可以包括:只讀存儲器、隨機存儲器、磁盤或光盤等。

參見圖2,根據(jù)本發(fā)明的實施例提供的一種定點檢出變異的裝置100,該裝置100包括:數(shù)據(jù)輸入單元110,用于輸入數(shù)據(jù);數(shù)據(jù)輸出單元120,用于輸出數(shù)據(jù);處理器130,用于執(zhí)行第一計算機可執(zhí)行程序,所述第一計算機可執(zhí)行程序的執(zhí)行包括完成上述本發(fā)明一方面或者任一實施例的定點檢出變異的方法;存儲單元140,與所述數(shù)據(jù)輸入單元、數(shù)據(jù)輸出單元和處理器相連,用于存儲數(shù)據(jù),其中包括所述第一計算機可執(zhí)行程序。

上述本發(fā)明任一實施例中的方法、計算機可讀存儲介質(zhì)和/或裝置,基于關(guān)注讀段中是否存在發(fā)生變異后應(yīng)當具有的序列特征來進行定點變異檢測,能夠規(guī)避變異位點附近比對質(zhì)量下降、變異位點周邊比對存在干擾等問題,能夠快速精確的檢出變異。

根據(jù)本發(fā)明的實施例提供的一種檢測融合基因突變的方法,該方法包括:獲取待測樣本的測序結(jié)果,所述測序結(jié)果包括多個讀段;提取所述測序結(jié)果中的割裂讀段(soft-clippedreads),所述割裂讀段為同一讀段被切割為兩段、兩段分別能匹配到參考序列兩個不同位置的讀段;分析匹配到所述參考序列上相同位置的割裂讀段的數(shù)量,確定候選斷點;定義所述參考序列上候選斷點相應(yīng)位置為第一融合基因位置,截取匹配到所述第一融合基因位置的割裂讀段的不匹配所述第一融合基因位置的部分,以獲得第一割裂片段,將所述第一割裂片段進行組裝,獲得第一一致性序列;將所述第一一致性序列與所述參考序列進行比對,定義所述第一一致性序列與所述參考序列匹配的位置為第二融合基因位置;截取匹配到所述第二融合基因位置的割裂讀段的不匹配所述第二融合基因位置的部分,獲得第二割裂片段,將所述第二割裂片段進行組裝,獲得第二一致性序列;將所述第二一致性序列與所述參考序列進行比對,若所述第二一致性序列與所述參考序列匹配的位置為所述第一融合基因位置,確定存在所述融合基因突變。所稱的斷點,指兩個基因發(fā)生融合突變的位置。

根據(jù)本發(fā)明的一個實施例,所述測序結(jié)果包含的數(shù)據(jù)量不少于30x,即測序深度不小于30x;所述分析匹配到所述參考序列上相同位置的割裂讀段的數(shù)量,確定候選斷點,包括:確定匹配到所述參考序列上相同位置的割裂讀段的數(shù)量不小于10條的位置為所述候選斷點。

根據(jù)本發(fā)明的實施例提供的一種計算機可讀存儲介質(zhì),用于存儲供計算機執(zhí)行的第二程序,本領(lǐng)域普通技術(shù)人員可以理解,在執(zhí)行該第二程序時,通過指令相關(guān)硬件可完成上述檢測融合基因突變的方法的全部或部分步驟。所稱存儲介質(zhì)可以包括:只讀存儲器、隨機存儲器、磁盤或光盤等。

根據(jù)本發(fā)明的實施例提供的一種檢測融合基因突變的裝置,該裝置包括:數(shù)據(jù)輸入模塊,用于輸入數(shù)據(jù);數(shù)據(jù)輸出模塊,用于輸出數(shù)據(jù);處理器,用于執(zhí)行第二計算機可執(zhí)行程序,所述第二計算機可執(zhí)行程序的執(zhí)行包括完成上述本發(fā)明一方面的檢測融合基因突變的方法;存儲模塊,與所述數(shù)據(jù)輸入模塊、數(shù)據(jù)輸出模塊和處理器相連,用于存儲數(shù)據(jù),其中包括所述第二計算機可執(zhí)行程序。

利用上述本發(fā)明任一實施例的檢測融合基因突變的方法、計算機可讀存儲介質(zhì)和/或裝置,能夠準確高效的檢測融合基因突變。

根據(jù)本發(fā)明的實施例,發(fā)明人結(jié)合傳統(tǒng)實驗方法和高通量測序方法,提出了基于分析高通量測序數(shù)據(jù)的方法對重要突變位點,包括SNV、INDEL和融合突變(FUSION)進行快速精確檢測的方法。該方法概括地說,包括使用寡核苷酸探針捕獲技術(shù)或PCR多重擴增的方式來獲取基因組上的目標序列,對目標序列產(chǎn)物進行高通量測序,從中識別DNA樣品中的堿基序列及變異信息。根據(jù)示例,在對SNV、INDEL的檢測中,針對試劑盒已知突變位點的特性,根據(jù)PCR方法的檢測位點、COSMIC數(shù)據(jù)庫中記載的致病變異,推算出擁有該變異時測序reads應(yīng)當具有的序列,然后在測序數(shù)據(jù)中對這種序列進行檢測。在這種情況下,對變異的檢測不再關(guān)注其具體的比對位置和比對形式,而是關(guān)注在測序得到的reads中是否存在發(fā)生這種變化后應(yīng)當具有的序列特征,從而規(guī)避了INDEL特別是復(fù)雜INDEL(complex INDEL)附近比對質(zhì)量下降等的情況。利用上述提供的定點檢出變異和檢測基因融合突變的方法研究某一疾病樣本,例如研究肺癌樣本時,無需對照樣本,基于對單個樣本進行突變檢測,就能一次性獲得該樣本的多個及多種有意義的突變信息,利于肺癌的個體化治療。

以下結(jié)合附圖和具體實施例對本發(fā)明的突變檢測方法和/或裝置進行詳細的描述。下面示例,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。

需要說明的是,在本文中所使用的術(shù)語“第一”、“第二”等僅用于方便描述目的,而不能理解為指示或暗示相對重要性,也不能理解為之間有先后順序關(guān)系。在本發(fā)明的描述中,除非另有說明,“多個”的含義是兩個或兩個以上。

除另有交待,以下實施例中涉及的未特別交待的試劑、序列(接頭、標簽和引物)、軟件及儀器,都是常規(guī)市售產(chǎn)品或者開源的,比如購自Life Technologies等。

實施例一

(一)參考值模型的構(gòu)建

1,參考值模型構(gòu)建的假設(shè)基礎(chǔ)

1.1,對于任一位點,假設(shè)參考基因組對應(yīng)的堿基為r∈{A,T,C,G};

1.2,對于任一位點,假設(shè)覆蓋該位點的所有reads的對應(yīng)堿基為bi,堿基質(zhì)量值為qi,則對應(yīng)的堿基錯誤率為i=1,2,...,d,d表示該位點對應(yīng)的測序深度。

2,模型的建立

對于每一個位點的數(shù)據(jù)分布情況分為兩種模型來解釋:

模型M0:這個位點不存在變異,跟參考基因組不同的那些堿基都是系統(tǒng)誤差導(dǎo)致的;

模型這個位點的突變r→m是真實存在的,并且等位基因突變頻率為f,對于那些既不為r,也不為m的堿基當做系統(tǒng)誤差處理。

該位點的數(shù)據(jù)分布情況能夠當作模型M0來處理的概率為:

其中:

該位點的數(shù)據(jù)分布能夠當做模型來處理的概率為

其中:

到此,變異檢出的問題就轉(zhuǎn)換為判斷位點的數(shù)據(jù)分布情況更偏向于哪個模型,也即對兩個概率L(M0)和進行比較,于是建立如下的變異檢出模型。

一般情況下,與L(M0)的差異都是數(shù)量級上的差異,因此的值會很大,所以會對其采取取對數(shù)的操作。

其中,為參考值,θ即為對應(yīng)的cut off值。

(二)模型用于變異檢測的檢測靈敏度

靈敏度(sensitivity)=f(等位基因allelic fraction,測序深度depth,堿基測序錯誤率local sequencing error rate,確定的cut off)。

在此模型下,sensitivity表現(xiàn)為所有的使得成立的帶有突變的reads數(shù)出現(xiàn)的概率的總和。

針對θ∈(0,0.1,0.2,...,10)里的每一個θ值,計算滿足的最小k值,(k為帶有突變的reads數(shù)),即

然后通過二項分布的概率計算公式:

此處f(1-e)+(1-f)e為reads帶有突變的概率。

計算相應(yīng)的概率,即為靈敏性。

(三)模型用于變異檢測的檢測特異性

特異性(Specificity)=f(local sequencing error rate,depth,evidence cut off)。

在此模型下,Specificity表現(xiàn)為所有的使得成立的系統(tǒng)錯誤造成的帶有突變的reads數(shù)出現(xiàn)的概率的總和

針對θ∈(0,0.1,0.2,...,10)里的每一個θ值,計算滿足的最小k值,(k為不帶突變的reads數(shù)),即

然后通過二項分布的概率計算公式:此處1-e為reads不帶有突變的概率。

計算相應(yīng)的概率,即為特異性。

(四)ROC曲線(ROC curve)和cut off的確定

分別對測序深度和等位基因頻率進行限定,根據(jù)上述公式進行計算,繪制ROC曲線圖,結(jié)果如圖3和圖4所示。

從圖3和圖4中可以看出在大于200x,突變頻率大于0.03的情況下選擇cut offθ=2可以滿足要求。隨著頻率和測序深度的繼續(xù)增大,AUC也在繼續(xù)增大,故cut offθ=2對測序深度大于200x,突變頻率大于0.03的變異檢出均成立。

實施例二

在獲得測序下機數(shù)據(jù)后,以獲得BGISEQ-100平臺下機數(shù)據(jù)為例,進行變異檢測一般包括如下部分:

1、變異已知信息處理以及測序數(shù)據(jù)預(yù)處理

1.1將要檢出的變異類型轉(zhuǎn)換成檢出程序識別的格式,生成待測變異list列表。

1.2將下機數(shù)據(jù)與參考基因組比對。對BGISEQ-100有效測序數(shù)據(jù)使用tmap工具比對到參考基因組上,得到精確的比對結(jié)果。其中tmap工具源自:https://github.com/iontorrent/TS/tree/master/Analysis/TMAP。

排序。使用samtools sort對利用tmap比對后的結(jié)果(bam文件)進行排序:按照染色體編號和所在染色體上的位置按照從小到大的順序進行排序。

去掉比對結(jié)果的PCR重復(fù)片段。對排序后的結(jié)果(bam文件)使用BamDuplicates工具去除PCR重復(fù)片段。其中,BamDuplicates工具的著作權(quán)源自Ion Torrent Systems,Inc.。

建索引。對去掉PCR重復(fù)片段之后的bam利用samtools index建立相應(yīng)的索引。

1.3對處理好的bam文件進行QC質(zhì)控,合格的文件將進行后續(xù)的步驟。

2、已知變異位點的檢測

使用自主腳本lungSnvIndel.pl來檢測去重之后的bam文件中那些已知的位點是否存在相應(yīng)的變異,包括snv和indel。具體的,調(diào)用該腳本包括實現(xiàn)以下:

數(shù)據(jù)輸入,從list文件中提取待測位點信息,讀入bam文件中指定位點的測序reads。

過濾,依次過濾掉具有以下特征的reads:MapQ<30(比對質(zhì)量小于30)、CIGAR中包含MIDS外的標記、指定位點位于reads末端5bp。

變異驗證,以指定位點為中心,5`和3`方向各延伸5個bp,共11個bp與list中的記錄做比對,若相同則為支持reads。對所有覆蓋reads循環(huán)操作,統(tǒng)計支持reads數(shù)量,代入以下參考值模型進行驗證判斷,若成立,則判定該變異存在。

結(jié)果輸出。

3、未知INDEL類型的檢測

如果上面步驟2中沒有檢測到INDEL的存在,則可以使用tvc來對上述已知INDEL的區(qū)域進行檢測,給出其他的INDEL基因型。Tvc是lifeTechnologies公司針對proton數(shù)據(jù)開發(fā)的snv或indel檢測程序。

使用TVC工具(http://ioncommunity.lifetechnologies.com/community/products/torrent-variant-caller),使用其默認參數(shù)json文件檢測腫瘤相關(guān)的SNV。

使用TVC工具,調(diào)整其參數(shù)json文件,參數(shù)data_quality_stringency由8.5改為6,參數(shù)filter_unusual_predictions由0.25改為0.3,檢測腫瘤組織indel。

4、對融合基因進行檢測

使用程序seekSV來對指定的融合基因進行檢測,seekSV為華大基因(BGI)自主開發(fā)的融合基因檢測軟件。運行該程序包括實現(xiàn)以下:

4.1遍歷bam文件,提取出有soft clip標記的測序reads,確定參考基因組每個位置覆蓋的soft clip reads(割裂讀段)數(shù)量。

4.2對每個位置覆蓋的soft clip reads數(shù)量進行分析,確定breakpoint(斷點)候選位點。

4.3假定breakpoint候選位點處reads比對的基因是融合基因中一對基因中的一個融合partner 1,切掉breakpoint候選位點的切割讀段中非匹配到該候選位點的reads片段進行組裝,形成一致性序列。

4.4將新生成的一致性序列在參考基因組上進行比對,若能比對上,假定新比對位置是breakpoint候選位點的另一個融合partner 2,對原比對到此處的soft clip reads重復(fù)4.3中的比對操作,若能比對到partner 1,則確認存在基因融合變異。

4.5結(jié)果輸出。

5、可選擇進行部分

變異注釋。使用自主腳本Annotation.pl為檢出的變異添加注釋信息,同時添加患者信息。

生成報告。讀入患者信息,利用已知的注釋信息生成html版報告,同時自動化生成pdf版本的報告,并繪制檢出位點的reads圖。

圖3顯示基于BGISEQ-100測序平臺的單樣本測序數(shù)據(jù)確定變異檢出的流程。

需要說明的:

在第1部分中的1.1,首先收集了不同試劑盒所檢測的變異類型,同時收錄了COSMIC數(shù)據(jù)庫中記載的臨床意義已明的變異類型,然后通過特定的算法,推定這些變異發(fā)生后測序reads應(yīng)當具有的序列。舉個例子,對于變異EGFR c.2235_2249del15,根據(jù)變異的描述,結(jié)合參考基因組hg19,可知正常測序reads在2235-2249間的堿基序列,當變異發(fā)生后,2235-2249間的堿基缺失,5`和3`端的堿基序列將直接連在一起,即生成新的目標序列,也即是發(fā)生變異后應(yīng)當出現(xiàn)的序列,如下表1所示。所稱的特定算法模擬以上變化過程,并向5`和3`兩個方向各延伸5bp。

表1

表1中的“發(fā)生變異后應(yīng)當出現(xiàn)的序列”、“序列起始位置”和“序列結(jié)束位置”即為發(fā)生變異后測序reads應(yīng)當具有的序列特征。

在上述第1部分中的1.2中,針對BGISEQ-100測序數(shù)據(jù)的特點,對測序結(jié)果進行標準的處理,包括比對,去重等。

在上述第1部分中的1.3,對標準處理后數(shù)據(jù)進行QC質(zhì)控,只有合格的數(shù)據(jù)才能參與到后續(xù)的變異分析中。

在上述第2-4部分中,通過第1部分中建立的列表,在測序數(shù)據(jù)中檢測列表中的變異類型是否存在。若未檢測到已知的INDEL基因型,則利用TVC在這個區(qū)域內(nèi)尋找是否有新的INDEL突變基因型存在。若存在新的基因型且被判定為致病,則這個新的變異基因型也會加入到已知變異檢測列表中。同時融合基因也會在這一步中被檢測。

在上述第5部分中,對前邊檢測出來的變異進行注釋并格式化輸出。

采用上述的已知致病變異檢出方法,有效的整合了實驗方法和高通量測序方法的優(yōu)點。相比實驗方法,本發(fā)明經(jīng)濟成本更底,對檢測的內(nèi)容更加靈活,能夠方便的增加新的檢測基因型;相比傳統(tǒng)的高通量方法,本方法只關(guān)注特定位點的確切變異,檢測速度更快,靈敏度更高。由于對SNV和INDEL采用了新的檢測策略,有效的解決了在INDEL區(qū)域比對質(zhì)量下降對變異檢出的影響,同時能夠在相同的比對質(zhì)量下更好的檢測到complex INDEL變異,并針對BGISEQ-100的數(shù)據(jù)做了專門的優(yōu)化。由于所要檢測的變異已知,因此只需要分析單樣本。此外,流程中還整合了融合基因檢測。在流程檢出后,根據(jù)收錄的用藥信息給予注釋,直接生成pdf版本的臨床檢測報告。因此本發(fā)明的有益效果為在更低的經(jīng)濟投入,針對臨床意義已明的致癌變異,利用BGISEQ-100高通量測序方法快速檢測已知的致病變異(包含complex和fusion),并直接給出pdf版本臨床報告。

實施例三

該示例利用一名女性左上肺腺癌患者的FFPE組織樣本,對其進行目標區(qū)域捕獲以及BGISEQ-100平臺測序,對測序下機的有效數(shù)據(jù)通過tmap比對、samtools sort排序、BamDuplicates去重、samtools index建索引、已知位點的變異檢測、變異注釋、生成報告等步驟,最終得到該患者的已知位點的變異檢測報告。

將上述的變異檢測方法的各部分流程都整合到軟件Otype中,軟件的運行環(huán)境為Linux操作系統(tǒng),具體操作步驟如下:

在Linux操作系統(tǒng)計算機終端中輸入如下的命令行:

perlOtype.pl–lsample.list–o outdir–O run.sh,會生成相應(yīng)的運行腳本。

sh run.sh運行腳本。

Otype的命令行參數(shù)含義具體見表2的參數(shù)說明。

表2參數(shù)說明

結(jié)果分析:

1、分析QC質(zhì)控信息,判斷數(shù)據(jù)能否用于變異檢出。數(shù)據(jù)統(tǒng)計信息如表3所示,數(shù)據(jù)質(zhì)量滿足后續(xù)分析要求。

表3

2、統(tǒng)計病人在每個已知位點的變異情況

如圖6所示,如果最后一列為“KEEP”表示在特定的位點存在相應(yīng)的變異,如果最后一列為“REJECT”表示在特定的位點不存在相應(yīng)的變異。

如圖6中的第32行,當EGFR L858R變異發(fā)生時,該樣本測序結(jié)果比對到參考基因組上后,在chr7:55259510-55259521間應(yīng)當具有TGGGCGGGCCA的序列,對覆蓋該區(qū)域的258條reads進行過濾,剩余193條,檢索目標序列,得到31條匹配reads,其中14條為正向鏈。提取質(zhì)量值進行LOD計算,lod>2,通過檢驗,確認該變異存在。

上圖中30行,當EGFR G719S變異發(fā)生時,該樣本測序結(jié)果比對到參考基因組上后,在chr7:55241702-55241713間應(yīng)當具有TCCTGAGCTCC的序列,對覆蓋該區(qū)域的262條reads進行過濾,剩余218條,檢索目標序列,得到1條正向鏈匹配reads,。提取質(zhì)量值進行LOD計算,lod<2,不通過檢驗,確認該變異不存在。

3、自動化生成pdf的報告。包括已知位點的變異情況以及相應(yīng)的一些靶向藥物的信息,具體如以下圖7所示。結(jié)合reads圖,例如結(jié)合圖8對檢出變異進行確認。圖8示例比對結(jié)果中,參考基因組chr7上的T突變?yōu)镚堿基,與變異檢測結(jié)果一致。

在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。

盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同物限定。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1