一種基于超長(zhǎng)基因組的變異檢測(cè)算法及檢測(cè)系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及基因序列結(jié)構(gòu)變異檢測(cè),具體涉及到一種基于超長(zhǎng)基因組的變異檢測(cè)算法及檢測(cè)系統(tǒng)。
【背景技術(shù)】
[0002]上世紀(jì)九十年代啟動(dòng)的人類基因組計(jì)劃(HGP),加上隨之而來的千人基因組計(jì)劃,DNA元件百科全書計(jì)劃(EN⑶DE)等的實(shí)施加快了基因組時(shí)代的發(fā)展。第二代、三代DNA促使許多物種的基因組測(cè)序計(jì)劃得以成功完成,從而積累了大量的生物數(shù)據(jù)。這些生物大數(shù)據(jù)必須通過適當(dāng)?shù)姆治鍪侄尾拍芡诰虺鼍哂袧撛诶碚搩r(jià)值和應(yīng)用價(jià)值的信息?;蚪M序列多態(tài)性,是指物種群體內(nèi)及群體間DNA序列和結(jié)構(gòu)的差異。人類的這些基因組差異決定了不同種族、群體和個(gè)體間基因組的差異或多態(tài)性?;蚪M多樣性包括單核苷酸多態(tài)性(Singlenucleotide polymorphism, SNP)、小片斷插入和缺失(small indel);基因組結(jié)構(gòu)變異通常指DNA序列長(zhǎng)度大于lkb的基因組差異,包括DNA片段插入(insert1n)與缺失(delet1n)、移位(transposit1n)、倒位(invers1n)以及DNA拷貝數(shù)目變化(Copynumber variat1ns,CNVs)等。結(jié)構(gòu)變異由于覆蓋的核苷酸總數(shù)遠(yuǎn)超過SNP的總數(shù),因此對(duì)個(gè)體表型的影響可能更大??茖W(xué)家們開發(fā)了很多用于預(yù)測(cè)基因組結(jié)構(gòu)變異的軟件,而且這些軟件已被廣泛應(yīng)用到人類基因組多態(tài)性研究中。但是已開發(fā)的絕大多數(shù)軟件只能有效地預(yù)測(cè)基因組單核苷酸多態(tài)性,小片段結(jié)構(gòu)變異,以及結(jié)構(gòu)變異中某種或某幾種類型。這些軟件對(duì)某些大尺度的結(jié)構(gòu)變異(例如,長(zhǎng)片段插入、缺失序列等)不能很好的挖掘,以至不同軟件預(yù)測(cè)結(jié)果之間的差異很大。常用的變異檢測(cè)軟件,例如Pinde 1、Breakdancer、CNVnator等都無法檢測(cè)大型的基因組變異,少部分算法可以檢測(cè)到基因組大型缺失,但是幾乎所有的算法流程都無法鑒定出大型插入、移位、倒置等大型的基因組結(jié)構(gòu)變異。本發(fā)明中開發(fā)的Variat1nBlast算法,有效地將具有高靈敏度的比對(duì)算法和圖形理論相結(jié)合,實(shí)現(xiàn)了堿基水平檢測(cè)基因組變異,變異檢測(cè)范圍可以從最小的單核苷酸改變到大型復(fù)雜的基因組結(jié)構(gòu)變異。
【發(fā)明內(nèi)容】
[0003]本發(fā)明提供一種基于超長(zhǎng)基因組的變異檢測(cè)算法,簡(jiǎn)稱Variat1nBlast算法,解決了現(xiàn)有算法不能準(zhǔn)確檢測(cè)大型超長(zhǎng)基因組的結(jié)構(gòu)變異的問題。
[0004]本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:
[0005]—種基于超長(zhǎng)基因組的變異檢測(cè)算法,包括以下步驟:
[0006]S1、采用局部序列比對(duì)算法,檢測(cè)出測(cè)序片段和參考序列間存在的所有匹配,得到局部匹配事件,每一個(gè)局部匹配事件均包括測(cè)序片段和參考序列上的參考片段;
[0007]S2、將所有局部匹配事件中的測(cè)序片段按照比對(duì)至參考序列的位置進(jìn)行排序,將測(cè)序片段比對(duì)至參考序列上的位置重疊或順次相連的局部匹配事件分到一個(gè)組,有多少能夠相連或重疊的測(cè)序片段,就有多少個(gè)組;
[0008]S3、對(duì)每一個(gè)組內(nèi)的局部匹配事件按照不同的排序方式進(jìn)行評(píng)分,建立一個(gè)用來表示每一個(gè)組內(nèi)的所有局部匹配事件之間不同的排序方式的圖形模型,根據(jù)評(píng)分情況確定每一組內(nèi)的局部匹配事件的最佳排序方式;
[0009]S4、按照最佳排序方式將每一個(gè)組內(nèi)的局部匹配事件中的測(cè)序片段進(jìn)行串聯(lián),一個(gè)組得到一個(gè)測(cè)序序列read;
[00?0] S5、將每一組的測(cè)序序列read和參考序列進(jìn)彳丁對(duì)比,在測(cè)序序列;read上和參考序列不匹配的區(qū)域添加gap區(qū)域在參考序列上和測(cè)序序列read不匹配的區(qū)域添加gap區(qū)域,gap區(qū)域即空白區(qū)域,用于使測(cè)序序列read和參考序列的匹配區(qū)域位置完全對(duì)應(yīng),便于確認(rèn)變異的類型;
[0011]S6、對(duì)添加了gap區(qū)域后的最終測(cè)序序列進(jìn)行結(jié)構(gòu)變異檢測(cè)。
[0012]本發(fā)明的有益效果是:能夠充分利用由不斷提高(例如測(cè)序長(zhǎng)度不斷增加)的第二代以及第三代DNA測(cè)序技術(shù)所帶來的可能性,利用測(cè)序結(jié)果檢測(cè)各種尺度的結(jié)構(gòu)變異,包括其它軟件所不能夠預(yù)測(cè)的大尺度插入以及所有現(xiàn)有軟件都忽略的復(fù)合變異。本發(fā)明的Variat1nBlast將大大提高基因組變異和結(jié)構(gòu)變異預(yù)測(cè)的靈敏度、效率和準(zhǔn)確度,可以有效地應(yīng)用于來自不同物種、不同復(fù)雜度的基因組序列,從而為各個(gè)領(lǐng)域的科學(xué)研究和應(yīng)用提供強(qiáng)急需的強(qiáng)有力的支撐。
[0013]在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。
[0014]進(jìn)一步的,述步驟S1里采用的局部序列比對(duì)算法,為BLASTn、MegaBlast、BLASTz、(31'088_111&1:(311、131^\1'和《01131&81:算法中的一種。
[0015]進(jìn)一步的,所述步驟S2中需要同時(shí)考慮了測(cè)序片段兩條鏈上的情況,來建立局部匹配事件之間的關(guān)系模型。
[0016]采用上述進(jìn)一步方案的有益效果是:本發(fā)明可檢測(cè)出倒置等結(jié)構(gòu)變異。
[0017]進(jìn)一步的,所述步驟S4中的具體實(shí)現(xiàn)為:
[0018]S4.1、根據(jù)打分情況確定每一組內(nèi)的局部匹配事件的最佳排序方式后,
[0019]將每一組內(nèi)的局部匹配事件按照最佳排序方式進(jìn)行排序,并將所有局部匹配事件中的測(cè)序片段串聯(lián)成一個(gè)基礎(chǔ)測(cè)序序列;
[0020]S4.2、對(duì)基礎(chǔ)測(cè)序序列中的相鄰的測(cè)序片段的重疊部分進(jìn)行剔除,得到測(cè)序序列
reado
[0021]進(jìn)一步的,所述步驟S4.2中,對(duì)基礎(chǔ)測(cè)序序列中的相鄰的測(cè)序片段的重疊部分進(jìn)行剔除的方法是,若相鄰兩個(gè)測(cè)序片段之間存在重疊部分,分別將兩個(gè)測(cè)序片段的重疊部分和對(duì)應(yīng)的參考片段進(jìn)行對(duì)比,選取匹配度更高的一個(gè)重疊部分進(jìn)行保留,并把另一個(gè)重置部分剔除。
[0022]進(jìn)一步的,步驟S4.2中對(duì)基礎(chǔ)測(cè)序序列中的相鄰的測(cè)序片段的重疊部分進(jìn)行剔除后,還包括將基礎(chǔ)測(cè)序序列和參考序列進(jìn)行對(duì)比,若存在缺失片段,檢測(cè)剩余未歸入組內(nèi)的測(cè)序片段與缺失片段的匹配度,選取匹配度最高的測(cè)序片段放入相應(yīng)的基礎(chǔ)測(cè)序序列內(nèi),再得到每一組的測(cè)序序列read的步驟。
[0023]采用上述進(jìn)一步方案的有益效果是:本發(fā)明可檢測(cè)出轉(zhuǎn)座結(jié)構(gòu)變異。
[0024]進(jìn)一步的,步驟S3中,將符合線性連接關(guān)系的局部匹配事件分到一個(gè)組時(shí),每一個(gè)組內(nèi)的局部匹配事件的重疊度不大于閾值t。
[0025]進(jìn)一步的,所述步驟S3的具體實(shí)現(xiàn)為:
[0026]S3.1、將每個(gè)組內(nèi)的局部匹配事件中的測(cè)序片段按照比對(duì)至參考序列的位置進(jìn)行排序,所有的局部匹配事件按照位置從前到后依次排列;
[0027]S3.2、按照所有的局部匹配事件均可以與位置排在其后的局部匹配事件連接的條件,按照所有的可能性建立排序方式,構(gòu)建有向非循環(huán)圖形模型;
[0028]S3.3、設(shè)圖形模型中,在前局部匹配事件和在后局部匹配事件之間的關(guān)系為邊e,則每個(gè)邊e的減分Length(e) =P(e)-R(e),一個(gè)邊e的減分越少,則評(píng)分越高;
[0029]其中,P(e)代表邊e的減分、R(e)代表邊e的得分;
[0030]R(e)=PID*len,PID在后的局部匹配事件的匹配質(zhì)量,len是在后局部匹配事件的長(zhǎng)度;
[0031 ] P(e)=a*P_skip(e)+P*(P_ext(e)+P_sep(e));
[0032]α和β為權(quán)重系數(shù),可根據(jù)所分析的物種設(shè)定不同的值;
[0033]跳過中間節(jié)點(diǎn)的邊的減分P_skip(e) =min(PIDi*lem),其中i為所有被跳過的局部對(duì)比序列的序號(hào),
[0034]邊e有線性連接和非線性連接兩種情況,若兩個(gè)局部匹配事件中測(cè)序片段比對(duì)至參考序列的位置相鄰則屬于線性連接,不相鄰則屬于非線性連接,
[0035]P_ext(e)表示邊e是線性連接時(shí),測(cè)序片段和參考序列無法比對(duì)的區(qū)域,P_ext(e)=PID1-j* 1 em-j,i和j代表沒有比上參考序列的起始和終止位點(diǎn);
[0036]P_seP(e)表示邊e是非線性連接時(shí),測(cè)序片段和參考序列無法比對(duì)的區(qū)域,P_sep(e) =PID1-j,i和j代表沒有比上參考序列的起始和終止位點(diǎn);
[0037]不同的排序方式組合成的測(cè)序序列減分為L(zhǎng)ength(p