基于光學(xué)圖譜平臺(tái)Irys的一種de novo測(cè)序數(shù)據(jù)組裝方法
【專利摘要】本發(fā)明涉及一種基于光學(xué)圖譜平臺(tái)Irys的一種denovo測(cè)序數(shù)據(jù)組裝方法,使用光學(xué)圖譜平臺(tái)Irys得到基因組裝文件;同時(shí),拿到NGS的scaffold文件:fai文件;數(shù)據(jù)預(yù)處理:通過設(shè)定閾值,過濾掉可信度低的比對(duì)結(jié)果,合并cmap文件,排序,計(jì)算N50;組裝效果統(tǒng)計(jì):統(tǒng)計(jì)BioNano與NGS比對(duì)結(jié)果,包括BioNano的contig與NGS的scaffold長(zhǎng)度、個(gè)數(shù)以及總量;根據(jù)BioNano的contig與NGS的scaffold之間的網(wǎng)絡(luò)拓?fù)潢P(guān)系,分類分析組裝出的新的contig長(zhǎng)度與scaffold長(zhǎng)度??梢暂o助基因組組裝,明顯提高物種的基因組裝效果。
【專利說明】
基于光學(xué)圖譜平臺(tái)I rys的一種de novo測(cè)序數(shù)據(jù)組裝方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明設(shè)及生物信息學(xué),特別設(shè)及主要應(yīng)用于輔助de novo測(cè)序數(shù)據(jù)組裝與結(jié)構(gòu) 變異的檢測(cè)。
【背景技術(shù)】
[0002] 基因組de novo測(cè)序即基因組從頭測(cè)序,是指對(duì)基因組序列未知或沒有近緣物種 基因組的某個(gè)物種的全基因組序列的測(cè)序。然后利用生物信息學(xué)手段對(duì)測(cè)序序列進(jìn)行拼 接、組裝和注釋,從而獲得該物種完整的基因組序列圖譜。目前,最常用的方法是二代測(cè)序 (Next Generation Sequencing,NGS),但是NGS方法會(huì)使大量重復(fù)元件和結(jié)構(gòu)變異的信息 丟失,所W組裝完整的基因組圖譜就成為一個(gè)難題。
[0003] BioNano Genomics公司拓展了納米通道技術(shù),并把它發(fā)展為一個(gè)靈活的具有高分 辨率和極長(zhǎng)單分子DNA的光學(xué)圖譜平臺(tái)Irys,使得常規(guī)和精確檢測(cè)基因組結(jié)構(gòu)變異和完成 基因組組裝成為可能(Shelton J !,Coleman M〔,Herndon N,et al.Tools and pipelines for BioNano data: molecule assembly pipeline and FASTA super scaffolding tool [J].BMC genomics,2015,16( I): I.)。通過捕捉高分辨率的極長(zhǎng)的DNA分 子,I巧S系統(tǒng)提供一個(gè)基因組圖譜,可W觀察任何生物的基因組包括人類(Pendleton M, Sebra R,Pang AW C,et al.Assembly and diploid architecture of an individual human genome via single-molecule technologies[J] .Nature methods ,2015.)。該圖譜 可W桐察引起表型變異的新的基因組結(jié)構(gòu)變異(Cao H,化Stie A R,Cao D,et al.Rapid detection of structural variation in 曰 human genome using n曰noch曰nnel-b曰sed genome mapping technology!! J] .GigaScience ,2014,3(1): 1-11.);利用全面的基因組視 角更快更完整的實(shí)現(xiàn)從頭組裝;利用單分子成像打開真實(shí)的基因組生物學(xué)與一系列應(yīng)用; 避免擴(kuò)增和剪切帶來的錯(cuò)誤,在單分子水平解剖復(fù)雜的混合物,而不是在一個(gè)平均測(cè)量值 上面丟失罕見的變異;高性價(jià)比和高通量的Irys系統(tǒng)更全面和更準(zhǔn)確的刻畫了整個(gè)基因組 范圍內(nèi)的基因組事件;更全面的了解整個(gè)基因組的事件。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于提供一種基于光學(xué)圖譜平臺(tái)Irys的一種denovo測(cè)序數(shù)據(jù)組裝 方法,計(jì)算得到更長(zhǎng)、更準(zhǔn)確的cont ig與Scaf f 01 d。。
[0005] 為解決上述技術(shù)問題,本發(fā)明的實(shí)施方式提供了一種基于光學(xué)圖譜平臺(tái)Irys的一 種denovo測(cè)序數(shù)據(jù)組裝方法,步驟為:
[0006] 第一步,使用光學(xué)圖譜平臺(tái)1巧3得到基因組裝文件:細(xì)曰口文件、9.細(xì)曰口文件、 r. cmap文件;同時(shí),拿到NGS的scaffold文件:fai文件;
[0007] 第二步,數(shù)據(jù)預(yù)處理:通過設(shè)定闊值,過濾掉低可信度的比對(duì)結(jié)果,合并cmap文件, 排序,計(jì)算N50;
[000引第S步,組裝效果統(tǒng)計(jì):統(tǒng)計(jì)BioNano與NGS比對(duì)結(jié)果,包括Bio化no的contig與NGS 的scaffold長(zhǎng)度、個(gè)數(shù)W及總量;
[0009] 第四步,根據(jù)BioNano的contig與NGS的Scaffold之間的網(wǎng)絡(luò)拓?fù)潢P(guān)系,分類分析 組裝出的新的contig長(zhǎng)度與scaffold長(zhǎng)度。
[0010]第二步數(shù)據(jù)預(yù)處理具體步驟為:i)篩選fai文件:按照xmap文件中化yContigID提 取f ai文件中的query名稱,作為xmap的第11列;i i)篩選xmap文件:設(shè)定闊值,篩選出所有符 合條件的比對(duì)文件;i i i)分別對(duì)q. cmap文件、r. cmap文件去重,然后與xmap文件合并,并按 照BioNano的contig ID排序,并計(jì)算N50。
[0011] 第四步分類分析是指采用無向拓?fù)鋱D顯示兩種方法中參與比對(duì)contig的大小與 網(wǎng)絡(luò)關(guān)系,BioNano的contig與NGS的scaffold按照--對(duì)應(yīng)、一對(duì)多、多對(duì)一的關(guān)系進(jìn)行分 類分析;--對(duì)應(yīng),計(jì)算contig;-對(duì)多,計(jì)算scaffold的長(zhǎng)度。
[0012] 所述的--對(duì)應(yīng),計(jì)算contig具體分為四類:i)Bio化no的contig片段包含在NGS 的scaffold中,表明組裝出來的contig長(zhǎng)度沒有NGS的scaffold長(zhǎng)度長(zhǎng);故此時(shí)gap為0,組 裝的contig 記為NGS 的scaffold 長(zhǎng)度 Cont ig_length,NGS 的scaffold 長(zhǎng)度為化
[0013] Contig-Iength = QL;
[0014] ii)NGS的scaffold片段包含在Bio化no的contig中,說明兩個(gè)酶切位點(diǎn)之間的距 離,也就是記錄的contig之間存在gap,則計(jì)算gap長(zhǎng)度;假設(shè)兩個(gè)酶切位點(diǎn)分別為RS、RE,記 錄的cont ig長(zhǎng)度為化,則gap長(zhǎng)度,記為Gap_s ize,則
[0015] Gap_size = RS+RL-RE;
[0016] iii )Bio化no的contig長(zhǎng)度與NGS的scaffold長(zhǎng)度相等,此時(shí)gap為0,定義此時(shí)組 裝的contig長(zhǎng)度記為Contig_length為兩者的平均值,假設(shè)NGS的scaffold起始位置為QS、 犯,長(zhǎng)度為化,則有
[0017] RE-RS-化二犯-QS-化,
[0018] Contig-Iength= (RL+QD/2;
[0019] Iiii )Bio化no的contig長(zhǎng)度與NGS的scaffold分為正方向比對(duì)與負(fù)方向比對(duì),分 別
[0020] 用V'與區(qū)分;正方向比對(duì),此時(shí)的contig長(zhǎng)度為
[0021] Contig_length = I?L-RE+犯
[0022] 或者
[0023] Contig_length = RS+Ql^-QS
[0024] Gap 為化-RE 或者 RS;
[00巧]BioNano的contig長(zhǎng)度與NGS的scaffold負(fù)方向比對(duì),此時(shí),contig長(zhǎng)度為 [00%] Contig_length =化-36+(^^-犯 [0027] 或者
[00 巧]Contig_length = RS+QS [00巧]Gap為犯或者化-QS。
[0030] 所述的一對(duì)多,計(jì)算scaffold的長(zhǎng)度是指提取一條Bio化no的contig與兩條NGS的 scaffold比對(duì)上的contig,并按照拼接方向,分為"--"4種情況組裝出更 長(zhǎng)的contig,也就是 scaffold;
[0031 ]當(dāng)拼接方向?yàn)?++"時(shí),定義計(jì)算公式如下:
[0032] scaffold_length=(RS2-RS1)+QSl+(QL2-QS2);
[0033] 當(dāng)拼接方向?yàn)闀r(shí),定義此時(shí)組裝出來的新的scaffold長(zhǎng)度如下:
[0034] scaffold-length= (RS2-RS1 )+QSl+(QS2-犯2);
[00巧]當(dāng)拼接方向?yàn)闀r(shí),新的scaffold長(zhǎng)度為:
[0036] scaffold_length=(RS2-RSl) + (QLl-QSl) + (QL2-QS2);
[0037] 當(dāng)拼接方向?yàn)闀r(shí),有
[0038] ScaffolcLlength= (RS2-RS1 ) + (QL2-QSl)+犯 2;
[0039] RSl:BioNano方法中contigl的開始位置;
[0040] REl:BioNano方法中contigl的末端位置;
[0041 ] RS2: BioNano 方法中 contig2的開始位置;
[0042] RE2: BioNano 方法中 contig2的末端位置;
[0043] QSl:NGS方法中contigl的開始位置;
[0044] QS2: NGS方法中contigl的末端位置;
[0045] 犯1 :NGS方法中contig2的開始位置;
[0046] 犯2:NGS方法中contig2的末端位置;
[0047] 化:BioNano 方法中 contigl+contig2 長(zhǎng)度;
[004引化1:NGS方法中contigl的長(zhǎng)度;
[0049] 化2:NGS方法中contig2的長(zhǎng)度。
[0050] 本發(fā)明在光學(xué)圖譜平臺(tái)Irys的基礎(chǔ)上,通過分析BioNano的contig與NGS的 scaffold之間的網(wǎng)絡(luò)拓?fù)潢P(guān)系,提出一種新的de novo測(cè)序數(shù)據(jù)組裝方法,計(jì)算得到更長(zhǎng)、 更準(zhǔn)確的contig與scaffold。
[0051] 本發(fā)明的基于光學(xué)圖譜平臺(tái)Irys的統(tǒng)計(jì)方法,可W輔助基因組組裝,明顯提高物 種的基因組裝效果。
【附圖說明】
[00對(duì)圖1是Bio化no的contig與NGS的scaffold網(wǎng)絡(luò)關(guān)系拓?fù)鋱D。圓點(diǎn)代表Bio化no的 contig, S角形代表 NGS 的scaffold。
[0化3] 圖2是BioNano的contig片段包含于NGS的scaffold。
[0化4] 圖3是NGS的scaffold片段包含于BioNano的contig。
[0055] 圖4是BioNano的contig長(zhǎng)度與NGS的scaffold長(zhǎng)度相等。
[0化6] 圖5是BioNano的contig長(zhǎng)度與NGS的scaffold正方向比對(duì)。
[0057] 圖6是BioNano的contig長(zhǎng)度與NGS的scaffold負(fù)方向比對(duì)。
[0化引圖7-條BioNano的contig與兩條NGS的scaffold。++"方向比對(duì)。
[0化9] 圖8-條BioNano的contig與兩條NGS的scaffold。+-"方向比對(duì)。
[0060]圖 9一條 BioNano 的contig 與兩條 NGS 的scaffold"-+"方向比對(duì)。
[0061 ]圖 10-條 BioNano 的contig 與兩條 NGS 的scaffold"-"方向比對(duì)。
【具體實(shí)施方式】
[0062]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明的各實(shí) 施方式進(jìn)行詳細(xì)的闡述。然而,本領(lǐng)域的普通技術(shù)人員可W理解,在本發(fā)明各實(shí)施方式中, 為了使讀者更好地理解本申請(qǐng)而提出了許多技術(shù)細(xì)節(jié)。但是,即使沒有運(yùn)些技術(shù)細(xì)節(jié)和基 于W下各實(shí)施方式的種種變化和修改,也可W實(shí)現(xiàn)本申請(qǐng)各權(quán)利要求所要求保護(hù)的技術(shù)方 案。
[0063] 首先介紹本發(fā)明中用到的幾個(gè)概念:
[0064] !.read:測(cè)序過程中,一個(gè)DNA分子先經(jīng)過克隆形成若干個(gè)拷貝,然后運(yùn)些拷貝被 打碎成若干條短的,可W直接測(cè)序的片段,每一條片段稱作一個(gè)"read",測(cè)序儀產(chǎn)生的即是 read的集合。
[00化]2. Contig:拼接軟件基于reads之間的overlap區(qū),拼接獲得的序列稱為Contig (重 疊群)。
[0066] 3. Scaffold:基因組de novo測(cè)序,通過reads拼接獲得Contigs后,往往還需要構(gòu) 建454?日山日(1-日11(1庫(kù)或11111111111日1日1日可日1'庫(kù),^獲得一定大小片段(如3肺、服13、10肺、 20Kb)兩端的序列?;谶\(yùn)些序列,可W確定一些Contig之間的順序關(guān)系,運(yùn)些先后順序已 知的Contigs 組成 Scaf fold。
[0067] 4.Contig N50:Reads拼接后會(huì)獲得一些不同長(zhǎng)度的Contigs。將所有的Contig長(zhǎng) 度相加,能獲得一個(gè)Contig總長(zhǎng)度。然后將所有的Contigs按照從長(zhǎng)到短進(jìn)行排序,如獲得 Contig !,Contig 2,Contig 3............Contig 25。將Contig按照運(yùn)個(gè)順序依次相加,當(dāng) 相加的長(zhǎng)度達(dá)到Contig總長(zhǎng)度的一半時(shí),最后一個(gè)加上的Contig長(zhǎng)度即為Contig N50。
[006引 5.Scaffold N50:Scaffold N50與Contig N50的定義類似。Contigs拼接組裝獲得 一些不同長(zhǎng)度的Scaffolds。將所有的Scaffold長(zhǎng)度相加,能獲得一個(gè)Scaffold總長(zhǎng)度。然 后將所有的Scaffolds按照從長(zhǎng)到短進(jìn)行排序,如獲得Scaffold 1 ,Scaffold 2,Scaffold 3. . ..........Scaffold 25。將Scaffold按照運(yùn)個(gè)順序依次相加,當(dāng)相加的長(zhǎng)度達(dá)到Scaffold 總長(zhǎng)度的一半時(shí),最后一個(gè)加上的Scaffold長(zhǎng)度即為Scaffold N50。
[0069] 本發(fā)明的目的是在光學(xué)圖譜平臺(tái)Irys分析基礎(chǔ)上,提出一種新的de novo測(cè)序數(shù) 據(jù)組裝方法,更快的組裝出更長(zhǎng)、更準(zhǔn)確的contig與scaffold。
[0070] 本發(fā)明提出的方法,包括W下步驟:
[0071] 1 Irys結(jié)果數(shù)據(jù)的簡(jiǎn)要說明
[0072] 將物種的基因測(cè)序數(shù)據(jù)導(dǎo)入Irys軟件后,會(huì)得到W下組裝的質(zhì)量報(bào)告與cmap數(shù)據(jù) 文件。
[0073] 報(bào)告
[0074] 測(cè)序數(shù)據(jù)質(zhì)量報(bào)告
[0075] 測(cè)序后過濾得到的數(shù)據(jù)質(zhì)量報(bào)告,包含大于IOOkb、150kb、ISOkb、250kb、SOOkbW 及150-200化的reads個(gè)數(shù)、數(shù)據(jù)量、bin的質(zhì)量分?jǐn)?shù)等信息。
[0076] 比對(duì)結(jié)果報(bào)告
[0077] 拼接組裝質(zhì)量報(bào)告,比對(duì)統(tǒng)計(jì)結(jié)果包括10-500化、100-500kb、150-500化、200- 500此、250-500此、^及大于500此的6111的個(gè)數(shù)、數(shù)據(jù)量、質(zhì)量分?jǐn)?shù)、置信度^及真假陽(yáng)性率 等。
[007引數(shù)據(jù) [0079] (一)cmap 文件
[0080] l.q.cmap 文件
[0081 ] q.cmap 文件包含 Query 的比對(duì)10(〇'7.〔1曰口1(1)、〇116^的(3〇]11:1邑長(zhǎng)度 (QiT . ContigLength)、QueiT的酶切位點(diǎn)個(gè)數(shù)(QiT .NumSites)、QueiT的酶切位點(diǎn)標(biāo)號(hào) (QiT. SiteID)、QueiT的酶切位點(diǎn)位置(QiT.Position)、QueiT的標(biāo)準(zhǔn)差(QiT. St加 ev)與 如eiy的酶切位點(diǎn)覆蓋度(化y. Co verage)等信息。
[0082] S.r.cmap 文件
[0083] r. cmap文件中包含reference的cmap編號(hào)(Ref .CMapId) ,reference的contig長(zhǎng)度 (Ref .ContigLength) ,reference 的酶切位點(diǎn)個(gè)數(shù)(Ref .NumSi tes)reference 的酶切位點(diǎn)標(biāo) 號(hào)(Ref. SiteID) ,reference的酶切位點(diǎn)位置(Ref .Position) ,reference的酶切位點(diǎn)標(biāo)準(zhǔn) 差(Ref. St郵ev) W及reference的酶切位點(diǎn)覆蓋度(Ref .Coverage)等。
[0084] 3.xmap 文件
[0085] 此文件中每列所含信息命名W及如下:
[0086] 比對(duì)事件的ID(XmapEntiTID)、query的contig ID(QryContigID)、reference contig ID(RefcontigID)、比對(duì)在query的起始位置(QrySl:a;rt化S)、比對(duì)在query的終點(diǎn)位 置(QirElndPos )、比對(duì)在reference的起始位置(Ref StartPos )、比對(duì)在reference的終點(diǎn)位 置(RefEndPos)、比對(duì)發(fā)生的方向(Orientation)、比對(duì)的可信度(Confidence) W及比對(duì)的 詳細(xì)match信息,M表示match,I表示insertion,D表示deletion(HitEnum)。
[0087] (二)NGS 的 scaffold 文件(fai 文件)
[008引含有雜亂無章的scaffold信息,例如比對(duì)scaffold的名稱(QiT.name) ,scaffold 長(zhǎng)度(化y. length)等,數(shù)據(jù)量為353Mb,總長(zhǎng)度10,542bp,N50為72化b。
[0089] 2數(shù)據(jù)預(yù)處理及統(tǒng)計(jì)
[0090] 2.1篩選fai文件
[0091 ] 按照xmap文件中化yContigID提取化i文件中的query名稱,作為xmap的第11列。
[0092] 2.2篩選皿39文件
[0093] 為了過濾掉低可信度的比對(duì)結(jié)果,需要設(shè)定闊值,篩選出所有符合條件的比對(duì)文 件。運(yùn)里,假設(shè)闊值為10,置信度超過(包含HO的比對(duì),被認(rèn)為是可靠的。
[0094] 2.3 合并
[0095] 分別對(duì)q. cmap文件、r. cmap文件去重,然后與xmap文件合并,并按照B i O化no的 contig ID排序,方便統(tǒng)計(jì)比對(duì)序列的N50。
[0096] 2.4比較服0
[0097] 統(tǒng)計(jì)BioNano的contig與NGS的scaffold長(zhǎng)度、個(gè)數(shù)W及總量,如表1所示。
[009引表1 BioNano與NGS比對(duì)結(jié)果統(tǒng)計(jì)
[0099]
[0100] 由表1可W看出,Bio化no比對(duì)上的contig比率為44.60%,要遠(yuǎn)大于NGS得到的 scaffold;而總體參與比對(duì)的contig比率與NGS相差不大。
[0101] 3 BioNano的contig與NGS的scaffold網(wǎng)絡(luò)拓?fù)鋱D
[0102] 表1此表顯示了BioNano的contig與NGS的scaffold的總體分布信息,但是并不能 表明每個(gè)con t i g的順序、位置信息。如何組裝出更長(zhǎng)的con t i g才是本發(fā)明最關(guān)屯、的問題。首 先,用無向拓?fù)鋱D顯示兩種方法中參與比對(duì)contig的大小與網(wǎng)絡(luò)關(guān)系,如圖1所示。從圖中 可W看到幾乎每個(gè)NGS的scaffold都被覆蓋到,并且兩者之間的關(guān)系十分復(fù)雜,存在 BioNano的contig與NGS的scaffold--對(duì)應(yīng)、一對(duì)多、多對(duì)一等關(guān)系。
[0103] 3.1--對(duì)應(yīng),計(jì)算 contig
[0104] 首先,考慮最簡(jiǎn)單的情況,contig與NGS的scaffold--對(duì)應(yīng)。按照運(yùn)種關(guān)系從圖3 中提取所有符合條件的contig,將其可W分為4類:
[0105] (- )BioNano的contig片段包含在NGS的scaffold中,如圖2所示;
[0106] 此種情況表明組裝出來的contig長(zhǎng)度還沒有NGS的scaffold長(zhǎng)度長(zhǎng);故此時(shí)gap為 0,組裝的contig記為NGS的scaffold長(zhǎng)度(記為化)。
[0107] Contig-Iength = QL
[0108] (二)NGS的scaffold片段包含在BioNano的contig中,如圖3所示;
[0109] 運(yùn)時(shí),說明兩個(gè)酶切位點(diǎn)之間的距離,也就是記錄的contig之間存在gap(也就是 兩端空白),并且可W計(jì)算gap長(zhǎng)度。例如,假設(shè)兩個(gè)酶切位點(diǎn)分別為RS、RE,記錄的contig長(zhǎng) 度為化,則gap長(zhǎng)度(記為Gap_s i Z e)為
[0110] Gap_size = RS+RL-RE
[0111] (S)BioNano的contig長(zhǎng)度與NGS的scaffold長(zhǎng)度相等,如圖4所示;
[0112] 顯然,此時(shí)gap為0,定義此時(shí)組裝的contig長(zhǎng)度(記為Contig_length)為兩者的平 均值。例如,假設(shè)NGS的scaffold起始位置為QS、犯,長(zhǎng)度為化,則有
[0113] RE-RS-化二犯-QS-化
[0114] Contig-Iength= (RL+QD/2 [0115](四)其化障況
[0116] 一般分為正方向比對(duì)與負(fù)方向比對(duì),分別用V'與區(qū)分。
[0117] a)BioNano的contig長(zhǎng)度與NGS的scaffold正方向比對(duì),如圖5所示。
[0118] 此時(shí)的contig長(zhǎng)度為
[0119] Contig_length = I?L-RE+犯
[0120] 或者
[0121] Contig_length = RS+Ql^-QS
[0122] Gap 為化-RE 或者 RS。
[0123] b)BioNano的contig長(zhǎng)度與NGS的scaffold負(fù)方向比對(duì),如圖6所示。
[0124] 此時(shí),contig長(zhǎng)度為
[01巧]0〇11^邑_16雌地=化-1?6+9心犯
[0126] 或者
[0127] Contig_length = RS+QS
[0128] Gap為犯或者化-QS。
[0129] 按照上述四種情況計(jì)算出組裝的conig長(zhǎng)度,可W統(tǒng)計(jì)出最終組裝的contig總長(zhǎng) 度、片段數(shù)、平均長(zhǎng)度W及平均gap長(zhǎng)度、conti巧0等來評(píng)估組裝效果的好壞。統(tǒng)計(jì)結(jié)果如表 2所示。
[0130] 表2全基因組拼接contig統(tǒng)計(jì)表 「01311
成一條新的scaffold,長(zhǎng)度即為3條片段的長(zhǎng)度減去重疊部分。運(yùn)里,定義計(jì)算公式如下:
[0147] scaffold_length=(RS2-RS1)+QSl+(QL2-QS2)
[0148] 同理,可W定義如圖8-10所示的新的scaffold長(zhǎng)度。當(dāng)拼接方向?yàn)闀r(shí)(如圖8 所示),定義此時(shí)組裝出來的新的scaffold長(zhǎng)度如下:
[0149] scaffold_length=(RS2-RSl)+QSl+(QS2-犯 2);
[0150] 當(dāng)拼接方向?yàn)闀r(shí),新的scaffold長(zhǎng)度為:
[0151] scaffold_length=(RS2-RSl) + (QLl-QSl) + (QL2-QS2);
[0152] 當(dāng)拼接方向?yàn)闀r(shí),有
[0153] ScaffolcLlength= (RS2-RS1) + (QL2-QS1)+犯 2。
[0154]按照上述四種情況計(jì)算出組裝的Scaf f 01 d長(zhǎng)度,統(tǒng)計(jì)Scaf f 01 d總長(zhǎng)度、數(shù)量、 scaffoldSO等來評(píng)估組裝效果的好壞。統(tǒng)計(jì)結(jié)果如表3所示。
[01巧]表3全基因組拼接scaffold統(tǒng)計(jì)表
[0156]
[0157] 4.4本方法在其他的物種的應(yīng)用
[0158] 基于光學(xué)圖譜平臺(tái)Irys的統(tǒng)計(jì)方法,可W輔助基因組組裝,明顯提高物種的基因 組裝效果。W擬南芥為例,TairlO~120Mb,數(shù)據(jù)量48G~400x(〉= 150kb)。組裝結(jié)果如表4所 /J、- O
[0159] 表4擬南芥基因組裝結(jié)果統(tǒng)計(jì)表
[0160]
[0'
[0162] 服0從1.52616提高到4.22916,增加了177%;5。日''〇1(1+(:〇1111旨數(shù)量從688縮減到 595,減少了 13.5%;最長(zhǎng)的 scaffold 從 5.3Mb 提高到8.89Mb,增加了67.7%。
[0163] 為了更好的說明本方法的有效性與實(shí)用性,分別對(duì)不同的物種使用,并得到如表5 的統(tǒng)計(jì)結(jié)果。
[0164] 表5基于光學(xué)圖譜平臺(tái)Irys的基因組裝方法的優(yōu)勢(shì)在其他物種上的驗(yàn)證 「01 化1 LU166」上曲谷種萬(wàn)巧的步驟劃分,M是刃J
描還猜楚,買現(xiàn)町W 曾巧刃一個(gè)步驟或吞 對(duì)某些步驟進(jìn)行拆分,分解為多個(gè)步驟,只要包含相同的邏輯關(guān)系,都在本專利的保護(hù)范圍 內(nèi);對(duì)算法中或者流程中添加無關(guān)緊要的修改或者引入無關(guān)緊要的設(shè)計(jì),但不改變其算法 和流程的核屯、設(shè)計(jì)都在該專利的保護(hù)范圍內(nèi)。
[0167]本領(lǐng)域的普通技術(shù)人員可W理解,上述各實(shí)施方式是實(shí)現(xiàn)本發(fā)明的具體實(shí)施例, 而在實(shí)際應(yīng)用中,可W在形式上和細(xì)節(jié)上對(duì)其作各種改變,而不偏離本發(fā)明的精神和范圍。
【主權(quán)項(xiàng)】
1. 一種基于光學(xué)圖譜平臺(tái)Irys的一種denovo測(cè)序數(shù)據(jù)組裝方法,其特征在于,步驟為: 第一步,使用光學(xué)圖譜平臺(tái)Irys得到基因組裝文件:xmap文件、q.cmap文件、r.cmap文 件;同時(shí),拿到NGS的scaffold文件:fai文件; 第二步,數(shù)據(jù)預(yù)處理:通過設(shè)定閾值,過濾掉低可信度的比對(duì)結(jié)果,合并cmap文件,排 序,計(jì)算N50; 第三步,組裝效果統(tǒng)計(jì):統(tǒng)計(jì)BioNano與NGS比對(duì)結(jié)果,包括BioNano的contig與NGS的 scaffold長(zhǎng)度、個(gè)數(shù)以及總量; 第四步,根據(jù)BioNano的contig與NGS的scaffold之間的網(wǎng)絡(luò)拓?fù)潢P(guān)系,分類分析組裝 出的新的contig長(zhǎng)度與scaffold長(zhǎng)度。2. 根據(jù)權(quán)利要求1所述的基于光學(xué)圖譜平臺(tái)Irys的一種denovo測(cè)序數(shù)據(jù)組裝方法,其 特征在于,第二步數(shù)據(jù)預(yù)處理具體步驟為:i)篩選fai文件:按照xmap文件中QryContigID提 取fai文件中的query名稱,作為xmap的第11列;i i)篩選xmap文件:設(shè)定閾值,篩選出所有符 合條件的比對(duì)文件;iii)分別對(duì)q · cmap文件、r · cmap文件去重,然后與xmap文件合并,并按 照BioNano的contig ID排序,并計(jì)算N50。3. 根據(jù)權(quán)利要求1所述的基于光學(xué)圖譜平臺(tái)Irys的一種denovo測(cè)序數(shù)據(jù)組裝方法,其 特征在于,第四步分類分析是指采用無向拓?fù)鋱D顯示兩種方法中參與比對(duì)contig的大小與 網(wǎng)絡(luò)關(guān)系,BioNano的contig與NGS的scaffold按照--對(duì)應(yīng)、一對(duì)多、多對(duì)一的關(guān)系進(jìn)行分 類分析;--對(duì)應(yīng),計(jì)算contig;-對(duì)多,計(jì)算scaffold的長(zhǎng)度。4. 根據(jù)權(quán)利要求3所述的基于光學(xué)圖譜平臺(tái)Irys的一種denovo測(cè)序數(shù)據(jù)組裝方法,其 特征在于,所述的--對(duì)應(yīng),計(jì)算contig具體分為四類: i) BioNano的contig片段包含在NGS的scaffold中,表明組裝出來的contig長(zhǎng)度沒有 NGS的scaffold長(zhǎng)度長(zhǎng);故此時(shí)gap為0,組裝的(3〇111:丨8記為如3的8〇3€;1^〇1(1長(zhǎng)度(]〇111:1區(qū)_ 1 ength,NGS的 scaffold長(zhǎng)度為QL Cont i g_length = QL; ii) NGS的scaffold片段包含在BioNano的contig中,說明兩個(gè)酶切位點(diǎn)之間的距離,也 就是記錄的contig之間存在gap,則計(jì)算gap長(zhǎng)度;假設(shè)兩個(gè)酶切位點(diǎn)分別為RS、RE,記錄的 contig長(zhǎng)度為RL,則gap長(zhǎng)度,記為Gap_size,貝丨J Gap_s i z e = RS+RL-RE; iii) BioNano的contig長(zhǎng)度與NGS的scaffold長(zhǎng)度相等,此時(shí)gap為0,定義此時(shí)組裝的 contig長(zhǎng)度記為Contig_length為兩者的平均值,假設(shè)NGS的scaffold起始位置為QS、QE,長(zhǎng) 度為QL,則有 RE-RS-RL = QE-QS-QL, Cont i g_length =(RL+QL)/2; iiii)BioNano的contig長(zhǎng)度與NGS的scaffold分為正方向比對(duì)與負(fù)方向比對(duì),分別用 "+"與區(qū)分;正方向比對(duì),此時(shí)的contig長(zhǎng)度為 Cont i g_length = RL-RE+QE 或者 Cont i g_length = RS+QL-QS Gap 為 RL-RE 或者 RS; BioNano的contig長(zhǎng)度與NGS的scaffold負(fù)方向比對(duì),此時(shí),contig長(zhǎng)度為 Cont i g_length = RL-RE+QL-QE 或者 Cont i g_length = RS+QS Gap 為 QE 或者 QL-QS。5.根據(jù)權(quán)利要求3所述的基于光學(xué)圖譜平臺(tái)Irys的一種denovo測(cè)序數(shù)據(jù)組裝方法,其 特征在于,所述的一對(duì)多,計(jì)算scaffold的長(zhǎng)度是指提取一條BioNano的contig與兩條NGS 的scaffold比對(duì)上的contig,并按照拼接方向,分為"一"4種情況組裝出 更長(zhǎng)的contig,即為scaffold; 當(dāng)拼接方向?yàn)?++"時(shí),定義此時(shí)組裝出來的scaffold長(zhǎng)度scaffold_length如下: scaffold_length=(RS2-RSl)+QSl+(QL2-QS2); 當(dāng)拼接方向?yàn)闀r(shí),定義此時(shí)組裝出來的新的scaffold長(zhǎng)度如下: scaffold_length=(RS2-RSl)+QSl+(QS2-QE2); 當(dāng)拼接方向?yàn)闀r(shí),新的scaf f ο 1 d長(zhǎng)度為: scaffold_length=(RS2-RSl) + (QLl-QSl) + (QL2-QS2); 當(dāng)拼接方向?yàn)?一"時(shí),有 scaffold_length=(RS2-RS1)+(QL2-QSl)+QE2; RSI: BioNano方法中contigl的開始位置; RE1: BioNano方法中cont igl的末端位置; RS2: Bi oNano方法中cont i g2的開始位置; RE2: Bi oNano方法中cont i g2的末端位置; QS1: NGS方法中cont igl的開始位置; QS2: NGS方法中cont i g 1的末端位置; QE 1: NGS方法中conti g2的開始位置; QE2: NGS方法中cont i g2的末端位置; RL: BioNano 方法中 conti gl+contig2 長(zhǎng)度; QL1: NGS方法中cont igl的長(zhǎng)度; QL2: NGS方法中cont i g2的長(zhǎng)度。
【文檔編號(hào)】G06F19/18GK106021978SQ201610211082
【公開日】2016年10月12日
【申請(qǐng)日】2016年4月6日
【發(fā)明人】馬豐收, 張藝, 何飛, 劉洋
【申請(qǐng)人】晶能生物技術(shù)(上海)有限公司