用于組裝核酸序列數(shù)據(jù)的方法
【專利摘要】本發(fā)明涉及一種用于將包含核酸片段讀段的核酸序列數(shù)據(jù)組裝成連續(xù)核苷酸序列節(jié)段的方法,其包括以下步驟:(a)從多個(gè)核酸片段讀段獲得多個(gè)核酸序列數(shù)據(jù);(b)將所述多個(gè)核酸序列數(shù)據(jù)與參考序列比對(duì);(c)檢測(cè)步驟(b)的比對(duì)輸出中的一或多個(gè)未組裝的或與所述參考序列不匹配的缺口或區(qū)域;(d)對(duì)定位至所述未組裝的缺口或區(qū)域的核酸序列數(shù)據(jù)進(jìn)行從頭序列組裝;和(e)組合步驟(b)的比對(duì)輸出和步驟(d)的比對(duì)輸出以獲得連續(xù)的核苷酸序列節(jié)段。本發(fā)明還涉及一種方法,其中未組裝缺口或區(qū)域的檢測(cè)通過(guò)采用堿基質(zhì)量、覆蓋度、周圍區(qū)域復(fù)雜性或錯(cuò)配長(zhǎng)度過(guò)濾器或閾值來(lái)進(jìn)行。還考慮的是屏蔽掉與已知多態(tài)性、高度可變區(qū)、疾病相關(guān)突變或修飾、重復(fù)、低定位能力區(qū)域、CPG島、或具有特定生物物理學(xué)特征的區(qū)域相關(guān)的核酸序列數(shù)據(jù)。此外,提供了相應(yīng)的用于組裝核酸序列數(shù)據(jù)的程序單元或計(jì)算機(jī)程序以及用于將包含核酸片段讀段的核酸序列數(shù)據(jù)轉(zhuǎn)化成連續(xù)核苷酸序列節(jié)段的序列組裝系統(tǒng)。
【專利說(shuō)明】用于組裝核酸序列數(shù)據(jù)的方法
發(fā)明領(lǐng)域
[0001]本發(fā)明涉及一種用于將包含核酸片段讀段(read)的核酸序列數(shù)據(jù)組裝成連續(xù)核苷酸序列節(jié)段的方法,其包括步驟:(a)從多個(gè)核酸片段讀段獲得多個(gè)核酸序列數(shù)據(jù);(b)將所述多個(gè)核酸序列數(shù)據(jù)與參考序列比對(duì);(c)檢測(cè)步驟(b)的比對(duì)輸出中的一或多個(gè)未組裝的或與所述參考序列不匹配的缺口或區(qū)域;(d)對(duì)定位至所述未組裝的缺口或區(qū)域的核酸序列數(shù)據(jù)進(jìn)行從頭序列組裝;和(e)組合步驟(b)的比對(duì)輸出和步驟(d)的組裝輸出以獲得連續(xù)的核苷酸序列節(jié)段。本發(fā)明還涉及一種方法,其中未組裝缺口或區(qū)域的檢測(cè)通過(guò)采用堿基質(zhì)量、覆蓋度、周圍區(qū)域復(fù)雜性或錯(cuò)配長(zhǎng)度過(guò)濾器或閾值來(lái)進(jìn)行。還考慮的是屏蔽掉與已知多態(tài)性、高度可變區(qū)、疾病相關(guān)突變或修飾、重復(fù)、低定位能力(mapability)區(qū)域、CPG島、或具有特定生物物理學(xué)特征的區(qū)域相關(guān)的核酸序列數(shù)據(jù)。此外,提供了相應(yīng)的用于組裝核酸序列數(shù)據(jù)的程序單元(program element)或計(jì)算機(jī)程序以及用于將包含核酸片段讀段的核酸序列數(shù)據(jù)轉(zhuǎn)化成連續(xù)核苷酸序列節(jié)段的序列組裝系統(tǒng)。
[0002]發(fā)明背景
[0003]在引入第二代或超高通量測(cè)序技術(shù)后,序列數(shù)據(jù)的量極大地增加,而獲得序列信息的花費(fèi)以及提供該信息所需的時(shí)間已顯著減少并且在將來(lái)會(huì)進(jìn)一步降低。第二代測(cè)序方法的研究以及臨床應(yīng)用將影響轉(zhuǎn)錄組分析和基因注釋,允許RNA剪接鑒別、SNP發(fā)現(xiàn)或基因組甲基化分析,并提供了鑒別疾病病因和基于個(gè)人篩選基因組模式的途徑。
[0004]目前第二代測(cè)序(NGS)僅基于包括Roche/454、Illumina/Solex 和 ABISOLiD系統(tǒng)的一些平臺(tái)。作為其基礎(chǔ)的技術(shù)依賴于在測(cè)序開(kāi)始前的模板擴(kuò)增步驟。因此,相比于傳統(tǒng)的基于Sanger的技術(shù),讀段長(zhǎng)度被縮短:脫_脫氧終止子方法提供650_800bp的讀段長(zhǎng)度,而NGS方法具有35-400bp的讀段長(zhǎng)度(Bao et al., Journal of HumanGenetics, 28April2011, p.1-9)。此外,從NGS平臺(tái)獲得的原始數(shù)據(jù)不是標(biāo)準(zhǔn)化的且在讀段長(zhǎng)度、錯(cuò)誤譜、匹配閾值等顯示差異。因此,NGS方法的應(yīng)用意味著序列信息的量和復(fù)雜性的增加。
[0005]然而,NGS測(cè)序機(jī)器的輸出本身基本上是沒(méi)有價(jià)值的,因?yàn)樾蛄凶x段只有重建出其代表的連續(xù)基因組序列才變得有意義。此外,對(duì)于NGS的常規(guī)用途,例如在臨床設(shè)置中,高的序列精度和便利的選擇感興趣的基因組子集的方法是重要的。隨著基因組測(cè)序與醫(yī)學(xué)咨詢實(shí)踐的更高度整合,遺傳學(xué)家將有更多的責(zé)任確保獲得的信息的確是真的并代表個(gè)體的原始基因組。
[0006]因此,需要這樣的方法,其允許精確地和省時(shí)地比對(duì)和組裝可從NGS方法獲得的核酸序列數(shù)據(jù)。
[0007]發(fā)明概述
[0008]本發(fā)明滿足了這種需要并提供了手段和方法,其允許將包含核酸片段讀段的核酸序列數(shù)據(jù)組裝成連續(xù)的核苷酸序列節(jié)段。上述目標(biāo)特別地通過(guò)包括下述步驟的方法實(shí)現(xiàn):
[0009](a)從多個(gè)核酸片段讀段獲得多個(gè)核酸序列數(shù)據(jù);
[0010](b)將所述多個(gè)核酸序列數(shù)據(jù)與參考序列比對(duì);[0011](c)檢測(cè)步驟(b)的比對(duì)輸出中的一或多個(gè)未組裝的或與所述參考序列不匹配的缺口或區(qū)域;
[0012](d)對(duì)定位至所述未組裝的缺口或區(qū)域的核酸序列數(shù)據(jù)進(jìn)行從頭序列組裝;和
[0013](e)組合步驟(b)的比對(duì)輸出和步驟(d)的組裝輸出以獲得連續(xù)的核苷酸序列節(jié)段。
[0014]該方法提供這樣的優(yōu)勢(shì),通過(guò)使用從頭組裝步驟可以克服通常在進(jìn)行參考序列比對(duì)時(shí)產(chǎn)生的偏差。此外,與填充在參考序列比對(duì)、多態(tài)性長(zhǎng)度檢測(cè)以及尤其在共有序列組裝中未對(duì)齊序列的擬合(fitting)中產(chǎn)生的缺口相關(guān)的典型問(wèn)題,當(dāng)通過(guò)從頭組裝閉合這些信息缺口或中斷時(shí),可以被解決。與此同時(shí),從頭組裝方法已知的注釋問(wèn)題可以通過(guò)基于參考序列進(jìn)行所述分析的一部分來(lái)減輕。所述方法因此以參考序列比對(duì)為開(kāi)始,且當(dāng)其發(fā)現(xiàn)未組裝的缺口或區(qū)域時(shí)其轉(zhuǎn)換為從頭比對(duì),例如,直到其再次檢測(cè)到參考比對(duì)。這產(chǎn)生具有顯著增加的序列精度的共有組裝或連續(xù)的核苷酸序列節(jié)段。事實(shí)上,如此組裝的序列代表個(gè)體基因組而不是參考基因組并且避免參考序列相關(guān)的偏差問(wèn)題。因此假設(shè)本文描述的方法具有巨大的應(yīng)用,尤其是在醫(yī)學(xué)遺傳學(xué)上,其可以幫助確定復(fù)雜遺傳疾病的遺傳學(xué)基礎(chǔ)。
[0015]在本發(fā)明優(yōu)選的實(shí)施方式中,其中上述的多個(gè)核酸序列數(shù)據(jù)被轉(zhuǎn)換成統(tǒng)一格式。
[0016]在本發(fā)明另一優(yōu)選的實(shí)施方式中,本文上述的步驟(C)的檢測(cè)通過(guò)應(yīng)用過(guò)濾器(filter)或閾值來(lái)實(shí)現(xiàn)。
[0017]在進(jìn)一步優(yōu)選的實(shí)施方式中,所述過(guò)濾器或閾值是堿基質(zhì)量、覆蓋度、周圍區(qū)域復(fù)雜性或錯(cuò)配長(zhǎng)度過(guò)濾器或閾值。
[0018]在本發(fā)明另一優(yōu)選的實(shí)施方式,在上述比對(duì)步驟(b)之前屏蔽掉與已知多態(tài)性、高度可變區(qū)、疾病相關(guān)突變或修飾、重復(fù)、低定位能力區(qū)域(low mapability region)、CPG島、或具有特定生物物理學(xué)特征的區(qū)域相關(guān)的核酸序列數(shù)據(jù)。
[0019]在一特別優(yōu)選的實(shí)施方式中,對(duì)所述屏蔽掉的核酸序列數(shù)據(jù)進(jìn)行本文上述的步驟(d)的從頭序列組裝。
[0020]在本發(fā)明另一優(yōu)選的實(shí)施方式中,上面定義的步驟(b)用參考比對(duì)算法進(jìn)行。在一特別優(yōu)選的實(shí)施方式中,所述參考比對(duì)算法是BFAST、ELAND、GenomeMapper, GMAP, MAQ,MOSAIK、PASS、SeqMap, SHRiMP, SOAP、SSAHA、或 CLD。甚至更優(yōu)選的是 Bowtie 或 BWA。
[0021]在本發(fā)明仍另一優(yōu)選的實(shí)施方式中,上面定義的步驟(C)用從頭組裝算法進(jìn)行。在一特別優(yōu)選的實(shí)施方式中,所述從頭組裝算法是AAPATHS、Edena, EULER-SR、MIRA2、SEQAN、SHARCGS, SSAKE, SOAPdenovo, VCAKE。甚至更優(yōu)選的是 ABySS 或 Velvet。
[0022]在進(jìn)一步優(yōu)選的實(shí)施方式中,本文上述的參考序列是基本上完整的原核、真核或病毒基因組序列,或其子部分。在本發(fā)明特別優(yōu)選的實(shí)施方式中,所述參考序列是人類基因組序列、動(dòng)物基因組序列、植物基因組序列、細(xì)菌基因組序列,或其子部分。
[0023]在本發(fā)明進(jìn)一步優(yōu)選的實(shí)施方式中,所述參考序列選自一組或分類群,所述組或分類群與其核酸序列數(shù)據(jù)待組裝的生物體在系統(tǒng)發(fā)育上相關(guān)。
[0024]在本發(fā)明另一優(yōu)選的實(shí)施方式中,所述參考序列是具有調(diào)控能力的基因組子部分,其選自包含以下的組:外顯子序列、啟動(dòng)子序列、增強(qiáng)子序列、轉(zhuǎn)錄因子結(jié)合位點(diǎn)、或其任何分組或子分組。
[0025]在進(jìn)一步優(yōu)選的實(shí)施方式中,所述參考序列是基于序列組成參數(shù)或基于生物物理學(xué)核酸特性的虛擬序列(virtual sequence)。在本發(fā)明特別優(yōu)選的實(shí)施方式中,所述組成參數(shù)是單體、二聚體和/或三聚體的存在。在本發(fā)明進(jìn)一步優(yōu)選的實(shí)施方式中,所述生物物理學(xué)核酸特性是聚積能量(stacking energy)、螺旋楽;式扭轉(zhuǎn)的存在、核酸的可彎曲性、雙鏈體穩(wěn)定性、斷裂能的量、自由能的量、DNA變性的存在或DNA彎曲剛度。
[0026]在本發(fā)明的另一方面涉及用于將包含核酸片段讀段的核酸序列數(shù)據(jù)組裝成連續(xù)核苷酸序列節(jié)段的程序單元或計(jì)算機(jī)程序,其在由處理器執(zhí)行時(shí)適于實(shí)施上文定義的方法的步驟。
[0027]在本發(fā)明的仍另一方面涉及一種用于將包含核酸片段讀段的核酸序列數(shù)據(jù)轉(zhuǎn)化成連續(xù)核苷酸序列節(jié)段的序列組裝系統(tǒng),其包含計(jì)算機(jī)處理器、內(nèi)存和數(shù)據(jù)儲(chǔ)存裝置,所述內(nèi)存具有執(zhí)行上文定義的程序單元或計(jì)算機(jī)程序的程序指令。
[0028]在本發(fā)明優(yōu)選的實(shí)施方式中,所述序列組裝系統(tǒng)與測(cè)序裝置關(guān)聯(lián)或連接。在進(jìn)一步優(yōu)選的實(shí)施方式中,所述序列組裝系統(tǒng)是醫(yī)學(xué)決策支持系統(tǒng)。在特別優(yōu)選的實(shí)施方式中,所述醫(yī)學(xué)決策支持系統(tǒng)是診斷決策支持系統(tǒng)。
[0029]附圖簡(jiǎn)述
[0030]圖1提供了參考和從頭序列和比對(duì)方法的概述。參考序列比對(duì)和組裝顯示將讀段定位至參考序列?;趤?lái)自ABySS-Explorer視圖的摘錄,從頭組裝顯示使用ABySS算法產(chǎn)生重疊群(contig),其中邊(edge)代表重疊群而節(jié)點(diǎn)(node)代表相鄰重疊群之間的共同k-l_聚體。標(biāo)簽對(duì)應(yīng)于SET重疊群ID。重疊群長(zhǎng)度和覆蓋度分別通過(guò)邊的長(zhǎng)度和厚度指示。箭頭和弧形邊指示重疊群的方向,而節(jié)點(diǎn)的極性區(qū)分相鄰重疊群之間的共同k-1-聚體的反向互補(bǔ)。
[0031]圖2顯示不同序列文件格式的實(shí)例。展示的是qseq格式(來(lái)自Illumina儀器的序列讀段輸出,其含有機(jī)器、運(yùn)行和質(zhì)量信息)、fastq格式(Illumina讀段名字、序列和質(zhì)量來(lái)自 qseq 文件)和 BWA 比對(duì)器(aligner)輸出的 SAM 格式(Sequence Alignment/Map)。SAM格式允許儲(chǔ)存針對(duì)參考的讀段比對(duì)信息。
[0032]圖3示出根據(jù)本發(fā)明的比對(duì)和組裝步驟的概述。其顯示組合參考比對(duì)和從頭組裝的整體方法。開(kāi)始時(shí)將讀段比對(duì)至參考序列。如果鑒別出N/A/T/G/C的缺口(例如,用戶定義的大小,如>10堿基),其中讀段不連續(xù)地(以重疊方式)與前面讀段匹配至參考,將開(kāi)始從頭組裝。將會(huì)有從頭重疊群信息,直到鑒別到下一與參考匹配的讀段。該從頭重疊群然后將與中間共有序列(intermediate consensus)合并以給出最終共有序列。
[0033]圖4顯示根據(jù)本發(fā)明的參考序列比對(duì)和從頭組裝組合的方法步驟的流程圖。
[0034]圖5示出根據(jù)本發(fā)明的方法使用參考比對(duì)和重頭組裝的組合,確定AVPRlA基因中的GT多態(tài)性的準(zhǔn)確長(zhǎng)度。首先,將讀段和參考基因組比對(duì)以提取所分析樣品的AVPRl基因。由于RS3是高度多態(tài)性位點(diǎn)并與臨床表型相關(guān)聯(lián),落入該染色體的讀段進(jìn)行重頭組裝,隨后產(chǎn)生重疊群。在獲得所述重疊群后,進(jìn)行不嚴(yán)格的序列比對(duì)(允許錯(cuò)配和缺口)以將從頭重疊群和參考共有序列合并。獲得的共有序列顯示所分析樣品的真實(shí)的多態(tài)性重復(fù)。
[0035]圖6顯示AVPRlA基因的參考序列組裝和從頭組裝之間的直接比較。讀段被比對(duì)至參考序列并進(jìn)行重頭組裝。從參考產(chǎn)生的共有序列然后使用ClustanW比對(duì)至從頭重疊群。示出了 GT重復(fù)的差異,其來(lái)自參考序列的偏差,參考序列與從頭組裝相比顯示不同的重復(fù)含量?!揪唧w實(shí)施方式】
[0036]本發(fā)明人開(kāi)發(fā)了手段和方法,其允許將包含核酸片段讀段的核酸序列數(shù)據(jù)組裝成連續(xù)的核苷酸序列節(jié)段。
[0037]盡管本發(fā)明將根據(jù)【具體實(shí)施方式】進(jìn)行描述,這樣的描述不被解釋為限制意義。
[0038]在詳細(xì)描述本發(fā)明的示例性實(shí)施方式之前,給出用于理解本發(fā)明的重要的定義。
[0039]如本說(shuō)明書和所附權(quán)利要求所用,單數(shù)形式的“a ( — ) ”和“an ( —)”也包括各自的復(fù)數(shù),除非上下文明確地另有所指。
[0040]在本發(fā)明上下文中,術(shù)語(yǔ)“約”和“大約”指代精度的區(qū)間,本領(lǐng)域技術(shù)人員將理解其仍確保所指特征的技術(shù)效果。該術(shù)語(yǔ)一般指所指數(shù)值的±20%,優(yōu)選±15%,更優(yōu)選±10%以及甚至更優(yōu)選±5%的偏差。
[0041]應(yīng)當(dāng)理解術(shù)語(yǔ)“包含”是非限制性的。出于本發(fā)明的目的,術(shù)語(yǔ)“由……組成”被理解為術(shù)語(yǔ)“包含……”的優(yōu)選實(shí)施方式。如果下文定義組為包含至少一定數(shù)目的實(shí)施方式,這意味著還涵蓋優(yōu)選地僅由這些實(shí)施方式組成的組。
[0042]此外,說(shuō)明書和權(quán)利要求書中的術(shù)語(yǔ)“第一”、“第二”、“第三”或“(a) ”、“ (b) ”、
“(C) ”、“ (d) ”等等用于區(qū)分相似的元素,并不一定描述連續(xù)的或時(shí)間的次序。應(yīng)當(dāng)理解如此使用的術(shù)語(yǔ)在合適的環(huán)境下可以互換并且本文描述的本發(fā)明的實(shí)施方式能夠以本文描述或說(shuō)明的其它順序操 作。
[0043]如果術(shù)語(yǔ)“第一”、“第二”、“第三”或“ (a) ”、“ (b) ”、“ (C) ”、“ (d) ”等涉及方法或使
用的步驟,所述步驟之間沒(méi)有時(shí)間或時(shí)間間隔連貫性,即所述步驟可以同時(shí)進(jìn)行或這樣的步驟之間可以有秒、分鐘、小時(shí)、天、周、月或甚至年的時(shí)間間隔,除非在本申請(qǐng)上下文另有指明。
[0044]應(yīng)當(dāng)理解本發(fā)明不限于本文描述的具體的方法學(xué)、方案、試劑等,因?yàn)檫@些可以改變。還應(yīng)當(dāng)理解本文使用的術(shù)語(yǔ)僅為了描述具體的實(shí)施方式,而不旨在限制本發(fā)明的范圍,本發(fā)明的范圍將僅僅由所附的權(quán)利要求限制。除非另有定義,本文使用的全部技術(shù)和科學(xué)術(shù)語(yǔ)具有本領(lǐng)域普通技術(shù)人員所通常理解的相同含義。
[0045]如上所述,本發(fā)明在一方面涉及一種用于將包含核酸片段讀段的核酸序列數(shù)據(jù)組裝成連續(xù)核苷酸序列節(jié)段的方法,其包括以下步驟:
[0046](a)從多個(gè)核酸片段讀段獲得多個(gè)核酸序列數(shù)據(jù);
[0047](b)將所述多個(gè)核酸序列數(shù)據(jù)與參考序列比對(duì);
[0048](C)檢測(cè)步驟(b)的比對(duì)輸出中的一或多個(gè)未組裝的或與所述參考序列不匹配的缺口或區(qū)域;
[0049](d)對(duì)定位至所述未組裝的缺口或區(qū)域的核酸序列數(shù)據(jù)進(jìn)行從頭序列組裝;和
[0050](e)組合步驟(b)的比對(duì)輸出和步驟⑷的組裝輸出以獲得連續(xù)的核苷酸序列節(jié)段。
[0051]本文使用的核酸序列數(shù)據(jù)的術(shù)語(yǔ)“組裝”指的是將單個(gè)地或獨(dú)立地提供的序列數(shù)據(jù)排列成連續(xù)的核苷酸序列節(jié)段。本文使用的術(shù)語(yǔ)“連續(xù)的核苷酸序列節(jié)段”指的是請(qǐng)求保護(hù)的方法的輸出,其是連貫的、非冗余的且優(yōu)選無(wú)錯(cuò)誤或基本上無(wú)錯(cuò)誤的序列上下文。本文所用的“序列節(jié)段”可以是包含超過(guò)約50個(gè)讀段的信息內(nèi)容的任何延伸(stretch)。優(yōu)選地,序列節(jié)段可以是整個(gè)基因組,整個(gè)染色體,染色體臂,染色體的一或多個(gè)子部分,相關(guān)序列的連接物,例如,外顯子組,轉(zhuǎn)錄組相關(guān)序列,開(kāi)放讀碼框的連接物,內(nèi)含子,轉(zhuǎn)座子序列,重復(fù),調(diào)控組相關(guān)序列如轉(zhuǎn)錄因子結(jié)合位點(diǎn),甲基化結(jié)合蛋白位點(diǎn),具有更高的組蛋白3賴氨酸4單-雙-和三-甲基化可能性的特定區(qū)域等等。本文所用的“核酸片段讀段”指的是單一的、短的連續(xù)的序列數(shù)據(jù)的信息片或延伸。讀段可以具有任何合適的長(zhǎng)度,優(yōu)選約30個(gè)核苷酸至約1000個(gè)核苷酸的長(zhǎng)度。所述長(zhǎng)度一般取決于用于獲取其的測(cè)序技術(shù)。在【具體實(shí)施方式】中,讀段還可以更長(zhǎng),例如,2-10kb或更長(zhǎng)。本發(fā)明一般考慮任何讀段或讀段長(zhǎng)度,并且不應(yīng)被理解為限于目前能獲得的讀段長(zhǎng)度,而是還包括本領(lǐng)域的進(jìn)一步的發(fā)展,例如,長(zhǎng)讀段測(cè)序方法的開(kāi)發(fā)等等。
[0052]在所述方法的第一步中,可以獲得來(lái)自多個(gè)核酸片段讀段的多個(gè)核酸序列數(shù)據(jù)。本文所用的“核酸序列數(shù)據(jù)”可以是技術(shù)人員已知的核酸分子的任何序列信息。序列數(shù)據(jù)優(yōu)選地包括DNA或RNA序列、修飾的核酸、單鏈或雙鏈體序列、或可選地氨基酸序列(其必須轉(zhuǎn)換成核酸序列)的信息。序列數(shù)據(jù)可額外地包含測(cè)序機(jī)器、獲得日期、讀段長(zhǎng)度、測(cè)序方向、所測(cè)序的實(shí)體的來(lái)源、鄰近序列或讀段、重復(fù)的存在或本領(lǐng)域技術(shù)人員已知的任何其它合適參數(shù)的信息。序列數(shù)據(jù)可以以本領(lǐng)域技術(shù)人員已知的任何合適的格式、檔案(archive)、編碼或文檔呈現(xiàn)。所述數(shù)據(jù)例如可以是FASTQ、Qseq、CSFASTA、BED、WIG、EMBL,Phred、GFF, SAM、SRF, SFF或AB1-ABIF格式,如下表I描述和進(jìn)一步解釋。
[0053]表1:
[0054]
【權(quán)利要求】
1.一種用于將包含核酸片段讀段的核酸序列數(shù)據(jù)組裝成連續(xù)的核苷酸序列節(jié)段的方法,其包括以下步驟: (a)從多個(gè)核酸片段讀段獲得多個(gè)核酸序列數(shù)據(jù); (b)將所述多個(gè)核酸序列數(shù)據(jù)與參考序列比對(duì); (c)檢測(cè)步驟(b)的比對(duì)輸出中的一或多個(gè)未組裝的或與所述參考序列不匹配的缺口或區(qū)域; (d)對(duì)定位至所述未組裝的缺口或區(qū)域的核酸序列數(shù)據(jù)進(jìn)行從頭序列組裝;和 (e)組合步驟(b)的比對(duì)輸出和步驟⑷的組裝輸出以獲得連續(xù)的核苷酸序列節(jié)段。
2.權(quán)利要求1的方法,其中所述多個(gè)核酸序列數(shù)據(jù)被轉(zhuǎn)換為統(tǒng)一格式。
3.權(quán)利要求1或2的方法,其中通過(guò)應(yīng)用過(guò)濾器或閾值進(jìn)行步驟(c)的所述檢測(cè)。
4.權(quán)利要求3的方法,其中所述過(guò)濾器或閾值是堿基質(zhì)量、覆蓋度、周圍區(qū)域復(fù)雜性或錯(cuò)配長(zhǎng)度過(guò)濾器或閾值。
5.權(quán)利要求1-4任一項(xiàng)的方法,其中在比對(duì)步驟(b)之前屏蔽掉與已知多態(tài)性、高度可變區(qū)、疾病相關(guān)突變或修飾、重復(fù)、低定位能力區(qū)域、CPG島、或具有特定生物物理學(xué)特征的區(qū)域相關(guān)的核酸序列數(shù)據(jù)。
6.權(quán)利要求5的方法,其中對(duì)所述屏蔽掉的核酸序列數(shù)據(jù)進(jìn)行步驟(d)的從頭序列組裝。
7.權(quán)利要求1-6任一項(xiàng)的`方法,其中用參考比對(duì)算法,優(yōu)選用BFAST、ELAND、GenomeMapper, GMAP, MAQ, MOSAIK、PASS、SeqMap, SHRiMP, SOAP、SSAHA 或 CLD,更優(yōu)選用Bowtie或BWA進(jìn)行步驟(b)。
8.權(quán)利要求1-7任一項(xiàng)的方法,其中用從頭組裝算法,優(yōu)選用AAPATHS、Edena,EULER-SR、MIRA2、SEQAN、SHARCGS、SSAKE、S0APdenovo、VCAKE,更優(yōu)選用 ABySS 或 Velvet 進(jìn)行步驟(c)。
9.權(quán)利要求1-8任一項(xiàng)的方法,其中所述參考序列是基本上完整的原核、真核或病毒基因組序列或其子部分,優(yōu)選人類基因組序列、動(dòng)物基因組序列、植物基因組序列、細(xì)菌基因組序列或其子部分。
10.權(quán)利要求9的方法,其中所述參考序列選自一組或分類群,所述組或分類群與其核酸序列數(shù)據(jù)待組裝的生物體在系統(tǒng)發(fā)育上相關(guān)。
11.權(quán)利要求9的方法,其中所述參考序列是具有調(diào)控能力的基因組子部分,其選自包含以下的組:外顯子序列、啟動(dòng)子序列、增強(qiáng)子序列、轉(zhuǎn)錄因子結(jié)合位點(diǎn)、或其任何分組或子分組。
12.權(quán)利要求1-11任一項(xiàng)的方法,其中所述參考序列是基于序列組成參數(shù)或生物物理學(xué)核酸特性的虛擬序列,所述序列組成參數(shù)例如單體、二聚體和/或三聚體的存在,所述生物物理學(xué)核酸特性例如聚積能量、螺旋漿式扭轉(zhuǎn)、可彎曲性、雙鏈體穩(wěn)定性、斷裂能、自由能、DNA變性或DNA彎曲剛度。
13.一種用于將包含核酸片段讀段的核酸序列數(shù)據(jù)組裝成連續(xù)核苷酸節(jié)段的程序單元或計(jì)算機(jī)程序,當(dāng)被處理器執(zhí)行時(shí)適于實(shí)施權(quán)利要求1-12中任一項(xiàng)的方法中的步驟。
14.一種用于將包含核酸片段讀段的核酸序列數(shù)據(jù)轉(zhuǎn)化成連續(xù)核苷酸序列節(jié)段的序列組裝系統(tǒng),其包含計(jì)算機(jī)處理器、內(nèi)存和數(shù)據(jù)儲(chǔ)存裝置,所述內(nèi)存具有執(zhí)行權(quán)利要求13的程序單元或計(jì)算機(jī)程序的程序指令。
15.權(quán)利要求14的系統(tǒng),其與測(cè)序裝置關(guān)聯(lián)或連接,或其是醫(yī)療決策支持系統(tǒng),優(yōu)選診斷決策支 持系統(tǒng)。
【文檔編號(hào)】G06F19/22GK103797486SQ201280028003
【公開(kāi)日】2014年5月14日 申請(qǐng)日期:2012年5月24日 優(yōu)先權(quán)日:2011年6月6日
【發(fā)明者】S·庫(kù)馬爾, R·辛格, N·迪米特羅娃 申請(qǐng)人:皇家飛利浦有限公司