單通多變體識別計(jì)算流水線的制作方法
【專利摘要】本公開提供了一種利用計(jì)算機(jī)輔助實(shí)現(xiàn)的分析多個(gè)核酸片段中變體的方法。該方法使用的計(jì)算流水線包括至少一個(gè)恒定模塊和至少一個(gè)可變模塊,其中可變模塊基于可變參數(shù)。該方法包括在處理器上執(zhí)行下列步驟:接收多個(gè)核酸序列片段;為可變參數(shù)設(shè)定多個(gè)數(shù)值;將多個(gè)核酸片段通過不變模塊以產(chǎn)生中間輸出結(jié)果;將中間輸出結(jié)果多次通過可變模塊,每次使用可變參數(shù)的多個(gè)數(shù)值中的一個(gè);并生成多個(gè)變體識別。
【專利說明】單通多變體識別計(jì)算流水線
[0001] 相關(guān)申請的交叉引用
[0002] 本申請要求2015年3月27日提交的美國臨時(shí)申請62/139,148的優(yōu)先權(quán)。其全部內(nèi) 容在此參考并入。 發(fā)明領(lǐng)域
[0003] 本發(fā)明主要設(shè)及基因測序數(shù)據(jù)的分析。
【背景技術(shù)】
[0004] 二代測序技術(shù)(NGS)為大量生產(chǎn)生物數(shù)據(jù)提供了強(qiáng)有力的工具,并為取得個(gè)性化 醫(yī)療提供了幫助。雖然僅就取得序列數(shù)據(jù)來說,高通量基因測序的成本有所降低,但是分析 與解讀運(yùn)些大規(guī)模測序數(shù)據(jù)依然存在巨大的挑戰(zhàn)。為了識別NGS數(shù)據(jù)中的變體,大量序列比 對器和變體識別器被研發(fā)出來并且被整合成各式各樣的計(jì)算流水線。一個(gè)典型的計(jì)算流水 線包含一個(gè)序列比對器和一個(gè)變體識別器:前者可W將序列片段與參考基因組進(jìn)行比對, 后者確定變異點(diǎn)并且向?qū)ο蠓峙湟粋€(gè)基因型。在計(jì)算過程中,用戶為了正確分析序列數(shù)據(jù), 常常需要設(shè)定許多參數(shù)。更重要的是,一些數(shù)據(jù)需要基于細(xì)胞種類或者用于制備樣品的族 群來進(jìn)行優(yōu)化,從而準(zhǔn)確識別變體。然而由于計(jì)算流水線每次運(yùn)行都需要巨大的計(jì)算量,通 過運(yùn)行整個(gè)變體識別計(jì)算流水線來測試每一個(gè)參數(shù)設(shè)定在實(shí)際操作中是很難實(shí)現(xiàn)的。因 此,有持續(xù)的需求研發(fā)新的方法和系統(tǒng)來優(yōu)化用于分析NGS數(shù)據(jù)的參數(shù)設(shè)定。
[00化]發(fā)明概述
[0006] 一方面,本發(fā)明提供了一種通過用電腦執(zhí)行計(jì)算流水線來分析多個(gè)核酸序列片段 中的變體的方法。該流水線包括恒定模塊和可變模塊,所述可變模炔基于可變參數(shù)。在一些 實(shí)施例中,運(yùn)個(gè)方法包括用處理器執(zhí)行一系列步驟:獲取多個(gè)核酸序列片段;為可變參數(shù)設(shè) 置多個(gè)數(shù)值;將多個(gè)核酸序列片段輸送通過恒定模塊W產(chǎn)生中間輸出結(jié)果;將所述中間輸 出結(jié)果多次輸送通過所述可變模塊,每次使用所述可變參數(shù)設(shè)定的多個(gè)數(shù)值中的一個(gè);產(chǎn) 生多個(gè)變體識別。
[0007] 在某些實(shí)施方式中,所述可變模塊為變體識別模塊。
[000引在某些實(shí)施方式中,所述可變參數(shù)是先驗(yàn)概率。在某些實(shí)施方式中,所述先驗(yàn)概率 是全基因組單核巧酸多態(tài)性概率,插入缺失概率,Phred-scaled間隙延伸錯(cuò)誤概率或 I%red-scaled間隙開口錯(cuò)誤概率。
[0009] 在某些實(shí)施方式中,所述恒定模塊是定位模塊,重復(fù)片段標(biāo)記模塊,局域重新比對 模塊,堿基質(zhì)量重新校正模塊或其組合。
[0010] 在某些實(shí)施方式中,所述恒定模炔基于恒定參數(shù),并且所述方法包括為所述恒定 參數(shù)設(shè)置數(shù)值的步驟。
[0011] 在某些實(shí)施方式中,所述恒定參數(shù)選自下組:定位模塊中的比對種子,定位模塊中 的比對種子長度,定位模塊中的可允許的最大錯(cuò)配數(shù),重復(fù)片段標(biāo)記模塊中的選擇非重復(fù) 片段的評分策略,重復(fù)片段標(biāo)記模塊中的兩組重復(fù)片段的最大補(bǔ)償,局域重新比對模塊中 的錯(cuò)配懲罰,局域重新比對模塊中的間隙開口,局域重新比對模塊中的間隙延伸,堿基質(zhì)量 重新校正模塊中的重新校準(zhǔn)表格,變體識別模塊中的成對隱含馬可夫模型,變體識別模塊 中的變體識別模式和變體識別模塊中的變體識別闊值
[0012] 在某些實(shí)施方式中,前述方法進(jìn)一步包括如下步驟:基于所述多個(gè)變體識別,為所 述可變參數(shù)設(shè)置矯正數(shù)值;將所述中間輸出結(jié)果通過所述可變模塊,其中使用所述可變參 數(shù)設(shè)定的所述矯正數(shù)值;并且生成一個(gè)矯正的變體識別。
[0013] 另一方面,本發(fā)明提供了一種通過用電腦執(zhí)行計(jì)算流水線來分析多個(gè)核酸序列片 段中的變體的方法。該流水線包括恒定模塊和可變模塊,所述可變模炔基于可變參數(shù)。在一 些實(shí)施例中,運(yùn)個(gè)方法包括用處理器執(zhí)行一系列步驟:獲取多個(gè)核酸序列片段;為可變參數(shù) 設(shè)置多個(gè)數(shù)值;將多個(gè)核酸序列片段輸送通過可變模塊多次W產(chǎn)生多個(gè)中間輸出結(jié)果,每 次使用所述可變參數(shù)設(shè)定的多個(gè)數(shù)值中的一個(gè);將所述中間輸出結(jié)果的每一個(gè)輸送通過所 述恒定模塊;產(chǎn)生多個(gè)變體識別。
[0014] 另一方面,本發(fā)明提供了一種通過用電腦執(zhí)行計(jì)算流水線來分析大量核酸序列片 段中的變體的方法。該流水線包括恒定模塊和可變模塊,所述可變模炔基于可變參數(shù)。該方 法包括用處理器執(zhí)行一系列步驟:獲取多個(gè)核酸序列片段;為可變參數(shù)設(shè)置第一數(shù)值;將多 個(gè)核酸序列片段通過所述恒定模塊W產(chǎn)生中間輸出結(jié)果;將所述中間輸出結(jié)果第一次通過 所述可變模塊,其中使用所述可變參數(shù)的第一數(shù)值;產(chǎn)生第一變體識別;根據(jù)第一變體識 另IJ,為可變參數(shù)設(shè)置第二數(shù)值;將所述中間輸出結(jié)果第二次通過所述可變模塊,使用所述可 變參數(shù)的第二數(shù)值;產(chǎn)生第二變體識別。
[0015] 另一方面,本發(fā)明提供了一種非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)W及通過使用其存儲的如 前文所述的計(jì)算流水線來識別來自多個(gè)核酸序列片段的變體的方法。該計(jì)算流水線包括恒 定模塊和可變模塊,所述可變模炔基于可變參數(shù)。
[0016] 在某些實(shí)施方式中,處理器執(zhí)行的指令行使一系列步驟,包括:獲取多個(gè)核酸序列 片段;為可變參數(shù)設(shè)置多個(gè)數(shù)值;將所述多個(gè)核酸序列片段輸送通過恒定模塊W產(chǎn)生中間 輸出結(jié)果;將所述中間輸出結(jié)果多次輸送通過可變模塊,其中每次使用可變參數(shù)設(shè)定的多 個(gè)數(shù)值中的一個(gè);產(chǎn)生變體識別。
[0017] 在某些實(shí)施方式中,處理器執(zhí)行的指令行使一系列步驟,包括:獲取多個(gè)核酸序列 片段;為可變參數(shù)設(shè)置第一數(shù)值;將多個(gè)核酸序列片段通過所述恒定模塊W產(chǎn)生中間輸出 結(jié)果;將所述中間輸出結(jié)果第一次通過所述可變模塊,其中使用所述可變參數(shù)的第一數(shù)值; 產(chǎn)生第一變體識別;根據(jù)第一變體識別,為可變參數(shù)設(shè)置第二數(shù)值;將所述中間輸出結(jié)果第 二次通過所述可變模塊,使用所述可變參數(shù)的第二數(shù)值;產(chǎn)生第二變體識別。
[0018] 該發(fā)明的上述特征優(yōu)勢可W通過W下的描述、權(quán)利要求和附圖,得到更好的理解。
[0019] 附圖簡要說明
[0020] 圖1.展示了一個(gè)示例性計(jì)算流水線。
[0021] 圖2.展示了一個(gè)包含了至少一個(gè)恒定模塊和至少一個(gè)可變模塊的示例性計(jì)算流 水線。
[0022] 圖3.展示了一個(gè)包含了至少一個(gè)恒定模塊和至少一個(gè)可變模塊的示例性的計(jì)算 流水線。
[00剖發(fā)明詳述
[0024] 在關(guān)于W上發(fā)明的概述、具體描述、如下的權(quán)利要求W及附圖中,引用了本發(fā)明中 的特定特征(包括步驟)。應(yīng)當(dāng)理解的是本發(fā)明的說明書中包含了對運(yùn)些特定特征的所有可 能的組合。例如,當(dāng)發(fā)明的實(shí)施例或者一個(gè)特定方面或者一個(gè)權(quán)利要求中展示了一個(gè)特定 的特征,該特征也可W在可能的程度上在本發(fā)明的其他方面或?qū)嵤├惺褂谩?br>[0025] 應(yīng)當(dāng)理解,除非根據(jù)上下文不允許,本說明書和權(quán)利要求中使用的單數(shù)形式"一 個(gè)"包括復(fù)數(shù)形式。比如,一個(gè)"可變模塊"包括一個(gè)或多個(gè)可變模塊,W及本領(lǐng)域技術(shù)人員 知道的等價(jià)形式。
[0026] -個(gè)具有兩個(gè)或者更多特定步驟的方法可W被W任意順序或者同時(shí)執(zhí)行(除非在 文本中排除了運(yùn)種可能性)。該方法可W包含一個(gè)或多個(gè)其他步驟,運(yùn)些步驟可W在任意特 定步驟前面,或者在兩個(gè)特定步驟之間,或者在所有的特定步驟之后被執(zhí)行(除非文本中排 除了運(yùn)種可能性)。
[0027] 在提供的值的范圍內(nèi),可W理解,每個(gè)居中值,到下限的單位的十分之一,除非上 下文清楚地另有規(guī)定,該范圍的上限和下限和任何在該所述范圍中的所述或者居中值,都 被本公開內(nèi)容涵蓋,同時(shí)符合在所述范圍內(nèi)明確排除的極限。當(dāng)所述范圍包括一個(gè)或者兩 個(gè)極限,排除運(yùn)兩個(gè)極限或其中一個(gè)極限的范圍也被包含在運(yùn)個(gè)公開內(nèi)容中。
[0028] 為了簡單清楚的闡述,當(dāng)合適的時(shí)候,標(biāo)號在不同的附圖中重復(fù)使用,W指示相應(yīng) 的或類似的元件。此外,大量的具體細(xì)節(jié)被提供,W便透徹理解運(yùn)里所描述的實(shí)施例的闡 述。然而,本文描述的實(shí)施例可W在不存在具體細(xì)節(jié)的情況下實(shí)施。在其他實(shí)例中,方法、程 序和組件沒有詳細(xì)描述,但沒有模糊所描述的相關(guān)功能。此外,描述不應(yīng)被認(rèn)為是限制本文 所述的實(shí)施方式的范圍。應(yīng)該理解的是,除非另有說明,在本公開中闡述的實(shí)施例的描述和 表征并非相互排斥。
[0029]
[0030] 本公開內(nèi)容使用了如下定義:
[0031] 術(shù)語"包括"W及它們在本文中的同義詞代指其它組分,成分,步驟等是任選存在。 例如,物品"包括"(或"其包含")組分A,B和C可W由(即只包含)組分A,B和C,或可W不僅包 含組分A,B,和C,還有一種或多種其它組分。
[0032] 后跟數(shù)字的術(shù)語"至少"在本文中用于表示W(wǎng)該數(shù)字開始的一個(gè)范圍的開始(可W 是具有上限或沒有上限的范圍,運(yùn)取決于所限定的變量)。例如,"至少1"表示1或大于1。后 跟數(shù)字的術(shù)語"至多"在本文中用于表示一個(gè)W該數(shù)字結(jié)尾的范圍(它可W是具有1或0作為 其下限的范圍,也可W是不具有下限的范圍,運(yùn)取決于被定義的變量)。例如,"至多4"是指4 或者小于4, W及"至多40%"是指40%或低于40%。在本公開中,當(dāng)一個(gè)范圍被給定為"(第 一數(shù)字)至(第二個(gè)數(shù)字r或"(第一數(shù)字)-(第二數(shù)字)",運(yùn)表示范圍的下限是第一數(shù)字,上 限為第二數(shù)字。例如,25至IOOmm表示下限為25毫米,上限為100毫米的范圍。
[0033] 如本文所用,術(shù)語"核酸序列片段"指的是由測序方法確定的核酸序列。該核酸序 列可W是DNA或RNA序列。在某些實(shí)施方案中,該核酸片段是基因組DNA測序數(shù)據(jù)。在某些實(shí) 施方案中,該核酸片段是外顯子測序數(shù)據(jù)。經(jīng)典的DNA測序方法包括鏈終止法(桑格測序)。 在某些實(shí)施方案中,"核酸片段"指的是由二代測序(高通量測序)的方法確定的核酸序列, 其中并行測序過程中,同時(shí)產(chǎn)生數(shù)千或數(shù)百萬的序列。二代測序方法包括,例如,通過合成 技術(shù)測序(Illumina公司),焦憐酸測序(454),離子半導(dǎo)體技術(shù)(離子洪流測序),單分子實(shí) 時(shí)測序(太平洋生物科學(xué))和通過連接測序(s化iD測序)。根據(jù)測序方法的不同,每個(gè)核酸片 段的長度可W從約30bp到大于10,000bp。例如,例如,使用SOLiD測序儀的Illumina測序產(chǎn) 生約50bp的核酸序列片段。又例如,離子洪流測序產(chǎn)生高達(dá)4(K)bp的核酸序列片段,而454焦 憐酸測序產(chǎn)生約為700bp的核酸序列片段。再例如,單分子實(shí)時(shí)測序方法可W產(chǎn)生長度為 10 ,OOObp至15 ,OOObp的核算序列片段。因此,在某些實(shí)施方式中,核酸序列片段的長度為 30-100bp,50-200bp,或50-400bp。
[0034] 術(shù)語"變體"當(dāng)在核酸序列的語境中使用時(shí)是指一種與參照不同的核酸序列片段。 典型的核酸序列變體包括但不限于單核巧酸多態(tài)性(SNP),短缺失和插入多態(tài)性(Indel), 拷貝數(shù)變異(CNV),微衛(wèi)星標(biāo)記或短串聯(lián)重復(fù)序列和結(jié)構(gòu)的變化。
[0035] 如本文所使用的,術(shù)語"計(jì)算機(jī)實(shí)現(xiàn)的方法"是指相關(guān)方法是在計(jì)算機(jī)中執(zhí)行,例 如,一個(gè)由CPU執(zhí)行的計(jì)算機(jī)程序。一種計(jì)算機(jī),如本文所使用的,指的是可被編程W自動(dòng)執(zhí) 行的一組算術(shù)或邏輯運(yùn)算的設(shè)備(為了一般或特定目的)。計(jì)算機(jī),如在此使用的,包括但不 限于個(gè)人計(jì)算機(jī),工作站,服務(wù)器,大型機(jī)和超級計(jì)算機(jī)。計(jì)算機(jī)可W是獨(dú)立的系統(tǒng),網(wǎng)絡(luò)系 統(tǒng)或位于計(jì)算云中的虛擬機(jī)。本公開中的方法可W通過多線程或其他并行計(jì)算方式實(shí)現(xiàn)。
[0036] 如本文所使用的,"計(jì)算流水線"或"流水線"是指一組串聯(lián)連接的數(shù)據(jù)處理元件, 其中一個(gè)元件的輸出是下一個(gè)元件的輸入。在某些實(shí)施方案中,一個(gè)操作的輸出被自動(dòng)饋 送到下一個(gè)操作。如本文所使用的,計(jì)算流水線中的元素可W被稱為"模塊"。在某些實(shí)施方 案中,流水線是線性的,單向的。在某些實(shí)施方案中,主要是單向的流水線可W在其他方向 上的有一些交流。在某些實(shí)施方案中,流水線可W是完全雙向的。
[0037] 如本文所使用的,"模塊"指的是一個(gè)在計(jì)算流水線內(nèi)的數(shù)據(jù)處理元件。一組模塊 W串聯(lián)形式連接,從而形成一個(gè)計(jì)算流水線。通常,一個(gè)模塊接收一個(gè)輸入數(shù)據(jù),基于所輸 入的數(shù)據(jù)執(zhí)行特定的功能,并產(chǎn)生輸出數(shù)據(jù),然后將其用于隨后模塊的輸入數(shù)據(jù)。在某些實(shí) 施方案中,一個(gè)模塊可W被進(jìn)一步分成幾個(gè)子模塊,例如,子模塊可W W串聯(lián)形式連接。
[0038] 相關(guān)術(shù)語"恒定模塊"是指不具有可變參數(shù)的模塊,即,當(dāng)一個(gè)數(shù)據(jù)集通過一個(gè)計(jì) 算流水線時(shí),只有一組的值被設(shè)定為模塊的(多個(gè))參數(shù)。然而,應(yīng)當(dāng)注意的是,當(dāng)向計(jì)算流 水線傳遞不同的數(shù)據(jù)集時(shí),不同組的值可被設(shè)定為模塊的(多個(gè))參數(shù)。
[0039] 術(shù)語"可變模塊"是指具有至少一個(gè)可變參數(shù)的模塊。應(yīng)當(dāng)理解,除了包含至少一 個(gè)可變參數(shù),可變模塊還可能包含至少一個(gè)恒定參數(shù)。
[0040] 術(shù)語"參數(shù)",如本文中所使用的,指的是用戶需要在計(jì)算流水線或模塊中設(shè)定的 基準(zhǔn),特征或數(shù)值。當(dāng)數(shù)據(jù)集通過計(jì)算流水線或模塊時(shí),基準(zhǔn),功能或數(shù)值被傳遞給函數(shù),程 序,子例程,指令,或程序。相關(guān)術(shù)語"恒定參數(shù)"指的是當(dāng)運(yùn)行計(jì)算流水線或模塊時(shí),該參數(shù) 被設(shè)置為一個(gè)值。與此相反,"可變參數(shù)"指的是當(dāng)運(yùn)行計(jì)算流水線或模塊時(shí),該參數(shù)被設(shè)置 為多于一個(gè)值。
[0041] 術(shù)語"數(shù)值",如本文中所使用的,是指參數(shù)設(shè)定的具體數(shù)或特征。相應(yīng)的,當(dāng)使用 計(jì)算流水線分析核酸序列片段時(shí),該具體的數(shù)或特征被傳遞給計(jì)算流水線的函數(shù),程序,子 例程,指令,或程序。為某個(gè)參數(shù)設(shè)定的具體數(shù)或特征可W根據(jù)所討論的模塊和參數(shù)確定。 例如,在變體識別模塊中使用的先驗(yàn)概率參數(shù)的數(shù)值可W是0.0005,0.0008,0.OOl或 0.002。又例如,在比對模塊中使用的錯(cuò)配懲罰參數(shù)的數(shù)值可W是+1到巧。
[0042] 在"使數(shù)據(jù)(例如,核酸序列片段)通過流水線或一個(gè)模塊"中所使用的術(shù)語"通過" 指的是用流水線或者模塊分析所述數(shù)據(jù)。典型的,在通過一個(gè)流水線或模塊時(shí),所述數(shù)據(jù)被 作為輸入數(shù)據(jù)輸送到流水線或模塊。該流水線或模塊使用該數(shù)據(jù)運(yùn)行流水線或模塊中的函 數(shù),程序,子例程,指令,或程序并產(chǎn)生輸出數(shù)據(jù)。在某些實(shí)施方式中,所產(chǎn)生的輸出數(shù)據(jù)作 為輸入數(shù)據(jù)輸送到另一流水線或模塊中。在某些實(shí)施方案中,使數(shù)據(jù)通過一個(gè)模塊還包括 用所述數(shù)據(jù)作為該模塊的間接輸入。例如,在一個(gè)包括至少兩個(gè)W串聯(lián)連接的模塊的計(jì)算 流水線中,所述數(shù)據(jù)作為第一模塊的輸入被傳遞,其生成的輸出又作為所述第二模塊的輸 入被傳遞。在運(yùn)樣的情況下,所述數(shù)據(jù)被視為通過第二模塊,盡管他們并沒有被用作所述第 二模塊的直接輸入。
[0043] 術(shù)語"非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)"指的是任何計(jì)算機(jī)可讀介質(zhì),唯一的例外是一個(gè) 短暫的傳播信號。非暫時(shí)性計(jì)算機(jī)可讀介質(zhì)包括,但不限于,易失性存儲器,非易失性存儲 器,軟盤,硬盤,存儲棒,寄存器存儲器,處理器高速緩存和隨機(jī)存取存儲器。
[0044] 本文所用術(shù)語"定位"或"定位到參照"是指將核酸序列片段與參照,例如,序列已 知的參考基因組,比對。各種程序和算法已經(jīng)被開發(fā)來將核酸序列片段定位到一個(gè)參照(參 見,F(xiàn)licek P,Birney E. (2009)從序列檢測片段中感應(yīng):用于對其和裝配的方法,Nat Methods 6(11 增刊):S6-S12;Neilsen R,Paul JS等(2011)基因型和二代測序數(shù)據(jù)中的SNP 識別?;痶 Rev Genet 12:443-52;Ruffalo M等(2011)二代測序哦按段對準(zhǔn)算法的對比分 析。Bioinformatics 27: 2790-96;化tnaik S等(2012)使用組合方法的外顯子組數(shù)據(jù)分析 流水線的定制化OS 0肥7:630080)。在各種程序和算法中,基于己路±惠勒改造的己路± 惠勒比對法(BWA),化i H,Durbin R(2009年)快速,準(zhǔn)確的己路±惠勒短弧度排列。 Bioinformatics 25:1754-60)體現(xiàn)了運(yùn)行時(shí)間,存儲器的使用和準(zhǔn)確性之間的良好平衡, 并常常被使用在不同的計(jì)算流水線中。
[0045] 分析核酸序列片段的計(jì)算流水線
[0046] 二代測序技術(shù)的迅速發(fā)展在過去幾年變革了生物和生物醫(yī)學(xué)研究。根據(jù)所使用的 測序方法和系統(tǒng),產(chǎn)生的核酸片段的數(shù)量通常在數(shù)百萬W上。例如,Illumina的MiniSeq系 統(tǒng)每次運(yùn)行產(chǎn)生高達(dá)2500萬的片段,而Illumina公司的化Seq系列每次運(yùn)行可W產(chǎn)生高達(dá) 50億片段。隨著大量測序數(shù)據(jù)的生成,對可W用來分析和解釋運(yùn)些大規(guī)模測序數(shù)據(jù)的強(qiáng)大 的計(jì)算工具的需求迫在眉睫。
[0047] 已經(jīng)開發(fā)了許多具有多個(gè)序列比對器和多個(gè)變體識別器的計(jì)算流水線,其中包 括,但不限于,SMtoolS(Li H等人(2009)序列比對/映射格式和SAMtoolS.Bioinformatics 25:2078-79),glftools(Abecasis lab(2010)Abecasis Iab GLF工具),GATK化ePristo MA 等(2011)用二代DNA測序數(shù)據(jù)進(jìn)行基因分型和變體發(fā)現(xiàn)的框架,Nat Genet 43:491-98; McKenna A等。(2010)基因組分析工具包:用于分析的下一代DNA測序數(shù)據(jù)的MapReduce框 架。Genome Res 20:1297-1303)和Atlas(化allis D等(2012)全外顯子組的二代測序數(shù)據(jù) 的綜合變體分析套件,BMC Bioinformatics 13:8)。
[0048] 用于分析核酸序列片段的示例性計(jì)算流水線如圖1所示。圖1中,用于分析核酸序 列片段的計(jì)算流水線100包括串聯(lián)連接的模塊陣列。
[0049] 首先,原始讀取的數(shù)據(jù)被饋送到定位模塊110來使短測序片段與參照比對對。定位 模塊110將核酸序列片段與參照比對,例如,一個(gè)序列已知的參考基因組。各種程序和算法 已經(jīng)被開發(fā)出來將核酸序列片段定位到一個(gè)參照(參見,F(xiàn)licek P,Birney E. (2009)從序 列片段中檢測:用于對齊和裝配的方法,化t Methods 6(11增刊):S6-S12;Neilsen R,Paul JS等人(2011)二代測序數(shù)據(jù)的基因型和SNP識別。化t Rev Genet 12:443-52;Ruffalo M等 (2011) 二代測序片段對準(zhǔn)算法的對比分析。Bioinformatics 27 : 2790-96 ;化tnaik S等 (2012) 使用組合方法的外顯子組數(shù)據(jù)分析流水線的客制。PLoS 0肥7:630080)在眾多的程 序和算法中,基于己路±惠勒改造化i H,Durbin R(2009)使用己路±惠勒改造的快速準(zhǔn)確 短弧度排列。Bioinformatics 25:1754-60)的己路±惠勒比對法(BWA),展現(xiàn)了運(yùn)行時(shí)間, 存儲器的使用情況和準(zhǔn)確性之間的良好平衡,并被頻繁使用在不同的計(jì)算流水線中。
[0050] 比對模塊的輸出(例如,SAM(序列比/映射)文件或BAM(SAM的二進(jìn)制版本)文件)被 饋送到重復(fù)標(biāo)記模塊120, W去除PCT重復(fù)。在制備DNA測序樣品的過程中,PCR經(jīng)常被用來擴(kuò) 增所述片段,從而產(chǎn)生復(fù)制品。理想的情況下,制備的樣品常常產(chǎn)生百分之幾(例如,約4%) 的彼此完全一樣的片段拷貝,即,復(fù)制品。有時(shí),30%至70%的片段是重復(fù)的。Wysoker A等 (PicardTools)和Li H等化i H等(2009)序列比對/映射格式和SAMtools,Bioinformatics 25:2078-79)。
[0051] 復(fù)制被標(biāo)記或者移除的片段隨后被送入到局部重比對模塊130, W改善片段的比 對。通常情況下,相對于基準(zhǔn)來說,局部重新比對發(fā)生在片段插入和缺失(Indel)的區(qū)域周 圍,并且是將片段與Indel-側(cè)的一端相對齊,然后再對另一側(cè)的其余部分進(jìn)行定位。當(dāng)片 段最初定位到參照時(shí),并不能獲得任何關(guān)于插入缺失的信息。因此,定位到運(yùn)樣的區(qū)域的片 段,只具有一小段代表插入缺失一側(cè)的區(qū)域,并通常不會被正確定位整個(gè)indel,而是會有 一端沒有對齊,或者整個(gè)indel區(qū)域有很多不匹配的定位。局部重比對模塊130使用其余定 位到含有indel區(qū)域的片段信息,包括位于插入缺失區(qū)域更居中位置的片段,并且因此已經(jīng) 與所述插入缺失的兩側(cè)端部對齊。其結(jié)果是,生成了另一個(gè)和之前一樣好甚至更好的定位。 [0化2] 局部重比對算法已由化mer等人描述。巧omer N(2010)用srma通過局域重新調(diào)二 代測序數(shù)據(jù)短片段來改進(jìn)變體發(fā)現(xiàn)。Genome Bioll 1(10):R99)。在第一步驟中,所有輸入 片段的對齊信息被整理在一個(gè)高效的基于圖的數(shù)據(jù)結(jié)構(gòu)中,其基本上類似于de-BruUn的 圖表。運(yùn)種調(diào)整圖表示了片段是如何對齊于參考序列W及片段是如何彼此重疊。在第二步 驟中,元數(shù)據(jù)是從可W反映出可W潛在地改善片段定位的對準(zhǔn)位置的圖表結(jié)構(gòu)中獲取,該 圖表結(jié)構(gòu)還提供了如何重新比對片段W得到最簡潔多個(gè)對準(zhǔn)的假設(shè)。在第=步驟中,重新 比對圖和其元數(shù)據(jù)被用于實(shí)際執(zhí)行各個(gè)片段的局域比對。
[0053] DePristo等描述了用于局域重新比對的替代算法(DePristo MA等(2011)。一種使 用二代DNA測序數(shù)據(jù)的變體發(fā)現(xiàn)和基因型的框架?;痶 Genet 43:491-98)。[君合:運(yùn)個(gè)算法 是和化mer的一樣嗎?我們使用哪一種?]該算法首先識別用于重新對準(zhǔn)的區(qū)域,其中(i)至 少一個(gè)片段包含插入缺失區(qū)域,(ii)存在錯(cuò)配堿基或(iii)一種已知的插入缺失的聚集(例 如,從化SNP數(shù)據(jù)庫(單核巧酸多態(tài)性數(shù)據(jù)庫),運(yùn)是一個(gè)公共檔案,其涵蓋由國家生物技術(shù) 信息中屯、(NCBI)開發(fā)和托管的各種不同物種的普通變異,其中包含了一系列分子的變異, 包括(1)單核巧酸多態(tài)性;(2)短缺失和插入多態(tài)性,(3)微衛(wèi)星或短串聯(lián)重復(fù)序列(STR), (4)復(fù)核多態(tài)性(MNPs),(5)雜序列,W及(6)命名的變體。在每個(gè)區(qū)域中,單倍型是由向參考 序列定點(diǎn)滲入任何已知的插入缺失而生成,片段中的插入缺失來自整個(gè)位置點(diǎn)或者來自于 所有不能完美定位參照序列的片段的史密斯-沃特曼比對(Durbin等(1998)生物序列分析: 蛋白質(zhì)和核酸的概率模型(劍橋大學(xué)出版社,劍橋,UK))。對于每一個(gè)單倍型出,片段無間距
[0化4] 地和化對齊,W如下標(biāo)準(zhǔn)進(jìn)行打分:
[0化5]
[0化6]
[0057]其中Rj是第j個(gè)片段,k是R神日出無縫對準(zhǔn)的偏移,e化是依據(jù)片段Rj的第k個(gè)堿基的 聲明的質(zhì)量分?jǐn)?shù)而決定的錯(cuò)誤率??蒞最大化U出)的單倍型出被選為最好的可替代的單倍 型。接著,所有片段根據(jù)最好的單倍型和參照化0)重新對準(zhǔn),并且每個(gè)片段R非皮分配給出或 化,取決于哪一個(gè)可W最大化L(RjlH)。如果指數(shù)幾率比值或者兩單倍型模型比單個(gè)基準(zhǔn)單 倍型要好至少五個(gè)指數(shù)單位,那么片段就需要被重新調(diào)整:
[0化引
[0059] 此離散化反映了精度和完整統(tǒng)計(jì)量的有效計(jì)算之間的折衷。在某些例子中,算法 對所有個(gè)體中的所有片段同時(shí)運(yùn)行,從而確保了所有個(gè)體之中的推斷單倍型的一致性,運(yùn) 對于可靠的插入缺失識別和對比分析,例如軀體SNP和插入缺失識別,是十分關(guān)鍵的。通常 情況下,重新調(diào)整的片段被寫入到SAM/BAM中W進(jìn)行進(jìn)一步分析。
[0060] 局域調(diào)整模塊的輸出隨后被饋送到堿基重新校準(zhǔn)模塊140,運(yùn)為每個(gè)片段中的每 個(gè)堿基提供了經(jīng)驗(yàn)性準(zhǔn)確的堿基質(zhì)量分?jǐn)?shù)。在某些實(shí)施例中,堿基重新校準(zhǔn)模塊140還校正 了誤差協(xié)變量,例如機(jī)器周期和二核巧酸,W及測序平臺特定的誤差協(xié)變量例如SOLiD的顏 色空間不匹配和454的流循環(huán)。堿基重新校準(zhǔn)模塊140的示例性算法已由DePristo MA等人 所述。(DePristo M等(2011),一種使用二代DNA測序數(shù)據(jù)進(jìn)行變異發(fā)現(xiàn)和基因型識別的框 架?;痶 Genet 43:491-98)。通常情況下,該算法首先列出每一個(gè)道與在所有已知數(shù)量上不 改變(化SNP build 129)的位點(diǎn)的參照的經(jīng)驗(yàn)不匹配度,根據(jù)所報(bào)道的質(zhì)量分?jǐn)?shù)(R)、片段 的機(jī)器周甜化)巧^巧巧酸化苯-倍個(gè)*別的經(jīng)驗(yàn)質(zhì)量分?jǐn)?shù)可W根據(jù)如下標(biāo)準(zhǔn)估計(jì):
[0061]
[0062]
[0063] Qempirical(R,C,D)=(mismatch(R,C,D)+l)/(bases(R,C,D)+1)
[0064] 該協(xié)變量隨后被分解成線性可分的誤差估計(jì),重新校正的質(zhì)量分?jǐn)?shù)Qreeal可W用下 式計(jì)算:
[00化]recal(;r,c,d) =Qr+A Q(T)+A A Q(;r,c)+A A Q(;r,d)
[0066]
[0067]
[006引
[0069] A Q(r,d) =Qempiricai(r,C,d)-( A Qr+A Q(r))
[0070] 其中,每個(gè)A中和A A A是經(jīng)驗(yàn)不匹配率和報(bào)導(dǎo)的所有僅包含了Qr或者包含了協(xié) 變量和化的觀察的質(zhì)量分?jǐn)?shù)之間的剩余差異。其中Qr是堿基的所報(bào)導(dǎo)的質(zhì)量分?jǐn)?shù)和Er為它 預(yù)期的錯(cuò)誤率;br,e,d是有特定協(xié)變量的堿基,且r,c,d和R,C,D分別是一系列的報(bào)導(dǎo)的質(zhì)量 得分,機(jī)器周期和二核巧酸。
[0071] 堿基重新校準(zhǔn)模塊140的輸出隨后被送入變體識別模塊150, W在包括單核巧酸多 態(tài)性,短插入缺失和拷貝數(shù)變異的片段中發(fā)現(xiàn)具有替代等位基因的統(tǒng)計(jì)學(xué)證據(jù)的所有站 點(diǎn)。通常,變體識別模塊使用由設(shè)及的一個(gè)或多個(gè)隨機(jī)變量和可能的其他非隨機(jī)變量的數(shù) 學(xué)方程規(guī)定的算法或統(tǒng)計(jì)模型。例如,根據(jù)片段深度和變體計(jì)數(shù),表明在特定位置的特定變 體的置信水平為真陽性的概率可W用基于統(tǒng)計(jì)模型的方法W及用基準(zhǔn)樣品的局域化方法 計(jì)算出來。
[0072] 已經(jīng)開發(fā)了各種用于變體識別的算法。例如,定位和有質(zhì)量的組裝(MAQKLi H等 人(2008)使用定位質(zhì)量分?jǐn)?shù)W定位短DNA序列片段和識別變體。Genome Res 18:1851-58) 和SOAPs叩(Li R等人(2009)大規(guī)模并行的全基因組重測序的SNP檢測。Genome Res 19: 1124-32)使用固定的雜合子和核巧酸-片段錯(cuò)誤的先驗(yàn)概率值。SeqEM(Martin ER等人 (2010)SeqEM:二代測序研究的自適應(yīng)的基因型識別方法Bioinformatics 26:2803-10)引 入了通過自適應(yīng)方法調(diào)用期望最大化化M)算法來估計(jì)模型參數(shù)的多樣品基因型識別。 SAMtoo Is使用修訂后的MAQ模型來估計(jì)測序錯(cuò)誤。該gif too Is家族(gif Single, glfMultipies和polymutt)從預(yù)先生成的基因型可能性文件(GLF)中調(diào)用SNPeGATK采用 MapReduce的理念,W并行編程簡單貝葉斯模型(Dean J,Ghemawat S(2008)MapReduce:大 型集群的簡化數(shù)據(jù)處理Commu ACM 51:107-13) "Atlas2采用已驗(yàn)證的全外顯子組捕獲測序 數(shù)據(jù),而不是常規(guī)的可能性計(jì)算的物流回歸模型,并已被證明具有高靈敏度(Ji HP(2012) 識別外顯子變體的改進(jìn)的生物信息學(xué)流水線Genome Med 4:7)。
[0073] 在某些實(shí)施方案中,計(jì)算流水線可如上所述具有更少的模塊。例如,Liu X等人描 述的跳過局域重組模塊、重復(fù)標(biāo)記模塊和堿基重新校正模塊的流水線化iu X等人(2013年) 二代測序數(shù)據(jù)的變體識別:比較研究化OS 0肥8(9): 675619)。
[0074] 單通多設(shè)定的計(jì)算流水線
[0075] 在片段通過計(jì)算流水線時(shí),用戶需要為許多參數(shù)設(shè)值。例如,在變體識別模塊中, 用戶需要指定先驗(yàn)概率。先驗(yàn)概率"指的是反映之前變體分布信息的概率分布,可W被用來 進(jìn)行變體識別。例如,在采用GATK算法的變體識別模塊中,用戶需要指定全基因組單核巧酸 多態(tài)性(SNP)概率,和插入缺失概率。"全基因組SNP概率"是指單個(gè)核巧酸在基因組的一些 特定位置發(fā)生變異的可能性,其中每個(gè)變異有一定明顯的程度地存在在族群之中。"插入缺 失概率",是指在一個(gè)生物體DNA中發(fā)生插入或者缺失堿基的概率。類似的,在采用SAMTools 算法的變體識別模塊中,用戶需要指定化red-scaled間隙延伸錯(cuò)誤概率和化red-scaled間 隙開口錯(cuò)誤概率。
[0076] 用戶需要在流水線中設(shè)置許多其它參數(shù)。例如,一個(gè)局域?qū)?zhǔn)模塊中,用戶需要指 定針對不匹配的懲罰(一個(gè)用于對準(zhǔn)少量零散基因序列的打分系統(tǒng),例如,為了更準(zhǔn)確地對 準(zhǔn)片段,突變被注釋為序列中的間隙,該間隙經(jīng)由各種懲罰計(jì)分方法懲罰,從而實(shí)現(xiàn)了序列 對準(zhǔn)的優(yōu)化,W獲得基于可用的信息的最好的對準(zhǔn)),間隙開口(打開任何長度的間隙所需 的成本)和缺口延伸(延長現(xiàn)有間隙的長度所需要的成本)。堿基質(zhì)量校準(zhǔn)時(shí),用戶需要指定 校準(zhǔn)表(在表格中,為每組協(xié)變量建立跟蹤匹配/不匹配的數(shù)據(jù),并且給在一個(gè)識別組中的 每個(gè)變體識別分配一個(gè)已經(jīng)校準(zhǔn)過的概率)。用戶可能還需要指定變種識別模式(即在一組 表示變種頻率的估計(jì)值和自信指數(shù)的數(shù)據(jù)中最常出現(xiàn)的數(shù)值)和變體識別闊值(該程序應(yīng) 該發(fā)出變異位點(diǎn)的最小置信度闊值;如果該點(diǎn)相關(guān)的基因型有著比識別闊值更低的信度指 數(shù),程序會發(fā)出過濾的站點(diǎn);運(yùn)個(gè)闊值將高信度指數(shù)識別和低信度指數(shù)識別分離開來),成 對隱含馬爾可夫模型(成對-HMM,基本HMM的一個(gè)變體對查找序列比對并評估對準(zhǔn)符號的顯 著程度尤其有用)W及其中使用的轉(zhuǎn)換概率等。
[0077] 為了更好地評估變種,用戶需要更改參數(shù)或根據(jù)一系列參數(shù)設(shè)置來研究變種。例 如,用戶可能希望看到當(dāng)SNPAndel的先驗(yàn)概率被改變時(shí),所識別的變體的概率如何改變, 所W要探索樣品的各種情況。例如,如果所述樣品來自癌細(xì)胞,可能需要使用較高的先驗(yàn)概 率。根據(jù)樣品的族群,需要使用不同的先驗(yàn)概率,因?yàn)槟承┳迦嚎赡苡斜绕渌迦焊叩淖?體概率。如果用戶之前不知道最佳先驗(yàn)概率,他們可能希望在一定范圍的先驗(yàn)概率下探索 變體特性,所W要覆蓋所有可能的情況。
[0078] 參數(shù)探索的一種方法是再次經(jīng)歷整個(gè)計(jì)算流水線來設(shè)置每個(gè)參數(shù)。例如,在用戶 用最可能的參數(shù)設(shè)置運(yùn)行流水線后,并已經(jīng)審查了被識別的變體,用戶可W決定返回改變 參數(shù)并重新運(yùn)行整個(gè)變體識別流水線,看看運(yùn)些識別的變體會有什么改變。整個(gè)管道的運(yùn) 樣的迭代重新運(yùn)行是非常耗時(shí)和極度昂貴的,從而導(dǎo)致只能探索有限參數(shù)的設(shè)置,因此,可 能會導(dǎo)致某些生物學(xué)顯著信息被錯(cuò)過。
[0079] 因此,在一個(gè)方面,本公開內(nèi)容提供了用計(jì)算流水線分析來自多個(gè)核酸序列片段 的變體的方法和系統(tǒng),該計(jì)算流水線包括至少一個(gè)恒定模塊和至少一個(gè)可變模塊,其中可 變模炔基于可變參數(shù)。在某些實(shí)施方案中,該方法包括在處理器上執(zhí)行一系列步驟:接收所 述多個(gè)核酸序列片段;為可變參數(shù)設(shè)定多個(gè)數(shù)值;將多個(gè)核酸序列片段通過至少一個(gè)不變 模塊一次;將多個(gè)核酸序列片段通過至少一個(gè)可變模塊多次,每次使用可變參數(shù)設(shè)定的多 個(gè)數(shù)值中的一個(gè);并且產(chǎn)生多個(gè)變體識別。
[0080] 圖2展示了一個(gè)示例性的計(jì)算流水線,其包括至少一個(gè)恒定模塊和至少一個(gè)可變 模塊。如圖2所示,用于分析核酸序列片段的計(jì)算流水線200包括串聯(lián)連接的模塊陣列。
[0081] 原始片段數(shù)據(jù)被饋送到定位模塊210將短測序片段定位到參照。定位模塊210的參 數(shù),如對準(zhǔn)種子、種子長度和允許錯(cuò)配的最大數(shù)量分別被設(shè)置了一個(gè)值。映射模塊210的輸 出被饋送到重復(fù)標(biāo)記模塊220。重復(fù)標(biāo)記模塊220的參數(shù),例如選擇非重復(fù)片段的評分策略, 和兩組重復(fù)片段的最大補(bǔ)償分別被設(shè)置了單一數(shù)值。重復(fù)標(biāo)記模塊220的輸出被饋送到局 域重比對模塊230。局域調(diào)整模塊230的參數(shù),包括不匹配懲罰,間隙開口和缺口延伸分別被 設(shè)置了單一數(shù)值。局域重比對模塊230的輸出被饋送到堿基重新校準(zhǔn)模塊240。堿基重新校 準(zhǔn)模塊240的參數(shù)包括重新校準(zhǔn)表(上文詳細(xì)描述過)中的值被分別設(shè)置為單一數(shù)值。堿基 重新校準(zhǔn)模塊240的輸出被饋送到變體識別模塊250。多組數(shù)值251,252,253被賦予給各個(gè) 參數(shù),例如,先驗(yàn)概率。因而,輸入的數(shù)據(jù)通過變體識別模塊250多次,通過將每組數(shù)值(251, 252和253)賦予給各個(gè)參數(shù)。在一個(gè)實(shí)例中,對一個(gè)3 X3矩陣:SNP(0.002,0.001,0.0005) X Indel(0.0002,0.0001,0.00005)進(jìn)行了探討,其中,SNP 0.002指SNP先驗(yàn)概率被設(shè)定為 0.002,如此等等。因此,該變體識別模塊用3x3不同的參數(shù)組合運(yùn)行9次,生產(chǎn)9個(gè)變體識別 輸出。
[0082] 在某些實(shí)施方案中,一些變體識別模塊250中的部分計(jì)算,如片段過濾,僅取決于 片段堿基的品質(zhì)和對準(zhǔn),W及堿的某些條件概率,不依賴于現(xiàn)有的概率的,所W只需被運(yùn)行 一次。
[0083] 通過去除冗余運(yùn)算,變體識別模塊250中使用多個(gè)參數(shù)設(shè)置的多個(gè)輸出可W靠通 過計(jì)算流水線200-次來獲得。一次通過需要的總計(jì)算量僅僅是多次通過完整流水線的計(jì) 算量的一小部分。
[0084] 在運(yùn)個(gè)單次通過多參數(shù)設(shè)定的運(yùn)行之后,變體識別模塊250的輸出可W在視覺上 顯示為參數(shù)集合的一個(gè)函數(shù),使用戶對變體有更好的視覺上的認(rèn)識。
[0085] 逐步勘探計(jì)算流水線
[0086] 相對于計(jì)算并且輸出多個(gè)參數(shù)在一次通過的運(yùn)行結(jié)果,該流水線可W計(jì)算并輸出 在一個(gè)參數(shù)設(shè)置下的第一次通過結(jié)果。第一次通過時(shí),每個(gè)模塊的輸出,例如,輸出中間結(jié) 果,被保存下來。用戶可W根據(jù)該結(jié)果,為至少一個(gè)流水線的模塊,例如,第一次通過的變體 識別,調(diào)整參數(shù)設(shè)定,并使片段第二次通過流水線。在第二次通過中,流水線可W自動(dòng)識別 不需要重新計(jì)算的中間結(jié)果,并且直接在新參數(shù)設(shè)定中使用它們。運(yùn)樣,對于附加的參數(shù)設(shè) 置僅需要計(jì)算那些被新舊參數(shù)設(shè)置差異影響的流水線的部分,因此,節(jié)省了參數(shù)勘探中的 計(jì)算量。該方法的優(yōu)勢也在于它可W避免對一些不必要的參數(shù)設(shè)定所進(jìn)行的探索。
[0087] 因此,在另一個(gè)方面,本公開內(nèi)容提供了使用包括至少一個(gè)恒定模塊和至少一個(gè) 可變模塊的計(jì)算流水線,來分析多個(gè)核算片段中的變體的方法與系統(tǒng),其中可變模炔基于 可變參數(shù)。在某些實(shí)施方案中,該方法包括在處理器上執(zhí)行一系列步驟:接收多個(gè)核酸序列 片段,其中至少一個(gè)核酸片段包括一個(gè)變體;為可變參數(shù)設(shè)置第一數(shù)值;讓多個(gè)核酸片段通 過至少一個(gè)恒定模塊一次;通過至少一個(gè)可變模塊,其中使用可變參數(shù)的第一數(shù)值;產(chǎn)生第 一變體識別;根據(jù)第一變體識別為可變參數(shù)設(shè)置第二數(shù)值;讓多個(gè)核酸片段第二次通過至 少一個(gè)可變模塊,其中使用可變參數(shù)的第二數(shù)值;并且在不通過至少一個(gè)恒定模塊的情況 下,產(chǎn)生第二個(gè)變體識別。
[0088] 圖3展示了用于分析核酸序列片段的示例性增量勘探計(jì)算流水線300。計(jì)算流水線 300包括串聯(lián)連接的模塊陣列。如上文所詳細(xì)描述地,當(dāng)原始片段數(shù)據(jù)被饋送到計(jì)算流水線 300時(shí),它會通過定位模塊310,重復(fù)標(biāo)記模塊320,局域重比對模塊330,堿基重新校準(zhǔn)模塊 340和變體識別模塊350。第一個(gè)數(shù)值集合被用于變體識別模塊350中的先驗(yàn)概率,并且獲得 第一個(gè)變體識別的結(jié)果。在第一個(gè)變體識別的結(jié)果的基礎(chǔ)上,第二組數(shù)值被設(shè)置為變體識 別模塊350中的概率。堿基重新校準(zhǔn)340的輸出被饋送到變體識別模塊350, W產(chǎn)生一個(gè)第二 個(gè)變體識別結(jié)果。
[0089] 在某些實(shí)施方案中,"單通多設(shè)置"模式和"增量勘探"模式可W結(jié)合起來。例如,流 水線在第一個(gè)單次通過中運(yùn)行參數(shù)設(shè)置,產(chǎn)生多個(gè)變體識別,同時(shí)還保存了中間值的輸出。 在審查完在第一單次通過中產(chǎn)生的多個(gè)變體識別后,用戶可W調(diào)整一個(gè)或多個(gè)模塊的參 數(shù)。然后流水線可W將第一通中的中間結(jié)果,重新用在新的通過中,從而節(jié)省了在新的通過 中需要的計(jì)算。
[0090] 定位模塊
[0091] 在另一個(gè)方面,本公開提供了改進(jìn)對比參照計(jì)算的方法和系統(tǒng)。在定位過程中,用 戶也可W選擇一些參數(shù),例如,對準(zhǔn)種子,種子長度,允許的最大錯(cuò)配數(shù)量,等等。當(dāng)用戶探 索對準(zhǔn)參數(shù)時(shí),已經(jīng)與基準(zhǔn)完美匹配的片段不需要在每次參數(shù)設(shè)定中重復(fù)被對準(zhǔn),而是可 W只運(yùn)行一次,其結(jié)果可W被用在所有情況下。只有沒有定位的片段W及與參照有錯(cuò)配的 片段才需要在不同的參數(shù)制定下,反復(fù)多次對準(zhǔn)。
[009。組裝流水線
[0093] 在另一方面,本公開提供了從頭組裝核酸片段的方法和系統(tǒng),例如不需借助參照 (即,參照基因組序列)來進(jìn)行組裝。從頭組件通常被用于研究非模式生物體,因?yàn)樗麄兊膮?照基因組序列常常不存在。從頭組件還被用于轉(zhuǎn)錄序列數(shù)據(jù)。一些從頭組裝的程序已經(jīng)被 開發(fā)出來,包括 SOAPdeno VO-Trans,Velvet/0ases,^ans-ABySS,和IYinity。兩種一般被用 于從頭裝配的基本算法是:重疊圖形和德布魯因圖。雖然重疊圖大多用于桑格測序片段,因 為它比德布魯因圖具有更大的計(jì)算強(qiáng)度,并且W最高的效率裝配更少的高度重疊片段。德 布魯因圖基于k-1的序列守恒對準(zhǔn)K-mers(通常為25-50bp)W創(chuàng)建重疊群(連續(xù),重復(fù)序列 片段)。對于比片段長度更短的K-mers的使用,使得德布魯因圖表法降低了計(jì)算的強(qiáng)度,并 且適用于二代測序數(shù)據(jù)。
[0094] 在某些實(shí)施方案中,從頭裝配的計(jì)算流水線包括至少一個(gè)恒定模塊,例如,片段清 潔和過濾模塊,和至少一個(gè)可變模塊,例如,重疊群模塊。在通過組裝流水線時(shí),多個(gè)值被賦 予給可變模塊的可變參數(shù),例如,重疊群模塊的K-mers,同時(shí)單值被賦給不變模塊的恒定參 數(shù)。因此,不同參數(shù)設(shè)置之間的共同計(jì)算可W被節(jié)省下來。
[0095] 本發(fā)明可W用如下實(shí)施例進(jìn)行說明。運(yùn)些實(shí)施例不旨在從任何方面限制本發(fā)明。
[0096] 實(shí)施例1
[0097] W下是一個(gè)用于分析核酸序列片段的單通多設(shè)置的計(jì)算流水線的例子。
[0098] 該計(jì)算流水線由W下模塊串聯(lián)而成:定位模塊,重復(fù)標(biāo)記模塊,局域重新比對模 塊,堿基質(zhì)量重新校準(zhǔn)模塊和變體識別模塊。
[0099] 計(jì)算流水線的實(shí)施使用SuperServer 6016T-NTF服務(wù)器(Intel Dual Xeon E5620 2.4 Hz CPU,48 GB DDR3 1333MHz Ecc Memory,和2 TB SATA Seagate ST32000644NS 皿D)。
[0100] 用于分析的核酸序列片段來自人類基因組外顯子組測序數(shù)據(jù)。
[0101]具有化StQ格式的核酸片段(由Illumina公司系統(tǒng)生產(chǎn))被饋送到定位模塊,該定 位模塊用BWA算法將片段對應(yīng)到參照基因組化uman glk v37) dSAM格式的定位文件被轉(zhuǎn)換 為BAM格式并且由GATK進(jìn)行排序。排序后的BAM文件被饋送到重復(fù)標(biāo)記模塊,采用Picard算 法刪除重復(fù)的PCR。去掉重復(fù)部分的BAM文件被輸送到使用GATK算法的局域重新比對模塊W 及作為基準(zhǔn)的變量識別格式(VCf)的化SNP。重新對準(zhǔn)的BAM文件被饋送到使用GATK算法的 堿基質(zhì)量重新校準(zhǔn)模塊。
[0102] 上述模塊中所用參數(shù)的具體數(shù)值設(shè)置如下:重復(fù)標(biāo)記模塊中的兩組重復(fù)片段的最 大補(bǔ)償為100,局部重比對模塊的LOD闊值為5.0。
[0103] 重新校準(zhǔn)的BAM文件隨后被饋送到使用GATK算法的變體識別模塊。運(yùn)個(gè)模塊被運(yùn) 行了9次 W探索3 X 3矩陣:SNP(0.002,0.0 Ol,0.0005) X 插入缺失(Indel) (0.0002,0.0 OOl, 0.00005)O
[0104] 結(jié)果:大約需要2300分鐘來運(yùn)行上述單通多設(shè)置計(jì)算流水線(定位模塊大約需要 40分鐘,重復(fù)片段標(biāo)記模塊大約需要40分鐘,局部重比對模塊大約需要40分鐘,堿基質(zhì)量重 新校準(zhǔn)模塊需要大約180分鐘,變體識別模塊大約需要2000分鐘)。作為比較,如果使用單設(shè) 置的計(jì)算流水線運(yùn)行9次W探索上述3X3矩陣則需要大約4800分鐘。通過使用變體識別模 塊的矩陣中重新校準(zhǔn)的BAM文件,上述流水線中所使用的總計(jì)算量與通過全流水線9次W探 討矩陣所需計(jì)算量相比,僅僅是很小的一部分。
[0105]雖然本發(fā)明已經(jīng)被具體地展示,并依據(jù)具體實(shí)施方案給予了詳細(xì)說明(其中部分 是優(yōu)選的實(shí)施方案),但需要被本領(lǐng)域技術(shù)人員明白的是,在不脫離本文公開的發(fā)明的精神 和范圍的情況下,依然可W對其做出各種形式和細(xì)節(jié)上的調(diào)整。
【主權(quán)項(xiàng)】
1. 一種使用計(jì)算流水線分析多個(gè)核酸序列片段中的變體的計(jì)算機(jī)輔助實(shí)現(xiàn)方法,其中 所述計(jì)算流水線包括恒定模塊和可變模塊,所述可變模炔基于可變參數(shù),其特征在于,所述 方法包括在處理器上執(zhí)行如下步驟: 接收多個(gè)核酸序列片段; 為所述可變參數(shù)設(shè)定多個(gè)數(shù)值; 將所述多個(gè)核酸序列片段通過所述不變模塊以產(chǎn)生中間輸出結(jié)果; 將所述中間輸出結(jié)果通過所述可變模塊多次,其中每次使用所述可變參數(shù)設(shè)定的所述 多個(gè)數(shù)值中的一個(gè);并且 生成多個(gè)變體識別。2. 如權(quán)利要求1所述的方法,其特征在于,所述可變模塊為變體識別模塊。3. 如權(quán)利要求2所述的方法,其特征在于,所述可變參數(shù)是先驗(yàn)概率。4. 如權(quán)利要求4所述的方法,其特征在于,所述先驗(yàn)概率是全基因組單核苷酸多態(tài)性概 率,插入缺失概率,Phred-scaled間隙延伸錯(cuò)誤概率或Phred-scaled間隙開口錯(cuò)誤概率。5. 如權(quán)利要求1所述的方法,其特征在于,所述恒定模塊是定位模塊,重復(fù)片段標(biāo)記模 塊,局域重新比對模塊,堿基質(zhì)量重新校正模塊或其組合。6. 如權(quán)利要求1所述的方法,其特征在于,所述恒定模炔基于恒定參數(shù),并且所述方法 包括為所述恒定參數(shù)設(shè)置數(shù)值的步驟。7. 如權(quán)利要求1所述的方法,進(jìn)一步包括如下步驟: 基于所述多個(gè)變體識別,為所述可變參數(shù)設(shè)置矯正數(shù)值; 將所述中間輸出結(jié)果通過所述可變模塊,其中使用所述矯正數(shù)值;并且 生成一個(gè)矯正的變體識別。8. -種非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其附帶指令可以使其利用其所存諸的計(jì)算流水線分析 來自多個(gè)核酸序列片段的變體,所述計(jì)算流水線包括恒定模塊和可變模塊,所述至少一個(gè) 可變模炔基于可變參數(shù),所述指令當(dāng)被處理器執(zhí)行時(shí),會進(jìn)行如下操作: 接收多個(gè)核酸序列片段; 為所述可變參數(shù)設(shè)定多個(gè)數(shù)值; 將所述多個(gè)核酸序列片段通過所述恒定模塊以產(chǎn)生中間輸出結(jié)果; 將所述中間輸出結(jié)果通過所述可變模塊多次,其中每次使用所述可變參數(shù)設(shè)定的所述 多個(gè)數(shù)值中的一個(gè);并且 生成多個(gè)變體識別。9. 如權(quán)利要求8所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其特征在于,所述可變模塊為變體識別 豐旲塊。10. 如權(quán)利要求9所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其特征在于,所述可變參數(shù)是先驗(yàn)概 率。11. 如權(quán)利要求10所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其特征在于,所述先驗(yàn)概率是全基因 組單核苷酸多態(tài)性概率,插入缺失概率,Phred-scaled間隙延伸錯(cuò)誤概率或Phred-scaled 間隙開口錯(cuò)誤概率。12. 如權(quán)利要求8所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其特征在于,所述恒定模塊是定位模 塊,重復(fù)片段標(biāo)記模塊,局域重新比對模塊,堿基質(zhì)量重新校正模塊或其組合。13. 如權(quán)利要求8所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其特征在于,所述恒定模炔基于恒定 參數(shù),并且所述方法包括為所述恒定參數(shù)設(shè)置數(shù)值的步驟。14. 如權(quán)利要求8所述的非暫態(tài)計(jì)算機(jī)可讀介質(zhì),其特征在于,所述指令當(dāng)被處理器執(zhí) 行時(shí),會進(jìn)一步進(jìn)行如下操作: 基于所述多個(gè)變體識別,為所述可變參數(shù)設(shè)置一個(gè)矯正數(shù)值; 將所述中間輸出結(jié)果通過所述可變模塊,其中使用所述可變參數(shù)設(shè)定的所述矯正數(shù) 值;并且 生成一個(gè)矯正的變體識別。15. -種使用計(jì)算流水線分析多個(gè)核酸序列片段中的變體的計(jì)算機(jī)輔助實(shí)現(xiàn)方法,其 中所述計(jì)算流水線包括恒定模塊和可變模塊,所述可變模炔基于可變參數(shù),其特征在于,所 述方法包括在處理器上執(zhí)行如下步驟: 接收多個(gè)核酸序列片段; 為所述可變參數(shù)設(shè)定第一數(shù)值; 將所述多個(gè)核酸序列片段通過所述不變模塊以產(chǎn)生中間輸出結(jié)果; 將所述中間輸出結(jié)果第一次通過所述可變模塊,并使用所述可變參數(shù)的所述第一數(shù) 值; 生成第一變體識別; 根據(jù)所述第一變體識別,為所述可變參數(shù)設(shè)置第二數(shù)值; 將所述中間輸出結(jié)果第二次通過所述可變模塊,并使用所述可變參數(shù)的所述第二數(shù) 值;并且 生成第二變體識別。16. 如權(quán)利要求15所述的方法,其特征在于,所述可變模塊為變體識別模塊。17. 如權(quán)利要求16所述的方法,其特征在于,所述可變參數(shù)是先驗(yàn)概率。18. 如權(quán)利要求17所述的方法,其特征在于,所述先驗(yàn)概率是全基因組單核苷酸多態(tài)性 概率,插入缺失概率,Phred-scaled間隙延伸錯(cuò)誤概率或Phred-scaled間隙開口錯(cuò)誤概率。19. 如權(quán)利要求15所述的方法,其特征在于,所述恒定模塊是定位模塊,重復(fù)片段標(biāo)記 模塊,局域重新比對模塊,堿基質(zhì)量重新校正模塊或其組合。20. 如權(quán)利要求15所述的方法,其特征在于,所述恒定模炔基于恒定參數(shù),并且所述方 法包括為所述恒定參數(shù)設(shè)置數(shù)值的步驟。
【文檔編號】G06F19/22GK106021998SQ201610173000
【公開日】2016年10月12日
【申請日】2016年3月24日
【發(fā)明人】葉軍, 周巍, 陳洛祁, 馮漢鷹, 陳洪, 劉曉峰
【申請人】知源生信公司(美國硅谷)