堿基序列對準(zhǔn)系統(tǒng)及方法
【專利摘要】本發(fā)明公開一種堿基序列對準(zhǔn)系統(tǒng)及方法。根據(jù)本發(fā)明的一個實(shí)施例的堿基序列對準(zhǔn)系統(tǒng)包括:精確匹配模塊,用于執(zhí)行輸入的短片段(read)與參考序列(reference sequence)的精確匹配(exact matching);二次匹配模塊,當(dāng)所述短片段無法精確匹配于所述參考序列時,通過考慮所述短片段與所述參考序列之間的錯配(mismatch)而將所述短片段映射于所述參考序列;全局對準(zhǔn)模塊,當(dāng)所述短片段無法通過所述二次匹配模塊而得到映射時,執(zhí)行所述短片段與所述參考序列的全局對準(zhǔn)(global alignment)。
【專利說明】堿基序列對準(zhǔn)系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的實(shí)施例涉及一種用于分析基因組的堿基序列的技術(shù)。
【背景技術(shù)】
[0002] 用于生產(chǎn)大容量的短序列的下一代測序(NGS :Next Generation Sequencing)因 其低廉的費(fèi)用和快速數(shù)據(jù)生產(chǎn)方式而正在迅速地取代傳統(tǒng)的桑格(Sanger)測序方式。并 且,著重于準(zhǔn)確率而開發(fā)出多種多樣的NGS序列對準(zhǔn)程序。
[0003] 序列重組的第一個步驟為通過堿基序列對準(zhǔn)(alignment)算法將短片段(read) 映射(mapping)到參考序列的準(zhǔn)確的位置。為此,普通的現(xiàn)有堿基序列對準(zhǔn)算法首先將從 短片段中選取的預(yù)定長度的種子(seed)映射到參考序列,然后在映射的位置上對其余短 片段進(jìn)行全局對準(zhǔn)(Global Alignment)。
[0004] 對于這種現(xiàn)有技術(shù)中的序列對準(zhǔn)算法而言,需要在利用種子獲得的參考序列內(nèi)的 所有候選位置上執(zhí)行全局對準(zhǔn)。然而全局對準(zhǔn)的復(fù)雜度為〇 (N2),其執(zhí)行時間很長,因此如 果按照現(xiàn)有技術(shù),則突出的問題在于堿基序列對準(zhǔn)時間隨著候選位置的增加而按照幾何級 數(shù)增長。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的實(shí)施例的目的在于提供一種用于在利用從測序儀輸入的短片段進(jìn)行序 列對準(zhǔn)時有效地減少需要很長的執(zhí)行時間和很強(qiáng)的處理能力的全局對準(zhǔn)的執(zhí)行次數(shù)的技 術(shù)方案。
[0006] 根據(jù)本發(fā)明的一個實(shí)施例的一種堿基序列對準(zhǔn)系統(tǒng),包括:精確匹配模塊,用 于執(zhí)行輸入的短片段(read)對于參考序列(reference sequence)的精確匹配(exact matching);二次匹配模塊,當(dāng)所述短片段無法精確匹配到所述參考序列時,通過考慮所述 短片段與所述參考序列之間的錯配(mismatch)而將所述短片段映射到所述參考序列;全 局對準(zhǔn)模塊,當(dāng)通過所述二次匹配模塊無法映射所述短片段時,執(zhí)行所述短片段對于所述 參考序列的全局對準(zhǔn)(global alignment)。
[0007] 所述堿基序列對準(zhǔn)系統(tǒng)還可以包括:種子生成模塊,當(dāng)所述短片段無法精確匹配 到所述參考序列時,從所述短片段生成多個種子(seed)。
[0008] 所述種子生成模塊可從所述短片段的整個區(qū)間生成所述多個種子。
[0009] 所述種子生成模塊從所述短片段的第一個堿基(base)開始移動設(shè)定的間距并讀 取與設(shè)定的大小一樣大的所述短片段的值,從而可以生成所述多個種子。
[0010] 所述種子生成模塊可將所述多個種子生成為使生成的種子具有15bp?30bp的長 度。
[0011] 所述二次匹配模塊可計(jì)算生成的各個種子在所述參考序列上的映射位置,并可以 通過考慮在所述各個種子的映射位置上將所述短片段精確匹配到參考序列時發(fā)生的錯配 而確定所述短片段在所述參考序列上的映射位置。
[0012] 所述二次匹配模塊可將所述各個種子的映射位置當(dāng)中的所述錯配的數(shù)量最少的 位置確定為所述短片段的映射位置。
[0013] 所述二次匹配模塊可將所述各個種子的映射位置當(dāng)中的所述錯配的質(zhì)量分?jǐn)?shù)之 和最小的位置確定為所述短片段的映射位置。
[0014] 所述二次匹配模塊可將所述各個種子的映射位置當(dāng)中的所述錯配的數(shù)量為設(shè)定 值以下的同時錯配的質(zhì)量分?jǐn)?shù)之和最小的位置確定為所述短片段的映射位置。
[0015] 所述全局對準(zhǔn)模塊可在所述各個種子的映射位置上執(zhí)行所述短片段對于所述參 考序列的全局對準(zhǔn)。
[0016] 所述全局對準(zhǔn)模塊可從所述各個種子的映射位置當(dāng)中的所述錯配的質(zhì)量分?jǐn)?shù)之 和最小的映射位置開始依次執(zhí)行所述全局對準(zhǔn)。
[0017] 所述全局對準(zhǔn)模塊可從所述各個種子的映射位置當(dāng)中的所述錯配的數(shù)量與間隙 (gap)的數(shù)量之和為設(shè)定值以下的同時所述錯配的數(shù)量與間隙的數(shù)量之和最小的映射位置 開始依次執(zhí)行所述全局對準(zhǔn)。
[0018] 所述全局對準(zhǔn)模塊可從所述各個種子的映射位置當(dāng)中的所述錯配的數(shù)量與間隙 的數(shù)量之和為設(shè)定值以下的同時所述錯配以及所述間隙的質(zhì)量分?jǐn)?shù)之和最小的映射位置 開始依次執(zhí)行所述全局對準(zhǔn)。
[0019] 另外,根據(jù)本發(fā)明的一個實(shí)施例的一種堿基序列對準(zhǔn)方法,包括如下步驟:精確匹 配步驟,由精確匹配模塊執(zhí)行輸入的短片段對于參考序列的精確匹配;二次匹配步驟,當(dāng)所 述短片段無法精確匹配到所述參考序列時,由二次匹配模塊通過考慮所述短片段與所述參 考序列之間的錯配而將所述短片段映射到所述參考序列;全局對準(zhǔn)步驟,當(dāng)通過所述二次 匹配步驟無法映射所述短片段時,由全局對準(zhǔn)模塊執(zhí)行所述短片段對于所述參考序列的全 局對準(zhǔn)。
[0020] 所述的堿基序列對準(zhǔn)方法在執(zhí)行所述二次匹配步驟之前還可以包括如下步驟:種 子生成步驟,當(dāng)所述短片段無法精確匹配到所述參考序列時,從所述短片段生成多個種子。
[0021] 在所述種子生成步驟中,可從所述短片段的整個區(qū)間生成所述多個種子。
[0022] 在所述種子生成步驟中,可從所述短片段的第一個堿基開始移動設(shè)定的間距并讀 取與設(shè)定的大小一樣大的所述短片段的值,從而生成所述多個種子。
[0023] 在所述種子生成步驟中,可將所述多個種子生成為使生成的種子具有15bp? 30bp的長度。
[0024] 所述二次匹配步驟還可以包括如下步驟:計(jì)算生成的各個種子在所述參考序列上 的映射位置;通過考慮在所述各個種子的映射位置上將所述短片段精確匹配到參考序列時 發(fā)生的錯配而確定所述短片段在所述參考序列上的映射位置。
[0025] 在確定所述映射位置的步驟中,可將所述各個種子的映射位置當(dāng)中的所述錯配的 數(shù)量最少的位置確定為所述短片段的映射位置。
[0026] 在確定所述映射位置的步驟中,可將所述各個種子的映射位置當(dāng)中的所述錯配的 質(zhì)量分?jǐn)?shù)之和最小的位置確定為所述短片段的映射位置。
[0027] 在確定所述映射位置的步驟中,可將所述各個種子的映射位置當(dāng)中所述錯配的數(shù) 量為設(shè)定值以下的同時錯配的質(zhì)量得分之和最小的位置確定為所述短片段的映射位置。
[0028] 在所述全局對準(zhǔn)步驟中,可在所述各個種子的映射位置上執(zhí)行所述短片段對于所 述參考序列的全局對準(zhǔn)。
[0029] 在所述全局對準(zhǔn)步驟中,可從所述各個種子的映射位置當(dāng)中的所述錯配的質(zhì)量分 數(shù)之和最小的映射位置開始依次執(zhí)行所述全局對準(zhǔn)。
[0030] 在所述全局對準(zhǔn)步驟中,可從所述各個種子的映射位置當(dāng)中的所述錯配的數(shù)量與 間隙的數(shù)量之和為設(shè)定值以下的同時所述錯配的數(shù)量與間隙的數(shù)量之和最小的映射位置 開始依次執(zhí)行所述全局對準(zhǔn)。
[0031] 在所述全局對準(zhǔn)步驟中,可從所述各個種子的映射位置當(dāng)中的所述錯配的數(shù)量與 間隙的數(shù)量之和為設(shè)定值以下的同時所述錯配以及所述間隙的質(zhì)量分?jǐn)?shù)之和最小的映射 位置開始依次執(zhí)行所述全局對準(zhǔn)。
[0032] 根據(jù)本發(fā)明的實(shí)施例,經(jīng)過如下的步驟化的過程:首先嘗試對由測序儀生成的 整個短片段的精確匹配,并對沒有精確匹配的短片段執(zhí)行僅考慮錯配(mismatch)的二 次匹配,并只對所述二次匹配中也沒有被映射的短片段進(jìn)行選擇性的全局對準(zhǔn),即,執(zhí)行 同時考慮錯配和間隙(gap)的對準(zhǔn)。此時,由于所述二次匹配基本上是精確匹配(exact matching)過程,因此處理速度明顯快于具有0(N 2)的復(fù)雜度的全局對準(zhǔn)。即,根據(jù)本發(fā)明 的實(shí)施例,可在執(zhí)行全局對準(zhǔn)之前通過精確匹配和二次匹配過程而事先篩選出與參考序列 完全一致的短片段以及只存在一些錯配的短片段,從而與簡單地直接將短片段全局對準(zhǔn)于 參考序列的現(xiàn)有技術(shù)相比,可以有效地減少堿基序列對準(zhǔn)時間。
[0033] 而且,根據(jù)本發(fā)明的實(shí)施例,在進(jìn)行所述二次匹配時通過考慮錯配的質(zhì)量得分而 確定短片段的映射位置,從而具有可以減少喊基序列對準(zhǔn)時間的同時能夠維持喊基序列對 準(zhǔn)準(zhǔn)確率的優(yōu)點(diǎn)。
【專利附圖】
【附圖說明】
[0034] 圖1為用于說明根據(jù)本發(fā)明的一個實(shí)施例的堿基序列對準(zhǔn)方法100的圖。
[0035] 圖2為用于舉例表示在根據(jù)本發(fā)明的一個實(shí)施例的堿基序列對準(zhǔn)方法100中計(jì)算 mEB (誤差數(shù)量最小值)的過程的圖。
[0036] 圖3至圖5為用于舉例表示根據(jù)本發(fā)明的實(shí)施例的種子生成過程的圖。
[0037] 圖6為用于舉例說明根據(jù)本發(fā)明的一個實(shí)施例而將短片段精確匹配到參考序列 時的錯配(mismatch)的圖。
[0038] 圖7為用于舉例說明根據(jù)本發(fā)明的一個實(shí)施例的二次匹配過程的圖。
[0039] 圖8為用于說明根據(jù)本發(fā)明的一個實(shí)施例的堿基序列對準(zhǔn)系統(tǒng)800的模塊圖。
[0040] 符號說明:
[0041] 800:堿基序列對準(zhǔn)系統(tǒng) 802:精確匹配模塊
[0042] 804 :種子生成模塊 806 :二次匹配模塊
[0043] 808 :全局對準(zhǔn)模塊
【具體實(shí)施方式】
[0044] 以下,參照附圖對本發(fā)明的【具體實(shí)施方式】進(jìn)行說明。然而這僅僅是示例,本發(fā)明并 不局限于此。
[0045] 在對本發(fā)明進(jìn)行說明時,如果認(rèn)為對有關(guān)本發(fā)明的公知技術(shù)的具體說明有可能對 本發(fā)明的主旨造成不必要的混亂,則省略其詳細(xì)說明。另外,后述的術(shù)語為考慮到在本發(fā)明 中的功能而定義的術(shù)語,其可能因使用者、運(yùn)用者的意圖或慣例等而不同。因此,要以整個 說明書的內(nèi)容為基礎(chǔ)而對其進(jìn)行定義。
[0046] 本發(fā)明的技術(shù)思想由權(quán)利要求書確定,以下的實(shí)施例只是用于向本發(fā)明所屬技術(shù) 領(lǐng)域中具有普通知識的人員有效地說明本發(fā)明的技術(shù)思想的一種手段。
[0047] 在對本發(fā)明的實(shí)施例進(jìn)行詳細(xì)說明之前,先對本發(fā)明中使用的術(shù)語進(jìn)行如下說 明。首先,"短片段(read) "是指由基因組測序儀(genome sequencer)輸出的長度較短的堿 基序列數(shù)據(jù)。短片段的長度通常根據(jù)測序儀的類型而大致構(gòu)成為35?500bp(base pair, 堿基對),通常對于DNA堿基而言是用字母A、C、G、T來表示。
[0048] "參考序列(reference sequence) "是指從所述短片段生成整個堿基序列時作為 參照的堿基序列。在堿基序列分析中,通過參照參考序列對基因組測序儀中輸出的大量短 片段進(jìn)行映射,來完成整個堿基序列。在本發(fā)明中,所述參考序列可以是在堿基序列分析時 所預(yù)先設(shè)定的序列(例如,人類的整個堿基序列等),或者將基因組測序儀中制作出的堿基 序列使用為參考序列。
[0049] "堿基(base) "為構(gòu)成參考序列和短片段的最小單位。如前所述,對于DNA堿基而 言可以由A、C、G、T這四種字母構(gòu)成,將這些分別稱為堿基。S卩,對于DNA堿基而言,通過四 個堿基來表達(dá),這對于短片段也一樣。只是對于參考序列而言,由于多種多樣的原因(測序 錯誤、樣本錯誤等),可能會出現(xiàn)無法確定應(yīng)該用A、C、G或T中的哪種堿基來表示特定位置 的堿基的情形,對于這種無法明確的堿基通常是用N等另外的文字進(jìn)行標(biāo)記。
[0050] "種子(seed) "是指為了短片段的映射而將短片段與參考序列進(jìn)行比較時成為單 位的序列。理論上,為了將短片段映射到參考序列,需要將整個短片段從參考序列的起始部 分開始依次比較下去并計(jì)算短片段的映射位置。然而對于這種方法而言,映射一個短片段 需要很長的時間和很強(qiáng)的計(jì)算能力,因此實(shí)際上,首先將作為由短片段的一部分構(gòu)成的種 子映射到參考序列,從而找出整個短片段的映射候選位置,并將整個短片段映射到對應(yīng)的 候選位置(Global Alignment,全局對準(zhǔn))。
[0051] 圖1為用于說明根據(jù)本發(fā)明的一個實(shí)施例的堿基序列對準(zhǔn)方法100的圖。在本發(fā) 明的實(shí)施例中,堿基序列對準(zhǔn)方法100是指通過將基因組測序儀輸出的短片段與參考序列 進(jìn)行比較來確定短片段在所述參考序列上的映射(或?qū)?zhǔn))位置的一系列過程。如圖所示, 根據(jù)本發(fā)明的一個實(shí)施例的堿基序列對準(zhǔn)方法100大體上分為包括如下三個步驟:對整個 短片段的精確匹配步驟;對沒有得到精確匹配的短片段進(jìn)行二次匹配的步驟;對沒有得到 二次匹配的其余短片段進(jìn)行全局對準(zhǔn)的步驟。
[0052] 首先,如果由基因組測序儀輸入短片段(步驟102),則嘗試整個短片段與所述參 考序列的精確匹配(exact matching)(步驟104)。如果執(zhí)行所述步驟104的結(jié)果針對整 個短片段的精確匹配成功,則不再執(zhí)行后續(xù)的對準(zhǔn)步驟,并判斷為對準(zhǔn)成功(步驟106)。 將人類的堿基序列作為對象而進(jìn)行實(shí)驗(yàn)的結(jié)果顯示,將基因組測序儀輸出的100萬個短片 段精確匹配到人類的堿基序列時在一共為200萬次的對準(zhǔn)(正向序列100萬次,反向互補(bǔ) (reverse complement)方向序列100萬次)中發(fā)生了 231,564次的精確匹配。因此,執(zhí)行 所述步驟104的結(jié)果大致可以減少11. 6%的對準(zhǔn)量。
[0053] 然而,如果在所述步驟106中判斷為對應(yīng)短片段沒有得到精確匹配,換言之,參 考序列中不存在與短片段完全一致的區(qū)域,則接著從短片段中生成多個種子(步驟108), 并考慮所述種子在參考序列的映射位置上的所述短片段與所述參考序列之間的錯配 (mismatch)而嘗試將所述短片段映射到所述參考序列的二次匹配(步驟110)。如果所述步 驟110的二次匹配結(jié)果存在至少一個滿足二次匹配條件的映射位置,則將其中之一選為所 述短片段的映射位置(步驟112)。即,在此情況下二次匹配成功。但如果在所述步驟112 中不存在滿足所述二次匹配條件的映射位置,則最后,在所述種子在所述參考序列中的映 射位置上執(zhí)行所述短片段對所述參考序列的全局對準(zhǔn)(步驟114)。此時,在進(jìn)行所述全局 對準(zhǔn)的結(jié)果,如果短片段的錯誤數(shù)量超過已設(shè)定的最大錯誤數(shù)量允許值(maxError)則判 斷為對準(zhǔn)失敗,否則判斷為對準(zhǔn)成功(步驟116)。
[0054] 另外,雖然沒有圖示,然而如果在所述步驟106的判斷結(jié)果是短片段沒有精確匹 配到參考序列,則在執(zhí)行針對短片段的二次匹配之前,還可根據(jù)實(shí)施例而包括估計(jì)將相關(guān) 短片段對準(zhǔn)到所述參考序列時可能出現(xiàn)的錯誤數(shù)量的步驟。
[0055] 在本發(fā)明的實(shí)施例中,所述錯誤數(shù)量的估計(jì)可以通過計(jì)算將所述短片段對準(zhǔn)至所 述參考序列時可能出現(xiàn)的錯誤數(shù)量最小值(mEB :minimum Error Bound)而實(shí)現(xiàn)。圖2為用 于舉例表示所述mEB計(jì)算過程的圖。首先,如圖2的(a)所示,將初始mEB設(shè)定為0,并從 短片段的第一個堿基開始朝短片段的末端方向每次移動一個堿基來嘗試精確匹配。此時, 如圖2的(b)所示,假定從短片段的特定堿基(圖中以箭頭表示的部分)處開始無法再進(jìn) 行精確匹配。這種情況表示從短片段的匹配起始位置到當(dāng)前位置之間的區(qū)間某處發(fā)生了錯 誤。因此,在此情況下將mEB增加1并從下一個位置開始新的精確匹配(圖中表示為(C))。 以后如果在特定位置上再次判斷為無法精確匹配,則說明重新開始精確匹配的位置到當(dāng)前 位置之間的區(qū)間某處又發(fā)生了錯誤,因此將mEB再增加1并從下一個位置開始新的精確匹 配(圖中表示為(d))。經(jīng)過這種過程而到達(dá)短片段的末尾(S卩,圖中以(e)表示的情形) 時的mEB成為對應(yīng)短片段中可能存在的錯誤數(shù)量的最小值。
[0056] 如果經(jīng)過如上所述的過程而計(jì)算出短片段的mEB,接著便判斷計(jì)算出的mEB是否 超過已設(shè)定的最大錯誤數(shù)量允許值(MaxError),并在超過的情況下判斷為針對相關(guān)短片段 的對準(zhǔn)失敗并終止對準(zhǔn)。在前述的以人類堿基序列為對象的實(shí)驗(yàn)中,將最大錯誤數(shù)量允許 值取為3,并計(jì)算剩余短片段的mEB的結(jié)果顯示,共有相當(dāng)于844, 891次的短片段超過所述 最大錯誤數(shù)量允許值。即,執(zhí)行所述mEB計(jì)算步驟的結(jié)果,可以減少大約42. 2%的對準(zhǔn)量。 但如果所述判斷的結(jié)果mEB為所述最大錯誤數(shù)量允許值以下,則依次執(zhí)行前述步驟108以 后的步驟。
[0057] 以下詳細(xì)說明所述步驟108至步驟116的具體過程。
[0058] 從短片段牛成多個種子
[0059] 本步驟是為了正式執(zhí)行短片段的對準(zhǔn)而從短片段中生成作為多個小的片段的種 子的步驟。在本步驟中,考慮所述短片段的一部分或全部而生成多個種子。
[0060] 圖3至圖5為用于舉例說明這種通過考慮短片段的整個區(qū)間而生成種子的方法的 圖。只是,在本發(fā)明中說明的種子生成方法僅僅是示例,本發(fā)明并不局限于特定的種子生成 過程。例如,可通過將整個短片段或者其一部分特定區(qū)間分割為多個片段亦或是將分割的 片段進(jìn)行組合而生成種子。在此情況下,生成的種子可相互連續(xù)連接,然而并非一定要如 此,也可以組合短片段內(nèi)相互分離的片段來構(gòu)成種子。而且,從一個短片段生成的種子不一 定非要具有相同的長度,從一個短片段內(nèi)也可生成具有多種長度的種子。簡而言之,在本發(fā) 明的實(shí)施例中,從短片段生成種子的方法并不特別受限,可不受限制地采用從短片段的一 部分或整個短片段中提取種子的多種算法。
[0061] 首先,圖3為用于舉例表示根據(jù)本發(fā)明的一個實(shí)施例的種子生成過程的圖。如圖 所示,在本實(shí)施例中可通過將整個短片段分割為與設(shè)定的大小一樣大的片段而生成種子。 即,分割為預(yù)定長度的所述片段分別可以成為本發(fā)明的種子。在圖中圖示了將短片段分為 6個片段的實(shí)施例,然而片段的數(shù)量以及每個片段的長度并不特別受限,其可以通過考慮參 考序列的類型、短片段的長度、或者短片段的最大錯誤數(shù)量允許值等而適當(dāng)?shù)剡M(jìn)行調(diào)整。并 且,在圖中只圖示了將短片段分割為沒有相互重疊部分(overlap)的示例,然而也可以將 短片段分割為分割的各片段中存在一部分重疊的部分。
[0062] 圖4為用于舉例表示根據(jù)本發(fā)明的另一實(shí)施例的種子生成過程的圖。如圖所示, 在本實(shí)施例中,可以在將整個短片段分割為與設(shè)定大小一樣大的片段之后,通過將分割的 所述短片段的片段中的兩個以上的片段進(jìn)行組合而生成所述種子。例如,如圖所示,在將短 片段分割為4個片段(片段1?4)之后,將其兩兩組合的情況下可以生成總共6個種子。 與前述的實(shí)施例相同,分割的片段的數(shù)量、各片段的長度、以及組合的片段數(shù)量等并不特別 受限,其可以通過考慮參考序列的類型、短片段的長度、或者短片段的最大錯誤數(shù)量允許值 等而適當(dāng)?shù)卣{(diào)節(jié)。
[0063] 圖5為用于舉例表示根據(jù)本發(fā)明的又一實(shí)施例的種子生成過程的圖。在本實(shí)施 例中,從所述短片段的第一個堿基(base)開始移動設(shè)定的間距并讀取與設(shè)定大小一樣 大的所述短片段的值,從而生成所述種子。在圖示的實(shí)施例中,表示了短片段的長度為 75bp(base pair,堿基對)、短片段的最大錯誤數(shù)量允許值為3bp、種子的大?。╢ragment size)為15bp、移動間距(shift size)為4bp的情況下的實(shí)施例。即,從短片段的第一個 堿基開始以4bp為單位向右移動并生成種子。只是圖示的實(shí)施例僅僅是示例性的,例如可 通過考慮短片段的長度、短片段的最大錯誤數(shù)量允許值等而適當(dāng)?shù)卮_定所述移動間距、種 子大小等。換言之,本發(fā)明的權(quán)利范圍并不局限于特定的種子大小和移動間距。
[0064] 另外,雖然在本發(fā)明的實(shí)施例中種子的長度并不特別受限,然而可以優(yōu)選將所述 種子的長度設(shè)定為所述短片段長度的20%?30%。通常,種子的長度越短,對應(yīng)種子在參 考序列上的映射數(shù)增加,而種子的長度越長,對應(yīng)種子在參考序列上的映射數(shù)越少。通常 情況下,在考慮由基因組測序儀生成的短片段的長度時,如果種子的長度為短片段長度的 20%以下,則種子在參考序列上的映射數(shù)過多,因此出現(xiàn)后續(xù)的全局對準(zhǔn)過程中全局對準(zhǔn) 次數(shù)不必要地增加的問題。相反,如果所述種子的長度為短片段長度的30%以上,則種子在 參考序列上的映射數(shù)過少,從而使映射的準(zhǔn)確率下降。因此在本發(fā)明中考慮到短片段的長 度而將種子的長度構(gòu)成為所述短片段長度的20%?30%,從而在確保映射的質(zhì)量的同時 使映射時可發(fā)生的復(fù)雜度最小化。
[0065] 并且,如果所述參考序列為人類的堿基序列,則可以將所述種子生成為具有 15bp?30bp的長度。如前所述,通常情況下種子的長度越短對應(yīng)種子在參考序列上的映射 數(shù)越多,而種子的長度越長對應(yīng)種子在參考序列上的映射數(shù)越少。尤其,對于人類的堿基序 列而言,在種子的長度為14以下的情況下參考序列內(nèi)的映射位置的數(shù)量急劇增加。如下的 表1表示基于種子長度的人類基因組內(nèi)的種子平均出現(xiàn)頻率。
[0066] [表 1]
[0067]
【權(quán)利要求】
1. 一種堿基序列對準(zhǔn)系統(tǒng),包括: 精確匹配模塊,用于執(zhí)行輸入的短片段對于參考序列的精確匹配; 二次匹配模塊,當(dāng)所述短片段無法精確匹配到所述參考序列時,通過考慮所述短片段 與所述參考序列之間的錯配而將所述短片段映射到所述參考序列; 全局對準(zhǔn)模塊,當(dāng)通過所述二次匹配模塊無法映射所述短片段時,執(zhí)行所述短片段對 于所述參考序列的全局對準(zhǔn)。
2. 如權(quán)利要求1所述的堿基序列對準(zhǔn)系統(tǒng),其中,還包括: 種子生成模塊,當(dāng)所述短片段無法精確匹配到所述參考序列時,從所述短片段中生成 多個種子。
3. 如權(quán)利要求2所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述種子生成模塊從所述短片段的 整個區(qū)間生成所述多個種子。
4. 如權(quán)利要求2所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述種子生成模塊從所述短片段的 第一個堿基開始移動設(shè)定的間距并讀取與設(shè)定的大小一樣大的所述短片段的值,從而生成 所述多個種子。
5. 如權(quán)利要求2所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述種子生成模塊將所述多個種子 生成為使生成的種子具有15bp?30bp的長度。
6. 如權(quán)利要求2所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述二次匹配模塊計(jì)算生成的各個 種子在所述參考序列上的映射位置,并通過考慮在所述各個種子的映射位置上將所述短片 段精確匹配到參考序列時發(fā)生的錯配而確定所述短片段在所述參考序列上的映射位置。
7. 如權(quán)利要求6所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述二次匹配模塊將所述各個種子 的映射位置當(dāng)中的所述錯配的數(shù)量最少的位置確定為所述短片段的映射位置。
8. 如權(quán)利要求6所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述二次匹配模塊將所述各個種子 的映射位置當(dāng)中的所述錯配的質(zhì)量分?jǐn)?shù)之和最小的位置確定為所述短片段的映射位置。
9. 如權(quán)利要求6所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述二次匹配模塊將所述各個種子 的映射位置當(dāng)中的所述錯配的數(shù)量為設(shè)定值以下的同時錯配的質(zhì)量分?jǐn)?shù)之和最小的位置 確定為所述短片段的映射位置。
10. 如權(quán)利要求6所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述全局對準(zhǔn)模塊在所述各個種子 的映射位置上執(zhí)行所述短片段對于所述參考序列的全局對準(zhǔn)。
11. 如權(quán)利要求10所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述全局對準(zhǔn)模塊從所述各個種 子的映射位置當(dāng)中的所述錯配的質(zhì)量分?jǐn)?shù)之和最小的映射位置開始依次執(zhí)行所述全局對 準(zhǔn)。
12. 如權(quán)利要求10所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述全局對準(zhǔn)模塊從所述各個種 子的映射位置當(dāng)中的所述錯配的數(shù)量與間隙的數(shù)量之和為設(shè)定值以下的同時所述錯配的 數(shù)量與間隙的數(shù)量之和最小的映射位置開始依次執(zhí)行所述全局對準(zhǔn)。
13. 如權(quán)利要求10所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述全局對準(zhǔn)模塊從所述各個種 子的映射位置當(dāng)中所述錯配的數(shù)量與間隙的數(shù)量之和為設(shè)定值以下的同時所述錯配以及 所述間隙的質(zhì)量得分之和最小的映射位置開始依次執(zhí)行所述全局對準(zhǔn)。
14. 一種堿基序列對準(zhǔn)方法,包括如下步驟: 精確匹配步驟,由精確匹配模塊執(zhí)行輸入的短片段對于參考序列的精確匹配; 二次匹配步驟,當(dāng)所述短片段無法精確匹配到所述參考序列時,由二次匹配模塊通過 考慮所述短片段與所述參考序列之間的錯配而將所述短片段映射到所述參考序列; 全局對準(zhǔn)步驟,當(dāng)通過所述二次匹配步驟無法映射所述短片段時,由全局對準(zhǔn)模塊執(zhí) 行所述短片段對于所述參考序列的全局對準(zhǔn)。
15. 如權(quán)利要求14所述的堿基序列對準(zhǔn)方法,其中,在執(zhí)行所述二次匹配步驟之前,還 包括如下步驟: 種子生成步驟,當(dāng)所述短片段無法精確匹配到所述參考序列時,從所述短片段中生成 多個種子。
16. 如權(quán)利要求15所述的堿基序列對準(zhǔn)方法,其中,在所述種子生成步驟中,從所述短 片段的整個區(qū)間中生成所述多個種子。
17. 如權(quán)利要求15所述的堿基序列對準(zhǔn)方法,在所述種子生成步驟中,從所述短片段 的第一個堿基開始移動設(shè)定的間距并讀取與設(shè)定的大小一樣大的所述短片段的值,從而生 成所述多個種子。
18. 如權(quán)利要求15所述的堿基序列對準(zhǔn)方法,其中,在所述種子生成步驟中,將所述多 個種子生成為使生成的種子具有15bp?30bp的長度。
19. 如權(quán)利要求15所述的堿基序列對準(zhǔn)方法,其中,所述二次匹配步驟還包括如下步 驟: 計(jì)算生成的各個種子在所述參考序列上的映射位置; 通過考慮在所述各個種子的映射位置上將所述短片段精確匹配到參考序列時發(fā)生的 錯配而確定所述短片段在所述參考序列上的映射位置。
20. 如權(quán)利要求19所述的堿基序列對準(zhǔn)方法,其中,在確定所述映射位置的步驟中,將 所述各個種子的映射位置當(dāng)中的所述錯配的數(shù)量最少的位置確定為所述短片段的映射位 置。
21. 如權(quán)利要求19所述的堿基序列對準(zhǔn)方法,其中,在確定所述映射位置的步驟中,將 所述各個種子的映射位置當(dāng)中的所述錯配的質(zhì)量分?jǐn)?shù)之和最小的位置確定為所述短片段 的映射位置。
22. 如權(quán)利要求19所述的堿基序列對準(zhǔn)方法,其中,在確定所述映射位置的步驟中,將 所述各個種子的映射位置當(dāng)中的所述錯配的數(shù)量為設(shè)定值以下的同時錯配的質(zhì)量分?jǐn)?shù)之 和最小的位置確定為所述短片段的映射位置。
23. 如權(quán)利要求19所述的堿基序列對準(zhǔn)方法,其中,在所述全局對準(zhǔn)步驟中,在所述各 個種子的映射位置上執(zhí)行所述短片段對于所述參考序列的全局對準(zhǔn)。
24. 如權(quán)利要求23所述的堿基序列對準(zhǔn)方法,其中,在所述全局對準(zhǔn)步驟中,從所述各 個種子的映射位置當(dāng)中的所述錯配的質(zhì)量分?jǐn)?shù)之和最小的映射位置開始依次執(zhí)行所述全 局對準(zhǔn)。
25. 如權(quán)利要求23所述的堿基序列對準(zhǔn)方法,其中,在所述全局對準(zhǔn)步驟中,從所述各 個種子的映射位置當(dāng)中的所述錯配的數(shù)量與間隙的數(shù)量之和為設(shè)定值以下的同時所述錯 配的數(shù)量與間隙的數(shù)量之和最小的映射位置開始依次執(zhí)行所述全局對準(zhǔn)。
26. 如權(quán)利要求23所述的堿基序列對準(zhǔn)方法,其中,在所述全局對準(zhǔn)步驟中,從所述各 個種子的映射位置當(dāng)中的所述錯配的數(shù)量與間隙的數(shù)量之和為設(shè)定值以下的同時所述錯 配以及所述間隙的質(zhì)量分?jǐn)?shù)之和最小的映射位置開始依次執(zhí)行所述全局對準(zhǔn)。
【文檔編號】G06F19/18GK104424398SQ201410196155
【公開日】2015年3月18日 申請日期:2014年5月9日 優(yōu)先權(quán)日:2013年9月3日
【發(fā)明者】樸旻壻 申請人:三星Sds株式會社