堿基序列對準(zhǔn)系統(tǒng)及方法
【專利摘要】本發(fā)明公開一種堿基序列對準(zhǔn)系統(tǒng)及方法。根據(jù)本發(fā)明的一個實施例的一種堿基序列對準(zhǔn)系統(tǒng),包括:種子生成單元,由所接收的短片段(read)生成多個種子(seed);篩選單元,將生成的所述種子映射于參考序列(reference sequence),并通過考慮映射的種子之間的間隔(gap)而選擇所述映射的種子中的全局對準(zhǔn)對象種子;對準(zhǔn)單元,在被選擇的所述種子的所述參考序列上的映射位置上執(zhí)行所述短片段的針對所述參考序列的全局對準(zhǔn)(global alignment)。
【專利說明】堿基序列對準(zhǔn)系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明的實施例涉及一種用于分析基因組的堿基序列的技術(shù)。
【背景技術(shù)】
[0002] 用于生產(chǎn)大容量的短序列的下一代測序(NGS :Next Generation Sequencing)因 其低廉的費用和快速的數(shù)據(jù)生成而正在迅速地取代傳統(tǒng)的桑格(Sanger)測序方式。并且, 聚焦于準(zhǔn)確率而開發(fā)出多種多樣的NGS序列對準(zhǔn)程序。
[0003] 序列重組的第一個步驟為通過堿基序列對準(zhǔn)(alignment)算法而將短片段 (read)映射(mapping)于參考序列的準(zhǔn)確的位置。為此,普通的現(xiàn)有堿基序列對準(zhǔn)算法首 先將從短片段中選取的預(yù)定長度的種子(seed)映射于參考序列,然后在映射的位置上對 其余短片段進行全局對準(zhǔn)(Global Alignment)。
[0004] 對于這種現(xiàn)有技術(shù)中的序列對準(zhǔn)算法而言,需要在利用種子獲得的參考序列內(nèi)的 所有候選位置上執(zhí)行全局對準(zhǔn)。然而全局對準(zhǔn)的復(fù)雜度為〇(N 2),其為執(zhí)行時間很長的作 業(yè),因此如果按照現(xiàn)有技術(shù),尤其隨著候選位置的增加,堿基序列對準(zhǔn)時間按照幾何級數(shù)增 長。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明的實施例的目的在于當(dāng)進行利用從測序儀接收的短片段的序列對準(zhǔn)時,通 過考慮由短片段獲得的各個種子在參考序列內(nèi)的映射位置以及允許的誤差值而減少全局 對準(zhǔn)的執(zhí)行次數(shù),從而提高堿基序列分析的速度和準(zhǔn)確率。
[0006] 根據(jù)本發(fā)明的一個實施例的一種堿基序列對準(zhǔn)系統(tǒng),包括:種子生成單元,由所接 收的短片段(read)生成多個種子(seed);篩選單元,將生成的所述種子映射于參考序列 (reference sequence),并通過考慮映射的種子之間的間隔(gap)而選擇所述映射的種子 中的全局對準(zhǔn)對象種子;對準(zhǔn)單元,在被選擇的所述種子的所述參考序列上的映射位置上 執(zhí)行所述短片段的針對所述參考序列的全局對準(zhǔn)(global alignment)。
[0007] 所述篩選單元可將映射于所述參考序列的種子當(dāng)中的、種子之間的間隔之和在設(shè) 定值以下的種子選擇為所述全局對準(zhǔn)對象種子。
[0008] 所述篩選單元可將映射于所述參考序列的種子當(dāng)中的、滿足如下數(shù)學(xué)式的種子選 擇為所述全局對準(zhǔn)對象種子 :
[0009] A ^ MaxError+B
[0010] 其中,A為被選擇的各個種子在所述參考序列內(nèi)的間隔之和,B為被選擇的各個種 子在所述短片段內(nèi)的間隔之和,MaxError為最大誤差允許值。
[0011] 所述系統(tǒng)還可以包括:精確匹配單元,執(zhí)行所接收的短片段的針對所述參考序列 的精確匹配;誤差個數(shù)估計單元,針對在所述精確匹配單元中沒有得到精確匹配的短片段, 估計出將相關(guān)短片段對準(zhǔn)于所述參考序列時的誤差個數(shù),其中,所述種子生成單元可在估 計出的所述誤差個數(shù)在設(shè)定的最大誤差允許值以下時由所述短片段生成多個種子。
[0012] 另一方面,根據(jù)本發(fā)明的一個實施例的一種堿基序列對準(zhǔn)方法,包括如下步驟: 在種子生成單元中,由所接收的短片段(read)生成多個種子(seed);在篩選單元中,將 生成的所述種子映射于參考序列(reference sequence),并通過考慮映射的種子之間的 間隔(gap)而選擇所述映射的種子中的全局對準(zhǔn)對象種子;在對準(zhǔn)單元中,在被選擇的所 述種子的所述參考序列上的映射位置上執(zhí)行所述短片段的針對所述參考序列的全局對準(zhǔn) (global alignment)〇
[0013] 在選擇所述全局對準(zhǔn)對象種子的步驟中,可將映射于所述參考序列的種子當(dāng)中 的、種子之間的間隔之和在設(shè)定值以下的種子選擇為所述全局對準(zhǔn)對象種子。
[0014] 在選擇所述全局對準(zhǔn)對象種子的步驟中,可將映射于所述參考序列的種子當(dāng)中 的、滿足如下數(shù)學(xué)式的種子選擇為所述全局對準(zhǔn)對象種子:
[0015] A ^ MaxError+B
[0016] 其中,A為被選擇的各個種子在所述參考序列內(nèi)的間隔之和,B為被選擇的各個種 子在所述短片段內(nèi)的間隔之和,MaxError為最大誤差允許值。
[0017] 在所述方法中,在執(zhí)行生成所述種子的步驟之前,還可以包括如下步驟:在精確匹 配單元中,執(zhí)行所接收的短片段的針對所述參考序列的精確匹配;在誤差個數(shù)估計單元中, 針對在執(zhí)行所述精確匹配的步驟中沒有得到精確匹配的短片段,估計出將相關(guān)短片段對準(zhǔn) 于所述參考序列時的誤差個數(shù),其中,在生成所述種子的步驟中,可在估計出的所述誤差個 數(shù)在設(shè)定的最大誤差允許值以下時由所述短片段生成多個種子。
[0018] 根據(jù)本發(fā)明的實施例,不是在由短片段獲得的各個種子的參考序列內(nèi)的所有映射 位置上執(zhí)行全局對準(zhǔn),而是考慮各個種子在參考序列內(nèi)的映射位置以及允許的誤差值而只 在判斷為合適的位置上執(zhí)行全局對準(zhǔn),從而具有可提高堿基序列分析速度的優(yōu)點。
[0019] 而且,排除各個種子的映射位置當(dāng)中對準(zhǔn)可能性較低的位置,并只在判斷為對準(zhǔn) 可能性較高的位置上執(zhí)行全局對準(zhǔn),從而還可以提高堿基序列分析的準(zhǔn)確率。
【專利附圖】
【附圖說明】
[0020] 圖1為用于說明根據(jù)本發(fā)明的一個實施例的堿基序列對準(zhǔn)方法100的圖。
[0021] 圖2為用于舉例表示根據(jù)本發(fā)明的一個實施例的堿基序列對準(zhǔn)方法100中的mEB 計算過程的圖。
[0022] 圖3至圖5為用于說明根據(jù)本發(fā)明的實施例而從短片段提取種子的示例的圖。
[0023] 圖6為用于說明根據(jù)本發(fā)明的一個實施例的種子的針對參考序列的映射以及全 局對準(zhǔn)對象種子的選擇過程的圖。
[0024] 圖7為用于說明本發(fā)明的一個實施例中的種子之間的間隔(gap)的含義的圖。
[0025] 圖8為用于說明根據(jù)本發(fā)明的一個實施例的堿基序列對準(zhǔn)系統(tǒng)800的模塊圖。
[0026] 符號說明:
[0027] 800 :喊基序列對準(zhǔn)系統(tǒng) 802 :種子生成單兀
[0028] 804 :篩選單元 806 :對準(zhǔn)單元
[0029]808:精確匹配單元 810:誤差個數(shù)估計單元
【具體實施方式】
[0030] 以下,參照附圖而對本發(fā)明的【具體實施方式】進行說明。然而這僅僅是示例,本發(fā)明 并不局限于此。
[0031] 在對本發(fā)明進行說明時,如果認(rèn)為對有關(guān)本發(fā)明的公知技術(shù)的具體說明有可能對 本發(fā)明的主旨造成不必要的混亂,則省略其詳細(xì)說明。另外,后述的術(shù)語為考慮到在本發(fā)明 中的功能而定義的術(shù)語,其可能因使用者、運用者的意圖或慣例等而不同。因此,要以整個 說明書的內(nèi)容為基礎(chǔ)而對其進行定義。
[0032] 本發(fā)明的技術(shù)思想由權(quán)利要求書確定,以下的實施例只是用于將本發(fā)明的技術(shù)思 想有效地說明給本發(fā)明所屬【技術(shù)領(lǐng)域】中具有普通知識的人員的一種手段。
[0033] 在對本發(fā)明的實施例進行詳細(xì)說明之前,先對本發(fā)明中使用的術(shù)語進行如下說 明。首先,"短片段(read)"是指由基因組測序儀(genome sequencer)輸出的短小長度的 堿基序列數(shù)據(jù)。短片段的長度通常為根據(jù)測序儀的類型而多樣地構(gòu)成為35?500bp (base pair,堿基對)左右,通常對于DNA堿基而言是用字母A、C、G、T來表示。
[0034] "參考序列(reference sequence) "是指從所述短片段生成整個堿基序列時作為 參照的堿基序列。在堿基序列分析中,是通過參照參考序列而將基因組測序儀中輸出的大 量短片段進行映射以完成整個堿基序列。在本發(fā)明中,所述參考序列既可以是在堿基序列 分析時預(yù)先設(shè)定的序列(例如,人類的整個堿基序列等),也可以將在基因組測序儀中制作 出的堿基序列使用為參考序列。
[0035] "堿基(base) "為構(gòu)成參考序列和短片段的最小單位。如前所述,對于DNA堿基而 言可以由A、C、G、T這四種字母構(gòu)成,將這些分別稱為堿基。S卩,對于DNA堿基而言,通過四 個堿基來表達,這對于短片段也一樣。只是對于參考序列而言,由于多種多樣的原因(測序 錯誤、樣本錯誤等),可能會出現(xiàn)特定位置的堿基不知該用A、C、G或T中的哪種堿基去表示 的情形,對于這種不明確的堿基通常是用N等專門的文字進行標(biāo)記。
[0036] "種子(seed) "是指為了短片段的映射而將短片段與參考序列進行比較時成為單 位的序列。理論上,為了將短片段映射于參考序列,需要將整個短片段從參考序列的起始部 分開始依次比較下去并計算短片段的映射位置。然而對于這種方法而言,映射一個短片段 需要太長的時間和超強的計算能力,因此實際上是首先將作為由短片段的一部分構(gòu)成的片 段的種子映射于參考序列而尋找出整個短片段的映射候選位置,并將整個短片段映射于對 應(yīng)的候選位置(Global Alignment,全局對準(zhǔn))。
[0037] 圖1為用于說明根據(jù)本發(fā)明的一個實施例的堿基序列對準(zhǔn)方法100的圖。在本發(fā) 明的實施例中,堿基序列對準(zhǔn)方法1〇〇是指將從基因組(genome)測序儀中輸出的短片段與 參考序列進行比較而確定短片段在所述參考序列上的映射(或者對準(zhǔn))位置的一系列過 程。
[0038] 首先,當(dāng)有短片段從基因組測序儀(genome sequencer)輸入時(步驟102),嘗試 整個短片段與所述參考序列之間的精確匹配(exact matching)(步驟104)。如果所述步驟 104的執(zhí)行結(jié)果,針對整個短片段的精確匹配成功,則不執(zhí)行后續(xù)的對準(zhǔn)步驟而判斷為對準(zhǔn) 成功(步驟106)。將人類的堿基序列作為對象進行實驗的結(jié)果,當(dāng)把從基因組測序儀中輸 出的100萬個短片段精確匹配于人類的堿基序列時,在總共為200萬次的對準(zhǔn)當(dāng)中(正向 序列100萬次,反向互補(reverse complement)方向序列100萬次)發(fā)生231,564次的精 確匹配。因此,所述步驟104的執(zhí)行結(jié)果可以減少約11. 6%的對準(zhǔn)所需量。
[0039] 但如果在所述步驟106中判斷為相關(guān)短片段并不精確匹配,換言之參考序列中并 不存在與短片段完全一致的區(qū)域,則接著估計將相關(guān)短片段對準(zhǔn)于所述參考序列時可能出 現(xiàn)的誤差個數(shù)(步驟108)。
[0040] 在本發(fā)明的實施例中,所述誤差個數(shù)的估計可通過計算將所述短片段對準(zhǔn)于所述 參考序列時可能出現(xiàn)的誤差的最小值(mEB :minimum Error Bound)而實現(xiàn)。圖2為用于舉 例表示所述步驟108中的mEB計算過程的圖。首先,如圖2的(1)所示,起初將mEB設(shè)定為 0,并從短片段的第一個堿基開始朝短片段的末尾方向每次移動一個堿基而嘗試精確匹配。 此時,如圖2的(2)所示,假設(shè)從短片段的特定堿基(在圖中以箭頭表示的部分)開始無法 再進行精確匹配。這一情況表示從短片段的匹配起始位置到當(dāng)前位置之間的區(qū)間某處發(fā)生 了誤差。因此在這一情況下便將mEB增加1,并在下一個位置上重新開始精確匹配(圖中以 (3)表示)。此后如果在特定位置上再次判斷為無法精確匹配,則說明從重新開始精確匹配 的位置到當(dāng)前位置之間的區(qū)間某處又發(fā)生了誤差,因此再將mEB增加1,并在下一個位置重 新開始精確匹配(圖中以(4)表示)。經(jīng)過這樣的過程而到達短片段的末尾時的mEB成為 相關(guān)短片段中可能存在的誤差個數(shù)的最小值。
[0041] 如果經(jīng)過如上所述的過程而計算出短片段的mEB,則判斷計算出的mEB是否超過 已設(shè)定的最大誤差允許值(MaxError)(步驟110),且在超過的情況下判斷為針對相關(guān)短片 段的對準(zhǔn)失敗并終止對準(zhǔn)。在前述的將人類的堿基序列作為對象的實驗中,將最大誤差允 許值(MaxError)取為3并計算其余短片段的mEB的結(jié)果顯示,總共有相當(dāng)于844, 891次的 短片段超過所述最大誤差允許值。即,所述步驟108的執(zhí)行結(jié)果約可以減少42. 2%的對準(zhǔn) 所需量。
[0042] 但如果在所述步驟110中判斷的結(jié)果mEB在所述最大誤差允許值以下,則通過如 下的過程而執(zhí)行針對相關(guān)短片段的對準(zhǔn)。
[0043]首先,由所述短片段生成多個種子(seed)(步驟112),并將生成的所述種子分別 映射于參考序列(reference sequence)(步驟114),然后通過考慮映射的種子之間的間隔 (gap)而選擇所述映射的種子中的全局對準(zhǔn)對象種子(步驟116)。然后在被選擇的種子 的所述參考序列上的映射位置上執(zhí)行所述短片段的針對所述參考序列的全局對準(zhǔn)(global alignment)(步驟118)。此時,如果進行所述全局對準(zhǔn)的結(jié)果為短片段的誤差個數(shù)超過已 設(shè)定的最大誤差允許值(maxError),則判斷為對準(zhǔn)失敗,否則判斷為對準(zhǔn)成功(步驟120)。
[0044] 以下對所述步驟112至步驟116的具體過程進行詳細(xì)說明。
[0045] 由短片段牛成多個種子(步驟112)
[0046] 本步驟是為了正式執(zhí)行短片段的對準(zhǔn)而由短片段生成多個作為短小片段的種子 (seed)的步驟。在本步驟中通過考慮所述短片段的一部分或者整體而生成多個種子。例 如,可通過將短片段的整體或一部分預(yù)定區(qū)間分割為多個片段或者將分割的片段進行組合 而生成種子。在此情況下,生成的種子可以相互連續(xù)性地連接,然而并非一定如此,也可以 由短片段內(nèi)相互分離的片段的組合構(gòu)成種子。并且,由一個短片段生成的種子并非一定要 具有相同的長度,在一個短片段內(nèi)也可以生成具有多種長度的種子。要而言之,在本發(fā)明的 實施例中由短片段生成種子的方法并不特別受限,從短片段的一部分或整體中提取種子的 多種算法均可不加限制地使用。
[0047] 圖3至圖5為用于說明根據(jù)本發(fā)明的實施例而從短片段提取種子的示例的圖。例 如可以如圖3所示地將種子提取為使提取的種子在短片段上相鄰,或者可以如圖4所示地 將種子提取為使種子之間存在間隔(gap,在圖中以&表示),或者可以如圖5所示地將種 子提取為使種子之間存在部分重疊(overlap,在圖中以k 2表示)。在圖示的實施例中是對 從每一個短片段中分別提取三個種子的情形進行了記載,然而這僅僅是示例性的,從短片 段提取的種子是可以通過考慮短片段的長度等而適當(dāng)?shù)卮_定。
[0048]種子的映身寸以及選擇全局對準(zhǔn)對象種子(步驟114、116)
[0049] 如果如上所述地由短片段生成種子,接著就將生成的所述種子分別映射 (mapping)于參考序列(reference sequence)(步驟114),然后通過考慮映射的種子之間的 間隔(gap)而選擇所述映射的種子中的全局對準(zhǔn)對象種子(步驟116)。
[0050] 圖6為用于說明根據(jù)本發(fā)明的一個實施例的種子的針對參考序列的映射以及全 局對準(zhǔn)對象種子的選擇過程的圖。如圖示的實施例那樣,假設(shè)將由短片段提取的3個種子 (種子A、種子B、種子C)映射于參考序列。通常而言參考序列比起種子具有很大的長度,因 此各個種子能夠在參考序列內(nèi)映射于一個以上的位置。對于圖示的實施例而言,種子A映 射于參考序列的三處,種子B映射于參考序列的兩處,種子C映射于參考序列的一處。
[0051] 如果映射完畢,接著就選擇映射于參考序列的種子中的全局對準(zhǔn)對象種子。在本 發(fā)明的實施例中,全局對準(zhǔn)對象種子是指映射于參考序列的種子當(dāng)中相鄰的種子之間的間 隔之和在基準(zhǔn)值以下的種子。此時,所述基準(zhǔn)值可以是最大誤差允許值(MaxError)。而且, 所述相鄰的種子是指短片段上的位置彼此鄰接的種子。
[0052] 圖7為用于說明本發(fā)明的一個實施例中的種子之間的間隔(gap)的含義的圖。如 圖所示,假設(shè)作為在短片段上相鄰的種子的種子X和種子Y分別映射于參考序列的位置M、 位置N。在此情況下,前一種子(種子X)的最后一個堿基與后一種子(種子Y)的第一個堿 基之間的距離即為本發(fā)明中的種子之間的間隔。
[0053] 在本發(fā)明的實施例中通過這樣的方法計算映射于參考序列的種子當(dāng)中的相鄰的 種子之間的間隔,并將各種子的間隔之和在基準(zhǔn)值以下的種子選擇為全局對準(zhǔn)對象種子。 例如在圖6所示的實施例中,假設(shè)三個種子是以種子A、種子B、種子C的順序分別在短片段 內(nèi)相鄰的種子,在此情況下,在所述步驟116中分別計算種子A與種子B之間的間隔、種子 B與種子C之間的間隔,并找出計算出的間隔之和在已設(shè)定的值以下的種子A、種子B、種子 C的組合而將其選擇為全局對準(zhǔn)對象種子(圖中以虛線表示的種子為全局對準(zhǔn)對象種子)。
[0054] 另外,根據(jù)實施例,如圖4所示,當(dāng)提取的種子在短片段內(nèi)并沒有相鄰而是分離預(yù) 定間隔時,可以考慮這一點而增加所述基準(zhǔn)值。即,當(dāng)把短片段內(nèi)具有大小為2的間隔的種 子映射于參考序列時,如果兩個種子的間隔為5,則所述間隔中的3的間隔是由參考序列內(nèi) 的插入(insertion)等引起的可能性較高,然而其余的2的間隔卻是原來在短片段內(nèi)的間 隔所引起的可能性較高。因此為了對其進行校正,優(yōu)選在原來的基準(zhǔn)值上加2。對此如果用 數(shù)學(xué)式進行表示則如以下的數(shù)學(xué)式1。
[0055][數(shù)學(xué)式1]
[0056] A ^ MaxError+B
[0057] 在此,A為被選擇的各個種子在所述參考序列內(nèi)的間隔之和,B為被選擇的各個種 子在所述短片段內(nèi)的間隔之和,MaxError為最大誤差允許值。
[0058] S卩,在所述步驟116中,如果映射的種子之間的間隔之和滿足所述數(shù)學(xué)式1,則可 以將相關(guān)種子選擇為全局對準(zhǔn)對象種子。并且,雖然在所述數(shù)學(xué)式1中是將MaxError利用 為基準(zhǔn)值,然而并不是非要如此,根據(jù)需要而也可以利用大于或小于MaxError的值。
[0059] 圖8為用于說明根據(jù)本發(fā)明的一個實施例的堿基序列對準(zhǔn)系統(tǒng)800的模塊圖。如 圖所示,根據(jù)本發(fā)明的一個實施例的堿基序列對準(zhǔn)系統(tǒng)800包括:種子生成單元802、篩選 單元804、以及對準(zhǔn)單元806,而且在需要的情況下還可以包括精確匹配單元808以及誤差 個數(shù)估計單元810。
[0060] 種子生成單元802由從測序儀接收的短片段(read)生成多個種子(seed)。如前 所述,在本發(fā)明中生成短片段的方法非常多樣,本發(fā)明的實施例并不局限于特定的種子生 成方法。
[0061] 篩選單元804將生成的所述種子分別映射于參考序列(reference sequence),并 通過考慮映射的種子之間的間隔(gap)而選擇所述映射的種子中的全局對準(zhǔn)對象種子。此 時,篩選單元804可將映射于所述參考序列的種子中的相鄰種子之間的間隔之和在設(shè)定值 以下的種子選擇為所述全局對準(zhǔn)對象種子,并在需要時可在全局對準(zhǔn)對象種子選擇過程中 額外考慮短片段內(nèi)的種子之間的間隔。關(guān)于具體的全局對準(zhǔn)對象種子選擇方法已在前面闡 述。
[0062] 對準(zhǔn)單元806在所述選擇的種子在所述參考序列上的映射位置上執(zhí)行所述短片 段的針對所述參考序列的全局對準(zhǔn)(global alignment)。
[0063] 另外,如前所述,根據(jù)本發(fā)明的一個實施例的堿基序列對準(zhǔn)系統(tǒng)800還可以包括 精確匹配單元808和誤差個數(shù)估計單元810。精確匹配單元808執(zhí)行由測序儀接收的短片 段的針對所述參考序列的精確匹配。如果存在精確匹配的短片段,則精確匹配單元808不 經(jīng)過其他過程而判斷為相關(guān)短片段對準(zhǔn)成功。
[0064] 誤差個數(shù)估計單元810針對在精確匹配單元808中沒有得到精確匹配的短片段而 估計將相關(guān)短片段對準(zhǔn)于所述參考序列時的誤差個數(shù)。關(guān)于具體的誤差個數(shù)估計算法已在 圖2中詳細(xì)說明。如果在誤差個數(shù)估計單元810中估計的結(jié)果誤差個數(shù)超過設(shè)定的最大誤 差允許值,則判斷為相關(guān)短片段的對準(zhǔn)失敗。但與此相反地,如果是估計的所述誤差個數(shù)在 設(shè)定的最大誤差允許值以下,則相關(guān)短片段將會經(jīng)過借助于前述的種子生成單元802、篩選 單元804以及對準(zhǔn)單元806的對準(zhǔn)過程。
[0065] 根據(jù)本發(fā)明的實施例,將映射于參考序列的種子當(dāng)中實際上使短片段得到映射的 可能性較低的種子事先進行篩選,從而可以有效地減少復(fù)雜度為〇(N2)的全局對準(zhǔn)的次 數(shù)。如下的表1和表2示出用于說明本發(fā)明的實施例的效果的實驗結(jié)果,其中把分別將具 有100bp以下長度的1000萬個短片段對準(zhǔn)于參考序列時的速度和準(zhǔn)確率進行了比較。
[0066] [表1]
[0067]
【權(quán)利要求】
1. 一種堿基序列對準(zhǔn)系統(tǒng),包括: 種子生成單元,由所接收的短片段生成多個種子; 篩選單元,將生成的所述種子映射于參考序列,并通過考慮映射的種子之間的間隔而 選擇所述映射的種子中的全局對準(zhǔn)對象種子; 對準(zhǔn)單元,在被選擇的所述種子的所述參考序列上的映射位置上執(zhí)行所述短片段的針 對所述參考序列的全局對準(zhǔn)。
2. 如權(quán)利要求1所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述篩選單元將映射于所述參考序 列的種子當(dāng)中的、種子之間的間隔之和在設(shè)定值以下的種子選擇為所述全局對準(zhǔn)對象種 子。
3. 如權(quán)利要求2所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述篩選單元將映射于所述參考序 列的種子當(dāng)中的、滿足如下數(shù)學(xué)式的種子選擇為所述全局對準(zhǔn)對象種子: A ^ MaxError+B, 其中,A為被選擇的各個種子在所述參考序列內(nèi)的間隔之和,B為被選擇的各個種子在 所述短片段內(nèi)的間隔之和,MaxError為最大誤差允許值。
4. 如權(quán)利要求1所述的堿基序列對準(zhǔn)系統(tǒng),其中,所述系統(tǒng)還包括: 精確匹配單元,執(zhí)行所接收的短片段的針對所述參考序列的精確匹配; 誤差個數(shù)估計單元,針對在所述精確匹配單元中沒有得到精確匹配的短片段,估計出 將相關(guān)短片段對準(zhǔn)于所述參考序列時的誤差個數(shù), 其中,所述種子生成單元在估計出的所述誤差個數(shù)在設(shè)定的最大誤差允許值以下時由 所述短片段生成多個種子。
5. -種堿基序列對準(zhǔn)方法,包括如下步驟: 在種子生成單元中,由所接收的短片段生成多個種子; 在篩選單元中,將生成的所述種子映射于參考序列,并通過考慮映射的種子之間的間 隔而選擇所述映射的種子中的全局對準(zhǔn)對象種子; 在對準(zhǔn)單元中,在被選擇的所述種子的所述參考序列上的映射位置上執(zhí)行所述短片段 的針對所述參考序列的全局對準(zhǔn)。
6. 如權(quán)利要求5所述的堿基序列對準(zhǔn)方法,其中,在選擇所述全局對準(zhǔn)對象種子的步 驟中,將映射于所述參考序列的種子當(dāng)中的、種子之間的間隔之和在設(shè)定值以下的種子選 擇為所述全局對準(zhǔn)對象種子。
7. 如權(quán)利要求6所述的堿基序列對準(zhǔn)方法,其中,在選擇所述全局對準(zhǔn)對象種子的步 驟中,將映射于所述參考序列的種子當(dāng)中的、滿足如下數(shù)學(xué)式的種子選擇為所述全局對準(zhǔn) 對象種子: A ^ MaxError+B, 其中,A為被選擇的各個種子在所述參考序列內(nèi)的間隔之和,B為被選擇的各個種子在 所述短片段內(nèi)的間隔之和,MaxError為最大誤差允許值。
8. 如權(quán)利要求5所述的堿基序列對準(zhǔn)方法,其中,在執(zhí)行生成所述種子的步驟之前,還 包括如下步驟: 在精確匹配單元中,執(zhí)行所接收的短片段的針對所述參考序列的精確匹配; 在誤差個數(shù)估計單元中,針對在執(zhí)行所述精確匹配的步驟中沒有得到精確匹配的短片 段,估計出將相關(guān)短片段對準(zhǔn)于所述參考序列時的誤差個數(shù), 其中,在生成所述種子的步驟中,當(dāng)估計出的所述誤差個數(shù)在設(shè)定的最大誤差允許值 以下時由所述短片段生成多個種子。
【文檔編號】G06F19/18GK104239749SQ201410276504
【公開日】2014年12月24日 申請日期:2014年6月19日 優(yōu)先權(quán)日:2013年6月20日
【發(fā)明者】樸旻壻 申請人:三星Sds株式會社