堿基序列對(duì)準(zhǔn)裝置及其方法
【專利摘要】本發(fā)明公開一種堿基序列對(duì)準(zhǔn)裝置及其方法,用于從參考序列中尋找與作為短片段序列的一部分的基準(zhǔn)片段一致的基準(zhǔn)位置,并以基準(zhǔn)位置為基準(zhǔn)而將參考序列與所述短片段序列相互映射。據(jù)此,可實(shí)現(xiàn)允許短片段序列中可能存在的所有變異和誤差的對(duì)準(zhǔn),并能夠在短片段序列的整個(gè)區(qū)域中尋找變異和誤差,而且,與現(xiàn)有技術(shù)中的堿基序列對(duì)準(zhǔn)技術(shù)不同而不允許反向跟蹤(back?tracking),且可以用更少的計(jì)算量執(zhí)行對(duì)準(zhǔn)。
【專利說明】堿基序列對(duì)準(zhǔn)裝置及其方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種堿基序列對(duì)準(zhǔn)裝置及其方法,尤其涉及一種可實(shí)現(xiàn)允許短片段序列中可能存在的所有變異和誤差的對(duì)準(zhǔn),并能夠在短片段序列的整個(gè)區(qū)域中尋找變異和誤差,還能夠在不允許反向跟蹤(back tracking)的條件下用更少的計(jì)算量執(zhí)行對(duì)準(zhǔn)的堿基序列對(duì)準(zhǔn)裝置及其方法。
【背景技術(shù)】
[0002]堿基序列對(duì)準(zhǔn)技術(shù)為整個(gè)生物學(xué)領(lǐng)域中最為廣泛使用的技術(shù)之一。例如,可通過利用參考配位(Reference assembly)方法而將短片段序列映射于已知的參考序列的過程而完成針對(duì)各對(duì)象(individual)的基因組序列,進(jìn)而可以分析各對(duì)象之間的堿基序列差異(variation)。目前1,OOOgenome pro ject之類的大型測(cè)序項(xiàng)目正在執(zhí)行,如果這種發(fā)展持續(xù)下去,則最終有望實(shí)現(xiàn)個(gè)人基因組分析以及基于遺傳信息的量身型醫(yī)療系統(tǒng)等服務(wù)。
【發(fā)明內(nèi)容】
[0003]技術(shù)問題
[0004]根據(jù)本發(fā)明概念的一個(gè)以上的示例性實(shí)施例,提供一種可實(shí)現(xiàn)允許短片段序列中可能存在的所有變異和誤差的對(duì)準(zhǔn),且可以在短片段序列的整個(gè)區(qū)域中尋找變異和誤差的堿基序列對(duì)準(zhǔn)裝置及其方法和 記錄有程序的記錄介質(zhì)。
[0005]并且,根據(jù)本發(fā)明概念的一個(gè)以上的示例性實(shí)施例,提供一種與現(xiàn)有技術(shù)中的堿基序列對(duì)準(zhǔn)技術(shù)不同而不允許反向跟蹤(back tracking)并能夠用更少的計(jì)算量執(zhí)行對(duì)準(zhǔn)的堿基序列對(duì)準(zhǔn)裝置及其方法和記錄有程序的記錄介質(zhì)。
[0006]技術(shù)方案
[0007]根據(jù)本發(fā)明概念的一個(gè)以上的示例性實(shí)施例,提供一種堿基序列對(duì)準(zhǔn)方法,用于將短片段序列對(duì)準(zhǔn)于參考序列,包括如下步驟:基準(zhǔn)位置選擇步驟,在參考序列上找出與作為短片段序列的一部分的基準(zhǔn)片段一致的位置;以所述基準(zhǔn)位置為基準(zhǔn)而將所述參考序列與所述短片段序列相互映射。
[0008]基準(zhǔn)片段可從短片段序列的任意位置開始而由預(yù)定長(zhǎng)度的序列構(gòu)成。
[0009]基準(zhǔn)片段的預(yù)定長(zhǎng)度可基于在所述參考序列中出現(xiàn)所述基準(zhǔn)片段的平均頻率值而確定。
[0010]平均頻率值可根據(jù)所述參考序列的長(zhǎng)度和堿基序列的數(shù)量而確定。
[0011]基準(zhǔn)位置選擇步驟可以是從所述參考序列中與基準(zhǔn)片段完全一致的位置、以及在所述參考序列中在已設(shè)定的誤差允許值E范圍內(nèi)使基準(zhǔn)片段與參考序列一致的位置中選擇至少一種位置的步驟。
[0012]基準(zhǔn)位置選擇步驟可包括如下步驟中的至少一個(gè)步驟:在所述參考序列中找出一個(gè)以上的與基準(zhǔn)片段完全一致的位置;在已設(shè)定的誤差允許值E范圍內(nèi)針對(duì)構(gòu)成所述基準(zhǔn)片段的序列進(jìn)行插入、刪除和/或置換之后找出一個(gè)以上的與所述參考序列一致的位置。[0013]以基準(zhǔn)位置為基準(zhǔn)而將所述參考序列與所述短片段序列相互映射的步驟可以是將所述短片段序列中的基準(zhǔn)片段之后的殘余序列與所述參考序列中的所述基準(zhǔn)位置之后的序列進(jìn)行映射的步驟。
[0014]本堿基序列對(duì)準(zhǔn)方法還可以包括如下步驟:判斷在已設(shè)定的誤差允許值E范圍內(nèi),針對(duì)構(gòu)成所述短片段序列中除了基準(zhǔn)片段以外的殘余序列的序列進(jìn)行了插入、刪除和/或置換的序列與所述參考序列是否一致。
[0015]所述誤差允許值E可以是針對(duì)所述基準(zhǔn)序列而設(shè)定的誤差允許值。
[0016]當(dāng)基準(zhǔn)位置之后的參考序列與所述短片段序列中基準(zhǔn)片段之后的殘余序列存在不相一致的部分時(shí),可將始于在已設(shè)定的誤差允許值E范圍內(nèi)進(jìn)行跳躍的位置的參考序列與所述基準(zhǔn)片段之后的殘余序列進(jìn)行映射。
[0017]本序列對(duì)準(zhǔn)方法還可以包括如下步驟:當(dāng)所述基準(zhǔn)片段與所述參考序列一致時(shí),將所述基準(zhǔn)片段作為映射片段進(jìn)行存儲(chǔ);當(dāng)所述基準(zhǔn)片段之后的殘余序列中具有在已設(shè)定的誤差允許值E內(nèi)與所述基準(zhǔn)位置之后的參考序列一致的部分時(shí),將該一致的部分作為映射片段進(jìn)行存儲(chǔ)。
[0018]本堿基序列對(duì)準(zhǔn)方法還可以包括在映射片段滿足數(shù)學(xué)式Dr(M1, M2)-De(M1, M2) <E-E0時(shí)予以相互連接的步驟,其中,M1, M2為需要相互連接的映射片
段,DJM1, M2)為短片段序列上的映射片段M1J2之間的距離,DJM1, M2)為參考序列上的映射片段W、M2之間的距離,E是對(duì)短片段序列允許的誤差允許值,E0為包含于映射片段中的誤差值的總和,IDr(M11M2)-D li(MDM2)I是對(duì)Dr (M1, M2)與Dk(M1, M2)的距離差的絕對(duì)值。
[0019]根據(jù)本發(fā)明概念的另一示例性實(shí)施例,提供一種記錄有用于在計(jì)算機(jī)上執(zhí)行根據(jù)權(quán)利要求1~12中的任意一項(xiàng)的方法的程序的計(jì)算機(jī)可讀介質(zhì)。
[0020]根據(jù)本發(fā)明概念的另一示例性實(shí)施例,可包括:基準(zhǔn)位置選擇單元,在參考序列中找出與作為短片段序列的一部分的基準(zhǔn)片段一致的位置;映射單元,以所述基準(zhǔn)位置為基準(zhǔn)而將所述參考序列與所述短片段序列相互映射;對(duì)準(zhǔn)單元,當(dāng)以所述基準(zhǔn)位置為基準(zhǔn)而使所述參考序列與所述短片段序列相互一致時(shí),將所述短片段序列對(duì)準(zhǔn)于所述基準(zhǔn)位置。
[0021]基準(zhǔn)位置選擇單元可從所述參考序列中與基準(zhǔn)片段完全一致的位置、以及在所述參考序列中在已設(shè)定的誤差允許值E范圍內(nèi)使基準(zhǔn)片段與參考序列一致的位置中選擇至少一種位置。
[0022]映射單元可將所述短片段序列中的基準(zhǔn)片段之后的殘余序列與所述參考序列中的所述基準(zhǔn)位置之后的序列進(jìn)行映射,或者可將所述短片段序列中的基準(zhǔn)片段前后的殘余序列與所述參考序列中的基準(zhǔn)位置前后的序列進(jìn)行映射。
[0023]誤差允許值E可以是針對(duì)所述基準(zhǔn)序列而定的誤差允許值。
[0024]映射單元還可以判斷所述基準(zhǔn)位置之后的參考序列與所述短片段序列中的基準(zhǔn)片段之后的殘余序列是否相互一致,且可以在所述基準(zhǔn)位置之后的參考序列與所述短片段序列中基準(zhǔn)片段之后的殘余序列存在不相一致的部分時(shí),將始于在已設(shè)定的誤差允許值E范圍內(nèi)進(jìn)行跳躍的位置的參考序列與所述基準(zhǔn)片段之后的殘余序列進(jìn)行映射。
[0025]本堿基序列對(duì)準(zhǔn)裝置還可以包括存儲(chǔ)單元,且所述映射單元可在所述基準(zhǔn)片段與所述參考序列一致時(shí),將所述基準(zhǔn)片段作為映射片段存儲(chǔ)于所述存儲(chǔ)單元,而在所述基準(zhǔn)片段之后的殘余序列中具有在已設(shè)定的誤差允許值E內(nèi)與所述基準(zhǔn)位置之后的參考序列一致的部分時(shí),可將該一致的部分作為映射片段存儲(chǔ)于所述存儲(chǔ)單元。
[0026]對(duì)準(zhǔn)單元在所述映射片段滿足數(shù)學(xué)式IDr(MnM2)-Dli(MDM2) <E-E0時(shí)予以相互連接,其中,M1J2S需要相互連接的映射片段,DJM1, M2)為短片段序列上的映射片段M1J2之間的距離,De(M1, M2)為參考序列上的映射片段MpM2之間的距離,E是對(duì)短片段序列允許的誤差允許值,Etl為包含于映射片段中的誤差值的總和,Dr (M1, M2)-De(M1, M2) |是對(duì)Dr (M1, M2)與DJM1, M2)的距離差的絕對(duì)值。
[0027]有益效果
[0028]根據(jù)本發(fā)明概念的一個(gè)以上的示例性實(shí)施例,可實(shí)現(xiàn)允許短片段序列中可能存在的所有變異和誤差的對(duì)準(zhǔn),并能夠在短片段序列的整個(gè)區(qū)域中尋找變異和誤差。
[0029]而且,根據(jù)本發(fā)明概念的一個(gè)以上的示例性實(shí)施例,與現(xiàn)有技術(shù)中的堿基序列對(duì)準(zhǔn)技術(shù)不同,其不允許反向跟蹤(back tracking),且能夠用更少的計(jì)算量執(zhí)行對(duì)準(zhǔn),因此對(duì)準(zhǔn)速度可以加快。
【專利附圖】
【附圖說明】
[0030]圖1為用于說明記錄有用于執(zhí)行根據(jù)本發(fā)明概念的示例性實(shí)施例的堿基序列對(duì)準(zhǔn)方法的程序的計(jì)算機(jī)可讀記錄介質(zhì)的圖,。
[0031]圖2為根據(jù)本發(fā)明 概念的示例性實(shí)施例的堿基序列對(duì)準(zhǔn)裝置的構(gòu)成圖,
[0032]圖3為用于說明根據(jù)本發(fā)明概念的示例性實(shí)施例的堿基序列對(duì)準(zhǔn)方法的流程圖,以及
[0033]圖4和圖5是為了說明根據(jù)本發(fā)明概念的示例性實(shí)施例的基準(zhǔn)片段映射方法而提供的圖。
[0034]符號(hào)說明:
[0035]10:測(cè)序儀100、200:堿基序列對(duì)準(zhǔn)裝置
[0036]201:基準(zhǔn)位置選擇單元 203:映射單元
[0037]205:對(duì)準(zhǔn)單元207:存儲(chǔ)單元
【具體實(shí)施方式】
[0038]通過附圖和相關(guān)的以下優(yōu)選實(shí)施例而使以上的本發(fā)明的目的、其他目的、特征以及優(yōu)點(diǎn)容易被理解。然而本發(fā)明并不局限于在此說明的實(shí)施例而也可以具體化為其他形態(tài)。在此介紹的實(shí)施例只是為了能夠徹底而完全地公開內(nèi)容,并為了將本發(fā)明的思想充分地傳遞給本領(lǐng)域技術(shù)人員而提供的。在本說明書中,所謂的某一構(gòu)成要素在另一構(gòu)成要素上,表示該構(gòu)成要素可以直接形成于另一構(gòu)成要素上,或者它們之間也可以夾設(shè)有第三個(gè)構(gòu)成要素。
[0039]并且,所謂的某一元素(或構(gòu)成要素)在另一元素(或構(gòu)成要素)上(ON)操作或執(zhí)行,應(yīng)當(dāng)理解為該元素(或構(gòu)成要素)在另一元素(或構(gòu)成要素)操作或執(zhí)行的環(huán)境中操作或執(zhí)行,或者通過與其他元素(或構(gòu)成要素)的直接或間接的相互作用而操作或執(zhí)行。
[0040]所謂的某一元素、構(gòu)成要素、裝置或系統(tǒng)包括由程序或軟件構(gòu)成的構(gòu)成要素,即使沒有明確的說明也應(yīng)當(dāng)理解為該元素、構(gòu)成要素、裝置或系統(tǒng)包括該程序或軟件的執(zhí)行或操作所需的硬件(例如,存儲(chǔ)器、CPU等)或者其他程序或軟件(例如,驅(qū)動(dòng)操作系統(tǒng)或硬件所需的驅(qū)動(dòng)器等)。
[0041]而且,在實(shí)現(xiàn)某一元素(或構(gòu)成要素)時(shí)如果沒有特別說明,則應(yīng)當(dāng)理解為該元素(或構(gòu)成要素)可以由軟件、硬件、或者軟件和硬件中的任何形態(tài)實(shí)現(xiàn)。
[0042]在本說明書中使用的術(shù)語是用于說明實(shí)施例,而不是用于限定本發(fā)明。在本說明書中,只要沒有在文中特別說明,則單數(shù)型也包括復(fù)數(shù)型。在說明書中使用的“包括(comprises) ”和/或“包含(comprising)的”并不排除所述的構(gòu)成要素中存在或者還有一個(gè)以上其他構(gòu)成要素的可能。
[0043]以下,參照附圖詳細(xì)說明本發(fā)明。在對(duì)以下的特定實(shí)施例進(jìn)行敘述時(shí),各種特定內(nèi)容是為了有助于更加具體地說明本發(fā)明和理解本發(fā)明而編入的。然而具備足以理解本發(fā)明的程度的本領(lǐng)域知識(shí)的人員應(yīng)當(dāng)能夠明白即使沒有這些多種特定內(nèi)容也可以使用本發(fā)明。在有些情況下,在記載本發(fā)明時(shí)對(duì)公知的與本發(fā)明沒有太大關(guān)系的部分則為了防止對(duì)說明本發(fā)明帶來不必要的混亂而不予記載。
[0044]圖1為用于說明記錄有用于執(zhí)行根據(jù)本發(fā)明概念的示例性實(shí)施例的堿基序列對(duì)準(zhǔn)方法的程序的計(jì)算機(jī)可讀記錄介質(zhì)的圖。
[0045]參照?qǐng)D1,堿基序列對(duì)準(zhǔn)裝置100包括記錄有用于執(zhí)行根據(jù)本發(fā)明概念的示例性實(shí)施例的堿基序列對(duì)準(zhǔn)方法的程序的計(jì)算機(jī)可讀記錄介質(zhì)110。另外,出于為了說明本發(fā)明概念的目的,額外圖示了測(cè)序儀10。
[0046]測(cè)序儀10從樣品中生成短片段序列(Read Sequence),堿基序列對(duì)準(zhǔn)裝置100將測(cè)序儀10所生成的短片段序 列映射于已知的參考序列(Reference Sequence)而進(jìn)行對(duì)準(zhǔn)。
[0047]包含記錄有用于執(zhí)行根據(jù)本實(shí)施例的堿基序列對(duì)準(zhǔn)方法的程序的計(jì)算機(jī)可讀記錄介質(zhì)110的喊基序列對(duì)準(zhǔn)裝置100 (以下稱為喊基序列裝置100)不僅執(zhí)行基于喊基序列的同源性(homology)的精確匹配(exact matching),而且還可以執(zhí)行允許與誤差允許值(E) 一樣多的不匹配的非精確匹配。
[0048]根據(jù)本實(shí)施例的堿基序列對(duì)準(zhǔn)裝置100針對(duì)短片段序列的一部分區(qū)間(以下稱為“基準(zhǔn)片段”)考慮可能組合的所有變異(刪除、置換或者增加)而在參考序列中檢索可映射的所有位置并確定為基準(zhǔn)位置。在此,堿基序列對(duì)準(zhǔn)裝置100可使用現(xiàn)有技術(shù)中公知的映射方法(例如,利用BWT和Suffix排列的方法)而檢索與基準(zhǔn)片段相一致的位置。
[0049]根據(jù)本發(fā)明概念的示例性實(shí)施例,基準(zhǔn)片段的起始位置可確定為短片段序列的第一個(gè)位置。與此不同,基準(zhǔn)片段的起始位置可以確定為短片段序列的第二個(gè)位置。還可以不同地,基準(zhǔn)片段的起始位置可以確定為短片段序列的第三個(gè)位置。又可以不同地,基準(zhǔn)片段的起始位置可以確定為從短片段序列的第一個(gè)位置到短片段序列長(zhǎng)度的50%處的位置中的任意位置。其中,基準(zhǔn)片段的位置是在確定為從短片段序列的第一個(gè)序列開始的預(yù)定長(zhǎng)度的區(qū)間時(shí)準(zhǔn)確率較高,然而要知道本發(fā)明概念并不僅僅局限于這樣的位置。
[0050]參照?qǐng)D4說明,基準(zhǔn)片段的位置選定為從短片段序列的第一位開始,且示例性地圖示出三處(M1、M2、M3)與基準(zhǔn)片段精確匹配或者在誤差允許值以內(nèi)非精確匹配的基準(zhǔn)位置。
[0051]堿基序列對(duì)準(zhǔn)裝置100以基準(zhǔn)位置為基準(zhǔn)而將短片段序列的殘余序列與參考序列進(jìn)行比較。例如,堿基序列對(duì)準(zhǔn)裝置100將緊跟基準(zhǔn)位置Ml之后的參考序列Rl與短片段序列的殘余序列相互映射,并將緊跟基準(zhǔn)位置M2之后的參考序列R2與短片段序列的殘余序列相互映射,并將緊跟基準(zhǔn)位置R3之后的參考序列R3與短片段序列的殘余序列相互映射。
[0052]另外,如果基準(zhǔn)片段不是從短片段序列的第一個(gè)位置開始選擇而是從接下來的位置中的某一位置開始選擇,則殘余序列將位于基準(zhǔn)片段的前后。在這種情況下,堿基序列對(duì)準(zhǔn)裝置100不僅將緊跟基準(zhǔn)位置之后的參考序列與殘余序列進(jìn)行映射,而且還會(huì)將基準(zhǔn)位置之前的參考序列與殘余序列進(jìn)行映射。
[0053]堿基序列對(duì)準(zhǔn)裝置100在執(zhí)行短片段序列的殘余序列與基準(zhǔn)位置Ml、M2、M3的參考序列之間的映射操作的過程中如果不能進(jìn)行匹配(例如,無法完成誤差允許值以內(nèi)的非精確匹配的情況),則可以跳躍預(yù)定距離之后繼續(xù)執(zhí)行映射。在此,跳躍距離可以成為對(duì)短片段序列給定的最大誤差允許值E以下的值。例如,如果將已經(jīng)選定的基準(zhǔn)位置的誤差允許值之和記為“k”,則所述跳躍距離可以是(E-k)以下。
[0054]或者(alternatively),堿基序列對(duì)準(zhǔn)裝置100在執(zhí)行短片段序列的殘余序列與基準(zhǔn)位置的參考序列之間的映射操作的過程中如果不能進(jìn)行匹配,則并不直接跳躍,而是只有在先前映射的結(jié)果滿足最小匹配距離的情況下才跳躍。參照?qǐng)D5說明,假設(shè)堿基序列對(duì)準(zhǔn)裝置100將短片段序列的殘余序列與參考序列Rl進(jìn)行映射,當(dāng)堿基序列對(duì)準(zhǔn)裝置100在判斷為參考序列位置E上不能進(jìn)行匹配的情況下,只有在先前映射的區(qū)域SI的長(zhǎng)度大于最小匹配距離時(shí)才會(huì)跳躍位置E而繼續(xù)執(zhí)行映射操作。如果區(qū)域SI的長(zhǎng)度小于最小匹配距離,則堿基序列對(duì)準(zhǔn)裝置100將Rl區(qū)域從短片段序列的對(duì)準(zhǔn)位置中除外。
[0055]堿基序列對(duì)準(zhǔn)裝置100在短片段序列的殘余序列與基準(zhǔn)位置Ml之間映射的結(jié)果如果有最小匹配長(zhǎng)度mS以上的一致,便將該一致部分作為映射片段進(jìn)行存儲(chǔ)(在圖5中S1、S2、S3可以成為映射片段,而基準(zhǔn)位置的序列也可以成為映射片段)。
[0056]如果一直到短片段序列末尾,映射片段全部得到存儲(chǔ),則堿基序列對(duì)準(zhǔn)裝置100嘗試存儲(chǔ)的映射片段的連接。例如,堿基序列對(duì)準(zhǔn)裝置100將映射片段在短片段序列與參考序列上的位置信息、作為參數(shù)值而接收的最大誤差允許值作為基準(zhǔn)而判斷映射片段的連接與否。
[0057]例如,堿基序列對(duì)準(zhǔn)裝置100在滿足如下數(shù)學(xué)式I的情況下連接映射片段。
[0058][數(shù)學(xué)式I]
[0059]I Dr (M1, M2) -De (M1, M2) | <E_E0
[0060]其中,MpM2為需要相互連接的映射片段;
[0061]Dr(M11M2)為短片段序列上的映射片段Mp M2之間的距離;
[0062]De(M1, M2)為參考序列上的映射片段Mp M2之間的距離;
[0063]E是對(duì)短片段序列允許的誤差允許值;
[0064]Etl為包含于映射片段中的誤差值的總和;
[0065]I Dr (M1, M2) -De(M1, M2) | 是對(duì) Dr (M1, M2)與 De (M1, M2)的距離差的絕對(duì)值。
[0066]堿基序列對(duì)準(zhǔn)裝置100對(duì)映射片段的可連接的組合應(yīng)用現(xiàn)有技術(shù)中公知的技術(shù)手段(例如,內(nèi)德勒曼-文施(Needleman-Wunsch)算法)或?qū)頃?huì)被發(fā)現(xiàn)的技術(shù)手段而將映射片段之間予以連接。
[0067] 另外,基準(zhǔn)片段的長(zhǎng)度可基于基準(zhǔn)片段出現(xiàn)于參考序列的平均頻率值而確定,其中,平均頻率值可根據(jù)參考序列的長(zhǎng)度和堿基序列(即A、G、C、T)的數(shù)量而確定。而且,映射片段的最小匹配長(zhǎng)度也可以確定為等于基準(zhǔn)片段的長(zhǎng)度。
[0068]雖然沒有圖示,然而本堿基序列對(duì)準(zhǔn)裝置100可以額外地包括用于執(zhí)行根據(jù)本發(fā)明概念的示例性實(shí)施例的堿基序列對(duì)準(zhǔn)方法的程序運(yùn)行所需的H/W和S/W資源。例如,作為硬件資源可以舉出CPU (Central Processing Unit)、存儲(chǔ)器(MEMORY)、硬盤、網(wǎng)卡等,作為軟件資源可以舉出操作系統(tǒng)(OS:0perating System)、用于驅(qū)動(dòng)硬件的驅(qū)動(dòng)器(driver)。例如,基準(zhǔn)位置的選擇或映射操作的執(zhí)行等是在CPU的控制下被加載于存儲(chǔ)器而進(jìn)行操作。似此,為了執(zhí)行存儲(chǔ)于記錄介質(zhì)210的程序,需要硬件資源和/或軟件資源,關(guān)于這些資源與存儲(chǔ)于記錄介質(zhì)210中的程序之間的相互作用,只要是本發(fā)明概念所屬的【技術(shù)領(lǐng)域】的人員就會(huì)輕易地理解。
[0069]圖2為根據(jù)本發(fā)明概念的示例性實(shí)施例的堿基序列對(duì)準(zhǔn)裝置的構(gòu)成圖。
[0070]參照?qǐng)D2,本堿基序列對(duì)準(zhǔn)裝置200包括:基準(zhǔn)位置選擇單元201、映射單元203、對(duì)準(zhǔn)單元205、以及存儲(chǔ)單元207。在圖2中,為了說明的目的而額外圖示了測(cè)序儀10。
[0071]堿基序列對(duì)準(zhǔn)裝置200的基準(zhǔn)位置選擇單元201、映射單元203、對(duì)準(zhǔn)單元205、以及存儲(chǔ)單元207可相互有機(jī)地操作而執(zhí)行與圖1中說明的堿基序列對(duì)準(zhǔn)裝置100相同或類似的操作。只要是本發(fā)明概念所屬【技術(shù)領(lǐng)域】的人員就能夠?qū)⒒鶞?zhǔn)位置選擇單元201、映射單元203、以及對(duì)準(zhǔn)單元205通過軟件和/或硬件來實(shí)現(xiàn)。
[0072]測(cè)序儀10從樣品中生成短片段序列(Read Sequence),堿基序列對(duì)準(zhǔn)裝置200將測(cè)序儀10所生成的短片段序列映射于已知的參考序列(Reference Sequence)而進(jìn)行對(duì)準(zhǔn)。
[0073]基準(zhǔn)位置選擇單元201針對(duì)基準(zhǔn)片段考慮可能組合的所有變異(刪除、置換、或者增加)而在參考序列中檢索可映射的所有位置并確定為基準(zhǔn)位置。
[0074]如上所述,基準(zhǔn)片段的位置是在確定為從短片段序列的第一個(gè)序列開始的預(yù)定長(zhǎng)度的區(qū)間時(shí)準(zhǔn)確率較高,然而本發(fā)明概念并不僅僅局限于這樣的位置。并且,與在圖1的實(shí)施例中說明的一樣,基準(zhǔn)片段的長(zhǎng)度可基于基準(zhǔn)片段出現(xiàn)于參考序列的平均頻率值而確定,其中,平均頻率值可根據(jù)參考序列的長(zhǎng)度和堿基序列(即A、G、C、T)的數(shù)量而確定。
[0075]映射單元203以基準(zhǔn)位置作為基準(zhǔn)而將短片段序列的殘余序列與參考序列進(jìn)行映射。參照?qǐng)D4的示例進(jìn)行說明,映射單元203將緊跟基準(zhǔn)位置Ml之后的參考序列Rl與短片段序列的殘余序列相互映射,并將緊跟基準(zhǔn)位置M2之后的參考序列R2與短片段序列的殘余序列相互映射,并將緊跟基準(zhǔn)位置R3之后的參考序列R3與短片段序列的殘余序列相互映射。
[0076]映射單元203在執(zhí)行短片段序列的殘余序列與基準(zhǔn)位置Ml、M2、M3的參考序列之間的映射操作的過程中如果不能進(jìn)行匹配(例如,無法完成誤差允許值以內(nèi)的非精確匹配的情況),則可以跳躍預(yù)定距離之后繼續(xù)執(zhí)行映射。在此,跳躍距離可以成為對(duì)短片段序列給定的最大誤差允許值E以下的值。例如,如果將已經(jīng)選定的基準(zhǔn)位置的誤差允許值之和記為“k”,則所述跳躍距離可以是(E-k)以下。
[0077]或者(alternatively),映射單元203在執(zhí)行短片段序列的殘余序列與基準(zhǔn)位置的參考序列之間的映射操作的過程中如果不能進(jìn)行匹配,則并不直接跳躍,而是只有在先前映射的結(jié)果滿足最小匹配距離的情況下才跳躍。參照?qǐng)D5說明,假設(shè)將短片段序列的殘余序列與參考序列Rl進(jìn)行映射,則映射單元203在判斷為參考序列位置E上不能進(jìn)行匹配的情況下,只有在先前映射的區(qū)域SI的長(zhǎng)度大于最小匹配距離時(shí)才會(huì)跳躍位置E而繼續(xù)執(zhí)行映射操作。如果區(qū)域SI的長(zhǎng)度小于最小匹配距離,則映射單元103對(duì)Rl區(qū)域不再執(zhí)行映射操作。
[0078]映射單元203在短片段序列的殘余序列與基準(zhǔn)位置Ml之間映射的結(jié)果如果有最小匹配長(zhǎng)度mS以上的一致,便將該一致部分作為映射片段存儲(chǔ)于存儲(chǔ)單元207(在圖5中S1、S2、S3可以成為映射片段,而基準(zhǔn)位置的序列也可以成為映射片段)。
[0079]如果一直到短片段序列末尾,映射片段全部得到存儲(chǔ),則對(duì)準(zhǔn)單元205將存儲(chǔ)的映射片段予以連接。例如,對(duì)準(zhǔn)單元205將映射片段在短片段序列與參考序列上的位置信息、作為參數(shù)值而接收的最大誤差允許值作為基準(zhǔn)而判斷映射片段的連接與否。
[0080]例如,對(duì)準(zhǔn)單元205可在滿足上述數(shù)學(xué)式I的情況下連接映射片段,且對(duì)映射片段的可連接的組合可應(yīng)用現(xiàn)有技術(shù)中公知的技術(shù)手段(例如,內(nèi)德勒曼-文施(Needleman-Wunsch)算法)或?qū)頃?huì)被發(fā)現(xiàn)的技術(shù)手段而將映射片段之間予以連接。
[0081]圖3為用于說明根據(jù)本發(fā)明概念的示例性實(shí)施例的堿基序列對(duì)準(zhǔn)方法的流程圖。
[0082]參照?qǐng)D3,堿基序列對(duì)準(zhǔn)裝置100或200從由測(cè)序儀10生成的短片段序列中選擇基準(zhǔn)片段(SlOl)。
[0083]關(guān)于基準(zhǔn)片段的位置,雖然短片段序列的第一個(gè)位置的準(zhǔn)確率較高,然而沒有必要非要局限于第一個(gè)位置。而且,關(guān)于基準(zhǔn)片段的長(zhǎng)度雖然也是基于基準(zhǔn)片段出現(xiàn)于參考序列的平均頻率值進(jìn)行確定會(huì)進(jìn)一步提高堿基序列的對(duì)準(zhǔn)速度,然而也沒有必要非要局限于此。
[0084]堿基序列對(duì)準(zhǔn)裝置100或200將在步驟SlOl中選擇的基準(zhǔn)片段與參考序列進(jìn)行映射(S103),并選擇精確匹配或者在誤差允許值以內(nèi)匹配的基準(zhǔn)位置(S105)。
[0085]堿基序列對(duì)準(zhǔn)裝置100或200以步驟S105中選擇的基準(zhǔn)位置作為基準(zhǔn)而將短片段序列的殘余序列與參考序列進(jìn)行映射(S107)。
[0086]在步驟S107中,堿基序列對(duì)準(zhǔn)裝置100或200在無法映射的情況下,可在最大誤差允許值以內(nèi)跳躍。
[0087]堿基序列對(duì)準(zhǔn)裝置100或200連接滿足上述數(shù)學(xué)式I的映射片段(S109)。在S109中,堿基序列對(duì)準(zhǔn)裝置100或200可使用現(xiàn)有技術(shù)中公知的技術(shù)手段或?qū)頃?huì)開發(fā)出的技術(shù)手段而填充映射片段的空白空間。
[0088]如上所述的根據(jù)本發(fā)明概念的堿基序列裝置及方法可利用于SNP(SingleNucleotide Polymorphism,單核苷酸多態(tài)性)、MNP (Multiple Nucleotide Polymorphism,多核苷酸多態(tài)性)、結(jié)構(gòu)多樣性(Structural variations)、CNV (Copy Number Variation,拷貝數(shù)變異)等的探索,并可以跨越轉(zhuǎn)錄組(transcriptome)分析、用于開發(fā)新藥物的蛋白質(zhì)結(jié)合位點(diǎn)(binding site)掌握等整個(gè)生物學(xué)領(lǐng)域而得到應(yīng)用。
[0089]雖然已通過有限的實(shí)施例和【專利附圖】
【附圖說明】了如上所述的本發(fā)明概念,然而本發(fā)明概念并不局限于所述的實(shí)施例,只要是本發(fā)明概念所屬的領(lǐng)域中具有普通知識(shí)的人員就能夠通過這樣的記載實(shí)現(xiàn)多種多樣的修改和變形。因此,本發(fā)明概念的范圍不應(yīng)局限于所述的實(shí)施例而確定,而是要根據(jù)權(quán)利要求書及其等價(jià)內(nèi)容來確定。
【權(quán)利要求】
1.一種堿基序列對(duì)準(zhǔn)方法,用于將短片段序列對(duì)準(zhǔn)于參考序列,包括如下步驟: 基準(zhǔn)位置選擇步驟,在參考序列上找出與作為短片段序列的一部分的基準(zhǔn)片段一致的位置; 以所述基準(zhǔn)位置為基準(zhǔn)而將所述參考序列與所述短片段序列相互映射。
2.如權(quán)利要求1所述的堿基序列對(duì)準(zhǔn)方法,其特征在于,所述基準(zhǔn)片段從短片段序列的任意位置開始而由預(yù)定長(zhǎng)度的序列構(gòu)成。
3.如權(quán)利要求1所述的堿基序列對(duì)準(zhǔn)方法,其特征在于,所述基準(zhǔn)片段的預(yù)定長(zhǎng)度為基于在所述參考序列中出現(xiàn)所述基準(zhǔn)片段的平均頻率值而確定。
4.如權(quán)利要求3所述的堿基序列對(duì)準(zhǔn)方法,其特征在于,所述平均頻率值為根據(jù)所述參考序列的長(zhǎng)度和堿基序列的數(shù)量而確定。
5.如權(quán)利要求1所述的堿基序列對(duì)準(zhǔn)方法,其特征在于,所述基準(zhǔn)位置選擇步驟為從所述參考序列中與基準(zhǔn)片段完全一致的位置、以及在所述參考序列中在已設(shè)定的誤差允許值E范圍內(nèi)使基準(zhǔn)片段與參考序列一致的位置中選擇至少一種位置的步驟。
6.如權(quán)利要求1所述的堿基序列對(duì)準(zhǔn)方法,其特征在于,所述基準(zhǔn)位置選擇步驟包括如下步驟中的至少一個(gè)步驟: 在所述參考序列中找出一個(gè)以上的與基準(zhǔn)片段完全一致的位置; 在已設(shè)定的誤差允許值E范圍內(nèi)針對(duì)構(gòu)成所述基準(zhǔn)片段的序列進(jìn)行插入、刪除和/或置換之后找出一個(gè)以上的與所述參考序列一致的位置。
7.如權(quán)利要求6所述的堿基序列對(duì)準(zhǔn)方法,其特征在于,以所述基準(zhǔn)位置為基準(zhǔn)而將所述參考序列與所述短片段序列相互映射的步驟為將所述短片段序列中的基準(zhǔn)片段之后的殘余序列與所述參考序列中的所述基準(zhǔn)位置之后的序列進(jìn)行映射的步驟。
8.如權(quán)利要求7所述的堿基序列對(duì)準(zhǔn)方法,其特征在于,還包括如下步驟: 判斷在已設(shè)定的誤差允許值E范圍內(nèi),針對(duì)構(gòu)成所述短片段序列中除了基準(zhǔn)片段以外的殘余序列的序列進(jìn)行了插入、刪除和/或置換的序列與所述參考序列是否一致。
9.如權(quán)利要求8所述的堿基序列對(duì)準(zhǔn)方法,其特征在于,所述誤差允許值E為針對(duì)所述基準(zhǔn)序列而設(shè)定的誤差允許值。
10.如權(quán)利要求9所述的堿基序列對(duì)準(zhǔn)方法,其特征在于,當(dāng)所述基準(zhǔn)位置之后的參考序列與所述短片段序列中基準(zhǔn)片段之后的殘余序列存在不相一致的部分時(shí),將始于在已設(shè)定的誤差允許值E范圍內(nèi)進(jìn)行跳躍的位置的參考序列與所述基準(zhǔn)片段之后的殘余序列進(jìn)行映射。
11.如權(quán)利要求9所述的堿基序列對(duì)準(zhǔn)方法,其特征在于,還包括如下步驟: 當(dāng)所述基準(zhǔn)片段與所述參考序列一致時(shí),將所述基準(zhǔn)片段作為映射片段進(jìn)行存儲(chǔ); 當(dāng)所述基準(zhǔn)片段之后的殘余序列中具有在已設(shè)定的誤差允許值E內(nèi)與所述基準(zhǔn)位置之后的參考序列一致的部分時(shí),將該一致的部分作為映射片段進(jìn)行存儲(chǔ)。
12.如權(quán)利要求11所述的堿基序列對(duì)準(zhǔn)方法,其特征在于,還包括當(dāng)所述映射片段滿足數(shù)學(xué)式IW(MpM2)-Dk(MpM2) <E-E0時(shí)予以相互連接的步驟,其中,MpM2為需要相互連接的映射片段,Dr(M11M2)為短片段序列 上的映射片段Μ” M2之間的距離,Dk(MdM2)為參考序列上的映射片段札、M2之間的距離,E是對(duì)短片段序列允許的誤差允許值,E0為包含于映射片段中的誤差值的總和,Dr(M1, M2)-De(M1, M2) I是對(duì)Dr (M1, M2)與Dk(M1, M2)的距離差的絕對(duì)值。
13.—種記錄有用于在計(jì)算機(jī)上執(zhí)行根據(jù)權(quán)利要求1~12中的任意一項(xiàng)的方法的程序的計(jì)算機(jī)可讀介質(zhì)。
14.一種堿基序列對(duì)準(zhǔn)裝置,用于將短片段序列對(duì)準(zhǔn)于參考序列,包括: 基準(zhǔn)位置選擇單元,在參考序列中找出與作為短片段序列的一部分的基準(zhǔn)片段一致的位置; 映射單元,以所述基準(zhǔn)位置為基準(zhǔn)而將所述參考序列與所述短片段序列相互映射; 對(duì)準(zhǔn)單元,當(dāng)以所述基準(zhǔn)位置為基準(zhǔn)而使所述參考序列與所述短片段序列相互一致時(shí),將所述短片段序列對(duì)準(zhǔn)于所述基準(zhǔn)位置。
15.如權(quán)利要求14所述的堿基序列對(duì)準(zhǔn)裝置,其特征在于,所述基準(zhǔn)片段從短片段序列的任意位置開始而由預(yù)定長(zhǎng)度的序列構(gòu)成。
16.如權(quán)利要求14所述的堿基序列對(duì)準(zhǔn)裝置,其特征在于,所述基準(zhǔn)片段的預(yù)定長(zhǎng)度為基于在所述參考序列中出現(xiàn)所述基準(zhǔn)片段的平均頻率值而確定,而所述平均頻率值為根據(jù)所述參考序列的長(zhǎng)度和堿基序列的數(shù)量而確定。
17.如權(quán)利要求14所述的堿基序列對(duì)準(zhǔn)裝置,其特征在于,所述基準(zhǔn)位置選擇單元從所述參考序列中與基準(zhǔn)片段完全一致的位置、以及在所述參考序列中在已設(shè)定的誤差允許值E范圍內(nèi)使基準(zhǔn)片段與參考序列一致的位置中選擇至少一種位置。
18.如權(quán)利要求14所述的堿基序列對(duì)準(zhǔn)裝置,其特征在于,所述映射單元將所述短片段序列中的基準(zhǔn)片段之后的殘余序列與所述參考序列中的所述基準(zhǔn)位置之后的序列進(jìn)行映射,或者將所述短片段序列中的基準(zhǔn)片段前后的殘余序列與所述參考序列中的基準(zhǔn)位置前后的序列進(jìn)行映射。
19.如權(quán)利要求17所述的堿基序列對(duì)準(zhǔn)裝置,其特征在于,所述誤差允許值E為針對(duì)所述基準(zhǔn)序列而設(shè)定的誤差允許值。
20.如權(quán)利要求19所述的堿基序列對(duì)準(zhǔn)裝置,其特征在于,所述映射單元還判斷所述基準(zhǔn)位置之后的參考序列與所述短片段序列中的基準(zhǔn)片段之后的殘余序列是否相互一致,且在所述基準(zhǔn)位置之后的參考序列與所述短片段序列中基準(zhǔn)片段之后的殘余序列存在不相一致的部分時(shí),將始于在已設(shè)定的誤差允許值E范圍內(nèi)進(jìn)行跳躍的位置的參考序列與所述基準(zhǔn)片段之后的殘余序列進(jìn)行映射。
21.如權(quán)利要求14所述的堿基序列對(duì)準(zhǔn)裝置,其特征在于,還包括存儲(chǔ)單元,且所述映射單元在所述基準(zhǔn)片段與所述參考序列一致時(shí),將所述基準(zhǔn)片段作為映射片段存儲(chǔ)于所述存儲(chǔ)單元,而在所述基準(zhǔn)片段之后的殘余序列中具有在已設(shè)定的誤差允許值E內(nèi)與所述基準(zhǔn)位置之后的參考序列一致的部分時(shí),將該一致的部分作為映射片段存儲(chǔ)于所述存儲(chǔ)單J Li ο
22.如權(quán)利要求21所述的堿基序列對(duì)準(zhǔn)裝置,其特征在于,所述對(duì)準(zhǔn)單元在所述映射片段滿足數(shù)學(xué)式IW(MdM2)-Dk(MpM2) <E-E0時(shí)予以相互連接,其中,MpM2為需要相互連接的映射片段,Dr(M11M2)為短片段序列上的映射片段Μ” M2之間的距離,Dk(MdM2)為參考序列上的映射片段札、M2之間的距離,E是對(duì)短片段序列允許的誤差允許值,E0為包含于映射片段中的誤差值的總和,Dr(M1, M2)-De(M1, M2) I是對(duì)Dr (M1, M2)與Dk(M1, M2)的距離差的絕對(duì)值。
【文檔編號(hào)】C12Q1/68GK103930569SQ201280055343
【公開日】2014年7月16日 申請(qǐng)日期:2012年11月23日 優(yōu)先權(quán)日:2011年11月30日
【發(fā)明者】樸旻壻, 呂潤(rùn)九, 樸商賢 申請(qǐng)人:三星Sds株式會(huì)社, 延世大學(xué)校產(chǎn)學(xué)協(xié)力團(tuán)