本申請(qǐng)要求2015年8月13日提交的美國(guó)臨時(shí)申請(qǐng)第62/204,942號(hào)、2015年11月3日提交的美國(guó)臨時(shí)申請(qǐng)第62/250,362號(hào)以及2015年11月12日提交的美國(guó)臨時(shí)申請(qǐng)第62/254,647號(hào)的權(quán)益,所述臨時(shí)申請(qǐng)各自以引用的方式并入本文。
背景技術(shù):
核酸測(cè)序?qū)ι飳W(xué)研究、臨床診斷學(xué)、個(gè)人化醫(yī)學(xué)和醫(yī)藥開(kāi)發(fā)以及許多其他領(lǐng)域有重要意義。有成本效益的、準(zhǔn)確的和快速的測(cè)序?yàn)樵S多應(yīng)用所需要,例如(但不限于)微生物或病原體檢測(cè)和鑒定,以及受試者的遺傳鑒定。例如,應(yīng)用可包括但不限于親子鑒定和在法醫(yī)科學(xué)中(Reynolds等,Anal.Chem.,63:2-15(1991)),用于器官移植供體-受體匹配(Buyse等,Tissue Antigens,41:1-14(1993)和Gyllensten等,PCR Meth.Appl,1:91-98(1991)),用于遺傳性疾病診斷、預(yù)后和產(chǎn)前咨詢(Chamberlain等,Nucleic Acids Res.,16:11141-11156(1988)和L.C.Tsui,Human Mutat.,1:197-203(1992)),以及藥物代謝和致癌突變的研究(Hollstein等,Science,253:49-53(1991))。另外,核酸分析(例如用于傳染性疾病診斷)的成本效益直接隨批量測(cè)試的多重規(guī)模而變化。許多的這些應(yīng)用依靠在多個(gè)時(shí)常緊密間隔的多個(gè)基因座上辨別單堿基差異。
各種DNA雜交技術(shù)可用于在包含大量序列區(qū)的樣品中檢測(cè)一個(gè)或多個(gè)選定的多核苷酸序列的存在。在依賴片段捕獲和標(biāo)記的簡(jiǎn)單方法中,通過(guò)與固定探針雜交來(lái)捕獲包含選定序列的片段。捕獲片段可通過(guò)與包含可檢測(cè)的報(bào)道基因部分的第二探針雜交而被標(biāo)記。
另一種廣泛使用的方法是Southern印跡法。在這種方法中,樣品中的DNA片段混合物由凝膠電泳分離,并且然后固定在硝酸纖維素濾器上。通過(guò)使所述濾器與一個(gè)或多個(gè)標(biāo)記的探針在雜交條件下反應(yīng),可鑒別出存在包含探針序列的條帶。所述方法尤其用于鑒別在包含給定探針序列的限制性酶DNA消化物中的片段,以及用于分析限制性片段長(zhǎng)度多態(tài)性(“RFLP”)。
另一種在多核苷酸樣品中檢測(cè)一個(gè)或多個(gè)給定序列存在的方法涉及通過(guò)聚合酶鏈?zhǔn)椒磻?yīng)(美國(guó)專利第4,683,202號(hào)和R.K.Saiki等,Science230:1350(1985))來(lái)選擇性擴(kuò)增一個(gè)或多個(gè)序列。在這種方法中,與一個(gè)或多個(gè)選定序列的相反尾部互補(bǔ)的引物被用于與熱循環(huán)協(xié)同來(lái)促進(jìn)相繼的引物引發(fā)的復(fù)制輪次。擴(kuò)增的一個(gè)或多個(gè)序列可通過(guò)各種技術(shù)容易地鑒別。這種方法特別可用于在包含多核苷酸的樣品中檢測(cè)低拷貝序列的存在,例如用于在體液樣品中檢測(cè)病原體序列。
最近,已報(bào)道通過(guò)探針連接方法來(lái)鑒別已知靶序列的方法(美國(guó)專利第4,883,750號(hào),D.Y.Wu等,Genomics 4:560(1989),U.Landegren等,Science 241:1077(1988)以及E.Winn-Deen等,Clin.Chem.37:1522(1991))。在一種被稱為寡核苷酸連接反應(yīng)測(cè)定法(“OLA”)的方法中,將跨越目標(biāo)靶區(qū)的兩個(gè)探針或探針元件與所述靶區(qū)雜交。在探針元件與相鄰的靶堿基發(fā)生堿基配對(duì)的情況下,所述探針元件的對(duì)面末端可通過(guò)連接反應(yīng)被聯(lián)結(jié),例如通過(guò)用連接酶處理。然后,測(cè)定連接的探針元件,以證明靶序列的存在。
在這種方法的變型中,連接的探針元件充當(dāng)一對(duì)互補(bǔ)探針元件的模板。在多對(duì)探針元件存在下經(jīng)過(guò)變性、雜交和連接反應(yīng)的連續(xù)循環(huán),將靶序列線性擴(kuò)增,從而使極小量的靶序列被檢測(cè)和/或擴(kuò)增。這種方法被稱為連接酶檢測(cè)反應(yīng)。當(dāng)利用探針元件的兩個(gè)互補(bǔ)對(duì)時(shí),所述過(guò)程被稱為連接酶鏈?zhǔn)椒磻?yīng),所述反應(yīng)實(shí)現(xiàn)靶序列的指數(shù)擴(kuò)增。F.Barany,Proc.Nat’l.Acad.Sci.USA,88:189-93(1991)和F.Barany,PCR Methods and Applications,1:5-16(1991)。.
另一種用于核酸序列差異的多重檢測(cè)的方案公開(kāi)于美國(guó)專利第5,470,705號(hào)中,其中序列特異性探針(其具有可檢測(cè)標(biāo)記以及電荷/平移摩擦拽力的特性比率)可與靶雜交并且連接在一起。這種技術(shù)在Grossman等,Nucl.Acids Res.22(21):4527-34(1994)中被用于囊性纖維病跨膜調(diào)節(jié)子基因的大規(guī)模多重分析。Jou等,Human Mutation 5:86-93(1995)涉及通常稱作“空隙(gap)連接酶鏈?zhǔn)椒磻?yīng)”的方法的使用,以擴(kuò)增多個(gè)外顯子的選定區(qū),并且同時(shí)在免疫層析試紙條上讀取擴(kuò)增產(chǎn)物,所述免疫層析試紙條含有對(duì)每個(gè)外顯子的探針上的不同半抗原具有特異性的的抗體。
等位基因特異性探針的連接一般已使用固相捕獲(U.Landegren等,Science,241:1077-1080(1988);Nickerson等,Proc.Natl.Acad.Sci.USA,87:8923-8927(1990))或尺寸依賴性分離(D.Y.Wu等,Genomics,4:560-569(1989)和F.Barany,Proc.Natl.Acad.Sci,88:189-193(1991))以解析等位基因的信號(hào),所述方法的后者因連接探針的窄尺寸范圍而限于多重規(guī)模。此外,在多重格式中,連接酶檢測(cè)反應(yīng)不能單獨(dú)地制得足夠的產(chǎn)物來(lái)檢測(cè)并且量化少量的靶序列??障哆B接酶鏈?zhǔn)椒磻?yīng)過(guò)程需要額外的步驟—聚合酶延伸。針對(duì)更復(fù)雜的復(fù)合體使用具有電荷/平移摩擦拽力特性比率的探針會(huì)需要更長(zhǎng)的電泳時(shí)間或者使用交替的檢測(cè)形式。
需要有效地且準(zhǔn)確地對(duì)更長(zhǎng)核酸片段進(jìn)行測(cè)序的方法。對(duì)例如用于床旁應(yīng)用和病原體的野外檢測(cè)的迅速、高通量和低成本測(cè)序技術(shù)存在巨大需求。本發(fā)明使用簡(jiǎn)單化學(xué)方式和低成本設(shè)備來(lái)允許對(duì)大量基因組進(jìn)行測(cè)序,這導(dǎo)致顯著的成本降低和速度提高,并且也導(dǎo)致其他相關(guān)的優(yōu)點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:
在一個(gè)方面中,提供一種邊合成邊測(cè)序(sequencing-by-synthesis,SBS)系統(tǒng),其中所述系統(tǒng)被配置來(lái)產(chǎn)生大于至少300個(gè)堿基對(duì)且具有至少0.85或更大的純潔度得分(chastity score)的測(cè)序讀段(read)。所述系統(tǒng)可被配置來(lái)產(chǎn)生大于至少100kB且具有至少0.85或更大的純潔度得分的測(cè)序讀段。
在另一個(gè)方面中,提供一種用于序列測(cè)定的方法,所述方法包括:執(zhí)行一種邊合成邊測(cè)序(SBS)反應(yīng)以產(chǎn)生大于300個(gè)堿基對(duì)且具有至少0.85或更大的純潔度得分的測(cè)序讀段。所述方法可包括執(zhí)行一種邊合成邊測(cè)序反應(yīng)以產(chǎn)生大于至少100kB且具有至少0.85或更大的純潔度得分的測(cè)序讀段。
在另一個(gè)方面中,提供一種提高測(cè)序反應(yīng)的純潔度得分的方法,所述方法包括:對(duì)多個(gè)測(cè)序產(chǎn)物執(zhí)行一個(gè)或多個(gè)同步化步驟,其中相對(duì)于在缺乏一個(gè)或多個(gè)同步化步驟的情況下執(zhí)行的對(duì)應(yīng)測(cè)序反應(yīng),純潔度得分提高至少20%。在一些情況下,多個(gè)測(cè)序產(chǎn)物包括一個(gè)或多個(gè)非同步化測(cè)序產(chǎn)物。一個(gè)或多個(gè)同步化步驟中的每個(gè)可包括:在一組多達(dá)三種不同的核苷酸的存在下延伸多個(gè)測(cè)序產(chǎn)物。在一些情況下,所述多達(dá)三種不同的核苷酸選自由dATP、dCTP、dGTP、dTTP和dUTP組成的組。在一些情況下,所述多達(dá)三種不同的核苷酸包括至少一種天然核苷酸。所述方法可能還包括,在執(zhí)行一個(gè)或多個(gè)同步化步驟之前,執(zhí)行一個(gè)或多個(gè)相繼的測(cè)序輪次,其中每個(gè)測(cè)序輪次包括:(i)在一個(gè)或多個(gè)標(biāo)記的核苷酸的存在下使用多個(gè)靶核酸作為模板來(lái)延伸多個(gè)測(cè)序引物,以產(chǎn)生多個(gè)測(cè)序產(chǎn)物;以及(ii)針對(duì)多個(gè)測(cè)序產(chǎn)物中的每個(gè)來(lái)測(cè)定核酸序列。所述方法可能還包括,在執(zhí)行一個(gè)或多個(gè)相繼的測(cè)序輪次之前,將多個(gè)測(cè)序引物與多個(gè)靶核酸雜交。所述方法可能還包括,在執(zhí)行一個(gè)或多個(gè)同步化步驟之后,一次或多次重復(fù)一個(gè)或多個(gè)測(cè)序輪次,接著是一個(gè)或多個(gè)同步化步驟。在一些情況下,在重復(fù)之后,測(cè)序反應(yīng)具有至少0.85的純潔度得分。所述提高純潔度得分的方法可包括執(zhí)行至少四個(gè)同步化步驟。所述提高純潔度得分的方法可包括執(zhí)行至少八個(gè)同步化步驟。一個(gè)或多個(gè)相繼的測(cè)序輪次的執(zhí)行可包括執(zhí)行100至200個(gè)相繼的測(cè)序輪次。在一些情況下,多個(gè)靶核酸經(jīng)由捕獲探針被固定至固體支撐物。所述方法可能還包括,在每個(gè)同步化步驟之后,(i)通過(guò)洗滌或(ii)通過(guò)使用核苷酸降解酶來(lái)除去所述組的多達(dá)三種不同的核苷酸。在一些情況下,延伸包括使用DNA聚合酶來(lái)延伸。
在另一個(gè)方面中,提供一種用于增加測(cè)序反應(yīng)的測(cè)序讀段中的準(zhǔn)確堿基識(shí)別(call)的長(zhǎng)度的方法,所述方法包括對(duì)多個(gè)測(cè)序產(chǎn)物執(zhí)行一個(gè)或多個(gè)同步化步驟,由此增加測(cè)序反應(yīng)的測(cè)序讀段中的準(zhǔn)確堿基識(shí)別的長(zhǎng)度。在一些情況下,與在缺乏一個(gè)或多個(gè)同步化步驟的情況下執(zhí)行的測(cè)序反應(yīng)的測(cè)序讀段中的準(zhǔn)確堿基識(shí)別的長(zhǎng)度相比,在測(cè)序反應(yīng)的測(cè)序讀段中的準(zhǔn)確堿基識(shí)別的長(zhǎng)度增加至少10個(gè)堿基對(duì)。在一些情況下,與在缺乏一個(gè)或多個(gè)同步化步驟的情況下執(zhí)行的測(cè)序反應(yīng)的測(cè)序讀段中的準(zhǔn)確堿基識(shí)別的長(zhǎng)度相比,在測(cè)序反應(yīng)的測(cè)序讀段中的準(zhǔn)確堿基識(shí)別的長(zhǎng)度增加至少50個(gè)堿基對(duì)。在一些情況下,與在缺乏一個(gè)或多個(gè)同步化步驟的情況下執(zhí)行的測(cè)序反應(yīng)的測(cè)序讀段中的準(zhǔn)確堿基識(shí)別的長(zhǎng)度相比,在測(cè)序反應(yīng)的測(cè)序讀段中的準(zhǔn)確堿基識(shí)別的長(zhǎng)度增加至少100至500個(gè)堿基對(duì)。一個(gè)或多個(gè)同步化步驟中的每個(gè)可包括在一組多達(dá)三種不同的核苷酸的存在下,延伸多個(gè)測(cè)序產(chǎn)物。在一些情況下,所述多達(dá)三種不同的核苷酸選自由dATP、dCTP、dGTP、dTTP和dUTP組成的組。在一些情況下,多個(gè)測(cè)序產(chǎn)物包括一個(gè)或多個(gè)非同步化測(cè)序產(chǎn)物。在一些情況下,在一個(gè)或多個(gè)同步化步驟之后,所述測(cè)序產(chǎn)物的純潔度得分為至少0.85。在一些情況下,所述多達(dá)三種不同的核苷酸包括至少一種天然核苷酸。所述方法可能還包括,在執(zhí)行一個(gè)或多個(gè)同步化步驟之前,執(zhí)行一個(gè)或多個(gè)相繼的測(cè)序輪次,其中每個(gè)測(cè)序輪次包括:(i)在一個(gè)或多個(gè)標(biāo)記的核苷酸的存在下使用多個(gè)靶核酸作為模板來(lái)延伸多個(gè)測(cè)序引物,以產(chǎn)生多個(gè)測(cè)序產(chǎn)物;以及(ii)針對(duì)多個(gè)測(cè)序產(chǎn)物中的每個(gè)來(lái)測(cè)定核酸序列。所述方法可能還包括,在執(zhí)行一個(gè)或多個(gè)相繼的測(cè)序輪次之前,將多個(gè)測(cè)序引物與多個(gè)靶核酸雜交。所述方法可能還包括,在執(zhí)行更多同步化步驟中的一個(gè)之后,一次或多次重復(fù)一個(gè)或多個(gè)測(cè)序輪次,接著是一個(gè)或多個(gè)同步化步驟。在一些情況下,在重復(fù)之后,測(cè)序反應(yīng)具有至少0.85的純潔度得分。在一些情況下,增加準(zhǔn)確堿基識(shí)別的長(zhǎng)度的方法可包括執(zhí)行至少四個(gè)同步化步驟。在一些情況下,增加準(zhǔn)確堿基識(shí)別的長(zhǎng)度的方法可包括執(zhí)行至少八個(gè)同步化步驟。在一些情況下,一個(gè)或多個(gè)相繼的測(cè)序輪次的執(zhí)行包括執(zhí)行100至200個(gè)相繼的測(cè)序輪次。在一些情況下,多個(gè)靶核酸經(jīng)由捕獲探針被固定至固體支撐物。所述方法可能還包括,在每個(gè)同步化步驟之后,(i)通過(guò)洗滌或(ii)通過(guò)使用核苷酸降解酶來(lái)除去所述組的多達(dá)三種不同的核苷酸。在一些情況下,延伸包括使用DNA聚合酶來(lái)延伸。
在又一個(gè)方面中,提供一種用于使一個(gè)或多個(gè)非同步化測(cè)序產(chǎn)物同步化的方法,所述方法包括:(a)對(duì)多個(gè)測(cè)序產(chǎn)物執(zhí)行一個(gè)或多個(gè)同步化步驟,多個(gè)測(cè)序產(chǎn)物包括一個(gè)或多個(gè)非同步化測(cè)序產(chǎn)物,其中一個(gè)或多個(gè)同步化步驟中的每個(gè)包括:(i)將多個(gè)測(cè)序產(chǎn)物與第一組多達(dá)三種不同的核苷酸接觸,所述多達(dá)三種不同的核苷酸選自由dATP、dTTP、dCTP、dGTP和dUTP組成的組;(ii)用DNA聚合酶來(lái)延伸多個(gè)測(cè)序產(chǎn)物;以及(iii)任選地,除去所述組的未標(biāo)記的核苷酸,由此使一個(gè)或多個(gè)非同步化測(cè)序產(chǎn)物同步化。在一些情況下,一個(gè)或多個(gè)同步化步驟中的每個(gè)連續(xù)的同步化步驟包括:將多個(gè)測(cè)序產(chǎn)物與第二組多達(dá)三種不同的核苷酸接觸,所述多達(dá)三種不同的核苷酸選自由dATP、dTTP、dCTP、dGTP和dUTP組成的組,其中第二組核苷酸與第一組核苷酸不同。所述方法可能還包括,在執(zhí)行一個(gè)或多個(gè)同步化步驟之前:(b)將多個(gè)測(cè)序引物與多個(gè)靶核酸雜交;以及(c)執(zhí)行一個(gè)或多個(gè)相繼的測(cè)序輪次,每個(gè)測(cè)序輪次包括:(i)在一個(gè)或多個(gè)標(biāo)記的核苷酸的存在下延伸多個(gè)測(cè)序引物,以產(chǎn)生多個(gè)測(cè)序產(chǎn)物;以及(ii)測(cè)定多個(gè)測(cè)序產(chǎn)物的核酸序列。在一些情況下,一個(gè)或多個(gè)相繼的測(cè)序輪次的執(zhí)行包括執(zhí)行100至200個(gè)相繼的測(cè)序輪次。所述方法可能還包括,在執(zhí)行一個(gè)或多個(gè)同步化步驟之后,一次或多次重復(fù)一個(gè)或多個(gè)相繼的測(cè)序輪次,接著是一個(gè)或多個(gè)同步化步驟。在一些情況下,所述組的多達(dá)三種不同的核苷酸還包括可逆終止子核苷酸。在一些情況下,在每個(gè)同步化步驟之后,可逆終止子核苷酸被去封閉,并且多個(gè)測(cè)序產(chǎn)物準(zhǔn)備作進(jìn)一步延伸。在一些情況下,可逆終止子核苷酸與每個(gè)組內(nèi)的多達(dá)三種不同的核苷酸相比,具有不同的堿基。在一些情況下,使一個(gè)或多個(gè)非同步化測(cè)序產(chǎn)物同步化的方法包括執(zhí)行至少四個(gè)同步化步驟。在一些情況下,使一個(gè)或多個(gè)非同步化測(cè)序產(chǎn)物同步化的方法包括執(zhí)行至少八個(gè)同步化步驟。在一些情況下,執(zhí)行一個(gè)或多個(gè)同步化步驟之后,至少95%的測(cè)序產(chǎn)物被同步化。在一些情況下,在執(zhí)行一個(gè)或多個(gè)同步化步驟之后,測(cè)序產(chǎn)物具有至少0.85的純潔度得分。在一些情況下,多個(gè)靶核酸經(jīng)由捕獲探針被附接至固體支撐物。所述方法可能還包括,在每個(gè)同步化步驟之后,(i)通過(guò)洗滌或(ii)通過(guò)使用核苷酸降解酶來(lái)除去所述組的多達(dá)三種不同的核苷酸。在一些情況下,所述組的多達(dá)三種不同的核苷酸包括天然核苷酸。在一些情況下,一個(gè)或多個(gè)標(biāo)記的核苷酸包括一個(gè)或多個(gè)熒光標(biāo)記的核苷酸。
在另一個(gè)方面中,提供一種用于對(duì)靶核酸分子進(jìn)行測(cè)序的試劑盒,所述試劑盒包括:(a)可與靶核酸分子雜交的引物,(b)一個(gè)或多個(gè)標(biāo)記的核苷酸;以及(c)一組或多組多達(dá)三種不同的核苷酸,所述多達(dá)三種不同的核苷酸選自由dATP、dTTP、dCTP、dGTP和dUTP組成的組。所述試劑盒可能還包括DNA聚合酶。所述試劑盒可能還包括焦磷酸酶。所述試劑盒可能還包括三磷酸腺苷雙磷酸酶。在一些情況下,一個(gè)或多個(gè)標(biāo)記的核苷酸包括一個(gè)或多個(gè)熒光標(biāo)記的核苷酸。在一些情況下,一組或多組多達(dá)三種不同的核苷酸包括選自由以下組成的組的組中的至少一種:包括dATP、dCTP和dGTP的組;包括dATP、dTTP和dGTP的組;包括dCTP、dGTP和dTTP的組,包括dATP、dCTP和dTTP的組;以及它們的任何組合。在一些情況下,一組或多組多達(dá)三種不同的核苷酸還包括可逆終止子核苷酸。在一些情況下,可逆終止子核苷酸與每個(gè)組內(nèi)多達(dá)三種不同的核苷酸相比,包括不同的堿基。
以引用的方式并入
本說(shuō)明書中提及的所有出版物、專利和專利申請(qǐng)都以引用的方式并入本文,所述引用的程度就如同已特定地和個(gè)別地指示將各個(gè)別出版物、專利或?qū)@暾?qǐng)以引用的方式并入一般。
附圖說(shuō)明
本發(fā)明的新型特征在隨附權(quán)利要求中具體闡述。通過(guò)參考以下闡述利用了本發(fā)明的原理的說(shuō)明性實(shí)施方案的詳細(xì)描述及其附圖將獲得對(duì)本發(fā)明的特征和優(yōu)點(diǎn)的更好理解:
圖1描繪使用邊合成邊測(cè)序(SBS)方法的信號(hào)劣化。
圖2描繪在150個(gè)SBS循環(huán)之后,最初同步的克隆簇的相位移后(dephasing)。
圖3描繪一種使簇中的測(cè)序鏈重新同步化的計(jì)算方法。
圖4描繪利用本公開(kāi)的方法以用來(lái)使簇中的測(cè)序鏈重新同步化的實(shí)例。
圖5描繪利用多個(gè)同步化循環(huán)以使簇中的測(cè)序鏈重新同步化的實(shí)例。
圖6比較了多個(gè)同步化循環(huán)用以使簇中的測(cè)序鏈重新同步化的用途。
圖7描繪將深色(dark)核苷酸組摻合入測(cè)序產(chǎn)物。
圖8描繪適用于本文提供的方法的計(jì)算機(jī)系統(tǒng)的實(shí)例。
圖9描繪利用本文所述的方法而增加的信號(hào)強(qiáng)度。
圖10描繪利用本文所述的方法而使質(zhì)量得分增加。
圖11描繪利用本文所述的方法而使信號(hào)強(qiáng)度增加。
圖12描繪利用本文所述的方法而使質(zhì)量得分增加。
圖13描繪利用本文所述的方法而使信號(hào)強(qiáng)度增加。
圖14描繪利用本文所述的方法而使純潔度得分增加。
圖15描繪一種對(duì)克隆群體進(jìn)行測(cè)序的方法。
圖16描繪對(duì)在長(zhǎng)的讀段中的移相(phasing)效應(yīng)進(jìn)行建模。
圖17描繪對(duì)在長(zhǎng)的讀段中的移相效應(yīng)進(jìn)行建模。
圖18描繪本文所述方法的實(shí)例。
圖19描繪本文所述方法的實(shí)例。
圖20描繪本文所述方法的實(shí)例。
圖21描繪由執(zhí)行本文所述方法獲得的結(jié)果。
圖22描繪由執(zhí)行本文所述方法獲得的結(jié)果。
圖23描繪由執(zhí)行本文所述方法獲得的結(jié)果。
圖24描繪本文所述方法的實(shí)例。
具體實(shí)施方式
除非另有定義,否則本文中使用的所有技術(shù)和科學(xué)術(shù)語(yǔ)具有與本發(fā)明所屬領(lǐng)域的普通技術(shù)人員通常理解的含義相同的含義。雖然與本文中所述的那些方法和材料相似或相等的任何方法和材料也可用于實(shí)踐或測(cè)試本發(fā)明,但是現(xiàn)在描述代表性例示方法和材料。此類常規(guī)的技術(shù)和說(shuō)明可見(jiàn)于標(biāo)準(zhǔn)實(shí)驗(yàn)室手冊(cè)中,例如Genome Analysis:A Laboratory Manual Series(第I-IV卷),Using Antibodies:A Laboratory Manual,Cells:A Laboratory Manual,PCR Primer:A Laboratory Manual,和Molecular Cloning:A Laboratory Manual(全部來(lái)自Cold Spring Harbor Laboratory Press);Stryer,L.(1995)Biochemistry(第4版)Freeman,New York;Gait,“Oligonucleotide Synthesis:A Practical Approach”1984,IRL Press,London,Nelson and Cox(2000),Lehninger,(2004)Principles of Biochemistry,第4版,W.H.Freeman Pub.,New York,N.Y.以及Berg等(2006)Biochemistry,第6版,W.H.Freeman Pub.,New York,N.Y.,所有這些文獻(xiàn)出于所有目的而以引用的方式全文并入本文。
在本發(fā)明的一個(gè)方面中,提供用于對(duì)長(zhǎng)核酸進(jìn)行測(cè)序的方法、試劑盒、計(jì)算機(jī)軟件產(chǎn)品。往往使用逐步法來(lái)對(duì)核酸進(jìn)行測(cè)序,例如基于聚合酶延伸的測(cè)序或連接測(cè)序,其中為每個(gè)測(cè)序步驟讀取一個(gè)或多個(gè)堿基。這種基于逐步的測(cè)序方法往往受其逐步低效率所限制,例如不完全摻合、不完全連接以及其他造成相位提前(prephasing)或相位移后的問(wèn)題。逐步低效率可隨讀長(zhǎng)積累,并且限制讀長(zhǎng)。
例如,基于可逆的終止子核苷酸的測(cè)序(可商購(gòu)自Helicos公司、Illumina公司、Intelligent Biosystems公司/Azco Biotech公司得到,并且描述于供應(yīng)商文獻(xiàn)和其專利文檔中,以及http://www.helicosbio.com,http://www.illumina.com,http://www.azcobiotech.com)受摻入的可逆終止子核苷酸的效率所限制,所述可逆終止子核苷酸在3'羥基基團(tuán)處被修飾或以其他方式修飾,以中斷通過(guò)聚合酶的進(jìn)一步延伸。如果測(cè)序檢測(cè)是基于用添加的可檢測(cè)標(biāo)記例如熒光基團(tuán)來(lái)?yè)胶闲揎椇塑账幔瑒t摻合效率可能進(jìn)一步降低。所述問(wèn)題可通過(guò)將未標(biāo)記的和標(biāo)記的可逆終止子核苷酸混合而部分減輕。然而,即使化學(xué)性和效率有所增加,逐步低效率仍可顯著限制在讀段末端的讀長(zhǎng)和讀取質(zhì)量。
逐步效率問(wèn)題可用這樣的情況例示,在所述情況中每個(gè)測(cè)序步驟具有約99%的恒定的摻合的逐步效率,并且在一簇中存在1,000個(gè)模板分子。在第一摻合步驟之后,10個(gè)測(cè)序引物不再延伸,并且被封端或以其他方式不再涉及測(cè)序。在這種情況下,在100個(gè)測(cè)序步驟之后,僅(0.99)100=36.6%或360個(gè)分子留在所述簇中以用于額外的測(cè)序。在第200步,僅(0.99)200=13.4%或134個(gè)分子留在所述簇中以用于額外的測(cè)序。如果效率降至98%,在第100個(gè)步驟處,僅留下13.4%的分子用于額外的測(cè)序反應(yīng),并且在第200個(gè)步驟處,僅有1.8%的分子可潛在地用于進(jìn)一步測(cè)序。
對(duì)于核苷酸有限添加測(cè)序法而言,例如基于焦磷酸檢測(cè)的測(cè)序(可商購(gòu)自Roche/454,并且描述于供應(yīng)商文獻(xiàn)和專利文檔中,以及http://www.454.com)或基于pH檢測(cè)的測(cè)序(可商購(gòu)自Ion Torrent公司/Life Technologies公司,并且描述于供應(yīng)商文獻(xiàn)和其專利文檔中),效率可能受不完全摻合、錯(cuò)誤摻合、結(jié)合聚合酶的損失(脫落)所限制。基于逐步連接的測(cè)序具有相似的效率問(wèn)題,因逐步效率受例如連接反應(yīng)的效率和標(biāo)記的除去所限制。
另外,逐步測(cè)序方法可在測(cè)序鏈的簇內(nèi)產(chǎn)生非同步化測(cè)序鏈。此問(wèn)題可限制能實(shí)現(xiàn)的測(cè)序讀段長(zhǎng)度。隨著簇中的測(cè)序產(chǎn)物被延伸,由于測(cè)序反應(yīng)的低效率,簇中的一個(gè)或多個(gè)測(cè)序鏈可能變得與其他測(cè)序鏈不同步。圖1強(qiáng)調(diào)了此問(wèn)題。在測(cè)序反應(yīng)的起始時(shí),在測(cè)序引物的雜交之后,簇內(nèi)100%的鏈被同步化。隨著鏈被延伸,個(gè)別鏈可能較大多數(shù)鏈落后或更快延伸。同步化的這種損失隨著測(cè)序輪次數(shù)的增加而被放大,并且最終,來(lái)自非同步化鏈的背景噪聲變得太巨大以致不能準(zhǔn)確地識(shí)別正確堿基。使用圖1作為實(shí)例,簇可能以100%的鏈同步化起始101,但在150個(gè)SBS循環(huán)之后103,僅60%的鏈可能被同步化(即,僅60%的信號(hào)是正確的)105。在此實(shí)例中,一些鏈會(huì)落后(例如-1、-2等)并且一些鏈會(huì)提前(例如+1、+2等)。然后。本文提供的方法可適合于使鏈重新同步化(或重調(diào)),從而使得100%或接近100%的先前非同步化的鏈被同步化。在一些情況下,所述方法可適合于使測(cè)序鏈的簇重新同步化,從而使得80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或多于99%的先前非同步化的測(cè)序鏈被同步化。
使簇中的鏈重新同步化的當(dāng)前方法一般例如通過(guò)軟件(例如算法)經(jīng)由電腦模擬來(lái)執(zhí)行。例如,如圖3中所描繪的,可利用計(jì)算法以使非同步化鏈的簇重新同步化。然而,所述方法有局限且可能僅約90%有效。所述方法以計(jì)算方式且未通過(guò)化學(xué)方式來(lái)執(zhí)行,并且因而簇內(nèi)的鏈并未實(shí)際同步化。本發(fā)明試圖通過(guò)化學(xué)上使簇中的鏈重新同步化來(lái)解決此問(wèn)題。在一些情況下,本文提供的方法涉及不使用計(jì)算機(jī)(即,通過(guò)化學(xué)方式)來(lái)使簇中的鏈重新同步化。然而,應(yīng)理解本公開(kāi)的任何步驟中皆可使用計(jì)算機(jī),例如任何測(cè)序步驟、計(jì)算步驟(即,計(jì)算純潔度得分)、成像步驟等等。
方法
本文提供的方法包括一個(gè)或多個(gè)同步化步驟來(lái)使簇中的多個(gè)非同步化鏈重新同步化或重調(diào)。在本發(fā)明的一些方面中,一個(gè)或多個(gè)同步化步驟包括一個(gè)或多個(gè)延伸步驟,其中多個(gè)測(cè)序產(chǎn)物在核苷酸的不完整組的存在下延伸。在一些情況下,核苷酸的不完整組包含多達(dá)三種不同的核苷酸。例如,所述組核苷酸包括四種類型的核苷酸中的一種至三種(例如,對(duì)于DNA聚合酶而言,四種核苷酸dATP、dCTP、dTTP和dGTP中的一種、兩種或三種)。在一些情況下,所述組核苷酸可包括dUTP。在一些情況下,包含三種不同的核苷酸的反應(yīng)將在與缺失核苷酸互補(bǔ)的模板堿基處停止。例如,對(duì)于具有dATP、dCTP和dGTP的反應(yīng)而言,延伸停止在模板上的堿基“A”處,因?yàn)椤癆”與缺失核苷酸dTTP互補(bǔ),由此限制測(cè)序產(chǎn)物的延伸。可用于執(zhí)行本文所述方法的不完全核苷酸組的實(shí)例(也稱缺失核苷酸)為dATP、dCTP和dGTP(-T);dCTP、dGTP和dTTP(-A);dATP、dCTP和dTTP(-G);以及dATP、dTTP和dGTP(-C)?;蛘撸塑账峤M可使用包括三種天然未標(biāo)記的核苷酸(“深色”核苷酸)和可逆終止子核苷酸。在此實(shí)例中,可逆終止子將是并非由三種天然核苷酸代表的核苷酸。將可逆終止子核苷酸添加至測(cè)序產(chǎn)物將防止測(cè)序產(chǎn)物的進(jìn)一步延長(zhǎng),直至終止子被除去。
在本發(fā)明的一個(gè)方面中,提供了使簇內(nèi)的多個(gè)鏈同步化的方法。所述方法包括一個(gè)或多個(gè)相繼的測(cè)序輪次,其中核苷酸(例如借助于聚合酶)被摻合入生長(zhǎng)的測(cè)序鏈。所述方法包括將測(cè)序引物與多個(gè)靶核酸雜交。靶核酸可被固定在固體支撐物上。所述方法進(jìn)一步包括執(zhí)行一個(gè)或多個(gè)相繼的測(cè)序輪次。一個(gè)或多個(gè)相繼的測(cè)序輪次步驟中的每個(gè)可包括在一個(gè)或多個(gè)標(biāo)記的核苷酸的存在下延伸測(cè)序引物,以產(chǎn)生測(cè)序產(chǎn)物。所述方法可進(jìn)一步包括測(cè)定測(cè)序產(chǎn)物的核酸序列。在一個(gè)或多個(gè)測(cè)序輪次之后,所述方法可能還包括執(zhí)行一個(gè)或多個(gè)同步化步驟。一個(gè)或多個(gè)同步化步驟可包括在一組多達(dá)三種不同的核苷酸的存在下延伸測(cè)序產(chǎn)物,所述多達(dá)三種不同的核苷酸選自由dATP、dTTP、dCTP和dGTP組成的組。在一些情況下,所述組的多達(dá)三種不同的核苷酸是未標(biāo)記的(例如天然核苷酸)。
在一個(gè)方面,本文提供的方法包括執(zhí)行測(cè)序循環(huán),接著是同步化循環(huán)。一個(gè)或多個(gè)測(cè)序輪次在本文中可統(tǒng)稱為“測(cè)序循環(huán)”,而一個(gè)或多個(gè)同步化步驟在本文中可統(tǒng)稱為“同步化循環(huán)”。例如,測(cè)序循環(huán)可包括一個(gè)或多個(gè)相繼的測(cè)序輪次,在一些情況下包括100至200個(gè)測(cè)序步驟。同步化循環(huán)可包括一個(gè)或多個(gè)同步化步驟,在一些情況下包括四個(gè)至八個(gè)同步化步驟。在一些情況下,提供了用于執(zhí)行一個(gè)或多個(gè)額外的測(cè)序循環(huán)接著一個(gè)或多個(gè)額外的同步化循環(huán)的方法。例如,所述方法包括執(zhí)行額外的測(cè)序循環(huán)接著額外的同步化循環(huán)一次、二次、三次、四次、五次、六次、七次、八次、九次、10次或多于10次。每個(gè)同步化循環(huán)可使簇中的鏈重調(diào)或重新同步化。
在一些情況下,所述方法涉及一次或多次執(zhí)行額外的測(cè)序循環(huán)接著是額外的同步化循環(huán)。在一些情況下,額外的測(cè)序和同步化循環(huán)與先前的測(cè)序和同步化循環(huán)不同(例如每個(gè)循環(huán)可包括不同的步驟數(shù))。在其他情況下,額外的測(cè)序和同步化循環(huán)可與先前的測(cè)序和同步化循環(huán)相同(即,每個(gè)循環(huán)包括相同的步驟數(shù))。每個(gè)同步化循環(huán)可使測(cè)序簇中的至少95%的測(cè)序產(chǎn)物重新同步化。在一個(gè)非限制性實(shí)例中,測(cè)序循環(huán)包括約150個(gè)測(cè)序步驟,并且同步化循環(huán)包括約八個(gè)同步化步驟。
圖4以逐步的形式描繪本文提供的方法的一個(gè)實(shí)例。在此實(shí)例中,在第一步驟中(從頂部),靶核酸400可與捕獲探針401雜交(例如在固體支撐物上)。測(cè)序引物403可與靶核酸401雜交,并且可執(zhí)行測(cè)序循環(huán)以產(chǎn)生測(cè)序產(chǎn)物405。測(cè)序循環(huán)之后可執(zhí)行同步化循環(huán),以使測(cè)序產(chǎn)物407重新同步化。然后,執(zhí)行額外的測(cè)序循環(huán),以進(jìn)一步延伸測(cè)序產(chǎn)物409并且產(chǎn)生測(cè)序讀段。然后,額外的同步化循環(huán)接著為額外的測(cè)序循環(huán),以使測(cè)序產(chǎn)物411重新同步化,接著是額外的測(cè)序循環(huán)413等等。額外的同步化循環(huán)接著額外的測(cè)序循環(huán)可按需要重復(fù)多次,以對(duì)整個(gè)靶核酸進(jìn)行測(cè)序。測(cè)序循環(huán)中的測(cè)序輪次數(shù)可憑經(jīng)驗(yàn)確定。在不希望由理論束縛的情況下,每個(gè)測(cè)序輪次一般導(dǎo)致輕微的信號(hào)強(qiáng)度損失,直至已執(zhí)行了足夠多測(cè)序輪次以使得信號(hào)強(qiáng)度的損失過(guò)大而不能準(zhǔn)確識(shí)別正確堿基。此時(shí),可能適合于執(zhí)行同步化循環(huán)以使鏈重調(diào)或重新同步化,并且恢復(fù)信號(hào)的損失。雖然測(cè)序循環(huán)中的測(cè)序輪次的最佳數(shù)量會(huì)變化,但應(yīng)考慮到將執(zhí)行足夠的測(cè)序輪次以在執(zhí)行同步化循環(huán)之前導(dǎo)致測(cè)序鏈的同步化損失。測(cè)序鏈的同步化損失可能包括簇中的約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、多達(dá)100%的非同步化鏈。在一些情況下,測(cè)序循環(huán)中的測(cè)序輪次數(shù)是50或更多。在一些實(shí)例中,測(cè)序循環(huán)中的測(cè)序輪次數(shù)是100或更多。非限制性實(shí)例包括測(cè)序循環(huán)中的約100個(gè)、約110個(gè)、約120個(gè)、約130個(gè)、約140個(gè)、約150個(gè)、約160個(gè)、約170個(gè)、約180個(gè)、約190個(gè)、約200個(gè)或多于200個(gè)測(cè)序輪次。在一些情況下,測(cè)序的輪次包括100至200個(gè)測(cè)序輪次。
同步化循環(huán)中的同步化步驟的數(shù)量也可憑經(jīng)驗(yàn)確定。在一些情況下,同步化循環(huán)中的同步化步驟數(shù)可包括但不限于:一個(gè)、二個(gè)、三個(gè)、四個(gè)、五個(gè)、六個(gè)、七個(gè)、八個(gè)、九個(gè)、十個(gè)或更多個(gè)同步化步驟。在一些情況下,在同步化循環(huán)中執(zhí)行一個(gè)或多個(gè)同步化步驟。在一些情況下,在同步化循環(huán)中執(zhí)行四個(gè)或更多個(gè)同步化步驟。在其他情況下,在同步化循環(huán)中執(zhí)行八個(gè)或更多個(gè)同步化步驟。在一些情況下,在同步化循環(huán)中執(zhí)行四個(gè)至八個(gè)同步化步驟。
同步化步驟的次序也可憑經(jīng)驗(yàn)確定。在一些情況下,各連續(xù)同步化步驟包括不同組的不完整核苷酸。例如,在缺乏dATP的情況下(“-A”;即,在dTTP、dCTP和dGTP的存在下)執(zhí)行的同步化步驟可隨后繼以采用核苷酸組“-T”、“-C”或“-G”中的一個(gè)的同步化步驟。在一個(gè)非限制性實(shí)例中,同步化循環(huán)包括八個(gè)按以下次序執(zhí)行的同步化步驟:“-A”、“-C”、“-G”、“-T”、“-G”、“-C”、“-A”、“-T”。同步化步驟可包括一組多達(dá)三種不同的核苷酸。多達(dá)三種不同的核苷酸可為未標(biāo)記的核苷酸。未標(biāo)記的核苷酸可為任何無(wú)可檢測(cè)標(biāo)記的核苷酸。在一些情況下,未標(biāo)記的核苷酸為“深色”核苷酸(即,缺乏可檢測(cè)的(例如熒光)標(biāo)記)。在一些情況下,未標(biāo)記的核苷酸為天然核苷酸,并且不包含任何修飾。在一些情況下,未標(biāo)記的核苷酸為經(jīng)修飾的核苷酸(例如包含可逆終止子)。
在同步化步驟期間未標(biāo)記核苷酸的使用可導(dǎo)致在模板核酸上多個(gè)核苷酸位置的測(cè)序數(shù)據(jù)缺乏。每個(gè)同步化步驟可導(dǎo)致測(cè)序產(chǎn)物平均約延伸三個(gè)、四個(gè)、五個(gè)、六個(gè)、七個(gè)、八個(gè)、九個(gè)、十個(gè)或更多個(gè)核苷酸。在一些情況下,在每個(gè)同步化步驟中平均約四個(gè)核苷酸可被添加至測(cè)序產(chǎn)物。圖7描繪使用多個(gè)同步化步驟來(lái)將“深色”(即,未標(biāo)記的)核苷酸添加至測(cè)序產(chǎn)物的實(shí)例。在此實(shí)例中,每個(gè)同步化步驟可大致將七個(gè)未標(biāo)記的核苷酸添加至測(cè)序產(chǎn)物,從而使得在12個(gè)同步化步驟之后,約102個(gè)未標(biāo)記的核苷酸被添加至測(cè)序產(chǎn)物??蓹z測(cè)標(biāo)記的缺乏會(huì)導(dǎo)致在測(cè)序產(chǎn)物上的未測(cè)序堿基的空隙。通過(guò)交錯(cuò)安排在同步化之前執(zhí)行的測(cè)序步驟數(shù)(例如100個(gè)測(cè)序步驟與150個(gè)測(cè)序步驟),測(cè)序數(shù)據(jù)中的空隙可被填充。
在一些方面中,本文提供的方法可導(dǎo)致在執(zhí)行同步化循環(huán)之后簇中多達(dá)100%的鏈的重新同步化。在一些情況下,重新同步化可能是90%、90.5%、91%、91.5%、92%、92.5%、93%、93.5%、94%、94.5%、95%、95.5%、96%、96.5%、97%、97.5%、98%、98.5%、99%、99.5%、99.9%或100%的簇內(nèi)鏈。圖5描繪在150個(gè)邊合成邊測(cè)序(SBS)輪次(60%的鏈同步化)501之后執(zhí)行的四個(gè)同步化步驟的實(shí)例。在執(zhí)行四個(gè)同步化步驟503之后,平均96.5%的鏈被重新同步化505。
同步化步驟的執(zhí)行數(shù)可能進(jìn)一步增加所述方法的效益。例如,在圖6中,測(cè)定出在16個(gè)同步化步驟之后,平均97.3%的簇中鏈被重新同步化。
在一些情況下,大量的靶核酸(例如至少10、100、1,000、10,000、100,000或1,000,000)被同時(shí)測(cè)序。這些靶核酸可為DNA、RNA或經(jīng)修飾的核酸。盡管它們可作為單分子被測(cè)序,但它們也可作為克隆或簇被測(cè)序。克隆或簇(例如在磁珠上)中的每一個(gè)皆衍生自單核酸分子。在本技術(shù)領(lǐng)域中用于對(duì)單分子或克隆分子簇或磁珠中大量靶核酸進(jìn)行測(cè)序的方法是眾所周知的。為了說(shuō)明的簡(jiǎn)單性,一些實(shí)例可能使用單數(shù)術(shù)語(yǔ)例如“靶核酸”或“延伸引物”來(lái)描述,本領(lǐng)域技術(shù)人員將理解所述實(shí)施方案中的多個(gè)可用于同時(shí)地或順序地對(duì)多個(gè)靶核酸進(jìn)行測(cè)序,并且此類測(cè)序可對(duì)多個(gè)靶核酸的多個(gè)拷貝(多于10個(gè)、100個(gè)、1,000個(gè)、100,000個(gè)拷貝)執(zhí)行。
靶或靶核酸
在一個(gè)方面,本發(fā)明提供用于對(duì)一個(gè)靶核酸分子或多個(gè)靶核酸的集合進(jìn)行測(cè)序的方法。本文所用的“靶核酸分子”、“靶分子”、“靶多核苷酸”、“靶多核苷酸分子”或它們?cè)谡Z(yǔ)法上的等價(jià)物意指目標(biāo)核酸。靶核酸例如可以是DNA或RNA或任何具有與DNA或RNA相似性質(zhì)的合成結(jié)構(gòu)。本文所用的測(cè)序指的是對(duì)靶核酸中至少單個(gè)堿基、至少2個(gè)連續(xù)的堿基、至少10個(gè)連續(xù)的堿基或至少25個(gè)連續(xù)的堿基的測(cè)定。測(cè)序精確度總體上或針對(duì)每個(gè)堿基可為至少65%、75%、85%、95%、99%、99.9%和99.99%。測(cè)序可直接對(duì)靶核酸執(zhí)行或?qū)ρ苌园泻怂岬暮怂釄?zhí)行。在一些應(yīng)用中,大量的靶核酸(例如至少1,000、10,000、100,000或1,000,000個(gè)靶核酸)被同時(shí)測(cè)序。
在一些情況下,靶核酸為衍生自特定生物的染色體中的遺傳物質(zhì)的基因組DNA,和/或非染色體遺傳物質(zhì)例如線粒體DNA?;蚪M克隆文庫(kù)是克隆的集合,其由一組隨機(jī)產(chǎn)生的重疊DNA片段制得,并且代表生物的整個(gè)基因組?;蚪M文庫(kù)是生物的基因組DNA中的至少2%、5%、10%、30%、50%、70%、80%或90%的一個(gè)或多個(gè)序列的集合。
靶核酸包括自然出現(xiàn)的或基因改造的或合成制備的核酸(例如來(lái)自哺乳動(dòng)物疾病模型的基因組DNA)。靶核酸可從實(shí)際上任何來(lái)源獲得,并且可使用本領(lǐng)域已知的方法制備。例如,靶核酸可使用本領(lǐng)域已知方法來(lái)直接分離而不須擴(kuò)增,包括但不限于從生物(例如細(xì)胞或細(xì)菌)中提取基因組DNA的片段以獲得靶核酸。在另一個(gè)實(shí)例中,靶核酸還可使用本領(lǐng)域已知方法通過(guò)擴(kuò)增來(lái)分離,包括但不限于聚合酶鏈?zhǔn)椒磻?yīng)(PCR)、全基因組擴(kuò)增(WGA)、多重置換擴(kuò)增(MDA)、滾環(huán)擴(kuò)增(RCA)、滾環(huán)擴(kuò)增反應(yīng)(RCA)以及其他擴(kuò)增方法學(xué)。靶核酸還可通過(guò)克隆獲得,包括克隆入例如質(zhì)粒、酵母和細(xì)菌人工染色體的載體中。“擴(kuò)增”指的是任何通過(guò)其使靶序列的拷貝數(shù)增加的過(guò)程。擴(kuò)增可通過(guò)本領(lǐng)域已知的任何方式執(zhí)行。靶多核苷酸的引物引導(dǎo)的擴(kuò)增方法是本領(lǐng)域已知的,并且包括但不限于基于聚合酶鏈?zhǔn)椒磻?yīng)(PCR)的方法。可使用的PCR技術(shù)的實(shí)例包括但不限于定量PCR、熒光定量PCR(QF-PCR)、熒光多重PCR(MF-PCR)、實(shí)時(shí)PCR(RTPCR)、單細(xì)胞PCR、限制性片段長(zhǎng)度多態(tài)性PCR(PCR-RFLP)、PCK-RFLPIRT-PCR-IRFLP、熱啟動(dòng)PCR、巢式PCR、原位polony PCR、原位滾環(huán)擴(kuò)增(RCA)、橋式PCR、picotiter PCR和乳膠PCR。有利于靶序列擴(kuò)增的PCR條件是本領(lǐng)域已知的,其可在所述方法中的各種步驟處優(yōu)化,并且取決于反應(yīng)中的要素特征,例如靶類型、靶濃度、待擴(kuò)增的序列長(zhǎng)度、靶和/或一個(gè)或多個(gè)引物的序列、引物長(zhǎng)度、引物濃度、使用的聚合酶、反應(yīng)體積、一個(gè)或多個(gè)要素比一個(gè)或多個(gè)其他要素的比率以及其他,可改變這些中的一些或所有。一般來(lái)說(shuō),PCR涉及以下步驟:待擴(kuò)增靶的變性(如果是雙鏈的),將一個(gè)或多個(gè)引物與靶雜交,以及由DNA聚合酶延伸引物,并且重復(fù)(或“循環(huán)”)所述步驟以便擴(kuò)增靶序列。此方法中的步驟可針對(duì)各種結(jié)果而優(yōu)化,例如來(lái)提高產(chǎn)率、減少假產(chǎn)物的形成,和/或提高或降低引物復(fù)性的特異性。優(yōu)化的方法是本領(lǐng)域眾所周知的,并且包括調(diào)整擴(kuò)增反應(yīng)中的要素的類型或量,和/或調(diào)整所述方法中給定步驟的條件,例如在特定步驟中的溫度、特定步驟的持續(xù)時(shí)間和/或循環(huán)數(shù)。在一些情況下,擴(kuò)增反應(yīng)包括至少5個(gè)、10個(gè)、15個(gè)、20個(gè)、25個(gè)、30個(gè)、35個(gè)、50個(gè)或更多個(gè)循環(huán)。在一些情況下,擴(kuò)增反應(yīng)包括不超過(guò)5個(gè)、10個(gè)、15個(gè)、20個(gè)、25個(gè)、35個(gè)、50個(gè)或更多個(gè)的循環(huán)。循環(huán)可包含任何步驟數(shù),例如1個(gè)、2個(gè)、3個(gè)、4個(gè)、5個(gè)、6個(gè)、7個(gè)、8個(gè)、9個(gè)、10個(gè)或更多個(gè)步驟。步驟可包括任何適合于實(shí)現(xiàn)給定步驟的目的的溫度或溫度梯度,所述給定步驟包括但不限于3’端延伸(例如銜接子填充)、引物復(fù)性、引物延伸和鏈變性。步驟可以是任何持續(xù)時(shí)間,持續(xù)時(shí)間包括但不限于約、小于約或多于約1秒、5秒、10秒、15秒、20秒、25秒、30秒、35秒、40秒、45秒、50秒、55秒、60秒、70秒、80秒、90秒、100秒、120秒、180秒、240秒、300秒、360秒、420秒、480秒、540秒、600秒或更多秒,包括無(wú)窮秒直至手動(dòng)中斷。包括不同步驟的任何數(shù)量的循環(huán)可以任何次序進(jìn)行組合。在一些情況下,將包括不同步驟的不同循環(huán)進(jìn)行組合,從而使得組合中的總循環(huán)數(shù)量為約、小于約或多于約5個(gè)、10個(gè)、15個(gè)、20個(gè)、25個(gè)、30個(gè)、35個(gè)、50個(gè)或更多個(gè)循環(huán)。其他合適的擴(kuò)增方法包括連接酶鏈?zhǔn)椒磻?yīng)(LCR)、轉(zhuǎn)錄擴(kuò)增、自持續(xù)序列復(fù)制、靶多核苷酸序列的選擇擴(kuò)增、共有序列引物聚合酶鏈?zhǔn)椒磻?yīng)(CP-PCR)、任意引物聚合酶鏈?zhǔn)椒磻?yīng)(AP-PCR)、簡(jiǎn)并寡核苷酸引物PCR(DOP-PCR)和基于核酸的序列擴(kuò)增(NABSA)。本文可使用的其他擴(kuò)增方法包括在美國(guó)專利第5,242,794號(hào)、第5,494,810號(hào)、第4,988,617號(hào)和第6,582,938號(hào)中描述的那些。在一些情況下,擴(kuò)增是在細(xì)胞內(nèi)部執(zhí)行。
在所述實(shí)例中的任一個(gè)中,擴(kuò)增可在支撐物(例如磁珠或表面)上發(fā)生。在本文所述實(shí)例中的任一個(gè)中,靶可從單細(xì)胞的提取物中擴(kuò)增。
靶核酸還可具有外源序列,例如在諸如文庫(kù)制備期間經(jīng)由連接或擴(kuò)增過(guò)程被引入的通用引物序列或條形碼序列。本文使用的術(shù)語(yǔ)“測(cè)序模板”指的是靶核酸自身,或是與靶核酸的片段的核苷酸序列或靶核酸的互補(bǔ)物相同或基本上相似的核苷酸序列。在一些情況下,靶核酸分子包括核糖核酸(RNA)。
在一些情況下,靶多核苷酸是基因組DNA或基因組DNA的一部分。盡管一些實(shí)例是用于對(duì)全基因組進(jìn)行測(cè)序,例如以多于50%的覆蓋率進(jìn)行測(cè)序,但這些實(shí)例也適合于對(duì)例如涉及藥物代謝的基因組區(qū)的靶區(qū)進(jìn)行測(cè)序。在一個(gè)實(shí)例中,靶多核苷酸是人類基因組DNA。
本文所用的靶核酸也可指用于測(cè)序的核酸結(jié)構(gòu)。此類結(jié)構(gòu)通常包括在靶核酸序列的一端或兩端上的銜接子序列。例如,由樣品的基因組DNA衍生的或由樣品的RNA分子衍生的序列可用擴(kuò)增和/或一個(gè)或多個(gè)測(cè)序銜接子連接。文庫(kù)構(gòu)建方法是本領(lǐng)域眾所周知的。核酸測(cè)序文庫(kù)可在基質(zhì)上使用橋式擴(kuò)增、乳膠PCR擴(kuò)增、滾環(huán)擴(kuò)增或其他擴(kuò)增方法以克隆形式擴(kuò)增。此類過(guò)程可手動(dòng)執(zhí)行,或使用自動(dòng)化設(shè)備例如cBot(Illumina公司)或OneTouchTM(Ion Torrent)來(lái)執(zhí)行。
“核酸”或“寡核苷酸”或“多核苷酸”或語(yǔ)法上的等價(jià)物通常指的是共價(jià)連接到一起的至少兩個(gè)核苷酸。本發(fā)明的核酸將一般包含磷酸二酯鍵,但在一些情況下,如下文概述(例如,在引物和探針(例如標(biāo)記的探針)的構(gòu)建中),包括了可能具有交替主鏈的核酸類似物,所述交替主鏈例如包含磷酰胺(例如參見(jiàn)Beaucage等,Tetrahedron 49(10):1925(1993);Letsinger,J.Org.Chem.35:3800(1970);Sprinzl等,Eur.J.Biochem.81:579(1977);Letsinger等,Nucl.Acids Res.14:3487(1986);Sawai等,Chem.Lett.805(1984),Letsinger等,J.Am.Chem.Soc.110:4470(1988);以及Pauwels等,Chemica Scripta 26:141(1986))、硫代磷酸酯(Mag等,Nucleic Acids Res.19:1437(1991);和美國(guó)專利第5,644,048號(hào))、二硫代磷酸酯(例如參見(jiàn)Briu等,J.Am.Chem.Soc.111:2321(1989)),O-甲基亞磷酰胺鍵(例如參見(jiàn)Eckstein,Oligonucleotides and Analogues:A Practical Approach,Oxford University Press)和肽核酸(本文中也稱作“PNA”)主鏈和鍵(例如參見(jiàn)Egholm,J.Am.Chem.Soc.114:1895(1992);Meier等,Chem.Int.Ed.Engl.31:1008(1992);Nielsen,Nature,365:566(1993);Carlsson等,Nature380:207(1996))。
其他核酸類似物包括具有二環(huán)結(jié)構(gòu)的那些核酸類似物,所述核酸類似物包括本文中也稱作“LNA”的鎖核酸(例如參見(jiàn)Koshkin等,J.Am.Chem.Soc.120.13252 3(1998))、正電(positive)主鏈(Denpcy等,Proc.Natl.Acad.Sci.USA 92:6097(1995))、非離子主鏈(例如參見(jiàn)美國(guó)專利第5,386,023號(hào)、第5,637,684號(hào)、第5,602,240號(hào)、第5,216,141號(hào)和第4,469,863號(hào);Kiedrowshi等,Angew.Chem.Intl.Ed.English 30:423(1991));Letsinger等,J.Am.Chem.Soc.110:4470(1988),Ed.Y.S.Sanghui和P.Dan Cook;Mesmaeker等,Bioorganic&Medicinal Chem.Lett.4:395(1994);Jeffs等,J.Biomolecular NMR 34:17(1994);Tetrahedron Lett.37:743(1996))和非核糖主鏈,并且所述非核糖主鏈包括那些在美國(guó)專利第5.235,033號(hào)和第5,034,506號(hào)以及ASC Symposium Series 580,“Carbohydrate Modifications in Antisense Research”,Ed.Y.S.Sanghui和P.Dan Cook的章6和章7中描述的那些。
包含一個(gè)或多個(gè)碳環(huán)糖類的核酸也包括在核酸的定義內(nèi)(例如參見(jiàn)Jenkins等,Chem.Soc.Rev.(1995),第169 176頁(yè))。若干核酸類似物描述于Rawls,C&E News,1997年6月2日,第35頁(yè)中。
根據(jù)指定,靶核酸可能是單鏈或雙鏈的,或者可包含雙鏈序列或單鏈序列的部分。根據(jù)應(yīng)用,核酸可為DNA(包括基因組DNA和cDNA)、RNA(包括mRNA和rRNA)或混合物,其中核酸包含脫氧核糖核苷酸和核糖核苷酸的任何組合,和堿基的任何組合,所述堿基包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鳥嘌呤、肌苷、黃嘌呤、次黃嘌呤、異胞嘧啶、異鳥嘧啶等。
在一些情況下,本發(fā)明的所述方法包括靶多核苷酸的捕獲。靶多核苷酸可來(lái)自基因組的已知區(qū)。在一些情況下,寡核苷酸探針可固定在磁珠上,并且這些便宜的和可再使用的寡核苷酸磁珠可用于捕獲靶基因組多核苷酸。在其他情況下,微陣列被用于捕獲靶多核苷酸。
在一些情況下,靶多核苷酸可被斷裂為一個(gè)合適的長(zhǎng)度或多個(gè)合適的長(zhǎng)度,例如在長(zhǎng)度上大約100-200個(gè)、200-300個(gè)、300-500個(gè)、500-1000個(gè)、1000-2000個(gè)或更多個(gè)堿基。
自然存在的靶可在細(xì)胞裂解液中、在核酸提取物中直接分析,或在小部分核酸部分純化之后分析,以便將它們富集在目標(biāo)靶中。在一個(gè)實(shí)例中,靶多核苷酸是人類基因組DNA。待檢測(cè)的多核苷酸靶可為未修飾的或修飾的。有用的修飾包括但不限于放射性和熒光標(biāo)記以及錨配體,例如生物素或地高辛。一個(gè)或多個(gè)修飾可布置在內(nèi)部或在靶的5’或3’端。靶修飾可通過(guò)化學(xué)反應(yīng)或通過(guò)酶促反應(yīng),例如連接或聚合酶輔助延伸,在合成后進(jìn)行。或者,內(nèi)部標(biāo)記和錨配體可在酶促聚合反應(yīng)期間通過(guò)使用少量的修飾NTP作為基質(zhì)來(lái)直接摻合入擴(kuò)增的靶或它的互補(bǔ)序列。
可將靶多核苷酸從受試者中分離。受試者不限于人類,而可也為其他生物,包括但不限于哺乳動(dòng)物、植物、細(xì)菌、病毒或真菌。在一個(gè)實(shí)例中,靶多核苷酸為從人類提取的基因組DNA。
輸入的核酸可為DNA,或復(fù)雜的DNA例如基因組DNA。輸入的DNA也可為cDNA。cDNA可產(chǎn)生自RNA例如mRNA。輸入的DNA可屬于特定物種,例如人類、大鼠、小鼠、其他的動(dòng)物、植物、細(xì)菌、藻類、病毒等等。輸入的核酸也可來(lái)自例如寄主病原體、細(xì)菌種群等等的不同物種的基因組混合物。輸入的DNA可為由不同物種的基因組混合物制得的cDNA。或者,輸入的核酸可來(lái)自合成源。輸入的DNA可為線粒體DNA。輸入的DNA可為脫細(xì)胞DNA。脫細(xì)胞DNA可從例如血清或血漿樣品獲得。輸入的DNA可包括一個(gè)或多個(gè)染色體。例如,如果輸入的DNA來(lái)自人類,則DNA可包括1號(hào)、2號(hào)、3號(hào)、4號(hào)、5號(hào)、6號(hào)、7號(hào)、8號(hào)、9號(hào)、10號(hào)、11號(hào)、12號(hào)、13號(hào)、14號(hào)、15號(hào)、16號(hào)、17號(hào)、18號(hào)、19號(hào)、20號(hào)、21號(hào)、22號(hào)、X或Y染色體的一個(gè)或多個(gè)。DNA可來(lái)自線性或環(huán)狀基因組。DNA可為質(zhì)粒DNA、黏粒DNA、細(xì)菌人工染色體(BAC)或酵母人工染色體(YAC)。輸入的DNA可來(lái)自多于一個(gè)個(gè)體或生物。輸入的DNA可為雙鏈或單鏈的。輸入的DNA可為部分染色質(zhì)。輸入的DNA可與組蛋白締合。本文描述的方法可應(yīng)用于高分子量DNA,例如舉例而言從組織或細(xì)胞培養(yǎng)物中分離的DNA,以及應(yīng)用于高度降解的DNA,例如舉例而言來(lái)自血液和尿液的脫細(xì)胞DNA,和/或提取自福爾馬林固定的、石蠟包埋的組織的DNA。
衍生出靶多核苷酸的不同樣品可包括來(lái)自相同個(gè)體的多個(gè)樣品、來(lái)自不同個(gè)體的樣品或它們的組合。在一些情況下,樣品包括來(lái)自單個(gè)個(gè)體的多個(gè)多核苷酸。在一些情況下,樣品包括來(lái)自兩個(gè)或更多個(gè)個(gè)體的多個(gè)多核苷酸。個(gè)體為任何生物或它們的部分,從其可衍生出靶多核苷酸,個(gè)體的非限制性實(shí)例包括植物、動(dòng)物、真菌、原生生物、原核生物、病毒、線粒體和葉綠體。樣品多核苷酸可分離自受試者,例如由其衍生的細(xì)胞樣品、組織樣品或器官樣品,包括例如培養(yǎng)的細(xì)胞系、活組織檢查、血液樣品或包含細(xì)胞的分泌液樣品。受試者可為動(dòng)物,包括但不限于例如牛、豬、小鼠、大鼠、小雞、貓、狗等的動(dòng)物,并且通常為哺乳動(dòng)物,例如人類。樣品也可人工衍生,例如通過(guò)化學(xué)合成。在一些情況下,樣品包括DNA。在一些情況下,樣品包括基因組DNA。在一些情況下,樣品包括線粒體DNA、葉綠體DNA、質(zhì)粒DNA、細(xì)菌人工染色體、酵母人工染色體、寡核苷酸標(biāo)簽,或它們的組合。在一些情況下,樣品包括通過(guò)使用引物和DNA聚合酶的任何合適組合通過(guò)引物延伸反應(yīng)來(lái)產(chǎn)生的DNA,所述引物延伸反應(yīng)包括但不限于聚合酶鏈?zhǔn)椒磻?yīng)(PCR)、反轉(zhuǎn)錄和它們的組合。在用于引物延伸反應(yīng)的模板為RNA的情況下,反轉(zhuǎn)錄的產(chǎn)物被稱作互補(bǔ)DNA(cDNA)。引物延伸反應(yīng)中有用的引物可包含對(duì)一個(gè)或多個(gè)靶具有特異性的序列、隨機(jī)序列、部分隨機(jī)序列以及它們的組合。適合于引物延伸反應(yīng)的反應(yīng)條件是本領(lǐng)域已知的。一般來(lái)說(shuō),樣品多核苷酸包含出現(xiàn)在樣品中的任何多核苷酸,其可包含或可不包含靶多核苷酸。
測(cè)序
本文提供的方法適用于使用邊合成邊測(cè)序方法的測(cè)序技術(shù)和平臺(tái)。全體此類方法涉及通過(guò)經(jīng)由在核酸分子上測(cè)得的聚合反應(yīng)來(lái)暫時(shí)添加堿基來(lái)對(duì)具有多個(gè)堿基的靶核酸分子進(jìn)行測(cè)序,即在待測(cè)序的模板核酸分子上的核酸聚合酶的活性被實(shí)時(shí)跟蹤。然后,可通過(guò)由核酸聚合酶在堿基添加的序列中在每個(gè)步驟中的催化活性來(lái)鑒定哪種堿基被摻合入靶核酸的生長(zhǎng)互補(bǔ)鏈中而推導(dǎo)出序列。在靶核酸分子復(fù)合物上的聚合酶被提供合適的位置,以便沿靶核酸分子移動(dòng)并且在活性位點(diǎn)延伸寡核苷酸引物。多種標(biāo)記類型的核苷酸類似物被提供在緊鄰活性位點(diǎn)處,并且每種可區(qū)別類型的核苷酸類似物在靶核酸序列中與不同的核苷酸互補(bǔ)。通過(guò)使用聚合酶來(lái)來(lái)以在活性位點(diǎn)將核苷酸類似物添加至核酸鏈,使生長(zhǎng)的核酸鏈延伸,其中被添加的核苷酸類似物在活性位點(diǎn)與靶核酸的核苷酸互補(bǔ)。對(duì)因聚合步驟的結(jié)果而被添加至寡核苷酸引物的核苷酸類似物進(jìn)行鑒定。重復(fù)提供標(biāo)記的核苷酸類似物、使生長(zhǎng)的核酸鏈聚合和鑒定所添加的核苷酸類似物的輪次,從而使得核酸鏈進(jìn)一步延伸,并且靶核酸的序列被測(cè)定。可利用所述方法的測(cè)序平臺(tái)的非限制性實(shí)例包括:來(lái)自Illumina的SBS平臺(tái),包括MiSeq系列、HiSeq系列、NextSeq系列和HiSeqX系列;IonTorrent(Life Technologies公司);以及454Pyrosquencing(454Life Sciences)?;旧先魏问褂媚0鍞U(kuò)增的SBS平臺(tái)都可用于執(zhí)行本公開(kāi)所述的方法。
在一個(gè)情況下,可用標(biāo)記的核苷酸例如具有標(biāo)記的dNTP來(lái)進(jìn)行測(cè)序。堿基可通過(guò)以下方式檢測(cè),在聚合酶的存在下經(jīng)由將雜交復(fù)合物順序地與標(biāo)記的dATP、dCTP、dGTP和dTTP中的一個(gè)接觸來(lái)延伸遞增的片段,并且檢測(cè)標(biāo)記的dATP、dCTP、dGTP和dTTP的摻合,以獲得每個(gè)反應(yīng)的序列讀段。
在一個(gè)實(shí)例中,使用標(biāo)記的dATP、dCTP、dGTP和dTTP的混合物。一般而言,由于修飾的dNTP(例如標(biāo)記的dNTP)的普遍的低摻合效率,僅前幾個(gè)堿基被延伸以產(chǎn)生強(qiáng)信號(hào)。“連綴”延伸的概率相當(dāng)?shù)?,并且使用本文提供的或本領(lǐng)域已知的方法,由此類“連綴”延伸產(chǎn)生的信號(hào)可作為噪聲被過(guò)濾掉。在一個(gè)實(shí)例中,使用標(biāo)記的ddATP、ddCTP、ddGTP和ddTTP的混合物,并且不允許“連綴”延伸。在一個(gè)實(shí)例中,僅一個(gè)涵蓋所有四種可能堿基的詢問(wèn)輪次被運(yùn)用于每個(gè)遞增的片段。例如,每個(gè)詢問(wèn)輪次中依次添加一個(gè)標(biāo)記的dNTP提供了每次(即,在每個(gè)基質(zhì)上)添加一個(gè)可檢測(cè)堿基的可能。這一般導(dǎo)致每個(gè)輪次可組裝的短讀段(例如一個(gè)堿基或幾個(gè)堿基)。在另一個(gè)實(shí)例中,使用多于一個(gè)的詢問(wèn)輪次產(chǎn)生長(zhǎng)讀段。
在另一個(gè)實(shí)例中,添加標(biāo)記的ddATP、ddCTP、ddGTP和ddTTP的混合物和少量(<10%(例如5、6、7、8或9%)或<20%(例如10、11、12、13、14、15、16、17、18或19%)的天然dATP、dCTP、dGTP和dTTP。
在一些情況下,標(biāo)記的核苷酸為可逆終止子??赏ㄟ^(guò)信號(hào)強(qiáng)度檢測(cè)多個(gè)堿基,或就可逆終止子而言,通過(guò)堿基添加檢測(cè)來(lái)檢測(cè)。核苷酸可逆終止子是核苷酸類似物,其用封端3'-OH基團(tuán)的可逆化學(xué)部分來(lái)修飾,以暫時(shí)終止聚合酶反應(yīng)。這樣一來(lái),一般將僅一個(gè)核苷酸摻合入生長(zhǎng)的DNA鏈中,即使是在同聚區(qū)中。例如,3'端可用氨基-2-羥丙基基團(tuán)封端。烯丙基或2-硝基芐基基團(tuán)也可用作可逆部分,以封端四種核苷酸的3'-OH??赡娼K止子的實(shí)例包括但不限于3'-O-修飾的核苷酸,例如3'-O-烯丙基-dNTP和3'-O-(2-硝基芐基)-dNTP。
在一些情況下,在檢測(cè)溶液探針上存在的切割位點(diǎn)之后,引物延伸產(chǎn)物的3'-OH通過(guò)不同的脫保護(hù)方法再生。DNA延伸產(chǎn)物的3'-OH上的封端部分可在由化學(xué)方法、酶促反應(yīng)或光分解作用檢測(cè)切割位點(diǎn)之后有效除去,即將從切割位點(diǎn)切下封端物。為了對(duì)DNA進(jìn)行測(cè)序,在一些情況下,將包含同聚區(qū)的模板固定在瓊脂糖珠上,并且然后通過(guò)在DNA珠上使用核苷酸可逆終止子來(lái)進(jìn)行延伸-信號(hào)檢測(cè)-脫保護(hù)循環(huán),以清楚地譯碼DNA模板的序列。在一些情況下,這種可逆-終止子-測(cè)序方法被用于受試者方法,以準(zhǔn)確測(cè)定DNA序列。(在本文中所述封端物可被稱作“保護(hù)基團(tuán)”。)
在一些情況下,本發(fā)明的多核苷酸可被標(biāo)記。在一些情況下,分子或化合物含有至少一個(gè)附接的可檢測(cè)標(biāo)記(例如同位素或化合物),以允許化合物的檢測(cè)。一般來(lái)說(shuō),本發(fā)明中使用的標(biāo)記包括但不限于同位素標(biāo)記(其可為放射性或重同位素)、磁性標(biāo)記、電性標(biāo)記、熱標(biāo)記、有色和發(fā)光染料、酶以及磁性顆粒。標(biāo)記可還包括金屬納米顆粒,例如重元素或大原子序數(shù)元素,其在電子顯微技術(shù)中提供高對(duì)比度。本發(fā)明中使用的染料可為生色團(tuán)、磷光體或熒光染料,由于它們的強(qiáng)信號(hào),可提供用于解碼的良好信噪比。
在一些情況下,標(biāo)記可包括熒光標(biāo)記的使用。本發(fā)明中使用的合適的染料包括但不限于熒光的鑭系元素復(fù)合物(包括銪和鋱的復(fù)合物)、熒光素、羅丹明(rhodamine)、四甲基羅丹明、伊紅、赤蘚紅、香豆素、甲基香豆素、芘、孔雀綠、均二苯乙烯、熒光黃(Lucifer Yellow)、級(jí)聯(lián)藍(lán)(Cascade Blue)、德克薩斯紅(Texas Red),以及在Richard P.Haugland的Molecular Probes Handbook第11版中描述的其他染料,所述文獻(xiàn)特此明白地以引用的方式全文并入。可商購(gòu)的易于摻合入標(biāo)記的寡核苷酸的熒光性核苷酸類似物包括,例如,Cy3-dCTP、Cy3-dUTP、Cy5-dCTP、Cy5-dUTP(GE Healthcare),熒光素-12-dUTP、四甲基羅丹明-6-dUTP、Texas-5-dUTP、Cascade-7-dUTP、FL-14-dUTP、R-14-dUTP、TR-14-dUTP、Rhodamine GreenTM-5-dUTP、Oregon488-5-dUTP、Texas-12-dUTP、630/650-14-dUTP、650/665-1 4-dUTP、Alexa488-5-dUTP、Alexa532-5-dUTP、Alexa568-5-dUTP、Alexa594-5-dUTP、Alexa546-1 4-dUTP、熒光素-12-UTP、四甲基羅丹明-6-UTP、Texas-5-UTP、Cascade-7-UTP、FL-14-UTP、TMR-14-UTP、TR-14-UTP、Rhodamine GreenTM-5-UTP、Alexa488-5-UTP以及Alexa546-1 4-UTP(Invitrogen)。其他合成后附接可用的熒光團(tuán)包括,尤其有,Alexa350、Alexa532、Alexa546、Alexa568、Alexa594、Alexa647、BODIPY 493/503、BODIPY FL、BODIPY R6G、BODIPY 530/550、BODIPY TMR、BODIPY 558/568、BODIPY 558/568、BODIPY 564/570、BODIPY 576/589、BODIPY 581/591、BODIPY 630/650、BODIPY 650/665、Cascade Blue、Cascade Yellow、Dansyl、麗絲胺羅丹明B、Marina Blue、Oregon Green 488、Oregon Green514、Pacific Blue、羅丹明6G、羅丹明綠、羅丹明紅、四甲基羅丹明、Texas Red(可從Invitrogen得到)以及Cy2、Cy3.5、Cy5.5和Cy7(GE Healthcare)。
用于信號(hào)檢測(cè)和強(qiáng)度數(shù)據(jù)處理的方法和裝置公開(kāi)于例如美國(guó)專利第5,143,854號(hào)、第5,547,839號(hào)、第5,578,832號(hào)、第5,631,734號(hào)、第5,800,992號(hào)、第5,834,758號(hào);第5,856,092號(hào)、第5,902,723號(hào)、第5,936,324號(hào)、第5,981,956號(hào)、第6,025,601號(hào)、第6,090,555號(hào)、第6,141,096號(hào)、第6,185,030號(hào)、第6,201,639號(hào)、第6,218,803號(hào)和第6,225,625號(hào)、第7,689,022號(hào)中以及WO99/47964中,這些中的每個(gè)也特此出于所有目的以引用的方式全文并入。用于DNA序列分析和讀段解讀的熒光成像和軟件程序或算法是本領(lǐng)域普通技術(shù)人員已知的,并且公開(kāi)于Harris TD等“Single-Molecule DNA Sequencing of a Viral Genome”Science,2008年4月4日:第320卷,第5872期,第106-109頁(yè)中,其以引用的方式全文并入本文。在一些情況下,Phred軟件被用于DNA序列分析。Phred讀取DNA測(cè)序儀蹤跡數(shù)據(jù)、識(shí)別堿基、對(duì)堿基賦予質(zhì)量值,并且將堿基識(shí)別和質(zhì)量值寫入至輸出文件。Phred是廣泛使用的用于堿基識(shí)別的DNA測(cè)序蹤跡文件的程序。Phred能從SCF文件和ABI型號(hào)373和377的DNA測(cè)序儀的chromat文件讀取蹤跡數(shù)據(jù),并且自動(dòng)檢測(cè)文件格式。在識(shí)別堿基之后,Phred將序列以FASTA格式(適合于XBAP的格式)、PHD格式或SCF格式寫入至文件。堿基的質(zhì)量值被寫入至FASTA格式文件或PHD文件,所述值能被phrap序列組裝程序使用,以便提高組裝序列的精確度。質(zhì)量值是對(duì)數(shù)轉(zhuǎn)換的誤差概率,明確來(lái)說(shuō)Q=-10log10(Pe),其中Q和Pe分別是質(zhì)量值和特定堿基識(shí)別的誤差概率。Phred質(zhì)量值已對(duì)準(zhǔn)確性和功率兩者作了徹底測(cè)試,以辨別正確與錯(cuò)誤的堿基識(shí)別。Phred能使用質(zhì)量值來(lái)執(zhí)行序列整理。
基于DNA聚合酶的測(cè)序反應(yīng)一般具有效率問(wèn)題。與非天然核苷酸(例如標(biāo)記的核苷酸或可逆終止子)的低摻合效率相比,天然核苷酸可以相對(duì)高的效率摻合。因此,在核苷酸延伸反應(yīng)的生長(zhǎng)鏈中,延長(zhǎng)的可能性隨著延伸長(zhǎng)度的變化而降低。因此,即使在單核苷酸摻合效率中輕微的差異也能隨著反應(yīng)繼續(xù)進(jìn)行而導(dǎo)致顯著的差異。降低的摻合效率導(dǎo)致增加的錯(cuò)誤率,并且因此降低沿生長(zhǎng)鏈的序列信息質(zhì)量。所得序列信息由相對(duì)短的序列讀段組成,所述讀段由于低到不能接受的正確序列信號(hào)而已終止。本發(fā)明提供在測(cè)序反應(yīng)中克服這種問(wèn)題的方法和組合物。
固定靶
在一些情況下,將核酸靶附接至基質(zhì)或固定在基質(zhì)上?;|(zhì)可為磁珠、平坦基質(zhì)、流動(dòng)池或其他合適的表面。在一些情況下,基質(zhì)包括玻璃。
在一些情況下,將靶核酸經(jīng)由捕獲探針附接或固定至基質(zhì)。捕獲探針為寡核苷酸,其附接至基質(zhì)表面,并且能夠與測(cè)序模板結(jié)合。捕獲探針可為各種長(zhǎng)度,例如18個(gè)堿基至100個(gè)堿基,例如20個(gè)堿基至50個(gè)堿基。
在一些情況下,捕獲探針含有與測(cè)序模板互補(bǔ)的序列。例如,如果本方法用于對(duì)至少部分序列已知的基因組進(jìn)行測(cè)序,則捕獲探針可設(shè)計(jì)為與已知序列互補(bǔ)。在一些情況下,捕獲探針與經(jīng)由例如特異性連接作為PCR反應(yīng)引物的一部分添加至測(cè)序模板的“條形碼”或“識(shí)別符”序列互補(bǔ)。在此類反應(yīng)中,將測(cè)序模板特異性引物和包括唯一條形碼的引物用于擴(kuò)增,因此所有具有相同序列的靶分子含有相同的附接條形碼。
捕獲探針可在5'端或3'端附接至基質(zhì)。在一些情況下,捕獲探針附接在5'端附接至基質(zhì),并且捕獲探針的3'端可通過(guò)摻合如本文描述的核苷酸來(lái)延伸,以產(chǎn)生遞增的延伸片段,可接著通過(guò)進(jìn)一步摻合標(biāo)記的核苷酸對(duì)所述片段進(jìn)行測(cè)序。在其他情況下,捕獲探針在3'端附接至基質(zhì),并且捕獲探針的5'端不能通過(guò)核苷酸的摻合來(lái)延伸。第二探針(或測(cè)序引物)與測(cè)序模板雜交,并且它的3'端通過(guò)如本文描述的核苷酸摻合來(lái)延伸,以產(chǎn)生遞增的延伸片段,可接著通過(guò)進(jìn)一步摻合標(biāo)記的核苷酸對(duì)所述片段進(jìn)行測(cè)序。在這種情況下,延伸朝向捕獲探針的方向。一般來(lái)說(shuō),測(cè)序引物與引入至直接從基因組DNA產(chǎn)生或從親本靶分子產(chǎn)生的測(cè)序模板末端的接頭雜交。因此,為“通用引物”的種子(seed)/測(cè)序引物可用于對(duì)不同的靶分子進(jìn)行測(cè)序。在一些情況下,使用對(duì)靶分子具有特異性的測(cè)序引物。
在一些情況下,捕獲探針在與測(cè)序模板結(jié)合之前固定在固體支撐物上。在一些情況下,捕獲探針的5'端附接至固體表面或基質(zhì)。捕獲探針可通過(guò)本領(lǐng)域已知的各種方法固定,包括但不限于共價(jià)交聯(lián)至表面(例如以光化學(xué)方法或以化學(xué)方法)、通過(guò)錨配體與相應(yīng)受體蛋白的相互作用(例如生物素-鏈霉親和素或地高辛-抗地高辛抗體)非共價(jià)附接至表面,或通過(guò)于錨核酸或核酸類似物雜交。錨核酸或核酸類似物具有對(duì)于測(cè)序模板充足的互補(bǔ)性(即,形成的雙鏈具有充足地高Tm),從而使得錨-測(cè)序模板-探針復(fù)合物將經(jīng)受住用以除去未結(jié)合靶和探針的嚴(yán)格洗滌,但它們不重疊于與探針?lè)戳x序列互補(bǔ)的靶位點(diǎn)。
在一些情況下,使用捕獲模板或靶核酸作為橋式擴(kuò)增的模板。在此類情況下,使用兩種或更多種不同的固定探針。在一些情況下,使用單分子模板以在基質(zhì)上通過(guò)橋式擴(kuò)增產(chǎn)生核酸簇。在一些情況下,核酸簇中的每個(gè)包含大致相同(>95%)的核酸類型,因?yàn)樗鼈冄苌詢H一個(gè)模板核酸。這種簇通常被稱作單分子簇。此類具有單分子簇的基質(zhì)可通過(guò)使用例如描述于Bently等,Accurate whole human genome sequencing using reversible terminator chemistry,Nature 456,53-59(2008)中的方法來(lái)生產(chǎn),或使用可商購(gòu)自例如Illumina公司(San Diego,CA)的試劑盒和儀器來(lái)生產(chǎn)。
然后,固定或附接的靶核酸可與一個(gè)引物(或多個(gè)引物)雜交。然后,添加處于適合緩沖液中的聚合酶,以與固定或附接的模板或靶核酸接觸。所述引物可直接作為測(cè)序引物使用。
測(cè)序系統(tǒng)
在另一個(gè)方面,本發(fā)明提供一種用于測(cè)序的系統(tǒng)。在一些情況下,通過(guò)系統(tǒng)執(zhí)行本文公開(kāi)的一個(gè)或多個(gè)測(cè)序方法,例如由用戶控制的自動(dòng)化測(cè)序系統(tǒng)儀器(例如圖8中用示意性示出)。在一些情況下,用戶控制可操作各種本發(fā)明的儀器裝置、液體處置設(shè)備或分析步驟的計(jì)算機(jī)。在一些情況下,使用計(jì)算機(jī)控制收集、處理或分析系統(tǒng)來(lái)控制、激活、開(kāi)始、繼續(xù)或終止如本文描述的方法的任何步驟或過(guò)程。在一些情況下,使用計(jì)算機(jī)設(shè)備來(lái)控制、激活、開(kāi)始、繼續(xù)或終止進(jìn)入和通過(guò)如本文描述的系統(tǒng)或裝置的流體或試劑的處置和/或運(yùn)動(dòng)、一個(gè)或多個(gè)試劑至一個(gè)或多個(gè)儲(chǔ)筒中的一個(gè)或多個(gè)腔室或多個(gè)腔室的處置或運(yùn)動(dòng)、數(shù)據(jù)的獲得或分析等。在一些情況下,將測(cè)序反應(yīng)的芯片布置在一個(gè)或多個(gè)儲(chǔ)筒中的一個(gè)或多個(gè)腔室/流動(dòng)池或多個(gè)腔室/流動(dòng)池中。芯片可包括提供用于測(cè)序反應(yīng)的位點(diǎn)的基質(zhì)。
在一些情況下,計(jì)算機(jī)是任何類型的計(jì)算機(jī)平臺(tái),例如工作站、個(gè)人計(jì)算機(jī)、服務(wù)器或任何其他現(xiàn)在的或未來(lái)的計(jì)算機(jī)。計(jì)算機(jī)通常包括已知部件,例如處理器、操作系統(tǒng)、系統(tǒng)存儲(chǔ)器、存儲(chǔ)器存儲(chǔ)設(shè)備,和輸入-輸出控制器、輸入-輸出設(shè)備,以及顯示設(shè)備。此類顯示設(shè)備包括提供視覺(jué)信息的顯示設(shè)備,這種信息通??蛇壿嬌虾?或物理上組織為像素陣列。在一些情況下,包括了圖形用戶界面(GUI)控制器,所述控制器包括各種用于提供圖形輸入和輸出界面的已知的或未來(lái)的軟件程序中的任一種。在一些情況下,GUI給用戶提供一個(gè)或多個(gè)圖形表示,并且被允許使用相關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員已知的選擇或輸入的方式經(jīng)由GUI來(lái)處理用戶輸入。
有關(guān)技術(shù)領(lǐng)域的普通技術(shù)人員將理解存在計(jì)算機(jī)部件的許多可能配置,并且未描述一些可能通常包括于計(jì)算機(jī)中的部件,例如高速緩沖存儲(chǔ)器、數(shù)據(jù)備份單元和許多其他設(shè)備。在本實(shí)例中,每個(gè)執(zhí)行核心可作為允許多個(gè)線程并行執(zhí)行的獨(dú)立處理器來(lái)執(zhí)行。
在一些情況下,處理器執(zhí)行操作系統(tǒng),所述操作系統(tǒng)例如來(lái)自Microsoft公司的WINDOWSTM類型的操作系統(tǒng)(例如WINDOWSTM XP)、來(lái)自Apple Computer公司的Mac OS X操作系統(tǒng)(例如7.5Mac OS X v10.4“Tiger”或7.6Mac OS X v10.5“Leopard”操作系統(tǒng))、可從許多廠商得到的或被稱作開(kāi)源的UNIXTM或Linux類型的操作系統(tǒng),或它們的組合。操作系統(tǒng)以眾所周知的方式與固件和硬件進(jìn)行交互,并且有利于處理器協(xié)調(diào)和執(zhí)行可能以各種程序語(yǔ)言編寫的各種計(jì)算機(jī)程序的功能。操作系統(tǒng)通常與處理器合作來(lái)協(xié)調(diào)和執(zhí)行其他計(jì)算機(jī)部件的功能。操作系統(tǒng)還提供調(diào)度、輸入-輸出控制、文件和數(shù)據(jù)管理、存儲(chǔ)器管理和通信控制以及相關(guān)服務(wù),所有服務(wù)都根據(jù)已知的技術(shù)。
在一些情況下,系統(tǒng)存儲(chǔ)器是各種已知的或未來(lái)的存儲(chǔ)器存儲(chǔ)設(shè)備。實(shí)例包括任何通??捎玫碾S機(jī)存取存儲(chǔ)器(RAM)、磁性介質(zhì)例如駐留硬盤或磁帶、光學(xué)介質(zhì)例如讀取和寫入壓縮盤或其他存儲(chǔ)器存儲(chǔ)設(shè)備。存儲(chǔ)器存儲(chǔ)設(shè)備可為各種已知的或未來(lái)的設(shè)備中的任一種,包括壓縮盤驅(qū)動(dòng)器、磁帶驅(qū)動(dòng)器、可移動(dòng)硬盤驅(qū)動(dòng)器、USB或閃存驅(qū)動(dòng)器、或軟盤驅(qū)動(dòng)器。所述類型的存儲(chǔ)器存儲(chǔ)設(shè)備通常從程序存儲(chǔ)介質(zhì)(未示出)讀取和/或?qū)懭?,例如分別讀取和/或?qū)懭牍獗P、磁帶、可移動(dòng)硬盤、USB或閃存驅(qū)動(dòng)器或軟盤。
在一些情況下,計(jì)算機(jī)程序產(chǎn)品據(jù)描述包括具有存儲(chǔ)于其中的控制邏輯(計(jì)算機(jī)軟件程序,包括程序代碼)的計(jì)算機(jī)可用介質(zhì)。所述控制邏輯在由處理器執(zhí)行時(shí)使處理器執(zhí)行本文所述的功能。在其他實(shí)施方案中,一些功能主要被實(shí)施于使用例如硬件狀態(tài)機(jī)的硬件中。對(duì)有關(guān)技術(shù)領(lǐng)域的技術(shù)人員而言,用于執(zhí)行本文所述功能的硬件狀態(tài)機(jī)的實(shí)施方法將是顯而易見(jiàn)的。
在一些情況下,輸入-輸出控制器包括各種用于接受和處理來(lái)自用戶的信息的已知設(shè)備中的任一種,無(wú)論所述用戶是人還是機(jī)器、無(wú)論是本地的還是遠(yuǎn)程的。此類設(shè)備包括例如調(diào)制解調(diào)卡、無(wú)線網(wǎng)卡、網(wǎng)絡(luò)接口卡、聲卡或其他類型的針對(duì)各種已知輸入設(shè)備中的任一種的控制器。輸入-輸出控制器的輸出控制器可包括針對(duì)各種用于將信息呈現(xiàn)給用戶的已知顯示設(shè)備中的任一種的控制器,無(wú)論所述用戶是人還是機(jī)器、無(wú)論是本地的還是遠(yuǎn)程的。在一些情況下,計(jì)算機(jī)的功能元件經(jīng)由系統(tǒng)總線與彼此通信。在替代性實(shí)例中,這種通信中的一些可使用網(wǎng)絡(luò)或其他類型的遠(yuǎn)程通信來(lái)完成。
在一些情況下,應(yīng)用與一個(gè)或多個(gè)服務(wù)器、一個(gè)或多個(gè)工作站和/或一個(gè)或多個(gè)儀器的一個(gè)或多個(gè)元件或進(jìn)程通信,并且接收來(lái)自所述一個(gè)或多個(gè)元件的指令或信息,或者控制所述一個(gè)或多個(gè)元件。在一些情況下,具有存儲(chǔ)于其上的應(yīng)用的具體實(shí)施方案的服務(wù)器或計(jì)算機(jī)位于本地或遠(yuǎn)程,并且與一個(gè)或多個(gè)額外的服務(wù)器和/或一個(gè)或多個(gè)其他計(jì)算機(jī)/工作站或儀器通信。在一些情況下,應(yīng)用能夠有數(shù)據(jù)加密/解密功能性。例如,出于數(shù)據(jù)安全性和機(jī)密性的目的,可能期望對(duì)數(shù)據(jù)、文件、與GUI相關(guān)的信息或其他可沿網(wǎng)絡(luò)傳輸至一個(gè)或多個(gè)遠(yuǎn)程計(jì)算機(jī)或服務(wù)器的信息進(jìn)行加密。
在一些情況下,應(yīng)用包括儀器控制特征,其中將個(gè)別類型或特定儀器(例如溫度控制設(shè)備、成像設(shè)備或流體處置系統(tǒng))的控制功能針對(duì)應(yīng)用而組織為插入型模塊。在一些情況下,儀器控制特征包括對(duì)一個(gè)或多個(gè)儀器的一個(gè)或多個(gè)元件的控制,例如,所述元件包括流體處理儀器、溫度控制設(shè)備或成像設(shè)備的元件。在一些情況下,儀器控制特征能夠從一個(gè)或多個(gè)儀器接收信息,所述信息包括實(shí)驗(yàn)或儀器狀態(tài)、處理步驟或其他有關(guān)信息。在一些情況下,儀器控制特征處于所述應(yīng)用的界面的元件的控制下。在一些情況下,經(jīng)由GUI中的一個(gè),用戶輸入期望的控制命令和/或接收儀器控制信息。
在一些情況下,自動(dòng)化測(cè)序系統(tǒng)由第一用戶控制,進(jìn)行本文所述的測(cè)序方法,分析如本文所述的原始數(shù)據(jù),組裝如本文所述的序列讀段,并且然后將測(cè)序信息發(fā)送至處在位置不同于第一用戶的遠(yuǎn)程第二用戶。
數(shù)據(jù)處理與數(shù)據(jù)分析
在一些情況下,用計(jì)算機(jī)進(jìn)行對(duì)靶多核苷酸序列的鑒定和對(duì)用以組裝基因組信息的序列的整合。在一些情況下,本發(fā)明包括被設(shè)計(jì)成經(jīng)由本發(fā)明所述方法來(lái)分析和組裝獲得的序列信息的計(jì)算機(jī)軟件或算法。
按照用于原位陣列的序列讀段解讀,在陣列特征中的讀段對(duì)應(yīng)于映射感興趣基因座的X-Y坐標(biāo)?!白x段”通常指的是衍生自原始數(shù)據(jù)的觀測(cè)序列,例如對(duì)應(yīng)于個(gè)別核苷酸的循環(huán)添加的檢測(cè)信號(hào)的次序。在一些情況下,為了質(zhì)量控制,在10-bp基因座處針對(duì)預(yù)期參考基因組序列檢查讀段。參考序列允許使用短的讀長(zhǎng)。然后,將通過(guò)質(zhì)量控制檢查的讀段進(jìn)行組合以在每個(gè)基因座產(chǎn)生共有序列。在一個(gè)實(shí)例中,每個(gè)感興趣基因座減去任何未通過(guò)質(zhì)量控制檢查的讀段存在10個(gè)唯一的探針。
按照用于“草坪(lawn)”方法的序列讀段解讀,所述讀段在表面(例如流動(dòng)池)上處于隨機(jī)定位。在一些情況下,為了質(zhì)量控制,在目標(biāo)基因座處對(duì)照預(yù)期參考基因組序列的子集檢查讀段。將通過(guò)質(zhì)量控制檢查的讀段映射至單個(gè)目標(biāo)基因座。然后,將對(duì)應(yīng)于每個(gè)基因座的讀段進(jìn)行組合以產(chǎn)生共有序列。在一些情況下,每10-bp基因座存在多于3,000個(gè)讀段。
序列讀段組裝
在一些情況下,本發(fā)明提供一種用于通過(guò)從基質(zhì)中的每個(gè)來(lái)組裝序列讀段以獲得靶分子序列信息的方法。由于例如上文所述的使用相同靶分子的相同捕獲探針的不同堿基延伸,序列讀段可通過(guò)一系列具有不同長(zhǎng)度的多核苷酸的堿基延伸來(lái)獲得。因而,它們代表靶分子序列的連續(xù)片段,并且可被組裝以提供靶分子的連續(xù)序列。
可使用計(jì)算機(jī)程序以在用于組裝的不同基質(zhì)上跟蹤從相同捕獲探針獲得的序列讀段。
在一些情況下,使用模板的唯一標(biāo)識(shí)符(例如模板定位或標(biāo)簽序列)來(lái)鑒定起源于單個(gè)模板的測(cè)序信息。重疊的序列信息可被縫合在一起,以產(chǎn)生來(lái)自單個(gè)模板的更長(zhǎng)的序列信息。在一些情況下,模板的互補(bǔ)物也被測(cè)序。在一些情況下,使用產(chǎn)生自模板和其互補(bǔ)物兩者的測(cè)序讀段來(lái)將測(cè)序信息縫合在一起。
性能
本文公開(kāi)的方法、試劑和試劑盒能改善核酸測(cè)序反應(yīng)的性能。在特定實(shí)例中,性能的改善涉及在測(cè)序反應(yīng)期間核酸分子同步化的改善。同步化的改善可涉及測(cè)序讀段質(zhì)量的改善。
測(cè)序反應(yīng)中的核酸分子同步化可由純潔度得分來(lái)度量。純潔度得分由以下公式定義:純潔度=I1/(I1+I2),其中I1是最強(qiáng)信號(hào)的強(qiáng)度(即,摻合的正確堿基),并且I2是第二強(qiáng)信號(hào)的強(qiáng)度(即,摻合的錯(cuò)誤堿基)。因此,純潔度得分是對(duì)在給定時(shí)間點(diǎn)摻合至生長(zhǎng)的測(cè)序產(chǎn)物的正確堿基的量比摻合至生長(zhǎng)的測(cè)序產(chǎn)物的正確堿基的量和錯(cuò)誤堿基的量的總和的比率的度量。純潔度得分是對(duì)于新生測(cè)序產(chǎn)物的簇來(lái)進(jìn)行計(jì)算的,并且是對(duì)發(fā)生于所述簇的相位移后/相位提前的程度的度量。純潔度得分可涉及測(cè)序循環(huán)的特定步驟,并且可根據(jù)測(cè)序反應(yīng)的持續(xù)時(shí)間而改變。例如,純潔度得分可在若干測(cè)序步驟之后例如在50個(gè)、100個(gè)、150個(gè)、200個(gè)或更多個(gè)測(cè)序步驟之后對(duì)于新生測(cè)序產(chǎn)物的簇進(jìn)行計(jì)算。純潔度得分一般將隨著測(cè)序產(chǎn)物變得更長(zhǎng)(即,更多測(cè)序產(chǎn)物變得脫離相位)而降低。本文提供的方法、試劑和試劑盒可通過(guò)改善生長(zhǎng)鏈的同步化來(lái)提高測(cè)序產(chǎn)物的簇的純潔度得分。在一些情況下,在執(zhí)行本公開(kāi)的方法之后,純潔度得分將為0.8、0.85、0.9、0.95、0.99,至多1.0。在一個(gè)實(shí)例中,在執(zhí)行如整個(gè)公開(kāi)內(nèi)容中所述的同步化循環(huán)之后,執(zhí)行本文所述方法之后的純潔度得分將為至少0.85或更高。一般而言,純潔度得分將在同步化循環(huán)之后提高。在執(zhí)行同步化循環(huán)之后,純潔度得分可提高10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、100%或大于100%。在一些情況下,純潔度得分至少提高20%。在其他情況下,純潔度得分至少提高35%。在其他情況下,純潔度得分至少提高50%。圖9描繪通過(guò)執(zhí)行本文提供的方法改善純潔度的實(shí)例。在同步化循環(huán)之前,鏈平均具有約0.7的純潔度得分,而在同步化循環(huán)(例如8個(gè)同步化步驟)之后,平均純潔度得分為約0.85。
在一些方面中,本文提供的方法和系統(tǒng)適用于增加靶核酸序列的測(cè)序讀段長(zhǎng)度。在一些情況下,在執(zhí)行同步化循環(huán)之后,靶核酸序列的測(cè)序讀段長(zhǎng)度有所增加。相對(duì)于不利用本文所述的同步化方法的測(cè)序方法而言,測(cè)序讀段長(zhǎng)度可能有所增加。在一些情況下,測(cè)序讀段長(zhǎng)度是通過(guò)產(chǎn)生具有更大精確度的更長(zhǎng)的測(cè)序讀段來(lái)增加。在一些情況下,所述方法和系統(tǒng)產(chǎn)生約300個(gè)、400個(gè)、500個(gè)、600個(gè)、700個(gè)、800個(gè)、900個(gè)、1000個(gè)或更多個(gè)堿基對(duì)的更長(zhǎng)的測(cè)序讀段。在一些情況下,讀段錯(cuò)誤率降低約50%、55%、60%、65%、70%、75%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%。
在一個(gè)方面中,邊合成邊測(cè)序(SBS)系統(tǒng)被配置來(lái)產(chǎn)生大于300個(gè)堿基對(duì)并且具有至少0.85或更大的純潔度得分的測(cè)序讀段。在另一個(gè)方面中,提供一種用于序列測(cè)定的方法,其中所述方法包括執(zhí)行邊合成邊測(cè)序(SBS)反應(yīng)以產(chǎn)生大于300個(gè)堿基對(duì)并且具有至少0.85或更大的純潔度得分的測(cè)序讀段。在另一個(gè)方面中,提供一種提高測(cè)序反應(yīng)的純潔度得分的方法,其中純潔度得分至少提高20%。在一些情況下,所述方法不涉及軟件。
試劑盒
進(jìn)一步提供試劑盒和試劑來(lái)執(zhí)行本文所述的方法。在一些情況下,提供用于靶核酸分子測(cè)序的試劑盒。所述試劑盒可包括一個(gè)或多個(gè)測(cè)序引物。一個(gè)或多個(gè)測(cè)序引物可與靶核酸分子雜交。在一些情況下,一個(gè)或多個(gè)測(cè)序引物可與出現(xiàn)在靶核酸上的一個(gè)或多個(gè)銜接子、索引或條形碼序列發(fā)生復(fù)性。在其他情況下,一個(gè)或多個(gè)測(cè)序引物可直接與靶核酸序列發(fā)生復(fù)性。所述試劑盒可還包括一個(gè)或多個(gè)標(biāo)記的核苷酸。一個(gè)或多個(gè)標(biāo)記的核苷酸已在上文中描述,并且可利用其執(zhí)行所述方法的一個(gè)或多個(gè)測(cè)序循環(huán)。在一些情況下,一個(gè)或多個(gè)標(biāo)記的核苷酸是熒光標(biāo)記的核苷酸。所述試劑盒可還包括一組或多組多達(dá)三種不同的核苷酸,所述多達(dá)三種不同的核苷酸選自由dATP、dTTP、dCTP和dGTP組成的組。在一些情況下,dUTP也可包括于所述組中。在一些情況下,所述組核苷酸是未標(biāo)記的核苷酸。一組或多組未標(biāo)記的核苷酸已在上文中描述,并且可利用其執(zhí)行所述方法的一個(gè)或多個(gè)同步化步驟。在一些情況下,一組或多組未標(biāo)記的核苷酸包括天然核苷酸。試劑盒可包括一個(gè)或多個(gè)以下組的未標(biāo)記核苷酸:dATP、dCTP和dGTP(“-T”),dATP、dTTP和dGTP(“-C”),dCTP、dGTP和dTTP(“-A”),以及dATP、dCTP和dTTP(“-G”)。替代地或另外,試劑盒可包括多組核苷酸,所述組核苷酸包括可逆終止子核苷酸和三種未標(biāo)記核苷酸(例如dATP、dCTP、dGTP和可逆終止子dTTP)。
試劑盒可還包括以下中的一個(gè)或多個(gè):聚合酶(例如DNA聚合酶)、焦磷酸酶、三磷酸腺苷雙磷酸酶、緩沖液或任何額外的適用于執(zhí)行本文所述方法的試劑。所述試劑盒可還包括描述試劑使用和如何執(zhí)行上文所述方法的說(shuō)明書。
實(shí)施例
給出以下實(shí)施例,目的在于例示本發(fā)明的各種實(shí)施方案,并且不意在以任何方式限制本發(fā)明。所述實(shí)施例與本文所述方法目前代表優(yōu)選實(shí)施方案,是示例性的并且不旨在限制本發(fā)明的范圍。本領(lǐng)域的技術(shù)人員將想到在由權(quán)利要求書的范圍所定義的本發(fā)明的精神內(nèi)所涵蓋的變化和其他用途。
實(shí)施例1-在SBS測(cè)序的100個(gè)輪次之后Inline+S同步化使測(cè)序鏈重調(diào)。
圖10和11描繪同步化方案的結(jié)果。簡(jiǎn)單地說(shuō),邊合成邊測(cè)序(SBS)反應(yīng)在MiSeq測(cè)序系統(tǒng)(Illumina)上執(zhí)行。在SBS測(cè)序的100個(gè)輪次之后,所述反應(yīng)被去封閉,用三磷酸腺苷雙磷酸酶引發(fā)所述反應(yīng),接著在37℃下進(jìn)行混合。接下來(lái),8個(gè)inline+S同步化步驟如下述執(zhí)行以使測(cè)序鏈重調(diào):(-A、-C、-G、-T、-G、-C、-A、-T)。同步化方案后接著是另一100個(gè)測(cè)序輪,接著是額外的8個(gè)inline+S同步化步驟,以及額外的25個(gè)測(cè)序輪。圖10描繪在每個(gè)步驟(x軸)針對(duì)每個(gè)核苷酸(y軸)測(cè)得的強(qiáng)度信號(hào)。第一inline+S方案導(dǎo)致平均10.2%的強(qiáng)度提高(A:11%、C:8.8%、G:11.7%和T:9.4%),而第二inline+S方案導(dǎo)致平均12.3%的強(qiáng)度提高(A:18.6%、C:13.2%、G:19.5%和T:10.8%)。圖11描繪在每個(gè)步驟(x軸)中測(cè)序讀段的質(zhì)量得分(y軸)。圖11對(duì)通過(guò)算法計(jì)算的所報(bào)道Illumina質(zhì)量得分(黑色線)與通過(guò)將數(shù)據(jù)與參考序列對(duì)齊計(jì)算的質(zhì)量得分(灰色線)進(jìn)行了比較。
實(shí)施例2-在SBS測(cè)序的110個(gè)輪次之后Inline+S同步化使測(cè)序鏈重調(diào)
圖12和13描繪同步化方案的結(jié)果。簡(jiǎn)單地說(shuō),邊合成邊測(cè)序(SBS)反應(yīng)在MiSeq測(cè)序系統(tǒng)(Illumina)上執(zhí)行。在SBS測(cè)序的110個(gè)輪次之后,所述反應(yīng)被去封閉,并且用三磷酸腺苷雙磷酸酶引發(fā)所述反應(yīng),接著在37℃進(jìn)行混合。接下來(lái),8個(gè)inline+S同步化步驟如下述執(zhí)行以使測(cè)序鏈重調(diào):(-A、-C、-G、-T、-G、-C、-A、-T)。同步化方案后接著是40個(gè)測(cè)序輪。然后,從測(cè)序產(chǎn)物的相反末端開(kāi)始重復(fù)測(cè)序和同步化方案。圖12描繪在每個(gè)步驟(x軸)針對(duì)每個(gè)核苷酸(y軸)測(cè)得的強(qiáng)度信號(hào)。第一inline+S方案導(dǎo)致平均12.2%的強(qiáng)度提高(A:15.0%、C:8.2%、G:17.0%和T:7.5%),而第二inline+S方案導(dǎo)致平均11.5%的強(qiáng)度提高(A:15.5%、C:4.6%、G:20.0%和T:6.0%)。圖13描繪在每個(gè)步驟(x軸)中測(cè)序讀段的質(zhì)量得分(y軸)。圖13對(duì)通過(guò)算法計(jì)算的所報(bào)道Illumina質(zhì)量得分(黑色線)與通過(guò)將數(shù)據(jù)與參考序列對(duì)齊計(jì)算的質(zhì)量得分(灰色線)進(jìn)行了比較。
實(shí)施例3-Inline+S同步化降低SBS測(cè)序的錯(cuò)誤率
圖14描繪在實(shí)施同步化方案之后錯(cuò)誤率的降低。簡(jiǎn)單地說(shuō),在PhiX測(cè)序控制器上的邊合成邊測(cè)序(SBS)反應(yīng)使用MiSeq測(cè)序系統(tǒng)(Illumina)執(zhí)行。在SBS測(cè)序的110個(gè)輪次之后,所述反應(yīng)被去封閉,并且用三磷酸腺苷雙磷酸酶引發(fā)所述反應(yīng),接著在37℃進(jìn)行混合。接下來(lái),8個(gè)inline+S同步化步驟如下述執(zhí)行以使測(cè)序鏈重調(diào):(-A、-C、-G、-T、-G、-C、-A、-T)。同步化方案后接著是40個(gè)測(cè)序輪。然后,從測(cè)序產(chǎn)物的相反末端開(kāi)始重復(fù)測(cè)序和同步化方案。
盡管本文已示出和描述了本發(fā)明的優(yōu)選實(shí)施方案,但對(duì)于本領(lǐng)域技術(shù)人員來(lái)說(shuō)將顯而易見(jiàn),此類實(shí)施方案僅作為實(shí)例提供。在不脫離本發(fā)明的情況下,本領(lǐng)域技術(shù)人員現(xiàn)將會(huì)想到眾多的變化、改變和替代。應(yīng)理解,本文所述的本發(fā)明的實(shí)施方案的各種替代方案可用于實(shí)行本發(fā)明。意圖在于,上文的權(quán)利要求書定義本發(fā)明的范圍,并且因此可涵蓋處于這些權(quán)利要求范圍內(nèi)的方法和結(jié)構(gòu)以及其等效物。