專利名稱:測序反應(yīng)中堿基的有效確定的制作方法
測序反應(yīng)中堿基的有效確定相關(guān)申請的交叉引用本申請要求2007年12月5日提交的美國專利申請60/992,485、2008年2月5 日提交的61/026,337、2008年3月12日提交的61/035,914、2008年6月13日提交的 61/061,134,2008 年 11 月 19 日提交的 61/116,193,2008 年 10 月 3 日提交的 61/102,586、 2008年11月5日提交的12/265,593以及2008年11月6日提交的12/266,385的優(yōu)先權(quán), 上述專利申請均通過引用全文并入本文。
背景技術(shù):
大規(guī)模基因組序列分析是有助理解多種生物現(xiàn)象的一個關(guān)鍵步驟。對低費用、高 通量的測序和再測序的需求導(dǎo)致了新的測序方法的開放,這些方法采用了同時對多個核酸 目標(biāo)物的平行分析。常規(guī)的測序方法通常局限于在信號明顯降解之前可以確定幾十個核苷酸,因此整 個測序效率受到很大的限制。常規(guī)測序方法還經(jīng)常受限于信噪比,使得這類方法不適合用 于單分子測序。如果可以設(shè)計出能夠提高測序反應(yīng)效率以及由較短閱讀長度組裝成完整序列的 效率的方法和組合物,整個領(lǐng)域?qū)@益良多。發(fā)明概述相應(yīng)地,本發(fā)明提供了測序反應(yīng)方法和組合物。本發(fā)明的一個方面提供了確定靶核酸的序列的方法。該方法包括以下步驟(a) 提供測序模板,所述模板包含靶核酸片段和含有至少第一錨定位點(anchor site)的銜接 子(adaptor) ; (b)使錨定探針雜交至錨定位點,所述錨定探針包含與銜接子位點互補的區(qū) 域以及三個或更多個結(jié)合靶核酸序列的簡并堿基;(c)與測序探針集合進行雜交以便確定 相對銜接子的確定位點中的一或多個核苷酸的序列,其中所述測序探針被可檢測地標(biāo)記從 而可以鑒定到存在的特定堿基;(d)連接錨定探針和測序探針;和(e)檢測測序探針,從而 確定靶核酸的序列。本發(fā)明另一方面提供了確定包含多個檢測位點的靶序列中某個檢測位點的第一 核苷酸的身份的方法。該方法包括以下步驟(a)提供帶有多個多聯(lián)體(concatemers)的表 面,其中每個多元體包含多個單體,每個單體包含(i)包含第一組靶檢測位點的靶序列的 第一靶結(jié)構(gòu)域;(ii)至少第一銜接子,其包含(1)第一錨定位點和(2)第二相鄰錨定位點; (b)使第一錨定探針雜交至第一錨定位點;(c)使第二錨定探針雜交至第二錨定位點,其中 第二錨定探針還與第二錨定位點之外的序列雜交;(d)使至少第一測序探針與第一靶結(jié)構(gòu) 域雜交,其中所述第一測序探針包含(i)與靶結(jié)構(gòu)域互補的第一探針結(jié)構(gòu)域;(ii)位于第 一詢問位點的獨特核苷酸;以及(iii)標(biāo)記物;雜交條件是如果所述獨特核苷酸與第一核 苷酸互補,則測序探針與多元體雜交;(e)連接錨定探針和測序探針;和(f)鑒定第一核苷 酸。附圖簡述
圖1示意了將核酸碎成片段的方法的實施方案。
圖2示意了與長片段閱讀(LFR)技術(shù)相關(guān)的本發(fā)明實施方案。圖2A顯示了通過 標(biāo)準(zhǔn)多重置換擴增法(MDA)將核酸碎成片段的方法。圖2B顯示通過利用5’核酸外切酶進 行的多重置換擴增法將核酸碎成片段的方法。圖2C是整個LFR過程的實施方案的示意圖。圖3示意了用于發(fā)明所述方法的條形碼銜接子設(shè)計的實施方案。圖4示意了利用切口平移法將核酸碎成片段的發(fā)明實施方案。圖5示意了可以用于本發(fā)明的實施方案的銜接子。圖5A提供了四種不同的銜接 子序列。圖5B顯示了本發(fā)明的銜接子設(shè)計中可以包含的不同成分。圖6示意了本發(fā)明中制備包含多個銜接子的環(huán)狀核酸模板的實施方案。圖7示意了本發(fā)明中控制銜接子插入靶核酸的方向的實施方案。圖8示意了示范性的實施方案,其中銜接子和靶核酸分子可以以不同方向相互連 接。圖9示意了組裝發(fā)明所述核酸模板的方法的一個方面。圖10示意了可以用于控制銜接子插入靶核酸的方式的銜接子成分。圖11示意了將銜接子插入靶核酸的臂連臂連接過程的實施方案。圖IlA顯示了 臂連臂連接過程的示范性實施方案,圖IlB顯示了用于該過程的銜接子臂的示范性成分。圖12示意了可能的銜接子插入方向。圖13示意了切口平移連接法的一個實施方案。圖14示意了插入多個銜接子的方法的一個實施方案。圖15示意了切口平移連接法的一個實施方案。圖16示意了切口平移連接法的一個實施方案。圖 17 示意了利用切 口平移環(huán)反轉(zhuǎn)(nick translation circle inversion)(圖 17A)以及切口平移環(huán)反轉(zhuǎn)結(jié)合尿嘧啶降解(圖17B)進行的切口平移連接法的一個實施方案。圖18示意了切口平移連接法的實施方案。圖19示意了插入多個銜接子的方法的一個實施方案。圖20示意了插入多個銜接子的方法的一個實施方案。圖21示意了插入多個銜接子的方法的一個實施方案。圖22示意了插入多個銜接子的方法的一個實施方案。圖23示意了復(fù)合探針_錨定分子連接法的一個實施方案。圖24示意了復(fù)合探針_錨定分子連接法的一個實施方案。圖25示意了復(fù)合探針_錨定分子連接法的一個實施方案。圖26示意了復(fù)合探針_錨定分子連接法的一個實施方案。圖27的圖形是利用雙重復(fù)合在特定位點每個堿基達到的熒光強度水平。圖28的圖形是利用復(fù)合探針_錨定分子連接法在被詢問位點獲得的數(shù)據(jù)擬合度 打分。圖29的圖形是利用單一和雙重復(fù)合探針_錨定分子連接法在不同時間點單個堿 基詢問獲得的熒光強度水平。圖30的圖形是利用單一復(fù)合探針_錨定分子連接法在不同時間點單堿基詢問獲 得的數(shù)據(jù)擬合度打分。
圖31的圖形是與單一復(fù)合探針-錨定分子連接法相比,利用多種第二錨定探針在 雙重復(fù)合探針-錨定分子連接法中,不同位點達到的熒光強度水平。圖32的圖形是與單一復(fù)合探針_錨定分子連接法相比,利用多種第二錨定探針在 雙重復(fù)合探針_錨定分子連接法中,不同位點獲得的數(shù)據(jù)擬合度打分。圖33的圖形顯示了與單一復(fù)合探針_錨定分子連接法相比,利用多種第二錨定探 針在雙重復(fù)合探針-錨定分子連接法中,不同位點獲得的熒光強度水平。圖34的圖形顯示了利用各種不同長度的第一錨定探針在雙重復(fù)合探針-錨定分 子連接法中,不同位點得到的數(shù)據(jù)擬合度打分。圖35的圖形顯示了在有激酶的情況下,于不同溫度利用雙重復(fù)合探針-錨定分子 連接法,特定位點上每個堿基得到的熒光強度水平。圖36的圖形顯示了在有激酶的情況下,于不同溫度利用雙重復(fù)合探針-錨定分子 連接法,特定位點得到的數(shù)據(jù)擬合度打分。圖37的圖形顯示了在有激酶的情況下,不同激酶保溫時間下,利用雙重復(fù)合探 針_錨定分子連接法,特定位點上每個堿基得到的熒光強度水平。圖38的圖形顯示了在有激酶的情況下,不同激酶保溫時間下,利用雙重復(fù)合探 針_錨定分子連接法,特定位點得到的數(shù)據(jù)擬合度打分。發(fā)明詳述除非另外說明,可以采用有機化學(xué)、高分子技術(shù)、分子生物學(xué)(包括重組技術(shù))、 細(xì)胞生物學(xué)、生物化學(xué)和免疫學(xué)領(lǐng)域內(nèi)的常規(guī)技術(shù)和描述來實施本發(fā)明。這些常規(guī)技術(shù) 包括高分子陣列合成、雜交、連接和利用標(biāo)記物檢測雜交。參考下文中的實施例可以得到 對適宜技術(shù)的詳盡闡述。當(dāng)然也可以使用其他等同的常規(guī)程序。這類常規(guī)技術(shù)和描述 可見于標(biāo)準(zhǔn)的實驗室手冊,比如 Genome Analysis :A Laboratory Manual Series (Vols. I-IV) > Using Antibodies :A Laboratory Manual、Cells :A Laboratory Manual、PCR Primer :ALaboratory Manual 以及 Molecular Cloning :A Laboratory Manual (均由 Cold Spring Harbor Laboratory Press 出片反)、Stryer, L. (1995)Biochemistry(4th Ed.) Freeman, New York、Gait,"Oligonucleotide Synthesis :A Practical Approach,,1984, IRL Press, London、Nelson and Cox(2000), Lehninger, Principles ofBiochemistry 3rd Ed. , W. H. Freeman Pub. , New York, N. Y. \)JsR Berg et al. (2002) Biochemistry, 5th Ed., W. H. Freeman Pub.,New York, N. Y.,全部通過引用并入本文。注意本文中和隨附的權(quán)利要求中,單數(shù)形式的“一個/ 一種”(“a"、“ an" 和"the")包括復(fù)數(shù)指稱對象,除非上下文清楚地另有說明。因此,例如,提及“聚合酶” 是指一種試劑或者這類試劑的混合物,提及“方法”包括本領(lǐng)域技術(shù)人員已知的等同步驟和
方法,等等。除非另外定義,文中使用的所有技術(shù)和科學(xué)名詞與本發(fā)明所屬領(lǐng)域的普通技術(shù)人 員通常理解的含義相同。文中提及的所有出版物通過引用并入本文,以便于描述和公開這 些出版物中描述過的并且可能用在這里描述的發(fā)明中的裝置、組合物、制劑和方法學(xué)。在提供了數(shù)值范圍的情況中,應(yīng)當(dāng)理解為除非上下文清楚地另有說明,該范圍中 上限和下限之間的每個居間數(shù)值,到該下限的第十個單位處,以及所聲稱的范圍內(nèi)的任何 其他提到的數(shù)值或居間數(shù)值,均包含在發(fā)明內(nèi)。這些較小范圍的上限和下限可以獨立包含
6在這些較小范圍內(nèi),它們也涵蓋在本發(fā)明內(nèi),受限于所述范圍中任何具體排除的限值。當(dāng)所 聲稱的范圍包括上下限之一或兩者時,排除了上下限之一種或兩者的范圍也涵蓋在本發(fā)明 內(nèi)。在以下描述中,給出了大量細(xì)節(jié)以便更全面地理解本發(fā)明。但是,對本領(lǐng)域技術(shù)人 員,很顯然可能不需要這些細(xì)節(jié)中的一種或多種即可實施本發(fā)明。其他情況中,那些本領(lǐng)域 技術(shù)人員熟知的特性和程序未做描述以避免使本發(fā)明含混不清。盡管主要通過參考具體的實施方案對本發(fā)明進行了描述,可以想象得到在閱讀了 本公開文本后,其他實施方案對本領(lǐng)域技術(shù)人員也將是顯而易見的,在本發(fā)明方法中也意 圖包含這類實施方案。I.概述本發(fā)明涉及用于核酸鑒定和檢測的組合物和方法,如本文所述,這些組合物和方 法在大量應(yīng)用中都有用途。利用本發(fā)明的組合物和方法給靶核酸測序的完整方法包括從樣品中提取靶核酸 并使之碎成片段。片段化的合適被用于制備通常包含一或多個銜接子的靶核酸模板。將靶 核酸模板用于擴增方法以形成核酸納米球,這些納米球一般被安置在表面上。在本發(fā)明的 核酸納米球上進行測序應(yīng)用,通常是通過包括復(fù)合探針_錨定分子連接(“cPAL”)法的連 接技術(shù)進行的測序,這在下文中有更詳細(xì)的描述。cPAL和其他測序方法還可以用于檢測特 定序列,例如本發(fā)明的核酸構(gòu)建體(包括核酸納米球和線性以及環(huán)狀的核酸模板)中的單 核苷酸多態(tài)性(“SNPs”)。II.制備基因組核酸片段如下文進一步討論的,本發(fā)明的核酸模板包含靶核酸和銜接子。為了獲得用于構(gòu) 建本發(fā)明的核酸模板的靶核酸,本發(fā)明提供了從樣品中獲取基因組核酸的方法,以及將這 些基因組核酸片段化的方法,片段化得到的片段將被用在構(gòu)建本發(fā)明的核酸模板的后續(xù)方 法中。IIA.制備基因組核酸片段的概述利用本領(lǐng)域已知的方法可以從樣品中獲取靶核酸。可以理解,樣品可能包含任何 數(shù)量的物質(zhì),包括但不限于,體液(包括但不限于幾乎任何生物體的血液、尿、血清、淋巴 液、唾液、肛門和陰道分泌物、汗和精液,優(yōu)選哺乳動物樣品,尤其優(yōu)選人的樣品);環(huán)境樣 品(包括但不限于,空氣、農(nóng)業(yè)、水和土壤樣品);生物戰(zhàn)劑樣品;研究樣品(即,對于核酸, 樣品可以是擴增反應(yīng)的產(chǎn)物,包括象PCT/US99/01705中大概描述的目標(biāo)和信號擴增,比如 PCR擴增反應(yīng)的產(chǎn)物);純化的樣品,比如純化的基因組DNA、RNA、蛋白等;粗樣品(細(xì)菌、病 毒、基因組DNA等),正如本領(lǐng)域技術(shù)人員能夠理解的,可以對樣品進行幾乎任何試驗操作。 一個方面中,本發(fā)明的核酸構(gòu)建體形成自基因組DNA。在某些實施方案中,基因組DNA從全 血或來自全血或細(xì)胞培養(yǎng)物的細(xì)胞制備物中獲得。在示范性實施方案中,基因組DNA分離自靶生物體?!鞍猩矬w”意味著目標(biāo)生物 體,正如可以理解的,該名詞包含可以從中獲得核酸的任何生物體,尤其是哺乳動物,包括 人,盡管在某些實施方案中,靶生物體是病原體(例如要檢測細(xì)菌或病毒感染時)。由靶生 物體獲得核酸的方法是本領(lǐng)域已知的。包含人基因組DNA的樣品在許多實施方案中都有 用。在某些方面,比如全基因組測序,優(yōu)選獲得等同于大約20個到約1,000, 0000或更多個基因組的DNA以保證靶DNA片段群足以涵蓋整個基因組。獲得的基因組等同物的數(shù)量可能 部分取決于本發(fā)明中進一步制備基因組DNA片段所使用的方法。例如,在下文中進一步描 述的長片段閱讀法中,通常使用約20到約50個基因組的等同物。對于同樣在下文進一步 描述的利用多重置換擴增的方法,通常使用約1000到約100,000個基因組的等同物。對于 那些在片段化前不進行擴增的方法,使用大約100,000到大約1,000, 000個基因組的等同 物。利用常規(guī)技術(shù),例如 Sambrook and Russell, Molecular Cloning :ALaboratory Marumlcited(同前)中公開的技術(shù)分離靶基因組DNA。然后通過包括酶消化、剪切或超聲 波破碎的常規(guī)技術(shù)(后兩種技術(shù)尤其適用于本發(fā)明)將靶基因組DNA分割或者片段化。靶核酸的片段大小根據(jù)所來源的靶核酸以及使用的文庫構(gòu)建方法而不同,但一般 長度在50到600個核苷酸的范圍內(nèi)。在另一個實施方案中,片段長300到600個或者200到 2000個核苷酸。在再一個實施方案中,片段長10-100、50-100、50-300、100-200、200-300、 50-400,100-400,200-400,300-400,400-500,400-600,500-600,50-1000,100-1000, 200-1000、300-1000、400-1000、500-1000、600-1000、700-1000、700-900、700-800、 800-1000、900-1000、1500-2000、1750-2000 和 50-2000 個核苷酸。在另一個實施方案中,分離特定大小或特定大小范圍內(nèi)的片段。這類方法是本領(lǐng) 域已知的。例如,可以利用凝膠分級來制備某堿基對范圍內(nèi)特定大小的片段群,例如500堿 基對士 50堿基對。許多情況中,不需要對提取的DNA進行酶消化,因為裂解和提取過程中形成的剪 切力會產(chǎn)生所需大小范圍的片段。在另一個實施方案中,可以利用限制性內(nèi)切核酸酶通過 酶片段化產(chǎn)生較短的片段(l_5kb)。在再一個實施方案中,等同大約10到約1,000,000個 基因組的DNA保證片段群覆蓋整個基因組。因此含有由這些片段群產(chǎn)生的核酸模板的文庫 將包含靶核酸,而所述靶核酸的序列一經(jīng)鑒定和組裝能夠提供整個基因組的大部分或全部 序列。某些情況中,當(dāng)僅有少量樣品DNA并且還有可能由于與例如容器壁等的非特異結(jié) 合而損失DNA時,提供載體DNA (例如無關(guān)的環(huán)狀合成雙鏈DNA)與樣品DNA混合并使用是 有益的。一個實施方案中,DNA在片段化后被變性從而產(chǎn)生單鏈片段。一個實施方案中,片段化后(實際上在本文概括的任何步驟之前或之后),可以 對片段化的核酸群進行擴增步驟以保證全部片段有足夠大的濃度提供給隨后的步驟,以產(chǎn) 生本發(fā)明的修飾的核酸和利用這些核酸獲取序列信息。這類擴增方法是本領(lǐng)域已知的, 包括但不限于聚合酶鏈?zhǔn)椒磻?yīng)(PCR)、連接酶鏈?zhǔn)椒磻?yīng)(有時被稱為寡核苷酸連接酶擴 增0LA)、環(huán)狀探針技術(shù)(CPT)、鏈置換法(SDA)、轉(zhuǎn)錄介導(dǎo)的擴增(TMA)、基于核酸序列的擴 增(NASBA)、滾環(huán)擴增(RCA)(用于環(huán)化的片段)以及有創(chuàng)切割技術(shù)(invasive cleavage technology)。另一個實施方案中,片段化后,將靶核酸進一步修飾以備根據(jù)發(fā)明所述方法給它 們插入多個銜接子。需要進行這類修飾是因為片段化的過程有可能使產(chǎn)生的靶核酸所帶有 的末端無法進行插入銜接子要使用的程序,尤其是使用諸如連接酶和聚合酶的酶類。對于 文中概述的所有步驟,這個步驟是任選的,可以與任何步驟組合。
在示范性實施方案中,物理片段化后,靶核酸經(jīng)常含有平末端和突出末端的組合, 以及磷酸和羥基化學(xué)物質(zhì)末端。在該實施方案中,靶核酸用幾種酶處理從而形成帶有特定 化學(xué)物質(zhì)的平末端。在一個實施方案中,利用聚合酶和dNTPs將突出末端的5’單鏈填平形 成平末端。用具有3’核酸外切酶活性的聚合酶(通常但也不總是與具有5’核酸外切酶活 性的聚合酶是一樣的,比如T4聚合酶)除去3’突出端。合適的聚合酶包括,但不限于T4聚 合酶、Taq聚合酶、大腸桿菌DNA聚合酶1、Klenow片段、逆轉(zhuǎn)錄酶、Φ 29相關(guān)的聚合酶(包 括野生型Φ 29聚合酶和該聚合酶的衍生物)、T7DNA聚合酶、T5DNA聚合酶、RNA聚合酶。這 些技術(shù)可以用于產(chǎn)生具有多種用途的平末端。在另外的任性實施方案中,末端的化學(xué)物被改變以避免靶核酸相互連接。例如,除 了聚合酶,還可以在產(chǎn)生平末端的過程中使用蛋白激酶,利用其3’磷酸酶活性將3’磷酸基 團轉(zhuǎn)化為羥基基團。這類激酶包括但不限于諸如T4激酶的商品激酶,以及還沒有商業(yè)產(chǎn)品 但具有所需活性的激酶。類似地,可以利用磷酸酶將末端的磷酸基團轉(zhuǎn)化為羥基基團。合適的磷酸酶包括, 但不限于堿性磷酸酶(包括小牛腸堿件磷酸酶(CIP))、AntarcticPhosrDhatase、腺苷三磷 酸雙磷酸酶(Apyrase)、焦磷酸酶^UMSl熱穩(wěn)定無機焦磷酸酶等,這些酶是本領(lǐng)域已 知的,并且可以從例如New England Biolabs購買到。如圖16所示,這些修飾能夠防止靶核酸在發(fā)明所述方法中后面的步驟里相互連 接,因此保證了在將銜接子(和/或銜接子臂)連接到靶核酸末端的步驟中,靶核酸會與銜 接子而不是其他靶核酸連接。優(yōu)選靶核酸1601和1602與銜接子1603和1604以所需方向 連接(如該圖所示,所需方向是那種具有相同形狀(圓形或方形)的末端連接在一起的方 向)。將末端修飾以避免不希望的構(gòu)型1607、1608、1609和1610,這幾種構(gòu)型中靶核酸相互 連接,銜接子相互連接。此外,如下文將詳細(xì)討論的,還可以通過控制銜接子和靶核酸末端 的化學(xué)物質(zhì)來控制每次銜接子-靶核酸連接的方向??刂颇┒嘶瘜W(xué)成分可以通過本領(lǐng)域已 知的和本文描述的方法來實現(xiàn)。本領(lǐng)域技術(shù)人員可以理解,對于文中概述的所有步驟,可以任何方式地組合使用 這些步驟和酶。例如,某些酶法片段化技術(shù),比如使用限制性內(nèi)切酶,可能使得這些酶法“末 端修補”步驟中的一種或多種成了多余的。以上描述的修飾可以防止形成含有以未知構(gòu)型連接的不同片段的核酸模板,因此 減少了和/或消除了由這類不希望的模板造成的序列鑒定和組裝中的錯誤。某些情況中,級聯(lián)片段化方法與本文描述的任意酶學(xué)或機械片段化方法組合使 用。這類方法在美國專利申請11/451,692和已出版的PCT申請WO 2006/138284中有描述, 這兩份文獻通過引用全部并入本文,尤其是與級聯(lián)片段化相關(guān)的所有教導(dǎo)。在某些實施方案中,受控的隨機酶促(“CORE”)片段化方法被用于制備發(fā)明中使 用的片段。C0RE片段化是酶促終點法,具有酶學(xué)片段法的優(yōu)點(比如可以用于低量和/或 小體積),而沒有它的許多缺陷(包括對底物或酶濃度變化的敏感性以及對消化時間的敏 感性)。簡而言之,CoRE片段化涉及一系列的三個酶促步驟,如圖1所示。首先,在有dNTPs 的情況下,將核酸101進行酶催化的多重置換擴增(MDA),其中dNTPs中加入了與dTTP成一 定比例的dUTP或UTP。這導(dǎo)致擴增產(chǎn)物的兩條鏈上的T以一定的和可控的比例被脫氧尿嘧 啶(“dU”)或尿嘧啶(“U”)所取代(103)。然后一般是通過UDG、End0VIII和T4PNK聯(lián)用將U部分切除(104),產(chǎn)生帶有功能性5’磷酸和3’羥基端的單堿基缺口(105)。產(chǎn)生單堿 基缺口的平均間隔由MDA產(chǎn)物中U的出現(xiàn)頻率決定。用聚合酶處理帶有缺口的核酸(105) 導(dǎo)致切口平移直至相反鏈上的切口匯合到一點,從而形成雙鏈斷裂,得到大小相對勻一的 雙鏈片段群(107)。因為雙鏈片段(107)的大小分布是由MDA反應(yīng)中使用的dTTP與DUTP 或UTP的比率決定的,而不是酶處理的時長或程度決定的,這種CoRE片段化方法的片段化 具有高度重復(fù)性。在某些情況中,尤其是希望分離到長片段(比如長約150到約750kb)的情況,本 發(fā)明提供的方法中細(xì)胞被裂解,通過溫和的離心步驟將完整細(xì)胞核沉淀。經(jīng)由利用例如蛋 白酶K和RNase消化幾小時的酶消化釋放基因組核酸,通常是基因組DNA。然后將得到的物 質(zhì)過夜透析或者直接稀釋以降低殘留細(xì)胞廢物的濃度。由于這類分離核酸的方法不包含許 多破壞性的過程(比如乙醇沉淀、離心和漩渦混勻),基因組核酸可以保持基本完整,得到 多數(shù)超過150kb的片段。某些情況中,與上面描述的片段化方法組合,本發(fā)明還提供了將基因組核酸片段 群分成小份的方法,這就使得能夠重構(gòu)二倍體基因組,例如鑒定父本和母本染色體或序列。 這比現(xiàn)有技術(shù)具有明顯優(yōu)勢。在該實施方案中,將基因組片段分成小份,使核酸被稀釋到每份含有大約10%單 倍體基因組的濃度。在這一稀釋水平,每個特定小份中大約95%的堿基對是沒有重疊的。 這種分小份的方法,文中又稱為長片段閱讀(LFR)片段化方法,在特定實施方案中可以用 于根據(jù)以上和文中進一步描述的方法分離到的大分子量的片段。圖2C中示意了 LFR方法 的一個實例。LFR通常一開始是用5’核酸外切酶將基因組核酸,一般是基因組DNA做短時 處理,產(chǎn)生3’單鏈突出。這種單鏈突出作為多重置換擴增(MDA)的起始位點(圖2A)。然 后將5’核酸外切酶處理過的DNA稀釋到亞基因組濃度,分成許多小份,一般是分到多孔板 上的多個孔中。將每個孔中的片段擴增,一般是利用標(biāo)準(zhǔn)MDA法(圖2A)和/或使用核酸 外切酶的MDA法(圖2B)。某些情況中,擴增方法給片段引入了尿嘧啶部分,因此在擴增后 可以利用以上描述的CoRE方法將每個孔中的片段進一步片段化。還可以通過超聲波或酶 處理將MDA產(chǎn)物片段化。一般來說,MDA產(chǎn)物片段化后,將所得片段的末端通常用T4聚合 酶和T4多核苷酸激酶修復(fù)。然后用堿性磷酸酶處理片段,給片段帶上銜接子標(biāo)簽。通常, 標(biāo)簽銜接子臂被設(shè)計成有兩個區(qū)段,一個區(qū)段是所有孔共有的,利用文中進一步描述的方 法直接通過平末端連接與片段連接。第二個區(qū)段是每個孔特有的,含有“條形碼”序列,因 此當(dāng)每個孔的內(nèi)容物結(jié)合起來,可以鑒定出每個孔的片段。圖3顯示了發(fā)明這一方面,可以 給片段添加的某些示范性的條形碼銜接子。某些情況中,利用LFR方法分析單個細(xì)胞的基因組。這種情況中分離DNA的過程 與以上描述的方法類似,但在更小體積進行。DNA —旦分離好,在分到各個小孔之前,必須 小心地將基因組DNA片段化以避免材料的損失,特別是避免丟失每個片段的末端序列,因 為丟失這種材料會導(dǎo)致最后的基因組組裝存在缺口。某些情況中,通過使用罕見切口酶來 避免序列的丟失,所述切口酶產(chǎn)生相距大約IOOkb的聚合酶(比如phi29聚合酶)起始位 點。隨著聚合酶產(chǎn)生新的DNA鏈,舊鏈被置換,最后的結(jié)果是聚合酶起始位點附近存在著重 疊序列(圖4),使得序列缺少很少。某些情況中,當(dāng)僅有少量樣品DNA并且還有可能由于與例如容器壁等的非特異結(jié)
10合而損失DNA時,提供載體DNA (例如無關(guān)的環(huán)狀合成雙鏈DNA)與樣品DNA混合并使用是 有益的。在一個實施方案中,片段化后將DNA變性從而產(chǎn)生單鏈片段。在一個實施方案中,片段化后(實際上在本文概括的任何步驟之前或之后),可 以對片段化的核酸群進行擴增步驟以保證全部片段有足夠大的濃度提供給隨后的步驟,以 產(chǎn)生本發(fā)明的修飾的核酸和利用這些核酸獲取序列信息。這類擴增方法是本領(lǐng)域已知的, 包括但不限于聚合酶鏈?zhǔn)椒磻?yīng)(PCR)、連接酶鏈?zhǔn)椒磻?yīng)(有時被稱為寡核苷酸連接酶擴增 0LA)、環(huán)狀探針技術(shù)(CPT)、鏈置換法(SDA)、轉(zhuǎn)錄介導(dǎo)的擴增(TMA)、基于核酸序列的擴增 (NASBA)、滾環(huán)擴增(RCA)(用于環(huán)化的片段)以及有創(chuàng)切割技術(shù)。在其他實施方案中,片段化后,將靶核酸進一步修飾以備根據(jù)發(fā)明所述方法給它 們插入多個銜接子。需要進行這類修飾是因為片段化的過程有可能使產(chǎn)生的靶核酸所帶有 的末端無法進行插入銜接子要使用的程序,尤其是使用諸如連接酶和聚合酶的酶類。對于 文中概述的所有步驟,這個步驟是任選的,可以與任何步驟組合。將片段修飾以備它與其他 核酸分子定向連接的方法包括使用酶,比如聚合酶和磷酸酶來修飾片段的末端,從而使得 它們只能以所需的方向與其他核酸分子連接。這類方法在文中有進一步描述。IIB. CoRE 片段化正如以上討論過的,用于本發(fā)明的片段化方法包括機械和酶促片段化方法,以及 酶促和機械片段化方法的組合。許多機械和酶促片段化方法是本領(lǐng)域已知的。本發(fā)明一個方面提供了文中稱為可控隨機酶促(CoRE)片段化法的片段化方法。 文中描述的CoRE片段化方法可以單獨使用或者與其他本領(lǐng)域已知的機械和酶促片段化方 法組合使用。CoRE片段化涉及一系列的三個酶促步驟,如圖1所示。首先,在有dNTPs的情 況下,將核酸101進行酶催化的多重置換擴增(MDA),其中dNTPs中加入了一定比例的dUTP 或UTP,導(dǎo)致擴增產(chǎn)物的兩條鏈上的T以一定的和可控的比例被dUTP或UTP所取代(103)。 有多種擴增方法可以用于發(fā)明的這個步驟,包括但不限于聚合酶鏈?zhǔn)椒磻?yīng)(PCR)、連接酶鏈 式反應(yīng)(有時被稱為寡核苷酸連接酶擴增0LA)、環(huán)狀探針技術(shù)(CPT)、鏈置換法(SDA)、轉(zhuǎn)錄 介導(dǎo)的擴增(TMA)、基于核酸序列的擴增(NASBA)、滾環(huán)擴增(RCA)(用于環(huán)化的片段)以及 有創(chuàng)切割技術(shù)。在某些實施方案中,利用dNTPs中加入了與dTTP成一定比例的dUTP或UTP 的多重置換擴增(MDA)來產(chǎn)生兩條鏈上某些位點被dUTP或UTP取代的擴增產(chǎn)物(103)。擴增并插入尿嘧啶部分后,一般是通過UDG、End0VIII和T4PNK聯(lián)用將尿嘧啶切除 (104),產(chǎn)生帶有功能性5’磷酸和3’羥基端的單堿基缺口(105)。產(chǎn)生單堿基缺口的平均 間隔由MDA產(chǎn)物中U的出現(xiàn)頻率所決定。這就是說,dUTP的量越高,所得片段越短。本領(lǐng) 域技術(shù)人員可以理解,也可以使用其他能使核苷酸被某修飾核苷酸選擇性地置換,從而導(dǎo) 致類似切割的技術(shù),例如對化學(xué)物質(zhì)或其他酶易感的核苷酸。用帶有核酸外切酶活性的聚合酶處理帶有缺口的核酸(105)導(dǎo)致切口沿著核酸 “平移”或“移位”直至相反鏈上的切口匯合到一點,從而形成雙鏈斷裂,得到大小相對勻一 的雙鏈片段群(107)。聚合酶(比如Taq聚合酶)的核酸外切酶活性將毗鄰切口的短DNA鏈 切除,而聚合酶活性填上切口和該鏈中后續(xù)的核苷酸(基本上,Taq沿著鏈移動,利用核酸 外切酶活性將堿基切除并添加相同的堿基,其結(jié)果就是切口沿鏈平移直至酶達到鏈末端)。因為雙鏈片段(107)的大小分布是由MDA反應(yīng)中使用的dTTP與DUTP或UTP的比 率決定的,而不是酶處理的時長或程度決定的,這種CoRE片段化方法的片段化具有高度重復(fù)性。因此,CoRE片段化產(chǎn)生全部類似大小的雙鏈核酸片段群。IIC.長片段閱讀技術(shù)本發(fā)明的長片段閱讀(LFR)法基于對許多不同小份進行長基因組DNA片段的物理 分離,以至于母本和父本成分中基因組的某給定區(qū)域同時出現(xiàn)在相同小份中的可能性非常 低。通過在每個小份中放入獨特的鑒別物,對許多小份進行分析,歸結(jié)起來可以由DNA長片 段組裝出二倍體基因組,例如,可以提供每個親代染色體的序列,因此比現(xiàn)有技術(shù)具有明顯 的優(yōu)越性。雖然本文中的討論集中在利用DNB陣列和連接法測序的LFR方法的應(yīng)用上,但 應(yīng)當(dāng)明白這些LFR方法可以與各種其他陣列和其他測序方法一起使用,從而將二倍體基因 組以兩個分開的單倍體基因組測序。這將有助于家族性遺傳病的鑒定等方面。為了將片段恰當(dāng)?shù)胤珠_,一般要將DNA稀釋成每份大約10%單倍體基因組的濃度 (圖2C)。在這樣的濃度,小份中95%的堿基對沒有重疊。這樣的稀釋達到的統(tǒng)計學(xué)上的 分離可以使得母本和父本片段通常落在不同小份中(圖2C,第二個圖塊)。應(yīng)當(dāng)明白,稀 釋因子可能取決于片段的原始大小。即,利用溫和的技術(shù)來分離基因組DNA,可以得到大概 IOOkb的片段,這些片段然后被分成小份。能夠產(chǎn)生較大片段的技術(shù)需要更少小份,而產(chǎn)生 較短片段的技術(shù)可能需要更大稀釋度。在某些實施方案中,每個小份中的片段被擴增,而在其他實施方案中,每個小份中 的片段被進一步片段化,然后標(biāo)記上銜接子,這樣同一小份中的片段全部包含相同的標(biāo)記 銜接子;參見例如US 2007/0072208,該文獻通過引用全部并入本文,尤其可以參考其中關(guān) 于進一步分小份和覆蓋度的討論。許多實施方案中,每個小份包含在多孔板(例如,384孔板)的單獨小孔中。應(yīng)當(dāng) 明白,雖然以下關(guān)于LFR的討論針對多孔板的情況,但可以使用任何數(shù)量的不同類型的容 器和系統(tǒng)來容納該方法中產(chǎn)生的不同小份。這類容器和系統(tǒng)是本領(lǐng)域已知的,本領(lǐng)域技術(shù) 人員很容易知道什么類型的容器和系統(tǒng)適合用于發(fā)明的這一方面。諸如以上的討論,可以通過多種不同方法從細(xì)胞中分離基因組核酸的長片段。在 一個實施方案中,細(xì)胞被裂解,以溫和的離心步驟將完整細(xì)胞核沉淀。然后通過蛋白酶K和 RNase消化幾小時釋放基因組DNA。在某些實施方案中,然后可以處理材料以降低存留細(xì)胞 廢物的濃度-這類處理在本領(lǐng)域是公知的,可以包括但不限于透析一段時間(即,2-16小 時)和/或稀釋。因為這類分離核酸的方法不包括許多破壞性過程(比如乙醇沉淀、離心和 渦旋混勻),基因組核酸基本上保持完整,產(chǎn)生的片段大部分長度超過150kb。某些實施方 案中,片段長度在大約100到750kb。其他實施方案中,片段長度在大約150到大約600、大 約300到大約600、大約200到大約500、大約250到大約400、以及大約300到大約350kb。圖2中示意了 LFR方法的一個實例。通常LFR開始是用5’核酸外切酶短時處理 基因組核酸,一般是基因組DNA,從而產(chǎn)生3’單鏈突出。這種單鏈突出可以作為MDA起始部 位(圖2)。使用核酸外切酶還免除了在擴增前需要加熱或堿變性的步驟,不會再次給片段 群體引入偏向性。在某些實施方案中,堿變性與5’核酸外切酶處理聯(lián)用,這樣偏向性的降 低程度比單獨使用其中任一種處理降低得大。經(jīng)過5’核酸外切酶和任選的堿變性處理的DNA然后可以稀釋到亞基因組濃度,分 散到大量小份中,通常是多孔板的許多小孔中。某些實施方案中,多孔板的每個小孔中分到 等同于10%基因組的量。如果使用的是384孔板,每孔中分到等同于10%基因組的量導(dǎo)致
12每個微量板共包含38個基因組。在其他實施方案中,每個孔中分到等同于5-50%基因組的 量。正如上文提到的,小份的數(shù)量和基因組等同物可能要取決于最初的片段大小。分離到多個孔后,通常利用MDA方法將每個孔中的片段擴增。在特定實施方案中, 所述MDA反應(yīng)是經(jīng)過改良的基于Phi 29聚合酶的擴增反應(yīng)。雖然本文中的討論主要是就MDA 反應(yīng)而言,本領(lǐng)域技術(shù)人員可以理解,許多不同種類的擴增反應(yīng)可以用于本發(fā)明,這些擴增 反應(yīng)是本領(lǐng)域公知的,在Maniatis et al. ,Molecular Cloning :A Laboratory Manual, 2d Edition, 1989 禾口 Short Protocols in Molecular Biology, ed. Ausubel, et al.(通過弓| 用并入本文)中有概述。在某些實施方案中,設(shè)計MDA反應(yīng)使得擴增產(chǎn)物中被引入尿嘧啶。某些實施方案 中,利用標(biāo)準(zhǔn)MDA反應(yīng)來擴增每孔中的片段,所述MDA反應(yīng)中采用隨機六聚體。許多實施方 案中,利用隨機8聚體引物,而不是隨機六聚體來減少片段群體中的擴增偏向性。其他實施 方案中,還可以給MDA反應(yīng)中加入幾種不同的酶來減少擴增偏向性。例如,可以利用低濃度 的非進行性5’核酸外切酶和/或單鏈結(jié)合蛋白來產(chǎn)生8聚體的結(jié)合位點。還可以利用諸 如甜菜堿、DMSO或海藻糖的化學(xué)試劑通過類似的機制減少偏向性。擴增各孔中的片段后,在許多實施方案中擴增產(chǎn)物隨后進行再一輪的片段化。某 些實施方案中在擴增后使用以上描述的CoRE方法將每個孔中的片段進一步片段化。正如 以上討論過的,為了使用CoRE方法,用于擴增各孔中的片段的MDA反應(yīng)被設(shè)計成能夠給MDA 產(chǎn)物引入尿嘧啶。MDA產(chǎn)物的片段化還可以通過超聲波處理或酶處理來實現(xiàn)。這個實施方 案中可以使用的酶處理包括,但不限于使用DNase I、T7核酸內(nèi)切酶I、微球菌核酸酶等。某些實施方案中,當(dāng)利用CoRE方法將MDA產(chǎn)物片段化時,用尿嘧啶DNA糖基化酶 (UDG) ,DNA糖基化酶-裂解酶核酸內(nèi)切酶VIII和T4多核苷酸激酶混合物處理含有MDA產(chǎn) 物的各個孔,從而切除尿嘧啶堿基,產(chǎn)生帶有功能性5’磷酸和3’羥基基團的單堿基缺口。 通過利用諸如Taq聚合酶的聚合酶經(jīng)切口平移產(chǎn)生雙鏈平末端斷裂,得到可以進行連接的 片段,其大小取決于MDA反應(yīng)中加入的dUTP濃度。某些實施方案中,所用CoRE方法包括通 過聚合反應(yīng)去除尿嘧啶,以及經(jīng)phi29進行的鏈置換(參見圖4)。一般來說,MDA產(chǎn)物被片段化后,要將得到的片段的末端修復(fù)。這類修復(fù)之所以必 要,是因為許多片段化技術(shù)會產(chǎn)生在之后的連接反應(yīng)中沒有用的帶有突出端的末端和帶有 功能性基團的末端,比如3’和5’羥基基團和/或3’和5’磷酸基團。在本發(fā)明的許多方 面,經(jīng)修復(fù)帶有平末端的片段是有用的,某些情況中,可能希望改變末端的化學(xué)屬性使得沒 有處于正確方向的磷酸和羥基基團,從而防止靶序列的聚合??梢岳帽绢I(lǐng)域已知的方法 來控制末端的化學(xué)屬性。例如,某些情形中,可以用磷酸酶除去所有的磷酸基團,因此全部 末端含有羥基基團。然后可以選擇性地改變每個末端以便所希望的成分之間發(fā)生連接。然 后片段的一個末端可以被活化,在某些實施方案中,這是通過用堿性磷酸酶進行處理。許多 實施方案中,片段隨后被標(biāo)記上銜接子。一般來說,可以利用這些標(biāo)簽銜接子來鑒定來自 LFR方法中同一小孔的片段。圖3提供了用于LFR方法作為標(biāo)簽的銜接子設(shè)計的某些實施方案的示意圖。通 常,銜接子被設(shè)計為兩個區(qū)段,一個區(qū)段是所有小孔共有的,利用文中進一步描述的方法與 片段直接平末端連接。在圖3顯示的實施方案中,添加的“共有”銜接子具有兩個銜接子 臂_ 一個臂與片段的5’端平末端連接,另一個臂與片段的3’末端平末端連接。標(biāo)簽銜接子的第二個區(qū)段是每個小孔獨特的“條形碼”區(qū)段。該條形碼通常是一個獨特的核苷酸序 列,特定小孔中的每個片段被給予相同的條形碼。然后,當(dāng)來自所有小孔的標(biāo)簽片段被重新 合并在一起進行測序時,可以通過鑒定條形碼銜接子來鑒定來自相同小孔的片段。在圖3 示意的實施方案中,條形碼被連接到共有銜接子臂的5’端。共有銜接子和條形碼銜接子可 以順序或者同時連接至片段。正如文中將進一步詳細(xì)地描述的那樣,可以修飾共有銜接子 和條形碼銜接子的末端使得每個銜接子區(qū)段可以連接成正確的方向并與合適的分子連接。 這類修飾通過確保片段不會相互連接,并且銜接子區(qū)段只能以示意的方向連接,從而防止 銜接子區(qū)段的“聚合”。在其他實施方案中,用于給每個小孔中的片段標(biāo)記的銜接子可以采用三區(qū)段設(shè) 計。該實施方案與上面描述的條形碼銜接子設(shè)計類似,除了條形碼銜接子區(qū)段被分成兩個 區(qū)段(參見圖3)。通過將不同條形碼區(qū)段連接在一起形成全長條形碼區(qū)段因此產(chǎn)生組合條 形碼銜接子區(qū)段,該設(shè)計允許更多可能的條形碼。這種組合設(shè)計提供了更大的可能條形碼 銜接子庫,而減少了需要產(chǎn)生的全長條形碼銜接子的數(shù)量。每個小孔中的片段被標(biāo)記后,將所有片段合并形成單個群體。然后如下文更詳細(xì) 描述的,可以利用這些片段產(chǎn)生本發(fā)明的核酸模板。由這些帶標(biāo)簽片段產(chǎn)生的核酸模板可 以通過每個片段上附著的條形碼標(biāo)簽銜接子鑒定出屬于哪個特定小孔。某些情況中,利用LFR方法來分析少量細(xì)胞,包括單個細(xì)胞的基因組。這種情況中 分離DNA的過程與以上描述的方法類似,但是在更小體積中進行。一旦分離到DNA,在將樣 品分份到單個小孔中之前,必須仔細(xì)將基因組DNA片段化以避免材料的損失,特別是避免 損失每個片段的末端序列,因為丟失這類材料會導(dǎo)致最終的基因組組裝中出現(xiàn)缺口。某些 情況中,通過使用罕見切口酶來避免序列丟失,這種切口酶產(chǎn)生各自相隔大約IOOkb距離 的聚合酶(比如phi29聚合酶)起始位點。隨著聚合酶產(chǎn)生新的DNA鏈,它將取代舊鏈,最 終的結(jié)果是聚合酶起始部位附近存在重疊的序列(圖4),使得序列缺失非常少。在其他實 施方案中,可以按照以上描述的方法,然后將DNA稀釋并分到多個小孔中。某些實施方案 中,有控制地使用5’核酸外切酶(MDA反應(yīng)之前或反應(yīng)中)可以促進來自單細(xì)胞的原始DNA 的多重復(fù)制,從而減少早期錯誤通過拷貝的復(fù)制被傳播。應(yīng)當(dāng)明白,利用本領(lǐng)域已知的任何測序方法,本文描述的LFR方法可以用于將二 倍體基因組測序。本文描述的LFR方法在其他實施方案中可以用于任何數(shù)量的測序平臺, 包括但不限于,例如 GeneChip (Affymetrix)、CodeLink Bioarray (Amersham)、Expression Array System(Applied Biosystems)、SurePrint microarrays (Agilent)、Sentrix LD BeadChip 或 Sentrix Array Matrix (Illumina)禾口 Verigene(Nanosphere)。某些實施方案中,這里描述的LFR方法不包括多重水平或?qū)哟蔚钠位?分份,如 2006年6月13日提交的美國專利申請11/451,692中描述的,該文獻通過引用全文并入本 文,特別是與片段化和核酸分份方法有關(guān)的教導(dǎo)。這就是說,某些實施方案中僅進行了單輪 分份,并且允許將小份重新匯合用于單個陣列,而不是給每個小份使用單獨的陣列。III.本發(fā)明的核酸模板本發(fā)明提供了包含靶核酸和多個散在分布的銜接子的核酸模板。通過在每個靶核 酸中的多個位點插入銜接子組裝出核酸模板構(gòu)建體。分散的銜接子允許從靶序列的多個位 點順序或同時地獲取序列信息。
名詞“靶核酸”是指目的核酸。本發(fā)明的一個方面中,靶核酸是基因組核酸,雖然可 以使用包括mRNA(及相應(yīng)的cDNAs等)的其他靶核酸。靶核酸包括天然的或基因改變的或 者合成制備的核酸(比如來自哺乳動物疾病模型的基因組)。靶核酸幾乎可以從任何來源 獲得,也可以利用本領(lǐng)域已知的方法制備。例如,靶核酸可以不經(jīng)擴增直接分離,通過利用 本領(lǐng)域已知的方法經(jīng)擴增分離,所述擴增方法包括但不限于聚合酶鏈?zhǔn)椒磻?yīng)(PCR)、鏈置換 法(SDA)、多重置換擴增(MDA)、滾環(huán)擴增(RCA)、滾環(huán)復(fù)制(RCR)和其他擴增方法。靶核酸 還可以通過克隆獲得,包括但不限于克隆到諸如質(zhì)粒、酵母菌和細(xì)菌人工染色體的載體中。在某些方面,靶核酸包含mRNAs或cDNAs。在特定實施方案中,靶DNA是利用 從生物樣品中分離的轉(zhuǎn)錄物產(chǎn)生的。同樣如Genome Analysis =ALaboratory Manual Series (Vols. I-IV) or Molecular Cloning :A LaboratoryManual 中描述的,分離的mRNA可 以利用常規(guī)技術(shù)反轉(zhuǎn)錄成cDNAs。靶核酸可以是具體指明的單鏈的或雙鏈的,或者既含有雙鏈又含有單鏈序列部 分。根據(jù)具體應(yīng)用,核酸可以是DNA(包括基因組和cDNA)、RNA (包括mRNA和rRNA)或者它 們的混合體,在所述混合體核酸中含有脫氧核糖-和核糖核苷酸的任何組合,以及堿基的 任何組合,包括尿嘧啶、腺嘌呤、胸腺嘧啶、胞嘧啶、鳥嘌呤、肌苷、黃嘌呤、次黃嘌呤、異胞嘧 啶、異鳥嘌呤等?!昂怂帷被颉肮押塑账帷被颉岸嗪塑账帷被蛘呶闹械恼Z法等同名詞意味著至少兩個 共價連接的核苷酸。本發(fā)明的核酸通常含有磷酸二酯鍵,盡管在某些情況中,如下文列出 的(例如在引物和諸如標(biāo)記探針的探針構(gòu)建中),包含了可能含有替代的骨架的核酸類似 物,例如包含磷酰胺(Beaucage et al.,Tetrahedron 49(10) 1925(1993)及其中的參 考文獻;Letsinger, J. Org. Chem. 35 3800 (1970) ;Sprinzl et al. , Eur. J. Biochem. 81 579(1977) ;Letsinger et al. , Nucl. Acids Res. 14 3487(1986) ;Sawai et al, Chem. Lett. 805(1984), Letsingeret al. , J. Am. Chem. Soc. 110 4470(1988);禾口 Pauwels et al.,Chemica Scripta26 14191986))、硫代磷酸酯(Mag et al.,Nucleic Acids Res. 19 1437(1991);和美國專利 5,644,048)、二硫代磷酸酯(Briu et al.,J. Am. Chem. Soc. 111 2321(1989)、0-甲基磷酰胺酯鍵(參見 Eckstein,Oligonucleotides and Analogues APractical Approach, Oxford University Press)以及肽核酸(文中又稱為 “PNA”) 骨架和鍵(參見 Egholm, J.Am. Chem. Soc. 114 1895 (1992) ;Meier et al.,Chem. Int. Ed.Engl. 31 1008(1992) ;Nielsen, Nature,365 :566 (1993) ;Carlssonet al., Nature 380 :207(1996),所有這些文獻均通過引用并入本文)。其他核酸類似物包括那些具有雙 環(huán)結(jié)構(gòu)的,包括鎖核酸(本文中又稱為“LNA”),Koshkin et al.,J. Am. Chem. Soc. 120 132523(1998);正電荷骨架(Denpcy etal.,Proc. Natl. Acad. Sci. USA 92:6097(1995); 非離子性骨架(美國專利 5,386,023,5, 637,684,5, 602,240,5, 216,141 和 4,469,863 ; Kiedrowshi et al. , Angew. Chem. Intl. Ed.English 30:423(1991) ;Letsinger et al. , J.Am. Chem. Soc. 110 4470 (1988) ;Letsinger et al. , Nucleoside&Nucleotide 13 1597(1994) ;Chapters 2and 3, ASC Symposium Series 580, " Carbohydrate Modifications inAntisense Research" , Ed. Y. S. Sanghui and P. Dan Cook ;Mesmaeker et al. ,Bioorganic&Medicinal Chem. Lett. 4 395 (1994) ;Jeffs et al. ,J. Biomolecular NMR 34:17(1994) ;Tetrahedron Lett. 37 :743 (1996))以及非核糖骨架,包括美國專利5,235,033和 5,034,506 以及ASC Symposium Series 580, “ Carbohydrate Modifications in Antisense Research" (Ed. Y. S. Sanghui and P. Dan Cook)的第 6 和 7 章中描述的那 些。含有一或多個碳環(huán)糖的核酸也包含在核酸的定義范圍內(nèi)(參見Jenkins et al. ,Chem. Soc. Rev. (1995),169-176 頁)。Rawls, C&ENews Jun. 2,1997,35 頁描述了幾種核酸類似物。 “鎖核酸”(LNA )也包含在核酸類似物的定義范圍內(nèi)。LNAs是這樣一類核酸類似物,其中的 核糖環(huán)被連接2’ -0原子和4’ -C原子的亞甲基橋“鎖定”。為了所有目的,尤其是與核酸有 關(guān)的全部教導(dǎo),這些參考文獻均通過引用明確地并入本文??梢赃M行核糖_磷酸骨架的這 些修飾以便提高這類分子在生理環(huán)境中的穩(wěn)定性和半壽期。例如,PNA:DNA和LNA-DNA混 合體可以顯示出更高的穩(wěn)定性,因此可以用于某些實施方案。本發(fā)明的核酸模板(文中又稱為“核酸構(gòu)建體”和“文庫構(gòu)建體”)包含靶核酸和 銜接子。名詞“銜接子”用于本文是指序列已知的寡核苷酸。本發(fā)明中使用的銜接子可以 包含多種元件。所述銜接子中包含的元件(文中又稱為“特征”)的類型和數(shù)量取決于銜接 子的預(yù)期用途。用于本發(fā)明的銜接子通常包括但不限于限制性核酸內(nèi)切酶的識別和/或切 割位點(特別是II型識別位點,如下文描述,這種識別位點允許核酸內(nèi)切酶結(jié)合位于銜接 子內(nèi)部的識別位點,而在銜接子之外切割);引物結(jié)合位點(用于擴增核酸構(gòu)建體)或錨定 引物(文中有時又稱為“錨定探針”)結(jié)合(用于給核酸構(gòu)建體中的靶核酸測序)、切口酶 位點等。在某些實施方案中,銜接子包含限制性核酸內(nèi)切酶的單個識別位點,而在其他實施 方案中,銜接子包含一或多種限制性核酸內(nèi)切酶的兩個或更多個識別位點。如文中的概述, 識別位點經(jīng)常(但不是必然)存在于銜接子的末端,以便雙鏈構(gòu)建體的切割在離銜接子結(jié) 尾最可能遠(yuǎn)的位置進行。在某些實施方案中,本發(fā)明的銜接子根據(jù)銜接子中包含的特征的數(shù)量和大小,長 度為大約10到大約250個核苷酸。在特定實施方案中,本發(fā)明的銜接子長度大約50個核 苷酸。在其他實施方案中,本發(fā)明使用的銜接子長度為約20到約225、約30到約200、約40 到約175、約50到約150、約60到約125、約70到約100,和約80到約90個核苷酸。在其他實施方案中,銜接子任選包含的元件可以作為兩個“臂”連接到靶核酸上。 這些臂中的一個或兩者可以包含限制性核酸內(nèi)切酶的完整識別位點,或者兩個臂可以包含 限制性核酸內(nèi)切酶的部分識別位點。在后一種情況中,包含靶核酸的構(gòu)建體每端結(jié)合著銜 接子臂,其環(huán)化將構(gòu)成完整的識別位點。還有一些實施方案中,本發(fā)明使用的銜接子在其5’和3’端包含不同的錨定分 子結(jié)合位點。正如文中進一步描述的,這類錨定分子結(jié)合位點可以用于測序應(yīng)用,包括 本文和美國專利申請 60/992,485,61/026, 337,61/035, 914,61/061, 134,61/116, 193、 61/102,586, 12/265,593 禾口 12/266,385,11/938,106, 11/938,096,11/982,467, 11/981,804,11/981, 797,11/981, 793,11/981,767,11/981, 761,11/981, 730,11/981,685、 11/981,661,11/981, 607,11/981, 605,11/927, 388,11/927, 356,11/679, 124,11/541, 225、 10/547,214以及11/451,691中描述的復(fù)合探針錨定分子連接(cPAL)的測序方法,以上文 獻均通過引用全部并入本文,特別是與通過連接來測序有關(guān)的公開內(nèi)容。本發(fā)明的銜接子在一個方面是分散銜接子。本文中的“分散銜接子”意味著在靶 核酸內(nèi)部插入間隔位置的寡核苷酸。一方面,就靶核酸而言的“內(nèi)部”意味著在諸如環(huán)化和 切割的處理之前,靶核酸以內(nèi)的位點,上述處理可能引入序列反轉(zhuǎn)或者類似的轉(zhuǎn)變,因此打
16亂了靶核酸中核苷酸的順序。本發(fā)明的核酸模板構(gòu)建體含有以特定方向插入靶核酸的多重分散銜接子。正如文 中進一步討論的,靶核酸是由從一個或多個細(xì)胞(包括一個到幾百萬個細(xì)胞)中分離的核 酸制備的。然后這些核酸利用機械或酶促方法被片段化。作為發(fā)明所述核酸模板構(gòu)建體的一部分的靶核酸在靶核酸的連續(xù)區(qū)域內(nèi)預(yù)先確 定的位置上可能含有間隔插入的分散銜接子。間隔可能是相同或不同的。某些方面中,分 散銜接子之間的間距可能只能準(zhǔn)確知道到一至幾個核苷酸。其他方面中,銜接子的間距是 已知的,每個銜接子相對庫構(gòu)建體中其他銜接子的方向是已知的。這就是說,在許多實施方 案中,銜接子以已知距離插入,因此一個末端的靶序列與另一個末端的靶序列是連續(xù)的天 然基因組序列。例如,對于從距離識別位點16個堿基處切割的II型限制性核酸內(nèi)切酶,3 個堿基位于銜接子內(nèi),核酸內(nèi)切酶從離銜接子末端13個堿基處切割。當(dāng)插入第二個銜接子 時,銜接子“上游”的靶序列和銜接子“下游”的靶序列實際上在原始靶序列中是連續(xù)序列。雖然本文中描述的發(fā)明實施方案是就環(huán)形核酸模板構(gòu)建體而言的,可以理解所述 核酸模板構(gòu)建體也可以是線性的。此外,本發(fā)明的核酸模板構(gòu)建體可以是單鏈或雙鏈的,某 些實施方案中優(yōu)選后一種。本發(fā)明提供了包含靶核酸的核酸模板,所述靶核酸含有一或多個分散的銜接子。 另一個實施方案中,由多個基因組片段形成的核酸模板可以用于產(chǎn)生核酸模板庫。這類核 酸模板庫在某些實施方案中涵蓋的靶核酸合在一起能夠覆蓋整個基因組全部或部分。這就 是說,通過使用足夠數(shù)量的起始基因組(例如細(xì)胞),結(jié)合隨機片段化,所得的用于產(chǎn)生本 發(fā)明的環(huán)形模板的特定大小的靶核酸能夠有效地覆蓋基因組,雖然可以理解,少數(shù)情況中, 可能會引入偏性而阻礙整個基因組均得以表現(xiàn)。本發(fā)明的核酸模板構(gòu)建體包含多個分散銜接子,在某些方面中,這些分散的銜接 子包含限制性核酸內(nèi)切酶的一或多個識別位點。另一方面,所述銜接子包含II型核酸內(nèi)切 酶的識別位點。II型核酸內(nèi)切酶通??梢再徺I到,是本領(lǐng)域公知的。與它們的II型對應(yīng)物 一樣,II型核酸內(nèi)切酶識別雙鏈多核苷酸序列中的特異核苷酸堿基對序列。當(dāng)識別到該序 列時,核酸內(nèi)切酶將切割該多核苷酸序列,通常會留下序列中一條鏈的突出,或“粘末端”。 并且II型核酸內(nèi)切酶通常是在其識別位點之外切割,取決于具體的核酸內(nèi)切酶,這個距離 可能離識別位點在大約2到30個核苷酸之間。某些II型核酸內(nèi)切酶是從離識別位點數(shù)量 已知的堿基處切割的“精確切刀”。在某些實施方案中,所用的II型核酸內(nèi)切酶不是“精確 切刀”,而是在特定范圍內(nèi)切割(例如6到8個核苷酸)。通常本發(fā)明中使用的II型限制性 核酸內(nèi)切酶的切割位點與其識別位點相隔至少6個核苷酸(即,識別位點結(jié)尾與最近的切 割點之間的核苷酸數(shù)量)。示范性的II型限制性核酸內(nèi)切酶包括,但不限于Eco57MI、Mme I、Acu I、Bpm I>BceA I、Bbv I>BciV I>BpuE I>BseM II、BseRI、Bsg I>BsmF I>BtgZ I、 Eci I、EcoP15 I、Eco57M I,Fok I,Hga I、HphI、Mbo II,Mnl I,SfaN I,TspDT I,TspDff I、 Taq II等。在某些示范性的實施方案中,本發(fā)明中使用的II型限制性核酸內(nèi)切酶是Acul, 該酶的切割長度大約16個堿基,產(chǎn)生2個堿基的3’突出;和EcoP15,該酶切割長度約25個 堿基,產(chǎn)生2個堿基的5’突出。正如以下將進一步討論的,在發(fā)明所述核酸模板構(gòu)建體中 的銜接子中包含上Π型位點提供了一個便于在靶核酸的限定位置上插入多個銜接子的工 具。
17
可以理解,銜接子還可以包含其他元件,包括文中進一步描述的其他(非II型) 限制性核酸內(nèi)切酶的識別位點、用于擴增的引物結(jié)合位點以及測序反應(yīng)中使用的探針(“錨 定探針”)的結(jié)合位點。一個方面中,本發(fā)明使用的銜接子具有如圖5所示的序列。如圖5中的一個銜接 子的示意圖所表明的,銜接子可以包含多個功能性特征,包括II型限制性核酸內(nèi)切酶的識 別位點(503和506)、切口核酸內(nèi)切酶的位點(504)以及能夠影響二級特性的序列,比如破 壞發(fā)夾結(jié)構(gòu)的堿基(501和502)。本發(fā)明使用的銜接子還可以含有回文序列,正如下文更詳 細(xì)討論的,如果包含這類銜接子的核酸模板被用于產(chǎn)生多聯(lián)體,回文序列可以促進分子內(nèi) 部的結(jié)合。IV.制備本發(fā)明的核酸模板IVA.產(chǎn)牛環(huán)形樽板的概沭本發(fā)明涉及核酸鑒定和檢測的組合物和方法。核酸的鑒定和檢測具有廣泛的應(yīng) 用,包括各種測序和基因分型應(yīng)用。本文描述的方法允許構(gòu)建可以用于擴增反應(yīng)的環(huán)形核 酸模板,這類反應(yīng)利用所述環(huán)形模板產(chǎn)生單體環(huán)形模板的多聯(lián)體,形成下文描述的“DNA納 米球”,它在測序和基因分型應(yīng)用中有廣泛應(yīng)用。本發(fā)明的環(huán)形或線性構(gòu)建體包含靶核酸序 列,通常是基因組DNA的片段(盡管如文中所述,也可以使用諸如cDNA的其他模板),以及 散在分布的外源核酸銜接子。本發(fā)明提供了制備核酸模板構(gòu)建體的方法,所述模板構(gòu)建體 中每個后續(xù)的銜接子加在限定的位置,并且任選相對一或多個之前插入的銜接子限定的方 向。這些核酸模板構(gòu)建體通常是環(huán)形核酸(盡管在特定實施方案中,所述構(gòu)建體可以是線 性的),包含帶有多個散在分布的銜接子的靶核酸。所述銜接子,正如下文描述的,是用于測 序和基因分型應(yīng)用的外源序列,通常含有限制性核酸內(nèi)切酶位點,尤其是針對諸如II型的 在識別位點之外切割的核酸內(nèi)切酶的位點。為了分析方便,發(fā)明所述反應(yīng)優(yōu)選采用那些銜 接子以特定方向,而非隨機地插入的實施方案。因此發(fā)明提供的方法可以制備含有處于特 定方向,并且相隔限定距離的多個銜接子的核酸構(gòu)建體。能夠控制每個后續(xù)銜接子的間隔和插入方向比隨機插入散在分布的銜接子具有 許多優(yōu)勢。特別是本文描述的方法提高了銜接子插入過程的效率,因此減少了在插入每個 后續(xù)銜接子時引入擴增步驟的需要。此外,控制每個添加的銜接子的間隔和方向保證了每 個銜接子中通常含有的限制性核酸內(nèi)切酶識別位點所處方位使得隨后的切割和連接步驟 在核酸構(gòu)建體的適宜位點發(fā)生,從而通過減少或消除含有處于不合適位置或方向的銜接子 的核酸模板形成而進一步提高所述過程的效率。另外,控制每個隨后加入的銜接子的位置 和方向?qū)Φ玫降暮怂針?gòu)建體的某些用途是有益的,因為銜接子在測序應(yīng)用中行使多種功 能,包括作為序列已知的參照點,從而協(xié)助確認(rèn)靶核酸中特定位點上鑒定到的堿基的相對 空間位置。文中進一步描述了銜接子在測序應(yīng)用中的這類用途。基因組核酸,通常是雙鏈DNA(圖6中的601),獲得自復(fù)數(shù)個細(xì)胞,一般是大約10 到100到1000或更多個細(xì)胞。使用復(fù)數(shù)個細(xì)胞使得最終的DNA納米球有足夠高的冗余程 度,可以達到很好的基因組測序覆蓋率。如本文描述的,利用標(biāo)準(zhǔn)技術(shù)比如物理或酶促分級 法結(jié)合大小分級將基因組核酸分離成適當(dāng)?shù)拇笮?。如文中所述,任選調(diào)節(jié)雙鏈片段的5’和3’端。例如,許多用于將核酸分級的技術(shù) 產(chǎn)生的是長度和化學(xué)性質(zhì)各異的片段末端。例如,末端可能含有重疊,用于許多目的,優(yōu)選平末端雙鏈片段。利用已知技術(shù),比如聚合酶和dNTPs可以做到這一點。類似地,分級技術(shù) 也有可能得到各種末端,比如3’和5’羥基基團和/或3’和5’磷酸基團。在某些實施方 案中,正如下文描述的,可能希望酶法改變這些末端。例如,為了防止不含銜接子的多個片 段發(fā)生連接,可能希望改變末端的化學(xué)性質(zhì),使得不存在正確的磷酸和羥基基團方向,從而 防止靶序列的“聚合”。利用本領(lǐng)域已知的方法可以控制末端的化學(xué)性質(zhì)。例如,在某些情 況中,利用磷酸酶除去所有磷酸基團,從而使得全部末端含有羥基基團。然后可以對每個末 端進行選擇性地改變以允許期望的成分連接在一起。此外,按照需要還任選利用大量已知技術(shù)進行擴增來增加基因組片段的數(shù)量以便 之后的操作,雖然在許多實施方案中,在這個階段不需要擴增步驟。分級和任選的末端調(diào)節(jié)后,給基因組片段末端加上一套銜接子“臂”。兩個銜接子 臂,當(dāng)連接在一起時,形成第一銜接子。例如,如圖6中描述的,每個末端帶有一個銜接子臂 的線性構(gòu)建體的環(huán)化(605)將兩個臂連在一起形成完整銜接子(606)和環(huán)形構(gòu)建體(607)。 因此,基因組片段的一個末端加上了第一銜接子的第一銜接子臂(603),該基因組片段的另 一個末端加上第一銜接子的第二銜接子臂(604)。一般來說,正如下文更充分描述的,根據(jù) 需要的系統(tǒng),銜接子臂之一或兩者包含II型核酸內(nèi)切酶的識別位點。替代地,銜接子臂可 以各自含有部分識別位點,當(dāng)臂發(fā)生連接時,重新構(gòu)成完整識別位點。為了將后續(xù)銜接子按照希望的位置和方向連接以便測序,本發(fā)明提供了這樣的方 法,所述方法中II型限制性核酸內(nèi)切酶與環(huán)形核酸構(gòu)建體的第一銜接子內(nèi)的識別位點結(jié) 合,然后在基因組片段(文中又稱為“靶核酸”)中該第一銜接子之外的點進行切割。然后 在發(fā)生切割的這個點連接上第二銜接子(同樣通常是通過給第二銜接子加上兩個銜接子 臂)。為了在已知位點切割靶核酸,也許希望將靶核酸中可能隨機包含的同一酶的任何其他 識別位點阻斷,從而使得限制性核酸內(nèi)切酶可以結(jié)合的唯一位點在第一銜接子內(nèi),因此避 免構(gòu)建體發(fā)生不需要的切割。一般來說,首先保護第一銜接子中的識別位點不被失活,然后 通常通過甲基化將構(gòu)建體中任何其他未被保護的識別位點失活。即,甲基化的識別位點不 會與酶結(jié)合,因此不發(fā)生切割。只有銜接子中未被甲基化的識別位點能夠與酶結(jié)合,并隨后 發(fā)生切割。保護第一銜接子中的識別位點不被失活的一個方法是使該位點變成單鏈,因為甲 基化酶不會與單鏈結(jié)合。因此,保護第一銜接子中的識別位點的一種方法是通過利用尿嘧 啶修飾過的引物,擴增與兩個第一銜接子臂連接的線性基因組片段。所述引物與銜接子臂 互補,并且經(jīng)尿嘧啶修飾過,因此在擴增(通常是利用PCR)時,得到的線性構(gòu)建體含有尿嘧 啶鑲嵌在一個第一銜接子臂的識別位點中。利用已知技術(shù)切割尿嘧啶使所述第一銜接子臂 (或者任何含有尿嘧啶的片段)變成單鏈。然后給線性構(gòu)建體使用序列特異的甲基化酶,該 酶將與第一銜接子中含有的相同核酸內(nèi)切酶的所有雙鏈識別位點甲基化。這種序列特異性 甲基化酶不能甲基化第一銜接子臂中的單鏈識別位點,因此第一銜接子臂中的識別位點被 保護免于經(jīng)甲基化失活。正如下文描述的,如果限制性位點被甲基化,其將不會被限制性核 酸內(nèi)切酶切割。正如下文將充分描述的,某些情況中,單個銜接子可能含有兩個相同的識別位點, 以便能夠從同一銜接子的“上游”及“下游”切割。在該實施方案中,如圖7所示意的,引物 和尿嘧啶位置經(jīng)過了適當(dāng)?shù)倪x擇,從而使得“上游”或者“下游”識別位點可以被選擇性地保護,而免于失活或被失活。例如,在圖7中,兩個不同銜接子臂(以長方形表示)各自包 含限制性核酸內(nèi)切酶的一個識別位點(在一個銜接子臂中以圓圈表示,另一個中以三角形 表示)。如果需要利用以上描述的尿嘧啶降解法來保護帶有以圓圈表示的識別位點的銜接 子臂,則設(shè)計尿嘧啶修飾的擴增引物給該識別位點引入尿嘧啶。然后一經(jīng)尿嘧啶降解,該銜 接子臂變成單鏈(以半個長方形表示),從而保護識別位點免于失活。保護第一銜接子臂中的識別位點不被甲基化后,通過利用例如橋寡核苷酸和T4 連接酶將線性構(gòu)建體環(huán)化。環(huán)化使得第一銜接子臂中的限制性核酸內(nèi)切酶重新形成雙鏈。 在某些實施方案中,橋寡核苷酸具有被封閉的末端,這使得借助橋接寡核苷酸進行環(huán)化,未 封閉末端的連接,并在識別位點附近留下切口。這個切口如下文的討論可以被進一步利用。 應(yīng)用限制性核酸內(nèi)切酶產(chǎn)生第二個線性構(gòu)建體,其包含位于靶核酸內(nèi)部的第一銜接子和包 含(取決于酶)雙堿基突出的末端。將第二銜接子的第二套銜接子臂連接到第二線性構(gòu)建體上。某些情況中,當(dāng)利用 切口時,為了確保銜接子以恰當(dāng)?shù)姆较蜻B接,通過利用具有核酸外切酶活性的聚合酶將第 一銜接子中的切口“平移”(或“移位”)。聚合酶(比如Taq聚合酶)的核酸外切酶活性將 切除鄰接切口的短DNA鏈,而聚合酶活性將在該鏈“填上”切口和隨后的核苷酸(基本上, Taq沿著鏈移動,利用核酸外切酶活性切除堿基并加上相同的堿基,結(jié)果就是切口沿著鏈移 位,直至酶到達鏈末端)。此外,為了形成模板的不對稱,構(gòu)建體的一個末端被修飾上一個堿基。例如,某些 聚合酶(比如Taq)會進行沒有模板的核苷酸添加,因此造成在平DNA雙鏈體的3’端添加 一個核苷酸,產(chǎn)生3’突出。本領(lǐng)域技術(shù)人員理解,根據(jù)溶液中的dNTP濃度,可以添加任何 堿基。在特定實施方案中,所用的聚合酶只能添加單獨一個核苷酸。例如Taq聚合酶能夠 添加單個G或A。也可以使用其他聚合酶來添加其他核苷酸從而產(chǎn)生突出端。在一個實施 方案中,使用了過量的dGTP,造成在一條鏈的3’端沒有模板地添加了鳥嘌呤。第二線性構(gòu) 建體3’端的這個“G尾”造成末端的不對稱,因此能夠與帶有C-尾的第二銜接子臂連接,使 得第二銜接子臂與第二線性構(gòu)建體的3’端復(fù)性。意圖連接到5’端的銜接子帶有C-尾,其 位置使得它能夠與5’G-尾連接。第二銜接子臂連接后,將構(gòu)建體環(huán)化產(chǎn)生包含兩個銜接子 的第二環(huán)形構(gòu)建體。第二銜接子通常含有II型核酸內(nèi)切酶的識別位點,而該識別位點與第 一銜接子中含有的識別位點可能是相同的或者是不同的,后一種情況有許多應(yīng)用。通過用限制性核酸內(nèi)切酶切割,可以在第一銜接子的另一側(cè)插入第三銜接子,所 述內(nèi)切酶結(jié)合第一銜接子的第二個臂中的識別位點(即最初通過甲基化失活的識別位 點)。為了使這個識別位點可以使用,利用與第一銜接子中的識別位點互補的尿嘧啶修飾引 物來擴增環(huán)形構(gòu)建體產(chǎn)生第三線性構(gòu)建體,該線性構(gòu)建體中的第一銜接子包含鑲嵌在第二 限制性識別位點中的尿嘧啶。將尿嘧啶降解使第一銜接子變成單鏈,這樣就保護銜接子中 的識別位點免于甲基化。然后采用序列特異性甲基化酶將所有未被保護的識別位點失活。 一經(jīng)環(huán)化,第一銜接子中的識別位點重新形成,施用限制性核酸內(nèi)切酶將切割環(huán)形,在第三 線性構(gòu)建體中產(chǎn)生可以插入第三銜接子的位點。第三銜接子臂與第三線性構(gòu)建體的連接 遵循與以上描述相同的基本程序_第三線性構(gòu)建體將帶有A-或G-尾,第三銜接子臂帶有 T-或C-尾,使得銜接子臂能夠與第三線性構(gòu)建體復(fù)性,被連接。然后將包含第三銜接子臂 的線性構(gòu)建體環(huán)化形成第三環(huán)形構(gòu)建體。與第二銜接子一樣,第三銜接子通常包含與第一銜接子所含有的識別位點不同的限制性核酸內(nèi)切酶識別位點。通過利用在第二和第三銜接子中有識別位點的II型限制性核酸內(nèi)切酶可以添加 第四銜接子。用這些限制性核酸內(nèi)切酶進行的切割將產(chǎn)生第四線性構(gòu)建體,然后該構(gòu)建體 與第四銜接子臂連接。連接了第四銜接子臂的第四線性構(gòu)建體的環(huán)化將產(chǎn)生本發(fā)明的核酸 模板構(gòu)建體。正如本領(lǐng)域技術(shù)人員可以理解的,還可以添加其他銜接子。因此,本文描述的 方法允許兩個或更多個銜接子以方向、有時是距離依賴性的方式加入。本發(fā)明還提供了方法來控制每個后加入的銜接子的插入方向。這類“切口平移”法 提供了一種控制靶核酸與銜接子連接方式的方法。通過防止銜接子與其他銜接子連接和靶 核酸分子與其他靶核酸分子連接(大致就是避免銜接子和靶核酸分子各自的“聚合”),這 些方法還能夠防止形成假核酸構(gòu)建體。圖8圖示了銜接子和靶核酸分子連接可以采取的不 同方向的實例。靶核酸801和802優(yōu)選與銜接子803和804以希望的方向連接(正如該圖 中顯示的,希望的方向是具有相同形狀-圓圈或方形_的末端相互連接的那個方向)。修飾 分子的末端可以避免不希望的構(gòu)象807、808、809和810,這些構(gòu)象中靶核酸相互連接,銜接 子相互連接。此外,正如下文將更詳細(xì)討論的,可以通過控制銜接子和靶核酸的末端的化學(xué) 性質(zhì)來控制每次銜接子-靶核酸連接的方向。利用本領(lǐng)域已知方法可以控制末端的化學(xué)性 質(zhì)。例如,某些情形中,使用磷酸酶除去所有磷酸基團,使得全部末端含有羥基基團。然后 可以限制性地改變每個末端以便希望的成分之間進行連接。下文更詳細(xì)地描述了本發(fā)明的 切口平移法中末端修飾和控制銜接子插入的這些和其他方法。然后這些核酸模板構(gòu)建體(包含散布了這些銜接子的靶序列的“單體”)可以用于 產(chǎn)生多聯(lián)體,而這些多聯(lián)體又可以形成用于正如測序和檢測特異靶序列的下游應(yīng)用的核酸 納米球。本發(fā)明提供了形成核酸模板構(gòu)建體的方法,其中所述模板構(gòu)建體包含插入靶核酸 的多個散在分布的銜接子。正如文中進一步討論的,本發(fā)明的方法允許通過利用銜接子中 包含的II型限制性核酸內(nèi)切酶的識別位點來插入每個后續(xù)銜接子。為了以希望的順序和 /或方向插入多個銜接子,可能有必要將靶核酸中含有的限制性核酸內(nèi)切酶識別位點封閉, 從而使得只有銜接子中的識別位點可供酶的結(jié)合和隨后的切割。這類方法的優(yōu)勢之一是每 個銜接子中可以使用相同的限制性核酸內(nèi)切酶位點,這就簡化了最終用于制備多聯(lián)體的環(huán) 形模板的產(chǎn)生過程,銜接子的插入可以利用先前插入的銜接子作為下一個銜接子的“墊腳 石”,每個新的銜接子通過順著片段“走”即可實現(xiàn)添加??刂瓶晒┫拗菩悦甘褂玫淖R別位 點還避免了切除某些序列,因此只能達到有限的序列代表(如果可以接近靶核酸內(nèi)部的位 點,就可能發(fā)生這種情況)。IVB.添加第一銜接子作為產(chǎn)生本發(fā)明的核酸模板的第一步,將第一銜接子與靶核酸連接。可以將整個 第一銜接子添加到一個末端,或者將第一銜接子的文中稱為“銜接子臂”的兩部分與靶核酸 的兩個末端分別連接。第一銜接子臂被設(shè)計成通過連接可以重新構(gòu)成完整的第一銜接子。 正如上面具體描述的,第一銜接子通常包含一或多個II型限制性核酸內(nèi)切酶的識別位點。 在某些實施方案中,II型限制性核酸內(nèi)切酶識別位點分到兩個銜接子臂上,因此位點只有 在兩個銜接子臂發(fā)生連接后,才能供限制性核酸內(nèi)切酶進行結(jié)合。圖6是組裝銜接子/靶核酸模板(文中又稱為“靶文庫構(gòu)建體”、“文庫構(gòu)建體”和所有語法上的等同體)的方法的一個方面的示意圖。利用以上描述的標(biāo)準(zhǔn)技術(shù)分離DNA, 比如基因組DNA 601,并片段化為靶核酸602。然后片段化的靶核酸602被修復(fù),使得每個 鏈的5'和3'端是齊的或平的末端。這個反應(yīng)后,利用沒有校正功能的聚合酶給片段化的 靶核酸每個鏈的3’端添加單個A,使每個片段帶上“A-尾”。加A尾通常是通過使用聚合酶 (比如Taq聚合酶)并僅提供腺嘌呤核苷酸實現(xiàn)的,這樣聚合酶被迫以模板序列非依賴性的 方式給靶核酸的末端添加一或多個A。在圖6顯示的示范性方法中,第一銜接子的第一臂(603)和第二臂(604)與各個 靶核酸連接,產(chǎn)生帶有連接到各末端的銜接子臂的靶核酸。在一個實施方案中,銜接子臂是 “加T尾的”,因此與靶核酸的A尾互補,這樣通過提供一種方式使銜接子臂首先與靶核酸復(fù) 性,然后采用連接酶將銜接子臂連到靶核酸上,協(xié)助了銜接子臂與靶核酸的連接。在其他實施方案中,本發(fā)明提供了銜接子與各片段連接的方式使分子內(nèi)或分子間 連接artifacts的產(chǎn)生最小化。這是有益的因為靶核酸隨機片段相互形成連接假象會產(chǎn)生 假的靶核酸片段間的基因組鄰近關(guān)系,使序列比對過程復(fù)雜化。利用加A和T尾將銜接子附 著到DNA片段上防止了銜接子和片段的隨機分子內(nèi)或分子間關(guān)聯(lián),這就減少了自連接(銜 接子_銜接子或片段_片段連接)會產(chǎn)生的假象。作為加A/T尾(或加G/C尾)的替代,可以采取各種其他方法來防止靶核酸和銜 接子形成連接假象,以及銜接子臂相對靶核酸的定向,包括利用靶核酸和銜接子臂中的互 補NN突出,或者采用合適的靶核酸與銜接子的比率進行平末端連接從而優(yōu)化單片段核酸/ 銜接子臂連接比率。產(chǎn)生包含靶核酸并且每個末端都帶有銜接子臂的線性構(gòu)建體后,將線性靶核酸環(huán) 化(605)(這個過程在文中將更詳細(xì)地討論),產(chǎn)生包含靶核酸和銜接子的環(huán)形構(gòu)建體607。 注意環(huán)化過程導(dǎo)致第一銜接子的第一和第二臂被帶到一起在環(huán)形構(gòu)建體中形成連續(xù)的第 一銜接子(606)。在某些實施方案中,環(huán)形構(gòu)建體607利用例如隨機六聚體和Φ29或螺旋 酶,通過比如環(huán)依賴性擴增被擴增。替代地,靶核酸/銜接子結(jié)構(gòu)可以保持線性,通過從銜 接子臂內(nèi)的位點引導(dǎo)的PCR來進行擴增。擴增優(yōu)選是受到調(diào)控的擴增過程,使用高忠實度、 有校正活性的聚合酶,產(chǎn)生序列準(zhǔn)確的擴增靶核酸/銜接子構(gòu)建體文庫,其中被查詢的基 因組或基因組的一或多個部分有足夠的代表。IVC.添加多個銜接子圖6是組裝銜接子/靶核酸模板(文中又稱為“靶文庫構(gòu)建體”、“文庫構(gòu)建體”和 所有語法上的等同體)的方法的一個方面的示意圖。利用標(biāo)準(zhǔn)技術(shù)分離DNA,比如基因組 DNA 601,并片段化為靶核酸602。然后在某些實施方案中(如文中所述)片段化的靶核酸 602被修復(fù),使得每個鏈的5'和3'端是齊的或平的末端。在圖6顯示的示范性方法中,第一銜接子的第一臂(603)和第二臂(604)與各個 靶核酸連接,產(chǎn)生帶有連接到各末端的銜接子臂的靶核酸。產(chǎn)生包含靶核酸并且每個末端都帶有銜接子臂的線性構(gòu)建體后,將線性靶核酸環(huán) 化(605)(這個過程在文中將更詳細(xì)地討論),產(chǎn)生包含靶核酸和銜接子的環(huán)形構(gòu)建體607。 注意環(huán)化過程導(dǎo)致第一銜接子的第一臂和第二臂被帶到一起在環(huán)形構(gòu)建體中形成連續(xù)的 第一銜接子(606)。在某些實施方案中,環(huán)形構(gòu)建體607利用例如隨機六聚體和Φ29或螺 旋酶,通過比如環(huán)依賴性擴增被擴增。替代地,靶核酸/銜接子結(jié)構(gòu)可以保持線性,通過從銜接子臂內(nèi)的位點引導(dǎo)的PCR來進行擴增。擴增優(yōu)選是受到調(diào)控的擴增過程,使用高忠實 度、有校正活性的聚合酶,產(chǎn)生序列準(zhǔn)確的擴增靶核酸/銜接子構(gòu)建體文庫,其中被查詢的 基因組或基因組的一或多個部分有足夠的代表。與添加第一銜接子過程類似,可以給線性分子(609)的每個末端添加第二套銜接 子臂(610)和(611),然后連接(612)形成完整銜接子(614)和環(huán)形分子(613)。同樣,通過 利用切割銜接子(609)另一側(cè)的II型核酸內(nèi)切酶可以給銜接子(609)的另一側(cè)添加第三 銜接子,然后將第三套銜接子臂(617)和(618)連接到線性化分子的各個末端。最后,通過 再次切割環(huán)形構(gòu)建體并給線性化分子添加第四套銜接子臂來加上第四銜接子。圖6所畫的 實施方案是采用了銜接子(620)和(614)中有其識別位點的II型核酸內(nèi)切酶來切割環(huán)形 構(gòu)建體的一個方法。銜接子(620)和(614)中的識別位點可以是相同或不同的。類似地, 圖6顯示的所有銜接子中的識別位點可以說相同或不同的。如圖9大概展示的,包含第一銜接子的環(huán)形構(gòu)建體在該銜接子中可能含有兩個II 型限制性核酸內(nèi)切酶識別位點,其位置使得識別序列之外(銜接子之外)的靶核酸被切割 (910)。結(jié)構(gòu)510周圍的箭頭指示識別位點和限制位點。在過程911中,使用了一種II型 限制性核酸內(nèi)切酶EcoP15來切割環(huán)形構(gòu)建體。注意在圖9所顯示的方面中,每個文庫構(gòu)建 體中做圖到部分靶核酸的的部分將被從構(gòu)建體中切割掉(結(jié)構(gòu)910中箭頭之間的靶核酸部 分)。過程911中用EcoP15限制性切割文庫構(gòu)建體產(chǎn)生了含有第一銜接子的線性構(gòu)建體 文庫,其中第一銜接子位于線性構(gòu)建體912末端以內(nèi)。得到的線性文庫構(gòu)建體的大小由核 酸內(nèi)切酶識別位點和核酸內(nèi)切酶限制位點之間的距離加上銜接子的大小決定。在過程913 中,線性構(gòu)建體912,與片段化的靶核酸904 —樣,通過常規(guī)方法處理變成平的或齊的末端, 利用不具有校正活性的聚合酶給線性文庫構(gòu)建體的3’端加上包含單個A的A尾,通過A-T 復(fù)性和連接將第二銜接子的第一臂和第二臂連接到線性化的文庫構(gòu)建體的末端913。得到 的文庫構(gòu)建體包含914處可以看到的結(jié)構(gòu),其中第一銜接子位于線性構(gòu)建體末端以內(nèi),靶 核酸通過第一銜接子側(cè)接在一個末端,另一端通過第二銜接子的第一臂或第二臂。在過程915中,雙鏈線性文庫構(gòu)建體被處理成為單鏈916,然后單鏈文庫構(gòu)建體 916被連接(917)形成散在分布著兩個銜接子的靶核酸918單鏈環(huán)。917中的連接/環(huán)化 過程是在使分子內(nèi)連接最優(yōu)化的條件下進行的。在特定濃度和反應(yīng)條件下,更傾向于每個 核酸構(gòu)建體末端的局部分子內(nèi)連接,而不是分子之間的連接。IVD.控泡丨靶核Il禾Pfi接子t丨旬的連接方向本發(fā)明一個方面提供的方法中銜接子與靶核酸的連接,如上文所述是以希望的方 向進行的。這種方向控制是有益的,因為靶核酸隨機片段相互形成連接假象會產(chǎn)生假的靶 核酸片段間的基因組鄰近關(guān)系,使序列比對過程復(fù)雜化。有幾種方法可以用來控制銜接子 的插入方向。如上文所述,可以改變靶核酸和銜接子末端的化學(xué)性質(zhì),從而使連接僅發(fā)生在 方向正確的情況下。替代地,可以進行“切口平移法”,如下面概述的,該方法同樣依賴于末 端的化學(xué)性質(zhì)。最后,可以按照下面的描述,采取涉及用特別選擇的引物進行擴增的方法。圖12示意了第二銜接子可以添加到核酸構(gòu)建體的不同方向。同樣,過程1200以 含有已插入第一銜接子1210的環(huán)形文庫構(gòu)建體1202開始。第一銜接子1210具有特定的 方向,其中的三角形示意第一銜接子的外鏈(“outer strand”),菱形示意第一銜接子的內(nèi) 鏈("inner strand") (Adl方向1210)。箭頭1201的尾部指示了第一銜接子1210中的II
23型限制性核酸內(nèi)切酶位點,箭頭的頭部指示切割位點。過程1203包含以II型限制性核酸 內(nèi)切酶進行切割,連接第二銜接子的第一臂和第二臂,以及重新環(huán)化。從得到的文庫構(gòu)建體 1204和1206可以看出,第二銜接子可以相對第一銜接子以兩種不同的方式插入。在希望的 方向1204中,橢圓形插入帶三角形的外鏈,蝴蝶結(jié)插入了帶菱形的內(nèi)鏈(Ad2方向1220)。 在不希望的方向中,橢圓形插入了帶菱形的內(nèi)鏈,蝴蝶結(jié)形插入了帶三角形的外鏈(Ad2方 向 1230)。盡管為了清楚起見,以下討論和提及的示意圖主要針對第二銜接子相對第一銜接 子的插入,但可以理解下文討論的過程適用于第二銜接子之后添加的銜接子,將產(chǎn)生帶有 三、四、五、六、七、八、九、十或更多個插入銜接子的文庫構(gòu)建體。在一個實施方案中,使用了加A尾和加T尾將銜接子附著于核酸片段。例如,按照 以上描述的修飾來修復(fù)片段末端,利用不具有校正活性的聚合酶給片段化的靶核酸每條鏈 的3’端添加單個A,將每個片段“加A尾”。加A尾通常是利用聚合酶(比如Taq聚合酶) 并且僅提供腺嘌呤核苷酸(或者過量的腺嘌呤核苷酸),這樣聚合酶被迫以模板_序列_非 依賴性的方式將一或多個A添加到靶核酸末端。在采用“加A尾”的實施方案中,與銜接子 (或銜接子臂)的連接是通過給銜接子/銜接子臂添加“T尾”,從而與靶核酸的A尾互補, 這樣通過提供一種方式使銜接子臂首先與靶核酸復(fù)性,然后采用連接酶將銜接子臂連到靶 核酸上,協(xié)助了銜接子臂與靶核酸的連接。因為當(dāng)核酸模板處于所需大小并且包含來源于單個片段的靶核酸時,所述發(fā)明的 各方面實現(xiàn)最優(yōu)化,所以保證產(chǎn)生核酸模板的整個過程環(huán)化反應(yīng)是在分子內(nèi)進行的是有益 的。這就是說,確保靶核酸在與第一、第二、第三等銜接子連接的過程中,不會自身相互連接 是有益的。圖10展示了控制環(huán)化過程的一個實施方案。如圖10所示,封閉寡核苷酸1017 和1027被分別用于封閉結(jié)合區(qū)域1012和1022。封閉寡核苷酸1017與結(jié)合序列1016互 補,封閉寡核苷酸1027與結(jié)合序列1026互補。在5’銜接子臂和3’銜接子臂的示意圖中, 帶下劃線的堿基是雙脫氧胞嘧啶(ddC),粗體堿基是磷酸化的。封閉寡核苷酸1017和1027 與銜接子臂不是共價結(jié)合,可以在銜接子臂與文庫構(gòu)建體連接后和環(huán)化之前“融化掉”;并 且,雙脫氧核苷酸(這里是ddC,或者替代的另一種無法連接的核苷酸)防止封閉分子與銜 接子發(fā)生連接。另外或者作為一種替代,在某些方面中,封閉寡核苷酸-銜接子臂的雜交體 在銜接子臂和封閉分子之間含有一或多個堿基的缺口以減少封閉分子與銜接子的連接可 能。在某些方面中,封閉分子/結(jié)合區(qū)雜交體的Tms約為37°C以便封閉序列在銜接子臂連 接(環(huán)化)前容易融化。IVD ( ).連接方向的控制臂連臂連接在一個方面中,利用“臂連臂”連接方法可以控制銜接子的方向性插入,而無需修 飾靶核酸末端。一般來說,這是一個有兩個步驟的連接過程,其中銜接子臂被加至靶核酸, 伴隨鏈置換的引物延伸產(chǎn)生兩個雙鏈分子,每個有一個銜接子臂位于一端,然后可以給沒 有銜接子臂的末端添加第二銜接子臂。這個過程可以防止產(chǎn)生兩端含有相同銜接子臂的核 酸分子-例如,象圖IlA顯示的,臂連臂連接過程可以防止形成兩端均被銜接子A或銜接子 B占據(jù)的核酸分子。在許多實施方案中,優(yōu)選靶核酸的每端與不同的銜接子臂連接,這樣當(dāng) 兩個臂連在一起時它們能夠形成完整的一個銜接子。這在添加各銜接子臂后減少需要的擴 增步驟的數(shù)量尤其有用,因為臂連臂連接減少了每個連接反應(yīng)中無用分子的數(shù)量。
圖11顯示了臂連臂連接方法的一個實施方案。在這個實施方案中,去磷酸化的靶 核酸的兩條鏈均被加上了第一銜接子臂A的一條鏈。通常利用堿性磷酸酶將該銜接子臂的 一端(顯示為閉合環(huán)形)封閉。引物置換可以用來換下帶有封閉端的鏈。伴隨鏈置換的引 物延伸(在一個示范性實施方案中,這可以通過利用phi29或Pfu聚合酶來實現(xiàn))從兩個 末端開始,延伸過整個插入片段,產(chǎn)生兩個雙鏈核酸分子,每個一端帶有銜接子臂A,一端為 平末端。在替代實施方案中,銜接子臂A可以先與引物在被封閉鏈的上游雜交從而起動引 物延伸,而無需引物置換反應(yīng)。鏈置換聚合酶反應(yīng)后,即可給通常是靶核酸的平末端連接上 第二銜接子臂,而不是已帶有銜接子臂的末端。這種臂連臂連接過程可以防止形成兩端包 含相同銜接子臂的靶核酸。IVD (ii).連接方向的控制切口平移法在一個實施方案中,本發(fā)明提供了用于構(gòu)建核酸分子的“切口平移法”。在一個實 施方案中,所述切口平移法被用于以希望的方向來連接核酸分子。在另一個實施方案中,切 口平移法被用于以希望的方向插入銜接子。這些方法通常涉及將待連接的核酸分子之一或 者兩者的一個或兩個末端進行修飾。例如,將銜接子連接至靶核酸時,要連接的靶核酸和銜 接子中的一個或者這兩者的一個或兩個末端被修飾。這類修飾后,插入到構(gòu)建體一條鏈中 的切口的“移位”或“平移”提供了控制連接好的銜接子-靶核酸構(gòu)建體的最終方向的能力。 如下文更詳細(xì)描述的,本文描述的“切口平移法”還可以包括引物延伸或缺口填平法。雖然 以下討論是就控制銜接子與靶核酸的連接而言的,可以理解這些方法并不限于銜接子與靶 核酸的連接,這些方法還可以用于控制任何兩個核酸分子的連接。例如,切口平移法和本文 描述的任何其他控制連接的方法可以作為基因和/或DNA工程方法的一部分,比如構(gòu)建新 的質(zhì)?;蚱渌鸇NA載體,基因或基因組合成或修飾,以及用于構(gòu)建納米技術(shù)構(gòu)建體的組件。圖13示意了這種“切口平移”類型的過程。圖13中的構(gòu)建體1306是利用本文討 論的方法形成的,其含有散在的銜接子1304,限制性核酸內(nèi)切酶識別位點(圖13中的箭頭 尾部)和切割位點。在圖14中,文庫構(gòu)建體未被環(huán)化,而是靶核酸片段1406(含有限制性 核酸內(nèi)切酶識別位點1404)和銜接子1412交替的分支多聯(lián)體;但是,圖13中顯示的切口平 移類型的過程也可以在文庫構(gòu)建體構(gòu)型上進行。名詞“文庫構(gòu)建體”用在文中是指包含一 或多個銜接子的核酸構(gòu)建體,與名詞“核酸模板”可以互換。帶有插入的第一銜接子的文庫構(gòu)建體經(jīng)限制性核酸內(nèi)切酶消化(過程1301),在 某些方面中,是切割靶核酸產(chǎn)生3’核苷酸突出1308的II型限制性核酸內(nèi)切酶。在圖11 中,顯示了兩個核苷酸(NN-3')的1308,雖然不同方面中突出端核苷酸的數(shù)目至少部分取 決于所用限制性核酸內(nèi)切酶而各不相同。文庫構(gòu)建體1310被線性化,其中的第一個插入 的銜接子顯示為1304。第一個插入的銜接子1304被工程化成包含位于銜接子片段邊界的 切口 1312;或者包含核酸切口內(nèi)切酶的識別位點,可以在銜接子內(nèi)部引入切口 1314。兩種 情況下,均用聚合酶1316處理(1303)文庫構(gòu)建體,該聚合酶能夠?qū)⑽膸鞓?gòu)建體1310的上 鏈從切口 1312或1314延伸至下鏈末端形成一端帶有3’突出,另一端為平末端的鏈。過程 1305中給這個文庫構(gòu)建體1310連接上第二銜接子1318,該第二銜接子1318 —端有簡并核 苷酸突出,另一端為單個3’核苷酸(例如dT)突出形成文庫構(gòu)建體1320。然后在過程1307 中處理文庫構(gòu)建體1320在其平末端添加3' dA。然后可以利用例如含有尿嘧啶的引物經(jīng) PCR擴增文庫構(gòu)建體1322。替代地,可以在過程1309中將文庫構(gòu)建體1322環(huán)化,這種情況
25中可以進行CDA(比如在圖14中的步驟1421)。這里討論的過程與圖13中顯示的切口平移 過程聯(lián)合可以選擇后續(xù)添加的銜接子與任何先前插入文庫構(gòu)建體的銜接子的相對位置和 相對方向。為了利用切口平移類型的程序,象上文討論過的將靶核酸和/或銜接子的一個或 兩個末端修飾可能是有益的。在一個示范性實施方案中,意欲與靶核酸3’端連接的銜接子 的第一臂可以設(shè)計成其3’末端被封閉,因此只有銜接子臂的5’端可供與靶核酸的3’端連 接。類似的,意欲與靶核酸5’端連接的第二臂可以設(shè)計成其5’端被封閉,因此只有第二臂 的3’端可以與靶核酸的5’端連接。封閉銜接子臂和/或靶核酸的一端的方法是本領(lǐng)域已 知的。例如,用上文討論過的能夠產(chǎn)生特定功能的末端并從3’和5’端除去磷酸的酶處理 靶核酸(文中又稱為“核酸插入”或“DNA插入”或“插入”)。除去全部磷酸基團使得靶核 酸分子不能相互連接。該實施方案中的銜接子也被設(shè)計成有一條鏈可以進行連接(例如通 過產(chǎn)生或者保留5’磷酸基團),互補鏈的3’端被保護不能連接。通常,對3’端的保護是利 用雙脫氧核苷酸將3’端失活而實現(xiàn)的。因此,當(dāng)被修飾的靶核酸兩端都沒有磷酸基團,修 飾的銜接子在一個5’端包含磷酸基團,互補鏈上3’被封閉(例如,雙脫氧),唯一可能形 成的連接產(chǎn)物是靶核酸連接至帶有磷酸基團的銜接子5’端。該連接步驟之后,銜接子被保 護的3’端可以置換為含有功能性3’端的鏈。實現(xiàn)這個置換通常是利用了 3’被保護的鏈 一般較短,容易變性這一事實。帶有功能性3’端的置換鏈較長,因此能夠更有效地結(jié)合互 補鏈-在其他實施方案中,帶有功能性末端的鏈同時添加濃度更高,從而進一步影響反應(yīng) 向著被保護的鏈被帶有功能性末端的鏈置換進行。然后通過加入具有切口平移活性的DNA 聚合酶將帶有功能性3’端的鏈引發(fā),聚合酶從靶核酸的5’端核酸外切地除去堿基,從而暴 露出功能性5’磷酸。這個新產(chǎn)生的5’磷酸可以經(jīng)連接酶連接至延伸產(chǎn)物上。(如果延伸 反應(yīng)過程中沒有連接酶,兩個聚合酶分子將從靶核酸的每個末端切口平移直至相遇,產(chǎn)生 斷裂的分子)。例如,如圖2所示,靶核酸(插入)首先被末端修復(fù)形成特定功能的末端, 優(yōu)選是平末端。然后,為了避免插入物形成多聯(lián)體,去除5’端磷酸。然后將插入物與DNA 連接酶和DNA銜接子混合。所述DNA銜接子含有兩個寡核苷酸,當(dāng)兩個寡核苷酸同時雜交 時,有一個平末端和一個粘末端。平末端一側(cè)含有一個帶有被保護/失活的3’端的“上游 鏈(top-strand) ”,和一個帶有功能性5’端磷酸的“下游鏈(bottom-strand),,,因此也不能 自身連接。這樣唯一可能的連接組合是每個末端平末端連接一個“下游鏈”的一個插入物。 然后帶有3’端保護的“上游鏈”與含有功能性3’端的寡核苷酸置換,該寡核苷酸可以作為 聚合酶延伸反應(yīng)中的引物。一加入聚合酶和連接酶,即可通過切口平移和連接反應(yīng)嵌入第 二個寡核苷酸。當(dāng)聚合酶延伸至插入物內(nèi),它會引入一個帶有功能性5’磷酸的切口,該切 口可以被DNA連接酶所識別和封上。得到的每條鏈的每端帶有銜接子或銜接子臂的插入物 這時可以利用銜接子特異引物進行PCR。通常在諸如上文描述的切口平移反應(yīng)中,在加入聚合酶之前或者與聚合酶同時, 混合物中存在或者要加入活性連接酶。在某些實施方案中,使用低活性聚合酶(低切口平 移)條件可能是有益的。在聚合酶之前或者同時加入連接酶以及低活性條件都有助于保證 平移的切口在到達DNA片段相反一端前被封上。在某些實施方案中,這可以通過在37°C (該 溫度通常導(dǎo)致低聚合酶活性和高連接酶活性)溫育Taq聚合酶和T4連接酶來實現(xiàn)。然后 反應(yīng)可以在更高溫度(比如50-60°C )繼續(xù)進行溫育以便保證反應(yīng)中的多數(shù)/全部構(gòu)建體都完成切口平移連接。在其他實施方案中,本發(fā)明提供了形成核酸模板構(gòu)建體的方法,所述核酸模板構(gòu) 建體包含多個散在分布的銜接子。本發(fā)明的方法包括插入多個銜接子,使每個后續(xù)的銜 接子在相對先前添加的銜接子的特定位置上插入的方法。插入多個散在分布的銜接子的 某些方法是本領(lǐng)域已知的,例如象美國專利申請60/992,485,61/026, 337,61/035, 914、 61/061, 134,61/116,193,61/102,586,12/265,593,12/266,385,11/679,124,11/981,761、 11/981,661、11/981,605、11/981,793和11/981,804中討論的,為了所有目的,特別是涉及 產(chǎn)生包含多個散在分布銜接子的核酸模板的方法和組合物,以及這類核酸模板的所有使用 方法的全部教導(dǎo),這些文獻均通過引用全文并入本文。將已知銜接子序列插入靶序列,從而 使得連續(xù)的靶序列被多個散在分布的銜接子打斷,提供了給每個銜接子“上游”和“下游”測 序的能力,因此增加了由每個核酸模板可以產(chǎn)生的序列信息量。本發(fā)明提供了相對一或多 個先前添加的銜接子特定位置插入每個后續(xù)銜接子的其他方法。切口平移連接通常是在連接了第一鏈之后通過向反應(yīng)至少添加聚合酶來進行的。 在某些實施方案中,切口平移反應(yīng)可以通過將所有成分一次性加入以一步反應(yīng)進行,而在 另一些實施方案中,反應(yīng)步驟順序進行。切口平移反應(yīng)的“一步”法有多種可能的實施方 案。例如,可以使用含有引物的單一混合物,其中Taq在反應(yīng)開始加入。使用熱穩(wěn)定的連接 酶提供了通過簡單提高溫度來進行引物交換和切口平移連接(以及PCR,如果需要)的能 力。在另一個示范性的實施方案中,反應(yīng)混合物含有最低濃度的非進行性的切口平移聚合 酶,和能夠活化3’封閉鏈的弱3’核酸外切酶。在其他實施方案中,利用T4多核苷酸激酶(PNK)或堿性磷酸酶來改變銜接子和/ 或靶核酸的3’端,準(zhǔn)備切口平移過程。例如,可以作為環(huán)化反應(yīng)的一部分插入銜接子。末端 修復(fù)并且堿性磷酸酶處理過的靶核酸與銜接子連接,在該示范性實施方案中被設(shè)計成能夠 形成自身互補的發(fā)夾形單元(圖16)。所述發(fā)夾被設(shè)計成在給定位置含有可以被酶或化學(xué) 物識別和切割的修飾。例如,如果發(fā)夾含有脫氧尿苷,脫氧尿苷可以被UDG/EndoVIII識別 和切割。切割后,兩個發(fā)夾變成其各自的3’端帶有磷酸的單鏈。然后這些3’磷酸可以經(jīng) T4多核苷酸激酶(PNK)或堿性磷酸酶(SAP)除去以便如文中進一步描述的進行切口平移 法。在示范性實施方案中,比如圖4A中示意的實施方案,兩個發(fā)夾被設(shè)計成相互部分互補, 因此可以通過分子內(nèi)雜交形成環(huán)形分子。最后,環(huán)化的分子進入切口平移過程,過程中聚合 酶延伸至插入物中,引入能夠被DNA連接酶識別和封上的帶有功能性5’端磷酸的切口。除了如上所述利用發(fā)夾結(jié)構(gòu),還可以使用一對互相部分互補的雙鏈銜接子進行環(huán) 化。一對一條鏈上含有可以被UDG/EndoVIII識別和切割的脫氧尿苷。還可以使用其他在 一條鏈做切口的方法,包括但不限于切口酶、引入可以被內(nèi)切核苷酸類的酶識別的肌苷修 飾的DNA,以及給DNA引入可以被RNA-核酸內(nèi)切酶識別的RNA修飾。可以如上文所述,將靶 核酸和銜接子準(zhǔn)備好進行受控的連接,例如通過用堿性磷酸酶處理靶核酸產(chǎn)生不能與其他 靶核酸連接的平末端。環(huán)化的激活是通過將銜接子中的短3’保護的鏈從與靶核酸連接的 鏈中變性,在靶核酸插入的每個末端留下兩個部分互補的單鏈末端。然后這些末端通過分 子內(nèi)雜交連到一起,進行切口平移和連接,形成共價閉合環(huán)。然后用UDG/EndoVIII處理這 些環(huán),產(chǎn)生供下一個銜接子定向插入的環(huán)。圖15顯示的再一些實施方案中,用蝦堿性磷酸酶(SAP)處理線性靶核酸以除去5’磷酸。然后,將靶核酸與銜接子的一個臂(臂A)連接,所述臂包含帶有5’磷酸的一條鏈, 和帶有被保護的3’末端的較短互補鏈。然后對連接產(chǎn)物進行切口平移。環(huán)化反應(yīng)中產(chǎn)生 的切口位于第一銜接子的上游鏈,可以作為切口平移反應(yīng)中聚合酶使用的引物。聚合酶將 上游鏈延伸至銜接子_插入物會合處的切口,釋放銜接子A臂之一,產(chǎn)生平末端或A或G突 出。然后,得到的聚合酶產(chǎn)生的插入物末端與第二銜接子臂(臂B)連接。通過設(shè)計第一銜 接子在環(huán)化反應(yīng)中產(chǎn)生切口,后續(xù)的銜接子可以以預(yù)先確定的方向加入。這個策略可以應(yīng) 用于所有II型限制性酶或其它酶促或非酶促片段化方法中,不論它們產(chǎn)生的消化產(chǎn)物是 帶有平末端、3’突出還是5’突出。之后的引物置換、延伸、連接和PCR與圖2中描述的類 似。還可以利用非擴增方式來封閉環(huán)形,包括將被封閉的寡核苷酸熔解,然后經(jīng)切口平移連 接反應(yīng)實現(xiàn)DNA環(huán)化。具有校正活性的聚合酶(具有3’ -5’核酸外切酶活性,比如Pfu聚合酶)和不具 有校正活性的聚合酶(缺乏3’ -5’核酸外切酶活性,比如Taq),都可以用于本文描述的切 口平移和包括鏈置換過程的鏈合成。具有校正活性的聚合酶在切口平移過程中可以有效地 產(chǎn)生平末端,但其缺點是會同樣降解未保護的3’突出。因此得到的切口平移產(chǎn)物會有兩個 平末端,因此不能以特定的方向與隨后的銜接子連接。一個解決方法是例如在3’端上使用 雙脫氧核糖核苷三磷酸(ddNTP)以保護已連接的銜接子(例如圖15中的臂A)的3’端不 被降解。但是,ddNTP保護也保護了 3’端不能進行之后的延伸,因此限制了銜接子在直接 環(huán)化過程中被向前推進。另一種潛在的解決方法是利用3’端上的修飾(例如3’磷酸)保 護3’端不被聚合酶降解,其中所述修飾可以在切口平移環(huán)化之前去除(例如利用堿性磷酸 酶)。另一種方法是在切口平移反應(yīng)中利用發(fā)夾形的銜接子結(jié)合具有校正活性的聚合酶。 這些銜接子能夠免于被降解,但缺點是需要額外的UDG/EndoVIII步驟。此外,發(fā)明人發(fā)現(xiàn) 有一種具有校正活性的聚合酶Pfu聚合酶,能夠在不降解未被保護3’突出的情況下有效地 產(chǎn)生平末端,表明其具有較低的3’ -5’核酸外切酶活性。不具有校正活性的聚合酶,比如Taq聚合酶,在切口平移過程中既可以產(chǎn)生平末 端,也可以產(chǎn)生單堿基突出(Taq除了平末端,還可以產(chǎn)生不依賴模板的A-和G-尾)。在切 口平移過程中使用不具有3’ -5’核酸外切酶活性的聚合酶的優(yōu)點是未被保護的3’突出可 以保持完整。這使得不需要保護3’突出免于降解,即可以特定的方向連接隨后的銜接子。 許多具有校正活性的聚合酶的潛在缺點是它們有在不依賴模板的過程中,向3’端添加單個 核苷酸的功能。這個過程非常難以控制,經(jīng)常會產(chǎn)生混合的3’末端群體,導(dǎo)致低銜接子對 插入物連接產(chǎn)率。一般來說,采用平末端連接的方法比單堿基突出連接效率更高。在一個實施方案中,連接第一銜接子后,不是形成環(huán)形然后用第一銜接子中含有 其識別位點的II型核酸內(nèi)切酶切割(這是本發(fā)明產(chǎn)生核酸模板的某些實施方案中的一個 步驟,比如圖6和圖9中圖示的實施方案),而是利用切口平移法的一種變化來添加第二銜 接子。圖17中圖示了這種變化的示范性實施方案。通常,如以上詳細(xì)描述及圖6和圖9中 顯示的,這些實施方案開始是給靶核酸添加第一銜接子,然后環(huán)化。在圖17A顯示的實施方 案中,利用具有5’_3’核酸外切酶活性的聚合酶(比如Taq聚合酶)進行切口平移,產(chǎn)生的 是第一銜接子位于靶核酸內(nèi)部的反轉(zhuǎn)圓環(huán)。然后可以將這個產(chǎn)物末端修復(fù),進行與銜接子 2的連接(利用以上詳細(xì)描述過的方法)。這個實施方案的一個缺點是靶核酸可能比測序 所需要的更長,而在由模板產(chǎn)生的任何核酸多聯(lián)體(由本發(fā)明的核酸模板產(chǎn)生多聯(lián)體在下文有更詳細(xì)的討論)中,這種長模板可能很容易形成二級結(jié)構(gòu).當(dāng)這些多聯(lián)體被用于測序 應(yīng)用(比如下文討論的cPAL方法)時,這類二級結(jié)構(gòu)可能導(dǎo)致信號下降。克服這個缺點的 一種方式是通過將靶核酸變短-圖17B畫出了這種方法的一個示范性實施方案。在該實施 方案中,利用本文描述的方法用尿嘧啶修飾第一銜接子。切口平移-包含第一銜接子的環(huán) 反轉(zhuǎn)之后,銜接子C臂被添加到末端修復(fù)過的分子的兩個末端。尿嘧啶修飾的銜接子1經(jīng) 處理除去尿嘧啶,產(chǎn)生缺口,并且經(jīng)處理產(chǎn)生被活化的3’端。通常,通過使用UDG/EndoVIII 酶混合物除去尿嘧啶,用PNK和/或堿性磷酸酶除去3’磷酸產(chǎn)生活化的3’端。銜接子1 的活化3’端和銜接子臂C的3’端被切口平移聚合酶(即具有5’ -3’核酸外切酶活性的聚 合酶)識別,產(chǎn)生的產(chǎn)物中銜接子1被已修剪到其原始長度大約一半的靶核酸圍繞。如果 銜接子1被其他切口修飾(包括但不限于引入肌苷、RNA修飾等等)所修飾過,可以反復(fù)進 行這一聚合酶切割程序以便進一步降低靶核酸的大小。如圖17C所示的其他實施方案中,圖17A和B中顯示的切口平移法可以擴展到插 入多個銜接子。通過修飾銜接子,可以形成切口、缺口和功能性3’端由多個銜接子同時引 導(dǎo)切口平移反應(yīng)。如圖17C所示,包含靶核酸和兩個銜接子(每個的一條鏈上含有尿嘧啶 修飾)的核酸構(gòu)建體被環(huán)化。然后,用諸如UDG/EndoVIII的酶混合物處理圓環(huán)以便除去尿 嘧啶并引入缺口。這些缺口可以同時進行切口平移將圓環(huán)反轉(zhuǎn),使得構(gòu)建體可以與另外的 銜接子連接。通過在相同銜接子上加上多個修飾,可以進行隨后的切口 /缺口和切口平移 反轉(zhuǎn)來引入多個銜接子。在某些實施方案中,可以將尿嘧啶加回到銜接子中的相同位置,使 銜接子適合進行進一步切口平移反應(yīng)??梢酝ㄟ^例如將切口平移反應(yīng)與單獨尿嘧啶溫育給 銜接子重建修飾,然后添加更高濃度未修飾的核苷酸來填充構(gòu)建體的其他部分將尿嘧啶加 回去。圖17D顯示的再一些實施方案中,通過控制切口平移酶的速度可以修短靶核酸。 例如,可以通過改變溫度或限制試劑使切口平移酶變慢,可能導(dǎo)致環(huán)化插入物中被引入兩 個切口,利用切口平移過程從銜接子中的原始位點開始移動。類似的,利用鏈置換聚合酶 (比如phi29)會導(dǎo)致切口被移動,由于核酸的一個區(qū)段被置換而產(chǎn)生分支點。這些切口或 分支點可以被多種酶(包括但不限于,Sl核酸內(nèi)切酶、Bal31、T7核酸內(nèi)切酶、綠豆核酸內(nèi)切 酶以及酶的組合,比如5’ _)3’核酸外切酶,比如T7核酸外切酶和Sl或綠豆核酸內(nèi)切酶) 識別,這些酶會切割切口的相反鏈,產(chǎn)生線性產(chǎn)物。該產(chǎn)物然后可以被末端修復(fù)(如果需 要),并與下一個銜接子連接。剩下的靶核酸的大小將被切口平移反應(yīng)速度所控制,同樣通 過例如降低試劑(比如dNTPs)濃度,或通過在不是最佳的溫度下進行反應(yīng)。靶核酸的大小 還可以通過切口平移反應(yīng)的溫育時間來控制。其他實施方案中,可以利用切口平移法不經(jīng)任何環(huán)化步驟的轉(zhuǎn)換來形成核酸模 板。圖18中展示了這類方法的示范性實施方案,該圖顯示了利用以上描述的連接方法,比 如通過用蝦堿性磷酸酶處理靶核酸以除去磷酸基團從而控制可供與第一銜接子連接的靶 核酸的末端,發(fā)夾形的第一銜接子1801與靶核酸1802連接。連接第一銜接子后,進行受控 的雙鏈特異性5’ -3’核酸外切酶反應(yīng)來產(chǎn)生單鏈3’端。在某些實施方案中,使用T7核酸 外切酶進行核酸外切酶反應(yīng),雖然可以理解發(fā)明的這些實施方案中可以使用其他雙鏈特異 性核酸外切酶。其他實施方案中,核酸外切酶反應(yīng)產(chǎn)生了長度大約100到大約3000堿基的 單鏈3’端。再一些實施方案中,核酸外切酶反應(yīng)產(chǎn)生長度大約150到大約2500、大約200
29到大約2000、大約250到大約1500、大約300到大約1000、大約350到大約900、大約400 到大約800、大約450到大約700和大約500到大約600堿基的單鏈3’端??梢岳斫?,本文描述的切口平移過程可以與文中描述的任何其他添加銜接子的方 法聯(lián)用。例如,上面描述過并在圖IlA中示意的臂連臂連接過程可以與切口平移過程聯(lián)用 來制備用于PCR擴增的構(gòu)建體。其他實施方案中,臂連臂連接反應(yīng)中使用的銜接子臂A可以設(shè)計成不需PCR直接 環(huán)化,然后經(jīng)切口平移連接封上圓環(huán)。在示范性實施方案中,用于直接環(huán)化,銜接子臂A可 以設(shè)計成圖IlB畫的那樣。區(qū)段1101被設(shè)計成與銜接子臂B互補。圖IlB中的構(gòu)建體可 以通過鏈置換聚合酶(比如phi29)直接引物延伸,而不需要引物交換反應(yīng)來除去被封閉的 末端(聚合酶不會延伸跨過區(qū)段1102上的3’磷酸)。這個構(gòu)建體還提供了用于環(huán)化的3’ 突出。區(qū)段1102防止銜接子臂A與銜接子臂B在環(huán)化前雜交。在某些實施方案中,可能不 需要區(qū)段1102來防止與臂B雜交(比如當(dāng)銜接子臂B處于非常高的濃度)或者區(qū)段1102 可以作為銜接子臂B而不是銜接子臂A的設(shè)計的一部分。產(chǎn)生單鏈3’端后,第二銜接子1803與靶核酸的單鏈3’末端雜交,通過切口平移 連接反應(yīng)(在一個實施方案中,所述切口平移連接是“引物延伸”或“缺口填平”反應(yīng))與 第一銜接子相連。第二銜接子帶有5’磷酸和3’封閉(標(biāo)識為豎線1804)。某些實施方案 中,3’封閉可以是可除去的封閉,比如3’磷酸,這在某些示范性實施方案中,可以利用多核 苷酸激酶(PNK)和/或蝦堿性磷酸酶除去。第二銜接子在某些實施方案中在3’和/或5’ 端帶有簡并堿基。某些示范性實施方案中,第二銜接子在5’端有大約2-6個簡并堿基,在 3’端有4-9個簡并堿基,但可以理解,本發(fā)明涵蓋第二銜接子一端或兩端帶有任何數(shù)量組 合的簡并堿基。在圖18圖示的實施方案中,第二銜接子包含5’端3個簡并堿基(“N3”), 3’端7個簡并堿基(“N7”)。在某些實施方案中可以在有利于銜接子與靶核酸雜交的反 應(yīng)條件下實現(xiàn)第一銜接子與第二銜接子的接合。某些示范性實施方案中,這種反應(yīng)條件可 能包括從大約20到大約40°C的溫度??梢栽谶@種反應(yīng)條件下使用的聚合酶包括但不限于 phi29、Klenow、T4 聚合酶和 Pol I。然后將連接產(chǎn)物1805變性和/或進一步用5’ _3’核酸外切酶處理,之后通過重 新退火步驟形成兩個單鏈核酸分子(以圖18中的“x2”指示)。在重新退火過程中,第二 銜接子的N7部分可以與離第一雜交序列基元隨機距離的區(qū)段雜交,從而形成單鏈圈1806。 某些實施方案中,第二銜接子的N7末端可能不發(fā)生雜交,直至變性產(chǎn)生長的單鏈核酸區(qū)域 1807。兩個被捕獲的基因組區(qū)段(它們的通常長度為大約20到大約200個堿基)的平均 距離在許多實施方案中在大約0. 5到大約20kb之間。這個平均距離部分取決于銜接子中 簡并堿基(“Ns”)的數(shù)量和雜交條件的嚴(yán)緊度。然后重新退火步驟之后可以進行另一輪銜 接子雜交和切口平移連接。最后的銜接子(圖18中,這個最后的銜接子顯示為第三銜接子 1808,但可以理解,最后的銜接子可以是按照本文描述的任何方法插入的第四、第五、第六、 第七或更多銜接子)與第二銜接子類似,但在許多實施方案中缺少3’端的簡并堿基。其他 實施方案中,最后的銜接子可能包含擴增反應(yīng)引物,例如PCR引物的結(jié)合位點。其他實施方案中,擴增反應(yīng),比如PCR反應(yīng)(參見圖18中的1809),可以通過利用 第一和最后的銜接子中包含的引物結(jié)合位點來進行。再一些實施方案中,第一和最后的銜 接子可能是同一銜接子的兩個臂,可以在添加最后的銜接子前插入一個以上銜接子。還有一些實施方案中,擴增產(chǎn)物可以用于形成環(huán)形雙鏈核酸分子,以便利用本文描述的或者本 領(lǐng)域已知的任何過程進一步插入銜接子。IVD(iii).后續(xù)銜梓子的等控插入限制t牛核酸內(nèi)切ISiR另I丨位點的{呆牛戶除了如上所述控制插入靶核酸的銜接子的方向,還可以相對先前插入的銜接子以 特定的位置在靶核酸中插入多個銜接子。這種方法包括的實施方案中,某些限制性核酸內(nèi) 切酶識別位點,特別是先前插入的銜接子中含有的識別位點,被保護不被失活。為了將隨后 的銜接子以希望的位置和方向連接,本發(fā)明提供的方法中II型限制性核酸內(nèi)切酶與環(huán)形 核酸構(gòu)建體中第一銜接子內(nèi)的識別位點結(jié)合,然后在第一銜接子外,基因組片段(文中又 稱為“靶核酸”)內(nèi)的某個點切割。然后可以在發(fā)生切割的點上連接第二銜接子(同樣一 般是通過添加第二銜接子的兩個銜接子臂)。為了在已知點切割靶核酸,有必要封閉靶核 酸中可能隨機包含的相同酶的任何其他識別位點,這樣限制性核酸內(nèi)切酶可以結(jié)合的唯一 位點在第一銜接子內(nèi),從而避免對構(gòu)建體進行不需要的切割。通常,首先保護第一銜接子中 的識別位點不被失活,然后一般是通過甲基化將構(gòu)建體中任何其他未被保護的識別位點失 活。文中限制性核酸內(nèi)切酶識別位點的“失活”意味著以某種方式使所述識別位點不能被限 制性核酸內(nèi)切酶結(jié)合,從而阻止了該酶的下游切割步驟。例如,甲基化的識別位點不能與限 制性核酸內(nèi)切酶結(jié)合,因此不發(fā)生切割。一旦核酸構(gòu)建體中的所有未被保護的識別位點被 甲基化,只有銜接子內(nèi)的未甲基化識別位點允許酶結(jié)合以及隨后的切割。使識別位點失活 的其他方法包括但不限于給識別位點使用甲基化酶阻斷劑、利用封閉寡核苷酸封閉識別位 點、利用諸如鋅指蛋白的其它封閉分子來封閉識別位點,以及給識別位點做切口來防止甲 基化。這類保護所需識別位點的方法在2008年11月5日提交的美國專利申請12/265,593 和2008年11月6日提交的12/266,385中有描述,為了所有目的,尤其是與在靶核酸中插 入多個散在分布的銜接子有關(guān)的全部教導(dǎo),這兩份文獻通過引用全文并入本文??梢岳斫猓陨厦枋龅挠糜诳刂沏暯幼优c靶核酸相互連接的方向的方法還可以與 下文描述的控制每個隨后加入的銜接子的間隔的方法聯(lián)用。本發(fā)明一個方面提供了保護第一銜接子中的識別位點不被失活的方法,所述方法 通過使第一銜接子中的識別位點成為單鏈,這樣只能將雙鏈分子甲基化的甲基化酶不能甲 基化被保護的識別位點。使第一銜接子中的識別位點單鏈化的一種方法是利用經(jīng)尿嘧啶修 飾的引物擴增與兩個第一銜接子臂連接的線性基因組片段。引物與銜接子臂互補,并用尿 嘧啶修飾,這樣在擴增(通常利用PCR)時,得到的線性構(gòu)建體含有鑲嵌在一個銜接子臂的 識別位點中的尿嘧啶。引物產(chǎn)生的PCR產(chǎn)物中尿嘧啶靠近第一銜接子的第一和/或第二臂 中的II型限制性核酸內(nèi)切酶識別位點。針對尿嘧啶進行消化使得銜接子臂中包括II型識 別位點的區(qū)域被保護單鏈化。然后給線性構(gòu)建體使用序列特異性甲基化酶,該酶將與第一 銜接子中含有的相同核酸內(nèi)切酶的所有雙鏈識別位點甲基化。這種序列特異性甲基化酶不 能將第一銜接子臂中的單鏈識別位點甲基化,因此第一銜接子臂內(nèi)的識別位點被保護免于 通過甲基化失活。某些情況中,如下文更充分描述的,單個銜接子可能有兩個相同的識別位點,可以 允許從同一銜接子的“上游”和“下游”切割。在該實施方案中,如圖7闡述的,恰當(dāng)?shù)剡x擇 引物和尿嘧啶位置,從而使“上游”或“下游”識別位點選擇性地受保護免于失活或被失活??梢酝ㄟ^用與第一銜接子的第二臂中的識別位點(即開始通過甲基化被失活的識別位點)結(jié)合的限制性核酸內(nèi)切酶切割來將第三銜接子插入到第一銜接子的另一側(cè)。為 了使這個識別位點可供使用,利用尿嘧啶修飾的引物(該引物與第一銜接子中的第二識別 位點互補)擴增環(huán)形構(gòu)建體產(chǎn)生第三線性構(gòu)建體,其中第一銜接子包含鑲嵌在第二限制性 識別位點的尿嘧啶。降解尿嘧啶使第一銜接子單鏈化,從而保護銜接子中的識別位點不被 甲基化。然后使用序列特異性甲基化酶將所有未被保護的識別位點失活。當(dāng)環(huán)化時,第一 銜接子中的識別位點重新構(gòu)成,使用限制性核酸內(nèi)切酶切割環(huán)形,產(chǎn)生第三銜接子可以在 此插入第三線性構(gòu)建體的位置。第三銜接子臂與第三線性構(gòu)建體的連接遵循以上描述的同 一大概程序_第三線性構(gòu)建體將被加A或G尾,第三銜接子臂將被加T或C尾,使得銜接子 臂與第三線性構(gòu)建體退火,并連接。然后將包含第三銜接子臂的線性構(gòu)建體環(huán)化形成第三 環(huán)形構(gòu)建體。與第二銜接子相同,第三銜接子通常包含的限制性核酸內(nèi)切酶的識別位點與 第一銜接子中含有的識別位點不同。利用第二和第三銜接子中含有其識別位點的II型限制性核酸內(nèi)切酶,可以加入 第四銜接子。用這些限制性核酸內(nèi)切酶進行切割產(chǎn)生第四線性構(gòu)建體,然后與第四銜接子 臂連接。連接了第四銜接子臂的第四線性構(gòu)建體的環(huán)化將產(chǎn)生本發(fā)明的核酸模板構(gòu)建體??偟膩碚f,本發(fā)明的方法提供了特異保護II型核酸內(nèi)切酶識別位點不被失活的 方式,這樣一旦構(gòu)建體中所有其他未保護識別位點失活后,加入II型核酸內(nèi)切酶將導(dǎo)致與 被保護位點的結(jié)合,因此可以控制構(gòu)建體中何處發(fā)生隨后的切割。以上描述的方法提供了 如何保護所需識別位點不被失活的一種實施方案。可以理解,利用本領(lǐng)域已知技術(shù)可以改 進上述方法,并且這些改進的方法也涵蓋在本發(fā)明內(nèi)。在一個示范性實施方案中,每個隨后插入的銜接子的插入方法中聯(lián)用一些方法保 護識別位點不被失活。圖19圖示的實施方案中第二銜接子以希望的位置相對第一銜接子 插入,其采用的過程是組合使用尿嘧啶降解和切口酶來甲基化和保護不被甲基化。圖19顯 示目的基因組DNA1902帶有位于1904的II型限制性核酸內(nèi)切酶識別位點。所述基因組 DNA在過程1905中分級或片段化產(chǎn)生帶有II型限制性核酸內(nèi)切酶識別位點1904的片段 1906。過程1907中銜接子臂1908和1910與片段1906連接。過程1911中,利用與銜接子 臂1908和1910互補的尿嘧啶修飾的引物1912,經(jīng)PCR擴增片段1906與第一和第二銜接子 臂1908和1910 (文庫構(gòu)建體)。引物產(chǎn)生的PCR產(chǎn)物中帶有靠近II型限制性核酸內(nèi)切酶 識別位點的尿嘧啶。過程1913中,利用例如尿嘧啶-DNA糖基化酶(Krokan,et al.,(1997) Biochem. J. 325 :1_16)特異降解尿嘧啶,留下的PCR產(chǎn)物在II型限制性核酸內(nèi)切酶識別位 點區(qū)域是單鏈的。正如已顯示的,可以利用尿嘧啶的引入和降解使II型限制性核酸內(nèi)切酶 識別位點單鏈化;但是,正如本文進一步描述的,可以采用其他方法,包括使用3'或5'核 酸外切酶有限地消化使這些區(qū)域單鏈化。過程1915中,利用序列特異的切口酶將每個雙鏈的II型限制性核酸內(nèi)切酶識別 位點做切口以便保護這些位點不被II型限制性核酸內(nèi)切酶識別。但是,第一和第二銜接子 臂1908和1910中單鏈的II型限制性核酸內(nèi)切酶識別位點部分不會被切開,一旦環(huán)化并連 接(1917),第一和第二銜接子臂中的II型限制性核酸內(nèi)切酶識別位點重新形成,該II型限 制性核酸內(nèi)切酶識別位點可以被限制消化。當(dāng)選擇用于這個過程的切口酶和II型限制性 核酸內(nèi)切酶時,優(yōu)選這兩個酶識別相同的序列或者一個酶識別另一個酶的亞序列(某序列 內(nèi)的序列)。替代地,所述切口酶可以識別不同的序列,但是該序列位于銜接子內(nèi),因此切口酶在II型限制性核酸內(nèi)切酶識別位點內(nèi)切開。利用尿嘧啶或者3'或5'降解允許整個 過程使用一種切口酶。替代地,可以采用一種以上序列特異性切口酶。然后在過程1919中 用II型限制性核酸內(nèi)切酶切割環(huán)化的構(gòu)建體,其中II型限制性核酸內(nèi)切酶識別位點指示 為1922,構(gòu)建體在1920切割,切口如1918所示,得到的線性構(gòu)建體可以用于第二套銜接子 臂在過程1921中連接添加到構(gòu)建體中。連接過程1921將第二銜接子的第一(1924)和第二(1926)銜接子臂加入線性化 構(gòu)建體,過程1923中經(jīng)PCR進行第二次擴增,同樣是使用與銜接子臂1924和1926互補的 尿嘧啶修飾過的引物1928。與上面一樣,引物產(chǎn)生的PCR產(chǎn)物中帶有靠近II型限制性核 酸內(nèi)切酶識別位點的尿嘧啶。過程1925中,尿嘧啶被特異降解,留下的PCR產(chǎn)物在第二銜 接子的第一和第二銜接子臂1924和1926中的II型限制性核酸內(nèi)切酶識別位點是單鏈的。 連接過程1921同樣可以修復(fù)靶核酸片段1906中的II型限制位點1904中的切口 1918。過 程1927中,再次利用序列特異的切口酶將靶核酸片段(發(fā)生II型限制性核酸內(nèi)切酶識別 位點1904的切開1914)和第一銜接子1930中的雙鏈II型限制性核酸內(nèi)切酶識別位點的 堿基切開,以保護這些位點不被II型限制性核酸內(nèi)切酶識別。帶有切口的構(gòu)建體然后在過程1929被環(huán)化和連接,其中第二銜接子的第一和第 二臂1924和1926中的II型限制性核酸內(nèi)切酶識別位點重新形成(1932),重復(fù)進行這一過 程,環(huán)化的構(gòu)建體在過程1931中被再次用II型限制性核酸內(nèi)切酶切割產(chǎn)生另一個線性化 的構(gòu)建體(這個中已加入了第一和第二銜接子)供第三對銜接子臂1936和1938連接到構(gòu) 建體中。所述II型限制性核酸內(nèi)切酶識別位點如1922所示,限制位點如1920所示,靶核 酸片段中的被切開的II型限制性核酸內(nèi)切酶識別位點如1918所示,第一銜接子中的切口 如1934所示??梢灾貜?fù)這一過程以便加入所需數(shù)量的銜接子。正如這里顯示的,第一個加 入的銜接子含有一個II型限制性核酸內(nèi)切酶識別位點;但是,在其他方面中,第一個加入 的銜接子可以含有兩個II型限制性核酸內(nèi)切酶識別位點以便精確地選擇構(gòu)建體所需的靶 核酸大小?!獋€方面,銜接子可以設(shè)計成含有在II型限制性核酸內(nèi)切酶識別位點周圍或與 之部分重疊的序列特異性切口酶位點。通過利用切口酶,可以選擇性地保護每個銜接子中 的II型限制性核酸內(nèi)切酶識別位點不被甲基化。其他實施方案中,切口酶可以識別另一個 序列或位點,但是在II型限制性核酸內(nèi)切酶識別位點切開。切口酶是識別雙鏈DNA中特 異識別序列的核酸內(nèi)切酶,并能在相對識別序列的特異位置切開一條鏈,從而在雙鏈體DNA 中造成單鏈斷裂,切口酶包括但不限于Nb. BsrDI、Nb. BsmI、Nt. BbvCI、Nb. Bbv. Nb. BtsI和 Nt.BstNBL·通過組合使用序列特異性切口酶和II型限制性核酸內(nèi)切酶,靶核酸中的所有 II型限制性核酸內(nèi)切酶識別位點以及任何先前已插入的銜接子中的II型限制性核酸內(nèi)切 酶識別位點可以受到保護不被消化(當(dāng)然假設(shè)II型限制性核酸內(nèi)切酶是切口敏感的,即不 會結(jié)合到已被切開的識別位點上)。圖20圖示了發(fā)明所述方法的實施方案,其中利用甲基化和序列特異性切口酶選 擇了所需的第二銜接子與第一銜接子的相對位置。圖20顯示了目的基因組DNA 2002,其帶 有位于2004的II型限制性核酸內(nèi)切酶識別位點。該基因組DNA在過程2005中被分級或 片段化從而產(chǎn)生帶有II型限制性核酸內(nèi)切酶識別位點2004的片段2006。銜接子臂2008 和2010在過程2007中連接至片段2006。帶有銜接子臂2008和2010的片段2006 (文庫構(gòu)建體)在過程2009中環(huán)化,在過程2011中通過環(huán)依賴性擴增被擴增,得到靶核酸片段 2006(其中的II型限制性核酸內(nèi)切酶識別位點位于2004)和第一銜接子2012交替的高度 分支多聯(lián)體。過程2013中,序列特異性切口酶2030被用于在文庫構(gòu)建體中的銜接子里的特異 II型限制性核酸內(nèi)切酶識別位點中的或者其附近的核酸做切口,從而阻止這些位點的甲基 化。這里,銜接子臂2012和2014中的II型限制性核酸內(nèi)切酶識別位點被序列特異性切口 酶2030切開。過程2015中,構(gòu)建體中沒有被切開的II型限制性核酸內(nèi)切酶識別位點被甲 基化(這里是II型限制性核酸內(nèi)切酶識別位點2004的甲基化2016)以保護這些位點不被 II型限制性核酸內(nèi)切酶識別。但是,銜接子2012和2014中的II型限制性核酸內(nèi)切酶識別 位點因為有切口存在不被甲基化。過程2017中,文庫構(gòu)建體中的切口被修復(fù),產(chǎn)生的文庫構(gòu)建體中銜接子2012里的 II型限制性核酸內(nèi)切酶識別位點可以用于識別和限制性消化2018,而基因組片段2004中 的II型限制性核酸內(nèi)切酶識別位點不能。然后甲基化的構(gòu)建體與第二對銜接子臂連接, 環(huán)化,并借助環(huán)依賴擴增在過程2021擴增,得到靶核酸片段2006(11型限制性核酸內(nèi)切酶 識別位點在2004)、第一銜接子2012和第二銜接子2020交替的多聯(lián)體。然后,在過程2023 中,再次進行序列特異型切開,這次用的是識別第二銜接子2020中的位點的序列特異性切 口酶,從而阻止第二銜接子2020中的II型限制性核酸內(nèi)切酶識別位點的甲基化,但無助于 構(gòu)建體中的其他II型限制性核酸內(nèi)切酶識別位點(即,片段中的II型限制性核酸內(nèi)切酶 識別位點2004和第一銜接子2012中的II型限制性核酸內(nèi)切酶識別位點)。過程繼續(xù)進行 甲基化2015,如果需要可以進一步加入銜接子臂。每個不同銜接子中使用不同的序列特異 性切口酶位點,以便整個過程中可以進行序列特異性切開。圖21圖示的過程中利用甲基化和序列特異性甲基化酶阻斷劑選擇了所需的第二 銜接子與第一銜接子的相對位置。圖21顯示了目的基因組DNA (靶核酸)2212,其帶有位于 2214的II型限制性核酸內(nèi)切酶識別位點。該基因組DNA在過程2105中被分級或片段化從 而產(chǎn)生帶有II型限制性核酸內(nèi)切酶識別位點2104的片段2106。銜接子臂2108和2110在 過程2107中連接至片段2106。帶有銜接子臂2108和2110的片段2106 (文庫構(gòu)建體)在 過程2109中環(huán)化,在過程2111中通過環(huán)依賴性擴增被擴增,得到靶核酸片段2106(其中的 II型限制性核酸內(nèi)切酶識別位點位于2104)和第一銜接子2112交替的高度分支多聯(lián)體。過程2113中,利用序列特異性甲基化酶阻斷劑2130(比如鋅指)來阻斷文庫構(gòu)建 體中特異II型限制性核酸內(nèi)切酶識別位點發(fā)生甲基化。這里,銜接子臂2112和2114中的 II型限制性核酸內(nèi)切酶識別位點被甲基化酶阻斷劑2130所封閉。當(dāng)選擇用于該過程的甲 基化酶阻斷劑和II型限制性核酸內(nèi)切酶時,不需要這兩個實體識別相同的位點序列或者 一個實體識別另一個實體的亞序列。所述阻斷劑序列可以在II型限制性核酸內(nèi)切酶識別 位點的上游或下游,但處于甲基化酶阻斷劑封閉所述位點的構(gòu)型(比如鋅指或其他核酸結(jié) 合蛋白或其他實體)。過程2115中,構(gòu)建體中未被保護的II型限制性核酸內(nèi)切酶識別位點 被甲基化-這里,是II型限制性核酸內(nèi)切酶識別位點2104的甲基化2116)-保護這些位點 不被II型限制性核酸內(nèi)切酶識別。但是,銜接子2112和2114中的II型限制性核酸內(nèi)切 酶識別位點因為存在甲基化酶阻斷劑不被甲基化。過程2117中,甲基化酶阻斷劑從文庫構(gòu)建體中釋放,得到的文庫構(gòu)建體中銜接子2112里的II型限制性核酸內(nèi)切酶識別位點可以被識別和限制性消化2118,而基因組片段 2104中的II型限制性核酸內(nèi)切酶識別位點不能。然后將甲基化的構(gòu)建體與第二對銜接子 臂連接,環(huán)化,并在過程2121經(jīng)環(huán)依賴性擴增被擴增,得到靶核酸片段2106 (帶有位于2104 的II型限制性核酸內(nèi)切酶識別位點)、第一銜接子2112和第二銜接子2120交替的多聯(lián)體。 然后,在過程2123中,再次進行甲基化酶封閉,這次是用識別第二銜接子2120中的位點的 甲基化酶阻斷劑來阻斷第二銜接子2120中的II型限制性核酸內(nèi)切酶識別位點的甲基化, 但無助于構(gòu)建體中其他的II型限制性核酸內(nèi)切酶識別位點(即,片段中的II型限制性核 酸內(nèi)切酶識別位點2104和第一銜接子2112中的II型限制性核酸內(nèi)切酶識別位點)。過程 繼續(xù)進行甲基化2115,如果需要可以進一步加入銜接子臂。每個不同銜接子中使用不同的 甲基化酶阻斷劑位點,以便整個過程中可以進行序列特異性甲基化酶阻斷。雖然圖9和21 顯示了第二銜接子相對第一銜接子的插入,應(yīng)當(dāng)明白這個過程可以應(yīng)用于在第二銜接子之 后加入的銜接子,產(chǎn)生帶有多達四個、六個、八個、十個或更多個插入銜接子的文庫構(gòu)建體。圖22圖示的過程中利用甲基化和尿嘧啶降解選擇了所需的第二銜接子與第一銜 接子的相對位置。圖22顯示了目的基因組DNA 2202,其帶有位于2204的II型限制性核酸 內(nèi)切酶識別位點。該基因組DNA在過程2205中被分級或片段化從而產(chǎn)生帶有II型限制性 核酸內(nèi)切酶識別位點2204的片段2206。銜接子臂2208和2210在過程2207中連接至片段 2206。帶有第一和第二銜接子臂2208和2210的片段2206 (文庫構(gòu)建體)在過程2211中, 利用與銜接子臂2208和2210互補的尿嘧啶修飾的引物2212經(jīng)PCR擴增。引物產(chǎn)生的PCR 產(chǎn)物中帶有位于或者靠近Π型限制性核酸內(nèi)切酶識別位點的尿嘧啶。過程2213中,利用 例如尿嘧啶-DNA糖基化酶(Krokan, et al.,(1997)Biochem. J. 325 :1_16)特異降解尿嘧 啶,留下的PCR產(chǎn)物在II型限制性核酸內(nèi)切酶識別位點區(qū)域是單鏈的。正如已顯示的,可 以利用尿嘧啶的引入和降解可以使II型限制性核酸內(nèi)切酶識別位點單鏈化;但是,正如本 文進一步描述的,也可以采用其他方法,包括使用3'或5'核酸外切酶有限地消化使這些 區(qū)域單鏈化。過程2215中,利用序列特異性甲基化酶將每個雙鏈II型限制性核酸內(nèi)切酶識別 位點中的堿基甲基化(這里II型限制性核酸內(nèi)切酶識別位點2204的甲基化2214),以保 護這些位點不被II型限制性核酸內(nèi)切酶識別。但是,第一和第二銜接子臂2208和2210中 單鏈的II型限制性核酸內(nèi)切酶識別位點不被甲基化,一旦環(huán)化和連接2217,II型限制性核 酸內(nèi)切酶識別位點重新形成2216,因此該II型限制性核酸內(nèi)切酶識別位點可以被限制消 化。但選擇用于該過程的甲基化酶和II型限制性核酸內(nèi)切酶時,這兩種酶需要識別相同的 序列或者一種酶識別的是另一種酶的亞序列(某序列內(nèi)的序列)。然后在過程2219中,環(huán) 化構(gòu)建體被II型限制性核酸內(nèi)切酶切割,其中II型限制性核酸內(nèi)切酶識別位點顯示位于 2218,構(gòu)建體在2220切割,得到線性化的構(gòu)建體可以在過程2221中供第二套銜接子臂連接 加入構(gòu)建體。連接過程2221在線性化的構(gòu)建體中加入第二銜接子的第一(2222)和第二(2224) 銜接子臂,過程2223中再次使用與銜接子臂2222和2224互補的尿嘧啶修飾的引物2226, 經(jīng)PCR進行第二次擴增。與上面一樣,引物產(chǎn)生的PCR產(chǎn)物中帶有靠近II型限制性核酸內(nèi) 切酶識別位點的尿嘧啶。過程2225中,尿嘧啶被特異降解,留下的PCR產(chǎn)物在第二銜接子 的第一和第二銜接子臂2222和2224中的II型限制性核酸內(nèi)切酶識別位點區(qū)域是單鏈的。過程2227中,再次利用序列特異性甲基化酶將靶核酸片段中雙鏈的II型限制性核酸內(nèi)切 酶識別位點的堿基(同樣,這是II型限制性核酸內(nèi)切酶識別位點2204的甲基化2214)和 第一銜接子2228中的II型限制性核酸內(nèi)切酶識別位點的堿基甲基化,以保護這些位點不 被II型限制性核酸內(nèi)切酶識別。然后甲基化的構(gòu)建體在過程2229中被環(huán)化,其中第二銜 接子的第一和第二臂2222和2224中的II型限制性核酸內(nèi)切酶識別位點重新形成2230,重 復(fù)這一過程,在過程2219中再次用II型限制性核酸內(nèi)切酶切割環(huán)化的構(gòu)建體產(chǎn)生另一個 線性構(gòu)建體(這一個已加入第一和第二銜接子),以供第三對銜接子臂與構(gòu)建體連接。可以 重復(fù)這一過程以便加入所需數(shù)量的銜接子。正如這里顯示的,第一個加入的銜接子含有一 個II型限制性核酸內(nèi)切酶識別位點;但是,在其他方面中,第一個加入的銜接子可以含有 兩個II型限制性核酸內(nèi)切酶識別位點以便精確地選擇構(gòu)建體所需的靶核酸大小。除了上述控制多個散在分布的銜接子的插入的方法,包含處于特定方向的銜 接子的構(gòu)建體還可以通過富集這樣的構(gòu)建體群來進一步挑選,這些構(gòu)建體中帶有的銜 接子即處于所需方向。這類富集方法在美國專利申請60/864,992(11/09/06提交)、 11/943,703(11/02/07 提交)、11/943,697(11/02/07 提交)、11/943,695(11/02/07 提交) 和PCT/US07/835540 (11/02/07提交)中有描述,為了所有目的,特別是與挑選特定方向銜 接子的方法和組合物有關(guān)的全部教導(dǎo),這些文獻均通過弓I用并入本文。V.制備 DNBs一個方面中,本發(fā)明的核酸模板被用于制成核酸納米球,其在文中又稱為“DNA納 米球”、“DNBs”和“擴增子”。雖然本發(fā)明的核酸納米球可以利用這里描述的方法由任何核 酸分子制成,這些核酸納米球通常是包含多拷貝發(fā)明所述核酸模板的多聯(lián)體。一個方面中,利用滾環(huán)復(fù)制(RCR)來產(chǎn)生本發(fā)明的多聯(lián)體。RCR過程曾被用于制備 連續(xù)拷貝的 M13 基因組(Blanco, et al.,(1989) J Biol Chem264 :8935_8940)。在這種方 法中,核酸經(jīng)線性多聯(lián)體化復(fù)制。本領(lǐng)域技術(shù)人員可以在許多參考文獻中找到關(guān)于選擇RCR 反應(yīng)的條件和試劑的指南,包括美國專禾IJ 5,426,180,5, 854,033,6, 143,495和5,871,921, 為了所有目的,特別是與利用RCR或其他方法制備多聯(lián)體有關(guān)的全部教導(dǎo),這些文獻均通 過引用全文并入本文。通常,PCR反應(yīng)成分包括單鏈DNA環(huán)、能夠與DNA環(huán)退火的一或多種引物、具有鏈 置換活性的DNA聚合酶,能夠延伸與DNA環(huán)退火的引物的3’末端、核苷三磷酸和常規(guī)的聚 合酶反應(yīng)緩沖液。在允許引物退火到DNA環(huán)上的條件下將這些成分合并。通過DNA聚合酶 延伸這些引物形成DNA環(huán)互補鏈的多聯(lián)體。在某些實施方案中,本發(fā)明的核酸模板是雙鏈 環(huán),這些雙鏈環(huán)變性形成可以用于RCR反應(yīng)的單鏈環(huán)。某些實施方案中,環(huán)形核酸的擴增可以通過從含有所有可能序列的混合物中連續(xù) 連接上短的寡核苷酸(例如6聚體),或者如果環(huán)是合成的,通過這些短寡核苷酸的有限混 合物含有用于環(huán)復(fù)制的選定序列來實現(xiàn),該過程被稱為“環(huán)依賴性擴增”(CDA)。“環(huán)依賴性 擴增”或“CDA”是指利用與環(huán)形模板的兩條鏈均能退火的引物,多次置換擴增雙鏈環(huán)形模板 產(chǎn)生能夠代表模板的兩條鏈的產(chǎn)物,造成一系列多重-雜交、引物延伸和鏈置換事件。這導(dǎo) 致引物結(jié)合位點的數(shù)量指數(shù)增加,結(jié)果產(chǎn)生的產(chǎn)物的量隨時間也呈指數(shù)增加。所用引物可 能是隨機序列(例如,隨機六聚體)或者具有特異序列以便選擇用于所需產(chǎn)物的擴增。CDA 導(dǎo)致一組多聯(lián)體雙鏈片段的形成。
在存在與靶分子的開頭和末端均互補的橋連模板DNA的情況下,還可以通過將靶 DNA連接,產(chǎn)生多聯(lián)體。一群不同的靶DNA可借助相應(yīng)橋連模板的混合物而在多聯(lián)體內(nèi)轉(zhuǎn)換 (converted)0某些實施方案中,可以根據(jù)特定特征,比如所需數(shù)目或類型的銜接子來分離核酸 模板群的一個亞組。這個群體可以利用常規(guī)技術(shù)(例如常規(guī)的離心柱等)進行分離或另外 的加工(例如按大小挑選過)形成可以利用諸如RCR的技術(shù)由其產(chǎn)生多聯(lián)體群的群體。形成本發(fā)明的DNBs的方法在公開的專利申請W02007120208、W02006073504、 W02007133831 和 US2007099208,以及美國專利申請 60/992,485,61/026, 337,61/035, 914、 61/061,134,61/116, 193,61/102, 586,12/265, 593,12/266, 385,11/938, 096,11/981, 804、 11/981,797,11/981, 793,11/981, 767,11/981, 761,11/981, 730 (2007 年 10 月 31 日提交)、 11/981,685,11/981, 661,11/981, 607,11/981,605,11/927, 388,11/927, 356,11/679,124、 11/541, 225,10/547, 214,11/451, 692和11/451,691中有描述,為了所有目的,特別是與形 成DNB有關(guān)的全部教導(dǎo),這些文獻均通過引用全文并入本文。VI.制備 DNBs 陣列一個方面中,本發(fā)明的DNBs排列在表面上形成單個分子的隨機陣列。DNBs可以通 過多種技術(shù),包括共價連接和非共價附著被固定在表面上。在一個實施方案中,所述表面可 能包含與多核苷酸分子的成份(比如銜接子寡核苷酸)形成復(fù)合體,例如雙鏈體的捕獲探 針。在其他實施方案中,捕獲探針可能包含如美國專利5,473,060(Gryaznov等,全文并入 本文)中描述的與銜接子形成三鏈螺旋的寡核苷酸鉗,或者類似的結(jié)構(gòu)。形成本發(fā)明的DNBs陣列的方法在公開的專利申請W02007120208、W02006073504、 W02007133831 和 US2007099208,以及美國專利申請 60/992,485,61/026, 337,61/035, 914、 61/061,134,61/116, 193,61/102, 586,12/265, 593,12/266, 385,11/938, 096,11/981, 804、 11/981,797,11/981, 793,11/981, 767,11/981, 761,11/981, 730,11/981,685,11/981,661、 11/981,607,11/981, 605,11/927,388,11/927, 356,11/679, 124,11/541, 225,10/547, 214、 11/451,692和11/451,691中有描述,為了所有目的,特別是與形成DNBs陣列有關(guān)的全部教 導(dǎo),這些文獻全部通過弓I用并入本文。某些實施方案中,表面可能帶有反應(yīng)性功能團能夠與多核苷酸分子上的互補 功能團反應(yīng)形成共價鍵,例如借助和附著cDNAs到陣列上所用的技術(shù)相同的方式,例如 Smirnov et al (2004), Genes, Chromosomes&Cancer, 40 72-77 禾口Beaucage (2001), Current Medicinal Chemistry,8 :1213_1244,這兩份文獻通過引用并入本文。DNBs還可以有效地附 著到疏水性表面,比如帶有低濃度的各種反應(yīng)功能團(比如-OH基團)的干凈的玻璃表面。 經(jīng)由多核苷酸分子和表面上的反應(yīng)性功能團之間形成的共價鍵附著在本文中又稱為“化學(xué) 附著”。在其他實施方案中,多核苷酸分子可以吸附到表面上。在這種實施方案中,多核苷 酸通過與表面的非特異性相互作用,或者通過諸如氫鍵、范德華力等的非共價相互作用被 固定。附著可能還包括不同嚴(yán)緊度的清洗步驟以便除去沒有完全附著的單個分子或來 自前面的制備步驟的其他試劑,這些試劑的存在是不需要的或者它們非特異性地結(jié)合在表
37
一個方面中,表面上的DNBs被限定在分立區(qū)域面積內(nèi)。分立區(qū)域可以是利用本領(lǐng) 域已知的以及本文進一步描述的方法整合到表面上的。示范性實施方案中,分立區(qū)域含有 反應(yīng)性功能團或者可以用來固定多核苷酸分子的捕獲探針。所述分立區(qū)域可能位于規(guī)則陣列上的限定位置,可能對應(yīng)著直線式樣、六邊形式 樣等。這些區(qū)域的規(guī)則陣列對于在分析過程中從陣列收集的信號的檢測和數(shù)據(jù)分析是有益 的。同時,局限于分立區(qū)域中的限定面積上的第一和/或第二階段的擴增子可以提供更集 中或強烈的信號,特別是當(dāng)分析操作中使用熒光探針時,從而給出更高的信噪比。在某些實 施方案中,DNBs隨機分布在分立區(qū)域上,因此一個給定區(qū)域接收到任一不同單個分子的可 能性相同。換句話說,這樣得到的陣列不是在制造后立即可以立體尋址的,但可以通過執(zhí)行 鑒定、測序和/或解碼操作成為可立體尋址的。這樣,表面上排列的本發(fā)明的多核苷酸分子 的身份是可以辨別的,但不是它們排列到表面上時開始就知道的。某些實施方案中,分立面 積的選擇,和附著化學(xué)物,采用的大分子結(jié)構(gòu)等,與本發(fā)明的單分子大小對應(yīng),從而使得當(dāng) 單分子被施加到表面上基本每個區(qū)域被不超過一個單分子占據(jù)。某些實施方案中,DNBs排 列在包含構(gòu)成特定樣式的分立區(qū)域的表面上,因此特異DNBs(在示范性實施方案中,通過 標(biāo)簽銜接子或其他標(biāo)記鑒定出來的)排列在特定的分立區(qū)域或一群分立區(qū)域上。在某些實施方案中,分立區(qū)域的面積小于Iym2 ;在某些實施方案中,分立區(qū)域的 面積在0. 04 μ πι2到1 μ Hl2的范圍內(nèi);在某些實施方案中,分立區(qū)域的面積在0. 2 μ Hl2到1 μ Hl2 的范圍內(nèi)。在分立區(qū)域大約為圓形或方形,因此它們的大小可以通過單個線性尺寸來表示 的實施方案中,這類區(qū)域的大小在125nm到250nm的范圍內(nèi),或者在200nm到500nm的范圍 內(nèi)。在某些實施方案中,最近的分立區(qū)域的中心到中心距離在0.25μπι到20μπι的范圍內(nèi); 某些實施方案中,這一距離在1 μ m到10 μ m的范圍內(nèi),或者50到IOOOnm范圍內(nèi)。通常,所 述分立區(qū)域被設(shè)計成它們中的大部分是可以光學(xué)分辨的。在某些實施方案中,所述區(qū)域可 以以幾乎任何樣式安排在表面上,只要區(qū)域在樣式中有限定的位置。另外的實施方案中,分子被導(dǎo)向表面上的分立區(qū)域,因為分立區(qū)域之間的面積 (文中稱為“區(qū)域間面積”)是惰性的,因為多聯(lián)體或其他大分子結(jié)構(gòu)不與它們結(jié)合。某些 實施方案中,可以用阻斷劑,例如與多聯(lián)體DNA無關(guān)的DNA、其他高分子等處理這種區(qū)域間 面積。有許多種支持物可以利用來與本發(fā)明的組合物和方法形成隨機陣列。一個方面 中,支持物是具有表面的剛性固體,優(yōu)選基本上是平面區(qū)域,這樣待詢問的單分子處于同一 平面。后一種特性允許通過例如檢測光學(xué)進行有效的信號收集。另一方面,所述支持物包含 珠子,這種情況中珠子表面含有可以用來固定多核苷酸分子的反應(yīng)性功能團或捕獲探針。再一方面,本發(fā)明的固體支持物是無孔的,特別是當(dāng)單分子隨機陣列是通過雜交 反應(yīng)進行分析時,需要小體積。合適的固體支持物材料包括諸如玻璃、聚丙烯酰胺涂層的玻 璃、陶瓷、硅石、硅、石英、各種塑料等的材料。一個方面中,平面區(qū)域的面積可以在0.5到 4cm2的范圍內(nèi)。一個方面中,所述固體支持物是玻璃或石英,比如具有均勻硅烷化表面的顯 微鏡載片。這可以使用常規(guī)試驗方案來達到,例如酸處理后浸泡在80°C的3-縮水甘油醚氧 丙基三甲氧基硅烷、N,N-二異丙基乙胺和無水二甲苯(8 1 24v/v)溶液中,形成環(huán)氧 硅燒化的表面(例如 Beattie et a(1995) ,Molecular Biotechnology,4 :213)。這樣的表 面很容易經(jīng)過處理被捕獲寡核苷酸末端附著,例如通過在施加到表面前,給捕獲寡核苷酸提供3’或5’三乙二醇磷酰間隔臂(參見以上引用的Beattie et al)。將表面功能化和 進一步準(zhǔn)備以用于本發(fā)明的其他實施方案在例如美國專利申請60/992,485、61/026,337、 61/035,914,61/061,134,61/116, 193,61/102,586,12/265,593,12/266, 385,11/938,096、 11/981,804,11/981, 797,11/981, 793,11/981, 767,11/981, 761,11/981,730,11/981,685、 11/981,661,11/981, 607,11/981, 605,11/927, 388,11/927, 356,11/679, 124,11/541, 225、 10/547,214,11/451, 692和11/451,691中有描述,為了所有目的,特別是與制備形成陣列 的表面有關(guān)的全部教導(dǎo)以及與形成陣列、尤其是DNBs陣列有關(guān)的全部教導(dǎo),以上文獻均通 過引用全文并入本文。在本發(fā)明中要求分立區(qū)域處于特定樣式的實施方案中,可以利用光刻法、電子術(shù) 光刻、納米壓印光刻和納米印刷在多種表面上產(chǎn)生這類樣式,例如Pirrimg et al,美國 專利 5,143,854、Fodor et al,美國專利 5,774,305、Guo, (2004) Journal of Physics D Applied Physics, 37 :R123_141,這些文獻通過引用并入本文。一個方面中,含有復(fù)數(shù)個分立區(qū)域的表面是通過光刻法制造的。將商品光學(xué)平面 的石英基片旋涂上100-500nm厚的光阻層。然后將光阻層燒到石英基片上。利用步進器,將 帶有待激活區(qū)域樣式的標(biāo)線圖像投射到光阻層表面。曝光后,給光阻層顯影,除去投射樣式 中暴露在UV源下的區(qū)域。這是通過等離子蝕刻,一種能夠產(chǎn)生非常細(xì)微的細(xì)節(jié)的干式顯影 技術(shù)實現(xiàn)的。然后將基片烘烤來強化剩下的光阻層。烘烤后,石英晶片即可以進行功能化。 然后將晶片經(jīng)過3-氨基丙基二甲基乙氧基硅烷氣相沉積。通過改變單體的濃度和基片的 曝光時間,可以嚴(yán)格控制氨基功能化單體的密度。只有接受等離子蝕刻過程的石英區(qū)域可 以與所述單體反應(yīng)并捕獲單體。然后基片再次被烘烤將單層的氨基功能化單體烤到暴露的 石英上。烘烤后,用丙酮除去剩下的光阻劑。因為光阻劑和硅烷的附著化學(xué)特性的不同,基 片上氨基硅烷功能化的面積在丙酮清洗過程中保持完整??梢酝ㄟ^與溶于吡啶和N-N- 二 甲基甲酰胺的溶液中的P-次亞苯基二異硫氰酸鹽反應(yīng)將這些面積進一步功能化。然后基 片能夠與胺修飾的寡核苷酸反應(yīng)。替代地,可以用5’-羧基-改性劑-ClO連接分子(Glen Research)將寡核苷酸準(zhǔn)備好。這項技術(shù)允許寡核苷酸直接附著到胺修飾過的支持物上,從 而避免另外的功能化步驟。另一方面中,含有復(fù)數(shù)個分立區(qū)域的表面是通過納米壓印光刻法(NIL)制造的。 為了制備DNA陣列,給石英基片旋涂一層光阻劑,通常被稱為轉(zhuǎn)移層。然后在轉(zhuǎn)移層上施加 第二類光阻劑,通常稱為壓印層。然后主壓印工具在壓印層上留下壓痕。然后通過等離子 蝕刻減小壓印層的總厚度,直至壓印層較低的區(qū)域碰到轉(zhuǎn)移層。因為轉(zhuǎn)移層比壓印層更難 除去,其基本不受影響。然后通過加熱使壓印層和轉(zhuǎn)移層硬化。然后將基片放入等離子蝕 刻儀,直至壓印層較低的區(qū)域碰到石英。然后通過如上描述的氣相沉積將基片衍生化。另一方面中,含有復(fù)數(shù)個分立區(qū)域的表面是通過納米印刷術(shù)制造的。這個過程利 用光、壓印或電子束刻印術(shù)產(chǎn)生主模具,它是打印頭上需要的特征圖樣的負(fù)片圖像。打印頭 通常是由軟的柔性聚合物,比如聚二甲基硅氧烷(PDMS)制成的。屬性不同的這種材料或 者材料層旋涂到石英基片上。然后在控制好的溫度和壓力條件下,用模具將特征圖樣浮雕 到光阻材料的表層。然后對打印頭進行基于等離子的蝕刻過程以便提高打印頭的長寬比, 并消除由于被加浮雕的材料隨時間松弛而造成的打印頭的變形。隨機陣列基片是利用納米 印刷術(shù)通過在均質(zhì)衍生化表面上留下胺修飾的寡核苷酸圖樣制造的。這些寡核苷酸將作為RCR產(chǎn)物的捕獲探針。納米印刷術(shù)的一個可能的優(yōu)勢是能夠?qū)⒉煌东@探針的交織圖樣印 刷到隨機陣列支持物上。這可以用多個打印頭通過接連印刷來實現(xiàn),其中每個打印頭帶有 不同圖樣,所有圖樣配合在一起形成最終的帶結(jié)構(gòu)的支持物圖樣。這類方法允許在隨機陣 列中對DNA元件進行一些定位編碼。例如,含有特異序列的對照多聯(lián)體可以以規(guī)律的間隔 結(jié)合在隨機陣列上。再一方面中,利用打印頭或壓印主機(imprint-master)制備亞微米大小的捕獲 寡核苷酸點的高密度陣列,其中所述打印頭或壓印主機是由一束或多束大約10,000到1 億包含軸芯和被覆材料的光纖制備的。通過光纖的拉絲和熔接產(chǎn)生獨特的材料,含有大約 50-1000nm的軸芯,被類似大小或者小或大2_5倍大小的被覆材料隔開。通過被覆材料的差 異蝕刻(溶解)獲得含有非常大量納米級的小桿(posts)的納米打印頭。這種打印頭可以 用于放置寡核苷酸或者其他生物(蛋白質(zhì)、寡肽、DNA、適配子)或化學(xué)化合物,比如帶有各 種活性基團的硅烷。在一個實施方案中,玻璃纖維工具被用作帶有圖樣的支持物來存放寡 核苷酸或其他生物或化學(xué)化合物。這種情況中,只有通過蝕刻產(chǎn)生的小桿可以與待存放的 材料接觸??梢岳萌劢永w維束平切來引導(dǎo)光穿過軸芯,只允許光誘發(fā)的化學(xué)物發(fā)生在軸 芯頭表面,因此不需要進行蝕刻。兩種情況中,同一支持物然后可以作為給寡核苷酸或其他 反應(yīng)物貼標(biāo)簽使用的熒光標(biāo)記成像的光導(dǎo)/收集裝置。該裝置提供具有大數(shù)值孔徑(可能 > 1)的大視野??梢岳脤嵤┗钚圆牧匣蚬押塑账岬拇娣诺挠≌禄蛴∷⒐ぞ邔?到100個 不同的寡核苷酸印刷為交織的式樣。這個過程需要將打印頭精確地定位在大約50-500nm。 這種類型的寡核苷酸陣列可以用于附著2到100個不同的DNA群體,比如不同的源DNA。它 們還可以通過利用DNA特異性錨定分子或標(biāo)簽,用于平行讀取亞光分辨率光點??梢酝ㄟ^ DNA特異性標(biāo)簽(例如針對16種DNA的16種特異錨定分子)獲取信息,通過5_6種顏色的 組合,利用16個連接循環(huán)或者一個連接循環(huán)和16個解碼循環(huán)來讀取2個堿基。如果每個 片段只需求有限的信息(例如,少量循環(huán)),這種制備陣列的方式是有效的,因此每個循環(huán) 可以提供更多信息或者每個表面可以做更多循環(huán)。一個方面,本發(fā)明的多重陣列可以放置在單個表面上。例如,可以生產(chǎn)定型的陣列 基片與標(biāo)準(zhǔn)96或384孔板格式匹配。生產(chǎn)格式可以是在單片玻璃或塑料和其他光學(xué)兼容 材料上的6mmx6mm陣列,間距9mm的8x12式樣,或者3. 33mmx3. 33mm陣列,間距4. 5mm的 16x24式樣。在一個實例中,每個6mmx6mm陣列由3千6百萬個間隔1微米的250_500nm方 形區(qū)域構(gòu)成??梢岳檬杷曰蛘咂渌砻娴幕蛭锢淼恼系K來防止單元陣列之間發(fā)生不同 反應(yīng)的混合。形成分子陣列的其他方法是本領(lǐng)域已知的,可以用來形成DNBs陣列。可以理解,各種密度的本發(fā)明的DNBs和/或核酸模板可以放置在包含分立區(qū)域的 表面上形成陣列。某些實施方案中,每個分立區(qū)域可能包含大約1到大約1000個分子。其 他實施方案中,每個分立區(qū)域可能包含大約10到大約900、大約20到大約800、大約30到 大約700、大約40到大約600、大約50到大約500、大約60到大約400、大約70到大約300、 大約80到大約200、和大約90到大約100個分子。在某些實施方案中,核酸模板和/或DNBs陣列的密度為每平方毫米至少有50萬、 1、2、3、4、5、6、7、8、9百萬或者1千萬個分子。VII. DNBs的使用方法
40
根據(jù)以上描述的方法制備的DNBs在鑒定靶核酸的序列方面帶來了優(yōu)勢,因為 DNBs中含有的銜接子提供了已知序列點,當(dāng)與使用錨定分子和測序探針的方法組合時,可 以確定空間方位和序列。本發(fā)明中DNBs的使用方法包括給靶核酸測序和探測靶核酸中的 特異序列(例如,探測特定的靶序列(例如,具體基因)和/或鑒定和/或探測SNPs)。文中 描述的方法還可以用于檢測核酸重排和拷貝數(shù)變化。核酸定量,比如數(shù)字化基因表達(即, 分析樣品中存在的整個轉(zhuǎn)錄子組_全部mRNA),和檢測樣品中特異序列或序列組的數(shù)量,也 可以利用本文描述的方法來實現(xiàn)。盡管文中的大部分討論是針對鑒定DNBs的序列,可以理 解包含銜接子的其他非多聯(lián)體核酸構(gòu)建體也可以用于本文描述的實施方案中。VIIA. cPAL測序的概沭按照本發(fā)明,如下文所述利用文中稱為復(fù)合探針_錨定分子連接(“cPAL”)的方 法及其改進形式鑒定DNBs的序列。簡單來說,cPAL包括通過檢測探針連接產(chǎn)物來鑒定靶 核酸中特定檢測位置上的核苷酸,所述探針連接產(chǎn)物是通過至少一個錨定探針和測序探針 的連接形成的,其中的錨定探針與銜接子完全或部分雜交,測序探針在對應(yīng)(例如,會雜交 到)檢測位置的“詢問位點”上含有特定核苷酸。測序探針含有獨特的鑒定標(biāo)記。如果詢 問位點上的核苷酸與檢測位置上的核苷酸互補,可以發(fā)生連接,形成的連接產(chǎn)物含有所述 獨特標(biāo)記,即可被檢測到。下文中提供了對cPAL方法的不同示范性實施方案的描述。可以 理解,以下描述并非出于限制目的,下述實施方案的變形涵蓋在本發(fā)明中。“互補”或“基本互補”是指核苷酸或核酸之間的雜交或堿基配對或者形成雙鏈體, 比如象雙鏈DNA分子兩條鏈之間或者寡核苷酸引物和單鏈核酸上的引物結(jié)合位點之間?;?補核苷酸一般是A和T(或A和U)或者C和G。當(dāng)一條鏈的核苷酸,在最佳地比對和比較 并適當(dāng)?shù)剡M行了核苷酸插入或缺失的情況下,與另一條鏈的至少大約80%、通常至少大約 90 %到約95 %,甚至大約98 %到100 %配對,這兩個單鏈RNA或DNA分子被稱為基本互補?!半s交”用于本文是指兩個單鏈多核苷酸非共價結(jié)合形成穩(wěn)定的雙鏈多核苷酸的 過程。得到的(通常)雙鏈多核苷酸是“雜交體”或“雙鏈體”?!半s交條件” 一般包括低于 大約1M,更常見的是低于大約500mM,可能是低于大約200mM的鹽濃度。“雜交緩沖液”是 緩沖鹽溶液,比如5% SSPE或其他本領(lǐng)域已知的這類緩沖液。雜交溫度可以低至5°C,但一 般高于22°C,更典型的是高于大約30°C,一般超過37°C。雜交一般在嚴(yán)緊條件下進行,即 那種探針能夠與其靶亞序列雜交但不會與其他不互補的序列雜交的條件。嚴(yán)緊條件是序列 依賴性的,在不同情形中是不同。例如,較長的片段可能需要比短片段更高的雜交溫度以進 行特異雜交。雖然其他因素,包括堿基組成和互補鏈長度、有機溶劑的存在以及堿基錯配 程度,可能影響雜交的嚴(yán)緊度,參數(shù)的組合比任何單獨一個參數(shù)的絕對度量更重要。通常, 嚴(yán)緊條件是在限定的離子強度和PH下,選擇比特異序列的Tm低大約5°C的溫度。示范性 的嚴(yán)緊條件包括至少0. OlM到不超過IM鈉離子濃度(或其他鹽)的鹽濃度,pH大約7. 0 到大約 8. 3,溫度至少 25°C。例如,5x SSPE(750mMNaCl、50mM 磷酸鈉、5mM EDTA,pH 7.4) 和30°C的條件適合等位特異探針雜交。嚴(yán)緊條件的其他實例是本領(lǐng)域已知的,參見例如 Sambrook J et al. (2001), Molecular Cloning, A Laboratory Manual, (3rd Ed. , Cold Spring HarborLaboratory Press0名詞“Tm”用于本文通常是指半數(shù)的雙鏈核酸分子解離成單鏈的溫度。計 算核酸的Tm的公式是本領(lǐng)域公知的。正如標(biāo)準(zhǔn)參考文獻指出的,當(dāng)核酸處于陽離子濃度為0.5M或更低的水溶液中,(G+C)含量在30%和70%之間,可以通過公式Tm = 81.5+16. 6 (IoglO[Na+])0.41 [G+C])-675/n-l. Om 簡單估計 Tm 值,η 是堿基數(shù),m 是 錯配喊基對(參見例如,Sambrook J et al. (2001),Molecular Cloning, A Laboratory Manual, (3rd Ed. , Cold Spring Harbor Laboratory Press).
的計算方法,這些方法在計算Tm時考慮到結(jié)構(gòu)和序列特性(還可以參見,Anderson and Young(1985), Quantitative Filter Hybridization, Nucleic Acid Hybridization, and Allawi and SantaLucia(1997), Biochemistry 36:10581-94)。在cPAL方法的一個實例中,如圖23顯示的文中稱為“單一 cPAL”,錨定探針2302 與DNB 2301的銜接子2308中的互補區(qū)雜交。錨定探針2302與直接挨著靶核酸2309的銜 接子區(qū)域雜交,但在某些情況中,如圖24圖示并在以下進一步描述的,可以通過在錨定探 針末端引入希望數(shù)量的簡并堿基,將錨定探針設(shè)計成可以“伸進”靶核酸。區(qū)別標(biāo)記的測序 探針集合2305與靶核酸的互補區(qū)雜交,通常通過使用連接酶,鄰近錨定探針雜交的測序探 針連接形成探針連接產(chǎn)物。測序探針通常是包含兩個部分的寡核苷酸的組或集合,即詢問 位點上的不同寡核苷酸,和其他位置上的所有可能堿基(或通用堿基);因此每個探針代表 特定位置上的每個堿基類型。測序探針標(biāo)記有可檢測的標(biāo)記,將每個測序探針與在該位置 含有其他核苷酸的測序探針區(qū)別開。因此,在圖23顯示的實例中,鄰近錨定探針2302雜交 并與該錨定探針連接的測序探針2310將鑒定出靶核酸中離銜接子5個堿基的位置上的堿 基是“G”。圖23描繪的情形中,詢問堿基離連接位點5個堿基,但是正如以下更充分描述 的,詢問堿基可以離連接位點“更近”,某些情況中就在連接點。一旦連接好,洗去未發(fā)生連 接的錨定和測序探針,利用標(biāo)記檢測陣列上存在的連接產(chǎn)物。錨定探針和測序探針的多重 雜交和連接循環(huán)可以用來鑒定出DNB中每個銜接子每側(cè)的靶核酸的希望數(shù)量的堿基。錨定 探針和測序探針的雜交可以順序或者同時發(fā)生。堿基測定(base call)的忠實度部分依賴 于連接酶的忠實度,如果在連接位點附近有錯配,通常不會連接。本發(fā)明還提供了在每個雜交-連接循環(huán)中使用兩個或以上錨定探針的方法。圖25 顯示了 “帶有突出的雙重cPAL”方法的另外一個實例,其中第一錨定探針2502和第二錨定 探針2505各自與銜接子的互補區(qū)雜交。在圖25顯示的實例中,第一錨定探針2502與銜接 子2511的第一區(qū)域完全雜交,第二錨定探針2505與和第一錨定探針雜交位置相鄰的第二 銜接子區(qū)互補。第二錨定探針不與第一錨定探針相鄰的末端同樣包含簡并堿基。這樣,第 二錨定探針能夠與靶核酸2512中靠近銜接子2511的區(qū)域(“突出”部分)雜交。第二錨 定探針通常太短,不能獨自保持在雙鏈體雜交狀態(tài),但與第一錨定探針連接后形成較長的 錨定探針,在隨后的方法中能夠穩(wěn)定雜交。正如以上對“單一 cPAL”方法的討論,測序探針 集合2508與銜接子-錨定探針雙鏈體雜交,并連接在連在一起的錨定探針的末端5’或3’ 堿基上,所述測序探針集合代表靶核酸檢測位置上每個堿基類型并標(biāo)記了可檢測的標(biāo)記能 夠?qū)⒚總€測序探針與在該位置含有其他核苷酸的測序探針區(qū)分開。在圖25顯示的實例中, 測序探針被設(shè)計成詢問堿基距離測序探針2514和連接的錨定探針2513之間的連接點5’ 端5個核苷酸。因為第二銜接子探針2505在其5’端有5個簡并堿基,它達到靶核酸2512 之內(nèi)5個堿基處,允許測序探針詢問從靶核酸2512和銜接子2511之間的交界處開始的整 整10個堿基。在以上描述的雙重cPAL方法的實例的某些變化中,如果第一錨定探針結(jié)束得更靠近銜接子的末端,第二銜接子探針將成比例地更簡并,因此有更大的可能性不僅與第一 銜接子探針末端連接,還能與DNB上多個位點上的其他第二銜接子探針連接。為了防止這 種連接假象,可以選擇性地活化第二錨定探針以便其參與和第一錨定探針或者測序探針的 連接。這種活化方法在下文有更詳細(xì)的描述,包括比如選擇性地修飾錨定探針的末端從而 使它們只能夠以相對銜接子特定的方向與特定錨定探針或測序探針連接。與以上描述的雙重cPAL方法類似,可以理解使用三種或更多種錨定探針的也被 本發(fā)明所涵蓋。此外,測序反應(yīng)可以在每個銜接子的一端或兩端進行,例如測序反應(yīng)可以是“單向 的”,在銜接子的3’或5或者另一端進行檢測;或者反應(yīng)可以是“雙向的”,其中在銜接子的 3’和5’檢測位置檢測堿基。雙向測序反應(yīng)可以同時進行,即銜接子兩側(cè)的堿基同時被檢 測;或者以任何順序依次進行。多循環(huán)cPAL (不管是單一、雙重、三重的等)將鑒定到與銜接子相鄰的靶核酸區(qū)域 中的多個堿基。簡單來說,通過循環(huán)進行錨定探針雜交和酶促連接反應(yīng),并將設(shè)計用于檢測 不同位置之核苷酸的測序探針集合從銜接子和靶核酸的交界處移開,重復(fù)cPAL方法詢問 靶核酸中多個相鄰堿基。在任何給定循環(huán)中,所用的測序探針被設(shè)計成一個或多個位置上 的一個或多個堿基的身份與附著在該測序探針上的標(biāo)記的身份呼應(yīng)。連接的測序探針(以 及詢問位點處的堿基)一旦被檢測到,連接復(fù)合體即被剝離DNB,并進行新一輪銜接子和測 序探針的雜交和連接??梢岳斫?,除了以上描述的cPAL方法,本發(fā)明的DNBs可以用于其他測序方法,包 括其他連接法測序的方法以及其他測序方法,包括但不限于雜交法測序、合成法測序(包 括引物延伸法測序)、可切割探針連接法鏈?zhǔn)綔y序(chained sequencing by ligation of cleavable probes)等。與以上描述的類似的測序方法還可以用于檢測靶核酸中的特異序列,包括檢測單 核苷酸多態(tài)性(SNPs)。這類方法中,將采用能夠與特定序列(比如含有SNP的序列)雜交 的測序探針。所述測序探針可以區(qū)別標(biāo)記以鑒定靶核酸中存在哪個SNP。還可以將錨定探 針與這類測序探針組合使用提供更高的穩(wěn)定性和特異性。VIIB.測序本發(fā)明的一個方面提供了通過利用連接來測序的方法來鑒定DNBs的序列的方 法。本發(fā)明一個方面提供了鑒定DNBs序列的方法,所述方法利用了復(fù)合探針_錨定分子連 接(cPAL)法。通常,cPAL涉及通過檢測探針連接產(chǎn)物來鑒定靶核酸中檢測位置上的核苷 酸,所述探針連接產(chǎn)物是由錨定探針和測序探針連接形成的。本發(fā)明的方法可以用于測定 DNB和代表一部分或者全部基因組的許多DNBs中包含的靶核酸的部分或者全部序列。正如本文進一步討論的,每個DNB包含重復(fù)的單體單元,每個單體單元包含一或 多個銜接子和靶核酸。靶核酸包含復(fù)數(shù)個檢測位置。名詞“檢測位置”是指靶核酸中希望獲 得其序列信息的位置。正如本領(lǐng)域技術(shù)人員可以理解的,通常靶序列含有多個需要其序列 信息的檢測位置,例如象文中描述的全部基因組的測序。某些情況中,例如在SNP分析中, 可能希望僅讀取特定區(qū)域中的單個SNP。本發(fā)明提供了組合使用錨定探針和測序探針的測序方法。文中使用的“測序探針” 是指設(shè)計用于提供靶核酸特定檢測位置上的核苷酸身份的寡核苷酸。測序探針與靶序列內(nèi)的結(jié)構(gòu)域雜交,例如第一測序探針可能與第一靶結(jié)構(gòu)域雜交,第二測序探針與第二靶結(jié)構(gòu) 域雜交。名詞“第一靶結(jié)構(gòu)域”和“第二靶結(jié)構(gòu)域”或文中的語法等同體意味著接受檢驗的 核酸內(nèi)靶序列的兩個部分。第一靶結(jié)構(gòu)域可能與第二靶結(jié)構(gòu)域之間相鄰,或者第一和第二 靶結(jié)構(gòu)域被插入的序列(例如銜接子)隔開。名詞“第一”和“第二”并非希望傳達序列就 靶序列的5’_3’方向而言的方向。例如,假設(shè)互補靶序列是5' -3'方向,第一靶結(jié)構(gòu)域可 能位于第二結(jié)構(gòu)域的5’方向,或者第二結(jié)構(gòu)域的3’方向。測序探針可以重疊,例如第一測 序探針可以與銜接子一個末端相鄰的最開始的6個堿基雜交,第二測序探針可以與從銜接 子末端開始的第4到第9個堿基雜交(例如當(dāng)錨定探針有三個簡并堿基)。替代地,第一測 序探針可以與銜接子“上游”末端相鄰的6個堿基雜交,第二測序探針可以與銜接子“下游” 末端相鄰的6個堿基雜交。測序探針一般包含許多簡并堿基和位于探針內(nèi)特定位置上的特異核苷酸以便查 詢檢測位置(文中又稱為“詢問位點”)。一般來說,當(dāng)利用簡并堿基時,使用測序探針集合。就是說,具有序列“NNNANN”的 探針實際上是一組含有5個位點上4種核苷酸堿基的所有可能組合,并且在第6個位點上 是腺嘌呤的探針(即,1024種序列)。(如文中指出的,該技術(shù)還可以用于銜接子探針例 如,當(dāng)銜接子探針含有“三個簡并堿基”,它實際上是這樣一組銜接子探針,其包含與錨定位 點對應(yīng)的序列和3個位點上的所有可能組合,所以是64種探針的集合)。某些實施方案中,對于每個詢問位點,可以將四個不同標(biāo)記的集合合并到單個集 合中,用于測序步驟。因此,在任何特定測序步驟中,使用4個集合,每個在詢問位點帶有 不同的特異堿基,并有不同標(biāo)記與詢問位點的堿基對應(yīng)。即,測序探針同樣被標(biāo)記,其中 特定詢問位點上的特定核苷酸所關(guān)聯(lián)的標(biāo)記與在相同詢問位點帶有不同核苷酸的測序探 針的標(biāo)記不同。例如,在一個步驟中可以使用四個集合=NNNANN-染料1、NNNTNN-染料2、 NNNCNN-染料3和NNNGNN-染料4,只要這些染料是光學(xué)可分辨的。某些實施方案中,例如用 于SNP檢測,可能只需要包含兩個集合,因為所述SNP只能是C或A等。類似的,某些SNPs 包含三種可能。替代地,在某些實施方案中,如果反應(yīng)是順序而非同時進行的,可以使用同 一染料,只是要在不同的步驟中例如,可以在反應(yīng)中單獨使用NNNANN-染料1探針,檢測到 或者未檢測到信號,洗去探針;任何引入第二個集合NNNTNN-染料1。在本文描述的任何一種測序方法中,測序探針可以有多變的長度,包括大約3到 大約25個堿基。其他實施方案中,測序探針的程度可能在大約5到大約20、大約6到大約 18、大約7到大約16、大約8到大約14、大約9到大約12和大約10到大約11個堿基的范 圍內(nèi)。本發(fā)明的測序探針被設(shè)計成與靶序列中的序列互補,并且一般是完全互補,使得 能夠發(fā)生部分靶序列和發(fā)明所述探針的雜交。具體來說,詢問位點堿基和檢測位點堿基完 全互補是非常重要的,除非它們的確完全互補本發(fā)明的方法不會產(chǎn)生信號。許多實施方案中,測序探針和它們所雜交的靶序列是完全互補的;S卩,試驗在如本 領(lǐng)域已知的有利于形成完全堿基配對的條件下進行。本領(lǐng)域技術(shù)人員可以理解,與靶序列 第一結(jié)構(gòu)域完全互補的測序探針只能與相同靶序列的第二結(jié)構(gòu)域基本互補;即本發(fā)明許多 情況中依賴于使用一組探針,例如一組與某些靶序列完全互補,而不與其他互補的六聚體。在某些實施方案中,取決于具體應(yīng)用,序列探針和靶序列之間的互補性不需要是完美的;可以有任意數(shù)量的可能干擾靶序列和發(fā)明所述單鏈核酸之間雜交的堿基對錯配。 但是,如果錯配數(shù)量太高,即使在最不嚴(yán)緊的雜交條件下都不能發(fā)生雜交,該序列不與靶序 列互補。因此,文中的“基本互補”意味著測序探針與靶序列的互補程度足夠在正常的反應(yīng) 條件下發(fā)生雜交。但對于多數(shù)應(yīng)用來說,只有存在完全互補,條件才設(shè)定為有利于探針雜交 的。替代地,要有足夠的互補性以便連接酶反應(yīng)發(fā)生,即序列的某些部分可能有錯配,但詢 問位點的堿基應(yīng)當(dāng)在只有該位點存在完全互補,才允許連接發(fā)生。某些情況中,本發(fā)明的探針在簡并堿基之外或者代替簡并堿基,還可以使用與一 個以上堿基雜交的通用堿基。例如,可以使用肌苷??梢圆捎眠@些系統(tǒng)和探針成分的任意組合。用于本發(fā)明的方法中的測序探針通常帶有可檢測的標(biāo)記。文中的“標(biāo)記”、“帶有 標(biāo)記”意味著化合物至少附著了一種元素、同位素或化學(xué)物質(zhì)從而能夠?qū)衔镞M行檢測。 一般來說,用于本發(fā)明的標(biāo)記包括但不限于同位素標(biāo)記,可以是放射性或者重金屬同位素、 磁性標(biāo)記、電子標(biāo)記、熱敏標(biāo)記、顯色和發(fā)光染料、酶和磁球等。用于發(fā)明的染料可以是生色 團、磷或熒光染料,因為它們產(chǎn)生的信號強烈,可以提供良好的信噪比用于解碼。測序探針 還可以用量子點、熒光納米珠或其他包含一個以上相同熒光團分子的結(jié)構(gòu)。包含相同熒光 團的多個分子的標(biāo)記通常能提供更強的信號,對淬火的敏感性低于包含單個熒光團分子的 標(biāo)記。此處關(guān)于包含熒光團的標(biāo)記的任何討論應(yīng)當(dāng)理解為適用于包含單個或多個熒光團分 子的標(biāo)記。本發(fā)明的許多實施方案中涉及使用熒光標(biāo)記。適用于本發(fā)明的染料包括,但 不限于熒光稀土(包括銪和鋱的)配合物、熒光素、羅丹明、四甲基羅丹明、伊紅、赤蘚 紅、香豆素、甲基香豆素、芘、孔雀石綠(Malacite green)、芪類(stilbene)、螢光黃 (Lucifer Yellow), Cascade Blue 、Texas Red 禾口第 6 版 Molecular Probes Handbook by Richard P. Haugland中描述的其他染料,為了所有目的,特別是關(guān)于符合本發(fā)明的標(biāo) 記使用的全部教導(dǎo),該文獻通過引用明確全文并入本文。用于與任何核苷酸使用引入核 酸的商品熒光染料包括,但不限于Cy3&Cy5 (Amersham Biosciences, Piscataway, New Jersey,USA)、熒光素、四甲基羅丹明、Texas Red 、Cascade Blue 、BODIPY FL-14、BODIPY R、BODIPY TR-14、Rhodamine Green 、Oregon Green 488、BODIPY 630/650、BODIPY 650/665-、Alexa Fluor 488、Alexa
Fluor 532、Alexa Fluor 568、Alexa Fluor 594、Alexa Fluor 546
(Molecular Probes, Inc. Eugene, OR, USA)、Quasar 570、Quasar 670、Cal Red610(BioSearch Technologies,Novato,Ca)。其他可供合成后附著的熒光團包括, Alexa Fluor 350、Alexa Fluor 532、Alexa Fluor 546、Alexa Fluor 568、Alexa Fluor 594、Alexa Fluor 647、BODIPY 493/503、BODIPY FL、BODIPY R6G、BODIPY 530/550、BODIPY TMR、BODIPY 558/568、B0DIPY558/568、BODIPY 564/570、 BODIPY 576/589、BODIPY 581/591、B0DIPY630/650、BODIPY 650/665、Cascade Blue、 Cascade Yellow、Dansyl、_斯胺羅丹明(lissamine rhodamine)B、Marina Blue、Oregon Green 488、OregonGreen 514、Pacific Blue、羅丹明6G、羅丹明綠、羅丹明紅、四甲基羅丹 明、Texas Red (可從 Molecular Probes, Inc.,Eugene, OR, USA 購買)以及 Cy2、Cy3. 5、 Cy5. 5 禾口 Cy7 (Amersham Biosciences, Piscataway, NJ USA, and others)等等。某些實施
45方案中,包括熒光素、Cy3、Texas Red、Cy5、Quasar 570、Quasar 670 禾口 Cal Red 610 的標(biāo)
記被用于本發(fā)明的方法中??梢岳帽绢I(lǐng)域已知的方法將標(biāo)記附著到核酸上形成本發(fā)明的標(biāo)記測序探針,以 及附著到核苷上的各種位置。例如,附著可以在核酸的一個或兩個末端,或者在內(nèi)部位置或 者兩種情況都有。例如,在一個實施方案中,標(biāo)記可以通過酰胺或胺鍵附著到核糖-磷酸骨 架中核糖的2’或3’位置(后一種情況用于末端標(biāo)記)。還可以經(jīng)由核糖-磷酸骨架中的 磷酸來進行附著,或者附著到核苷酸的堿基上。標(biāo)記可以附著到探針的一個或兩個末端,或 者沿著探針上的任何一個核苷酸上。根據(jù)所希望的詢問位點,測序探針的結(jié)構(gòu)有所不同。例如,對于標(biāo)記了熒光團的測 序探針,每個測序探針中的一個位點將與標(biāo)記探針使用的熒光團的身份呼應(yīng)。一般來說,熒 光團分子會被附著到測序探針中將與錨定探針連接的末端相反的一端。文中使用的“錨定探針”意味著被設(shè)計成與銜接子的至少一部分(文中稱為“錨 定位點”)互補的寡核苷酸。如文中所述,銜接子可以含有多個錨定位點與多個錨定探針雜 交。正如文中進一步討論的,用于本發(fā)明的錨定探針可以設(shè)計成與銜接子雜交,從而使錨定 探針的至少一端與銜接子一個末端齊平(“上游”或“下游”或者這兩者)。其他實施方案 中,錨定探針可以設(shè)計成與銜接子的至少一部分(第一銜接子位點)和鄰接銜接子的靶核 酸中的至少一個核苷酸(“突出”)雜交。如圖24所示,錨定探針2402包含與銜接子的一 部分互補的序列。錨定探針2402在一個末端也包含4個簡并堿基。這一簡并性允許錨定 探針群體的一部分與鄰接銜接子的靶核酸序列完全或部分匹配,并允許錨定探針與銜接子 雜交并伸進與銜接子鄰接的靶核酸,而無論與銜接子鄰接的靶核酸的核苷酸身份為何。錨 定探針末端堿基移到靶核酸內(nèi)使得待測定的堿基位點更靠近連接位點,從而保持了連接酶 的忠實性。一般來說,如果探針與其雜交的靶核酸區(qū)域完全互補,連接酶能夠更高效地連接 探針,但是連接酶的忠實度隨著離開連接位點的距離增加而下降。因此,為了減少和/或防 止測序探針和靶核酸之間不正確配對造成的錯誤,保持待檢測核苷酸與測序和錨定探針的 連接位點之間的距離可能是有用的。通過設(shè)計使錨定探針伸進靶核酸,可以保持連接酶的 忠實度,但仍然能夠鑒定到更多數(shù)量的與每個銜接子連接的核苷酸。雖然圖24顯示的實施 例是測序探針與銜接子一側(cè)的靶核酸區(qū)域雜交,可以理解測序探針雜交到銜接子另一側(cè)的 實施方案也涵蓋在本發(fā)明中。在圖24中,“N”代表簡并堿基,“B”代表未測定序列的核苷 酸。正如可以理解的,在某些實施方案中,可以使用通用堿基而非簡并堿基。本發(fā)明的錨定探針可以包含使得錨定探針能與DNB,通常是DNB上的銜接子雜交 的任何序列。這類錨定探針可能包含這樣的序列,當(dāng)錨定探針與銜接子雜交時,錨定探針的 全部長度包含在銜接子中。某些實施方案中,錨定探針可以包含與銜接子的至少一部分互 補的序列,還包含能夠與鄰接銜接子的靶核酸雜交的簡并堿基。某些示范性實施方案中,錨 定探針是包含3個與銜接子互補的堿基和3個簡并堿基的六聚體。某些示范性實施方案中, 錨定探針是包含3個與銜接子互補的堿基和5個簡并堿基的8聚體。其他實施方案中,特 別是使用了多種錨定探針時,第一錨定探針在一端包含多個與銜接子互補的堿基,另一端 包含簡并堿基,而第二錨定探針包含的全部是簡并堿基,被設(shè)計成與第一錨定探針包含簡 并堿基的一端相連接??梢岳斫?,這些是示范性的實施方案,已知和簡并堿基的多種組合可 以用于產(chǎn)生適合本發(fā)明使用的錨定探針。
本發(fā)明提供了鑒定DNBs序列的連接法測序方法。某些方面中,本發(fā)明的連接法 測序方法包括提供不同組合的錨定探針和測序探針,這兩種探針當(dāng)雜交到DNB上相鄰區(qū)域 時,可以連接形成探針連接產(chǎn)物。然后檢測探針連接產(chǎn)物,可以提供靶核酸中的一或多個核 苷酸的身份。文中使用的“連接”是指將兩個或多個核苷酸相互連在一起的任何方法。連接 可以包括化學(xué)和酶法連接。一般來說,文中討論的連接法測序方法利用連接酶進行酶法連 接。發(fā)明中使用的這類連接酶可以和以上討論的用于形成核酸模板的連接酶相同或不同。 這類連接酶包括但不限于DNA連接酶I、DNA連接酶II、DNA連接酶III、DNA連接酶IV、大 腸桿菌DNA連接酶、T4 DNA連接酶、T4 RNA連接酶1、T4 RNA連接酶2、T7連接酶、T3 DNA 連接酶和熱穩(wěn)定連接酶(包括但不限于Taq連接酶)等。正如以上討論的,連接法測序方 法經(jīng)常依賴連接酶的忠實度,只將和它們所雜交的核酸完全互補的探針連接起來。這一忠 實度隨著探針中特定位點上的堿基和兩個探針之間的連接點的距離的增加而下降。因此, 常規(guī)的連接法測序方法只能鑒定到有限數(shù)量的堿基。正如文中進一步描述的,本發(fā)明采用 多個探針集合來提高可以鑒定的堿基數(shù)量。多種雜交條件可以用于連接法測序方法和文中討論的其他測序方法。這些條件 包括高、中等和低嚴(yán)緊度條件,參見通過引用并入本文的例如Maniatis et al. ,Molecular Cloning :A Laboratory Manual,2d Edition,1989,禾口 Short Protocols in Molecular Biology, ed. Ausubel, et al。嚴(yán)緊條件是序列依賴性的,并且在不同情形中是不同的。較 長的序列在較高溫度特異雜交。關(guān)于核酸雜交的全面指南可見于Tijssen,Techniques in Biochemistry and Molecular Biology—Hybridization with Nucleic Acid Probes, " Overview of principles of hybridization and the strategy of nucleic acid assays, “ (1993)。通常,嚴(yán)緊條件選擇比特異序列在限定離子強度和pH的熔點 (Tm)低大約5-10°C。Tm是平衡時,與靶互補的探針有50%雜交到靶序列時的溫度(限定 離子強度、PH和核酸濃度下)(因為存在著過量的靶序列,在Tm,50%的探針在平衡時被占 據(jù))。嚴(yán)緊條件可以是這樣一些條件,其中鹽濃度低于大約1. OM鈉離子,一般是大約0. 01 到1. OM鈉離子濃度(或其他鹽),pH 7. 0到8. 3,溫度對于短的探針(例如,10到50個核 苷酸)是至少大約30°C,對于長探針(例如,超過50個核苷酸)是至少大約60°C。嚴(yán)緊條 件還可以通過加入諸如甲酰胺的螺旋去穩(wěn)定劑來達到。如本領(lǐng)域已知的,當(dāng)使用非離子型 骨架,即PNA時,雜交條件也可能發(fā)生變化。此外,可以在靶結(jié)合后,加入交聯(lián)劑來將雜交復(fù) 合體的兩條鏈交聯(lián),即共價附著。雖然關(guān)于測序方法的描述是就本發(fā)明的核酸模板而言的,可以理解,正如本文描 述的,這些測序方法也涵蓋了鑒定由這些核酸模板產(chǎn)生的DNBs的序列。對于本領(lǐng)域已知的和文中描述的利用本發(fā)明的核酸模板進行的任何測序方法,本 發(fā)明提供了確定靶核酸中至少大約10到大約200個堿基的方法。其他實施方案中,本發(fā)明 提供了確定靶核酸中至少約20到約180、約30到約160、約40到約140、約50到約120、 約60到約100和約70到約80個堿基的方法。還有一些實施方案中,測序方法被用于鑒定 鄰接發(fā)明所述核酸模板中的每個銜接子的一端或兩端的至少5、10、15、20、25、30或更多堿 基。本文描述的和本領(lǐng)域已知的任何測序方法都可以應(yīng)用到處于溶液中的本發(fā)明的 核酸模板和/或DNBs,或者排列在表面和/或陣列中的核酸模板和/或DNBs。
VIIB(i).單一 cPAL本發(fā)明一個方面提供了通過利用測序探針和錨定探針的組合來鑒定DNBs的序列 的方法,其中所述測序和錨定探針雜交到DNB的相鄰區(qū)域,并通常通過使用連接酶連接在 一起。這種方法文中一般稱為cPAL(復(fù)合探針-錨定分子連接)法。一個方面中,本發(fā)明 的cPAL法產(chǎn)生包含單一錨定探針和單一測序探針的探針連接產(chǎn)物。只使用單一錨定探針 的cPAL方法在文中稱為“單一 cPAL”。圖23顯示了單一 cPAL的一個實施方案。DNB的單體單元2301包含靶核酸2309 和銜接子2308。錨定探針2302與銜接子2308上的互補區(qū)域雜交。在圖23顯示的實例中, 錨定探針2302與直接鄰接靶核酸2309的銜接子區(qū)域雜交,雖然如文中進一步討論的,也 可以通過在錨定探針末端引入需要數(shù)量的簡并堿基,將錨定探針設(shè)計成可以伸進鄰接銜接 子的靶核酸內(nèi)。區(qū)別標(biāo)記的測序探針集合2306與靶核酸中的互補區(qū)域雜交。鄰接錨定探 針2302,與靶核酸2309的區(qū)域雜交的測序探針2310與錨定探針連接形成探針連接產(chǎn)物。 當(dāng)探針中詢問位點的堿基與靶核酸的檢測位點中的未知堿基互補時,雜交和連接的效率增 加。這一增加的效率有利于完全互補的(而不是含有錯配的)測序探針和錨定探針連接。 如上文討論過的,連接通常是利用連接酶經(jīng)酶促實現(xiàn)的,但也可以使用適合本發(fā)明的其他 連接方法。圖23中,“N”代表簡并堿基,“B”蛋白未確定序列的核苷酸。可以理解,某些實 施方案中,可以使用通用堿基代替簡并堿基。正如上文還討論過的,測序探針可以是代表特定位點上各種堿基類型并標(biāo)記來可 檢測標(biāo)記的寡核苷酸,其中所述標(biāo)記可以將每種測序探針與在該位置上帶有其他核苷酸的 測序探針區(qū)分開。因此,在圖23顯示的實例中,鄰接錨定探針2302雜交并被連接到該錨定 探針上的測序探針2310鑒定出靶核酸中離銜接子5個堿基的位點上的堿基是“G”。可以利 用多個循環(huán)的錨定探針和測序探針雜交和連接來鑒定出DNB中每個銜接子每側(cè)的靶核酸 中希望數(shù)量的堿基。可以理解,文中描述的任何cPAL方法中的錨定探針和測序探針的雜交可以是順 序的或同時的。在圖23顯示的實施方案中,測序探針2310雜交到銜接子“上游”區(qū)域,但可以理 解,所述測序探針也可以與銜接子“下游”雜交。名詞“上游”和“下游”是指取決于系統(tǒng)的 方向,在銜接子5’和3’方向的區(qū)域。一般來說,“上游”和“下游”是相對名詞,不是限制性 的;它們只是為了便于理解。如圖6所示,測序探針607可以雜交到銜接子604下游,從而 鑒定出距離銜接子和靶核酸603的交界處4個堿基的核苷酸。其他實施方案中,測序探針 可以與銜接子上游和下游雜交來鑒定銜接子兩側(cè)的核酸位點上的核苷酸。這些實施方案允 許單一 cPAL方法中每個雜交_連接-檢測循環(huán),由每個銜接子產(chǎn)生多個信息點。某些實施方案中,用于單一 cPAL方法的探針可能含有對應(yīng)銜接子的大約3到大約 20個堿基,以及大約1到大約20個簡并堿基(即,錨定探針集合中)。這些錨定探針還可 以包含通用堿基,以及簡并堿基和通用堿基的組合。某些實施方案中,含有簡并堿基的錨定探針,為了增加簡并堿基完全匹配雜交的 穩(wěn)定性,可能與銜接子序列有大約1-5個錯配。這樣的設(shè)計提供了另一種方式來控制連接 在一起的錨定和測序探針的穩(wěn)定性,以便有利于那些與靶(未知)序列完全匹配的探針。 其他實施方案中,錨定探針中簡并堿基部分的多個堿基可以用脫堿基位點(即糖上沒有堿
48基的位點)或其他核苷酸類似物代替來影響雜交探針的穩(wěn)定性,從而有利于錨定探針簡并 部分的遠(yuǎn)端(如文中所述將參與和測序探針的連接反應(yīng))形成完全匹配雜交體??梢栽趦?nèi) 部的堿基,特別是包含大量(即5個以上)簡并堿基的錨定探針的內(nèi)部堿基引入這類修飾。 此外,如下文進一步描述的,錨定探針遠(yuǎn)端的某些簡并或通用堿基可以設(shè)計成雜交后可以 切割(例如通過引入尿嘧啶)從而為測序探針或第二錨定探針產(chǎn)生連接位點。其他實施方案中,可以通過操縱反應(yīng)條件,例如雜交的嚴(yán)緊度來控制錨定探針的 雜交。在示范性實施方案中,錨定雜交過程可以從高嚴(yán)緊度(較高的溫度、較低鹽濃度、較 高PH、甲酰胺濃度較高等)條件開始,這些條件可以逐漸或逐步放松。這可能需要連續(xù)的 雜交循環(huán),其中不同錨定探針集合被移開,然后加入隨后的循環(huán)中。這樣的方法提供了更高 百分比的靶核酸被完全互補的錨定探針占據(jù),特別是在將與測序探針連接的遠(yuǎn)端位點完全 互補的錨定探針。還可以控制各嚴(yán)緊度條件下的雜交時間來獲得更多數(shù)量的完全匹配雜交 體。VIIB(ii).雙重(IWi)cPAL再一些實施方案中,本發(fā)明提供了每個雜交_連接循環(huán)中使用兩種連接在一起的 錨定探針的cPAL方法。參見例如美國專利申請60/992,485、61/026,337、61/035,914和 61/061,134,這些文獻通過引用全文,特別是實施例和權(quán)利要求并入本文。圖25顯示了“雙 重cPAL”方法的一個實例,其中第一錨定探針2502和第二錨定探針2505雜交至銜接子的 互補區(qū)域;即第一錨定探針與第一錨定位點雜交,第二錨定探針與第二錨定位點雜交。在 圖25顯示的實例中,第一錨定探針2502與銜接子2511的一個區(qū)域(第一錨定位點)完全 互補,第二錨定探針2505與鄰接第一錨定探針雜交位點的銜接子區(qū)域(第二錨定位點)互 補。一般說來,第一和第二錨定位點是相鄰的。第二錨定探針任選在不與第一錨定探針相鄰的那個末端也包含簡并堿基,因此它 將與靶核酸2512中鄰接銜接子2511的區(qū)域雜交。這使得能夠獲得離銜接子/靶交界處更 遠(yuǎn)的靶核酸堿基的序列信息。同樣,如文中概括的那樣,說到探針含有“簡并堿基”時,意味 著該探針實際上包含一組探針,是簡并位點所有可能序列的組合。例如,如果錨定探針長度 為9個堿基,有6個已知堿基和3個簡并堿基,則錨定探針實際上是64種探針的集合。第二錨定探針通常太短,不能單獨維持雙鏈體雜交狀態(tài),但是在與第一錨定探針 連接后,形成較長的在隨后的方法中穩(wěn)定的錨定探針。某些實施方案中,第二錨定探針含有 與銜接子互補的大約1到大約5個堿基和大約5到大約10個簡并序列的堿基。正如以上 “單一 cPAL”方法中討論過的,代表靶核酸檢測位點的每個堿基類型并標(biāo)記了可檢測標(biāo)記 (能將每個測序探針與在該位點帶有其他核苷酸的測序探針區(qū)分開)的測序探針集合2508 與銜接子_錨定探針雙鏈體雜交2509,并連接到相連的錨定探針的末端5’或3’堿基上。 在圖25所示的實例中,測序探針被設(shè)計成詢問距離測序探針2514和相連的錨定探針2513 之間的連接點5’方向5個位點的堿基。因為第二錨定探針2505在其5’端有5個簡并堿 基,它向靶核酸2512伸進5個堿基,允許測序探針在距離靶核酸2512和銜接子2511之間 的交界處整整10個堿基的地方進行詢問。圖25中“N”代表簡并堿基,“B”代表未確定序 列的核苷酸。可以理解,某些實施方案中,可以使用通用堿基代替簡并堿基。在某些實施方案中,第二錨定探針可能含有與銜接子對應(yīng)的大約5-10個堿基和 與靶核酸對應(yīng)的一般是簡并堿基的大約5-15個堿基。該第二錨定探針可能首先在最佳條件下進行雜交,從而有利于高百分比的靶序列在兩種錨定探針連接點周圍的少數(shù)堿基上是 完全匹配雜交的。第一銜接子探針和/或測序探針可以在單一步驟中或順序地雜交并連接 至第二錨定探針。某些實施方案中,第一和第二錨定探針可能在它們的連接點有大約5到 大約50個互補堿基不與銜接子互補,因此形成“分支”雜交體。這種設(shè)計允許雜交的第二 錨定探針的銜接子特異性穩(wěn)定。某些實施方案中,第二錨定探針在與第一錨定探針雜交前 先連接到測序探針上;某些實施方案中,第二錨定探針在與測序探針雜交前,先連接到第一 錨定探針上;某些實施方案中,第一和第二錨定探針以及測序探針同時雜交,第一和第二錨 定探針之間以及第二錨定探針和測序探針之間同時或基本同時發(fā)生連接,而在其他實施方 案中,第一和第二錨定探針之間的以及第二錨定探針和測序探針之間的連接以任何順序依 次發(fā)生??梢岳脟?yán)緊清洗條件來除去未發(fā)生連接的探針(例如,溫度、PH、鹽、含有最佳濃 度的甲酰胺的緩沖液都可以使用,其中的最佳條件和/或濃度利用本領(lǐng)域已知方法確定)。 這種方法在使用帶有大量簡并堿基的第二錨定探針的方法中尤其有用,其中所述簡并堿基 在錨定探針和靶核酸之間的相應(yīng)交接點以外雜交。特定實施方案中,雙重cPAL方法利用兩種錨定探針的連接,其中一個錨定探針與 銜接子完全互補,第二個錨定探針全部是簡并堿基(同樣,實際上是探針集合)。圖26顯 示了這類雙重cPAL方法的一個實例,其中第一錨定探針2602與DNB2601的銜接子2611雜 交。第二錨定探針2605全部是簡并堿基,因此能夠與鄰接銜接子2611的靶核酸區(qū)域中的 未知核苷酸雜交。第二錨定探針被設(shè)計成短得無法單獨維持在雙鏈體雜交狀態(tài),但在與第 一錨定探針連接后形成較長的相連錨定探針構(gòu)建體,提供了 cPAL過程中后續(xù)步驟需要的 穩(wěn)定性。完全簡并的第二錨定探針在某些實施方案中可以長大約5到大約20個堿基。為 了較長的長度(即,10個堿基以上),可以對雜交和連接條件進行改動以降低簡并錨定探針 的有效Tm。較短的第二錨定探針通常會與靶核酸和銜接子非特異性地結(jié)合,但它的較短長 度影響雜交動力學(xué),因此一般來說只有那些與鄰接銜接子和第一錨定探針的區(qū)域完全互補 的第二錨定探針有能力使連接酶將第一和第二錨定探針連在一起,產(chǎn)生較長的相連錨定探 針構(gòu)建體。非特異雜交的第二錨定探針沒有能力與DNB雜交足夠長的時間以便隨后與任何 相鄰雜交的測序探針發(fā)生連接。某些實施方案中,第二和第一錨定探針連接后,通常通過清 洗步驟除去任何沒有連接的錨定探針。圖26中,“N”代表簡并堿基,“B”代表未確定序列的 核苷酸。可以理解,在某些實施方案中,可以使用通用堿基代替簡并堿基。其他示范性實施方案中,第一錨定探針是包含3個與銜接子互補的堿基和3個簡 并堿基的六聚體,而第二錨定探針僅包含簡并堿基,并且第一和第二錨定探針被設(shè)計成只 有第一錨定探針帶有簡并堿基的末端能夠與第二錨定探針連接。其他示范性實施方案中, 第一錨定探針是包含3個與銜接子互補的堿基和5個簡并堿基的8聚體,同樣第一和第二 錨定探針被設(shè)計成第一錨定探針只有帶有簡并堿基的末端能夠與第二錨定探針連接??梢?理解,這些是示范性實施方案,已知的和簡并堿基的許多種組合可以用在第一和第二(某 些實施方案中,第三和/或第四)錨定探針的設(shè)計中。在上述雙重cPAL方法的實例的改進方法中,如果第一錨定探針結(jié)束在更靠近銜 接子的末端處,第二錨定探針將成比例地含有更多簡并堿基,因此更有可能不僅與第一錨 定探針末端連接,還會與DNB上多個位點的其他第二錨定探針連接。為了防止這類連接假 象,可以選擇性地活化第二錨定探針使它限于與第一錨定探針或測序探針的連接。這類活
50化包括選擇性地修飾錨定探針的末端,使它們只能與相對銜接子特定方向的特定錨定探針 或測序探針連接。例如,可以給第二錨定探針引入5’和3’磷酸基團,這樣被修飾的第二錨 定探針能夠與雜交到銜接子上的第一錨定探針的3’端連接,但兩個第二錨定探針不能相互 連接(因為3’末端被磷酸化,將阻止酶促連接)。一旦第一和第二錨定探針連在一起來,可 以通過除去3’磷酸基團(例如用T4多核苷酸激酶或者諸如蝦堿性磷酸酶和小牛腸磷酸酶 的磷酸酶)來活化第二錨定探針的3’端。如果希望連接發(fā)生在第二錨定探針的3’端和第一錨定探針的5’端,可以設(shè)計和 /或修飾第一錨定探針使其5’端被磷酸化,設(shè)計和/或修飾第二錨定探針使其不帶有5’ 或3’磷酸。同樣,第二錨定探針將能夠與第一錨定探針連接,但不能與其他第二錨定探針 連接。第一和第二錨定探針連接之后,可以在第二錨定探針的自由末端上引入5’磷酸基團 (例如,通過使用T4多核苷酸激酶)使它可用于在cPAL過程的隨后步驟中與測序探針連 接。某些實施方案中,兩種錨定探針被同時加到DNBs。某些實施方案中,兩種錨定探針 是順序加給DNBs,允許一種錨定探針在另一種之前與DNBs雜交。某些實施方案中,在第二 銜接子與測序探針連接之前,兩種錨定探針先相互連接。某些實施方案中,錨定探針和測序 探針在一個步驟中連接。兩種錨定探針和測序探針是在一個步驟中連接的實施方案中,可 以將第二銜接子設(shè)計成有足夠的穩(wěn)定性維持其位置,直至三種探針(兩種錨定探針和測序 探針)就位進行連接。例如,可以使用包含5個與銜接子互補的堿基和5個用于與鄰接銜 接子的靶核酸區(qū)域雜交的簡并堿基的第二錨定探針。這樣的第二錨定探針可能有足夠的穩(wěn) 定性在低嚴(yán)緊洗滌時維持,因此在第二錨定探針雜交和測序探針雜交步驟之間不需要連接 步驟。在隨后的測序探針與第二錨定探針的連接步驟中,第二錨定探針也將連接到第一錨 定探針上,產(chǎn)生的雙鏈體穩(wěn)定性高于單獨的任何一種錨定探針或測序探針。與以上描述的雙重cPAL方法類似,可以理解,有三種或更多種錨定探針的cPAL也 涵蓋在本發(fā)明中。這些錨定探針可以按照本文描述的和本領(lǐng)域已知的方法設(shè)計成在與銜接 子區(qū)域雜交時,其中一種錨定探針的一個末端可以與鄰接末端錨定探針雜交的測序探針連 接。示范性實施方案中,提供了三種錨定探針-兩種與銜接子內(nèi)的不同序列互補,第三種包 含簡并堿基與靶核酸內(nèi)的序列雜交。其他實施方案中,與銜接子內(nèi)的序列互補的兩種錨定 探針之一其末端還可以包含一或多個簡并堿基,以便該錨定探針伸進靶核酸內(nèi)與第三錨定 探針連接。其他實施方案中,錨定探針中的一種可能與銜接子完全或部分互補,第二和第三 錨定探針完全是簡并堿基用于與靶核酸雜交。其他實施方案中,四個或多個完全簡并的錨 定探針可以與三個相連的錨定探針順序連接,從而使測定進一步延伸進靶核酸序列內(nèi)。在 示范性實施方案中,包含與銜接子互補的12個堿基的第一錨定探針可以與第二六聚體錨 定探針連接,所述六聚體錨定探針中的6個堿基全部是簡并堿基。同樣是完全簡并的六聚 體的第三錨定分子也可以與第二錨定探針連接,進一步伸進靶核酸未知序列內(nèi)。還可以加 入第四、第五、第六等錨定探針以便進一步延伸進未知序列內(nèi)。再一些實施方案中,根據(jù)本 文描述的任何cPAL方法,一種或多種錨定探針可以包含一種或多種標(biāo)記,所述標(biāo)記用于給 錨定探針做“標(biāo)簽”和/或用于鑒定DNB的銜接子上雜交的特定錨定探針。VIIB(iii).檢測熒光標(biāo)記的測序探針正如以上討論的,可以用各種標(biāo)記將 于本發(fā)明的測序探針可檢測地標(biāo)記。雖然以下描述主要是針對測序探針以熒光團標(biāo)記的實施方案,可以理解,使用了包含其他類型 標(biāo)記的測序探針的類似實施方案也涵蓋在本發(fā)明中。多個循環(huán)的cPAL(無論是單一、雙重、三重等)將鑒定到鄰接銜接子的靶核酸區(qū)域 內(nèi)的多個堿基。簡單來說,通過循環(huán)進行錨定探針雜交和酶促連接反應(yīng),并從銜接子和靶核 酸的交界處移走測序探針集合(設(shè)計用于檢測不同位點的核苷酸)來重復(fù)進行cPAL方法 以便詢問靶核酸內(nèi)的多個堿基。任何給定循環(huán)中,使用的測序探針被設(shè)計成一或多個位點 上的一或多個堿基的身份與附著在該測序探針上的標(biāo)記的身份呼應(yīng)。一旦對發(fā)生連接的測 序探針(以及因此詢問位點的堿基)進行了檢測,連接復(fù)合體即被剝離DNB,執(zhí)行新一輪的 銜接子和測序探針雜交和連接。一般來說,通常使用四個熒光團來鑒定測序探針內(nèi)詢問位點上的堿基,每個雜 交-連接-檢測循環(huán)查詢一個堿基。但是,可以理解,使用8、16、20和24或更多種熒光團 的實施方案也涵蓋在本發(fā)明內(nèi)。增加熒光團的數(shù)量將增加任意一個循環(huán)中可以鑒定的堿基 的數(shù)量。一個示范性實施方案中,采用了具有以下結(jié)構(gòu)的一組7聚體測序探針集合3, -Fl-NNNNNNAp3, -F2_NNNNNNGp3,-F3-NNNNNNCp3, -F4-NNNNNNTp其中的“ρ”代表可供連接的磷酸,“N”代表簡并堿基。F1-F4代表四種不同的熒光 團_因此每種熒光團與特定的堿基相關(guān)聯(lián)。這組示范性探針在測序探針與雜交到銜接子的 錨定探針連接后,能夠檢測出緊鄰銜接子的堿基。就用于連接測序探針和錨定探針的連接 酶能夠區(qū)別探針詢問位點的堿基和靶核酸檢測位點的堿基之間的互補性而言,測序探針雜 交和連接時將檢測到的熒光信號提供了靶核酸檢測位點的堿基身份。某些實施方案中,一組測序探針將包含三種區(qū)別標(biāo)記的測序探針,留下第四種任 選的測序探針未標(biāo)記。進行雜交_連接-檢測循環(huán)后,將錨定探針_測序探針連接產(chǎn)物剝離,開始新的循 環(huán)。某些實施方案中,可以獲取距離錨定探針和測序探針之間的連接點6個或更多個堿基, 以及距離靶核酸和銜接子之間的交界處12個或更多個堿基的準(zhǔn)確序列信息。利用本文描 述的方法,包括使用帶有簡并末端能夠進一步伸進靶核酸內(nèi)的錨定探針,可以增加能夠被 鑒定的堿基數(shù)量??梢岳帽绢I(lǐng)域已知的方法,包括利用諸如Metamorph(Molecular Devices, Sunnyvale, CA)的商品成像軟件包來進行圖像獲取。數(shù)據(jù)提取可以通過一系列以例如C/ C++寫的二進制文件進行,堿基測定和測定_做圖可以通過一系列Matlab和Perl script 進行。在示范性實施方案中,排列在表面上的DNBs如文中所述經(jīng)歷一輪cPAL,其中使用 的測序探針標(biāo)記了四種不同熒光團(每種對應(yīng)探針內(nèi)詢問位點上的特定堿基)。為了確定 表面上排列的每個DNB的堿基的身份,每個視野(“相框”)用對應(yīng)四種熒光標(biāo)記的測序探 針的四個波長成像。每個循環(huán)得到的所有圖像存儲在循環(huán)目錄中,其中圖像的數(shù)量是相框 的四倍(使用四種熒光團時)。任何可以將循環(huán)圖像數(shù)據(jù)存儲到為下游數(shù)據(jù)加工組織的目
52錄結(jié)構(gòu)中。某些實施方案中,數(shù)據(jù)提取依賴于兩種類型的圖像數(shù)據(jù)亮視野圖像來區(qū)分表面 上的所有DNBs的位置,和每個測序循環(huán)中獲取的多組熒光圖像??梢岳脭?shù)據(jù)提取軟件以 亮視野圖像識別出所有對象,任何對于每個這種對象,利用軟件計算每個測序循環(huán)的平均 熒光值。對于任意給定循環(huán),共有四個數(shù)據(jù)點,它們對應(yīng)不同波長下攝取的四個圖像來查詢 該堿基是否A、G、C或T。將這些原始數(shù)據(jù)點(文中又稱為“堿基測定”)進行整理,給每個 DNB產(chǎn)生不連續(xù)測序結(jié)果。然后可以將鑒定到的堿基群組裝以提供靶核酸的序列信息和/或鑒定靶核酸中 是否存在某特定序列。某些實施方案中,通過由多個DNBs上進行的多個測序循環(huán)獲得的 重疊序列的比對,將鑒定到的堿基組裝成完整序列。名詞“完整序列”用于本文是指部分 或整個基因組的序列以及部分或整個靶核酸的序列。在其他實施方案中,組裝方法利用了 可以將重疊序列“拼接”以提供完整序列。再一些實施方案中,利用參照表來協(xié)助將鑒定 到的序列組裝成完整序列??梢岳盟x生物體的已有測序數(shù)據(jù)匯總成參照表。例如, 人基因組數(shù)據(jù)可以從 National Center for Biotechnology Information (ftp, ncbi. nih. Rov/refseq/release),或者 J. Craig Venter Institute (http://www, icvi. ors/ researchhuref/)獲取。可以利用全部人基因組信息或其子集來制作特定測序查詢的參照 表。此外,可以由來源于特定群體的經(jīng)驗數(shù)據(jù)構(gòu)建具體參照表,包括來自特定種族、地理傳 承、宗教或文化限定的人群體的基因序列,因為根據(jù)參照數(shù)據(jù)中含有的信息的來源,人基因 組內(nèi)的差異可能歪曲這些數(shù)據(jù)。 本文討論的任何發(fā)明的實施方案中,核酸模板和/或DNBs群可以包含許多靶核酸 從而基本覆蓋整個基因組或整個靶多核苷酸?!盎靖采w”用于本文意味著被分析的核苷 酸(即靶序列)的數(shù)量至少等同于兩個拷貝的靶多核苷酸;或者在另一方面中,至少十個拷 貝;或者在另一方面中,至少二十個拷貝;或者在另一方面中,至少100個拷貝。靶多核苷酸 可以包括DNA片段(包括基因組DNA片段和CDNA片段)和RNA片段??梢栽谝韵峦ㄟ^引用 并入本文的文獻中找到關(guān)于重構(gòu)靶多核苷酸序列的步驟的指南=Landeret al, Genomics, 2 231-239(1988) ;Vingron et al, J. Mol. Biol.,235 :1_12(1994)及類似的參考文獻。VIIB(iv).探針組正如可以理解的,可以根據(jù)以上描述的各種cPAL方法,使用測序和錨定探針的不 同組合。以下關(guān)于本發(fā)明中使用的探針組(文中還稱為“探針集合”)的描述是示范性的實 施方案,可以理解本發(fā)明并不局限于這些組合。一方面,探針組被設(shè)計成鑒定離銜接子特定距離的位點上的核苷酸。例如,一定的 探針組可以用于鑒定離銜接子最多 3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、 21、22、23、24、25、26、27、28、29、30和更多個位點的堿基。正如以上討論過的,一端帶有簡并 堿基的錨定探針可以設(shè)計成伸進與銜接子相鄰的靶核酸內(nèi),允許測序探針連接到離銜接子 更遠(yuǎn)的位置,從而提供離銜接子更遠(yuǎn)的堿基的身份。在示范性實施方案中,一組探針包含至少兩種被設(shè)計成與銜接子鄰接區(qū)域雜交的 錨定探針。一個實施方案中,第一錨定探針與銜接子區(qū)域完全互補,而第二錨定探針與銜接 子鄰接區(qū)域互補。某些實施方案中,第二錨定探針包含一個或多個簡并堿基,這些堿基伸進 與銜接子相鄰的靶核酸內(nèi),并與其核苷酸雜交。在示范性實施方案中,第二錨定探針包含至少1-10個簡并堿基。其他示范性實施方案中,第二錨定探針包含2-9、3-8、4-7和5-6個簡 并堿基。再一些示范性實施方案中,第二錨定探針的一端或兩端和/或其序列內(nèi)部區(qū)域包 含一個或多個簡并堿基。其他實施方案中,一組探針還可以包含一或多個測序探針群,用于確定靶核酸內(nèi) 一或多個檢測位點上的堿基。在一個實施方案中。所述探針組包含足夠的不同測序探針 群,能夠鑒定靶核酸內(nèi)的大約1到大約20個位點。其他示范性實施方案中,所述探針組包 含足夠的測序探針群,能夠鑒定靶核酸內(nèi)的大約2到大約18、大約3到大約16、大約4到大 約14、大約5到大約12、大約6到大約10和大約7到大約8個位點。其他示范性實施方案中,按照本發(fā)明使用了 10個標(biāo)記了的或帶標(biāo)簽的探針集合。 再一些實施方案中,探針組包含兩種或更多種序列不同的錨定探針。還有一些實施方案中, 探針組包含3、4、5、6、7、8、9、10、11、12、13、14、15或更多種序列不同的錨定探針。其他示范性實施方案中,提供的一組探針包含一或多個測序探針群和三種錨定探 針。第一錨定探針與第一銜接子區(qū)域互補,第二錨定探針與第二銜接子區(qū)域互補,并且第一 和第二銜接子區(qū)域是相鄰的。第三錨定探針包含三個或更多個簡并核苷酸,能夠與鄰接銜 接子的靶核酸內(nèi)的核苷酸雜交。第三錨定探針在某些實施方案中還可以與第三銜接子區(qū)域 互補,所述第三區(qū)域可以與第二區(qū)域相鄰,從而第二錨定探針側(cè)接著第一和第三錨定探針。某些實施方案中,錨定和/或測序探針組包含不同濃度的每種探針,并且該濃度 部分取決于錨定探針中可能含有的簡并堿基。例如,具有較低雜交穩(wěn)定性的探針,比如有較 多A和/或T的探針,可以相對濃度較高從而彌補它們的較低穩(wěn)定性。在其他實施方案中, 相對濃度的差別是通過獨立制備小的探針集合,然后將這些獨立制備的探針集合以合適的 量混合來實現(xiàn)的。VIIB (ν).其他測序方法一個方面中,本發(fā)明的方法和組合物與比如W02007120208、W02006073504、 W02007133831 和 US2007099208 以及美國專利申請 60/992,485,61/026, 337,61/035, 914、 61/061,134,61/116, 193,61/102, 586,12/265, 593,12/266, 385,11/938, 096,11/981, 804、 11/981,797,11/981, 793,11/981, 767,11/981, 761,11/981, 730,11/981,685,11/981,661、 11/981,607,11/981, 605,11/927, 388,11/927, 356,11/679, 124,11/541, 225,10/547, 214、 11/451,692和11/451,691中描述的技術(shù)組合使用,為了所有目的,特別是與測序,尤其是 與多聯(lián)體的測序有關(guān)的全部教導(dǎo),上述文獻通過引用全文并入本文。另一方面中,鑒定DNBs的序列使用了本領(lǐng)域已知的方法,包括但不限于基于雜 交的方法,比如 Drmanac,美國專利 6,864,052、6,309,824 和 6, 401, 267 ;以及 Drmanac et al,美國專利公開2005/0191656 ;和合成法測序方法,例如Nyren et al,美國專利 6,210,891、Ronaghi,美國專利 6,828,100、Ronaghi et al (1998),Science, 281 :363_365、 Balasubramanian,美國專利 6,833,246、Quake,美國專利 6,911,345、Li et al, Proc. Natl. Acad. Sci.,100 :414_419 (2003)、Smith et al, PCT 公開 WO 2006/074351 ;以及基于 連接的方法,例如 Shendure et al (2005),Science,309 1728-1739、Macevicz,美國專利 6,306,597,其中為了所有目的,特別是涉及(尤其是與測序有關(guān)的)描述組合物、組合物使 用方法和組合物制備方法的圖、圖標(biāo)和附帶文字,這些文獻分別通過引用全文并入本文。某些實施方案中,本發(fā)明的核酸模板以及由這些模板產(chǎn)生的DNBs被用于合成法測序方法中。與常規(guī)合成法測序方法相比,這些方法使用的核酸不包含多個散在分布的銜 接子,利用本發(fā)明的核酸模板進行的合成法測序方法的效率提高。本發(fā)明的核酸模板允許 從模板中的各個銜接子開始進行多個較短測定,而不是單個的長測定。這種短測定使用較 少的標(biāo)記dNTPs,因此能夠節(jié)約試劑費用。此外,可以在DNB陣列上進行合成法測序反應(yīng), 所述陣列提供高密度的測序靶和多拷貝的單體單元。這種陣列提供單分子水平的可檢測信 號,同時提供的序列信息量增加,因為多數(shù)或全部DNB單體單元在不影響測序進程的情況 下被延伸。陣列的高密度還可以降低試劑費用_在某些實施方案中試劑費用的減少是常規(guī) 合成法測序方法的大約30到大約40%。某些實施方案中,本發(fā)明核酸模板中散在分布的銜 接子如果相互間隔大約30到大約100個堿基來插入,可以提供一種方式以合并大約兩個到 大約十個標(biāo)準(zhǔn)測定值。這樣的實施方案中,后續(xù)測序循環(huán)不需要剝離新合成的鏈,從而允許 使用單個DNB陣列通過合成循環(huán)進行大約100到大約400次測序。VIIC.兩階段測序本發(fā)明一個方面提供了“兩階段”測序方法,文中又稱為“鳥槍法測序”。這種方法 在2008年12月1日提交的美國專利申請12/325,922中有描述,為了所有目的,特別是與 兩階段或鳥槍測序有關(guān)的全部教導(dǎo),該文獻通過引用全文并入本文。通常,用于本發(fā)明的兩階段_測序法包括以下步驟(a)測定靶核酸序列,產(chǎn)生包 含一或多個目標(biāo)序列的初級靶核酸序列;(b)合成復(fù)數(shù)個靶特異的寡核苷酸,其中所述復(fù) 數(shù)靶特異的寡核苷酸中的每個對應(yīng)至少一個目標(biāo)序列;(c)提供靶核酸片段庫(或者包含 這種片段并進一步包含例如文中描述的銜接子和其他序列的構(gòu)建體),與復(fù)數(shù)個靶特異的 寡核苷酸雜交;以及(d)測定片段庫(或包含這種片段的構(gòu)建體)的序列,產(chǎn)生次級靶核 酸序列。為了填補丟失序列造成的缺口或者解決基因組DNA(比如人基因組DNA)初級序列 中低可信度的堿基測定,合成用于這些方法的靶特異的寡核苷酸數(shù)量可以在大約1萬到大 約1百萬,因此本發(fā)明考慮了使用至少大約10,000個靶特異的寡核苷酸,或者大約25,000、 或大約50,000、或大約100,000、或大約20,000、或大約50,000、或大約100,000、或大約 200, 000或更多個靶特異的寡核苷酸。說到復(fù)數(shù)個靶特異的寡核苷酸“對應(yīng)”至少一個目標(biāo)序列,意味著這種靶特異的寡 核苷酸被設(shè)計成與接近,包括但不限于鄰接目標(biāo)序列的靶核酸雜交,這樣很大的可能性與 該寡核苷酸雜交的靶核酸片段將包含目標(biāo)序列。因此所述靶特異的寡核苷酸可以用于雜交 體捕獲方法來產(chǎn)生富集了目標(biāo)序列的片段庫,作為給目標(biāo)序列測序的測序引物,擴增目標(biāo) 序列的擴增引物或用于其他目的。根據(jù)本發(fā)明的鳥槍法測序和其他測序方法,組裝測定后,本領(lǐng)域技術(shù)人員容易理 解,組裝好的序列中存在缺口,或者序列特定位點上的一或多個堿基或一串堿基可信度較 低。通過將初級靶核酸序列與參照序列進行比較,也可以鑒定到可能包含這類缺口、低可信 度序列,或者只是特定位置上不同的序列(即靶序列中一或多個核苷酸的變化)的目標(biāo)序 列。根據(jù)這些方法的一個實施方案,測定靶核酸序列產(chǎn)生初級靶核酸序列包括計算機 處理的序列測定輸入和計算機處理的序列測定組裝來產(chǎn)生初級靶核酸序列。此外,設(shè)計靶 特異寡核苷酸也可以計算機化,而且這種計算機化的靶特異寡核苷酸的合成可以與輸入的 計算機處理和序列測定的計算機組裝以及靶特異寡核苷酸的設(shè)計合并在一起。由于待合成
55的靶特異寡核苷酸的數(shù)量對于高等生物體,比如人的基因組,可能在幾萬或幾十萬,這一點 特別有用。因此發(fā)明可以自動集成由已確定序列和已鑒定區(qū)域產(chǎn)生寡核苷酸集合的過程以 便進一步處理。某些實施方案中,計算機驅(qū)動程序利用已鑒定的區(qū)域和確定的序列來設(shè)計 寡核苷酸用于分離和/或產(chǎn)生覆蓋這些區(qū)域的新片段,其中所述確定的序列靠近或者鄰接 所述已鑒定區(qū)域。然后可以如本文所述用寡核苷酸從第一測序庫、從第一測序庫的前體、從 由相同靶核酸產(chǎn)生的不同測序庫、直接從靶核酸等分離片段。其他實施方案中,鑒定需進一 步分析的區(qū)域和/或分離/產(chǎn)生第二文庫的自動集成限定了寡核苷酸集合內(nèi)的寡核苷酸序 列并指導(dǎo)這些寡核苷酸的合成。在本發(fā)明的兩階段測序方法的某些實施方案中,雜交體捕獲過程后進行釋放步 驟,該技術(shù)的其他方面中,第二個測序過程前進行擴增步驟。再一些實施方案中,鑒定步驟中通過比較已確定序列和參照序列鑒定到某些或者 全部區(qū)域。某些方面中,第二鳥槍測序庫是根據(jù)參照序列,利用包含寡核苷酸的寡核苷酸集 合分離的。同樣,某些方面中,所述寡核苷酸集合包含至少1000個序列不同的寡核苷酸,其 他方面中,所述寡核苷酸集合包含至少10,000,25, 000,50, 000,75, 000或100,000或更多 個序列不同的寡核苷酸。本發(fā)明的某些方面中,所述兩階段測序方法中采用的一或多個測序過程是通過連 接法測序進行的;在其他方面中,一或多個測序過程是通過雜交法測序或合成法測序進行 的。發(fā)明的某些方面中,大約1到大約30%的復(fù)雜靶核酸被鑒定為需要在方法的階段 II中重新測序;其他方面中,大約1到大約10%的復(fù)雜靶核酸被鑒定為需要在方法的階段 II中重新測序。某些方面中,對于復(fù)雜靶核酸的鑒定百分比的覆蓋度在大約25X到100X。其他方面中,給每個在所述方法的階段II中重新測序的靶核酸區(qū)域確定和合成1 到大約10個靶特異的選擇寡核苷酸;其他方面中,給每個在所述方法的階段II中重新測序 的靶核酸區(qū)域確定大約3到大約6個靶特異的選擇寡核苷酸。該技術(shù)的再一些方面中,通過自動程序確定和合成靶特異的選擇寡核苷酸,其中 鑒定復(fù)雜核酸中丟失核酸序列或者核酸序列可信度低的區(qū)域的過程以及確定靶特異的選 擇寡核苷酸的序列的過程與寡核苷酸合成軟件和硬件進行交流,從而合成靶特異的選擇寡 核苷酸。該技術(shù)的其他方面中,靶特異的選擇寡核苷酸長度在大約20到大約30個堿基,并 且在某些方面中是未修飾的。不是所有被鑒定要進行進一步分析的復(fù)雜靶核酸的區(qū)域?qū)嶋H上存在。某區(qū)域預(yù)期 缺少覆蓋度的一個原因可能是被預(yù)測存在于復(fù)雜靶核酸中的區(qū)域?qū)嶋H上并不存在(例如, 所述區(qū)域可能在靶核酸中被刪除或重排),因此不是所有集合產(chǎn)生的寡核苷酸可以分離到 片段包含在第二個鳥槍測序庫中。某些實施方案中,對于每個被鑒定要進行進一步分析的 區(qū)域至少要設(shè)計和制備一個寡核苷酸。其他實施方案中,對于被鑒定要進行進一步分析的 區(qū)域平均提供三個或更多個寡核苷酸。本發(fā)明的一個特點是寡核苷酸集合可以直接用于通 過利用來源于靶核酸的模板,經(jīng)聚合酶延伸所述寡核苷酸產(chǎn)生第二個鳥槍測序庫。發(fā)明的 另一個特點是寡核苷酸集合可以直接用于利用所述寡核苷酸集合經(jīng)環(huán)依賴性復(fù)制產(chǎn)生復(fù) 制子。發(fā)明的再一個特點是所述方法能夠提供序列信息來鑒定缺少的目標(biāo)區(qū)域,例如被鑒 定做進一步分析但由于例如刪除或重排而實際不存在的預(yù)測區(qū)域。
以上描述的兩階段測序方法的實施方案可以與本文描述的以及本領(lǐng)域已知的任 何核酸構(gòu)建體和測序方法組合使用。VHP. SNP 檢測以上討論的方法和組合物在其他實施方案中可以用于檢測諸如DNBs的核酸構(gòu)建 體中的特異序列。特別是使用測序和錨定探針的cPAL方法可以用于檢測多態(tài)性或者與基 因突變相關(guān)的序列,包括單核苷酸多態(tài)性(SNPs)。例如,為了檢測是否存在SNP,可以使用 兩組區(qū)別標(biāo)記的測序探針,這樣檢測到一種而非另一種探針表明樣品中是否存在多態(tài)性。 這種測序探針可以與類似于上述cPAL方法中的錨定探針聯(lián)合使用,進一步提高SNP檢測的 特異性和效率。VIII.示范性實施方案本發(fā)明的一個方面提供了確定靶核酸中的序列的方法。所述方法包括的步驟(a) 提供包含靶核酸片段和銜接子的測序模板,其中所述銜接子包含至少第一錨定位點;(b) 將錨定探針與錨定位點雜交,所述錨定探針包含與銜接子位點互補的區(qū)域以及用于結(jié)合靶 核酸序列的3個或更多個簡并堿基;(c)用測序探針集合進行雜交,以確定相對銜接子限定 位置的一或多個核苷酸的序列,其中所述測序探針被區(qū)別標(biāo)記以鑒定特定堿基的存在;(d) 連接錨定探針與測序探針;和(e)檢測測序探針,從而確定靶核酸中的序列。與以上一致,本發(fā)明另一方面提供了確定靶序列某檢測位點上的第一核苷酸的身 份的方法,所述靶序列包含復(fù)數(shù)個檢測位點。該方法包括的步驟(a)提供帶有復(fù)數(shù)個多聯(lián) 體的表面,其中每個多聯(lián)體包含復(fù)數(shù)個單體,每個單體包含(i)靶序列的第一靶結(jié)構(gòu)域, 其包含第一組靶檢測位點和(ii)包含(1)第一錨定位點和(2)相鄰的第二錨定位點的至 少第一銜接子;(b)使第一錨定探針與第一錨定位點雜交;(c)使第二錨定探針與第二錨定 位點雜交,其中所述第二錨定探針還與第二錨定位點外的序列雜交;(d)使至少第一測序 探針與第一靶結(jié)構(gòu)域雜交,其中所述第一測序探針包含(i)與靶結(jié)構(gòu)域互補的第一探針 結(jié)構(gòu)域;( )位于第一詢問位點的獨特核苷酸;和(iii)標(biāo)記,雜交條件是如果所述獨特核 苷酸與第一核苷酸互補,則測序探針與所述多聯(lián)體雜交;(e)連接錨定探針和測序探針;以 及(f)鑒定第一核苷酸。與以上一致,本發(fā)明的一個實施方案中提供了確定靶序列中某檢測位點的第一核 苷酸的身份的方法,其中一組測序探針與包含復(fù)數(shù)個多聯(lián)體的表面進行接觸。在該實施方 案中,每個測序探針包含(a)與靶結(jié)構(gòu)域互補的第一探針結(jié)構(gòu)域;(b)位于第一詢問位點 的獨特核苷酸;和(c)標(biāo)記,其中每組的標(biāo)記對應(yīng)獨特核苷酸。其他實施方案中,與以上一致,多聯(lián)體中的每個單體包含復(fù)數(shù)個銜接子。再一些實施方案中,與以上一致,多聯(lián)體中的至少一個銜接子包含至少一個II型 核酸內(nèi)切酶識別位點。還有一些實施方案中,與以上一致,重復(fù)進行使第一錨定探針與第一錨定位點雜 交、使第二錨定探針與第二錨定位點雜交、使至少第一測序探針與第一靶結(jié)構(gòu)域雜交、和連 接錨定探針和測序探針的步驟,從而鑒定第二檢測位點上的第二核苷酸。其他實施方案中,與以上一致,第二錨定探針包括一組含有至少3個簡并堿基的 第二錨定探針,其中所述簡并堿基與第二錨定位點外的序列雜交。再一些實施方案中,與以上一致,第二錨定探針包含至少一個末端可以選擇性地活化用于連接。還有一些實施方案中,與以上一致,所述帶有復(fù)數(shù)個多聯(lián)體的表面是功能化的表 面。再一些實施方案中,所述表面用選自胺、硅烷和羥基的功能部分進行了功能化。再一些實施方案中,與以上一致,所述表面包含復(fù)數(shù)個空間分立的區(qū)域,區(qū)域包含 固定的多聯(lián)體。再一些實施方案中,與以上一致,所述多聯(lián)體利用捕獲探針固定在表面上。再一些實施方案中,與以上一致,基因組核酸被片段化形成靶序列。再一些實施方案中,與以上一致,所述靶序列是基因組核酸序列。再一些實施方案中,與以上一致,所述基因組核酸序列是人的。與以上一致,本發(fā)明的一個方面提供了與測序模板使用的包含本文描述的探針組 的試劑盒。一般來說,本發(fā)明的試劑盒可以包含錨定探針對、錨定探針對和其他與模板中的 靶核酸相鄰的錨定探針,以及用于確定核酸模板中特異位點上的堿基的測序探針。這種試 劑盒可以進一步包含用于產(chǎn)生本發(fā)明中使用的核酸模板的銜接子。與以上一致,本發(fā)明的一個方面提供了這樣的核酸測序系統(tǒng),所述系統(tǒng)包含10個 標(biāo)記了或者帶標(biāo)簽的探針集合、包含序列不同的4種或更多種探針的錨定探針組、含有3個 或更多個簡并堿基的錨定探針組,以及連接酶。其他實施方案中,所述核酸測序系統(tǒng)還包含 將錨定探針、測序探針和相連的測序和錨定探針從核酸模板上變性的試劑。
實施例實施例1 制備DNBs以下是由本發(fā)明的核酸模板制備DNBs (文中又稱為“復(fù)制子”)的示范性試驗方 案,其中所述核酸模板包含散在分布著一或多個銜接子的靶核酸。首先用磷酸化的5'引物 和生物素化的3’引物將單鏈線性核酸模板擴增,得到生物素標(biāo)簽的雙鏈線性核酸模板。首先,通過將MagPr印-鏈霉親和素磁珠(Novagen Part. No. 70716-3)重懸于無核 酸酶的微量離心管中的Ix磁珠結(jié)合緩沖液(150mM NaCl和20mMTris,pH 7. 5溶于無核酸 酶的水)制備鏈霉親和素磁珠。將離心管放在磁性離心管架上,允許磁性顆粒澄清,移出上 清丟掉。然后磁珠在800 μ 1 Ix磁珠結(jié)合緩沖液中洗兩次,重懸于80 μ 1 Ix磁珠結(jié)合緩沖 液中。來自PCR反應(yīng)的經(jīng)擴增的核酸模板加至60 μ 1體積,向管中加入20 μ 1 4χ磁珠結(jié)合 緩沖液。然后向含有MagPr印磁珠的離心管中加入核酸模板,溫和混勻,室溫下溫育10分 鐘,允許MagPr印珠子澄清。移出上清丟掉。然后MagPr印珠子(與經(jīng)擴增的文庫構(gòu)建體 混合)在800 μ 1 Ix磁珠結(jié)合緩沖液中洗兩次。洗后,將MagPr印珠子重懸于80 μ 1 0. IN NaOH中,溫和混勻,室溫下溫育并允許澄清。移出上清并加入新的無核酸酶離心管中。每份 上清加入4μ1 3Μ醋酸鈉(pH 5.2)并溫和混勻。接下來,每個離心管中加入420 μ 1 PBI緩沖液(QIApr印PCR Purification Kits 中提供),將樣品混勻,然后上樣到放在2ml收集管上的QIApr印Minipr印柱(Qiagen Part No. 28106)中,在14,OOOrpm離心1分鐘。流過液丟棄,每個柱中加入0. 75ml PE緩沖液 (QIAprep PCR Purification Kits中提供),柱再離心1分鐘。再次將流過液丟棄。將柱子 轉(zhuǎn)移到新的離心管上,加入50 μ 1 EB緩沖液(QIAprep PCR Purification Kits中提供)。 將柱子在14,OOOrpm離心1分鐘洗脫單鏈核酸模板。然后測量每個樣品的量。
利用CircLigase將單鏈樽板環(huán)化首先,取IOpmol單鏈線性核酸模板轉(zhuǎn)移到無 核酸酶的PCR管中。加入無核酸酶的水使反應(yīng)體積達到30μ1,將樣品保持在冰上。然后, 給每個管中加入 4μ1 IOx CircLigase Reaction Buffer (Epicentre Part. No. CL4155K)、 2μ 1 ImM ATP、2 μ 1 50mM MnCl2 禾口 2 μ 1 CircLigase (IOOU/μ 1)(總起來是 4χ CircLigase Mix),樣品在60°C溫育5分鐘。每個管中再加入10 μ 1 4x CircLigase Mix,樣品在60°溫 育2小時,80°C溫育20分鐘,然后置于4°C。然后測量每個樣品的量。通過核酸外切酶消化除去CircLigase反應(yīng)中殘留的線件DNA。首先,每個 CircLigase樣品取30 μ 1加入無核酸酶的PCR管中,然后每個樣品中加入3 μ 1水、4μ 1 IOx Exonuclease Reaction Buffer(New England Biolabs Part No.B0293S) >1. 5 μ 1 Exonuclease I(20U/μ l,New England Biolabs Part No. M0293L)禾口 L 5 μ 1 Exonuclease IlKlOOU/μ 1, New England Biolabs Part No. M0206L)。樣品在 37°C溫育 45 分鐘。然 后,每個樣品中加入75mM EDTA (pH8. 0)并于85°C溫育5分鐘,隨后冷卻至4°C。樣品然后 轉(zhuǎn)移到干凈的無核酸酶離心管中。接下來,每管中加入500μ 1 PN緩沖液(QIApr印PCR Purification Kits中提供)并混勻,將樣品上樣到放在2ml收集管上的QIApr印Miniprep 柱(Qiagen Part No. 28106)中,14,OOOrpm離心1分鐘。丟棄流過液,每個柱加入0. 75ml PE緩沖液(QIAprep PCR Purification Kits中提供),柱子再離心1分鐘。再次丟棄流過 液。將柱子轉(zhuǎn)移到新的收集管上,加入40 μ 1 EB緩沖液(QIApr印PCR Purification Kits 中提供)。柱子在14,OOOrpm離心1分鐘洗脫單鏈文庫構(gòu)建體。然后測量每個樣品的量。制備DNB的環(huán)依賴件復(fù)制將核酸樽板講行環(huán)依賴件復(fù)制來制備包含靶核酸和銜 接子序列的多聯(lián)體的DNBs。向無核酸酶的PCR管條加入40fmol經(jīng)核酸外切酶處理的單鏈 環(huán),加水至終體積10. O μ 1。然后,每管中加入10 μ 1 2x Primer Mix (7 μ 1水、2 μ 1 IOx phi29 Reaction Buffer(New England Biolabs PartNo. B0269S)禾口 1 μ 1 弓|物(2 μ M)), 于室溫溫育30分鐘。之后,每管中加入20μ1 phi 29Mix(14y 1水、2μ 1 IOx phi29 Reaction Buffer (New England Biolabs Part No. B0269S)、3. 2dNTP 混合液(dATP、dCTP、 dGTP和 dTTP各 2. 5mM)和 0. 8 μ 1 phi29 DNA聚合酶(IOU/μ l,New England Biolabs Part No.M0269S))。管子在30°C溫育120分鐘。然后取出管子,每份樣品加入75mM EDTA (pH 8.0)。然后測量環(huán)依賴性復(fù)制產(chǎn)物的量。確定DNB的質(zhì)量給DNBs定量后,通過觀察顏色純度評價DNBs的質(zhì)量。將DNBs 懸浮在復(fù)制子稀釋緩沖液(0. 8x phi29 Reaction Buffer (New England Biolabs Part No. B0269S)和IOmM EDTA,pH 8. 0)中,各種稀釋度加入flowslide的泳道,在30°C溫育30 分鐘。然后用緩沖液洗flowslides,向每個泳道加入含有用Cy5、Texas Red、FITC或Cy3 標(biāo)記的四種不同的隨機12聚體探針的探針溶液。將flow slides轉(zhuǎn)移入預(yù)熱到30°C的加 熱塊中,在30°C溫育30分鐘。然后用Imager 3. 2. 1. O軟件給flow slides成像。然后測 量環(huán)依賴性復(fù)制產(chǎn)物的量。實施例2 單一和雙重c-PAL不同長度完全簡并的第二錨定探針在雙錨定探針檢測系統(tǒng)中進行了測試。所用組 合為1)使用錨定分子和9聚體測序探針的標(biāo)準(zhǔn)的一種錨定分子連接,其中所述錨定分子 結(jié)合與靶核酸相鄰的銜接子,從距離銜接子4個位點處開始測定;2)使用相同的第一錨定 分子和包含簡并5聚體的第二錨定分子以及9聚體測序探針的雙錨定分子連接,從距離銜接子9個位點處開始測定;3)使用相同的第一錨定分子和包含簡并6聚體的第二錨定分子 以及9聚體測序探針的雙錨定分子連接,從距離銜接子10個位點處開始測定;和4)使用相 同的第一錨定分子和包含簡并8聚體的第二錨定分子以及9聚體測序探針的雙錨定分子連 接,從距離銜接子12個位點處開始測定。將1 μ M第一錨定探針和6 μ M簡并的第二錨定探 針與連接酶反應(yīng)緩沖液中的T4DNA連接酶合并,點樣到反應(yīng)片基表面30分鐘,之后從反應(yīng) 片基上洗去未反應(yīng)的探針和試劑。引入含有連接酶和5’F1-NNNNNBNNN或5’F1_NNBNNNNNN 5' F1-NNNBNNNNN 5,F(xiàn)1-NNNNBNNNN型熒光探針的第二反應(yīng)混合物。Fl代表四種熒光團中 的一種,N代表隨機引入的四種堿基A、G、C或T中的一種,B代表與熒光團特異關(guān)聯(lián)的四種 堿基A、G、C或T中的一種。連接1小時后,從片基上洗去未反應(yīng)的探針和試劑,檢測每個 DNA靶關(guān)聯(lián)的熒光強度。圖27顯示了與系統(tǒng)中不同長度的簡并第二錨定探針關(guān)聯(lián)的信號強度,其中信號 強度隨著第二錨定探針長度增加而下降。從圖28可以看出,這些強度的擬合度打分也隨著 簡并第二錨定探針的長度而下降,但直到堿基10的測定仍能產(chǎn)生合理的擬合度打分。圖29和30顯示了一種錨定探針法和兩種錨定探針法使用時間的影響。標(biāo)準(zhǔn)錨定 分子和簡并5聚體均與9聚體測序探針使用分別從離開銜接子的位點4和9開始測定。盡 管雙錨定探針法中強度水平差別更大,標(biāo)準(zhǔn)的一個錨定分子法和雙錨定探針法兩次均展現(xiàn) 出相當(dāng)?shù)臄M合度打分,每個都超過了 0. 8。二·滯■細(xì)詢碰禾口船舯··第一和第二錨定探針 的不同組合(其中第二錨定探針的長度和組成不同)被用于比較用于鑒定銜接子5’方向 的堿基時,簡并探針對信號強度和擬合度打分的影響。使用兩種錨定探針法與標(biāo)準(zhǔn)的一種 錨定探針法比較信號強度和擬合度打分,所述兩種錨定探針法用的或者是含有與銜接子互 補的某些區(qū)域的部分簡并探針,或者是完全簡并的第二錨定探針。5聚體到9聚體的簡并 第二錨定探針使用同一濃度,還對其中的兩種_6聚體和7聚體探針的4x濃度進行了檢測。 還以第一種濃度測試了包含與銜接子互補的兩個核苷酸以及位于3’端的不同長度簡并核 苷酸的第二錨定探針。每個反應(yīng)都使用了相同的四種測序探針來鑒定位于靶核酸測定位點 上的核苷酸。試驗中使用的組合如下反應(yīng)1 1 μ M 12堿基的第一錨定探針沒有第二錨定探針測定位點離銜接子末端2nt反應(yīng)2 1 μ M 12堿基的第一錨定探針20μ M 5個簡并堿基的第二錨定探針測定位點離銜接子末端7nt反應(yīng)3 1 μ M 12堿基的第一錨定探針20μ M 6個簡并堿基的第二錨定探針測定位點離銜接子末端8nt反應(yīng)4 1 μ M 12堿基的第一錨定探針20μ M 7個簡并堿基的第二錨定探針測定位點離銜接子末端9nt
60
反應(yīng)5 :1μΜ 12堿基的第一錨定探針20μ M 8個簡并堿基的第二錨定探針測定位點離銜接子末端IOnt反應(yīng)6 :1μΜ 12堿基的第一錨定探針20μ M 9個簡并堿基的第二錨定探針測定位點離銜接子末端Ilnt反應(yīng)7 1 μ M 12堿基的第一錨定探針80μ M 6個簡并堿基的第二錨定探針測定位點離銜接子末端8nt反應(yīng)8 1 μ M 12堿基的第一錨定探針80μ M 7個簡并堿基的第二錨定探針測定位點離銜接子末端9nt反應(yīng)9 1 μ M 12堿基的第一錨定探針20 μ M 6nt的第二錨定探針(4個簡并堿基_2個已知堿基)測定位點離銜接子末端6nt反應(yīng)10 :1μΜ 12堿基的第一錨定探針20 μ M 7nt的第二錨定探針(5個簡并堿基_2個已知堿基)測定位點離銜接子末端7nt反應(yīng)11 :1 μ M 12堿基的第一錨定探針20 μ M 8nt的第二錨定探針(6個簡并堿基_2個已知堿基)測定位點離銜接子末端8nt圖31和32顯示了不同錨定探針和測序探針組合的結(jié)合。圖中顯示簡并第二錨定 探針的長度最好使用6聚體,不管是完全簡并或部分簡并的。使用較高濃度的完全簡并6 聚體表現(xiàn)出的信號強度與使用部分簡并的6聚體的信號強度類似(圖31)。所有的數(shù)據(jù)都 有較好的擬合度打分(參見圖32),除了使用最長的第二錨定分子的反應(yīng)6,該反應(yīng)在所有 進行的反應(yīng)中也表現(xiàn)最低的信號強度評分(圖31)。第一錨定探針長度對信號強度和擬合度打分的影響第一和第二錨定探針的不同 組合(其中第一錨定探針具有不同長度)被用于比較用于鑒定銜接子3’方向的堿基時,第 一錨定探針的長度對信號強度和擬合度打分的影響。使用兩種錨定探針法與標(biāo)準(zhǔn)的一種錨 定探針法比較信號強度和擬合度打分,所述兩種錨定探針法用的或者是含有與銜接子互補 的某些區(qū)域的部分簡并探針,或者是完全簡并的第二錨定探針。每個反應(yīng)都使用了相同的 四種測序探針來鑒定位于靶核酸測定位點上的核苷酸。試驗中使用的組合如下反應(yīng)1 :1 μ M 12個堿基的第一錨定探針沒有第二錨定探針測定位點離銜接子末端5nt反應(yīng)2 :1 μ M 12個堿基的第一錨定探針20μ M 5個簡并堿基的第二錨定探針測定位點離銜接子末端IOnt反應(yīng)3 1 μ M 10個堿基的第一錨定探針
20 μ M 7nt的第二錨定探針(5個簡并堿基_2個已知堿基)測定位點離銜接子末端IOnt反應(yīng)4 1 μ M 13個堿基的第一錨定探針20μ M 7個簡并堿基的第二錨定探針測定位點離銜接子末端12nt反應(yīng)5 1 μ M 12個堿基的第一錨定探針20μ M 7個簡并堿基的第二錨定探針測定位點離銜接子末端12nt反應(yīng)6 :1 μ M 11個堿基的第一錨定探針20μ M 7個簡并堿基的第二錨定探針測定位點離銜接子末端12nt反應(yīng)7 1 μ M 10個堿基的第一錨定探針20μ M 7個簡并堿基的第二錨定探針測定位點離銜接子末端12nt反應(yīng)8 1 μ M 9個堿基的第一錨定探針80μ M 7個簡并堿基的第二錨定探針測定位點離銜接子末端12nt觀察到的信號強度(圖33)和擬合度打分(圖34)顯示在使用較長的第一錨定 探針時產(chǎn)生最佳的強度,這可能部分因為較長探針給合并的錨定探針提供了更高的熔解溫度。使用兩種錨定引物方法時,激酶溫育對信號強度和擬合度打分的影響在不同溫 度下進行如上所述的反應(yīng)3天,反應(yīng)在有l(wèi)Unit/ml激酶的情況下,使用1 μ M 10個堿基的 第一錨定探針、20 μ M 7聚體第二錨定探針和結(jié)構(gòu)為Fluor-NNNNBNNNN的測序探針來測定 銜接子外的位點10。使用15聚體第一錨定探針和測序探針的反應(yīng)作為陽性對照。結(jié)果如 圖35和36所示。雖然與對照相比,激酶的確對信號強度有影響,但從4°C到37°C范圍沒有 變化,擬合度打分與對照保持相當(dāng)。激酶溫育確實造成影響的溫度是42°C,該溫度下數(shù)據(jù)擬 合度打分低。然后使用與以上描述的相同的探針和條件檢驗了激酶需要的最少時間。如圖37 和38所示,激酶溫育5分鐘或以上產(chǎn)生有效等同的信號強度和擬合度打分。本說明書對此處描述的技術(shù)的方法學(xué)、系統(tǒng)和/或結(jié)構(gòu)及其在實例方面的用途進 行了充分的描述。雖然以上對所述技術(shù)各個方面的描述有一定程度的特殊性,或者是針對 一或多個個別方面,本領(lǐng)域技術(shù)人員可以在不脫離該技術(shù)的精神或范圍的情況下,對公開 的方面做各種改進。因為在不脫離這里描述的技術(shù)的情況下,可以進行許多改動,合適的發(fā) 明范圍存在于后面所附的權(quán)利要求書。因此還考慮了其他方面。此外,應(yīng)當(dāng)明白,任何操作 都可以按任何順序進行,除非明確地另有說明或者權(quán)利要求的語言要求某個特定順序。以 上說明書中含有的和附圖中顯示的所有事物應(yīng)當(dāng)被理解為只是對特定方面的說明,并不限 于上述實施方案。除非根據(jù)上下文很清楚或者明確地申明了,文中給出的任何濃度值通常 都是就混合液值或者百分比而言的,沒有考慮在加入混合物的特定成分時或者之后的任何 轉(zhuǎn)換。對于沒有已經(jīng)明確并入文中的,為了所有目的,本公開文本中提及的所有已出版的參考文獻和專利文件均通過引用全文并入本文。在不脫離以下權(quán)利要求中限定的本發(fā)明的技 術(shù)的基本元素情況下,可以對細(xì)節(jié)或結(jié)構(gòu)進行改變。
權(quán)利要求
確定靶序列中檢測位點上第一個核苷酸的身份的方法,其中所述靶序列包含復(fù)數(shù)個檢測位點,所述方法包括(a)提供包含復(fù)數(shù)個多聯(lián)體的表面,其中每個多聯(lián)體包含復(fù)數(shù)個單體,每個單體包含i)所述靶序列的第一靶結(jié)構(gòu)域,包含第一組靶檢測位點,ii)至少第一銜接子,其包含1)第一錨定位點,和2)相鄰的第二錨定位點;(b)使第一錨定探針與所述第一錨定位點雜交;(c)使第二錨定探針與所述第二錨定位點雜交,其中所述第二錨定探針還與第二錨定位點外的序列雜交;(d)使至少第一測序探針與所述第一靶結(jié)構(gòu)域雜交,其中所述第一測序探針包含i)與所述靶結(jié)構(gòu)域互補的第一探針結(jié)構(gòu)域,ii)位于第一詢問位點的獨特核苷酸,和iii)標(biāo)記,雜交條件是如果所述獨特核苷酸與所述第一核苷酸互補,則所述測序探針與所述多聯(lián)體雜交;以及e)連接所述錨定探針和所述測序探針;f)鑒定所述第一核苷酸。
2.權(quán)利要求1的方法,其中一組測序探針與所述表面進行接觸,每個測序探針包含a)與所述靶結(jié)構(gòu)域互補的第一探針結(jié)構(gòu)域,b)位于第一詢問位點的獨特核苷酸,和c)標(biāo)記,其中所述探針組的每種標(biāo)記與所述獨特核苷酸對應(yīng)。
3.權(quán)利要求1的方法,其中所述單體中的每個包含復(fù)數(shù)個銜接子。
4.權(quán)利要求3的方法,其中所述銜接子中的至少一個包含至少一個II型核酸內(nèi)切酶識 別位點。
5.權(quán)利要求1的方法,其中步驟b)_e)被重復(fù)進行以便鑒定第二檢測位點上的第二核苷酸。
6.權(quán)利要求1的方法,其中所述第二錨定探針包含一組第二錨定探針,每個第二錨定 探針包含至少三個與所述第二錨定位點外的序列雜交的簡并堿基。
7.權(quán)利要求1的方法,其中所述第二錨定探針包含至少一個能被選擇性地活化以進行 連接的末端。
8.權(quán)利要求1的方法,其中所述表面是功能化的。
9.權(quán)利要求8的方法,其中所述功能化表面包含選自胺、硅烷和羥基的功能部分。
10.權(quán)利要求1的方法,其中所述表面包含復(fù)數(shù)個空間上分立的區(qū)域,所述分立區(qū)域包 含固定的所述多聯(lián)體。
11.權(quán)利要求1的方法,其中所述多聯(lián)體利用捕獲探針固定在所述表面上。
12.權(quán)利要求1的方法,還包含將基因組核酸片段化形成靶序列。
13.權(quán)利要求1的方法,其中所述靶序列是基因組核酸序列。
14.權(quán)利要求13的基片,其中所述基因組核酸序列是人的核酸序列。
全文摘要
本發(fā)明涉及核酸鑒定和檢測的組合物及方法。本發(fā)明的組合物及方法包括從樣品中提取靶核酸并進行片段化,利用片段化的靶核酸產(chǎn)生靶核酸模板并將這些靶核酸模板經(jīng)擴增方法形成核酸納米球。發(fā)明還涉及利用包括連接法測序的各種測序應(yīng)用來檢測和鑒定序列的方法。
文檔編號C12Q1/68GK101932729SQ200880126052
公開日2010年12月29日 申請日期2008年12月5日 優(yōu)先權(quán)日2007年12月5日
發(fā)明者克里福德·雷德, 安德魯·斯帕克斯, 弗雷德里克·達爾, 拉多杰·德瑪納克, 馬修·卡洛 申請人:考利達基因組股份有限公司