亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

Dna陣列上的高通量基因組測序的制作方法

文檔序號:438405閱讀:1979來源:國知局

專利名稱::Dna陣列上的高通量基因組測序的制作方法DNA陣列上的高通量基因組測序相關申請的交叉引用本申請要求2006年2月24日提交的臨時申請流水號60/776,415的優(yōu)先權,本文通過提述并入其全部內容。關于聯(lián)邦資助的研究的聲明本申請已由聯(lián)邦政府通過美國國立衛(wèi)生研究院的撥款書No.lU01AI57315-01部分資助。
背景技術
:基因組DNA的大規(guī)模序列分析對于理解與人和許多經濟上重要的動植物的健康和疾病狀態(tài)相關的多種生物學現象是十分重要的,例如Collinsetal(2003),Nature,422:835-847;Service,Science,311:1544-1546(2006);Hirschhometal(2005),NatureReviewsGenetics,6:95-108;NationalCancerInstitute,ReportofWorkingGrouponBiomedicalTechnology,"RecommendationforaHumanCancerGenomeProject,"(February,2005);Tringeetal(2005),NatureReviewsGenetics,6:805-814。對〗氐成本高通量的測序和再測序(re-seuqencing)的需要已促成了若干4斤方法的開發(fā),這些殺斤方法同時使用許多靶標DNA片段的平行分析,例如Marguliesetal,Nature,437:376-380(2005);Shendureetal(2005),Science,309:1728-1732;Metzker(2005),GenomeResearch,15:1767-1776;Shendureetal(2004),NatureReviewsGenetics,5:335-344;Lapidusetal,美國專利公布US2006/002471l;Drmanacetal,美國專利7>布US2005/0191656;Brenneretal,NatureBiotechnology,18:630-634(2000)等。這些途徑反映了為了下列目的的解決方案在平面陣列中增加靶標多核苷酸密度以及在特定序列檢測化學法(chemistry)的每個循環(huán)中獲得遞增量的序列信息。大多^L這些新方法僅在確定數十個核苷酸后,信號即顯著地降級,從而對總體測序效率產生了限制。傳統(tǒng)高通量測序技術的另一種局限性是,在陣列表面上DNA把標點的隨機布置(其在許多測序技術中被使用)使得靶標點的包裝效率(packingefficiency)較之將DNA連接在預定的位點上(諸如網格(grid)中)可能達到的包裝效率有所降低?!b于這些局限性,如果能夠提供另外的途徑來增加從靶標多核苷酸陣列中能夠獲得的測序信息量,對本領域將是有益的。在本領域中還需要制備陣列支持物的有效而便宜的方法,該陣列支持物帶有幾十億個尺寸和間距在亞微米級的結合位點。
發(fā)明內容因此,本發(fā)明一方面致力于解決由許多大規(guī)模DNA測序方法產生的、與序列讀取長度(read-lengths)短相關的問題,包括每個酶循環(huán)獲得的序列信息有限的問題。還提供制備工程化核酸分子的隨機陣列的方法和組合物,所述陣列能夠支持幾十億個分子,包括尺寸和間距在亞微米級的分子。在一方面中,本發(fā)明提供了鑒定(determinetheidentificationof)耙標序歹寸的一個檢測位置上的第一核苷酸的方法,其中該乾標序列包含多個檢測位置。在優(yōu)選的方面中,本方法包括兩步提供多個多聯(lián)體(concatemers)和鑒定第一核苷酸。每個多聯(lián)體包含多個單體,每個單體包含(i)耙標序列的第一靶標域,包含第一組靶標檢測位置;(ii)第一銜接頭,包含IIs型內切核酸酶限制位點;(iii)靶標序列的第二靶標域,包含第二組耙標檢測位置;和(iv)第二散在(interspersed)銜接頭,包含lis型內切核酸酶限制位點。在優(yōu)選的實施方案中,使靶標序列多聯(lián)體固定在表面上。在進一步的實施方案中,將該表面官能化。在一個實施方案中,本發(fā)明提供了鑒定(determinetheidentificationof)靶標序列的一個檢測位置上的第一核苷酸的方法,其中鑒定步驟包括將多聯(lián)體與一組測序探針接觸。在示例的實施方案中,每個測序探針包含與銜接頭之一互補的第一域、在第一詢問位置(interrogationposition)上的獨特的核苷酸,以及標記。在優(yōu)選的實施方案中,在這樣的條件下完成多聯(lián)體和測序探針之間的接觸,使得如果所述獨特的核芬酸是與第一核普酸互補的,那么測序引物雜交到多聯(lián)體,從而鑒定該第一核苦酸。在另一個實施方案中,每個銜接頭包含錨探針(anchorprobe)、雜交位點和鑒定步驟。在示例的實施方案中的該鑒定步驟包含將錨探針雜交到錨探針雜交位點,將測序探針雜交到鄰近所述銜接頭的靶標檢測位置,連接鄰近的雜交的測序探針和錨探針以形成連接的探針,并檢測連接的探針以鑒定第一核苦酸。在另一個實施方案中,每個銜接頭包含錨探針雜交位點,鑒定步驟包含將錨探針雜交至錨探針雜交位點并添加聚合酶和至少一種包含標記的dNTP。在這樣的條件下添加所述聚合酶和至少一種dNTP,使得如果該dNTP與檢測位置完全地互補,那么該dNTP被添加到錨探針以形成延伸的探針,從而產生該延伸的探針的詢問位置。通過確定在延伸的探針的詢問位置上的核苷酸來鑒定第一核苷酸。在本發(fā)明的進一步的實施方案中,鑒定在第二檢測位置上的核苷酸。在本發(fā)明的更進一步的實施方案中,鑒定在第三4企測位置、第四檢測位置、第五檢測位置和/或第六檢測位置上的核苦酸。在一個實施方案中,本發(fā)明提供了鑒定在靶標序列的檢測位置上的第一核苷酸的方法,其中將靶標序列多聯(lián)體固定在表面上,并且該表面包含官能性模塊(moiety),其包括但不限于胺、硅烷和羥基。在進一步的實施方案中,該表面包含多個空間上迥異(spaciallydistinct)的區(qū)域,這些區(qū)域包含所述固定的多聯(lián)體。在更進一步的實施方案中,使用捕捉探針(captureprobe)將多聯(lián)體固定在該表面上。在一個方面中,本發(fā)明提供一種基片,包含多個固定的多聯(lián)體的,所述多聯(lián)體的每個單體包括第一靶標序列、包含IIs型內切核酸酶限制位點的第一銜接頭、第二靶標序列、和包含IIs型內切核酸酶限制位點的第二散在銜接頭。第一銜接頭的lis型內切核酸酶限制位點可以與第二銜接頭的lis型內切核酸酶限制位點相同或者不同。在進一步的實施方案中,每個單體進一步包含第三靶標序列和包含lis型內切核酸酶限制位點的第三散在銜接頭,并且在更進一步的實施方案中,每個單體進一步包含第四靶標序列和包含lis型內切核酸酶限制位點的第四散在銜接頭。在另一個方面,本發(fā)明提供了在靶標序列中插入多個銜接頭的方法。在優(yōu)選的方面,該方法包括這些步驟(i)將第一衫f接頭連接到所述靶標序列的一個末端,其中該銜接頭包含限制性酶的結合位點;環(huán)化來自步驟(i)的產物以產生第一環(huán)形多核苷酸;用限制性酶切割該環(huán)形多核苷酸,其中該限制性酶能夠結合到該第一銜接頭內的結合位點;連接第二銜接頭,其中所述第二銜接頭包含限制性酶的結合位點;并且環(huán)化來自步驟(iv)的產物以產生第二環(huán)形多核苷酸。在一些實施方案中,重復步驟(iii)到(v)以在靶標序列中插入期望數量的銜接頭。在優(yōu)選的實施方案中,環(huán)化步驟包含添加CircLigaseTM酶。在另一個實施方案中,環(huán)化步驟包含將環(huán)化用序列(circularizationsequence)添加到靶標序列的第二末端,將橋接模板(bridgetemplate)至少雜交到銜接頭的一部分和環(huán)化用序列的一部分(hybridizingabridgetemplatetoatleastaportionoftheadaptorandaportionofthecircularizationsequence),并且將第一和第二末端連接在一起以環(huán)化靶標序列。在另一個方面,本發(fā)明提供鑒定靶標序列的核苷酸序列的方法。在這種方法中,在靶標序列內提供多個散在銜接頭,并且每個散在銜接頭與靶標序列具有至少一個邊界(boundary)。鑒定與至少兩個散在銜接頭的至少一個邊界鄰近的至少一個核苷酸,從而鑒定該靶標序列的核苦酸序列。在另一個方面,本發(fā)明提供了多核苷酸的文庫。在優(yōu)選的方面,該文庫包含超過一個核酸片段,并且每個片段包含多個以預定順序排列的散在銜接頭。每個散在銜接頭具有至少一個包含這樣的序列的末端,所述序列不能與該多個散在銜接頭中的其他散在銜接頭的其他序列交叉雜交(cross-hybridize)。在進一步的優(yōu)選方面,散在銜接頭的預定順序對各個核酸片段而言是同樣的。在一個方面中,本發(fā)明提供一種鑒定靶標多核苦酸的核苷酸序列的方法,其包含如下步驟從該靶標多核苷酸的多個片段中的每個片段產生擴增子并且形成這些擴增子的隨機陣列,將一個或多個測序探針雜交到該隨機陣列,通過在序列特異性反應中延伸所述一個或多個測序探針來確定與至少一個散在銜接頭鄰近的至少一個核苷酸的身份(identity),并且重復雜交和鑒定步驟直至鑒定出靶標多核香酸的核苷酸序列。在優(yōu)選的方面,在這樣的條件下將測序探針雜交到隨機陣列所述條件允許一個或多個探針的方面,每i片段在預定的多個位點上含有多個散在銜接頭。在進一步的方面,每個擴增子包含多個拷貝的片段,片段的數目使得這些片段基本上覆蓋靶標多核苷酸。在更進一步的方面,將隨機陣列的擴增子以這樣的密10度固定到表面,使得至少大多數擴增子是光學上可分辨的(opticallyresolvable)。在另一個方面,本發(fā)明提供一種鑒定靶標序列的核苷酸序列的方法,其包含下列步驟提供多聯(lián)體的隨機陣列,將來自第一組探針的一個或多個探針雜交到該隨機陣列,將來自第二組探針的一個或多個探針雜交到該隨機陣列,將雜交至靶標多聯(lián)體的連續(xù)(continguous)位點上的來自第一組和第二組的探針連接起來,鑒定被連接的第一和第二探針的序列,并重復雜交、連接和鑒定步驟,直至鑒定出靶標序列的序列。在優(yōu)選的方面,多聯(lián)體的隨機陣列包含固定于平坦表面(planarsurface)的多聯(lián)體,所述平坦表面具有由光學上可分辨的離散間隔區(qū)(discretespacedapartregions)組成的陣列,并且每個多聯(lián)體包含靶標多核苷酸的片段的多個拷貝,不同的多聯(lián)體的數目使得它們各自的片段基本上覆蓋所述靶標序列。在進一步的方面,每個離散間隔區(qū)具有不小于lpM2的面積,使得基本上所有的離散間隔區(qū)均P付接有最多一個多聯(lián)體(haveatmostoneconcatemerattached)。在另一個方面,本發(fā)明提供了鑒定靶標序列的核苷酸序列的方法,其包含產生多個包括靶標序列的片段的多個拷貝的多聯(lián)體;形成多聯(lián)體的隨機陣列,其中將所述多聯(lián)體以這樣的密度固定于表面,使得這些多聯(lián)體的至少大多數是光學上可分辨的;和鑒定至少一個多聯(lián)體中的至少一個散在銜接頭鄰近的每個片段的至少一部分的序列,由此鑒定靶標序列的核苷酸序列。附圖的簡要描述圖IA-IG表明本發(fā)明和其應用。圖2A-2G表明在核酸片段中插入銜接頭以產生含有散在銜接頭的靶標多核苷酸的不同方法。圖3A-3E表明可以在含有散在銜接頭的靶標多核苷酸上實施的高通量測序方法。圖4提供了通過附接RCR產物來產生的結構化DNA陣列和標準隨機DNA陣列的比較。圖5表明在有序的陣列上的參考圖式。圖6顯示了在rSBH儀上成像的隨機陣列。圖7顯示了三幅重疊的陣列圖像,經過了微小的移位以更容易觀察。圖8顯示了五幅重疊的陣列圖像,經過了微小的移位。圖9顯示了五幅重疊的陣列圖像,經過了微小的移位。圖IO顯示了陣列的圖像,其中將橫跨蓋玻片表面的多行捕獲探針用于特異性結合DNBs。本發(fā)明的詳細描述除非另有說明,本發(fā)明的實施可以使用屬于本領域技術的關于有機化學、聚合物技術、分子生物學(包括重組技術)、細胞生物學、生物化學和免疫學的常規(guī)技術和描述。這些常規(guī)技術包括聚合物陣列合成、雜交、連接和使用標記來檢測雜交。對合適技術的具體說明可以參考下文的實施例。但是,當然也可以使用其他等效的常規(guī)規(guī)程。這些常規(guī)技術和描述可見于標準實驗室手冊中,例如Ge"omej"a(ywy'爿iLa6orato7Ma"wof/5"en'es(Vols.I-IV),t/s/"g爿"n.60dz,e5vJ丄aZ)ora;to^yAfo"wa/,Ce〃s..爿丄a6orafto/^vWi3wwa/,Mawwa/(均來自ColdSpringHarborLaboratoryPress),Stryer,L.(1995)5/0c/2ew2&fry(她Ed.)Freeman,NewYork,Gait,"Wgo肌c/eo"WeiS,決es^:爿Prac"ca/々p函c/2"1984,IRLPress,London,NelsonandCox(2000),丄e/zw/"ger,尸n'"cz^/aso/5/oc/zew&^73rdEd.,W.H.FreemanPub.,NewYork,N.Y.andBergetal.(2002)5thEd,,W.H.FreemanPub.,NewYork,概要本發(fā)明涉及使用分散在靶標多核苷酸中的銜接頭來獲得靶標序列(本文中又稱"耙標多核普酸")的核苦酸序列信息的方法和組合物。該序列信息可以是新的,例如對未知核酸的測序、再測序、或者基因型分析(genotyping)。本發(fā)明優(yōu)選地包括在靶標多核香酸或者多核苷酸片段內的間隔(spaced)的位置上插入多個銜接頭的方法。本文將這些銜接頭稱為"散在銜接頭",利用它們作為平臺,通過不同的測序化學法(例如通過引物延伸、探針連接等來鑒定核苷酸的那些化學法)來詢問(interrogate)鄰近的序列。也就是說,本發(fā)明的一些實施方案中的一個獨特的組成部分,是將已知的銜接頭序列插入到靶標序列,使得連續(xù)的靶標序列被銜接頭所中斷(thereisaninterruptionofcontiguoustargetsequencewiththeadaptors)。通過對所述銜接頭的"上游"和"下游"兩者測序,可以完成全部靶標序列的序列信息。因此,不起限制作用,一般可以將本發(fā)明描述如下(應該注意到基因組DNA在這里用作實例,但不意味著是限制性的)。使用標準技術將來自任何生物的基因組DNA分離并斷裂成靶標序列。將第一銜接頭連接到靶標序列的一個末端。該銜接頭優(yōu)選地包含IIs型限制性內切核酸酶位點,其在識別序列外部切割。如果該酶導致"粘性"末端,可以將該突出端(overhang)部分或是補平或是去除。在一個實施方案中,將包含銜接頭和靶標序列的線形鏈的兩端用酶連接以形成環(huán)化的核酸。這可以使用單個步驟來完成。或者,可以將第二銜接頭添加到靶標序列的另一末端(例如,多聚A尾),然后可以將橋接序列雜交到兩個銜接頭,再進行連接。在任一實施方案中,形成環(huán)形序列。然后用IIs型內切核酸酶切割環(huán)形序列,生成線形鏈,然后重復該過程。這生成帶有銜接頭的環(huán)形序列,所述銜接頭分散在原本是連續(xù)的靶標序列內的明確限定的位置上。然后使用滾環(huán)復制(RCR)反應來擴增所述環(huán)化的序列,以形成原始靶標序列的多聯(lián)體(例如單體所成的多聚體)。然后可選地將這些長多聯(lián)體型"DNA納米球,,("DNBs")以多種方法固定在表面上,如下所概述。一旦在表面上,就利用已知的銜接頭序列對間隔的(intervening)靶標序列進行測序。如本領域中所知的,有多種技術可以用于檢測(detect)或鑒定(determinetheidentityof)耙標核酸的特定位置上的堿基,包括但不限于溫度的使用、理想的探針和非理想的探針對耙標序列的竟爭性雜交、通過合成的測序,例如使用單堿基延伸技術(有時稱為"迷你測序"(minis叫uencing)),寡核苷酸連接酶擴增(OLA)反應、滾環(huán)復制(RCR)、等位基因PCR、竟爭性雜交和InvaderTM技術。優(yōu)選的實施方案包括通過帶有連接的雜交來測序,和通過雜交來測序。然后可以將序列信息用于重新構建更大的靶標序列的序列,例如完整基因組DNA的測序。對大量核酸的測序(其在基因組分析、流行病學研究和診斷試驗等應用中是必需的)一般涉及對測序技術加以改造使之適用于高通量形式。但是,傳統(tǒng)的高通量測序技術有缺點,尤其是序列閱讀長度短的問題一一即,對于許多高通量測序方法而言,它們能夠成功測序的靶標序列在長度和類型上是受限的。這種限制主要是由于單個操作中的單個片段上能夠被確定的連續(xù)堿基的數量。本發(fā)明通過在每個靶標多核苷酸或片段中提供多個位點,從所述位點實施特定測序化學法,提供了多個鄰近的序列讀取(adjacentsequenceread)。在一個方面中,這些鄰近的讀取是連續(xù)的,從而有效地增加了多種測序化學法的期望讀取長度。這樣,本發(fā)明使得人們能夠通過確定位于銜接頭任一側(oneachsideofadaptors)的序列來確定更長的連續(xù)或大體連續(xù)的靶標序列。靶標多核苷酸的組成/結構由此,本發(fā)明提供了使用來自樣品的靶標序列的組合物和方法。正如本領域的技術人員將會理解的,樣品溶液可以包含任何數量的東西,包括但不限于體液(包括但不限于血液、尿液、血清、淋巴液、唾液、肛門和陰道分泌物、汗液和精液)和幾乎任何生物的細胞,優(yōu)選哺乳動物樣品并且尤其優(yōu)選人樣品;環(huán)境樣品(包括但不限于空氣、農業(yè)樣品、水樣品和土壤樣品);生物戰(zhàn)媒介的樣品;研究樣品(即在核酸的情況中,樣品可以是擴增反應的產物,包括靶標擴增和信號擴增兩者,例如PCR擴增反應;純化的樣品,例如純化的基因組DNA,RNA制備物,粗樣品(細菌、病毒、基因組DNA等);如本領域的技術人員將理解的,在所述樣品上可能已實施過幾乎任何實驗操作。一般而言,使用來自靶標生物(動物、鳥類、哺乳動物等)的細胞。當使用基因組DNA時,用于構建本發(fā)明的陣列所需的基因組DNA的量可以在很廣的范圍內變化。在一個方面中,對于哺乳動物大小的基因(mammalian-sizedgenomes)而言,乂人至少大約10個基因組當量的DNA產生片段;在另一個方面,從至少大約30個基因組當量的DNA產生片段;在另一個方面,從至少大約60個基因組當量的DNA產生片段。靶標序列或靶標多苷酸是核酸。這里的"核酸"或者"寡核苷酸"或者其語法上的等同物,是指共價地連接在一起的至少兩個核香酸。一般,本發(fā)明的核酸將含有磷酸二酯鍵,但在一些情況下,如下文所概述的那樣(例如在引物和探針,例如標記探針的構建中),包括核酸類似物,它們可能具有其它的骨架,例如磷酰胺(Beaucageetal.,Tetrahedron49(10):1925(1993)和其中的參考文獻;Letsingeretal.,Nucl.AcidsRes.14:3487(1986);Sawaietal,Chem.Lett.805(1984),Letsingeretal.,J.Am.Chem.Soc.110:4470(1988);和Pauwelsetal.,ChemicaScripta26:14191986)),硫代磷酸酯(Magetal"NucleicAcidsRes.19:1437(1991);以及美國專利No.5,644,048),二碌u代石奔酸酯(Briuetal.,J.Am.Chem.Soc.111:2321(1989),O-曱基亞磷酰胺連接(Eckstein,OligonucleotidesandAnalogues:APracticalApproach,OxfordUniversityPress),和肽核酸骨架和連接(Egholm,J.Am.Chem.Soc.114:1895(1992);Meieretal"Chem.Int.Ed.Engl.31:1008(1992);Nielsen,Nature,365:566(1993);Carlssonetal.,Nature380:207(1996),將所有這些文獻通過提述并入))。其他類似物核酸包括帶有二環(huán)結構的那些,包括鎖定核酸,Koshkinetal.,J.Am.Chem.Soc.120:132523(1998);正骨架(positivebackbone)(Denpcyetal"Proc.Natl.Acad.Sci,USA92:6097(1995));非離子骨架(美國專利5,386,023、5,637,684、5,602,240、5,216,141和4,469,863;Kied雨shietal"Angew.Chem.Intl.Ed.English30:423(1991);Letsingeretal.,J.Am.Chem.Soc.110:4470(1988》Letsingeretal"Nucleoside&Nucleotide13:1597(1994);Chapters2and3,ASCSymposiumSeries580,"CarbohydrateModificationsinAntisenseResearch",Ed,Y.S.SanghuiandP.DanCook;Mesmaekeretal"Bioorganic&MedicinalChem.Lett.4:395(1994);Jeffsetal.,J.BiomolecularNMR34:17(1994);TetrahedronLett.37:743(1996))和非核糖骨架,包括在美國專利5,235,033和5,034,506,和ASCSymposiumSeries580,第6章和第7章,"CarbohydrateModificationsinAntisenseResearch",Ed.Y.S.SanghuiandP.DanCook中所描述的那些。含有一個或多個碳環(huán)糖(carbocyclicsugars)的核酸也包含在核酸的定義之內(參見Jenkinsetal.,Chem.Soc.Rev.(1995)pp169176)。在Rawls,C&ENewsJun.2,1997第35頁中描述了幾種核酸類似物。在此明確地通過提述并入所有這些參考文獻??梢赃M行這些核糖-磷酸骨架的修飾以增加這些分子在生理環(huán)境中的的穩(wěn)定性和半衰期。例如,PNA:DNA雜合體可以呈現更高的穩(wěn)定性,因此可以將其使用在一些實施方案中。核酸可以如指明的那樣是單鏈或雙鏈的,或者含有雙鏈序列或者單鏈序列兩者的部分。核酸可以是DNA——包括基因組DNA和cDNA,可以是15RNA,或者可以是雜合體,其中核酸含有任何組合的脫氧核糖核苦酸和核糖核苷酸,和任何組合的堿基,包括尿嘧啶、腺噪呤、胸腺嘧啶、胞嘧啶、鳥噪呤、肌苦、黃喋呤、次黃噪呤、異胞嘧啶、異鳥嘌呤等。在這里的術語"靶標序列"或"靶標核酸"或其語法上的等同物,是指核酸的單條鏈上的核酸序列。靶標序列可以是基因的一部分、調控序列、基因組DNA、cDNA、包括mRNA和rRNA的RNA,等等。如這里所概述的,靶標序列可以是來自樣品的靶標序列,或者是來自擴增反應產物等二級靶標等的靶標序列。靶標序列可以是任意長度。如下文更充分地概述的,使探針與靶標序列雜交,以確定樣品中靶標序列的有無。一般而言,本領域的技術人員將理解該術語。靶標序列還可以由不同的靶標域組成;例如,樣品靶標序列的第一靶標域可以雜交到捕獲探針,而第二靶標域可以雜交到標記探針,等等。如所指明的那樣,靶標域可以是鄰近的或者是分開的。除非明確說明,術語"第一,,和"第二"并不意圖賦予這些序列以方向(就靶標序列的5,-3,方向而言)。例如,若互補靶標序列取5,-3,的方向,則該第一靶標域可以位于第二域的5,方向(5,totheseconddomain),或者位于第二域的3'方向(3'totheseconddomain)。在一個實施方案中,使用基因組DNA,特別是人基因組DNA。使用常夫見的4支術來獲取基因纟且DNA,例:i口在Sambrooketal"supra,1999;CurrentProtocolsinMolecularBiology,Ausubeletal.,eds.(JohnWileyandSons,Inc.,NY,1999)等中所公開的。對于基因組DNA的分離而言,重要的因素包括下列內容1)該DNA不含DNA加工酶(DNAprocessingenzymes)和雜質鹽(contaminatingsalts);2)整個基因組被平等地呈現(equallyrepresented);并且3)DNA片段長度在約5,000到100,000bp之間。在許多情況中,由于在溶菌和提取中產生的剪切力將產生在期望的范圍中的片段,因此不需要對提取的DNA進行消化。在另一個實施方案中,通過使用限制性內切核酸酶來酶促斷裂可以產生更短的片段(1-5kb)。在一個實施方案中,10-100個基因組當量的DNA可確保片段的總體(population)覆蓋整個基因組。在一些情況中,每當僅有少量的樣品DNA可用,并且有由于非特異性結合(例如結合到容器壁上等)而丟失的危險時,有益的是提供載體DNA,例如不相關的環(huán)形合成雙鏈DNA,將其與樣品DNA混合并一同使用。在一個實施方案中,在斷裂后將DNA變性以產生單鏈片段??梢詮幕蚪MDNA等源核酸(sourcenucleicacid)通過斷裂以產生特定大小的片段,來生成靶標多核苷酸;在一個實施方案中,所述片段長度為50至600個核苦酸。在另一個實施方案中,所述片段長度為300至600或者200至2000個核苷酸。在再另一個實施方案中,所述片段長度為10-100、50-100、50-300、100-200、200-300、50-400、100-400、200-400、400-500、400-600、500-600、50-1000、100-1000、200-1000、300-1000、400-1000、500-1000、600-1000、700-1000、700-900、700-800、800-1000、900-1000、1500-2000、1750-2000和50-2000個核苷酸。繼而可以環(huán)化這些片段,以便用于RCR反應或者其他生物化學過程(例如額外的銜接頭的插入)。本發(fā)明的多核苷酸具有容許自多個位點或是連續(xù)地或是同時地獲得序列信息的散在銜接頭。散在銜接頭是被插入在靶標多核苷酸內部區(qū)域中的相互隔開的(spaced)位置上的寡核苷酸。在一個方面中,關于靶標多核苦酸的"內部的"指對處理前的靶標多核苦酸而言為內部的位點,所述處理例如環(huán)化和切割,可能引入序列倒置或者類似的轉化,從而打亂靶標多核苦酸內的核苷酸的排序。在一個方面中,如下文更充分地概述的那樣,將散在銜接頭以一定的間隔(atintervals)插入到靶標多核苷酸的連續(xù)區(qū)域內。在一些情況中,這些間隔具有預定的長度,其可以相等或者不等。在其他的情況中,散在銜接頭之間間隔的可殺口的準確度l義有(thespacingbetweeninterspersedadaptorsmaybeknownonlytoanaccuracyof),人一個至'J少凄t個核香酸(例如,人1至15),或者從一個到數十個核苷酸(例如從10至40),或者從一個到數百個核苦酸(例如從100至200)。優(yōu)選地,每個靶標多核苷酸內的散在銜接頭的排序和數量是已知的。在本發(fā)明的一些方面中,將散在銜接頭與被附接至靶標核香酸末端的銜接頭一起使用。在一個方面中,本發(fā)明以多聯(lián)體形式提供靶標多核苷酸,所述多聯(lián)體含有靶標多核苷酸或者靶標多核苷酸片段的多個拷貝(例如"單體")。DNA多聯(lián)體在常規(guī)條件下(常規(guī)的DNA緩沖液,例如TE、SSC、SSPE等,在室溫)形成無規(guī)巻曲(randomcoil),所述巻曲在溶液中以本領域中公知的方式侈'^口Edvinsson,"Onthesizeandshapeofpolymersandpolymercomplexes,"Dissertation696(UniversityofUppsala,2002)大致充滿一球開j體積,該空間的直徑為約100至300nm,依賴于該DNA的大小和緩沖液條件。對于無規(guī)巻曲多聚體(例如單鏈DNA)的大小的一種量度,是末端到末端距離(end-to-enddistance)的均方根,其大致是巻曲結構的直徑的量度。這種直徑在本文中稱為"無規(guī)巻曲直徑",可以通過光散射加以測量,所述光散射使用例如Zatasizer納米系統(tǒng)(MalvernInstruments,UK)等儀器。本發(fā)明的大分子結構的大小的其它量度包括分子量(例如以道爾頓計)和總多聚物長度,后者在分枝的多聚體的場合是其所有分枝之長度的總和。當附接到表面上時,依賴于附接化學法(attachmentchemistry)、聯(lián)結的密度(densityoflinkages)、表面的性質等,單鏈多核苷酸充滿一平面化的球狀體積(flattenedsphericalvolume),其平均而言由近似等同于采取無規(guī)巻曲構型的多聯(lián)體的直徑的區(qū)域所包圍(boundedbyaregionwhichisapproximatelyequivalenttothediameterofaconcatemerinrandomcoilconfiguration)。在表面上保持大分子結構的緊密形式,使得特異性針對多聯(lián)體成分的#1針(例如熒光標記的寡核苷酸)能夠產生更強烈的信號。在一些實施方案中,通過提供具有不同錨探針結合位點的銜接頭可以產生多個類別的多核苷酸。這種"聚類"("clustering")為提高多核苦酸的序列信息的獲取效率提供了可能。斷裂的方法需要有效的定位(mapping)策略用于測序應用,例如對復雜的二倍體基因組測序、從頭測序和對基因組的混合物測序。在一個實施方案中,提供了分級的斷裂(hierarchicalfragmentation)規(guī)程以鑒定單倍型信息并為二倍體基因組組裝親本染色體(assembleparentalchromosomesfordiploiodgenomes)。還可以將這些規(guī)程應用于預測蛋白質等位基因和將短讀取定位至基因組內的正確位置。這些方法的另一種用途是發(fā)生在由多個基因間共享的約100個堿基的DNA序列內的突變在基因家族中的正確指配。圖1C-D說明了本發(fā)明的一個方面,其中處理(1601)源核酸(1600)(其可以是或者可以含有數個單靶標多核苷酸)以形成單鏈片段(1602),優(yōu)選從50至600個核芬酸的范圍,并且更優(yōu)選的范圍從300至600個核芬酸,然后將其連接到銜接頭寡核苷酸(1604)以形成銜接頭-片段綴合物的18群體(1606)。銜接頭(1604)通常是起始銜接頭,它不需要是"散在的"(所述"散在的"是就它將在原始序列中本來連續(xù)的兩個序列分開的意義而言)。源核酸(1600)可以是使用常規(guī)技術從樣品提取的基因組DNA,或者是通過常規(guī)技術產生的cDNA文庫或者基因組文庫,或者合成的DNA等。處理(1601)通常涉及通過常規(guī)技術實現斷裂,例如化學斷裂、酶促斷裂或者機械斷裂,接著通過變性以產生單鏈DNA片段。在任一階段產生片段的過程中,片段可以來源于整個基因組或是基因組的選擇的子集。有許多技術可以用于分離或者富集來自基因組子集的片段,如下列參考文獻所示例的,通過提述并入它們的全部內容Kandpaletal(1990),NucleicAcidsResearch,18:1789-1795;Callowetal,美國專利公開2005/0019776;Zabeauetal,美國專利6,045,994;Deugauetal,美國專利5,508,169;Sibson,美國專利5,728,524;Guilfoyleetal,美國專利5,994,068;Jonesetal,美國專利公開2005/0142577;Gullbergetal,美國專利公開2005/0037356;Matsuzakietal,美國專利公開2004/0067493等。在一個實施方案中,基因組DNA的裂解和提取期間的剪切力產生在期望范圍中的片段。本發(fā)明還涵蓋利用限制性內切核酸酶的斷裂方法。在優(yōu)選的實施方案中,尤其對哺乳動物大小的基因組而言,斷裂至少分為兩個階段進行,第一階段產生大小范圍從約100千堿基(Kb)至約250千堿基(Kb)的片段群體,第二階段分別地應用于每個100-250Kb的片段以產生在從約50至600個核苦酸的大小范圍,更優(yōu)選地在從約300至600個核苷酸的大小范圍內的片段,以供產生用于隨機陣列的多聯(lián)體。在本發(fā)明的一些方面中,斷裂的第一階段還可以用來選擇這些片段的預定的子集,例如含有編碼信號轉導途徑的蛋白的基因的片段等。在一個實施方案中,使用在USSer.No.11/451,692中(通過提述并入其全部內容)概述的技術來斷裂樣品基因組DNA。在這個方面中,將基因組DNA作為30-300kb大小的片段分離。通過適當的稀釋,將這些片段的小子集隨機地置于多孔板或者類似配件(accessory)的離散(discreet)的孔中。例如帶有96、384或者1536孔的板可以用于這些片段子集。產生這些DNA等分試樣的最佳方法是用天然地斷裂成高分子量形式的方法來分離該DNA,在定量后稀釋到10-30個基因組當量,然后將全部制備物分到384個孔中。這使得所有基因組序列均得以呈現(represented),并且以100%的回收效率對10-30個細胞實施DNA分離可確保所有染色體區(qū)域均以相同的覆蓋度(coverage)被呈現。在這種方法中通過提供等分試樣,將來自染色體的相同區(qū)域的兩個重疊片段放置到相同板孔中的概率被降至最低。對于用10x覆蓋度呈現的二倍體基因組而言,平均有20個重疊片段要分進不同的孔。如果將這種樣品在384孔板上分配,那么每個孔含有平均1,562個片段。通過在標準384孔^1中形成384個級分,兩個重疊片^:最終落入相同孔中的機會僅有約1/400。即使某些匹配的片段被置入相同的孔中,來自每個染色體區(qū)的其他重疊片段也可提供獨特的定位信息。在一個實施方案中,將制備好的幾組長片段進一步地切割成約300至600個堿基的最終片段大小。為了在組中獲得的每個片段的足夠(例如10x)的覆蓋度,可以在最終切割前使用開發(fā)成熟的(well-developed)全基因組擴增方法來擴增每個孔中的DNA。然后將來自一個孔的所有短片段在一個單獨的單位陣列上或者在更大的連續(xù)矩陣(matrix)的一部分(section)中排列并測序。具有384個單位陣列的復合陣列(compositearray)對于這些片段組的平行分析是理想的。在呈現親本染色體的長序列的組裝中,算法可以使用下面的關鍵信息在一個單位陣列中被檢測的短片段屬于有限數目的更長的連續(xù)區(qū)段,每個所述的連續(xù)區(qū)段呈現同一染色體的一個離散部分。在幾乎所有情況中,同源染色體區(qū)段均可以在不同單位陣列上分析。長(約100Kb)的連續(xù)初始區(qū)段形成拖尾(tailing)圖形,并依賴于約100個多態(tài)位點/100kbDNA來提供足夠的定位信息以分別地組裝每個親本染色體,如下文所描述的。在下面的實例中,點代表100-1000個在相應的區(qū)段中相同的連續(xù)堿基???......T........C..........C...G..........A.........孔20....C........T..........T…A.......…G.........C…孔157.......T.....A...........G...........C........A…C…孔258.…C..........C…G..........A.........T........G…T….孔3和258組裝親本1的染色體l:...T........C..........C…G.......A..........T........G...T孔20和157組裝親本1的染色體2:…C........T..........T...A..........G......C........A...C...在一個實施方案中,使用本領域已知的用于全基因組擴增的方法來完成在染色體分離規(guī)程中獲得的單個靶標的擴增。在優(yōu)選的實施方案中,使用產生10-100倍擴增的方法。在一個實施方案中,這些M4呈對于待擴增的序列不進行區(qū)分,而是擴增樣品中的所有序列。這種規(guī)程不需要完整地擴增整個100kb片段,并且可以使用更短的片段,例如從l-10kb的片段。散在銜接頭的組合物/結構在一個方面中,在靶標多核苷酸的連續(xù)區(qū)域內以一定的間隔插入散在銜接頭。散在銜接頭在長度上可以有很大的變化,其長度部分地依賴于期望的功能元件的數量和類型。這些功能元件包括但不限于錨序列、與捕獲探針序列互補的序列(例如用于附接至表面)、標簽序列、二級結構序列、用于標記探針的附接/雜交的序列、功能化序列、引物結合位點、核酸酶(例如切口酶(nickingenzyme)及限制性內切核酸酶等)的識別位點等。在一個實施方案中,銜接頭包含如本領域所知的限制性內切核酸酶識別位點。在一個實施方案中,這些識別位點可以是用于切口酶的識別位點。在一個實施方案中,限制性內切核酸酶位點是lis型限制性內切核酸酶位點。lis型內切核酸酶一般是商業(yè)上可獲得的并且是本領域公知的。與它們相應的II型內切核酸酶相似,IIs型內切核酸酶識別雙鏈多核苷酸中的核苷酸堿基對的特定序列。當識別該序列時,該內切核酸酶將切割多核苦酸序列,一般造成該序列的一條鏈的突出端,或稱"粘性末端"。一般,lis型內切核酸酶還在它們識別位點的外面切割;離識別位點的距離可以是2至20個核苷酸不等。因為切割發(fā)生在多核苷酸序列的不確定的部分內,因此在本發(fā)明的方法下,能夠把握到切割位點為止的不確定的序列。通常,選擇這樣的lis型限制性內切核酸酶,它們的切割位點與它們的識別位點相隔至少6個核普酸(即識別位點的末端與最近的切割點之間的核苷酸的數目)。示例的II性限制性內切核酸酶包括但不限于Eco57MI,MmeI,AcuI,BpmI,BceAI,BbvI,BciVI,BpuEI,BseMII,BseRI,BsgI,BsmFI,BtgZI,EciI,EcoP15I,Eco57MI,FokI,HgaI,HphI,MboII,MnlI,SfaNI,TspDTI,TspDWI,TaqII等。在一些實施方案中,每個銜接頭包含相同的IIs型限制性內切核酸酶位點。在備選的實施方案中,不同的銜接頭包含不同的位點。在一個實施方案中,一個或多個銜接頭包含錨探針雜交位點。如下文所概述的,將錨探針用在測序反應中,并且可以具有多種形式。一般而言,錨探針雜交位點的至少一個末端是位于靶標序列和銜接頭間的連接處(juncation);就是說,測序反應通常依賴于與耙標序列的檢測位置直接相鄰的錨探針的雜交。可以這樣地選擇或設計錨或者引物,使它們是或者具有一個至約十個或更多個,優(yōu)選一個至四個自靶標-銜接頭連接處左移或者右移(shiftedleftorrightfromthetarget-adaptorjunction)的石咸基。fe口這里所^吏用,"檢測位置"指在靶標序列中期望獲得序列信息的位置。在許多實施方案中,測序反應可以自錨探針的兩末端進行(runoffbothendoftheanchorprobes);因此,在一些實施方案中,錨4冢針雜交位點包含整個銜接頭序列?;蛘?,在每個銜接頭內可以有兩個錨探針雜交位點;一個鄰近于(adjacentto)或接近于(closeto)耙標序列的3'末端,另一個接近于(adjacentto)或4妄近于(closeto)輩巴標序列的5'末端。如本領i或的才支術人員將會理解的,取決于錨探針的長度和銜接頭的長度,兩個錨探針雜交位點可以在銜接頭中重疊,它們可以是直接相鄰(directlyadjacent)的,或者它們可以;陂間插序列(interveningsequence)所分開。錨探針雜交序列的長度依賴于測定法的條件而變化。在一個實施方案中,一個或多個銜接頭包含引物結合序列。如本領域中所知的,聚合酶一般需要帶有一部分雙鏈核酸的單鏈模板(asinglestrandedtemplatewithaportionofdoublestrandednucleicacid)(例如多聯(lián)體)。必需地,任何序列可以充當引物結合序列以結合引物,因為任何雙鏈序列都會被聚合酶所識別。一般而言,引物結合序列長度為約3至約30個核苷酸,優(yōu)選從約15至約25個核苷酸。引物寡核苷酸長度通常為6至25個堿基。如本領域的技術人員將會理解的,引物結合序列可以包含在任何其他銜4妄頭序列內。在一個實施方案中,一個或者多個銜接頭包含捕獲探針識別序列。如下文所更完全地敘述的,本發(fā)明的一個實施方案使用在基片表面上的捕獲探針以固定化DNB。在這種實施方案中,所述銜接頭包含這樣的域,該域與一個或多個捕獲探針有足夠的互補性以容許該域和該捕獲探針的雜交,導致DNB固定化在該表面上。在一個實施方案中,一個或者多個銜接頭包含二級結構序列。例如,在多聯(lián)體內的多個銜接頭中的回文序列導致銜接頭之間的雜交(例如在多聯(lián)體中的拷貝之間的分子間相互作用),因此"緊固"("tightening")DNA納米球("DNB")的三維結構。這些回文序列單位長度可以是5、6、7、8、9、IO或者更多個核苷酸并且可以具有不同的序列,例如為提供特定解鏈溫度而選擇的序列。例如,回文AAAAAAATTTTTTT將以下面的形式提供在鄰近的任何兩個單位復制物(unitreplica)之間的14個堿基的dsDNA雜合體AAAAAAATTTTTTTTTTTTTTAAAAAAA在一個實施方案中,銜接頭包含標記探針結合序列。在一些實施方案中,例如對于特定序列的檢測而非測序反應,可以將標記探針添加到多聯(lián)體以檢測特定序列。標記探針將雜交到標記探針結合序列,并包含至少一個可4企測的標記,如本文中所積X述的。例如,以這種方式可以完成諸如細菌或者病毒等感染原的存在的檢測。在一個實施方案中,銜接頭包含標簽序歹'j(taggingsequences),在這個實施方案中,可以將標記序列用于拉出(pullout)或者純化環(huán)化的靶標序列、多聯(lián)體等。在一些實施方案中,標簽序列可以包括獨特的核酸序列,該序列可用于在帶標簽的樣品的混合物中鑒定靶標序列的來源,或者可以包括配體結合對(ligandbindingpairs)的組分,例如生物素/鏈親和素等。在一個方面中,每個散在銜接頭具有從8至60個核苷酸范圍的長度;在另一個方面中,它們具有從8至32個核苷酸范圍的長度;在另一個實施方案中,它們具有選自下列范圍的長度從約4至約400個核苦酸;從約10至約100個核苷酸,從約400至約4000個核苦酸,從約10至約80個核苦酸,從約20至約70個核芬酸,從約30至約60個核芬酸,和從約4至約10個核苷酸。使用帶有總長度從約20到約30個;咸基的銜接頭的實施方案在幾個實施方案中有獨特的用處。插入靶標多核苷酸的散在銜接頭的數量可以有很大的變化,并且依賴于許多因素,包括使用的測序/基因型分析化學法(和它的讀取-長度能力),特定lis型位點的切割位點的具體長度,在每個靶標多核苷酸內期望鑒定的核苦酸的數量,是否在插入間使用擴增步驟等。在一個方面中,將多個散在銜接頭插入靶標多核苷酸的連續(xù)區(qū)段中的位點;這可以包括插入靶標多核苷酸的連續(xù)區(qū)^:中的位點的兩個、三個、四個或更多個散在銜接頭?;蛘撸迦氚袠撕塑账岬纳⒃阢暯宇^的數目范圍為乂人2至10個、乂人2至4個、/人3至6個、乂人3至4個和,人4至6個。在另一個方面,可以將散在銜接頭插入更長(例如0.4-4Kb長度)的多核苷酸的如下所述的多核苷酸區(qū)段(這里稱為"匹配對(mate-pair)")中之一或二者中所述多核苷酸區(qū)段已通過環(huán)化操作而直接或者間接地連接在一起。在一個方面中,這些多核苦酸區(qū)段長度可以是4-400(優(yōu)選10-100)個堿基。還應該注意的是,一般而言,附接到靶標序列的第一銜接頭不是"散在的"或者"插入的"。也就是說,通常將第一銜接頭附接至斷裂的把標序列的一個末端,并且將隨后的銜接頭分散在連續(xù)的靶標序列內。在一個方面中,一組靶標多核苷酸的每個成員具有帶有相同的錨探針結合位點的銜接頭和附接到來自源核酸的DNA片段的lis型識別位點。在另一個實施方案中,通過提供具有不同錨探針結合位點的銜接頭可以產生多個多核苷酸類型。在一個方面中,將銜接頭以一定的間隔插入靶標多核香酸的連續(xù)區(qū)域內,其中所述間隔具有預定的長度。這些預定的長度可以相等或者不等。在一些實施方案中,間隔長度的可知的準確度為約1至200個核苦酸,在其他的實施方案中,從約1-15、10-40和100-200個核苦酸。依照本發(fā)明,散在銜接頭可以是單鏈或者雙鏈的。在一個方面中,銜接頭包括回文序列,后者促進靶標多核苷酸內的分子內相互作用,導致"納米球"的生成。插入多個銜接頭的方法
技術領域
:本發(fā)明的一個方面提供了產生具有散在銜接頭的靶標多核苷酸的方法,如圖1A-1B的示意圖說明的。在這種方法中,將靶標多核苦酸(1002)與銜接頭(1000)結合以形成(1004)環(huán)(1005),其中所述銜接頭可以是散在銜接頭也可以不是散在銜接頭,所述環(huán)可以或是單鏈或是雙鏈的。一般地,通過斷裂更大的DNA,例如染色體DNA或者其他基因組DNA,來獲得靶標多核香酸。如果使用雙鏈DNA,則可以通過使用常規(guī)技術對片段的末端進行"光滑化"(polishing)并可選地連接銜接子,來為環(huán)化作準備,所述常規(guī)技術有例如在常規(guī)的鳥槍測序中使用的技術,例如Bankier,MethodsMol.Biol.,167:89-100(2001);Roe,MethodsMol.Biol"255:171-185(2004)等。為了產生用于插入第二散在銜接頭的下一個位點,典型地使環(huán)(1005)成為雙鏈,至少暫時成為雙鏈。在本發(fā)明的這個方面中,將銜接頭(1000)24設計成包括IIS型限制性內切核酸酶識別位點,該位點的方向^f吏得它的切割位點(1006)位于把標多核苷酸(顯示在例如銜接頭(1000)的右側)的內部,由此打開(1008)環(huán)(1005)。在優(yōu)選的實施方案中,插入散在銜,接頭的方法使用在切割后留下3'突出鏈的IIs型限制性內切核酸酶。對于精確度較低的插入,可以使用切口酶,或者可以使第一銜接頭的一條鏈喪失連接能力(disabledfromligation),由此產生缺口,缺口可以被平移近似的距離(canbetranslatedatanapproximatedistance)并可以用于啟動多核苷酸的切割。將多核苷酸切割后,使用常規(guī)技術將散在銜接頭(1010)連接進合適位置以產生含有兩個銜接頭的開環(huán)(1012),然后將其通過連接來閉合(1016)。然后重復(1018)該過程:切割、插入和閉合,直至將期望數量的散在銜接頭,例如三個散在銜接頭插入(1026)靶標多核苦酸(1002),如圖IB所示。然后可以通過許多方式處理含有散在銜接頭的最終環(huán)(1024)以獲得靶標核芬酸中與每個散在銜接頭的至少一個邊界鄰近的位點上的序列信息。典型地,對位于或鄰近于每個散在銜接頭和靶標核苦酸之間的兩個邊界之一或二者(例如1021)的靶標核苷酸序列進行分析。在一個方面中,可以擴增最終環(huán)(1024)或者它的區(qū)段以產生擴增子,將其通過經選擇的序列化學法,例如基于連接或者合成測序的測序化學法來分析。在一個方面中,可以這樣地選擇第一個和最后的散在銜接頭,使得最終環(huán)(1024)中含有散在銜接頭的區(qū)域可以從該環(huán)切除(1038),之后,連接銜接頭(1040)用于通過聚合酶鏈式反應(PCR)來擴增。環(huán)的切割可以在銜接頭1和3外的一個或兩個位點上進行。在另一個方面,可以直接地使用最終環(huán)(1024)通過滾環(huán)復制(RCR)來產生擴增子,如下文更詳細描述的。對于平行地分析許多不同靶標多核苷酸的應用,可以使用RCR或者乳液PCR(emulsionPCR)擴增含有散在銜接頭的靶標多核苷酸,分別如圖1C-1D和圖IE-IG所示。.在乳液PCR中,可以擴增片段的混合物,例如如下列文獻所/>開的Marguliesetal,Nature,437:376-380(2005);Shendureetal(2005),Science,309:1728-1732;Berkaetal,U.S.patentpublication2005/0079510;ChurchetalPCT申請WO2005/082098;Nobileetal,美國專利申請2005/0227264;Griffithsetal,美國專利6,489,103;Tillettetal,PCT申請WO03/106678;Kojimaetal,NucleicAcidsResearch,33(17):el50(2005);Dressmanetal,Proc.Natl.Acad.Sci.,100:8817-8822(2003);Mitraetal,Anal.Biochem"320:55-65(2003);Musyanovychetal,Biomacromolecules,6:1824-1828(2005);Lietal,NatureMethods,3:95-97(2006)等,這里通過提述并入它們的全部內容用于所有目的。簡而言之,如圖1E所示,在分離包含帶有散在銜接頭的靶標多核苷酸的DNA環(huán)(1500)后,將銜接頭切除,例如在圖1A(1038)中所顯示,以形成經切除的序列的群體,然后將這些序列與銜接頭(1503)連接。在水-油乳液(1505)中將帶銜接頭的序列與引物、珠子和DNA聚合酶混合,其中,所述引物對于連接到經切除的序列的一個末端的銜接頭是特異的;所述珠子上附接有對連接到切除的序列的另一末端的銜接頭序列特異性的引物。選擇條件使得在油中(1506)有相當數量(例如大于15-20%)的水泡(1508)含有單個散在序列(1510)和至少一種珠子(1512)。其它的水泡(1508)中的水相含有用于進行PCR的常規(guī)反應混合物,從而產生這樣的一些珠子(1518),其中每個珠子上附接著獨特的帶有銜接子的序列的克隆群體。在本發(fā)明的一個方面中,將多個散在銜接頭導入單個基因組片段是經過一系列步驟進行的,包括1)連接含有l(wèi)is型限制性酶的結合位點的起始銜接頭并閉合DNA環(huán),接著2)延伸引物和選擇性限制切割基因組序列以重新打開環(huán);和3)連接第二銜接頭并且閉合DNA環(huán)。然后重復步驟2和3以將第三銜接頭納入基因組序列(圖2B和2C)。第二銜接頭可以使用與第一銜接頭相同的限制位點以最大程度地減少在基因組DNA的內部位點上切割基因組區(qū)段。在一個實施方案中,使用本領域中已知的技術來阻斷在第一銜接頭限制位點上的切割,例如通過在第二位點切割前曱基化第一限制位點,來實現使用第二銜接頭識別位點而非第一銜接頭識別位點的受控制的切割。對于帶有不同結合位點的銜接頭,可以將它們與兩個等分的樣品一起使用,以防遺漏某些基因組片段。在一個實施方案中,將一部分最終銜接頭序列用作RCR引發(fā)位點,而將另一部分銜接頭用作附接到玻璃表面的錨寡核苷酸的結合位點。在本發(fā)明的一個方面中,將銜接頭插入基因組片段的方法首先進行第一銜接頭的連接,然后進行環(huán)形成。通過可產生適合用于連接的5'磷酸和3,OH基團的DNAse斷裂來制備長度為100至300(或者300-600)個堿基的基因組片段。通過加熱(變性)和快速冷卻可以將高復雜度的基因組DNA制備為單鏈(ss)DNA。因為該DNA是高復雜度的,任何片段的互補序列的局部濃度可以是忽略不計的,因此容許有足夠時間在該DNA大多數處于單鏈狀態(tài)時進行隨后的規(guī)程。由于每條ssDNA片段的5,和3'末端的不同極性,ssDNA的使用顯著地簡化了環(huán)形成。第一階段是將銜接頭序列連接到每個單鏈基因組片段的末端(ends)。因為所有可能的序列組合都可能呈現在基因組DNA中,因此可以在具有所有可能的序列的合成的橋連模板分子的幫助下,將銜接頭連接到一個末端(圖2B)。因為這些寡核苷酸相比基因組DNA而言濃度可能相對較高,因此與基因組片段的末端互補的寡核苦酸(或者帶有錯配的互補物)可能發(fā)生雜交。這樣就在連接位點上形成橋,容許單鏈基因組片段的5'末端與銜接頭連接。在一個實施方案中,這種結構排布不容許銜接頭與片段的3'末端連接。在圖2B中,示例說明了另一種將多種散在銜接頭納入DNA環(huán)的方法。這種方法包含以下步驟1.將銜接頭(230)連接到單鏈DNA(232)的5,和3,末端(銜接頭含有簡并(6-9個堿基)的橋模板(234)),接著通過三堿基的突出端(236)來連接銜接頭;2.用聚合酶延伸銜接頭寡核苷酸(238)以產生用于lis型限制性酶切割的雙鏈DNA;3.在lis型識別位點(240)的12-16個堿基的下游切割(242)而打開環(huán);4.加熱導致新鏈(243)的丟失;和5.片段準備好導入另一個銜接頭(230),并再次閉合環(huán)。將3'末端捕獲進入環(huán)需要使用寡核苷酸模板(其也是用簡并堿基制備的)以在連接位點上方形成橋結構(abridgestructureisformedovertheligationsite)。利用位于基因組片段的3'末端的第二銜接頭部分,和與結合于5,末端的銜接頭的末端互補的三堿基突出端來封閉環(huán)。通過在有利于模板橋(而不是三堿基突出端)雜交的溫度進行該銜接頭區(qū)段的附接,可以通過緩沖液交換去除過量的橋分子,因為基因組/銜接頭分子是附接于固體支持物的。三堿基突出端對環(huán)形成而言是足夠的,但除非降低溫度,條件對其是不利的(wouldnotbefavoreduntilthetemperaturewasdecreased)。通過4吏用帶有簡并堿基的兩個橋接寡核苷酸,可以消除由于基因組DNA的多種多樣的序列末端而產生的假象(artifacts)。在優(yōu)選的實施方案中,兩個橋連寡核酸相互獨立地進行附接,以確保簡并寡核苷酸自由地結合到它們的互補序列??梢詫蓚€銜接頭組分在同一連接反應中連接到各自的DNA末端,而且,通過設計帶有封閉(blocked)末端的橋連模板寡核苷酸可以進一步地防止連接假象。在非環(huán)銜接頭鏈(non-circleadaptorstrand)上引入捕獲機制(如生物素/鏈親和素)的估文法,可以用在下游清除過程(down-streamcleanupprocess)中。在這種實施方案中,因為存在未連接的和連接的生物素標記的銜接頭,因此可以通過對約200個堿基長度的銜接頭-基因組片段進行大小選擇,來去除未連接的過量銜接頭。然后可以將銜接頭-基因組片段附接到鏈親和素包被的珠子上,用于隨后的清洗步驟。另一個選擇是使用帶有捕獲寡核苦酸(可能摻有PNA或LNA)的珠子,所述捕獲寡核苷酸與一個連接的銜接頭(ligatedadaptor)的一部分互補??梢岳脦в蓄A先組裝的左邊的第一銜接頭/模板的珠子進一步簡化該方法。在圖2C中,說明了納入散在銜接頭的另一種示例的方法。該方法包含下列步驟(1)使用含有簡并堿基(例如,256和258區(qū)段顯示了7個簡并堿基的使用,但是也可以使用8個筒并堿基)的模板寡核苷酸將兩種銜接頭區(qū)段(250和252)連接到單鏈DNA片段(254)(250雙鏈區(qū)段長度可以是大約10個堿基,而252雙鏈區(qū)段長度可以是8-10個堿基)。用3'末端上的雙脫氧終止和在5'末端的OH基團或生物素來阻斷模板寡核苷酸(250和256)的兩個末端的連接。銜接頭/模板雜合物以很高的濃度,例如IiiM的濃度使用,并且比基因組DNA濃度過量1000倍。(2)通過在3'銜接頭(250)的5'末端上的生物素將DNA收集在鏈親和素支持物上(260)。將過量的游離5,銜接頭和上清液一起除去。(3)通過高溫來從鏈親和素支持物釋放DNA并且收集上清液。(4)使用3'末端被雙脫氧終止封閉的長捕捉寡核苷酸(262)來將DNA重新捕捉到固相支持物上。寡核苷酸可以是肽核酸(PNA)的形式,以提供DNA與固相支持物的緊密結合,從而方便隨后步驟中過量游離銜接頭的去除??梢酝ㄟ^在5,末端(264)上添加l-10個簡并i威基來延伸捕獲寡核苷酸(262),用于結合基因組部分以增加穩(wěn)定性。(5)利用橋模板(266,其長度可以是14-18個堿基)使銜接頭的兩個末端湊到一起,以環(huán)化該DNA分子。用酰胺基團將它的5'末端封閉,但是3,OH基團將可用于后面步驟中DNA聚合酶所致的延伸。在反應中提供激酶和連接酶以磷酸化5'銜4妄頭的5'末端和連才妄DNA分子的兩個末端。在用于插入多個銜接頭的另一個示例性的捕捉規(guī)程中,使用簡并模板將兩個銜接頭區(qū)段連接于基因組ssDNA片段(圖2C)。銜接頭區(qū)段的3,末端(其連接到基因組DNA的5'末端)具有封閉性的互補物(blockingcomplement).3'銜接頭區(qū)段的模板具有生物素。銜接頭/模板是具有很高的濃度,例如1nM,并且具有大約高出基因組DNA1000x的濃度。在鏈親和素支持物上收集DNA并且將溶液和過量的銜接頭成分一起去除。在高溫下釋放基因組DNA并收集DNA溶液。在帶有與5'末端銜接頭區(qū)段互補的長寡核苷酸(帶有封閉的末端)的第二固相支持物上再次收集該DNA并去除了所有其他合成DNA。然后加入橋接模板,其還起引物的作用。加入激酶和連接酶(和聚合酶)以閉合環(huán),并將該引物延伸到約30個堿基。通過時間或者通過ddNTPs的存在來控制延伸。加熱使酶失活,然后用IIs型限制性酶來切割DNA。在高溫下去除短雙鏈部分,與此同時環(huán)通過與附接的寡核苦酸所成的強雜交體附接于固相支持物上。通過將LNA或PNA堿基摻入寡核苷酸來維持這種更強的雜交體。然后添加兩個銜接頭區(qū)段(同上文.相同的設計)和第二銜接頭的模板。因為在以后的步驟中環(huán)DNA將持續(xù)地結合于固相支持物,由此不需要另外的對固相支持物的附接。使用高溫以去除結合于環(huán)DNA的模板。重復這種步驟以插入第三銜接頭。如果沒有另外的銜接頭要插入,那么不添加聚合酶,在緩沖液交換后,在高溫下將DNA釋力文用于RCR反應。在圖2D中說明了插入散在銜接頭的另一個示例方法。這種方法產生與散在銜接頭鄰接的、具有預定長度的靶標多核苷酸區(qū)段。通過選擇和定位在散在銜接頭內的IIs型限制性內切核酸酶來選擇預定的長度。在這種方法的一個方面中,從起始銜接頭到倒數第二銜接頭的每個不同的散在銜接頭具有不同的lis型限制性內切核酸酶的識別位點。將雙鏈DNA(dsDNA)斷裂以產生具有散損末端(frayedends)(269)的靶標多核苦酸(270),之后使用常規(guī)技術修復這些末端以形成帶有平末端的片段(271)。使用Taq聚合酶或類似的酶將單個核苷酸(273),例如dA添加到平末端片段(271)的3'末端以產生增大的片段(272)(augmentedfragments)。在連接酶的存在下,將增大的片段(272)與具有互補核苷酸(諸如dT)的突出端的散在銜接頭(274)結合,因此形成多個連接產物,其中包括含有單個散在銜接頭和單個片段的產物(275)??梢哉{節(jié)條件以促進產物(275)的環(huán)化(276),由此形成dsDNA環(huán)(283)。其他產物,例如在兩末端帶有散在銜接頭的綴合物或未連接的片段和銜接頭,一般將不具有形成環(huán)的能力,并且在產物(275)環(huán)化后,可以通過單鏈核酸外切酶消化來去除。用識別銜接頭(278)中的位點的lis型限制性內切核酸酶來處理dsDNA環(huán)(283)以切割dsDNA環(huán)(283),使靶標多核苷酸(270)的區(qū)段(277)鄰近于銜接頭(278)。在這種實施方案中,lis型限制性內切核酸酶的切割留下3'鋸齒狀的末端(indentedends),DNA聚合酶將其延伸而形成平末端(279),之后,處理片段(284)以將單個核苷酸添加到它的3'末端,如上文所述。對于片段(284),連接具有互補突出端的第二散在銜接頭(281),并且重復該過程以導入更多的散在銜接頭。在一個實施方案中,每個導入散在銜接頭的循環(huán)包括對期望的產物的擴增步驟,以產生足夠的材料用于隨后的處理步驟。在圖2E中,說明了另一種在靶標多核苷酸中的預定位點上導入散在銜接頭的示例方法。像在圖2D中那樣產生片段,并且產生dsDNA(285),其具有含有IIs型識別位點的起始散在銜接頭(286),如上文所述,在預定的位點(287)上切割dsDNA環(huán)(285)以產生具有3,突出端(289)的片段(288),其可以具有不同于二的長度(mayhavelengthsdifferentthantwo)。片段(288)的散在銜接頭或是在銜接頭與片段的邊界處含有切口(290),或是含有切口內切核酸酶的識別位點,所述切口內切核酸酶容許在銜接頭內部導入切口(291)。在任一種情況中,用DNA聚合酶(292)處理的片段(288),所述DNA聚合酶可以將上鏈從切口(例如291)延伸到片段(288)下鏈的末端以形成具有在一個末端上的3,突出端和在另一端上的平末端的片段。將具有在一末端的簡并核苷酸突出端和在另一末端上的單種3,核苷酸(例如dT)突出端的散在銜接頭(294)連接到這種片段以形成片段(295),將其處理(例如用Taq聚合酶)以將3'dA添加它的平末端形成片段(296)。然后將片段(296)通過在位點(297)的連接來環(huán)化以形成dsDNA環(huán)(298)并且將其他連接產物消化,如上文所述??梢赃M行這種方法的另外循環(huán)以并入另外的散在銜接頭,并且如上文,可以在每個循環(huán)中或者需要時添加擴增的可選步驟。在圖2F中,說明了納入散在銜接頭的另一種方法,其提供了在散在銜30接頭之間的長度可變的區(qū)段。也就是說,散在銜接頭是以預定的順序納入的,但是銜接頭的間隔不是精確知道的。這種方法所容許的納入銜接頭的距離比已知的限制酶所提供的距離更長。如上文,制備dsDNA環(huán)(2000),所述環(huán)具有含有切口酶識別位點(2004)的起始銜接頭(2002)(其可以是散在銜接頭或不是散在銜接頭)。產生切口(2006)后,用DNA聚合酶(2008)處理dsDNA環(huán)(2000),該DNA聚合酶在切口位點(2006)處延伸(2010)游離的3,鏈并且取代或降解帶有游離5,末端的鏈。經過預定的間隔之后停止反應,所選擇的間隔短于預期合成多于數百個堿基要用的時間??梢酝ㄟ^多種方法來暫停這種延伸,包括改變例如溫度、鹽濃度等反應條件以使正使用的聚合酶失去活性。這樣做會留下帶有切口或其它缺口(2012)的dsDNA環(huán),它可被具有核酸酶活性的多種酶,例如DNA聚合酶、FEN-1內切核酸酶、Sl核酸酶(2014)等所識別和切割,可以將這些酶單獨使用或聯(lián)用,例如Lieber,BioEssays,19:233-340(1997)。在切口或缺口(2012)處切割之后,可以使用在鳥槍測序中使用的技術來修復靶標多核苷酸的末端,之后,可以使用產生鋸齒狀(staggered)末端或稱粘性末端的lis型限制性內切核酸酶在銜接頭(2002)的左側切割(2017)靶標多核芬酸(2000)。對于平末端,將下一個散在銜接頭附接于其上,之后,可以使用常規(guī)技術環(huán)化所得的構建體,用于進一步插入散在銜接頭。在一個實施方案中,連續(xù)的散在銜接頭例如(2002)和(2018)之間的距離不是精確知道的,并且依賴于使用的切割酶、使用的聚合酶、容許合成的時間間隔、停止合成的方法,反應條件例如dNTP濃度等。在一個實施方案中,在步驟(2010),可以使用切口平移替代鏈置換。在一個方面中,在多核苦酸的斷點處(2016)中,可以-使第二銜接頭僅連接到與第一銜接頭連接的一側。結合這種方法,可以在銜接頭(2006)的另一側上進行第二切割,以產生具有不同長度的兩個區(qū)段例如(10-50)+(30-300)石成基的匹配對結構。在一個方面中,本發(fā)明提供了插入銜接頭的方法,該方法使用CircLigaseTM閉合不帶模板的單鏈多核苷酸環(huán)。利用這種酶,能夠使用單寡核苷酸形式的銜接頭,并且僅使用一個模板。在這種方法中,在使用標準的連接酶(例如T4DNA連接酶)將銜接頭連接到靶標多核苷酸的5'末端后,去除過量銜接頭和模板。然后可以使用CircLigaseTM(和激酶,如果銜接頭在5,末端不受磷酸化)以閉合單鏈多核苷酸環(huán)。在一個實施方案中,在將起始銜接頭插入多核苷酸后,可能需要將其從支持物釋放方能夠形成單鏈環(huán)。然后可以將多核香酸再雜交至支持物;在一個實施方案中,這種再雜交發(fā)生在捕捉寡核苦酸上,所述捕捉寡核苷酸結合于支持物的表面。閉合環(huán)后,將引物與聚合酶一起加入,用于產生局部dsDNA并容許用lis型限制性酶切割l-NNNNNNNUUUUUUUUUUU-lGGGGGGGGGGGGGG.UUUUUUUUUUUUUUUUUUUUUUUUUUU-5,OH3'OH-GGGGGGGGGG....可以通過以下方式來預防多個銜接頭的連接用5'OH來開始或者具有可能處于以下發(fā)夾形式的長阻斷模板l-NNNNNNNUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUUU-固相(solid)UUUUUUUUUUUUUUUUUUUUUUUUUUUU-Pi-uuuuuuu-i其中LN普通石威基,N:簡并堿基,P-磷酸,G-目的基因組或者DNA一旦發(fā)生了環(huán)形成,用聚合酶延伸已預雜交到銜接頭的引物以產生足夠的雙鏈DNA用于lis型限制性酶切割,從而容許另外的銜接頭的精確插入(圖9)??梢允褂肒lenow等聚合酶,連同一定水平的ddNTP,來將延伸長度控制在大約20-30個堿基。在本發(fā)明的一些實施方案中,如果每一酶步驟在不到30分鐘內完成,那么插入兩個另外的銜接頭可能花費2-3小時。銜接頭插入過程中產生的散發(fā)誤差是可以容忍的,原因如下針對每個堿基生成的數十個多余的重疊序列,和在每個未經受銜接頭插入的DNA片段的大于100個堿基上產生的探針-探針數據。在一個示例的方法中,可以通過帶有在>1Kb的距離上的50-100個堿基+25個堿基匹配對的dsDNA環(huán)來插入多個銜接頭。在這種方法中,使用A/T或平末端連接,提供了帶有銜接頭的約1-3Kb基因組片段的dsDNA環(huán)。在一個實施方案中,銜接頭具有切口酶結合位點,或者它具有一個尿嘧啶或者其他可切割的或者可光切割(photo-cleavable)的堿基類似物,或者未連接的3'末端;和兩個不同IIs型結合酶的識別位點。在一個實施方案中,使用切口酶或在尿嘧啶位點切割DNA并且用鏈取代酶或切口平移酶將可用的3'末端延伸(或僅僅延伸DNA,如果銜接頭連接已留下切口)約75個堿基;在使用未連接的3'位點的情況中,取代將通過銜接頭,例如長度將是75個堿基加銜接頭的長度。可以通過切口平移或通過帶鏈取代的DNA合成來去除可用的3'末端。切割可以在切口處或在分支結構上發(fā)生,由幾種酶(例如單鏈切口酶)中的一種來進行切割。這種方法導致與起始銜接頭的一個末端相距30-110個堿基的dsDNA片段(dsDNAfragment30-110basesnexttooneendoftheinitialadaptor)。然后可以用具有長切割距離的IIs型限制性內切核酸酶來切割DNA。在一個實施方案中,切割距離是從18至25個堿基。可以不用銜接頭來閉合環(huán)(基因組片段的平末端連接),或者可以通過第二銜接頭的定向的平末端連接來閉合環(huán)。兩個銜接頭都可以用于進一步插入另外的銜接頭,使用不同的酶或相同的酶。如果在第二銜接頭插入前將第一銜接頭位點曱基化,那么第二銜接頭可以使用與銜接頭末端相距合適距離的同一限制位點以獲得在基因組DNA中特定位置上的切割。環(huán)化的方法可以使用不同的標準DNA環(huán)形成規(guī)程。一個實例是^f舒接頭的平末端連接。這種途徑的問題是納入的多個銜接頭的方向和連接。盒(cassette)的一條鏈的5,和3'兩個末端都可以被阻斷連接。盒的方向將確定哪條DNA鏈將具有游離3'末端以啟動RCR。這將容許每條鏈在大約50%的情況下能得到復制。DDDDDDDDDXLLLLLLLLLLLLXDDDDDDDDDDDDDDDDDDDDOLLLLLLLLLLLLODDDDDDDDDDDDDDDDDDDDOLLLLLLLLLLLLODDDDDDDDDDDDDDDDDDDDXLLLLLLLLLLLLXDDDDDDDDDDDD=DNA,L—舒接頭,X—皮阻斷的連接位點,O可連接本領域的技術人員將理解的是,有幾種形成環(huán)化的銜接頭/靶標序列成分的方式。在一個實施方案中,使用CircLigaseTM酶來閉合不帶有模板的單鏈多核普酸環(huán)。或者,使用與線性鏈的兩末端互補的橋接模板。在一些實施方案中,利用第一銜接頭向靶標序列的一個末端的添加來設計橋接模板的互補部分。另一末端可以是含有用于結合所有基因組序列的簡并堿基的通用模板DNA。兩末端發(fā)生雜交,繼而連接,產生一個環(huán)化組分?;蛘撸梢?使用末端轉移酶,通過添加聚dA尾(poly-dAtail)》務飾靶標分子的3,末端。然后使用與銜接頭和聚dA尾互補的橋接模板來環(huán)化經過修飾的靶標。在另一個實施方案中,在用于指導連接的每個模板寡核苷酸中納入生物素。這有助于的模板的輕易去除,例如通過應用高溫熔解,其去除了模板而不去除形成的環(huán)。這些更長的寡核苦酸可以起RCR引物的作用或者用于其他目的,例如插入另外的盒。在另一個實施方案中,可以將靶標DNA附接到一些固相支持物(例如磁珠或者試管/平板孔壁)上,以便于去除所有非共價地連接到靶標DNA的模板或者銜接頭??梢允褂脦в须S機引物的支持物來附接靶標ssDNA以延伸并產生dsDNA的大約20-80個堿基??梢酝ㄟ^時間或者通過ddNTPs的量來控制延伸長度。另一種途徑是將銜接頭連接到ssDNA的一個末端,然后大小選擇帶有連接到ssDNA的銜接頭的DNA,同時去除游離的銜接頭。在這種情況中,可以將與部分銜接頭互補的、長度約為10-50堿基的錨序列附接到支持物,以捕捉DNA并將它用于隨后的步驟。這種錨分子可以具有附加的成分以增加雜交體的穩(wěn)定性,例如納入肽核酸。附接單鏈DNA的另一種方法是通過使用附接于支持物的單鏈DNA結合性蛋白質。在圖2A中說明的一種環(huán)化方法中,在斷裂和變性(202)基因組DNA(200)后,首先用末端轉移酶(206)來處理單鏈DNA片段(204)以將聚dA尾(208)附接到3'末端。接著在橋接寡核苦酸(210)的幫助下分子內地連接(212)游離末端,所述橋接寡核苷酸在一個末端與聚dA尾互補,在另一末端依靠簡并核苷酸區(qū)段與任何序列互補。橋接寡核苦酸(210)的雙鏈體區(qū)域(214)含有至少一個用于RCR的引物結合位點,并且,在一些實施方案中,還含有提供捕捉寡核苷酸的互補物(complement)的序列,其與引物結合位點序列可以相同或不同,或者其可以與引物結合位點序列重疊。捕捉寡核苷酸的長度可以有很大的變化。在一個方面中,捕捉寡核苷酸和它們在橋接寡核苷酸中的互補物的長度范圍是從10至100個核苷酸;并且更優(yōu)選乂人10至40個核苷酸。在一些實施方案中,雙鏈體區(qū)域(214)可以含有其它元件,例如寡核苷酸標簽,例如用于鑒定其相關的DNA片段所來源的源核酸的標簽。即,在一些實施方案中,可以分別制備來自不同源核酸的環(huán)或銜接頭連接或多聯(lián)體,在此過程中使用含有獨特標簽的橋接銜接頭,之后將它們混合,用于制備多聯(lián)體或者施加到表面以產生隨機陣列。在這種隨機陣列上,可以通過將經標記的標簽互補物雜交到在多聯(lián)體中與其相應的標簽物序列,或者通過對整個銜接頭或銜接頭標簽區(qū)域測序,來鑒定相關的片段??梢砸暻闆r利用常規(guī)純化柱和/或利用一種或多種合適的外切酶消化非環(huán)形DNA,來分離環(huán)形產物(218)。期望大小范圍(例如50-600個核苷酸)的DNA片段的環(huán)化,可以使用環(huán)化酶,例如CircLigase,作為不需要模板而環(huán)化單鏈DNA單鏈DNA連接酶。形成包含DNA片段和一個或多個銜接頭的單鏈DNA環(huán)的優(yōu)選的方案是使用標準的連接酶,例如T4連接酶,用于將銜接頭連接到DNA片段的一個末端,接著應用CircLigase以閉合環(huán)。在示例的方法中,使用T4連接酶產生含有銜接頭寡核香酸和靶標序列的DNA環(huán)。使用的靶標序列是合成寡核苷酸TIN(序列5,-NNNNNNNNGCATATTAGANTGNCGNNNNNNNN-3,)(SEQIDNO:1)。銜接頭是由2個單獨的寡核苷酸構成。連接到T1N的5'末端的銜接頭寡核芬酸是BR2-ad(序列5,隱TATCATCTGGATGTTAGGAAGACAAAAGGAAGCTGAGGACATTAACGGAC-3,)(SEQIDNO:2),而連接到TIN的3'末端的銜接頭寡核香酸是UR3-ext(序列5,-ACCTTCAGACCAGAT-3,)(SEQIDNO:3)。UR3-ext含有l(wèi)is型限制性酶位點(AcuI:CTTCAG)以提供使DNA環(huán)線性化的途徑,用于第二銜接頭的插入。將BR2-ad退火到BR2-temp(序列5,-NNNNNNNGTCCGTTAATGTCCTCAG-3,)(SEQIDNO:4)以形成雙鏈銜接頭BR2銜接頭。將UR3-ext退火到生物素化的UR3-temp(序列5,-[生物素]ATCTGGTCTGAAGGTNNNNNNN-3,)(SEQIDNO:5)以形成雙鏈銜接頭UR3銜接頭。在含有50mMTris-Cl,pH7.8,10%PEQImMATP,50mg/LBSA,10mMMgCl2,0.3單位/plT4DNA連接酶(EpicentreBiotechnologies,WI)和10mMDTT的10pl終體積的單個連接反應物中,將1pmol靶標TIN連接到25pmolBR2銜接頭和10pmolUR3銜接頭。在以下溫度循環(huán)程序中溫育連接反應物15°C進行11分鐘,37。C進行1分鐘,重復18次。通過在70°C加熱10分鐘以終止反應。通過用鏈親和素磁珠(NewEnglandBiolabs,MA)的捕捉連接的產物來去除過量的BR2銜接頭。將3.3pi4x結合緩沖液(2MNaCl,80mMTrisHC1pH7.5)添加到連接反應物,然后與在lx結合緩沖液(0.5MNaCl,20mMTrisHC1pH7.5)中的15pg鏈親和素磁珠混合。在室溫中溫育15分鐘后,用4倍體積的低鹽緩沖液(0.15MNaCl,20mMTrisHC1pH7.5)將玉朱子洗滌2次。將洗脫緩沖液(10mMTrisHC1pH7.5)預溫至70°C,將10pl洗脫緩沖液在70°C添入珠子5分鐘。在磁分離后,保留上清液作為初級純化的樣品。與上文類似地,可以通過用預結合有與BR2-ad反向互補的生物素化寡核苷酸BR-rc-bio(序列5,-[生物素]CTTTTGTCTTCCTAACATCC-3,)(SEQIDNO:6)來的i茲珠去除過量UR3銜接頭從而將樣品進一步的純化。可以通過尿素聚丙烯酰胺凝膠電泳分析來估計在最終純化的樣品中的銜接頭-靶標連接產物的濃度。環(huán)化反應使用含0.2單位/iilT4多核苷酸激酶(EpicentreBiotechnologies)的1mMATP和供應商4是供的標準緩沖液對連接產物進行磷酸化,然后使用0.3單位/plT4DNA連接酶(EpicentreBiotechnologies)和lmMATP,與IO倍摩爾過量的夾板(splint)寡核苦酸UR3-閉合(closing)-88(序歹l)5,-AGATGATAATCTGGTC-3,)(SEQIDNO:7)—起進行環(huán)化。通過進行RCR反應來驗證環(huán)化的產物。在圖2A中說明的另一個示例的實施方案中,通過在圖2A中說明的方法,使用銜接頭寡核苷酸(1604)形成(1608)的DNA環(huán)的群體(1608)。在一個方面中,群體(1608)的每個成員具有銜接頭,所述銜接頭帶有相同的錨探針結合位點和lis型識別位點,并附接到來自源核酸(1600)的DNA片段。銜接頭還具有其他功能元件,包括^f旦不限于標記序列、附接到固相表面的序列、限制位點、功能化序列等??梢酝ㄟ^提供具有不同錨探針結合位點的銜接頭來產生多個類型的DNA環(huán)。形成DNA環(huán)(圖2A,1608)后,如在圖2A中概示的那樣將更多的散在銜接頭插入以形成含有散在銜接頭的環(huán)(1612)??梢詫@些環(huán)添加引物和滾環(huán)復制(RCR)試劑以在常規(guī)的RCR反應中產生(1614)銜接頭寡核苷酸和DNA片段的互補物的多聯(lián)體(1617)concatemersofthecomplementsoftheadaptoroligonucleotideandDNAfragments的群體(1616)。然后可以使用常規(guī)技術,例如常規(guī)旋轉柱等,來這種群體進行分離或用其他方式處理(例如大小選擇),以形成用于分析的群體(1620)。36為了表明多銜接頭的DNA環(huán)的形成是可行的,可以獲得長度為70個堿基的合成的靶標DNA和長度為200-300bp的PCR來源的片段。通過磷酸化其中一個引物然后用X外切酶處理以去除磷酸化的鏈,可以從雙鏈產物筒單地得到單鏈PCR片段。可以將單鏈片段連接到銜接頭用于環(huán)化。可以如這里所描述的那樣進行聚合、lis型限制性酶消化和與新銜接頭再連接??梢酝ㄟ^最終獲得的環(huán)的RCR擴增來顯示該方法是成功的。簡而言之,將DNA環(huán)與同最后導入的銜接頭互補的引物和phi29聚合酶在30°C溫育1小時以產生包含最初的DNA環(huán)的數百個重復拷貝的單個多聯(lián)體分子??梢岳枚嗦?lián)體中的銜接頭序列將RCR產物附接到蓋玻片的表面,所述銜接頭序列與所述表面上附接的寡核苷酸互補。可以利用銜接頭獨特探針(adaptoruniqueprobe)的雜交來顯示各個銜接頭摻入了環(huán)中并最終地摻入了RCR產物。為了表明在環(huán)內的期望的位置上摻入了銜接頭,可以將序列特異的探針(標記的5聚體)用于合成的序列或PCR來源的序列,使得識別銜接頭末端序列的未標記錨探針可發(fā)生雜交。還可以用克隆和測序來證實DNA的完整性。在一個實施方案中,還可以將用于環(huán)形成的模板用作引物以產生局部化(localized)的dsDNA。通過在每次環(huán)切割后產生干凈的ssDNA,使得各次銜接頭的摻入可以使用相同的環(huán)閉合化學法,從而簡化該方案。在一個實施方案中,制備帶有粘性末端或平末端的DNA片段的溶液用于產生DNA環(huán)。避免產生帶有一個以上DNA分子的環(huán)的傳統(tǒng)方法是,在在優(yōu)選的實施方案中,連接反應不需要大體積。這種實施方案涉及將等份的DNA片段緩慢地添加入規(guī)則大小的連接反應物。通過將DNA等份和反應物快速混合最大程度地減少多聚體的形成。可以在不含有連接酶的連接混合物中或在水或TE類緩沖液中制備DNA片段。典型地,DNA體積等于或者小于連接反應的起始體積。如果連接反應物以添加DNA樣品的速度蒸發(fā),則DNA可處于大體積的水或者簡單緩沖液(例如TE緩沖液)中??梢酝ㄟ^使用熱穩(wěn)定的連接酶來簡化蒸發(fā)過程。在一個實施方案中,環(huán)化的方法涉及將小等份的DNA稀釋到規(guī)則的連接反應物中(例如,0.1-0.5jil稀釋于10-50pi中可提供超過100倍的稀釋)并且等待足夠的時間以容許大多數DNA形成環(huán),接著添加第二個等份。在另一個實施方案中,緩慢而連續(xù)地添加DNA片段。該方法有多種可能的物理實施方式,例如以某一頻率手動或者自動移液,使用滴頭(重力或正壓力)、壓電噴射(piezospiting)或聲音噴射(acousticspiting)或纟內米滴管(nanodropper)、cavro果(cavro國pumps)的1吏用可以遞送小至30nl的液滴。在一個實施方案中,含10pmol的100lil的反應物(最大臨時濃度(temporalconcentration)為1fmol/ul)是使用100個等份的連續(xù)添加來處理的。在另一個實施方案中,10pmol分成30-50pi的等份。環(huán)化一個等份中>70-80%的DNA片段所用的時間依賴于連接酶濃度、末端類型(粘性的1、2或者4個堿基或者平的),在一定程度上也依賴于溫度(粘性末端的運動和雜交體的穩(wěn)定性)。在優(yōu)選的實施方案中,反應的總時間是約4-16小時。在一個實施方案中,將連接酶固定在固相支持物上,例如珠子。然后使用本領域中已知的方法使DNA片段從凝膠塊或者其他多孔的容器中擴散入連接反應物中。為了預防片段間的連接(而非環(huán)化),可以使用本領域中已知的用于暫時封閉DNA的方法,包括但不限于使用帶有匹配的粘性末端的無連接能力的DNA或者ssDNA末端結合蛋白質。為了增加小反應體積的流通(flow-through)的效率,在一個實施方案中,在非蒸發(fā)條件下分配反應體積,例如通過使用小滴。還可以通過調節(jié)支持物周圍環(huán)境的濕度和溫度,和通過反應緩沖液的成分的設計來確立非蒸發(fā)條件。在示例的實施方式中,通過piezospitting(~20x20x20微米)來分配10pl液滴。在不展開的情況下,這等于2(M鼓米厚度的流動池??梢源龠M展開以進一步降低該體積的厚度到大約5-10微米。在零展開的條件下,為了用10pl液滴來覆蓋1cm2,可以使用100x50x50=250,000個液滴。除了piezo途徑外,還可以使用其它將少量緩沖液平均施加于大表面(deliveryoflowamountofbufferperlargesurface)的形式,例如通過S尋支持物與用反應緩沖液填滿的多孔材料接觸,或者使帶有便于分配緩沖液的10-30微米孔隙的長狹縫(slit)沿著整個表面移動(movealongslitacrossthesurfacewithafew10-30micronopeningsallowingdispensationofthebuffer)。環(huán)化的一個示例方法涉及使用兩條被封閉的互補鏈來將單個銜接頭連接到dsDNA。在這種方法中,獨立地制備銜接頭的兩條互補鏈。還為兩條互補鏈中的每條鏈產生具有尿嘧啶并不可以連接到靶標DNA的匹配封閉性寡核香酸(matchingblockingoligo)。組裝包含一條銜接頭鏈和一條封閉性寡核苦酸的dsDNA產物。設計兩種組裝的dsDNA構建體,它們不能相互連接或雜交;所述構建體可以是平末端或可以具有T突出端或者其他突出端,用于連接DNA靶標。將這兩種構建體的混合物連接到平末端dsDNA或者帶有相應的粘性末端的DNA。大約50%的DNA將具有每種構建體各一個;另外50°/。將具有同一種構建體兩個。然后降解封閉性寡核香酸,并且通過互補鏈的雜交和連接來閉合環(huán)。在一個實施方案中,銜接頭可以是回文的,以避免方向的差異(distinctionoforientation)。這種途徑可以提供比A/T連接途徑更高的產率,這依賴于平末端連接效率和在A/T連接反應中的DNA的濃度。在進一步的實施方案中,使用了四種ssDNA銜接頭成分替代二種ssDNA銜接頭成分。產生多聯(lián)體的方法在本發(fā)明的一個方面中,單個的分子組成多核苷酸的多聯(lián)體,所述多核苦酸通常是多核苷酸分析物,即常規(guī)的滾環(huán)復制(RCR)反應中產生的靶標序列。關于選擇RCR反應的條件和試劑的指導可見于許多本領域的技術人員可獲得的參考文獻中,如下面所證明的(通過提述并入它們的內容)Kool,美國專利5,426,180;Lizardi,美國專利5,854,033和6,143,495;Landegren,美國專利5,871,921等。通常而言,RCR反應組分包括單鏈DNA環(huán)、與DNA環(huán)退火的一個或多個引物、具有鏈取代活性的DNA聚合酶(用以延伸與DNA環(huán)退火的引物的3,末端)、核苷三磷酸和常規(guī)的聚合酶反應緩沖液。在這樣的條件下混合這些組分使得引物能夠退火到DNA環(huán)并被DNA聚合酶延伸以形成DNA環(huán)的互補物的多聯(lián)體。示例RCR反應方案如下在50pL反應混合物中合并下列成分2-50pmol環(huán)DNA、0.5單位/^L噬菌體(p29DNA聚合酶、0.2pg/|aLBSA、3mMdNTP、IXq>29DNA聚合酶反應緩沖液(Amersham)。將RCR反應在30°C進行12小時。在一些實施方案中,聚合酶反應中的環(huán)DNA濃度可以選擇低一些(大約每ml100-1000億個環(huán),或者每皮升10-100個環(huán))以避免纏結(entanglement)和其他分子間相互作用。優(yōu)選地,通過RCR產生的多聯(lián)體在大小上近似均一;因此,在一些實施方案中,產生本發(fā)明的陣列的方法可以包括大小選擇(size-select)多聯(lián)39體的步驟。例如,在一個方面中,多聯(lián)體經過如此的選擇,使得它們作為一個群體的分子量變異系數少于約30%;在另一實施方案中,少于約20%。在一個方面中,通過以下方式來進一步改進大小的一致性將低濃度的鏈終止物(chainterminators),例如ddNTP,添加到RCR反應混合物,以減少超大型多聯(lián)體(例如被聚合酶以更高的速率合成的DNA環(huán)所產生的)。在一個實施方案中,所使用的ddNTP濃度導致在50至250Kb或者在50-100Kb范圍中的期望的多聯(lián)體大小。在另一個實施方案中,使用常規(guī)分離技術,例如大小排阻層析、膜過濾等,可以富集特定大小范圍內的多聯(lián)體。在圖2A中說明了用于產生多聯(lián)體的示例的方法。形成DNA環(huán)(1608)后,如在圖2A中所概示的,將另外的散在銜接頭插入以形成含有散在銜接頭的環(huán)(1612)。對于這些環(huán),可以添加引物和滾環(huán)復制(RCR)試劑以在常規(guī)RCR反應中產生(1614)銜接頭寡核苷酸和DNA片段的互補物的多聯(lián)體(1617)的群體(1616)。然后可以使用常規(guī)技術,例如常規(guī)旋轉柱等,來對該群體進行分離或者其他方式的處理(例如大小選擇)(1618)以形成用于分析的群體(1620)。可以從源核酸,例如基因組DNA,通過斷裂以產生0.2-2kb大小的片段,或者更優(yōu)選地,0.3-0.6kb大小的片段,以產生靶標多核苦酸,然后可以將其環(huán)化用于RCR反應。在另一個方面中,本發(fā)明提供了產生多個含有散在銜接頭的靶標多核苷酸的多聯(lián)體的方法和組合物。在一個實施方案中,可以通過RCR來產生這些多聯(lián)體,如圖1C-1D所述。滾環(huán)復制是產生本發(fā)明的多聯(lián)體的優(yōu)選的方法。已顯示RCR方法可產生M13基因組的多個連續(xù)的拷貝。(Blanco,etal.,(1989)/說o/C/zem264:8935-8940)。在這種系統(tǒng)中,將期望的DNA片段"克隆"進DNA銜接頭并且通過線性多聯(lián)體化來復制。靶標DNA直接地處于適合于雜交和酶方法學的形式,而不需要在細菌中傳代(passage)。RCR方法依賴于使期望的靶標分子首先形成環(huán)形底物。這種線性擴增使用原始的DNA分子,而不是拷貝的拷貝,因此確保序列的保真性。作為環(huán)形實體,該分子充當鏈取代聚合酶(stranddisplacingpolymerase)的無端點(endless)沖莫板,所述聚合酶延伸與環(huán)的一部分互補的引物。連續(xù)的鏈延伸產生長的單鏈DNA,其由數百個包含多個拷貝的與環(huán)互補的序列的多聯(lián)體組成。產生陣列的方法在一個實施方案中,將乳液PCR用于產生排列到陣列上的擴增子。如在圖IB中所說明,破乳(1505)后,可以將含有散在序列的克隆的珠子(1512)在固相表面(1522)上排成陣列(array),用于序列分析。珠子的這種排列可以是隨機的,如圖1F申所示,其中在排列前不確定珠子的位置,或者該排列可以是依照結合位點(1524)的預定模式,即使隨機確定在這些位點上的珠子的分布。在這里的這兩種分布稱為"隨機陣列"(randomarrays)。為了獲得以亞微米點形式存在的、緊湊(compact)而致密的DNA束,可以利用擴增分子的某個區(qū)域與附接至玻璃的捕捉探針雜交。數百個捕捉探針分子(以大約10nm間隔的分開)可以使靶標分子的數百個串聯(lián)拷貝保持緊密結合于小于直徑為500nm的玻璃表面區(qū)域。在一個實施方案中,應用玻璃活化化學法產生異硫氰酸鹽(isothiocyanate)活性基團的單層,用于附接胺修飾的捕捉寡核苦酸。一般而言,單個分子的密度經過選擇,使得至少20%,或者至少30%,或者至少40%,或者大多數分子可通過所用的信號生成和檢測系統(tǒng)來個別地分辨。在一個方面中,選擇這樣的密度,使得至少70%的單種分子可被個別地分辨。在一個方面中,每當使用掃描電子顯微術時,例如采用具有金納米顆粒標記的分子特異性探針(例如Nieetal(2006),Anal.Chem.,78:1528-1534,通過提述并入)時,選擇這樣的密度,使得至少大多數的單個分子具有50nm或更大的最近鄰距離(nearestneighbordistance);并且在另一個方面中,選擇這樣的密度,以確保至少70%的單個分子具有100nm或更大的最近鄰距離。在另一個方面中,每當使用光學顯微術時,例如帶有具有熒光標記的分子特異性探針時,選擇這樣的密度,以使至少大多數單分子具有200nm或更大的最近鄰距離;在另一個方面中,選擇這樣的密度,以確保至少70%的單分子具有200nm或更大的最近鄰距離。在另一個方面中,每當使用光學顯微術時,例如利用具有熒光標記的分子特異性探針時,選擇這樣的密度,以使至少大多數單分子具有300nm或更大的最近鄰距離;并且在另一個方面,選4奪這樣的密度,以確^呆至少70%的單分子具有300nm或更大的最近鄰距離,或者400nm或更大的最近鄰i巨離,或者500nm或更大的最近鄰距離,或者600nm或更大的最近鄰距離,或700nm或更大的最近鄰距離,或800nm或更大的最近鄰距離。在另一個實施方案中,每當使用光學顯微術時,選擇這樣的密度,以使至少大多數單分子具有為顯微鏡的最小特征分辨能力至少兩倍的最近鄰距離。在另一個方面中,將本發(fā)明的聚合物分子布置在表面上以使單獨可檢測的聚合體分子的密度至少是1000/(am2,或至少是10,000/pm2,或至少是100,000/(im2。在本發(fā)明的另一個方面,通過在表面上提供離散間隔區(qū)(discretespacedapartregions),所述離散間隔區(qū)是基本上唯一的用于附接單分子的位點,從而不再需要選擇隨機布置的單分子的密度以確保期望的最近鄰距離。即,在這些實施方案中,表面上的離散間隔區(qū)之間的區(qū)域,本文中稱為"區(qū)間區(qū)域",在下面的意義上是惰性的即多聯(lián)體或其他大分子結構不結合到這些區(qū)域。在一些實施方案中,可以用封閉劑,例如與多聯(lián)體不相關的DNA、其他多聚物等,來處理這些區(qū)間區(qū)域。一般而言,對離散間隔區(qū)的面積以及所用的附接化學法、大分子結構等加以選擇,使它們與本發(fā)明的單分子的大小相應,使得當將單分子們施加于表面時,基本上每個區(qū)域都由不超過一個(nomorethanone)單分子占據。可以通過以下方式來增加每個離散間隔區(qū)僅有一個單分子的可能性選擇反應官能團(reactiveflmctionalities)或捕捉寡核苷酸的密度,使得這些模塊少于它們在單分子上的各自的互補物。因此,一個單分子將"占據"針對一個特定離散間隔區(qū)的表面的所有聯(lián)結,由此降低了第二單分子也結合到同一區(qū)域的機會。特別的是,在一個實施方案中,離散分隔區(qū)中基本上所有的捕捉寡核苷酸均與銜接頭寡核苦酸單個大分子結構雜交。在一個方面中,離散間隔區(qū)含有的反應官能團或者捕捉寡核苷酸的數目是單分子的互補官能團或銜接頭寡核苷酸數目的約10%至約55°/。。捕捉寡核苷酸的長度和序列可以在很大的范圍內變化,并且可以將其沖艮據公知的原理加以選擇,例如Wetmur,CriticalReviewsinBiochemistryandMolecularBiology,26:227-259(1991);BrittenandDavidson,chapter1inHamesetal,editors,NucleicAcidHybridization:APracticalApproach(IRLPress,Oxford,1985)。在一個方面中,捕捉寡核苷酸的長度范圍是從6至30個核苷酸,而在另一個方面,從8至30個核苷酸,或者從10至24個核苷酸。選擇捕捉寡核苷酸的長度和序列(i)以提供大分子結構與表面的有效結合,從而最小化在分析操作的步驟,例如清洗等期間大分子結構的損失,并且(ii)以避免干擾對受檢分子的分析操作,特別是在受檢分子是在多聯(lián)體中的DNA片段時。對于(i),在一個方面中,選擇序列和長度以提供捕捉寡核苷酸和它們的互補物之間所成的雙鏈體,所述雙鏈體足夠穩(wěn)定以使它們在嚴緊清洗中不解離。對于(ii),如果DNA片段是來自生物物種,那么可以使用數據庫(如果可用)來篩選可能與DNA片段形成假雜交體或非期望的雜交體的捕捉序列。選擇捕捉寡核香酸的序列的其他因素和選擇引物、雜交探針、寡核苷酸標記物等中考慮的那些相似,關于這些的指導有很多,如下列在定義部分中引用的參考文獻。在一個方面中,離散間隔區(qū)的面積小于1pm2;并且在另一個方面中,離散間隔區(qū)的面積范圍是從0.04)Lm^到1|im2;在另一個方面中,離散間隔區(qū)的面積范圍是從0.2(11112到1pm2;在另一個方面中,離散間隔區(qū)近似為環(huán)形或方形,因此可以用單一線性尺寸來表明它們的大小,這些區(qū)域的大小范圍從125nm至250nm或者從200趣至500nm。在一個方面中,這些區(qū)域與最近鄰的中心到中心距離的范圍是從0.25pm至20在另一個方面中,這些距離范圍為從1pm至10)im;或從50至1000nm。優(yōu)選地,將用于固定多聯(lián)體的間隔區(qū)布置成直線或六邊形模式。在一個實施方案中,將間隔DNB(spacerDNB)用于制備供受試DNB附接的表面。首先捕捉寡核苷酸來覆蓋表面,所述捕捉寡核苷酸與存在于兩種類型的合成DNB上的結合位點互補一種是捕捉DNB,另一種是間隔DNB。間隔DNB不具有與受試DNB的制備中使用的銜接頭互補的DNA區(qū)段,并且其用量相對捕捉DNB為約5-50倍,優(yōu)選10x過量。用合成DNB(通過鏈連接或通過RCR來制備)的混合物來"飽和,,帶有捕捉寡核苦酸的表面,在所述合成DNB混合物中間隔DNB的用量相對捕捉DNB過量約10倍(或5至50倍)。因為間隔DNB和捕捉DNB之間的比率約為10:1,捕捉DNB大多是間隔DNB的海洋中的孤島。10:1的比率規(guī)定,兩個捕捉DNB平均起來被兩個間隔DNB所分開。如果DNB直徑約為200nm,那么兩個捕捉DNB的中心到中心間距約為600nm。然后將這種表面用于附接受點的其他分子結構。制備捕捉DNB,使其具有的拷貝比在受試DNB中的結合位點的數量少,從而確保每個捕捉DNB點附接單個受試DNB。因為受試DNA僅可結合到捕捉DNB,因此可以制備具有高位點占用率而無集聚(congregation)的受試DNB陣列。由于附接是隨機的,表面上的一些區(qū)域可能沒有附接任何DNB,但是這些帶有游離捕捉寡核苷酸的區(qū)域可能無法結合受試DNB,因為它們被設計成不具有針對捕捉寡核苷酸的結合位點。本發(fā)明的陣列可以也可以不排布成網格圖案(gridpattem)。一方面,使用印刷頭(printinghead)或者壓印底版(imprint-master)來制備亞微米大小的捕獲寡核苷酸點的高密度陣列,所述印刷頭或者印刷底版是由10,000至1億根帶有核心(core)和包層材料的光纖所成的光纖束或者光纖束的束制備的。通過適當地拉伸和熔化纖維,可以產生一種獨特的材料,其具有約50-1000nm的核心,這些核心被相似大小或小2-5倍或者大2-5的包層材料所分開。在一個實施方案中,包層材料的差分蝕刻(溶解)提供了具有數量極多的納米大小的柱子(post)的納米印刷頭。可以將這種印刷頭用于沉積寡核苷酸或者其他生物化合物(蛋白質、寡肽、DNA、適體)或化學化合物,例如帶有不同活性基團的硅烷。在一個實施方案中,可以將玻璃纖維工具用作帶圖案的(patterned)支持物以沉積寡核苷酸或其他生物或化學化合物。在這種情況中,僅有由獨刻產生的柱子可與待沉積的材料接觸。在另一個實施方案中,可以利用熔合纖維束的平切口(flatcut)來引導光通過核心,并使得光誘導的化學作用僅發(fā)生在核心的尖端表面上,因此不再需要蝕刻。在這兩種實施方案中,都可以再將同一支持物用作引導/收集光的裝置,用于對熒光標記的成像,其中所述熒光標記用于給寡核苷酸或其他反應物加標簽。這種裝置提供了大數值孔徑(可能>1)的大視野(fieldofview)??梢岳脠?zhí)行活性材料或者寡核苦酸的沉積的沖壓工具或印刷工具,以交織(interleaved)圖案印刷出2至100種不同的寡核苦酸??梢詫⑦@種類型的寡核苷酸陣列用于附接2至100個不同的DNA群體,例如來自不同源DNA的群體。通過使用DNA特異性錨或標簽,還可以將它們用于從亞光分辨率點(sub-lightresolutionspots)的平行讀取??梢酝ㄟ^DNA特異性標簽(例如針對16種DNA的16種特異性錨)來訪問信息,并且結合5-6種顏色,使用16輪連接循環(huán)或一輪連接循環(huán)和16輪解碼循環(huán)來讀取2個堿基。在本發(fā)明的實施方案中,可以使用照相平板印刷術(photolithography)、電子束光刻法(electronbeamlithography)、納米壓印光刻法(nanoimprint44lithography)和納米印刷法(nanoprinting)在多種的表面上產生這些圖案,例如Pirrungetal,美國專利5,143,854;Fodoretal,美國專利5,774,305;Guo:(2004)JournalofPhysicsD:AppliedPhysics,37:R123-141,這里通過提述將它們并入??梢詫⑦@些技術用于產生在十分之一微米級上的特征圖案,已將這些技術開發(fā)用于半導體工業(yè)中。在優(yōu)選的實施方案中,在DNA陣列基片上進行單次"掩蔽,,(masking)操作,而與之相對的是,即使生產筒單的半導體也需要20至30次掩蔽操作。使用單次掩蔽操作使人們無需對同一基片準確地排列許多掩膜。也不需要材料的摻雜。圓案中的小缺陷對陣列的使用性的影響很小甚至沒有影響,因此使得產率可接近100%。在一個實施方案中,高密度結構隨機DNA陣列芯片的捕捉寡核苷酸集中在相互分離的小捕捉池中,這些捕捉池排列成矩形網格構造(圖4)。優(yōu)選地是,每個捕捉池或者結合位點被惰性表面所圍繞,并且其可以具有足夠但有限數量的捕捉分子(100-400個)。每個捕捉分子可以結合由RCR產生的DNA多聯(lián)體上一個拷貝的匹配銜接頭序列。因為每個多聯(lián)體含有超過1000個拷貝的銜接頭序列,因此它一旦接觸結合位點就能快速地將其飽和并阻止其他多聯(lián)體的結合,導致在每個結合位點或點上排他地附接一個RCR產物。通過提供足夠的RCR產物,在陣列上的幾乎每個點可以含有一個并且〗又一個獨特的DNA耙標。RCR的"分子克隆"使飽和/排他(單占據)原理在隨機陣列的制備中得以應用。如果改為使用原位擴增,那么在制備單分子陣列中排他方法是不可行的。RCR多聯(lián)體提供了對形成小而不混合的DNA點而言最優(yōu)的大小。估計每個約100kb的多聯(lián)體占據約0.1x0.1x0.1的空間,從而使RCR產物恰好可進入100nm捕捉池。RCR產物的一個優(yōu)勢在于單鏈DNA可以立即用于雜交,并且具有很高的柔性,易于形成無規(guī)巻曲的DNA球。由RCR產生的1000個拷貝的DNA靶標提供的特異性大大高于對單分子的分析所可能提供的特異性。在本領域中有已知的用于產生帶圖案的DNA芯片的方法。在一個優(yōu)選的實施方案中,在芯片上的所有點具有相同的捕捉寡核苷酸,點大小為0.2-0.3樣么米,間距(pitch)為0.5孩t米??梢詫⒓{米印刷法用于產生這些圖案,因為它們不需要開發(fā)新的寡核苷酸附接化學法。納米壓印技術依賴于經典的照相平板印刷技術以產生母模(mastermold)。然后使用聚合體,例如PMMA或PDMS來復制母模。一旦固化,這些聚合體形成母模的陰模(negativemold)。然后將該模用于在片基上"印刷,,材料的圖案。納米壓印技術可以用于在玻璃、硅和金表面上產生蛋白質輪廓(feature)。在一個示例性的實施方案中,利用母模產生許多沖壓裝置并且每個沖壓裝置可以產生許多化學物質(例如寡核苦酸溶液、寡核苷酸結合或者玻璃活化化學物質)的印跡。先進的納米印刷技術可以產生小至10nm的輪廓,因此可以常規(guī)地產生適于焚光檢測的大小為>200nm的輪廓,包括在中心至中心距離為1000微米的300-500nm的輪廓??梢杂貌煌幕瘜W修飾改變表面性質,增加母模與多種材料的兼容性,從而容許使用輪廓小、密度低的模來產生高密度的陣列。在一個實施方案中,可以用4pm輪廓間距(pitch)的模通過在4x4網格中對相同基片印刷16次來在基片上產生lpm的輪廓間距。在一個方面中,一種產生DNA陣列的方法使用抗光蝕劑的薄層以在官能化過程期間保護基片表面的多個部分。在官能化后將形成圖案的抗光蝕劑去除,留下活化的區(qū)域的陣列。第二種方法將經過修飾的寡核苷酸的單層附接于基片。所述寡核苷酸是可光裂解的(photo-cleavable)保護基團修飾的。這些保護基團可以通過暴露于光源而去除,從而容許捕捉寡核苷酸的圖案化的連接(patternedligation),用于通過雜交附接DNB。在另一個實施方案中,用100-500nm的抗光蝕劑厚層來旋轉涂敷商業(yè)上可獲得的光學平坦的石英晶片。將抗光蝕劑烘焙(baked)到石英晶片上,并且使用一般稱為步進器(stepper)的機器來將帶有待活化點的圖案的光罩(reticle)的圖像投射到抗光蝕劑的表面上。曝光后,顯影抗光蝕劑,去除投射的圖案中暴露于UV源的區(qū)域。這可通過等離子體蝕刻,一種能夠產生非常細微細節(jié)的干式顯影技術來完成。然后將晶片烘焙以強化殘余的抗光蝕劑。烘焙后,石英晶片可用于官能化。然后對晶片進行3-氨基丙基二曱基乙氧基石圭》克(3-aminopropyldimethylethoxysilane)--同一單體在目前的官能化方法中使用一一的氣相淀積。氨基官能化單體的密度可以通過改變單體濃度和基片的暴露時間來嚴密地控制。只有被等離子體蝕刻暴露的石英區(qū)域才可與單體反應并捕捉單體。然后再次烘焙晶片以將氨基官能化的單體的單層固定到暴露的石英上。烘焙后,可以使用丙酮將殘余的抗光蝕劑46去除。因為抗蝕劑和硅烷之間的附接化學作用的不同,基片上的氨基硅烷官能化的區(qū)域可以在整個丙酮漂洗過程中保持完整。這些區(qū)域可以通過將它們在吡。定和N-N-二甲基曱酰胺(N-N-DiMethlyFormamide)的溶液中與對次苯基二異硫氰酸鹽(p-phenylenediisothiocyanate)反應來進一步地官能化。這樣基片就可以與胺修飾的寡核苷酸兼容。或者,可以用5,-羧基-改性劑-clO(GlenResearch:http:〃www.glenres.com/ProductFiles/10-1935.html)來制備寡核普酸。這種技術使得寡核苷酸直接地附接到胺基修飾的支持物,由此避免了額外的官能化步驟。在另一個實施方案中,使用了納米壓印光刻(NIL)方法,其首先是產生母印壓工具。這種工具使用高分辨率電子束光刻法來產生,并且,取決于利用的NIL聚合體,可以用于產生大量的壓印。為了生成DNA陣列,用抗蝕劑層來旋轉涂敷石英基片,該層通常稱為轉移層。然后將第二種類型的抗蝕劑施加到轉移層上,該層通常稱為印壓層。然后母印壓工具在印壓層上產生壓印(impression)。然后通過等離子體蝕刻來降低印壓層的總厚度,直至印壓(imprint)的低區(qū)(lowarea)達到轉移層。由于轉移層比印壓層更難除去,因此基本上不動它。然后通過加熱硬化印壓層和轉移層。然后將該基片放回等離子蝕刻機,直至印壓的低區(qū)達到石英。然后通過氣相淀積來衍生化基片,如在方法la中所描述。在另一個實施方案中,使用了納米印刷方法。這種方法使用照相平板印刷術、印壓或電子束光刻法來產生母模。用于制備納米印壓工具的技術有許多種變化。在一個示例性的方法中,產生作為在印刷頭上需要的輪廓的負像的母模。印刷頭通常是由柔軟而易曲的聚合體,例如聚二曱基硅氧烷(PDMS)構成。將這種材料或者具有不同性質的材料的層旋轉涂敷到石英基片上。然后在受控的溫度和壓力條件下,利用該模使輪廓凸出在抗蝕劑物質的頂層上。然后對印刷頭進行基于等離子體的蝕刻處理以改善印刷頭的縱橫比,并且消除因凸出材料隨時間松弛而引起的印刷頭的變形。用印刷頭將胺修飾的寡核苷酸的圖案沉積到均勻衍生化的表面上。這些寡核苷酸發(fā)揮DNB的捕捉探針作用。納米印刷的一個優(yōu)勢在于能夠將不同捕捉探針的交織圖案印刷到隨機陣列支持物上。這可以通過用多個印刷頭的連續(xù)印刷來實現,其中每個所述印刷頭具有不同的圖案,并且所有的圖案拼在一起形成最終結構的支持物圖案。這些方法為隨機陣列內的DNA元件的位置編碼提供了可能。例如,可以將含有特異性錨序列的對照DNB以規(guī)則的間隔結合到整個隨機陣列上。還可以用電子束光刻法產生基片。這種方法非常類似于照相平板印刷術,只是使用電子束槍來將圖案直接地繪制在特殊的抗蝕劑材料上。這種方法的益處在于與UV照相平板印刷方法相比,輪廓大小可以更小并且更精確。其潛在的缺點是,產生圖案所需的時間量是大約每片基片數個小時,而使用光刻法僅需幾秒,NIL所需不到一分鐘。在一個實施方案中,使用光可裂解的改性劑,也稱為保護基團,來產生陣列。在這種方法中,可以通過使用商業(yè)上可獲得的用于寡核苦酸的光可裂解的改性劑,例如獲自GlenResearch的PC接頭亞磷酰胺來產生捕捉池。將帶有5'光可裂解的保護基團(在這種情況下是DMTO)的寡核苷酸的3,末端附接到完全官能化的石英片上。暴露的區(qū)域失去它們的保護基團,留下5'磷酸。使用寡核苷酸連接,如果如下文所描述提供;^莫板寡核芬酸,那么將與RCR產物的銜接頭區(qū)域互補的捕捉寡核苷酸連接到暴露的磷酸基團上(在表面上的寡核苷酸)I------cttactgtgc隱POH畫ggactaccgtttagg..cccgtgg(4甫捉寡才亥苦酸)gaatgacacg...........cctgatggca(單個模板寡核苦酸^)在捕捉寡核苷酸連接于脫保護的表面寡核苷酸后,可以將整個基片暴露于UV源以去除殘余的保護基團。游離的磷酸基團可以通過連接發(fā)夾樣的寡核香酸來加以封閉,以防止在測序方法中使用的標記的探針連接到支持物寡核苷酸上。在制作方法中使用的抗光蝕劑物質一般是相當疏水的,并且在那種材料中產生的圖案由非常小的孔組成。可能的是,由于抗光蝕劑的疏水作用,石英的暴露表面可能不會與氨基官能化單體的水溶液接觸。為了避免這個問題,本發(fā)明的一個實施方案是使用超聲以迫使液體通過掩膜中的小開口。還可能的是將少量的表面活性劑、丙酮或其他添加劑力丈入溶液以破壞水的表面張力。以這種方式使用溶劑可能使掩膜材料些微地膨脹,但是不會將它溶解。如果抗蝕劑材料與氨基官能化的表面在抗蝕劑去除處理期間是不相兼容的,例如它可能與胺基反應并破壞胺基,那么可能的是使用聚合體薄片上的丙烯酸基強粘合劑來進行抗蝕劑材料的機械剝離。在制備每批DNA陣列基片后,重要的是確定該批次是否達到規(guī)格。規(guī)格可以在掩膜設計和生物化學優(yōu)化階段期間來確定。為了每批基片的質量控制,可以將FITC或者帶有任何熒光標記的胺修飾的寡核苷酸附接到反應性表面,并觀察基片表面上熒光的強度和圖案。活性區(qū)域的總強度可能與捕捉池中的反應性位點的密度成比例。目前的顯微鏡系統(tǒng)具有100x,1.4NA鏡頭,該鏡頭具有約180nm的理論分辨能力。目前的圖像采集系統(tǒng)的靈敏度是每個像素約3個染料分子,而且每個像素成像基片的60x60nm區(qū)域。期望其能夠在每60nm2區(qū)域附接10-50個捕捉寡核苷酸。這容許高精確度地直接測量附接效率和基片的網格性質。每個捕捉池可以由大概10個像素來成像。使用QC數據庫,有可能確定哪個基片制備步驟需要改進。在該過程中的這個點上,捕捉池之間的強度差異指向官能化處理期間非均一的反應條件或抗光蝕劑層的非統(tǒng)一的顯影。如果池與池之間存在有橋接,那么表明抗光蝕劑材料從石英表面分層,或者在暴露過程發(fā)生了某些差錯。信號強度的問題表明官能化步驟的控制不佳。隨著該方法的成熟,一定會發(fā)展出其他度量標準。復制陣列在本發(fā)明的一個方面中,將在母陣列(masterarray)上合成的互補的多核苷酸轉移到復制陣列(replicaarray)上。為了完成這種轉移,可以將兩個表面在加熱條件下接觸,以變性dsDNA并釋放新產生的DNA鏈。在另一個實施方案中,轉移通過施加電場來完成,以區(qū)別性地4又轉移帶電荷比引物高約5-50倍的復制DNA。在進一步的實施方案中,在轉移的鏈雜交后,聯(lián)合施加反向電場并降低溫度,以將引物移回母陣列。在一個通過施加電場來完成轉移的實施方案中,優(yōu)選使用多孔玻璃以便于施加電場。在一個實施方案中,將捕捉寡核苷酸設計成對應于擴增子的與引發(fā)位點相對方向的末端,以確保排他地保留全長拷貝。具有九種或更多種不同捕捉寡核苷酸的圖案使從母陣列轉移DNA過程中發(fā)生"串話"("crosstalk")的機會最小化。在一個實施方案中,轉移不用進一步擴增復制陣列上的DNA;還可以利用向同一復制物進行多次轉移以產生較強烈的信號。在另一個實施方案中,多個復制物的產生可以通過從母陣列進行部分轉移,49并在每個復制陣列中進行DNA擴增。在一個示例性的實施方案中,復制陣列的基片含有引物,用來利用附接在第一陣列上的模板DNA啟動DNA的合成。在DNA聚合酶、dNTP和合適的緩沖液的存在下,于最適溫度,將母陣列表面與"將形成的"復制陣列的支持物接觸,然后將引物分子與母陣列上的模板DNA雜交,并且被聚合酶所延伸??梢允褂米杌瘎?,例如dsDNA,在一個拷貝的末端處終止DNA。通過升高溫度或者通過使用其他的DNA變性劑,DNA鏈可以分開并且可以將復制陣列與第一陣列分開。為了避免原始DNA從母陣列中被去除,可以將原始DNA直接(或者通過捕捉寡核苷酸而間接地)共價附接到母陣列的支持物上??梢允褂帽绢I域中已知的不同方法來將附接到復制陣列的任何不完整的DNA在完成復制反應后特異性地去除,例如通過對具有特定末端的完整分子的保護性連接一一然后可以去除不完整的分子而不損失完整的分子。在一個實施方案中,引物覆蓋了用于陣列制備的全部基片表面。每平方微米10,000個引物的密度提供的兩個支持物間一微米中的局部濃度,與PCR中使用的濃度相似或者比PCR中使用的濃度高約10倍。引物可以具有很長的附接接頭以能夠觸及第一陣列的支持物上的DNA模板。在這種方法中,不存在DNA擴散的可能性并且復制物DNA點可能僅比最初的點略大??梢允褂梅浅F教沟谋砻嬉源_保兩個平面的緊密接近。在一個實施方案中,DNB提供了足夠的約300-500nm的DNA環(huán),在與100nm引物接頭混合時,有助于容忍表面的缺陷??梢杂脧椭脐嚵挟a生進一步的復制物。第二代復制物將具有與最初的陣列相同的DNA鏈。可以將復制陣列用于同一DNA片段集合的平行分析,例如與大量的探針或探針庫的雜交。在另一個實施方案中,可以復制含有基因組片段的自我組裝的DNA母芯片(masterchip)以產生許多不需要解碼的4t測芯片,因為它們與同一已解碼的母芯片匹配。因此,陣列的復制使得我們以最小的解碼花費制備自我組裝的DNA陣列,因為可以用一個母陣列和它的復制物產生數千個最終的陣列。捕捉寡核苷酸的結構在一個實施方案中,表面(圖1C和ID-1622)上所附接的捕捉寡核苷酸可能與多聯(lián)體中的銜接頭寡核苷酸的區(qū)段(例如錨結合位點或其他元件)形成復合體,例如雙鏈體。在其他的實施方案中,捕捉寡核苷酸可以包含寡核苷酸夾(oligonucleotideclamp)等結構,它與銜接頭寡核苷酸形成三鏈體,例如Gryaznovetal,美國專利5,473,060。在另一個實施方案中,表面(1622)可以具有反應官能團,所述反應官能團與在多聯(lián)體上的互補官能團反應以形成共價鍵,例如使用與將cDNA附接到微陣列的技術相同的技術,侈寸^口Smirnovetal(2004),Genes,Chromosomes&Cancer,40:72-77;Beaucage(2001),CurrentMedicinalChemistry,8:1213-1244,這里將通過4是述將它們并入。一方面,在不需要酶促處理時,捕捉寡核苷酸可以包含非天然的核苷單位和/或鍵,其賦予有利的性質,例如增加的雙鏈體穩(wěn)定性;這些化合物包括但不限于肽核酸(PNA)、鎖定核酸(LNA)、寡核香酸N3'—P5'氨基磷酸酯、寡-2,-0-烷基核糖核苷酸等。隨機陣列的結構一方面,可以通過多種技術中的任何技術,包括共價附接和非共價附接,來將多聯(lián)體(1620-圖1C和1D)固定到表面(1622)。在一個實施方案中,表面(1622)上所附接的捕捉寡核苷酸可以與多聯(lián)體中的銜接頭寡核苷酸的區(qū)段(例如錨鉤結合位點或其他元件)形成復合體,例如雙鏈體。在其他的實施方案中,捕捉寡核苷酸可以包含寡核苷酸夾等結構,其與銜接頭寡核苷酸形成三鏈體,例如Gryaznovetal,美國專利5,473,060。在另一個實施方案中,表面(1622)可以具有反應官能團,所述反應官能團與多聯(lián)體上的互補官能團反應以形成共價鍵,例如通過與用于將cDNA附接到孩吏陣列的^支術相同的才支術,例如Smirnovetal(2004),Genes,Chromosomes&Cancer,40:72-77;Beaucage(2001),CurrentMedicinalChemistry,8:1213-1244,這里將通過提述將它們并入。還可以高效地將長DNA分子,例如幾百個核苷酸或更大的長DNA分子附接到疏水表面,例如具有低濃度的多種反應官能團(諸如-OH基團)的干凈的玻璃表面。在一個實施方案中,全基因組測序使用包含被分析多核苷酸片段的50至200x基因組覆蓋度的陣列。例如,60億個平均片段長度為100個堿基的51DNB將含有代表100x基因組覆蓋度的6000億個石咸基。在一個實施方案中,陣列包含60億個由300-600個堿基的長DNA片段構成的DNB??梢詫NB以結合到間距為一微米的正方形組合件(squarepack)布局的陣列基片上,并且可以將陣列基片分成16個區(qū)段。在進一步的實施方案中,每個區(qū)段含有24個單位亞陣列,每個單位亞陣列在2x2mm2的面積上含有1600萬個結合的DNB。使用8個區(qū)段和DNB的250個堿基長度的測序測定法可能需要350個探針庫用于測序??梢栽谄伍L度、DNB數、庫設置和重疊之間做各種不同的4又衡(tradeoff)以獲得最優(yōu)化的序列質量對成〗象時間(s叫uencequalityversusimagingtime)。例如,分割成16區(qū)段的相同的隨機陣列可能需要225個探針庫用于測序。這將需要較少的探針庫循環(huán),從而減少成像時間。另外,DNB可以由長度為500個堿基的片段構成,需要4吏用在16個反應室中試驗的16個區(qū)段針對350個探針庫測定30億個DNB。這種模式將產生帶有256x基因組覆蓋度的隨機陣列,從而將單位陣列大小降低至2mm2。在一個實施方案中,使用6種熒光團中的兩種組合標記每種探針庫,產生最多21種可能的焚光標記組合。這種標記方案可以同時對許多探針進行測定,從而將雜交時間降低一個數量級??梢詫⒍喾N支持物用于本發(fā)明的陣列。一方面,支持物是具有表面的剛性固體,該表面優(yōu)選是基本上平坦的,以使待詢問的單分子們處于同一平面中。后一特征容許通過檢測光學(detectionoptics)有效地收集信號。在另一個方面中,本發(fā)明的固體支持物是無孔的,特別在通過需要小體積的雜交反應來分析單分子的隨機陣列時。合適的固體支持物材料包括例如玻璃、聚丙烯酰胺涂層的玻璃、陶瓷、二氧化硅、硅、石英、各種塑料等材料。'在一個方面中,平面表面的面積范圍可以是從0.5至4cm2。在一個方面中,固體支持物是玻璃或石英,例如具有均一地硅烷化的表面的顯微鏡載玻片。這可以使用常規(guī)方案來完成,例如在酸處理后,浸入80。C的3-縮水甘油氧基丙基三曱氧基硅烷(3-glycidoxypropyltrimethoxysilan)、N,N-二異丙基乙胺、無水二曱苯(8:1:24v/v)的溶液中,形成環(huán)氧硅烷化(epoxysilanized)表面,例^口Beattieeta(1995),MolecularBiotechnology,4:213。易于對這種表面加以處理以便于捕捉寡核香酸的末端附接(end-attachment),例如通過在施加到表面之前為捕捉寡核芬酸提供3,或5,三乙二醇磷酰基(triethyleneglycolphosphoryl)間隔基團??梢允褂迷S多其他的方案來添加反應官能團到玻璃或者其他的表面,如在Beaucage中公開的內容(上文引用)所證實的。帶有(一個或多個)散在銜接頭的DNA靶標的陣列不限于單分子或多聯(lián)體,并且可以包括原位擴增的DNA點的陣列或顆粒的陣列,這些點或顆粒各自包含多個拷貝的靶標核酸(例如在乳液PCR中使用的珠子)。此外,本文所描述的利用可以差別地去除(differentiallyremoved)或以其他方式區(qū)別的多個錨或引物的方法,不限于散在銜接頭,即它們可以用于帶有兩個"標準"即末端連接(end-ligatd)的銜接頭,共具有4個錨位點的樣品。探針結構術語"探針"以其廣義使用,其具有直接雜交中使用的寡核普酸的意義,或者如"兩個探針的連接"中,或者如"帶有錨的探針"中,或者如"帶有錨探針的探針,,中的意義。探針可以僅具有少許具體的堿基和許多簡并堿基例如BNNNNNNN或BBNNNNNN或NNBBNNNN。錨探針可以設計為如U5-10B1-4,以讀取與錨序列U5-10的互補銜接頭序列相鄰的1-4個堿基??梢砸远喾N方式來標記本發(fā)明的寡核香酸探針,包含直接或間接的附接放射性模塊、熒光模塊、比色模塊、化學發(fā)光模塊等。有關標記DNA和構建DNA銜接頭的方法學的許多全面綜述為構建本發(fā)明的寡核苷酸探針提供了可應用的指導。這些綜述包括Kricka,Ann.Clin.Biochem.,39:114-129(2002);Schaferlingetal,Anal.Bioanal.Chem.,(April12,2006);Matthewsetal,Anal.Biochem.,Vol169,pgs.1-25(1988);Haugland,HandbookofFluorescentProbesandResearchChemicals,TenthEdition(Invitrogen/MolecularProbes,Inc.,Eugene,2006);KellerandManak,DNAProbes,2ndEdition(StocktonPress,NewYork,1993》和Eckstein,editor,OligonucleotidesandAnalogues:APracticalApproach(IRLPress,Oxford,1991);Wetmur,CriticalReviewsinBiochemistryandMolecularBiology,26:227-259(1991》Hermanson,BioconjugateTechniques(AcademicPress,NewYork,1996)等。下歹'J的參考文獻的樣本公開了可應用于本發(fā)明的許多更詳細的方法學Fungetal,美國專利4,757,141;Hobbs,Jr.,etal美國專利5,151,507;Cruickshank,美國專利5,091,519;(用于附接報告基團的官能化寡核香酸的合成);Jablonskietal,NucleicAcidsResearch,14:6115-6128(1986)(酶-寡核苷酸綴合物);Juetal,NatureMedicine,2:246-249(1996);Bawendietal,美國專利6,326,144(衍生化的熒光納米晶體);Bruchezetal,美國專利6,274,323(衍生化的熒光納米晶體)等。在一個方面中,將一種或多種熒光染料用作針對寡核苷酸探針的標記,例如由下列文獻所公開,Menchenetal,美國專利5,188,934(4,7-二氯焚光素染料);Begotetal,美國專利5,366,860(光鐠上可分辨的羅丹明染料);Leeetal,美國專利5,847,162(4,7-丄氯羅丹明染料);Khannaetal,美國專利4,318,846(醚取代的熒光素染料);Leeetal,美國專利5,800,996(能量轉移染料);Leeetal,美國專利5,066,580(咕砘染料(xanthenedyes)):Mathiesetal,美國專利5,688,648(能量轉移染料)等。還可以用量子點進行標記,如在下列專利和專利申請中所公開,通過提述將它們并入6,322,901;6,576,291;6,423,551;6,251,303;6,319,426;6,426,513;6,444,143;5,990,479;6,207,392;2002/0045045;2003/0017264等。如這里所使用的,術語"產生熒光信號的模塊"指通過一種或多種分子的熒光吸收和/或發(fā)射性質來傳遞信息的信號傳導手段(signalingmeans)。這些熒光性質包括熒光強度、焚光壽命、發(fā)射光譜特征、能量轉移等。易于摻入標記寡核苦酸的(readilyincorporatedintothelablingoligonucleotides)商業(yè)上可獲得的焚光核苷酸類似物包括,例如Cy3-dCTP、Cy3-dUTP、Cy5-dCTP、Cy5-dUTP(AmershamBiosciences,Piscataway,NewJersey,USA)、熒光素-12-dUTP、四曱基羅丹明-6-dUTP、TexasRed-5-dUTP、CascadeBlue-7-dUTP、BODIPYFL畫14-dUTP、BODIPYR-14-dUTP、TMBODIPYTR-14-dUTP、RhodamineGreen-5-dUTP、OregonGreen488-5-dUTP、TexasRed-12-dUTP、BODIPY630/650-14-dUTP、BODIPY650/665-14-dUTP、AlexaFluor488畫5-dUTP、AlexaFluor532-5-dUTP、AlexaFluor568-5-dUTP、AlexaFluor594畫5-dUTP、AlexaFluor546-14-dUTP、焚光素-12-UTP、四曱基羅丹明-6-UTP、TexasRed-5-UTP、CascadeBlue-7-UTP、BODIPYFL-14國UTP、BODIPYTMR-14-UTP、BODIPYTR陽14-UTP、RhodamineGreen-5-UTP、AlexaFluor488-5-UTP、AlexaFluor546-14-UTP(MolecularProbes,Inc.Eugene,OR,USA)。其他可用于合成后附接的焚光團包括但不限于AlexaFluor350、AlexaFluor532、AlexaFluor546、AlexaFluor568、AlexaFluor594、AlexaFluor647、BODIPY493/503、BODIPYFL、BODIPYR6G、BODIPY530/550、BODIPYTMR、BODIPY558/568、BODIPY558/568、BODIPY564/570、BODIPY576/589、BODIPY581/591、BODIPY630/650、BODIPY650/665、CascadeBlue、CascadeYellow、丹石黃酰(Dansyl)、麗絲胺羅丹明B(lissaminerhodamineB)、MarinaBlue、OregonGreen488、OregonGreen514、PacificBlue、羅丹明6G(rhodamine6G)、羅丹明綠(rhodaminegreen)、羅丹明紅(rhodaminered)、四曱基羅丹明、TexasRed(獲自MolecularProbes,Inc.,Eugene,OR,USA)和Cy2、Cy3.5、Cy5,5和Cy7(AmershamBiosciences,Piscataway,NJUSA等)。還可以使用FRET串聯(lián)熒光團,例如PerCP畫Cy5.5、PE-Cy5、PE畫Cy5.5、PE畫Cy7、PE誦TexasRed和APC畫Cy7;還有PE-Alexa染料(610,647,680)和APC-Alexa染料。還可以將生物素或者它的衍生物用作檢測寡核苷酸上的標記,隨后被可4企測標記的親和素/鏈親和素衍生物(例如藻紅蛋白綴合的鏈親和素)或者可檢測標記的抗生物素抗體所結合。可以將地高辛配體4參入作為標記,隨后由可4全測標記的抗地高辛配體抗體(例如焚光素化的抗地高辛配體)對其結合。氨基烯丙基(aminoallyl)-dUTP殘基可以摻入檢測寡核苦酸,隨后偶聯(lián)到N-羥基琥珀酰亞胺(NHS)衍生化的熒光染料,例如上文列出的那些。一般而言,只要可檢測標記的綴合物配偶體可以被結合以容許檢測,可以將綴合物對(conjugatepair)的任一成員摻入檢測寡核苷酸。如本文所使用的,術語"抗體"指任何類別的抗體分子,或它們的任何片段,例如Fab。用于檢測寡核香酸的其他合適的標記可以包括焚光素(FAM)、地高辛配基、二硝基苯酚(DNP)、丹磺酰、生物素、溴脫氧尿香(BrdU)、六組氨酸(6xHis)、磷光體畫氨基酸(phosphor-aminoacids)(例如P-tyr、P畫ser、P畫thr),或者其它4壬何合適的標記物。在一個實施方案中,將下列的半抗原/抗體對用于4企測,其中每種所述的抗體用可^r測的標記來衍生化生物素/a-生物素、地高辛配基/a-地高辛配基、二硝基苯酚(DNP)/a-DNP、5-羧基熒光素(FAM)/a-FAM。如在下文的方案中所描述的,還可以將探針間接地標記,特別是用半抗原標記(然后該半抗原被捕4足劑所結合),例如下列文獻所/>開的Holtkeetal,美國專利5,344,757;5,702,888;和5,354,657;Huberetal,美國專利5,198,537;Miyoshi,美國專利4,849,336;MisiuraandGait,PCTz^布WO91/17160等。許多不同的半抗原-捕捉劑對可用于與本發(fā)明一起使用。示例性地,半抗原包括生物素、脫生物素(des-biotin)和其他衍生物、二硝基苯酚、丹磺酰、熒光素、CY5和其他染料、地高辛配基等。對于生物素,捕^l足劑可以是親和素、鏈親和素或抗體??梢詫⒖贵w用作針對其他半抗原的捕捉劑(許多染料-抗體對是商業(yè)上可獲得的,例如分子探針(MolecularProbes))。在一個方面中,提供了優(yōu)選地具有從約1至約3個堿基的探針庫,容許針對在簡并位置上的不同序列的一致而最優(yōu)化的信號。在一個實施方案中,將具有經調整的濃度的3聚體構件的混合物用在探針合成中??梢灾苽渚哂泻怂針撕炍舶偷奶结樁侵苯拥貥擞浱结?。優(yōu)選地是,尾巴不與受試DNA相互作用。這些尾巴可以從天然堿基或從僅在它們自身之間配對的修飾堿基(例如isoC和isoG)來制備。如果使用isoC和isoG核苦酸,那么可以分別地合成具有5,氨基接頭的序列,所述5'氨基接頭容許綴合到5,羧基修飾的接頭,將所述5'羧基修飾的接頭合成到每個帶標簽的探針上。這使得分別合成的標簽序列能夠在仍然附接在柱子上的同時與已知探針結合。在一個實施方案中,將21種帶標簽的序列與1024種已知的探針聯(lián)用。尾巴和探針之間可以相隔1-3個或更多個簡并堿基、無堿基位點或其他接頭。最小化尾巴和靶標DNA的相互作用的一個方法是使用在靶標DNA中非常少見的序列。例如,預期CGCGATATCGCGATAT或CGATCGATCGAT在哺乳動物基因組中是少見的。一個選擇是使用帶有與未標記的標簽預雜交的尾巴的探針,所述未標記的標簽在連接之后、與帶標記的標簽雜交之前,將被變性并且可能被洗去??梢岳媚蜞奏ぎa生可降解的尾巴/標簽,并且在運行新循環(huán)前去除它們,而不是利用溫度去除。一方面,使用探針的高重數多重連接(high-plexmultiplexligation)測定法,不用熒光染料標記所述探針,因此降低了背景和測定花費。例如,對于8種顏色,可以制備4x8=32種不同的編碼尾巴,并且可將32種〗笨針作為一個庫用在雜交/連接中。在解碼過程中,使用四輪循環(huán),每輪循環(huán)用8種標簽。因此,每種顏色^C用于4種標簽,這4種標簽^f皮用于4輪解碼循環(huán)中。在每輪循環(huán)后,可以去除標簽或者將染料光漂白。該方法要求最后一個待解碼探針集合必須在4輪解碼循環(huán)中保持雜交狀態(tài)。在一個實施方案中,引入了額外的性質,例如Tm/穩(wěn)定性、摻入尿嘧啶堿基和UDG酶所致的降解性、和化學或光化學可切割的鍵等,以提供使用同一種顏色來區(qū)分不同探針的能力。兩種性質的組合,例如溫度穩(wěn)定性直接地或在切除或去除穩(wěn)定劑后以提供針對相同顏色的8種不同標簽;可以用一種以上的切割類型用于產生3組或更多組;為了實現這點,可能需要相同顏色的4-8或6-12次曝光(exposure),要求低光漂白條件,例如可由增強型CCD(ICCD)檢測的低強度的光照。例如,如果一種性質是解鏈溫度(Tm),并有4種具有不同Tm的帶標簽寡核苦酸或者錨或者引物,那么可以制備另一組4種寡核苷酸,其中最先的4種探針被連接于穩(wěn)定劑或者可與穩(wěn)定劑相互作用,所述穩(wěn)定劑使這4種寡核苦酸的Tm改變到高于沒有穩(wěn)定劑的第一組中最穩(wěn)定的寡核苷酸。在通過連續(xù)熔化(meltingoff)來融解來自第一組的4種寡核苷酸后,可以將溫度降低到最初的低水平,然后可以將穩(wěn)定劑切去或去除,并且使用與第一組相同的溫度點來差異地熔解4種帶標簽的寡核苷酸或者錨或引物。在一個方面中,通過連接于另一個未標記的寡核苷酸來穩(wěn)定化探針-探針雜交體。使用散在銜接頭來測序的方法在一個方面中,本發(fā)明包括確定靶標多核香酸的核香酸序列的方法,該方法包含下列步驟(a)在靶標多核苷酸內生成多個散在銜接頭,每個散在銜接頭與靶標多核苷酸具有至少一個邊界;并且(b)確定與至少兩個散在銜接頭的至少一個邊界鄰近的至少一個核苦酸的身份,由此確定靶標多核苷酸的核苷酸序列。如下文更充分地概述的,靶標序列包含欲獲得序列信息的位置,本文通稱為"檢測位置"。一般而言,欲獲得多個檢測位置的序列信息(例如在特定檢測位置上的核苷酸的鑒定結果)。這里使用的"多個"指至少兩個。但是,在一些情況中,例如在單核苷酸多態(tài)性(SNP)檢測中,可能僅期望獲得任何特定靶標序列內的單個檢測位置的信息。如本文所使用的,與檢測位置的堿基在雜交體中形成堿基對的堿基稱為"詢問位置,,(interrogationposition)。57本發(fā)明的一個重要特征是在靶標多核苷酸擴增子中使用散在銜接頭,以獲取與靶標多核苷酸相關的序列信息。有多種測序方法學可以與散在銜接頭一起使用,包括但不限于基于雜交的方法,例如在下列文獻中公開的方法Drmanac,美國專利6,864,052;6,309,824;和6,401,267;和Drmanacetal:美國專利/>布2005/0191656;和通過合成方法來測序,例如Nyrenetal,美國專利6,210,891;Ronaghi,美國專利6,828,100;Ronaghietal(1998),Science:281:363-365;Balasubramanian,美國專利6,833,246;Quake,美國專利6,911,345;Lietal,Proc.Natl.Acad.Sci"100:414-419(2003);Smithetal,PCT公布WO2006/074351;和基于連接的方法,例如Shendureetal(2005),Science,309:1728-1739,Macevicz,美國專利6,306,597,通過提述將這些參考文獻并入。在一個方面中,依照本發(fā)明的確定靶標多核苷酸的核苦酸序列的方法包含下列步驟(a)從靶標多核苷酸的產生多個靶標多聯(lián)體,每個靶標多聯(lián)體包含所述靶標多核普酸的片段的多個拷貝,并且多個靶標多聯(lián)體包括基本覆蓋所述靶標多核苷酸的若干個片段;(b)形成靶標多聯(lián)體的隨機陣列,所述靶標多聯(lián)體以這樣的密度固定在表面上,使得至少大多數靶標多聯(lián)體是光學上可分辨的;(c)鑒定在每個靶標多聯(lián)體中每個片段的至少一部分的序列;并且(d)從多聯(lián)體的片段的部分的序列的身份(identity)重新構建靶標多寡核苷酸的核苷酸序列。通常,"基本覆蓋"指被分析的DNA的量含有至少兩個拷貝的當量的靶標多核苷酸,或者在另一個方面中,至少十個拷貝;或者在另一方面中,至少二十個拷貝;或者在另一個方面中,至少100個拷貝當量的靶標多核苷酸。靶標多核苷酸可以包括DNA片段,包括基因組DNA片段和cDNA片段和RNA片段。關于重新構建靶標多核苷酸序列的步驟的指導可見于下列參考文獻中,將它們通過提述并入Landeretal,Genomics,2:231-239(1988);Vingronetal,J.Mol.Biol"235:l-12(1994)等。在本發(fā)明的一個方面中,可以使用基于連接的測序方法,其例示可見圖3A-3E。才艮據這樣一些因素,例如期望的測序體積、使用的標記的類型、采用的靶標多核芬酸擴增子的類型和如何將它們附接到表面、測序操作期望的速度、信號檢測方法等,本領域的普通技術人員可以選擇這種測序方法的許多不同的變化形式。在圖3A-3E顯示的變化形式僅僅是示例性的。在本發(fā)明的一個方面中,標記的探針僅在與配對採:針(pairingprobe)連接后才能夠形成穩(wěn)定的雜交體。相比于使用雜交方法的標準測序,探針連接的使用可改善數據的特異性。探針連接還可以應用于位置特異性堿基鑒定(例如DNA末端)或者在全序列掃描方法學(例如所有內部重疊序列)中。為了鑒定在未知序列中的特定位點上(例如在序列的末端上)的序列,可以設計標記的探針以容許其連接錨探針。將較長的錨探針雜交到與待確定的未知序列(例如檢測位置)的末端鄰近的已知銜接頭序列上。標記的探針可以具有不同數量的特定堿基和簡并堿基。例如,可以用4罙針BBNNNNNN來確定2個末端堿基(A=錨,D=銜接頭,G=基因組,B=定義探針的堿基(probedefiningbases),N=簡并械基。*=標記)AAAAAAAAA.BBNNNNNN*DDDDDDDDDDDDDDGGGGGGGGGGGGGGGG對于這種探針結構,有16種序列讀取探針(sequence-readingprobes),每種探針由在5,末端處的2個特定堿基組成。如果試驗所有16種探針,那么在去除不被連接到錨探針的探針后,僅一種將高效地連接到錨鉤探針并給出強烈的信號。這種正探針(positiveprobe)檢測在基因組DNA片段的末端處的兩個堿基,而且具有高度的特異性,所述高度特異性是由T4DNA連接酶對靠近連接位點的互補堿基的強烈偏好性所提供的。在本發(fā)明的一個方面中,提供了含有多個散在銜接頭的單鏈靶標多核普酸。在圖3A中,顯示了三個散在銜接頭(3002,3004和3006),它們可以是包含靶標多核苷酸多個拷貝的擴增子(諸如多聯(lián)體)的一部分(3000)。每個散在銜接頭在每個末端上具有這樣的區(qū)域(例如3008和3012),所述區(qū)域具有被設計為相應的錨探針的結合位點的獨特序列(在這個實例中,在三種散在銜接頭中總共有6個這種獨特的序列),所述錨探針一種寡核苦酸(它可以帶有標記或可以不帶標記),測序探針連接到其上。這些末端區(qū)域的長度范圍可從6至14個寡核苷酸,并且更通常地是從8至12個寡核苷酸。散在銜接頭任選地具有中心區(qū)域(3010),其可以含有額外的元件,例如不同酶的識別位點(當處于雙鏈形式時)或者用于將靶標多核苷酸擴增子固定化在表面上的捕捉寡核苷酸結合位點等。在一個方面中,使用散在銜接頭(3002-3006)的測序操作包含將錨探針雜交到每個不同的獨特的錨探針結合位點的六個連續(xù)程序。每個這種程序包含下列循環(huán)將錨探針雜交到它的散在銜接頭的末端位點,在僅允許完全匹配的探針雜交的條件下與測序探針混合,將完全匹配的測序探針與并列的(juxtaposed)錨探針相連接,檢測連接的測序探針,通過測序探針產生的信號來鑒定與錨探針鄰近的一個或多個堿基,和從靶標多核苦酸擴增子除去測序探針以及錨探針。進一步的實施方案包括產生長度為300-3000個堿基的DNA環(huán)并在起始游W妄頭的每一邊(oneachsideoftheinitialadaptor)插入2-3個攤f^妄頭。以這種方式,產生了由300-3000個堿基分開的20-60個堿基的兩個長序列的匹配對(matingpair)。除了提供兩倍水平的序列數據外,這種方法提供了有價值的定位信息。在從頭(denovo)序列組裝中,配對可以跨越(bridgeover)重復序列,并且還可以將其用于在基因組再測序中準確地定位比20-50個堿基長的重復序列中的突變??梢杂锰结橂s交或者探針-探針連接數據來補充一個約20-50個堿基的序列或者兩個約20-50個堿基的序列的配對??梢詫Π课寰垠w、六聚體、七聚體或八聚體的1/8至1/16的部分集合評分以提供用于200-4000個堿基長度的片段的定位信息。另外,可以在4-16個反應室中對給定長度的所有探針(例如所有六聚體)評分,所述4-16個反應室含有針對給定的基因組的總DNA陣列的4-16個部分。在每個室中,可以對所有探針的1/4至1/16評分。對單獨的DNA片段定位后,可以將所有的探針匯編(compile)以提供每個堿基在重疊片段的重疊探針中的100至1000個讀取。在一個實施方案中,將六個連續(xù)的程序重復1至4次,優(yōu)選2至3次,使得與銜接頭相距不同距離的核苷酸可以得到鑒定。在另一個實施方案中,將六個連續(xù)程序進行一次,但將錨探針雜交、測序探針雜交、連接等的每輪循環(huán)重復1至4次,或2至3次。在圖3A中闡明了前者,因此在錨探針(3015)雜交到其在散在銜接頭(3002)中的結合位點后,在這樣的條件下將標記的測序探針(3016)添加到反應混合物中在所述條件下,如果形成完全匹配的雙鏈體,那么在容許與錨探針(3015)連接。測序探針可以具有多種不同的結構。代表性地,它們含有簡并序列并且被直接地或間接地標記。在圖3A中的實例中,用例如產生相互可區(qū)別的信號的熒光染料F1、F2、F3和F4和也產生相互可區(qū)別的信號的熒光染料Gl、G2、G3和G4來直接地標記測序探針。在這個實例中,因為每個組(即F和G)中的染料是在不同的循環(huán)中檢測的,因此它們可以是相同的染料。在采用八聚體測序探針時,用于鑒定與散在銜接頭緊鄰的堿基的F標記的探針組可以具有下列結構3,-F1-NNNNNNNAp,3,-F2-NNNNNNNCp,3,-F3-NNNNNNNGp,3,-F4-NNNNNNNT。這里4艮i殳,序歹寸(3000)乂人左到右是處于5,—3'方向;因此,只要使用常規(guī)的連接酶介導的連接,F標記的探針必須在它們的5,末端上攜帶磷酸基團。同樣地,G標記的探針的相應組可以具有下歹ll結構3'-ANNNNNNN-Gl,3,-CNNNNNNN-G2,3,-GNNNNNNN-G3,3,-TNNNNNNN-G4,并且對于這些揮:針的連4妄,它們相關的錨探針必須具有5,-磷酸基團。在連續(xù)循環(huán)中的F標記的探針可以具有下列結構3,-Fl-NNNNNNANp,3'-F2-NNNNNNCNp,3'-F3-NNNNNNGNp,3'-F4-NNNNNNTN,和3,-Fl-NNNNNANNp,3'-F2隱NNNNNCNNp,3'-F3陽NNNNNGNNp,3'誦F4畫NNNNNTNN等。回到圖3A,在鑒定連接的探針(3018)后,將它從靶標多核苷酸擴增子(3020)上去除,并且將下一個錨探針(3022)雜交到其各自的結合位點。將G標記的測序探針雜交到靶標多核苷酸,使得那些形成與錨探針并歹寸的完全匹酉己的只又鏈體(formingperfectlymatchedduplexesjuxtaposedtotheanchorprobes)的測序探針得以被連接和鑒定。持續(xù)針對每個錨探針結合位點進行該過程,直至最后一個連接的探針(3028)被鑒定。然后使用F標記的測序探針和G標記的測序探針來重復(3030)循環(huán)的全序列,其中所述F標記的測序探針和G標記的測序探針被設計以鑒定與其各自的錨探針鄰近的一個不同的堿基。圖3B闡明了圖3A方法的一種變形,其中一次兩個地將錨探針雜交到它們各自的結合位點??梢圆捎萌魏五^探針對,只要該對的一個成員結合到散在銜接頭的3'結合位點并且該對的另一個成員結合到散在銜接頭的5,結合位點。對于直接標記的測序探針,如所示,這種實施方案需要使用八種可區(qū)分的標記;即,標記Fl-F4和Gl-G4中的每種標"^己必須是相互可區(qū)分的。在圖3B中,將錨探針(3100和3102)雜交到它們在散在銜接頭(3002)中各自的結合位點,之后,在嚴緊雜交條件下添加一組測序探針(3104)。對形成完全匹配的雙鏈體的探針進行連接,洗去未連接的探針,之后,鑒定連接的探針。使用設計用于鑒定與散在銜接頭(3002)鄰近的不同位點上的堿基的多組測序探針來重復(3110)這種雜交、連接和洗滌的循環(huán)。61然后針對每個散在銜接頭重復該過程。圖3C闡明了圖3A的實施方案的另一個變形,其中在使用針對任何其他散在銜接頭的錨探針前,將用于鑒定在與錨探針鄰近的每個位點上的堿基的測序探針進行至完成。簡而言之,對于每個錨探針結合位點進行每個虛線框(3200)內的步驟,一次一個;這樣,每個虛線框對應不同的錨探針結合位點。在每個框內,進行連續(xù)的循環(huán),循環(huán)包含下列步驟雜交錨探針、連接測序探針、鑒定連接的測序探針。圖3D闡明了采用被編碼的標記的實施方案,所述被編碼的標記與那些和由Albrecht等,美國專利6,013,445公開(本文將其并入作為參考)的被編碼的銜接頭一起使用的標記相似。該方法與在圖3C中描述的方法相似,只是這些探針是用寡核苷酸標簽間接地標記的,而不是直接標記的測序探針。通過使用這些標簽,可以降低連接步驟的數量,因為每種測序探針混合物可以含有鑒定比四個堿基多得多的序列。例如,可以選擇非交叉雜交性(non-cross-hybridizing)的寡核香酸標簽,它們對應于16對堿基中的每一對,因此在連接后,可以用多組標記的反標簽(anti-tags)來詢問連接的測序探針,直至每個兩堿基序列均被鑒定。這樣,使用被編碼的測序探針,可以一次兩個地、或一次三個地、或一次更多個地鑒定與錨探針鄰近的靶標多核苷酸的序列。到圖3D,將錨鉤探針(352)雜交到錨結合位點(381),之后,在僅允許完全互補的測序探針(354)連接到錨探針(352)的條件下添加被編碼的測序探針。在這種連接和洗去未連接的測序探針后,在嚴緊條件下將標記的反標簽(358)連續(xù)地雜交到測序探針的寡核苷酸標簽,使得僅有形成完全匹配的雙鏈體的標記的反標簽被檢測到??梢詫⒍喾N不同的標記方案與反標簽一起使用??梢詫λ械姆礃撕炇褂脝我粯擞?,并且可以將每個反標簽分別地雜交到被編碼的測序標簽?;蛘?,可以采用多個抗標簽組以降低必須進行的雜交和洗滌的數量。例如,若每種測序探針鑒定兩個石成基,則可以應用兩組抗標簽,每組四種抗標簽,其中給定組中的每個探針按照測序探針鑒定的兩個堿基之一的身份而攜帶不同的標記。同樣地,如果測序探針鑒定了三個堿基,那么可以將每組含四種抗標簽的三個組用于解碼。可以針對每種散在銜接頭進行這些解碼循環(huán),之后,可以使用鑒定在不同位點上的堿基的測序探針來進行額外的循環(huán)。圖3E闡明了一個與在圖3B中描述的實施方案相似的實施方案,只是這里采用了被編碼的測序探針。因此,每次將兩個錨探針地雜交到靶標多核苷酸上,并且通過用標記的抗標簽解碼而鑒定相應的測序#:針。如圖所示,將錨探針(316和318)雜交到它們各自在散在銜接頭(3002)上的結合位點,之后,在這樣的條件下加入兩組被編碼的測序探針(327),所述條件僅允許形成完全匹配的雙鏈體的探針被連接。在去除未連接的探針后,用標記的抗標簽來解碼連接的探針的寡核苷酸標簽。如上文,有多種方案可用于解碼連接的測序探針。在另一方面中,本發(fā)明所用的一種在多個DNA或RNA片段中確定序列的測序方法包含下列步驟(a)產生多個多核苷酸分子,每個包含DNA或RNA片段的多聯(lián)體;(b)形成多核苷酸分子的隨機陣列,所述多核苷酸分子以這樣的序列固定在表面上,使得至少大部分靶標多聯(lián)體是光學上可分辨的;并且(c)使用光學上可檢測的反應物的至少一種化學反應來鑒定每個DNA或RNA片段的至少一部分的序列。在一個實施方案中,這種光學上可檢測的反應物是寡核苷酸。在另一個實施方案中,這種光學上可檢測的反應物是核苷三磷酸,例如可以用于延伸雜交到多聯(lián)體上的寡核香酸的熒光標記的核苷三磷酸。在另一個實施方案中,這種光學上可檢測的反應物是通過連接第一和第二寡核苷酸而在多聯(lián)體上形成鄰近的雙鏈體從而形成的寡核苷酸。在另一個實施方案中,這種化學反應是DNA或RNA的合成,例如通過延伸雜交到多聯(lián)體上的引物。在一個方面中,在隨機陣列上的靶標多核苷酸的多聯(lián)體的平行測序通過組合SBH(cSBH)來完成,如由在上文中引用的Drmanac的專利所公開的。在一個方面中,提供了第一組和第二組寡核苷酸探針,其中每組具有這樣的成員探針,所述成員探針包含具有在該組中確定長度的探針的每種可能序歹寸的寡才亥香酉交(oligonucleotideshavingeverypossiblesequenceforthedefinedlengthofprobesintheset)。例如,如果組含有長度為6的才笨針,那么它含有4096(=46)種探針。在另一方面中,第一組和第二組寡核苷酸探針包含具有經選擇的核苷酸序列的探針,所述經選擇的核苷酸序列被設計用于檢測經選擇的耙標多核苷酸集合。通過以下方式來確定序列雜交一種探針或探針庫、雜交第二探針或第二探針庫、連接在它們的靶標序列上形成完全匹配的雙鏈體的探針、鑒定那些被連接的探針以獲得關于靶標序列的序列信息、重復這些步驟,直至已將所有的探針或探針庫雜交,并且從在雜交和鑒定步驟中積累的序列信息確定靶標的核苷酸序列。對于測序操作,在一些實施方式中,可以將組分成在庫中一起使用的亞纟且(subsetsthatareusedtogetherinpools),^口在美國專利6,864,052中所乂>開的??梢詫碜缘谝唤M和第二組的探針作為整個組、或作為亞組,或作為庫一起地或順次地雜交到靶標序列。在一個方面中,在第一組或第二組中的探針長度范圍為從5至IO個核苷酸,在另一個方面中,為從5至7個核苷酸,使得它們在被連接時,形成長度范圍分別為從10至20和從10至14的連接產物。另一個方面,使用這些技術,可以通過"簽名,,法來確定每個附接的DNA多聯(lián)體的序列身份。使用約50至100個或者可能200個探針,因此約25-50%(或者,在一些應用中,10-30%)的附接的多聯(lián)體將對每種探針都具有完全匹配的序列。這種類型的數據使得多聯(lián)體內的每種擴增的DNA片段能夠定位到參考序列。例如,通過這種方法,可以依照4種顏色標記方案使用16輪雜交/脫去(stripoff)循環(huán)來對64種四聚體(即所有可能的256種四聚體的25%)評分。在多聯(lián)體中擴增的60-70個堿基的片段上,64種探針中的約16種探針將為陽性,因為在64個堿基長的序列中存在64種可能的四聚體(即所有可能的四聚體的四分之一)。不相關的60-70個堿基的片段將具有非常不同的一組約16種陽性解碼探針。從64種探針中取16種探針的組合發(fā)生的隨機機會為每十億個片段之一,這實際上為該多聯(lián)體提這產生更可能是獨特的簽字發(fā)生概率是一百億億分之一(linbillionbillions)。先前,"簽名"法被用于從cDNA文庫選擇新基因。簽名法的一種實施方式是對所有從被試驗的探針獲得的強度進行排序,并且選出達到預先確定(期望)的數量的滿足陽性探針閾值的探針。這些探針將被定位到期望存在于陣列中的所有DNA片段(可以使用更長的參考序列的滑窗)的序列上。將具有所有的選定正探針的序列,或者具有統(tǒng)計學上足夠數量的選定正探針的序列,指定為給定多聯(lián)體中的DNA片段的序列。在另一種方法中,可以為所有使用的探針定義期望的信號使用它們預先測量的完全匹配和錯配的雜交/連接效率來定義。在這種情況中,可以計算類似于關聯(lián)因子的量度(ameasuresimilartothecorrelationfactor)。對四聚體評分的優(yōu)選方式是連接探針對,例如連接N(5-7)BBB和BN(7-9),其中B是確定的堿基而N是簡并堿基。為了在更長的DNA多聯(lián)體探針上產生簽名,將使用更獨特的堿基。例如,用N(4-6)BBBB和BBN(6—8)可在長度為1000個堿基的片段中實現25°/。的陽性率。應注意的是,較長的片段需要相同數量的約60-80種探針(使用4種顏色,15-20輪連接循環(huán))。在一個實施方案中,可以將所有給定長度的探針(例如4096個N2-4BBBBBBN2.4)或者所有連接對(ligationpairs)用于確定多聯(lián)體中的DNA全序列。例如,可以對N(w)B3和BBN(6-8)的1024種組合評分(如果使用4種顏色需256個循環(huán))以確定具有最多約250個石咸基,優(yōu)選具有最多約100個堿基的DNA片段的序列??梢酝ㄟ^對簡并堿基處序列的多個亞組的多重合成來準備帶有大量N的測序〗冢4十的解石馬(ThedecodingofsequencingprobeswithlargenumbersofNsmaybepreparedfrommultiplesynthesesofsubsetsofsequencesatdegeneratedbases),以最小化效率的差異。以適當的濃度將每個亞組添加到混合物中。一些亞組還可以具有比其它亞組更多的簡并位置。例如,可以在4種不同合成中制備來自集合N(s-7)BBB的64種探針中的每一種。一種是常規(guī)的,所有5-7個堿基完全簡并;第二種是N0-3(A,T)5BBB;第三種是N0-2(A,T)(GC)(A,T)(GC)(A,T)BBB,第四種是N0-2(QC)(A,T)(G,C)(A,T)(G,C)BBB。以經實驗確定的量將來自所述三種特定合成的寡核苷酸制備物添加進常規(guī)合成中以增加與如下所述的靶標序列的雜交體的生成。其中,靶標序列具有位于BBB序列之前的、富含AT的序列(例如AATAT)或(A或T)和(G或C)交替的序列(ACAGT或GAGAC)。估計這些序列形成雜合體的效率是較低的。可以測試所有1024種靶標序列與NQ-3NNNNNBBB探針形成雜交體的效率,并且將那些給出最弱結合的類型在約l-10個額外的合成中加以制備,并添加到基本探針制備物中。在另一個實施方案中,將較小數量的探針用于小數量的不同樣品;例如,20種探針中的5-7種陽性探針(使用4種顏色需5個循環(huán))具有分辨約1萬-1百萬個不同片段的能力。在一個方面中,通過提供這樣的陣列來解碼8-20-merRCR產物,所述陣列是作為呈DNA多聯(lián)體形式的、8至20個堿基的獨特識別序列(unique8to20baserecognitionsequencesintheformofDNA)的F逸才幾分布而形成的。使用許多可能的方法來解碼探針以確定所述8-20個堿基的探針區(qū)域的序列。在一個示例性的方法中,通過利用短探針的雜交特異性和完全匹配的雜交體的連接特異性來確定一半的序列。與12mer鄰近的6至10個堿基被預先確定,并發(fā)揮6mer至10mer寡核苷酸的支持物的作用。這種短6mer將在其3'末端的連接于4種標記的6mer至10mer中的一種。這些解碼探針由4種寡核苷酸的庫構成,其中每種寡核苷酸由4-9個簡并堿基和1個確定的堿基構成。還將用四種熒光標記中的一種來標記這種寡核苷酸。因此四種可能的堿基A、C、G或T將由熒光染料來代表。例如,可以將這5個4種寡核苷酸的組和一種通用寡核苷酸(U)用在連接測定法中以對12-mer的最初5個石咸基測序B-末端上結合了特定染料或標簽的4種堿基中的每種堿基UUUUUUUU.BNNNNNNN*UUUUUUUU.NBNNNNNNUUUUUUUU.麗BNNNNNUUUUUUUU,NNNBNNNNUUUUUUUU.NNNNBNNN可以用額外的探針庫來對六個或更多個堿基測序。為了改善靠近12-mer中央的位置處的區(qū)分力,可以使6-mer寡核香酸的位置更靠近12-mer序列內部(bepositionedfiirtherintothe12-mersequence)。這將需要將簡并石咸基4參入未標記的寡核苷酸的3'末端來為移位提供余地(accommodatetheshift)。這是12mer中的第6位和第7位的解碼探針的實例。UUUUUUNN.NNNBNNNNUUUUUUNN.NNNNBNNN以相似的方法,可以通過使用固定的寡核普酸和5,標記的探針來解碼來自12-mer右側的6個堿基(6basesfromtherightsideofthe12-mer)。在上述的系統(tǒng)中,需要6輪循環(huán)以確定12-mer—側的6個堿基(6basedofonesideofthe12-mer)。由于對遠離連接位點的石咸基的冗余(redundant)循環(huán)分析,循環(huán)可能增加至7或8輪。因此,12mer的全測序可以用12-16輪連接循環(huán)來完成。在一個實施方案中,本發(fā)明提供了通過聯(lián)合兩種不同類型的檢測器探66在這種方法中,一個組具有普通類型的N3.8B4.6的探針(錨),它們與來自組BN6.8、NBN5.7、N2BH^和N3BN3.5的最初2個或3個或4個探針/探針庫連接。在一個示例性的方法中,將l-4個或更多4mer(1-44-mersormore)雜交到5mer錨,以使約70%-80%的分子每個DNA獲得1個或2個錨。在一個實施方案中,可通過混合具有不同雜交體穩(wěn)定性(此外還可能有不同數量的的N)的特異性探針來確定陽性錨(positiveanchor)。還可以給錨加上標簽以確定來自庫的哪個錨雜交到點上。標簽,作為額外的DNA區(qū)段,可以用于可調整的取代(adjustabledisplacement),來作為一種沖企測方法。例如,在雜交或雜交和連接后,可以用兩個相應的取代物EEEEEEEENNNNN和FFFFFFFFNNNNNNNN來有差別地去除EEEEEEEENNNAAAAA和FFFFFFFFNNNCCCCC探針,其中第二個取代物更有效。在另一個實施方案中,可以用不同的循環(huán)確定哪個探針為陽性。為了這個目的,可以將用帶有多種顏色的標記或標簽的錨連接到未標記的N7-N10支持物寡核苷酸。然后將BNNNNNNNN探針與對應于4種堿基的4種顏色雜交。如果在一個DNA中有兩種錨是陽性的,則通過區(qū)別性的清洗或者標簽互補體的取代來讀取兩個被評分的堿基中哪一個是與錨聯(lián)系的。因此,可以同時對兩種7-10個堿基的序列評分。可以用2-4個循環(huán)延伸至2-4個堿基的錨,在為另外的2-4個堿基延伸至4-6個堿基的錨的2-4個循環(huán)中,每個陣列運行16種不同的錨(32-64個物理循環(huán),如果使用4種顏色的話)以測定每個片段大約16種可能的8-mer(總共大約100個堿基)。足以將其定位至參比序列(100-mer具有一套10種8-mer的概率小于1024分之一。通過組合在另一個陣列中在同一片段上平行評分的不同錨的數據,可以自重疊的7-10-mer產生該片段的完整序列,并延伸至整個基因組。在一個方面中,本發(fā)明提供了用DNA標簽給探針加標簽的方法,其用于較大的多重解碼或序列確定探針。可以用由天然堿基或新合成堿基(例如isoG和isoC)產生的不同寡核苷酸序列替代直接標記來給探針加標簽??梢岳貌煌墓押塑账衢L度(約6-24個堿基)和/或序列(包括GC含量)計4種不同的標簽,它們可以在4輪連續(xù)循環(huán)中或在一輪雜交循環(huán)然后區(qū)別性清洗中用特異性抗標簽來識別。在區(qū)別性清洗中,每個標簽的初始信號分別被降低至95-99°/。、30-40%、10-20%和0-5%。在這種情況中,假定帶有不同標簽的探針將很少地雜交到相同的點上,通過獲得兩個圖像,獲得4個測量結果。具有許多不同標簽的另一個益處一一即使它們被連續(xù)地解碼(或者一次2-16個,用2-16種不同顏色來標記)——是能夠在一個測定反應中使用大量的單獨而可識別的探針。這樣,如果探針在短暫溫育和去除反應中被解碼,長4-64倍的測定時間(其可以提供更特異或強烈的信號)可能是可承受的。解碼方法需要48-96或更多種解碼探針的使用。通過用四種各自具有不同發(fā)射光譜的熒光團來編碼這些探針,它們將被進一步地合并成12-24或更多種庫。使用20x物鏡,每個6mmx6mm陣列可能需要使用10兆像素相機拍攝的大概30張圖片為了完全蓋度。通過約8個像素來讀取每1微米的陣列區(qū)域。每張圖像可以以250毫秒的時間獲得150毫秒用于曝光,IOO毫米用于移動鏡臺。使用這種快速獲取,為每個陣列拍攝圖像將花費約7.5秒,或者為每個基片上的全套96個陣列拍攝圖像將花費12分鐘。在成像系統(tǒng)的一個實施方案中,通過使用四個10兆像素的相機,每個相機成像不同焚光團的發(fā)射光語,從而達到高圖像采集速率。通過一系列二色分光鏡將相機偶聯(lián)到顯微鏡上。僅在采集的圖像焦點未對準時才運行自動聚焦程序,因為它要花費額外的時間。然后它將存儲Z軸位置信息,供下一個成像循環(huán)期間回到該陣列的該部分時使用。通過為基片上每個位點確定自動聚焦位置,我們將顯著地降低圖像采集所需的時間。代表性地,每個陣列的解碼需要約12-24輪循環(huán)。每個循環(huán)由雜交、清洗、陣列成像和剝離步驟組成。這些步驟,按它們各自的順序,就上面的實例而言可能分別花費5分鐘、2分鐘、12分鐘和5分鐘,對每個循環(huán)而言總共24分鐘,或者每個陣列而言花費大概5-10小時,如果操作是線性地進行的話。可以通過使該系統(tǒng)不斷地成像來將解碼每個陣列的時間降低一半。為此,將每個顯微鏡上的兩個分開的基片的成像錯開,即當一個基片正進行反應時,對另一個基片成像。使用cSBH的示例性的解碼循環(huán)包括下列步驟(i)將陣列的溫度設置到雜交溫度(通常在5-25。C范圍);(ii)使用自動移液器將少量解碼探針與合適量的雜交緩沖液預混合;(iii)將混合后的試劑移液進雜交小室;(iv)雜交預先確定的時間;(v)使用泵(注射器等)將試劑從小室中吸干;(vi)添加緩沖液以洗去非雜交體的錯配物;(vii)將小室的溫度調整至合適的清洗溫度(約10-40°C);(viii)吸干小室;(ix)如果需要改進成像,添加更多的清洗緩沖液;(x)對每個陣列成像,優(yōu)選用與一臺或多臺高像素數高靈敏度CCD相機偶聯(lián)的中等倍數(20x)的顯微鏡物鏡;平板載物臺將小室(或可能是帶有輸入漏斗的流動池)在物鏡上方移動,或者物鏡-光學組件在小室下方移動;某些光學配置,使用雙色鏡/束分光鏡(dichroicmirrors/beam-splitter),可以用于同時收集多光譜圖像,從而降低圖像采集時間;根據陣列/圖像大小/像素密度,可以對陣列分部分成像或整體成像;可以通過使用預編碼到基片上(在活性位點產生期間)的統(tǒng)計上顯著的空區(qū)域來對齊圖像從而組裝部分,或可以使用多步驟納米印刷技術來產生部分,例如可以使用特異性捕捉探針來印刷位點(活化位點的網格),在網格中留下空區(qū)域;然后使用另外的印刷頭來在那個區(qū)域中印刷不同的圖案或捕捉探針;(xi)吸干室并更換為探針剝離緩沖液(或者使用已載入的緩沖液),然后將小室加熱至探針剝離溫度(60-90°C);可以在剝離步驟使用高pH緩沖液以降低剝離溫度;等待指定的時間;(xii)去除緩沖液;(xiii)用組中的下一個解碼探針庫開始下一輪循環(huán)。用于雜交測序的組合探針連接在本發(fā)明的一個優(yōu)選的方面中,通過使用組合探針連接的雜交測序方法來獲得關于靶標多核苷酸的序列的信息。在本發(fā)明的這個方面中,在DNA連接酶的存在下(R.Drmanac,美國專利6,401,267,2002)將兩組完整、通用的短探針暴露于靶標DNA。代表性地,一組探針附接到固相支持物,例如載玻片,而用熒光團標記的另一組探針處于溶液中,是可移動的。當附接的帶有標記的探針們雜交到靶標上精確鄰近的位置時,將它們連接,產生長的、帶標記的、且共價地連接到載玻片表面的探針。在給定位置上的陽性信號顯示靶標內存在這樣的序列,其與聯(lián)合產生所述信號的兩種探針互補。在優(yōu)選的實施方案中,將通用測序芯片,例如由CompleteGenomics開發(fā)的HyChipTM載玻片,用于本發(fā)明的組合雜交測序中。在一個實施方案中,每個HyChip包含顯微鏡載玻片,所述載玻片含有附接的6-mer的8個復制陣列,從而可以每個樣品使用一整組超過四百萬個ll-mer探針,使用4096種排列的6-mer和1024種標記的5-mer探針來分析。在優(yōu)選的實施方案中,將使用HyChipTM系統(tǒng)的測序方法用于分別而不關聯(lián)的DNA片段的序列混合物??梢酝ㄟ^PCR來制備與本發(fā)明的測序方法一起使用的DNA樣品。在一個優(yōu)選的方面中,本發(fā)明提供了數以百萬計的單獨的多核苷酸分子的陣列,將所述多核苷酸分子以約每平方微米一個點的密度隨機地布置在光學上透明的表面上。這些多核苷酸分子起模板的作用,用于焚光標簽探針庫的雜交和連接。在一個實施方案中,將探針庫和DNA連接酶混合并提供給隨機陣列。在探針雜交到在靶標片段上的鄰近位點時,它們被連接在一起,形成穩(wěn)定的雜交體??梢岳脦в邢冗M的光學器件的靈敏的百萬像素CCD相機同時地檢測在全陣列上數以百萬計的這些單獨的雜交/連接事件。一旦檢測到來自第一庫對(poolpair)的信號,就將探針去除并用連續(xù)的連接循環(huán)來試驗不同的探針組合。在本方面優(yōu)選的方面中,3.2x3.2mm陣列將具有容納i千萬個片段或者約10-100億個DNA堿基的能力。4吏用帶標記的標簽的組合標記在一個方面中,通過使用16種熒光染料,可以用單個雜交/連接循環(huán)試驗所有16種可能的探針。還可以使用從更少的焚光染料生成熒光簽名的方法學來完成這種試驗。在熒光原位雜交(FISH)染色體"著色"(painting)中,可以使用熒光探針的組合以產生用于該探針組合的新熒光簽名。例如,來自4種一組的兩種探針的組合可以產生IO種可能的簽名焚光信號,5種可產生15種,6種可生成21種,等等。因此,在單個雜交循環(huán)中,將可能區(qū)分16種探針中的哪一種被雜交到錨探針上?;蛘?,如果BBNNNNNN探針中有一個未被標記(根據缺乏針對所有其他探針的信號來推斷),5種顏色將足夠標記所有殘余的15種二核香酸??梢詫?種顏色用于標記讀取單堿基的4種探針,或者讀取兩堿基的8種探針(來自所需的全部16種探針中)。在后一種情況中,可以將所有16種探針在兩輪循環(huán)中評分(參見下文)。因此,5或6種顏色的系統(tǒng)可能比非組合標記所需的16種顏色更容易實現。為了高效地進行組合標志,可以制備帶有標簽結合位點的尾序列的2-mer探針??梢越M合地設計尾序列用于結合五種(或六種)之中兩種標記的寡核苷酸標簽,或者可以為16種尾巴中的每一種合成帶有一種或兩種熒光染料的16種標簽。使用標記的標簽替代直接標記的探針具有額外的優(yōu)勢。試驗所有16種BBNNNNNN探針將需要比針對單個探針多1024倍的探針(假設在更遠離連接位點的位置上區(qū)分度低)。例如,為了在BBNNNNNN的探針混合物內具有1濃度的探針AGCTANNN,混合物需為1024pM。因為合成標記的探針比合成未標記的探針花費更高,可以通過尾序列來檢測未標記的探針,同時使用低濃度的標記的標簽探針,因為它可以與尾序列完全互補。另外,使用未標記的加尾的探針將有益于維持更低的背景,因為熒光團將處于低濃度。通過使用6種標記的標簽(不帶有筒并堿基)替代與之相當的1024種標記的探針,費用有望整體降低至1/100。標簽還提供了一個僅4吏用4種顏色單個連接反應中讀取全部16個二核苦酸的有效選項。在這種實施方案中,可以設計兩個含4種不同標簽的組用于分別解碼8個2-mer。所有16個2-mer可以在兩輪解碼循環(huán)中被解碼??梢詫⑦@種策略擴展至使用相同的4種顏色讀取銜接頭的每個末端上的2個堿基。在這種情況中,可以將4個含4種標簽的組用在讀取4個堿基的每輪連接循環(huán)的4個解碼步驟中。進行多輪解碼循環(huán)代替多輪連接循環(huán)是更便宜的(使用的酶更少),而且連接循環(huán)可延續(xù)更長的時間,使用更低的探針濃度,以減少錯配的連接。還可以設計標簽以最小化對被分析的DNA的干擾,例如通過使用不與天然堿基配對的isoC和isoG堿基對。另一個選擇是使用標準的DNA化學法,但設計在人類基因組中非常稀有的序列。再另一個選擇是使用帶有用未標記的標簽預雜交的尾的探針,所述未標記的標簽將在連接之后與標記的標簽雜交之前被去除。擴大可被解碼的戚基的數量為了自錨探針讀取多于2個核苦酸(readfiirtherthan2nucleotidesfromtheanchor),在本發(fā)明的一些方面中,可以利用額外輪次的探針-錨連接,而且在下一輪循環(huán)起始前從耙標去除錨/標記探針??梢允褂迷S多本領域已知的方法,例如通過加熱或通過在錨探針中的溫度可切割或光可切割的鍵來去除連接的探針-錨,使得錨在加熱步驟中斷裂并且去穩(wěn)定。因為現在被測序堿基是自銜接頭的3和4個堿基(3and4basesfromtheadaptor),因此需要對錨探針或標記探針進行修飾。在錨探針的情況中,在本發(fā)明的一個實施方案中可以將錨探針制備為在連接末端上具有2個額外的簡并堿基。為了確保維持后繼連接的效率,在一個實施方案中,通過連接模板DNA上的兩個較短寡核苷酸來構建錨?;蛘?,可以將測序探針制備為在連接末端上具有兩個簡并堿基,以這樣的形式NNBBNNNN-標簽。在本發(fā)明的另一方面中,可以將測定法設計為使用16種錨探針以讀取額外的2個堿基。因為僅試驗連接位點兩旁的2-4個堿基,因此探針-錨連接的特異性非常高。這些堿基的平均區(qū)分度是50-100倍。一些錯配(例如GT)要強烈得多,其具有僅5-20倍的區(qū)分度。在本發(fā)明的一個實施方案中,提供了可將在某些錯配的區(qū)分度的差異考慮在內的軟件。在本發(fā)明一方面中,使每種探針、錨和標簽最優(yōu)化(例如,通過濃度、簡并堿基的數量、標簽的序列和長度)以最大程度地使完全匹配信號相等(equalize)。在本發(fā)明的一個實施方案中,可以設計探針和錨的重疊和移位的對,以讀取每個堿基2-3次從而增加堿基判定精確性(callingaccuracy)。在精確的短距離上插入帶有錨區(qū)域的額外內在銜接頭擴大了在基因組片段中確定位置上的堿基的測序能力。例如,在原有的銜接頭的基礎上加兩個銜接頭,可以通過從5個連續(xù)銜接頭末端讀取4個i威基來在10輪循環(huán)中確定20個連續(xù)石咸基。起始銜接頭最初8個堿基銜接頭22nd8堿基銜接頭3額外的約200basesDDDDDDDDDDGGGGGGGGDDDDDDDDDDGGGGGGGGDDDDDDDDDDGGGGGGGGGGGAAAAAAA巡NNNNNN-尾AAAAAAA.BBNNNNNN-尾AAAAAAA.BBNNNNNN-尾AAAAAAA.麗BBNNNN-尾AAAAAAA扁BBNNNN-尾AAAAAAA.麗BBNNNN-尾尾-兩麗BB麗.AAAAAAA尾-NNNNBB服AAAAAAA尾-NNNNNNBB.AAAAAAA尾-NNNNNNBB.AAAAAAAD=銜接頭,G=基因組DNA,A=錨,B=特定探針#,N=簡并探針堿基。多個銜接頭還提供了進一步增加讀取能力和每輪循環(huán)能夠確定多于2個堿基的機會。在一個實施方案中,每輪循環(huán)鑒定4-12個堿基。在另一實施方案中,每輪循環(huán)鑒定4-8個堿基。在還另一個實施方案中,每輪循環(huán)確定12-16或更多個石威基。在一個實施方案中,將3個銜接頭相隔12個石成基定位,從而能夠通過讀取5個末端的每一個處的6個堿基來獲得連續(xù)序列的30個堿基。在另一72實施方案中,共4個銜接頭并讀取在兩個銜接頭間的16個堿基在28輪循環(huán)中產生56個堿基的連續(xù)序列。在其他實施方案中,使用了由16個堿基分隔的兩個(初始的加上一個附加的)銜接頭以讀取24個堿基。在一個實施方案中,每輪循環(huán)通過同時將探針雜交到多個或所有錨位點來鑒定多個堿基,其中將同一個16種二核苷酸探針的組用于每個錨位點,但獨立地讀取每個錨位點。在一個實施方案中,這種同時探針連接(simultaneousprobeligation)是通過設計具有不同解鏈溫度的錨并在多個預先確定的溫度下測量顏色強度來實現的。在另一實施方案中,將多個銜接頭用于循環(huán)引物延伸,以從每個單獨的引物提供較長的讀取和較少的循環(huán)數。在一個實施方案中,定位信息可以通過對足夠數量的、分布在整個DNA片段上且沒有任何位置信息的短序列評分來獲得,或者從較小數量的位于精確位置上的短序列獲得。這種方法的一種變形稱為"雜交簽名",其中比較了期望的強度和觀察到的強度。在另一實施方案中,可以設計短序列以提供局在的(斷續(xù)的或連續(xù)的)序列信息。這些短序列的三個實例可以如下示意地來代表a.(X)aBB(X)bBB(X)cBB(X)dBB(X)eBB(X)f...b1.BBX6BBX4BBX6BBX4BBXa....b2.B16Xa完全定位信息需要的寡核苷酸序列的數量依賴于靶標序列的大小、使用的DNA片段的大小和源DNA的復雜度。對于人類和其他類似復雜的基因組,約5種陽性8-mer或10種陽性6-mer可足夠用于100個堿基的DNA片段。為了在2輪循環(huán)中評分一個陽性8-mer,通過采用比錨測序多3倍的循環(huán)數,可使用共約10輪循環(huán)。在一個實施方案中,這種方法并不利用兩個錨的插入,并可以使用直接雜交而不用酶來完成。在這種實施方案中,可以利用3000種8-mer。在一個實施方案中,可以將同一組探針用在不同群的組合(組合集中(combinatorialpooling)中以解碼來自帶有相同標記的探針庫的哪個探針為正。例如,用300種不同標記物標記的所有3000種4笨針,通過具有用相同探針組合標記的5種探針,可以在兩個反應中加以評分。除了6個真陽性,在這兩個反應中還將發(fā)現大約30個或更多個庫相關(pool-related)的假陽性。通過進行另兩輪雜交循環(huán)(其中探針將另行分組),僅真陽性探針將被解碼,因為它們在兩個數據集中同為陽性,而兩個數據集中共有的假陽性探針數對于真陽性探:針,所述4交低分值是一個高分值(thelowerscoreisexpectedtobehigh)。對于大多數陰性探針,至少一個分值將是非常低的,并且因此它將取消一個假陽性分值。這種方法幫助降低循環(huán)數或者需要的標記物數量,并且為許多應用提供了足夠的能力而不需要使用組合標記。在另一實施方案中,以2-16個亞組的形式在不同亞陣列上#1分析的、高度重疊的片段組提供了大量的定位信息。例如,250個堿基的片段,平均開始于每個堿基,可以作為2-16個亞組使用2-16種不同亞組的探針加以分析。僅移位2-26個堿基的DNA片段將用少許(如果不是全部)使用的探針亞組來分析,用至少一個探針亞組提供獨特的染色體鑒定。典型地,20個特定堿基將提供大多數獨特的序列所必需的信息。在一個實施方案中,這種信息可以通過如下方式來獲得使用兩種錨,在5輪循環(huán)中用256種標簽讀取5x4個石威基,或者以每4侖循環(huán)讀取8個堿基在3輪循環(huán)中讀取24個堿基(512種加標簽的組合)。在另一實施方案中,3輪循環(huán)x6個堿基=18個堿基(5x3+3,在20-30個堿基距離上),在另一實施方案中,針對3-mer少4倍的標簽,可以需要3種錨(3x6+3+3堿基)。在一個方面中,可以將高容量DNA陣列平臺用于同時分析100個患者或其它DNA樣品。在直接雜交(或組合連接)定位方法中,僅使用了探針的一個亞組,而且并不自動地提供標簽序列。對于4堿基標簽,可以將所有256種探針(例如NxUxBBBBUxNx)用于定位或者作為額外探針。如果這些探針還用于定位,那么可能需要256種移位探針的多個組以鑒定標簽序列。在一個方面中,使用5-6種顏色以在一輪解碼循環(huán)中解碼所有16種二核苷酸并讀取2-12個堿基。在一個實施方案中,使用了4種標簽的組;在另一個實施方案中,將該組擴展到6種標簽??梢詫⒍噍喗獯a循環(huán)單獨使用或與具有不同解鏈溫度的錨聯(lián)合使用以增加可以在單輪解碼循環(huán)中讀取的堿基數量。在一個方面中,通過試驗在銜接頭的每個末端上的2個堿基并通過使用兩種相應的錨,每輪連接循環(huán)讀取4個堿基??梢酝瑫r的使用兩種類型的探針B2N6-尾和尾-N6B2。每種探針類型可以具有獨特的尾和包含6種獨特標簽的匹配組。兩輪循環(huán)使用兩個6種標簽的組,將鑒定4個堿基。在ll輪連接循環(huán)中,將確定42個連續(xù)堿基和2個多余堿基。為了讀取配對的42+18=60個堿基,將需要15輪連接循環(huán)。另在一個方面中,每輪連接循環(huán)讀取8個堿基。可以使用共4個錨(兩個錨的兩側^^一個)。探針和標簽可以和在第一選項中的相同。因此,在兩輪解碼循環(huán)中,可以確定一個銜接頭的每一側的2個石威基(2basesoneachsideofoneadaptor)。因為額外2個錨可以用于第二銜接頭,因此需要額外的信息以區(qū)別兩個陽性2-mer中的哪個屬于哪個錨/銜接頭末端。這可以通過為第二銜接頭設計兩個具有較高的解鏈溫度(Tm)的錨來實現。因此,圖示的是,4個錨是銜接頭1銜接頭2GGG…AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAD-銜接頭堿基,G-基因組堿基,A-錨堿基,在兩輪標準的5-6種染料的解碼和成像的循環(huán)后,可以應用嚴緊清洗去除低Tm錨和與它們連接的加尾探針,但不影響高Tm的錨。通過重復兩輪標簽結合和熒光測定的循環(huán),測定了對帶有較長(較高Tm)的錨的第二銜接頭特異的熒光信號。第一組和第二組測量值間的差給出了與第一銜接頭對應的2-mer所產生的信號。在更高溫度下的剝離清洗將去除Tm較高的錨,并釋放出DNA用于下一輪連接循環(huán)。為了容易剝離,Tm較高的錨可以是光可切割、化學可切割或者溫度可切割的。為了讀取更多個堿基,可以將該方法重復3次以讀取兩個銜接頭周圍的24個石咸基,或者重復6次以讀取4個銜接頭周圍的48個堿基。為了讀取第五銜接頭的剩余12個堿基,可能需要3輪額外循環(huán)。在這三輪循環(huán)中,帶有相同或者經移位的錨-探針對的12個之前已測序的堿基的重復測序還可以發(fā)揮數據質量控制的作用??傆嬁梢允褂?輪連接循環(huán)和36輪解碼循環(huán)以確定72個堿基(60個獨特i威基和12個重復;咸基)。在另一個方面中,通過將該方法從2個水平擴展至3個水平(levels)來每輪循環(huán)讀取12個堿基,每輪連4妄循環(huán)提供12個石成基(3x2x2)的讀取。相似地,在僅6輪連接循環(huán)中就可以確定72個堿基(60個獨特堿基和12個重復堿基)。Tm方法可以用在錨的數目更多的許多其它配置中,可以將所述錨差別性地逐一去除。這種方法的關鍵優(yōu)勢在于,在一個連接反應中,將一種類型的探針連接到3個不同的錨上。在另一個方面中,在一輪連接循環(huán)中讀取8個堿基,而不使用錨的Tm區(qū)分。為了達到這點,設計錨探針以讀取2個堿基,同時由非錨探針讀取2個堿基。可以在一輪連接循環(huán)中分析兩個這樣的配對,每輪循環(huán)讀取總共8個石咸基,如下所示。尾-AAAAAABB.BBNNNNNN-尾尾-NNNNNNBB.BBAAAAAA-尾(第一輪循環(huán))尾-AAAKNNNBB.BBNNKNNN-尾尾-NNNNNNBB.BBNNNNAAA-尾(第二輪循環(huán))尾-NNNNNN迎.迎AAAAAA-尾尾-AAAAAABB.BBNNNNNN-尾(第三輪循環(huán))D=銜接頭堿基,G=基因組堿基,A=錨堿基,B=特異的探針堿基,N-簡并探針堿基解碼將在四輪循環(huán)中進行,所述四輪循環(huán)具有對4組尾巴中的每一組特異的4組標簽。有趣的是,這種方法可以使用5個銜接頭在8輪連接循環(huán)中提供44+20=64個堿基(8+4x12+8),而不產生任何冗余的堿基讀取。這個系統(tǒng)的一種自然的發(fā)展是,使用5個銜接頭讀取兩個銜接頭之間的16個堿基(而不是12個堿基)并且一共讀取80個堿基。可能需要的新發(fā)展主要是實現一種與錨探針上存在的編碼尾巴相兼容的探針-錨連接產物穩(wěn)定化方法。這些方法與插入相隔12個石咸基的1-2個額外的辨f接頭相結合,可以在僅6-15輪連接循環(huán)中將每輪連接循環(huán)的平行讀取從2個堿基增加至8個堿基或甚至12個堿基。在進一步的實施方案中,在相鄰的銜接頭之間讀取16個堿基,可以僅使用起始的+2插入的銜接頭,從而能夠確定連續(xù)序列的40(2xl6+8)個堿基。多重探4十-錨連接領'J定法(multiplexprobe-anchorligationassay)在一個方面中,制備了這樣的探針組,它們包含16種具有BBNNNNNN-尾結構的探針,其中所述尾巴的長度為約15至20個堿基,和用焚光團標記的與尾互補的標簽序列。設計尾巴和標簽以使其對被分析的DNA的干擾最小。在一個實施方案中,從iso-c和iso-g核苷酸來制備尾巴和標簽序歹寸,以防止標簽序列與模板DNA相互作用。用不同的尾巴和標簽序列來測試不同的BBNNNNNN-尾探針的效率是可能的??赡苄枰?6種尾序列,但16種探針(帶16種不同的尾巴)中可能僅有8種探針在每輪解碼循環(huán)中被分析,因為4種顏色混合的最大容量(capacity)是兩種(不包括作為可能的探針指示物的空信號)的IO種可能的組合。每種尾序列可以具有結合兩個標簽的容量(capacity),并且采取這種設計的每種標簽可能僅具有一個附接的熒光團。可以最先設計4種標簽的組,每種標簽針對每種顏色。可以將這些標簽的互補序列組合以產生8種尾巴(可能的組合共有10種)。16種尾巴中其余的8種可能也需要另一組4種標簽,但是它們可以攜帶和用于第一組4種標簽相同的熒光團。在一個方面中,可以制備具有單熒光團(例如TAMRA)的探針,以確定不同標簽組合的相對強度(strength)(即雜交體強度)。一旦獲得這種信息,就有可能將熒光團與標簽匹配以使強度標準化。還可以將單熒光團標簽組用于確定帶有共同尾結構的探針的BBNNNNNN區(qū)域的相對效率。一旦已確定了這些參數,可以制備16種BBNNNNNN-尾探針的組??梢詫⑦@種探針組用于雜交到來自PCR的RCR產物和合成的靶標環(huán)或者甚至復雜的基因組樣品。在一個實施方案中,首先將排成陣列的RCR靶標與銜接頭探針雜交以確定DNB位置和相對強度。使用標準技術,例如通過提高溫度來去除這種探針,然后可以將第二組探針雜交到陣列。第二組探針含有在連接混合物中的錨探針和16種BBNNNNNN-尾探針。反應進行足夠長的時間,優(yōu)選約30分鐘,然后將未連接的、未雜交的探針洗去。下一輪添加到小室的可以包括4種標簽探針,它們與發(fā)生了連接并雜交的BBNNNNNN探針的尾巴雜交。在一些實施方案中,這種雜交可以短至5分鐘以達到高信號強度。將該小室再次清洗并且在期望的波長上成像。然后對該小室加熱以去除標簽,但仍維持在雜交體中的錨-BBNNNNNN-尾探針。然后可以雜交第二組4種標簽以對第二組8種BBNNNNNN探針的存在評分。匹配的BBNNNNNN探針和其他15種錯配的BBNNNNNN探針之間的區(qū)分度水平可以通過信號強度的水平和組合來確定。在一個實施方案中,為了確立探針-錨連接測定法,提供了探針,例如77具有結構AANNNNNN的探針,以便為AATATANNDNA點產生足夠的信號,并對TATA序列具有低的AG。如果對于一些DNA序列而言最優(yōu)條件的信號低,那么可以獨立地制備匹配探針并加進混合物中,以選擇性地僅提高這些探針的濃度。如果須調整在前4個簡并的位置上的256種序列中的20個序列,那么可以制備16x20種額外的探針。在一個實施方案中,完成了用于從基因組區(qū)段的另一側的兩個銜接頭之間讀取2堿基序列的16種探針的開發(fā)和測試。這些探針的尾巴和簡并堿基可以在5,末端,例如尾-NNNNNNBB。在本方面的一個方面中,通過使用多種特異的激發(fā)模式和用于每種激發(fā)模式的最大數量的濾光器來最大化可區(qū)分的染料的數量。例如,可以使用2-4次激發(fā),每次激發(fā)使用4種不同的波長(總共16種波長),結合每次激發(fā)使用8-16種濾光器。使用算法和軟件以分析強度模式并降低來自8-24種染料中的每一種的信號量。在一個實施方案中,將使用染料的直接標記與使用半抗原(例如生物素)的間接標記相結合以特異地對多種探針染色。直接附接的染料可以接受光漂白,或者可以計算染色前后強度的不同。在一個實施方案中,通過對淬滅劑的光致脫封閉或化學脫封閉或者進行改變給定染料吸收的化學修飾來擴大可使用的顏色的數量。在脫封閉處理前后測定顏色強度。在完成第一次成像后,可以將染料光漂白,然后測定針對給定波長的信號增加。利用多種類型的淬滅劑或修飾劑(3-4-6)和8種顏色,可以產生總共24-48種非組合的標記物。帶有24-48種標記物中的2種標記物的組合標記可能給出276-1128種雙標記組合。提供的長而穩(wěn)定的錨可改善探針與不同靶標的雜交和連接。在一個實施方案中,增加簡并堿基的數量以最小化形成不穩(wěn)定的雜交體(例如5'TATA3,)的靶標序列的影響。這可以增加探針/靶標雜交體的穩(wěn)定性,但是在接近連接位點的前2-4個位置上沒有完全匹配的探針可能會雜交到靶標并且阻止連接。為了最小化這種負面影響,一個實施方案提供了較高的出發(fā)溫度和/或溫度循環(huán)以增加在緊鄰錨處雜交的可連接探針的數量。1吏用引物延伸的測序末端測序可以使用特異的標記核苷酸從一個錨/引物末端通過許多單堿基延伸的連續(xù)循環(huán)來進行。在一個實施方案中,該方法包括其中去除染料或封閉劑以重復進行延伸的步驟。在這種方法中,多個銜接頭提供了增加的靈活性。在一個實施方案中,使用移位的引物,在連續(xù)的反應中通過單堿基引物延伸來讀取2-6個或更多個堿基??梢允褂迷谝粋€銜接頭上的多個同時移位的0+l或1+1引物框或在多個銜接頭上的單個框或者可以使用兩者。在一個實施方案中,使用初始的加上3個額外的銜接頭提供了4個引物?!ㄟ^讀取每個引物的4個堿基,在16輪循環(huán)中使用4種標準的顏色來確定16個石咸基,這可以在不用組合標記或加標簽的條件下完成。在這種實施方案中,引物延伸在標記的成分上不具有簡并堿基,因此降低了所用染料的濃度。因為16個堿基可能不夠用于定位,所以可以使用在20-24輪循環(huán)中的4種引物x5-6個堿基的延伸。通過區(qū)別性地去除引物,多重引物延伸是可能的。有幾種不同的方法可以用于這種去除,這些方法基于包含如下所述的因素引物長度、GC含量、堿基或者骨架的修飾,例如LNA或PNA、尿嗜。定的纟參入或者選定堿基之間的光敏感鍵??梢栽谝唤M中設計2至8個穩(wěn)定性水平。還可以使用可以具有不同的穩(wěn)定劑或保護劑的2至4種不同的組。通過應用這些標記方法,可以在少至3-5輪酶循環(huán)中確定20-24個石咸基。在另一個實施方案中,使用了一種引物保護測定法,其用于多重引物擴增,一次一個堿基。在這標并且將不被有效地延伸,因此用于第四次延伸的引物,例如UUUUUUUNNN,可提供足夠的信號。帶有較高特異性的引物可以通過連接UUUUUUU.UUUNNN或UUUUUUU.UNNNNN來產生。一方面,為了能夠在錨的任一側測序,可以使用附接的引物和原始鏈的去除或引物入4曼技術(primerinvasiontechnique)來將附接的ssDNA轉化為dsDNA狀態(tài)。一種去除原始鏈的方法是在插入的銜接頭中摻入限制酶的結合位點,所述限制酶僅切割一條鏈。然后將斷裂的鏈變性并洗去。為了進行連續(xù)或重疊的框或讀取2-3個堿基,可以使用不同的錨和/或探針設計。例如第一輪循環(huán)UUUUUUUUUUU.BBNNNNNN第二輪循環(huán)UUUUUUUUUNN.BBNNNNNN或UUUUUUUUUUU.NNBBNNNN第三輪循環(huán)UUUUUUUUUNN.麗BBNNNN其中U代表共同的預先確定的堿基,B代表特定的堿基,而N代表筒并堿基??梢詫⒕哂泻啿⑹袒腻^設計成兩部分,以確保優(yōu)先結合在簡并位置上的具有匹配的堿基的錨。可以使用重疊框或移位框來多次讀取同一耙標中的每個堿基。以下給出了對錨之后的前4個堿基的多次讀取的兩個實例UUUUUUUUUU.UBBNNNNNUUUUUUUUUUU.BBNNNNNNUUUUUUUUUUN.BBNNNNNNUUUUUUUUUUU.麗BBNNNNUUUUUUUUUNN.BBNNNNNNUUUUUUUUUUN.BBNNNNNN其中U代表共有的預先確定的堿基,B代表特定堿基,而N代表簡并堿基。用句點(.)表示連接位點。檢測儀器在本發(fā)明的一個方面中,提供了硬件以容許測序方法的連接和雜交事件的檢測。在一個實施方案中,系統(tǒng)硬件包含三種主要組件;照明系統(tǒng)、反應小室和檢測器系統(tǒng)。檢測儀器可以包含幾種特征,例如可調整的激光源(adjustablelaserpower)、電子閘(electronicshutter)、自動對焦(autofocus)和操作軟件。來自根據本發(fā)明產生的隨機陣列上的單分子的信號可以通過許多探針系統(tǒng)來產生并檢測,所述檢測系統(tǒng)包含但不限于掃描電子顯微鏡、近場掃描光學顯微鏡(nearfieldscanningopticalmicroscopy,NSOM)、全內反射焚光顯微鏡(totalinternalreflectionfluorescencemicroscopy,TIRFM)等。在文獻中可找到關于這些技術在表面納米尺度結構的分析和檢測中的應用的豐富指導,如通過下列參考文獻所證明,通過提述將這些參考文獻并入本文Reimeretal,editors,ScanningElectronMicroscopy:PhysicsofImageFormationandMicroanalysis,2ndEdition(Springer,1998);Nieetal,Anal.Chem.,78:1528-1534(2006);Hechtetal,JournalChemicalPhysics,112:7761-7774(2000);Zhuetal,editors,Near-FieldOptics:PrinciplesandApplications(WorldScientificPublishing,Singapore,1999》Drmanac,InternationalpatentpublicationWO2004/076683;Lehretal,Anal.Chem.,75:2414-2420(2003》Neuschaferetal,Biosensors&Bioelect歷ics,18:489-497(2003);Neuschaferetal,美國專利6,289,144等。特別感興趣的是TIRFM,例如,由Neuschaferetal,美國專利6,289,144;Lehretal(上文引用)和Drmanac,國際專利申請WO2004/076683所公開的。在一個方面中,與本發(fā)明的陣列一起使用的儀器包含三個基本組件(i)用于將檢測和處理試劑,例如探針、清洗溶液等存儲和轉移到陣列上的流控技術系統(tǒng);(ii)反應室或流動池,其容納或包含陣列并具有流通和溫度控制能力;和(iii)照明和;險測系統(tǒng)。在一個實施方案中,流動池具有溫度控制子系統(tǒng),其具有將溫度維持在約5-95。C范圍內,或者更具體地,10-85°C范圍內的能力,并且可以以每秒約0.5-2°C的速率來改變溫度。在一個方面中,可以使用用于l"平方170微米厚的蓋玻片的流動池,所述蓋玻片已經過衍生化以結合本發(fā)明的大分子結構。該池通過將玻璃和墊圏夾入兩個平面之間來裝入"陣列"。一個平面具有大小足以容許成像的開口和用于蓋玻片的分度孔(indexingpocket)。另一個平面具有用于墊圏的分度孔、液流孔(fluidport)、和溫度控制系統(tǒng)。一個液流孔連到注射泵,注射泵將液體從流動池中"吸入"或"推出";另一個液流孔連到漏斗樣的混合室?;旌鲜已b備有液面?zhèn)鞲衅?。將溶液分配進該漏斗,如果需要的話加以混合,然后吸入流動池。在液面?zhèn)鞲衅髟诼┒放c流動池的連接中讀取到空氣時,將泵倒轉已知的量以將液體返回到漏斗。這樣防止空氣進入流動池??梢詫⑸w玻片表面分成區(qū)塊(sectionoff)并分為條段(strip)以適應由于夾入引起的液體流動/毛細管效應。這樣的基片可收納在"露天"/"露蓋,,("openair"/"openface")室以通過消除毛細管流動效應來促進緩沖液在基片上的均勻流動。顯像可以在Zeissaxiovert200等系統(tǒng)上使用100x物鏡、TIRF或落射照明(epi-illumination)、及1.3兆4象素Hamamatsuorca-er-ag來完成。這種配置可成像隨機地結合到基片上的RCR多聯(lián)體(非有序(non-ordered)的陣列)。顯像速度可以通過降4氐物鏡放大倍數、使用網格圖案陣列和增加在每個圖像中采集的數據的像素數來改進。在一個實施方案中,可以使用四個或更多個相機,優(yōu)選10-16兆像素范圍的相才幾。還可以用多個帶通濾波器和分色鏡來收集跨越多至4種或更多種發(fā)射光語的像素數據。為了補償物鏡放大降低所致的采光能力降低,可以增加激發(fā)光源的功率。每個相機可以與一個或多個流動室一起使用,使得成像系統(tǒng)在樣品正進行雜交/反應時不空閑,從而增加通量。因為陣列81的探測可以是非連續(xù)的,可使用超過一種成像系統(tǒng)來收集來自陣列組的數據,進一步降4氐測定時間。在成像過程期間,優(yōu)選的是基片保持焦點對準(infocus)。維持焦點的一些關鍵因素有基片的平整度、基片對焦平面的正交性和基片上可能使基片變形的機械力?;钠秸仁强梢粤己玫乜刂?well-control)的,并且易于獲得具有比1/4波平整度更好的玻璃板?;喜痪吹臋C械力可以通過雜交室的適當設計來最小化。與焦點平面的正交性可以通過良好調整而高精確的鏡臺來達到。一般而言,運行自動對焦程序要花費額外的時間,因此最好僅在需要時運行該程序。在優(yōu)選的實施方案中,獲取每幅圖像后,使用快速算法來分析以確定圖像是否焦點對準。如果圖像失焦,那么將觸發(fā)自動對焦程序。然后該系統(tǒng)會保存物鏡Z位置的信息,以供在下一輪成像循環(huán)期間返回該陣列的該部分時使用。通過對基片的不同位置上的物鏡Z位置定位,可能減少基片圖像采集所需的時間。在一個方面中,針對基于焚光信號的合適的照明和檢測系統(tǒng)是裝備與80毫瓦532nm固態(tài)激光器偶聯(lián)的TIRF玻片座(slider)的ZeissAxiovert200。玻片座以正確的TIRF照明角度透過物鏡來照明基片。TIRF還可以不使用物鏡而是透過與基片光學偶聯(lián)的棱鏡來照明基片而完成。還可以將平面波導用于實現基片上的TIRF。還可以采用落射照明(Epiillumination)。光源可以是光柵式光源(rastered)、發(fā)散光束式光源(spreadbeam)、相干光源、不相干光源,并可來自于單光鐠源或多光鐠源。成像系統(tǒng)的一個實施方案包括具有1.25mm視野(fieldofview)的20x鏡頭。10兆像素相機用于檢測。這種系統(tǒng)能對以1微米間距附接于圖案陣列的約150萬個多聯(lián)體成像上。在這種配置下,每個多聯(lián)體有約6.4個像素。每個多聯(lián)體的像素數量可以通過增加或者降低物鏡的視野來調整。例如,lmm視野產生每個多聯(lián)體的10個像素的值,而2mm:枧野產生每個多聯(lián)體2.5個像素的值。視野可以相對于物鏡的放大率和數值孔徑進行調整,以產生每個多聯(lián)體的仍能被光學系統(tǒng)和圖像分析軟件分辨最低像素數。TIRF和EPI照明都容許使用幾乎任何光源。一種照明方案提供一組通用的單色照明源(用于6-8種顏色的約4種激光),其為多個成像儀(imager)所共享。每個成像儀在任何給定時間收集在不同波長上的數據,而光學交換系統(tǒng)將把光源切換到成像儀。在這種實施方案中,照明源優(yōu)選地產生至少6種,但更優(yōu)選8種不同的波長。這些源包括氣體激光器、通過光纖耦合器聯(lián)合的多個二極管泵浦固體激光器、經濾光的氙弧燈、可調諧激光器或更新的SpectralumLightEngine(即將由TidalPhotonics才是供)。SpectralumLightEngine4吏用棱4竟光鐠分光。將光i普才更射到TexasInstrumentsDigitalLightProcessor上,其可以選擇性地將光語的任何部分反射到纖維或光學連接器中。這個系統(tǒng)能夠監(jiān)測并校準橫跨單獨波長的能量輸出以將它們保持恒定,從而在燈泡老化或更換燈泡時自動地補償強度差異。下列表格代表了可能的激光器的實例、染料和濾光器。<table>tableseeoriginaldocumentpage83</column></row><table>在一個方面中,成像通過lOOx物鏡來完成。激發(fā)光源是80毫瓦二極管泵浦固體激光器。這種光源已成功用于TIRFM和EPI照明技術。使用1.3兆像素Hamamatsuorca-er-ag相機和Ziessaxiovert200倒置顯微鏡來獲得圖像。目前,以這種配置成像隨機結合到基片上的DNB的曝光時間是0.5秒。為了處理多輪雜交循環(huán),可以實現與反應室和檢測系統(tǒng)完全整合的機器人工作站(roboticstation)以與本發(fā)明一起4吏用。落射萸光(epifluorescence)可以用于檢測每個靶標位點的多于10-20個熒光分子。使用落射熒光的優(yōu)勢在于它使得多種顏色的探針能夠與標準顯微鏡一起使用。在一個方面中,使用一種兩件套(twopiece)流動池來容納已衍生化并活化以結合DNB的l"平方、170nm厚度的蓋玻片。將側口連4妄到從流動池"吸入,,或"推出"液體的注射泵。將第二端口連接到裝備有液面?zhèn)鞲衅鞯穆┒窐拥幕旌鲜摇⑷芤悍峙淙牖旌鲜?,如果需要的話將溶液混合,然后吸入流動池。在液面?zhèn)鞲衅鳈z測到在漏斗到流動池的連接中有空氣時,將泵倒轉已知的量,以將液體返回漏斗。這可防止空氣進入流動池。這個室對蓋玻片大小的基片已工作良好,并且可以使用其改變形式以用于較大的基片??梢赃@種整合了雜交室和成像子系統(tǒng)的三軸機器人龍門架移液系統(tǒng)(roboticgantrypipettingsystem)功能化,用于完全自動化的探針移液。基準(fiducials)在一個實施方案中,將捕捉池的規(guī)則圖案以這樣的方式來中斷,以將位置信息編碼到每個捕獲的圖像中??梢詮拿總€圖像可以從圖案中去掉約1000個池以產生一種IO位的密碼,該密碼將代表每種基片上最多1024個指定的位置(圖5)。在圖像分析期間可以將編碼區(qū)的物理特征作為參考用來定位圖像中的所有像素,而將密碼自身用于證實儀器所成像的基片區(qū)域是正確的。編碼區(qū)的關鍵特征是每個元件被無結合點"空區(qū)域"團來代表。這消除了對基片上熒光標志的需要。對于給定的探針組為陽性的RCR產物限定了每個元件的邊界。這意味著,即使結合到表面上的RCR產物的僅5。/。至10%對給定的探針庫為陽性,該區(qū)域將仍是可識別的。在一個實施方案中,如果每個編碼元件代表50個捕捉池,那么該密碼是可讀的。本發(fā)明的試劑盒本文描述的方法的商業(yè)化中,某些試劑盒對本發(fā)明的隨機陣列的構建和對它們在不同應用中的用途是特別有用的。用于應用本發(fā)明的隨機陣列的試劑盒包括但不限于用于確定靶標多核苷酸的核苷酸序列的試劑盒。試劑盒典型地包含具有表面的至少一種支持物和一種或多種試劑,所述試劑對構建本發(fā)明的隨機陣列或用它實施應用是必須的或有用的。這些試劑包括但不限于核酸引物、探針、銜接頭、酶等,并且分別包裝在容器(例如但不限于小瓶、試管或瓶子)中,置于合適用于銷售(commercialdistribution)的包裝(例如但不限于盒子、密封袋、發(fā)泡包裝和紙盒)中。典型地,該包裝含有表明被包裝材料(packagedmaterials)的用途的標記或包裝說明書。如這里所使用的,"包裝材料"(packagingmaterials)包括任何被用來包裝試劑盒中的試劑以供銷售的物品,包括但不限于容器、小瓶、試管、瓶子、袋、發(fā)泡包裝、標記、標簽、說明圖標和包裝說明書。另一方面,本發(fā)明提供了用于對靶標多核苷酸測序的試劑盒,包含下列組分(i)具有平坦表面的支持物,所述表面具有光學上可分辨的離散間隔區(qū)的陣列,其中每個離散間隔區(qū)具有小于1|111112的面積;(ii)第一組探針,用于雜交到隨機布置離散間隔區(qū)上的多個多聯(lián)體,每種所述多聯(lián)體含有靶標多核苷酸的DNA片段的多個拷貝;和(iii)第二組探針,用于雜交到所述多個多聯(lián)體,使得只要來自第一組的探針鄰近地雜交到來自第二組的探針,所述探針就被連接。這些試劑盒可以進一步包括連接酶、連接酶緩沖液和雜交緩沖液。在一些實施方案中,離散間隔區(qū)可以含有附接的捕捉寡核苷酸,并且每個多聯(lián)體可以含有與捕捉寡核苷酸互補的區(qū)域,使得所述多聯(lián)體能夠通過捕捉寡核苷酸和所述多聯(lián)體的互補區(qū)之間形成復合物而附接到離散間隔區(qū)。另一方面,本發(fā)明包括用于環(huán)化DNA片段的試劑盒。在示例性的實施方案中,這種試劑盒包括下列組分(a)至少一個銜接頭,用于連接到一種或多種DNA片段上并與之形成DNA環(huán);(b)末端轉移酶,用于將同聚體尾附接到所述DNA片段上,從而為所述銜接頭寡核苷酸的第一末端提供結合位點,(c)連接酶,用于將所述銜接頭寡核芬酸的一條鏈連接到所述DNA片段的末端以形成所述DNA環(huán),(d)引物,用于退火至所述銜接頭寡核苷酸的所述鏈的區(qū)域上,和(e)DNA聚合酶,用于在滾環(huán)復制反應中延伸退火至所述鏈上的引物。在進一步的實施方案中,上述銜接頭寡核苷酸可以具有第二末端,其具有在4至12個范圍內的許多簡并堿基。上述的試劑盒可以進一步包括用于末端轉移酶、連接酶和DNA聚合酶的反應緩沖液。在另一方面中,本發(fā)明包括使用CircLigase酶(EpicentreBiotechnologies,Madison,WI)來環(huán)化DNA片段的試劑盒,該試劑盒包含體積排除聚合物(volumeexclusionpolymer)。在進一步的實施方案中,試劑盒包括下列組分(a)反應緩沖液,用于控制pH并提供用于CircLigase的優(yōu)化的鹽濃度,和(b)CircLigase輔因子。在另一方面中,用于這種試劑盒的反應緩沖液包含0.5MMOPS(pH7.5),0.1MKC1,50mMMgCl2,和10mMDTT。在另一方面中,這種試劑盒包括CircLigase,例如10-100CircLigase溶液(100單位/)^L)。在美國專利4,886,741(將其并入作為參考)中公開了示例性的體積排除聚合物,包括聚乙二醇、聚乙烯吡咯烷酮、葡聚糖硫酸酯等聚合物。在一個方面中,聚乙二醇(PEG)是50。/。PEG4000。在一個方面中,用于環(huán)形成的試劑盒包括下列成分:<formula>formulaseeoriginaldocumentpage86</formula>最纟冬反應體積20可以將上述的組分用在本領域中已知的許多不同的規(guī)程中,例如(1)根據DNA長度(具有5,-磷酸和3,羥基的ssDNA模板),在60-96。C加熱DNA;(2)在60。C將2.2X反應混合物預熱約5-10分鐘;(3)如果將DNA預熱至96。C,在60。C將其冷卻。在60。C混合DNA和緩沖液,而不使其冷卻,并且溫育2-3小時;(4)熱失活酶以停止連接反應。通過參考下列非限制的實施例可以更好的理解本發(fā)明,所述實施例是作為本發(fā)明的示例提供的。介紹了下列的實例以全面地闡明本發(fā)明優(yōu)選的實施方案,但是絕不應將它們解釋為限制本發(fā)明廣泛的范圍。實施例實施例1:DNB的基于RCR的形成和附接將兩種合成靶標共擴增(co-amplify)。將約一百萬個分子捕捉在玻璃表面上,然后針對耙標之一進行探測。成像和光漂白第一探針后,探測第二靶標。與擴增子特異的探針的連續(xù)雜交表明陣列上的每個點獨特地對應兩個擴增子序列中的任何一個。還證實,可以通過加熱至70°C來將探針去除,然后將其再雜交,以產生相等強度的信號。實施例2:環(huán)形成和擴增的-瞼i正使用大腸桿菌DNA(圖6)驗證了環(huán)形成和擴增過程。使用通用模板DNA來將通用銜接頭連接到靶標分子的5'末端,所述通用模板含有用于結合所有基因組序列的簡并堿基,所述通用銜接頭還發(fā)揮捕捉探針和RCR引物的結合位點的作用。通過使用末端轉移酶添加聚dA尾來修飾靶標分子的3'末端。然后使用與銜接頭和寡dA尾互補的橋接才莫板來環(huán)化經修飾的靶標。實施例3:與縮合的(condensed)多聯(lián)體的連接的驗證試驗了與縮合的多聯(lián)體發(fā)生探針連接的能力。在20°C使用連接酶進行反應IO分鐘,接著短暫清洗室以去除過量的探針。6-mer和標記的5-mer的連接產生與ll-mer的信號水平相當的信號水平。將包括隨機陣列的圖像分析的軟件模塊在模擬數據上試驗,以進行全基因組序列的重建。實施例4:使用單個陣列從多種病原體鑒定靶標將來自炭疽芽孢桿菌(Bacillusanthracis)和鼠疫耶爾森氏菌(Yersiniapestis)的診斷區(qū)域的PCR產物轉變成單鏈DNA,并附接于通用銜接頭。然后將這兩種樣品混合并用RCR—起復制,并沉積到的芯片表面成為隨機陣列。與擴增子特異的探針的連續(xù)雜交表明,陣列上的每個點獨特地對應兩種擴增子序列中的每一種,并且可以用探針來特異性地鑒定它們(圖7),從而證明鑒定在亞微米大小的DNA納米球中存在的DNA的敏感性和特異性,所述DNA納米球具有約100-1000個拷貝的通過RCR反應產生的DNA片段。使用標準PCR技術擴增了來自炭疽芽孢桿菌的155bp擴增子序列和來自鼠疫耶爾森氏菌的275bp擴增子序列,所用的PCR引物對中的一個引物是磷酸化的。使用X核酸外切酶降解磷酸化的那條^1,以產生PCR產物的單鏈形式。然后用T4DNA多核苷酸激酶來磷酸化其余一條鏈的5,末端以容許單鏈產物連接到通用銜接頭。使用T4DNA連接酶,在與耙標的5'末端和通用銜接頭的3'末端互補的模板寡核苦酸的幫助下,將通用銜接頭連接到輩巴標分子的5'末端。然后使用帶有與銜接頭和靶標的3'末端互補的堿基的橋接模板來環(huán)化連接了銜接頭的靶標。通過用核酸外切酶I處理去除線形DNA分子。通過混合單鏈樣品,使用Phi29聚合酶,以橋接寡核香酸作為起始引物環(huán)繞環(huán)化的銜接頭-靶標分子進行復制,來實施RCR。通過捕捉寡核芬酸將RCR產物捕捉于載玻片上,所述捕捉寡核苦酸附接于衍生化的玻璃蓋玻片上,并且與通用衫f接頭序列互補。對于陣列化的來源于炭疽芽孢桿菌和鼠疫耶爾森氏菌PCR擴增子的靶標納米球分子,順序地用TAMRA標記的與通用銜接頭序列互補的ll-mer探針或者與兩個擴增子序列之一互補的ll-mer探針來探測。通過重列獲自3種探針的連續(xù)雜交的圖像(圖7),可以看出大多數與銜接頭探針(藍點)雜交的陣列化分子將僅雜交到或擴增子1探針(紅點)或擴增子2探針(綠點),雜交到兩者上的非常少。這種特異的雜交模式證明在陣列上的每個點僅含有一種類型的序列,或是炭疽芽孢桿菌擴增子或是鼠疫耶爾森氏菌擴增子。還證明,通過使用序列特異的探針,rSBH方法能夠區(qū)別沉積在陣列上的具有不同序列的靶標分子。實施例5:對自含有簡并堿基的80-mer寡核苷酸產生的陣列化DNB中的堿基位置解碼將含有簡并堿基的合成寡核苷酸的單獨分子分成4個亞群,每個亞群在那個特定位置上含有一個A、C、G或者T堿基。自這種合成DNA生成的DNB的陣列可以具有約25%的帶有每種所述堿基的點。對所述4種堿基中每一種特異的探針對的四次連續(xù)雜交和連接鑒定了這些亞群(圖8)。將一種5'磷酸化、3'TAMRA標記的五聚體寡核苷酸與四種六聚體寡核苷酸之一配對。這四種連接探針對中的每一種雜交到靶標的含有A、C、G或T的版本。對于大多數靶標獲得了大于3的區(qū)別分值,證明了鑒定納米球靶標之間的單堿基差異的能力。區(qū)別分值是最高的點分值除以同一個點的其他3個堿基特異信號的平均值的結果。調整測定條件(緩沖液組成、所有成分的濃度、循環(huán)中每步的時間和溫度)可以產生相對于背景的較高信號,從而為計算完全匹配對錯配比率提供可能。在6-mer探針的點樣陣列上進行了相似的連接測定。在這種情況中,完全匹配/背景比率為約50,而平均完全匹配/錯配比率為30。結果進一步證明,通過增加連續(xù)探針循環(huán)的數量或者通過每個循環(huán)使用用不同染料標記的4種或更多種探針,能夠確定DNB中存在的DNA的部分或全部序列。為了鑒定亞群,使用了一組對所述4種堿基分別具有特異性的4種連接探針。將5'磷酸化、3'TAMRA標記,對應于T1A的第33-37位,序列為CAAAC的五聚體寡核苷酸(探針TlA9b)與對應于第27-32位的下列六聚體寡核苷酸中的一種配對ACTGTA(探針TlA9a),ACTGTC(探針TlA10a),ACTGTG(探針TlAlla),ACTGTT(探針TlA12a)。這四種連接探針對中應該分別雜交到T1A的含有A、C、G、或T的版本。對于每輪雜交循環(huán),將探針與陣列在含有T4DNA連接酶的連接/雜交緩沖液中于20°C溫育5分鐘。將過量的探針在20°C洗去,用TIRF顯微鏡來拍攝圖像。剝離結合的探針以準備下一輪的雜交。將攤f接頭特異的探針(BrPrb3)雜交到陣列上以證實所有點的位置(圖8)。然后將0.4pM的4種連接探針對連續(xù)地雜交到陣列上雜交到A特異的連接探針對的點在圖5中顯示為紅色,C特異的點為綠色,G特異的點為黃色而T特異的點為青色。在圖5中,環(huán)A指出了一個既雜交到銜接頭探針又雜交到A特異連接探針對的點的位置,暗示在排列在這個點上的DNA來源于在第32位上含有A的T1A分子。很清楚,大多數點只與4種連接探針對中的一種結合,從而容許特異地確定第32位的堿基。使用內部的圖像分析程序來鑒定點,所用的圖像是為使用銜接頭探針的雜交循環(huán)拍攝的。對于隨后的使用堿基特異連接探針的循環(huán),也鑒定了相同的點,并定量了熒光信號。對于每個點的每個堿基特異的信號的每個信號計算區(qū)別分值。區(qū)別分值是點的分值除以同一點的其它3種堿基特異信號的平均值的結果。對于每個點,將4種堿基特異的區(qū)別分值中的最高值與第二高的值相比較。如果兩者的比率大于1.8,那么選擇對應于最大區(qū)別分值的堿基用于堿基判定。在這種分析中,成功地對超過500個點進行了堿基判定,平均區(qū)別分值為3.34。平均完全匹配的信號為272,而平均單個錯配信號(來自未選擇的堿基的信號)為83.2。因此完全匹配/錯配的比率為3.27。通過定量來自隨機選擇的空點的信號來計算圖像的背景噪音,這些空點的平均信號為82.9。因此完全匹配/背景噪音比率為3.28。在這些實驗中,由于全匹配信號相對背景來說較低,限制了錯配的區(qū)分度。實施例6:使用探針-錨連接測定法來解碼合成的80-mer寡核苷酸末端處的2個簡并堿基使用5,末端處含有8個簡并堿基的合成寡核苷酸模擬隨機基因組DNA末端。在用這種寡核苷酸生成的DNA納米球中這8個簡并堿基將直接與銜接頭序列相鄰。為了證明使用探針-錨連接方法來對與已知銜接頭序列鄰近的2個未知石咸基的測序的可行性,將帶有可雜交到銜接頭序列3'末端的特異序列的12-mer寡核苷酸用作錨,而將一組16種TAMRA標記的寡核苷酸(以BBNNNNNN的形式)用作序列讀取探針。使用BBNNNNNN探針組的亞組(即以GA、GC、GG和GT替代BB),可以鑒定產生自特異地結合于這四種探針中的一個探針的靶標的納米球陣列上的點,而且平均的完全匹配/錯配比率超過20(圖9)。實施例7:產生結構化(structured)納米球陣列制備捕捉探針的規(guī)則的線排列,各條線平均相隔5pm。線使用拉伸的玻璃毛細管來產生,玻璃毛細管成45度角傾斜至尖端大小5nm,載入含5lnM捕捉探針的1nl水,并通過精密龍門式機器手來劃過載玻片。使得DNB附接到蓋玻片表面,然后用對銜接頭特異的探針來檢測。圖10顯示了針對表面上捕捉探針沉積區(qū)域的高密度附接,提示如果制備了帶有亞微米結合位點的基片,那么可以將DNB排布成網格。實施例8:用多個銜接頭成環(huán)的演示通過引物之一的磷酸化和用X核酸外切酶處理去除磷酸化的鏈,從雙鏈產物獲得了長度為70個堿基的合成靶標DNA和長度為200-300bp的PCR來源的片段。將單鏈片段連接到用于環(huán)化的銜接頭。如本文所描述,進行的聚合、lis型限制酶消化和與新銜接頭的再連接。使用最終衍生的環(huán)的RCR擴增來完成該方法是成功的證明。簡而言之,將DNA環(huán)和與最后導入的銜接頭互補的引物和Phi29聚合酶在30。C溫育1小時以產生單個多聯(lián)體分子,該多聯(lián)體分子由的最初的DNA環(huán)的數百個重復拷貝組成。RCR產物對蓋玻片表面的附接還可以通過利用多聯(lián)體中與表面上的附接寡核苷酸互補的銜接頭序列來完成。利用銜接頭獨特的探針的雜交來證明單獨的銜接頭被摻入了環(huán)并且最終摻入了RCR產物。為了證明銜接頭摻入了環(huán)內期望的位置,將序列特異的探針(標記的5-mer)用于合成或RCR來源的序列,以使識別銜接頭末端序列的未標記錨探針能夠發(fā)生連接。還使用了克隆和測序來證實DNA完整性。通過在每次環(huán)切割后產生干凈的ssDNA,使得每個銜接頭的摻入可以使用相同的環(huán)閉合化學法,從而簡化了該過程。權利要求1.鑒定在包含多個檢測位置的靶標序列的一個檢測位置上的第一核苷酸的方法,所述方法包含(a)提供多個多聯(lián)體,其中每個多聯(lián)體包含多個單體,每個單體包含i)所述靶標序列的第一靶標域,其包含第一組靶標檢測位置;ii)第一銜接頭,其包含IIs型內切核酸酶限制位點;iii)所述靶標序列的第二靶標域,其包含第二組靶標檢測位置;和iv)第二散在銜接頭,其包含IIs型內切核酸酶限制位點;(b)鑒定所述第一核苷酸。2.根據權利要求1的方法,其中將所述靶標序列多聯(lián)體固定化在表面上。3.根據權利要求2的方法,其中所述鑒定步驟包含(a)使所述多聯(lián)體與一組測序探針接觸,每個所述探針包含i)與所述銜接頭之一互補的第一域;ii)在第一詢問位置上的獨特核苷酸;和iii)才示^己;所述接觸在這樣的條件下進行,其中如果所述獨特核苷酸是與所述第一核苷酸互補的,那么測序探針雜交到所述多聯(lián)體;和b)鑒定所述第一核苷酸。4.根據權利要求2的方法,其中每個銜接頭包含錨探針雜交位點,并且所述鑒定步驟包含(a)將錨探針雜交到所述錨探針雜交位點;(b)將測序探針雜交到鄰近所述銜接頭的靶標檢測位置;(c)將鄰近的發(fā)生雜交的測序探針和錨探針連接以形成連接的探針;和(d)檢測所述連接的探針以鑒定所述第一核苷酸。5.根據權利要求2的方法,其中每個銜接頭包含錨探針雜交位點,并且所述鑒定步驟包含(a)將錨探針雜交到所述錨探針雜交位點;(b)在這樣的條件下添加聚合酶和至少一種包含標記的dNTP,在所述條件下,如果所述dNTP是與檢測位置完全互補的,則所述dNTP被添加到所述錨探針以形成延伸的探針,由此產生延伸的探針的詢問位置;并且(c)確定在所述延伸的探針的詢問位置上的核苷酸。6.根據權利要求2的方法,其中鑒定在第二檢測位置上的核苷酸。7.根據權利要求6的方法,其中鑒定在第三檢測位置上的核苷酸。8.根據權利要求7的方法,其中鑒定在第四檢測位置上的核苷酸。9.根據權利要求8的方法,其中鑒定在第五檢測位置上的核苦酸。10.根據權利要求9的方法,其中鑒定在第六檢測位置上的核苷酸。11.根據權利要求2的方法,其中所述表面是官能化的。12.根據權利要求11的方法,其中所述官能化的表面包含官能性模塊,所述官能性模塊選自胺、硅烷或羥基。13.根據權利要求2的方法,其中所述表面包含多個空間上迥異的區(qū)域,所述區(qū)域包含所述固定化的多聯(lián)體。14.根據權利要求2的方法,其中使用捕捉探針將所述多聯(lián)體固定在所述表面上。15.根據權利要求1的方法,進一步包含斷裂基因組核酸以形成靶標序列。16.根據權利要求1的方法,其中所述第一和第二銜接頭的所述IIs型內切核酸酶限制位點是相同的。17.根據權利要求1的方法,其中所述第一和第二銜接頭的所述IIs型內切核酸酶限制位點是不同的。18.—種基片,包含多個固定化的多聯(lián)體,所述多聯(lián)體的每個單體包含:a)第一靶標序列;b)包含lis型內切核酸酶限制位點的第一銜接頭;c)第二靶標序列;和d)包含lis型內切核酸酶限制位點的第二散在銜接頭。19.根據權利要求18的基片,其中每個單體進一步包含第三靶標序列和包含lis型內切核酸酶限制位點的第三散在銜接頭。20.根據權利要求19的基片,其中每個單體進一步包含第四靶標序列和包含lis型內切核酸酶限制位點的第四散在銜接頭。21.根據權利要求18的基片,其中所述基片是玻璃。22.根據權利要求21的基片,其中所述玻璃是官能化的。23.根據權利要求18的基片,其中所述基片包含捕捉探針,并且所述多聯(lián)體通過雜交被固定化于所述捕捉探針。24.根據權利要求18的基片,其中所述第一和第二銜接頭的所述lis型內切核酸酶限制位點是相同的。25.根據權利要求18的基片,其中所述第一和第二銜接頭的所述lis型內切核酸酶限制位點是不同的。26.根據權利要求18的基片,其中所述靶標序列是基因組核酸序列。27.根據權利要求26的基片,其中所述基因組核酸序列是人的。28.在靶標序列中插入多個銜接頭的方法,包含(a)將第一銜接頭連接到所述靶標序列的一個末端,其中所述銜接頭包含限制酶的結合位點;(b)環(huán)化來自步驟(i)的產物以產生第一環(huán)形多核苷酸;(c)用限制酶切割該環(huán)形多核苷酸,其中該限制酶能夠結合到該第一銜接頭中的結合位點;(d)連接第二銜接頭,其中所述第二銜接頭包含限制酶的結合位點;(e)環(huán)化來自步驟(d)的產物以產生第二環(huán)形多核芬酸;其中任選地重復步驟(c)到(e)以在靶標序列中插入期望數目的銜接頭。29.根據權利要求28的方法,其中所述第一銜接頭的所述結合位點包含lis型內切核酸酶限制位點。30.根據權利要求28的方法,其中所述第二銜接頭的所述結合位點包含lis型內切核酸酶限制位點。31.根據權利要求28的方法,其中所述環(huán)化步驟包含添加CircLigaseTM酵。32.根據權利要求28的方法,其中所述環(huán)化步驟包含(a)將環(huán)化用序列添加到所述靶標序列的第二末端;(b)使橋接模板至少雜交到所述銜接頭的一部分和所述環(huán)化用序列的一部分;(c)將所述第一和第二末端連接在一起以環(huán)化該耙標序列。33.鑒定靶標序列的核苦酸序列的方法,該方法包含以下步驟(a)在靶標序列內提供多個散在銜接頭,每個散在銜接頭與靶標序列具有至少一個邊界;和(b)確定至少兩個散在銜接頭的至少一個邊界鄰近的至少一個核苷酸的身份,由此鑒定該靶標序列的核苷酸序列。34.包含一個以上核酸片段的多核苷酸文庫,每個片段包含多個散在銜接頭,其中每個散在銜接頭具有至少一個具有這樣的序列的末端,所述序列對于所述多個散在銜接頭中其它每一個散在銜接頭的序列都是不能交叉雜交的。35.權利要求34的文庫,其中多個散在銜接頭具有預定的順序。36.權利要求35的文庫,其中所述散在銜接頭的預定的順序對每個核酸片段而言是相同的。37.權利要求34的文庫,其中每一個所述核酸片段都是閉合單鏈DNA環(huán)。38.鑒定靶標序列的核苷酸序列的方法,該方法包含下列步驟(a)提供來自該靶標序列的多個片段中每個片段的擴增子,每個片段含有位于預定位點上的多個散在銜接頭,每個擴增子包含多個拷貝的片段,且這些擴增子包括基本上覆蓋該靶標序列的多個片段;(b)提供擴增子的隨機陣列,這些擴增子以這樣的密度固定到表面,使得至少大多數所述擴增子是光學上可分辨的;(c)在這樣的條件下將一個或多個測序探針雜交到該隨機陣列,所述條件容許所述一個或多個測序探針與所述散在銜接頭上的互補序列之間形成完全匹配的雙鏈體;和(d)通過在序列特異性反應中延伸所述一個或多個測序探針來鑒定與至少一個散在銜接頭鄰近的至少一個核苷酸;和(e)重復步驟(c)和(d),直至鑒定出該靶標序列的核苷酸序列。39.鑒定靶標序列的核苦酸序列的方法,該方法包含下列步驟(a)提供多聯(lián)體的隨機陣列,所述多聯(lián)體固定于平坦表面,其中所述表面具有光學上可分辨的離散間隔區(qū)的陣列,并且其中每個離散間隔區(qū)具有小于1pn^的面積,并且基本上所有這些區(qū)域都附接了至多一個所述多聯(lián)體,每個多聯(lián)體包含該靶標序列的片段的多個拷貝,每個這樣的片段在預定位點上包含多個散在銜接頭,并且不同多聯(lián)體的數目使得它們各自的片段基本上覆蓋該靶標多核苷酸;(b)在這樣的條件下,將來自第一組探針的一個或多個探針雜交到該隨機陣列所述條件容許所述一個或多個探針和所述多聯(lián)體上的互補序列之間形成完全匹配的雙鏈體;(c)在這樣的條件下,將來自第二組探針的一個或多個探針雜交到該隨機陣列所述條件容許所述一個或多個探針和所述多聯(lián)體上的互補序列之間形成完全匹配的雙鏈體;(d)對雜交到多聯(lián)體的連續(xù)位點上的來自所述第一組和第二組的探針進行連接;(e)鑒定所述連接的探針的序列;和(f)重復步驟(b)到(e)以鑒定該靶標序列的核苷酸序列40.鑒定靶標序列的核苷酸序列的方法,該方法包含下列步驟(a)提供來自該靶標序列的多個多聯(lián)體,每個多聯(lián)體包含該靶標序列的片段的多個拷貝,每個片段含有多個位于預定位點上的散在銜接頭;(b)提供多聯(lián)體的隨機陣列,其中多聯(lián)體以這樣的密度固定到表面,使得至少大多數所述多聯(lián)體是光學上可分辨的;(c)鑒定至少一個多聯(lián)體中至少一個散在銜接頭鄰近的每個片段的至少一部分的序列,由此鑒定該靶標序列的核苷酸序列。41.權利要求40的方法,其中所述多個多聯(lián)體包括多個片段,使得所述片段基本上覆蓋所述靶標序列。42.權利要求41的方法,進一步包含從所述多聯(lián)體的所述片段的所述部分的序列的身份重新構建該靶標序列的核苷酸序列的步驟。全文摘要本發(fā)明涉及使用散布在靶標多核苷酸中的銜接頭來獲得靶標序列的核苷酸序列信息的方法和組合物。該序列信息可以是新的,例如對未知核酸測序、再測序或者基因型分裂。本發(fā)明優(yōu)選地包括在靶標多核苷酸或者多核苷酸片段內的間隔位置上插入多個銜接頭的方法。這樣的銜接頭可以充當平臺,用于通過不同的測序化學法,例如那些通過引物延伸、探針連接等來鑒別核苷酸的測序化學法來起到詢問鄰近的序列的測序化學法。本發(fā)明涵蓋這樣的方法和組合物,用于將已知的銜接頭序列插入靶標序列,使得連續(xù)的靶標序列被銜接頭所中斷。通過對銜接頭的“上游”和“下游”兩者測序,可以完成整個靶標序列的鑒定。文檔編號C12Q1/68GK101432439SQ200780014746公開日2009年5月13日申請日期2007年2月26日優(yōu)先權日2006年2月24日發(fā)明者拉多杰·德馬納克,斯尼扎納·德馬納克,馬修·J·卡洛申請人:考利達基因組股份有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1