專利名稱:發(fā)現(xiàn)表達連接基因的制作方法
技術領域:
本發(fā)明涉及分子生物學和生物技術領域,更具體地涉及基因組DNA中核酸序 列的測序、檢測以及鑒定領域。更加具體地說,本發(fā)明涉及一種方法在核苷酸序列的鑒 定和/或檢測中的應用,其中所述核苷酸序列代表基因組中的大部份轉(zhuǎn)錄區(qū)及其周圍區(qū) 域,并且涉及多種多樣的遺傳性狀、基因和它們的組合。本發(fā)明可以用于高通量檢測和 鑒定來自任何來源,可以是植物、動物、人、人造物或其他來源的分子標記物的領域。
背景技術:
育種技術已從可見性狀的簡單選擇演變成利用分子標記物來檢測多基因性狀的 先進方法。原則上,雜交群體的不同種系之間的每一種遺傳差異都能夠代表一種改變的 性狀。然而,由于大多數(shù)基因組的復雜性,所以不可能鑒定基因組之間存在的每一種差 異并使其關聯(lián)于特定性狀。從理論上講,對完整的基因組進行測序?qū)⒔沂净蚪M之間的 所有差異。然而,借助于目前的測序技術,在實踐中不可能以時間和成本有效的方式實 現(xiàn)上述目的。因此,用于檢測遺傳差異的方法主要基于復雜度降低的原則,其涉及來自 不同個體的有限但完全確定部分的基因組DNA的測序。隨著測序技術的發(fā)展,對于某些 用途如代表所有表達基因序列的轉(zhuǎn)錄物組(tnmscriptome)的分析,復雜度降低已變得不 那么重要了。然而,真核基因組的大小(幾十至數(shù)百的巨堿基(百萬堿基,megabase)) 仍然超過目前高通量測序技術的能力。此外,在真核生物體中,尤其是在那些具有較大 基因組的真核生物體中,絕大多數(shù)的基因組DNA并不提供對于育種目的有價值的信息, 因為它從未被表達,因而對于性狀的表達似乎并沒有貢獻。因此,為了鑒定分子標記物,集中于那些在更大程度上揭示與性狀緊密關聯(lián)的 分子標記物的基因組部分的方法優(yōu)于僅分析來自包括未表達區(qū)域的基因組的隨機選擇的 方法。當基因組大小增加時,這個問題就變得更加突出。所描述的方法使得能夠確定代 表大部份被表達的基因的編碼區(qū)的基因組DNA的所選部分以及它們周圍區(qū)域的序列。不 同個體之間的上述所選部分的比較使得能夠鑒定在已表達基因內(nèi)部或附近的多態(tài)位點。 因為在非編碼區(qū)中多態(tài)性的頻率更高,所以當使用目前的技術時能夠使更多的多態(tài)性與 表達基因相關。而且還可以對更多保守基因周圍的更大非編碼區(qū)中的多態(tài)性的存在進行 分析。這會最終導致發(fā)現(xiàn)每種性狀的至少一種標記物。本發(fā)明的方法使得能夠通過啟示 在不同個體和生物體中、甚至是在具有復雜和較大基因組的生物體中的基因組的明確確 定部分而集中于在基因編碼區(qū)和基因調(diào)控區(qū)中的SNP檢測。核苷酸序列多態(tài)性(如SNP)被廣泛用于構(gòu)造基因組圖譜。在稱作遺傳作圖的 方法中,在將多態(tài)性關聯(lián)于表型以后,上述多態(tài)性能夠用作標記物輔助育種技術中的標 記物從而檢測在發(fā)育任何階段的特定表型。通常在基因組DNA中鑒定核苷酸序列多態(tài) 性。當所有真核生物體的基因組大小遠超過能夠利用目前的高通量測序技術來分析的核 苷酸的數(shù)目時,就需要用于復雜度降低的重復性程序來分析整個基因組的選定部分,從 而發(fā)現(xiàn)在個體之間的能夠用于基因組作圖的遺傳差異。然而,目前使用的復雜度降低方法的統(tǒng)計特性意味著那些方法并不能揭示可以關聯(lián)于單一表型的在前的(priori)那些遺傳差異或是接近于對特定表型有貢獻的基因的圖譜。出于以下幾個原因,目前的技術主要集中于發(fā)現(xiàn)單核苷酸多態(tài)性(SNP)與任 何其他類型的多態(tài)性相比,SNP在基因組中存在的頻繁更高;SNP能夠準確檢測純合等 位基因和雜合等位基因;SNP能夠應用于高通量用途和許多工業(yè)平臺,許多工業(yè)平臺可 以在任何所希望的應用規(guī)模以較低成本進行SNP檢測。就像密切相關個體的保守基因編碼區(qū)和基因組一樣,雖然SNP發(fā)現(xiàn)是在發(fā)生低 水平多態(tài)性的情況下會選擇的方法,但是由于固有的低水平多態(tài)性,利用在密切相關個 體中的SNP發(fā)現(xiàn)的EST庫并不是那么有效??傊?,SNP發(fā)現(xiàn)方法應理想地揭示物理上關聯(lián)于感興趣的性狀的所有存在 SNP,而不應受到較低水平多態(tài)性(當它們存在于基因組的基因編碼區(qū)中時)的阻礙或受 到對基因組序列知識的任何要求的阻礙。因此,需要一種能夠可重復地確定基因組DNA區(qū)域中的代表大部份的基因編 碼區(qū)和它們周圍區(qū)域的相伴序列,而不需要使用先前已知的基因組或轉(zhuǎn)錄物組序列的方法。
發(fā)明內(nèi)容
本發(fā)明的發(fā)明人現(xiàn)已發(fā)現(xiàn)一種用于分析生物體的基因組區(qū)的方法,該方法包括 四個主要部分。第一部分涉及從用于制備小的單鏈DNA片段的所選生物體分離mRNA,該片段 具有一種包含親和標記的銜接子。這些DNA片段用于第三部分。在第二部分中,分離 來自相同或相關生物體的基因組DNA。使該基因組DNA片段化并連接于銜接子分子。 在第三部分中,使這些基因組片段與來自第一部分的單鏈DNA片段雜交,并且在此過程 中形成的雜交體用于合成DNA片段。這些片段將用于第四部分,該部分涉及利用可獲得 的高通量測序方法之一來對這些片段進行測序。因此,用于鑒定樣品中的基因組DNA的所述方法包括以下步驟a)從生物體的組織樣品分離和純化mRNA ;b)利用所述mRNA作為模板來合成cDNA ;c)可選地使所述cDNA的復雜度降低;d)使所述cDNA片段化;e)可選地選擇所述片段的大?。籪)可選地通過結(jié)合于鏈霉親和素包裹的親和珠除去包含多聚腺苷酸的片段;g)拋光cDNA的所述片段;h)所述片段與包含稀有限制酶的識別位點的一種銜接子和包含生物素標記的另 一種銜接子連接;i)可選地選擇所述片段的大??;j)所述片段的缺口修復;k)選擇包含兩種銜接子序列的所述片段;1)對步驟h中描述的所述銜接子序列退火,利用引物來擴增所述片段,其中一種引物與具有稀有限制位點的銜接子互補而另一種引物包含生物素標記;m)使所述片段結(jié)合于鏈霉親和素包裹的親和珠;η)利用來自所述片段的相應的限制酶,除去包含所述稀有限制位點的銜接子;ο)通過生物 素-鏈霉親和素相互作用,從借助于生物素-鏈霉親和素相互作用附 著于親和珠的雙鏈DNA片段除去未附著于親和珠的單鏈,從而產(chǎn)生結(jié)合于鏈霉親和素親 和珠的DNA的單鏈;ρ)分離和純化例如來自步驟a的生物體的基因組DNA ;q)所述基因組DNA的片段化;r)可選地拋光所述基因組DNA ;s)所述基因組DNA與一種單一類型的銜接子或與兩種不同類型的銜接子(優(yōu)選 的)連接; t)將所述基因組DNA解鏈成單鏈DNA ;u)使來自步驟t)的基因組DNA與來自步驟ο)的在珠上的cDNA雜交;ν)通過洗滌除去未結(jié)合的基因組DNA ;w)通過聚合酶來延伸所述cDNA-基因組DNA雜交體以產(chǎn)生雙鏈模板;χ)對所述基因組DNA-cDNA雜交體進行PCR ;y)通過大小分級,從所述PCR選擇大于約100個堿基對的片段;ζ)可選地純化所述片段;aa)對所述片段進行高通量測序。在另一種實施方式中,該方法被擴展成用于鑒定多態(tài)性的方法,包括根據(jù)權利 要求所述方法的所有步驟并且另外包括來自兩個或更多樣品的序列數(shù)據(jù)以鑒定多態(tài)性。定義在以下描述和實施例中使用了若干術語。為了提供對說明書和權利要求(包括 給定術語的范圍)的明確和一致的理解,提供了以下定義。除非本文另有規(guī)定,所使用 的所有技術和科學術語都具有與本發(fā)明所屬領域技術人員所通常理解的相同的意義。所 有出版物、專利申請、專利以及其他參考文獻的全部內(nèi)容以引用方式結(jié)合于本文。核酸根據(jù)本發(fā)明的核酸可以包括嘧啶和嘌呤堿基的任何聚合物或低聚物,分 別優(yōu)選為胞嘧啶、胸腺嘧啶、和尿嘧啶,以及腺嘌呤和鳥嘌呤(參見Albert Llehninger, Principles of Biochemistry, at793_800 (Worth Pub. 1982))。本發(fā)明也包括任何脫氧核糖核 苷酸、核苷酸或肽核酸成分、以及它們的任何化學變體,如這些堿基的甲基化、羥甲基 化或糖基化形式等。上述聚合物或低聚物的組成可以是異質(zhì)或同質(zhì)的,并且可以分離自 天然存在的來源或可以人工合成產(chǎn)生。此外,核酸可以是DNA或RNA、或它們的混合 物,并且可以永久或過渡性地以單鏈或雙鏈形式存在,包括同源雙鏈、異源雙鏈、以及 雜交狀態(tài)。SNP單核苷酸多態(tài)性是當基因組中的單個核苷酸(A、T、C、或G)在物種 的成員之間(或在個體的成對染色體之間)在特定基因座處不同時所發(fā)生的DNA序列變 異。SNP是遺傳變異的最常見類型。SNP可以在基因的編碼序列、基因的非編碼區(qū)、 或基因之間的基因間隔區(qū)中。由于遺傳密碼的簡并性,編碼序列內(nèi)的SNP未必會改變所 產(chǎn)生的蛋白質(zhì)的氨基酸序列。其中兩種形式均導致產(chǎn)生相同多肽序列的SNP被稱作同義的,而如果產(chǎn)生 了不同的多肽序列,則稱其為非同義的。因為SNP是進化上保守的,所 以它們可以用作數(shù)量性狀遺傳位點(QTL)分析的標記物以及用于關聯(lián)研究。內(nèi)含子內(nèi)含子是基因的非編碼部分,其在剪接的過程中被從mRNA前體除去 以產(chǎn)生功能mRNA。外顯子外顯子是被轉(zhuǎn)錄到最后的信使RNA(mRNA)分子而不是像內(nèi)含子一 樣被從轉(zhuǎn)錄RNA分子剪接掉的基因中DNA的任何區(qū)域。cDNA cDNA是人造形式的 DNA,其利用RNA分子作為模板通過逆轉(zhuǎn)錄酶合成?;蚪MDNA:術語基因組DNA是指DNA來源于“本身”的情況。這意味著, 當在自然界被發(fā)現(xiàn)時,基因組DNA所具有的序列,例如包括內(nèi)含子和調(diào)控序列?;蚪M DNA可以來自不同的來源,如染色體,但也可以源自染色體外的來源如線粒體、葉綠體 以及質(zhì)粒。Cot-I DNA:用來確定任何基因組的序列復雜度的技術,包括DNA的變性和 復性。通過加熱使DNA變性并且這會使氫鍵解鏈并使DNA成為單鏈。如果快速冷卻 DNA,則DNA仍然是單鏈。但如果能夠使DNA緩慢冷卻,則互補的序列將彼此發(fā)現(xiàn)并 最終再次成為堿基對。DNA重退火(復性的另一術語)的速率是從其分離DNA的物種 的函數(shù),也稱為“Cot”曲線。具有高Cot值的DNA是高度重復的DNA,而具有低Cot 值的DNA僅可獲得低拷貝或是唯一的。在該方法中,我們使用Cot值為1的DNA,其 是被富集以用于高度重復DNA序列的總基因組DNA的一部分。標注cDNA序列的標注包括兩個步驟。將所獲得的序列與如可由(公共)數(shù)據(jù) 庫中獲得的核苷酸和/或氨基酸序列比較。用于比較目的的序列比對方法在本領域是眾 所周知的。通常借助于程序來進行這種比較,如由Altschul etal.,1990)描述的NCBI堿 基局部對準檢索工具(Basic Local Alignment Search Tool, BLAST)。該程序可獲自若干來 源,包括國家生物信息中心(National CenterforBiological Information,NCBI, Bethesa, Md.)和因特網(wǎng)(HTTP://www.ncbi.nlm.nih.gov/BLAST/)。該程序比較所鑒定的 cDNA/ EST (已表達序列標志)序列和數(shù)據(jù)庫中存在的序列,并基于某個評分和概率參數(shù)來提供 結(jié)果。該程序能夠選擇那些具有所述概率參數(shù)的某個預定下限的cDNA/EST序列。然后 在第二步驟中為所選擇的cDNA/EST序列提供標注(即,連接于數(shù)據(jù)庫中存在的序列)。 這種類型的標注被稱作“電子標注(electronic annotation) ”。成簇術語“成簇”是指通過成對比較兩個或多個核苷酸序列并選擇相同或類 似核苷酸的短或長的延伸的存在來收集具有相似性的序列的集合的構(gòu)建。如下文將進一 步解釋的,用于比對核苷酸序列的若干種方法在本領域是已知的。有時術語“裝配”或
“序列比對”作為同義詞使用。標識符(Identifier)能夠被加入到銜接子或引物中或包括在其序列中或用作標 記以提供獨特的標識符的短序列。這樣的序列標識符可以是不同長度但確定長度的僅用 于鑒定特定核酸樣品的獨特的堿基序列。例如4bp的標簽能夠獲得44 = 256種不同的 標簽。典型的實例是ZIP序列,在本領域是已知作為用于通過雜交進行的獨一檢測的 (uniquedetection)常用標簽(Iannone etal.Cytometry39 131-140, 2000) 利用這樣的標 識符,在進一步處理以后,可以確定PCR樣品的來源。在合并源自不同核酸樣品的已處 理產(chǎn)物的情況下,通常利用不同的標識符來鑒定不同的核酸樣品。
測序術語測序是指確定核酸樣品(例如DNA或RNA)中核苷酸的次序(堿 基序列)。高通量篩選,經(jīng)??s寫為HTS,是一種用于具體涉及生物學和化學領域的 科學實驗的方法。通過現(xiàn)代機器人和其他專門的實驗室硬件的結(jié)合,使得研究人員能 夠同時有效地篩查大量的樣品,更具體地說,這是一種如在本文其他地方所披露的測序 技術(來自 454 Life Sciences, www.454.com 以及 Illumina, www.illumina.com)。 例 如,Illumina Solexa測序方法依靠隨機片段化基因組DNA附著于平面的、光學透明表面 和固相擴增以產(chǎn)生具有> 1千萬個簇的超高密度測序流動池,每個簇包含 1,000個模 板的拷貝/平方厘米。利用通過合成的強的四色DNA測序技術(robustfour-color DNA sequencing-by-synthesis technology)來測定這些模板的序列,其中上述技術采用具有可去 除熒光的可逆終止子。這種方式能夠確保高精度和避免具有同聚重復序列的人為構(gòu)造。 利用激光激發(fā)和全內(nèi)部反射光學裝置來實現(xiàn)高靈敏度熒光檢測。限制性內(nèi)切核酸酶限制性內(nèi)切核酸酶或限制酶是一種識別雙鏈DNA分子中的 特定核苷酸序列(靶位點),并在位于每個靶位點處或在每個靶位點附近剪切DNA分子 的兩個鏈的酶。 限制片段通過用限制性內(nèi)切核酸酶消化所產(chǎn)生的DNA分子稱作限制片段。通 過特定限制性內(nèi)切核酸酶,任何給定的基因組(或核酸,不論其來源)都將被消化成限制 片段的離散集(discrete set)。來自限制性內(nèi)切核酸酶剪切的DNA片段可以進一步用于各 種技術并且能夠例如通過凝膠電泳加以檢測。連接作用由連接酶催化的酶促反應被稱作連接作用,其中兩個雙鏈DNA分子 被共價連接在一起。通常,兩條DNA鏈共價連接在一起,但還可以通過鏈末端之一的化 學修飾或酶修飾來防止兩條鏈中的一條進行連接。在該情況下,共價鍵連接將僅發(fā)生在 兩條DNA鏈中的一條中。合成寡核苷酸優(yōu)選具有約10至約50個堿基并且能夠化學合成的單鏈DNA分 子稱作合成寡核苷酸。總的說來,這些合成DNA分子被設計成具有獨特的或所期望的核 苷酸序列,雖然可以合成具有相關序列的分子的家族并且其在核苷酸序列內(nèi)的特定位置 具有不同的核苷酸組成。術語合成寡核苷酸將用來指具有所設計的或所期望的核苷酸序 列的DNA分子。銜接子具有有限數(shù)目的堿基對(例如長度為約10至約30個堿基對)的短雙鏈 DNA分子,其被如此設計以致它們能夠連接于限制片段的末端。銜接子通常由兩個合成 寡核苷酸構(gòu)成,上述兩個合成寡核苷酸具有彼此部分互補的核苷酸序列。當在適當條件 下在溶液中混合上述兩個合成寡核苷酸時,它們將退火以彼此形成雙鏈結(jié)構(gòu)。在退火以 后,銜接子分子的一端被設計為與限制片段的末端相容并且可以與其連接;銜接子的另 一端可以被設計為不能被連接,但這種情況是不需要的(雙連接銜接子)。具體地說,在 本發(fā)明中,銜接子是雙鏈DNA分子,通常為15至60個堿基對,其能夠通過退火兩個(部 分)互補寡核苷酸來制備。本文使用的銜接子可以是平端,或具有特異性突出端,用于 與具有互補突出端的DNA分子發(fā)生連接作用,如那些通過限制性內(nèi)切核酸酶消化所產(chǎn)生 的銜接子。銜接子可以具有在另一端上的另外的、非相容的突出端,其不能連接于平端 DNA片段并且不能連接于具有通過II型限制性內(nèi)切核酸酶產(chǎn)生的特異性突出端的DNA, 從而防止多個銜接子彼此之間的連接作用。
銜接子提供了在PCR期間的引物的退火位點,以在單一的PCR反應中擴增連接 于銜接子的不同DNA片段。連接于cDNA分子的銜接子之一可以攜帶II型限制性內(nèi)切核酸酶識別序列以在結(jié) 合于固相以后將銜接子從cDNA分子剪切掉。銜接子-連接限制片段已被銜接子加帽的限制片段。 弓丨物一般說來,術語引物是指DNA鏈,其能夠引發(fā)DNA的合成。在沒有引 物的情況下,DNA聚合酶不能從頭合成DNA:它僅能在其中使用互補鏈作為模板的反應 中延伸現(xiàn)有DNA鏈以指導待裝配核苷酸的次序。我們將涉及在聚合酶鏈反應(PCR)中 用作引物的合成寡核苷酸分子。DNA擴增術語DNA擴增將通常用來指利用PCR或可比較的擴增系統(tǒng)來體外 合成雙鏈DNA分子。注意到,存在其他擴增方法并且它們可以用于本發(fā)明。原則上, 本發(fā)明的方法可以通過利用任何核酸擴增方法來實施,如聚合酶鏈反應(PCR ; Mullis 1987,美國專利第4,683,195號、第4,683,202號和第4,800,159號),或通過利用擴增 反應如連接酶鏈反應(LCR ; Barany 1991,Proc.Natl.Acad.Sci.USA 88 189-193 ; EP Appl.No.,320,308)、自動維持序列復制(3SR ; Guatelli et al.,1990,Proc.Natl.Acad.Sci. USA87 1874-1878)、鏈置換擴增(SDA ;美國專利第5,270,184號和第5,455,166號)、 轉(zhuǎn)錄擴增系統(tǒng)(TAS ; Kwoh et al., Proc.Natl.Acad.Sci.USA 86 1173-1177)、Q-β 復制酶 (Lizardietal., 1988,Bio/Technology6 1197)、滾環(huán)擴增(RCA ;美國專利第 5,871,921 號)、基于核酸序列的擴增(NASBA),裂解酶片段長度多態(tài)性(美國專利第5,719,028 號)、等溫及嵌合引物引發(fā)的核酸擴增(ICAN)、分枝-延伸擴增方法(RAM;美國專利 第5,719,028號以及第5,942,391號)、或用于擴增DNA的其他適宜方法來實施。為了擴增相對于一種或多種擴增引物具有小數(shù)量的錯配的DNA,可以在降低的 嚴格性的條件(例如,利用38°C的退火溫度、或在有3.5mM MgCl2存在條件下的PCR擴 增)下進行擴增反應。本領域技術人員將能夠選擇適宜嚴格性的條件。拋光(也稱作末端修復)是指非平端DNA轉(zhuǎn)化成平端DNA。在有Mn2+存在的條件下,借助于DNA酶I,基因組DNA(gDNA)模板的拋光消 化會產(chǎn)生DNA片段,這些片段是平端的或具有包含長度為一個或兩個核苷酸的突出端。 類似地,通過機械方式的DNA的片段化提供了具有平端或突出端的片段的組合。這些
DNA片段,不管是促酶方式或機械方式產(chǎn)生的,都可以利用以下描述的程序加以“拋 、j, ”
JC 。在一種方法中,可以通過用單鏈特異性外切核酸酶,如BAL32核酸酶或Mung Bean核酸酶處理3’ -突出片段來進行拋光。通常,在使用前,應校準核酸酶。在另一種方法中,借助于Pfo DNA聚合酶或借助于其他DNA聚合酶如T4DNA 聚合酶或Klenow DNA聚合酶來產(chǎn)生平端。Pfo “拋光”或平端化能夠用來增加在用 DNA酶I進行基因組模板消化以后所產(chǎn)生的平端物質(zhì)的數(shù)目。Pfo DNA聚合酶填充到 5'突出端。另外,PfuDNA聚合酶呈現(xiàn)3'至5'外切核酸酶活性。因此,該酶可以用 來除去單核苷酸和雙核苷酸延伸以進一步增加可用于銜接子連接作用的平端DNA片段的 數(shù)目(參見例如,Costa, G.L.andM.P.Weiner, 1994, Protocols for cloning and analysis of blunt-endedPCR-generated DNA fragments.PCR Methods Appl 3 (5) S95 ; Costa, G.L.,A.Grafsky and Μ.P.Weiner, 1994, Cloning and analysis ofPCR-generated DNA fragments. PCR Methods Appl 3 (6) 338 ; Costa, G.L.and M.P.Weiner, 1994,Polishing with T4 or Pfu polymeraseincreases the efficiency of cloning of PCR products.Nucleic Acids Res.22 (12) 2423)。本發(fā)明的發(fā)明人已發(fā)現(xiàn),通過提供基因組DNA和通過利用來自銜接子-連接 cDNA的片段作為用于擴增基因組DNA片段的引物,能夠檢測在實際被轉(zhuǎn)錄的區(qū)域之外 的基因組序列,即啟動子、內(nèi)含子以及終止子序列。因此它結(jié)合了在基因組的已表達區(qū) 快速鑒定基因組DNA片段的可能性,其中在單次運行中可以實施多個樣品的測序,研究 這些區(qū)的周圍的基因組DNA片段的可能性,以及在基因編碼片段、內(nèi)含子片段以及包括 調(diào)節(jié)基因組序列的片段中檢測遺傳變異的可能性。其他的優(yōu)點在于,本發(fā)明的方法是普遍適用的,即用于所有生物體。事前不需 要關于基因組或基因組組織的信息。另一個優(yōu)點在于,在本發(fā)明的方法中不需要克隆步 驟。這使得能夠?qū)幋a毒性物質(zhì)或調(diào)節(jié)蛋白的序列進行測序,否則這將是不可能實施 的,因為在其體內(nèi)克隆和表達上述序列的宿主生物體將不能生存或難以生存。在同樣的 意義上,在克隆中產(chǎn)生問題的序列現(xiàn)在就能夠處理,并且對序列的長度沒有限制,序列 的長度對克隆的進度也會引起問題。其他的優(yōu)點在于,本發(fā)明的方法并不需要全長CDNA,而是可以使用更短的序 列。當分析較大基因組(例如來自鱗莖植物)時,這是特別有用的,因為可以保持集中 于基因組的最感興趣的或最相關的區(qū)域。下一個優(yōu)點在于,借助于本發(fā)明的方法,可以產(chǎn)生所有已表達DNA序列的引 物,這意味著能夠從已表達的序列獲得基因組數(shù)據(jù)。
圖1 從mRNA產(chǎn)生小單鏈DNA分子的示意圖。C是銜接子,D是不同的銜接 子,B是生物素,P是磷酸基團,bp是堿基對,ds是雙鏈,ss是單鏈,RE是限制酶,SA 是鏈霉親和素,LD-PCR是長距離PCR,按照生物化學國際聯(lián)盟命名委員會(NC-IUB)的 用于核苷酸的命名規(guī)則NBAiJ和NVTi3t0是用于核苷酸的單字母編碼,Ai3t0和分別 指30個A和30個T的一段序列。圖2 是示出了基因組DNA的片段的產(chǎn)生以及隨后與來自mRNA(圖1)的小單 鏈DNA分子雜交的示意圖。在若干步驟以后,獲得DNA片段,能夠利用高通量測序方 法對所獲得的DNA片段進行測序。C和D是同樣示于圖1中的銜接子。E和F是不同 的銜接子,B是生物素,bp是堿基對,ds是雙鏈,ss是單鏈以及SA是鏈霉親和素。圖3:示出了非磷酸化A和B銜接子連接于磷酸化、拋光的雙鏈基因組DNA片 段的末端。A和B銜接子在核苷酸序列以及在B銜接子上存在5’生物素標簽方面均不 同。缺口存在于每個銜接子的3’ -接頭處并且通過Bst DNA聚合酶的鏈置換活性來充 填片段。利用鏈霉親和素-生物素相互作用來除去旁側(cè)有純合銜接子集(A/A和B/B)的 片段并產(chǎn)生單鏈文庫模板。使片段結(jié)合于鏈霉親和素珠;未結(jié)合材料(由純合A/A銜接 子集構(gòu)成,其缺乏生物素)被沖洗掉。然后使固定的片段變性;B/B片段的兩個鏈仍然 通過生物素化B銜接子被固定,而A/B片段被洗滌成游離片段并用于隨后的步驟。
圖4: ELGD圖解實例1、2以及3。 圖片A是實例1。 蘋果基因組序列 FRA8S6E02IN5QW> 蘋果 EST 重疊群 cg8984st_846_7 以及擬南芥(Arabidopsis thaliana) 基因AT1G70160(未按比例繪制)的序列比對的示意圖。僅示出了 AT1G70160的有關 3,_部分。內(nèi)含子表示為FRA8S6E02IN5QW和AT1G70160中的白盒。剪接內(nèi)含子顯示 為Cg8984st_846_7中的細線。以黑色示出蛋白質(zhì)編碼序列(CDS)。以灰色示出3’ -未 翻譯區(qū)。用(A)n表示cDNA序列中的多聚腺苷酸尾。圖片B是實例2。蘋果基因組序 列FRA8SE02HOH39和蘋果EST重疊群cgl2357st_1428_21 (未按比例繪制)的序列比對 的示意圖。以黑色示出蛋白質(zhì)編碼序列(CDS)。以灰色示出5’ -未翻譯區(qū)和3’ -未 翻譯區(qū)。用(A)n表示cDNA序列中的多聚腺苷酸尾。圖片C是實例3。蘋果基因組序 列02-H03和蘋果EST 91044590 (未按比例繪制)的序列比對的示意圖。以黑色示出蛋白 質(zhì)編碼序列(CDS)。以灰色示出5’ -未翻譯區(qū)和3’ -未翻譯區(qū)。以白色示出基因組 序列中的非轉(zhuǎn)錄啟動子區(qū)。
具體實施例方式一方面,本發(fā)明涉及用于鑒定樣品中的基因組DNA的方法,該方法包括四個不 同部分。第一部分.在該部分,由cDNA產(chǎn)生小序列,其將用作第三部分中的引發(fā)序列。 此部分包括以下步驟a)從生物體的組織樣品分離和純化mRNA ;b)利用所述mRNA作為模板來合成cDNA ;c)可選地使所述cDNA的復雜度降低;d)所述cDNA的片段化;e)可選地選擇所述片段的大?。籪)可選地通過結(jié)合于鏈霉親和素包裹的親和珠來除去包含多聚腺苷酸的片段;g)拋光所述cDNA的片段;h)所述片段與包含稀有限制酶的識別位點的第一銜接子和包含生物素標記的第 二銜接子連接;i)可選地選擇所述片段的大小;j)所述片段的缺口修復;k)包含兩種銜接子序列的所述片段的選擇;1)對步驟h中描述的所述銜接子序列退火,利用引物來擴增所述片段,其中一種 引物與具有稀有限制位點的銜接子互補而另一種引物包含生物素標記;m)使所述片段結(jié)合于鏈霉親和素包裹的親和珠;η)利用相應的限制酶從所述片段除去包含稀有限制位點的銜接子;ο)通過生物素_鏈霉親和素相互作用從附著于親和珠的雙鏈DNA片段除去未附 著于親和珠的單鏈。此步驟導致產(chǎn)生結(jié)合于鏈霉親和素親和珠的DNA的單鏈。第二部分ρ)例如從步驟a)的生物體分離和純化基因組DNA ;
q)所述基因組DNA的片段化;r)可選地拋光所述基因組DNA ;s)所述基因組DNA與一種單一類型的銜接子或與兩種不同類型的銜接子(優(yōu)選的)連接;t)將所述基因組DNA解鏈成單鏈DNA。第三部分u)使來自步驟t)的基因組DNA與來自步驟ο)的珠上的cDNA雜交;ν)通過洗滌除去未結(jié)合的基因組DNA ;w)通過聚合酶來延伸cDNA-基因組DNA雜交體以產(chǎn)生雙鏈模板;χ)對所述基因組DNA-cDNA雜交體進行PCR ;y)通過大小分級分離從所述PCR選擇大于約100個堿基對的片段;ζ)可選地純化所述片段。第四部分aa)根據(jù)制造商的說明,利用步驟ζ)中獲得的片段實施高通量測序。另外,當已確定基因組DNA的序列時,可以接著進行確定兩個或多個樣品的序 列變化的步驟ab)比較兩個或多個樣品的數(shù)據(jù)以鑒定多態(tài)性。通過如此處理樣品核酸,則能夠可重復地分析生物體的基因組區(qū)(包括基因編 碼和連接區(qū)),而無需具有關于生物體的基因組的結(jié)構(gòu)或含量的任何信息。當測序過程能 夠用于具有標識符的銜接子時,在單次測序運行中就能夠結(jié)合多個樣品。該方法始于從生物體分離和純化mRNA的樣品。如此獲得mRNA的樣品在當今 是常規(guī)程序。類似地,對于下一步驟,其中,借助于逆轉(zhuǎn)錄酶,由樣品中的RNA來制備DNA 拷貝,即所謂的cDNA。該cDNA包含RNA所來自的細胞的轉(zhuǎn)錄物組,表現(xiàn)在獲得樣品 時已被轉(zhuǎn)錄的總體遺傳信息。因此,取決于細胞類型、從其獲得細胞的組織、細胞的年 齡、細胞的發(fā)育期以及環(huán)境條件,相同生物體的每個細胞的轉(zhuǎn)錄物組將是不同的,甚至 當在不同時間和/或不同條件下采樣時,從相同細胞也會獲得不同的轉(zhuǎn)錄物組。在最初 樣品中的核酸將通常為mRNA的形式。然而,來自其他來源的RNA或DNA也是有用 的,如來自基因文庫的RNA或DNA。樣品中的核酸可以是雙鏈、單鏈、以及變性成單 鏈DNA的雙鏈DNA。樣品可以來自任何生物體,無論植物、動物、合成物或人。應當 明了,如果獲得了 DNA樣品,則不需要逆轉(zhuǎn)錄酶反應。盡管樣品(如果它來自全細胞mRNA)包含總轉(zhuǎn)錄物組,但有時希望僅回收它的 子集。這能夠通過若干種方式來實現(xiàn)一種可能的方式是基于cDNA的大小來區(qū)別,例 如通過超速離心作用。該方法的原理稱作復雜度降低。用于復雜度降低的其它可選擇的 方法是例如雜交方法,該方法選擇高豐度或非高豐度轉(zhuǎn)錄物,或例如用于捕捉特定轉(zhuǎn)錄 物以從cDNA分子的池除去它們或選擇它們用于進一步分析的方法,或例如通過限制酶 切消化來產(chǎn)生cDNA分子的庫的子集的諸如cDNA-AFLP的方法。在已獲得cDNA的所期望的樣品以后,cDNA被片段化,這可以通過酶或機械方 式來完成。用至少一種限制性內(nèi)切核酸酶消化核酸樣品以提供一組限制片段。在某些實施方式中,兩種或多種核酸內(nèi)切酶可以用來獲得限制片段。核酸內(nèi)切酶可以是多切點酶 (frequent cutter) (3-5bp的識別序列,如Msel)或稀有切點酶(rarecutter) ( > 5bp的識別序 列,如EcoRI)。在某些優(yōu)選實施方式中,稀有切點酶和多切點酶的組合是優(yōu)選的。在 某些實施方式中,尤其是當樣品包含或來自相對較大基因組時,可以優(yōu)選使用第三種酶 (稀有切點酶或多切點酶)以獲得更大量的更短尺寸的限制片段。作為限制性內(nèi)切核酸酶,任何核酸內(nèi)切酶都能夠滿足要求。通常,II型核酸內(nèi) 切酶是優(yōu)選的,如EcoRI、MseL Pstl等。在某些實施方式中,可以使用IIs型內(nèi)切核酸 酶,即其識別序列的位置遠離限制位點的內(nèi)切核酸酶,如Acelll、BbvL BbvIK BbsL Bed、Bce83I、Bcefl、BcgL BinL BsaL BsgL BsmAK BsmFL BspMK Esp3I、FauL Fokl、Gsul、Hgal、MboII、Mmel、MnII、Sapl、SfaNI、TaqJI 以及 Zthll III??梢酝ㄟ^剪切cDNA來進行機械片段化,其中剪切的嚴格程度和持續(xù)時間確 定了片段化的量。一種這樣的剪切方法是霧化。霧化器是一種小型塑料裝置,其使 用壓縮空氣來使液體霧化。它們很容易適用于剪切DNA,并且其使用非常有效和簡單 (Surzycki, S., 2000, Basic Methods in Molecular Biology, NY—Springer Verlag)。它們可 以從不同來源商購獲得(例如Invitrogen Corporation)。也可以可選地通過尺寸選擇對這種片段化DNA實施復雜度降低。可選地,可以 通過片段的尺寸選擇來獲得復雜度降低,例如通過電泳。另外或可替換地,可以通過結(jié) 合于鏈霉親和素包裹的親和柱來除去多聚腺苷酸片段。在該方法的下一步驟中,利用一種還稱作‘拋光’的方法使CDNA片段形成平 端。插入拋光(insert polishing)用來除去3個引發(fā)突出核苷酸(prime overhang nucleotide) 或充填5個引發(fā)突出核苷酸,其來自所產(chǎn)生的限制酶、PCR產(chǎn)生的DNA片段或剪切的 DNA片段。用于拋光的試劑盒可商購獲得(例如Quick blunt kit,NewEngland Biolabs Inc.) ο在本發(fā)明方法的下一步驟中,通過連接反應,CDNA片段具有有銜接子。在該反 應中,將兩種不同類型的銜接子連接于cDNA片段的混合物。一種銜接子攜帶生物素標 記。另一種銜接子包含II型限制酶的限制位點,其中上述II型限制酶在其識別序列的外 面進行切割。上述II型限制酶的一個實例是Sapl,其識別GCTCTTCNNNN序列。該酶 在NNNN序列中進行切割,在5’端留下NNN突出。如此,可以從片段中除去包含限 制識別序列的完全銜接子序列。重要的是,使用一種稀有切點酶來防止由于在片段DNA 中更頻繁發(fā)生的識別序列所引起的片段的縮短。而且,在這個階段,可選地可以依據(jù)它們的尺寸并通過例如電泳來選擇片段。在銜接子連接于片段以后,對片段進行缺口修復,以充填在DNA骨架中由銜接 子的連接作用產(chǎn)生的任何間隙。如在M.Marguliesetal.in Nature 437,第 376-380 頁,2005 的出版物中的補充圖 1
中所描述的(圖3),可以選擇僅包含兩種銜接子的片段。 然后可以擴增包含兩種銜接子 的片段。在此步驟中,用一種退火雜交到互補銜接子序列之一的引物并連同另一種攜帶 退火雜交到另一種互補銜接子序列的生物素分子的引物,來進行PCR擴增反應。在利用 此組引物進行擴增步驟以后,在鏈霉親和素親和珠上捕捉擴增的雙鏈DNA片段,同時從 反應混合物除去其他反應產(chǎn)物。
在下一步驟中,用不對稱核酸內(nèi)切酶處理在5'端和3'端具有不同銜接子序列 的結(jié)合的DNA片段,其中上述不對稱核酸內(nèi)切酶以從片段的一端除去完全銜接子序列的 方式切割片段(如前所述),從而提供完全互補于基因組DNA的一個片段末端。在這種 限制步驟以后,在堿性條件下,通過洗脫從珠除去自由單鏈形式的片段,從而產(chǎn)生結(jié)合 于鏈霉親和素珠的一組單鏈核酸片段。一種用于從雙鏈片段產(chǎn)生單鏈片段的可替換的方 法是用λ外切核酸酶進行處理。λ外切核酸酶從雙鏈DNA分子降解那些具有磷酸化5' 端的鏈,從而留下具有完整的5' OH末端的單鏈。因為片段的5’端之一受到結(jié)合于鏈 霉親和素的生物素標記的保護,所以用λ外切核酸酶的處理還產(chǎn)生結(jié)合于鏈霉親和素珠 的單鏈DNA片段。這些單鏈DNA片段將用于后面的步驟。在以上描述的步驟以后,在第二部分中,從生物體分離基因組DNA。上述生 物體可以與從其分離mRNA的生物體相同(在相同或不同條件下進行培養(yǎng))或可以是不 同生物體(不同品種、不同物種)并且甚至可以是基因組DNA的集合(例如BAC克隆 文庫)。用于分離基因組DNA的程序在本領域中是標準的并且例如由Ausubel等所描 述(Preparation of genomic DNA from plant tissue, Ausubel et al., eds.Current Protocols in Molecular Biology.John Wiley& Sons,Inc.Budelier.1993,pp.2.3.1-2.3.7)。在分離以后, 通過如上所述的酶或機械的片段化程序來片段化基因組DNA。如果使用了限制酶消化, 則獲得的片段具有銜接子,該銜接子在片段末端的不同限制位點突出端配對。附著于基 因組DNA片段的銜接子分子具有不同于附著于第一部分的源自cDNA的片段的銜接子分 子的序列。如果使用了機械片段化,則不同銜接子被連接于基因組DNA片段,并且按照先 前針對cDNA片段所描述的程序(例如,可以使用拋光步驟)來選擇在5'端和3'端具 有不同銜接子的片段。可替換地,還可以將一個單個銜接子連接于基因組片段。在這種情況下,具有 突出(柄,panhandle)的銜接子序列可以用來防止在后續(xù)的步驟中的非特異性擴增(DH Jones and S C Winistorfer, PCR Methods Appl. 19932 197-203)。如上所述,片段化的基因組DNA片段可以是可選地尺寸選擇的片段。為了獲得單鏈基因組DNA片段,提供了解鏈步驟。在如此提供片段化基因組單鏈DNA的適當樣品以后,混合優(yōu)選摩爾過量的來自 第一部分并攜帶具有生物素標記(其可以可選地結(jié)合于鏈霉親和素親和珠)的單銜接子分 子的單鏈cDNA片段,其用于雜交于攜帶不同銜接子分子的片段化基因組DNA(第3部 分)。在變性步驟以后,施加退火條件以便于形成雜交雙鏈基因組DNA-cDNA分子。 雜交程序可以包括借助于非片段化cDNA(沒有銜接子)的短期預退火,以通過降低來自 高豐度轉(zhuǎn)錄物的更高濃度的cDNA片段的影響來使雜交反應正?;?。作為一種可選的改 進,Cot-I-DNA可以用于預退火步驟以減少由基因組DNA中的序列重復引起的可能的異常。在此步驟中,在與所采樣的mRNA同源或與所采樣的mRNA相同處,cDNA片 段會退火成基因組DNA。在通過聚合酶延伸cDNA-基因組DNA雜交體以后,制得雙鏈模板?,F(xiàn)在可以利用一種互補于cDNA銜接子的引物和另一種互補于基因組DNA銜接子之一的引物通過PCR反應來擴增退火的雙鏈片段??蛇x地,可以將經(jīng)退火的材料分離 成兩種分開的部分,以同樣使用cDNA銜接子和互補于基因組DNA銜接子的其他引物。 該擴增提供了 PCR片段,這些片段不僅包含對應于部分的最初采樣的核酸的基因組DNA 的拷貝,而且包含非轉(zhuǎn)錄序列,如調(diào)控序列和內(nèi)含子。在 PCR擴增以后,通過尺寸分級分離,選擇大于100個堿基對的片段,更優(yōu)選 大于約200個堿基對,甚至更優(yōu)選大于約300個堿基對以及最優(yōu)選約400個或更多堿基 對??蛇x地,按照滿足本發(fā)明方法的下一部分的要求來純化這些片段。在下一部分(第4部分),對所述片段進行測序。擴增的銜接子_連接片段的測 序提供了關于至少部分銜接子-連接片段和3’旁側(cè)基因組序列的序列信息。如果銜接 子攜帶樣品特異性標簽,則包含在來自銜接子的部分中的信息包含關于從其獲得片段的 樣品的信息,而來自片段本身(標識符序列)的序列信息提供了關于片段的信息并且能夠 用于片段的鑒定。關于片段的序列信息用來以一定精度鑒定片段,其精度取決于被確定 的核苷酸的數(shù)目以及在擴增銜接子_連接片段的組中片段的數(shù)目。為了解決在樣品之間轉(zhuǎn)錄頻率的采樣變化問題,其會影響鑒定包含在一組多個 片段中的分子標記的準確性(通過測序),本發(fā)明的發(fā)明人還已發(fā)現(xiàn),優(yōu)選在足夠冗余度 (深度)的情況下,經(jīng)測序來檢測標記,所有片段至少采樣一次,并與統(tǒng)計學方法結(jié)合, 其解決與所稱的基因型的準確性有關的采樣變化問題。為了增加準確性,優(yōu)選在測序步 驟以前進行擴增步驟。在擴增的充分循環(huán)以后,擴增的銜接子-連接限制片段的冗余度 至少為6,優(yōu)選至少為7,更優(yōu)選至少為8且最優(yōu)選至少為9。因此,在優(yōu)選實施方式中,每個銜接子-連接限制片段被至少6倍,優(yōu)選至少7 倍,更優(yōu)選至少8倍且最優(yōu)選至少9倍地測序。在某些實施方式中,這樣選擇冗余度(假 設正確地鑒定基因座為純合的50/50總機會)以使得正確鑒定基因座的機會大于95%、 96%, 97%, 98%, 99%, 99.5%。銜接子-連接限制片段的擴增導致產(chǎn)生一組擴增銜接子-連接限制片段,有時稱 作擴增子。使擴增子(或至少部分擴增子)進行至少包括確定樣品特異性標識符的序列 以確定片段和限制片段的部分序列的來源的步驟。在實踐中,這還包括確定位于如限制 性內(nèi)切核酸酶的其余識別序列之間的部分。通過測定樣品特異性標識符和靠近銜接子來 源序列的部分片段的序列,能夠唯一地確定限制片段和它們的3’旁側(cè)基因組序列。根 據(jù)此信息,能夠恢復完全基因的基因組遺傳信息。本發(fā)明中使用的高通量測序是用于尤其與生物學和化學領域相關的科學實驗的 方法。優(yōu)選的是,利用高通量測序方法來進行測序,如在W003/004690、WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007、 以及 WO 2005/003375(均以 454 Life Sciences 命名)中所描述的方法,由 Seo 等(2004)Proc.Natl. Acad.Sci.USAlOl 5488-93、以及 technologies of Helios,Solexa, US Genomics 所描述的
方法等,它們均以引用方式結(jié)合于本文。所描述的技術允許在單次運行中測定4千萬堿基的序列并且比競爭技術更快速 且便宜100倍。該測序技術大致包括5個步驟1)DNA的片段化和特異性銜接子的連接 作用,以產(chǎn)生單鏈DNA(ssDNA)的文庫;2)將ssDNA退火到珠,在油包水微反應器中乳化珠并進行乳液PCR,以擴增珠上的單獨的ssDNA分子;3)選擇或富集在其表面上包 含擴增的ssDNA分子的珠;4)在PicoTiter(TM)Plate中沉積攜帶DNA的珠;以及5)通 過產(chǎn)生焦磷酸光信號在100,000個孔中同時測序。下文將更詳細解釋該方法。在這方面,以下計算可以是說明性的如本文別處所描述的Illumina Solexa的 測序技術提供每個約25bp的40,000,000個讀數(shù),在一個單次運行中達到令人吃驚的十億 bp。假設在采樣中10倍的豐度(redundancy),則在一次運行中能夠評估4,000,000個獨 特的片段。結(jié)合100個樣品則能夠?qū)γ總€樣品實施40,000個片段的測序。在一種優(yōu)選實施方式中,測序包括以下步驟(a)將適合的片段退火到珠,每個珠與單個適合的片段退火;(b)在油包水微反應器中對珠實施乳化,每個油包水微反應器包含單個 珠;(C)在孔中裝載珠,每個孔包含單個珠;并產(chǎn)生焦磷酸信號。在第一步驟(a)中,將測序銜接子連接于組合文庫中的片段。所述測序銜接子 至少包括用于退火到珠的“關鍵”區(qū)、測序引物區(qū)以及PCR引物區(qū)。因此,獲得適合的 片段。在第一步驟中,將適合的片段退火到珠,每個珠與單個適合的片段退火。向適合 的片段的池加入過量珠,以確保對于大部份的珠來說每個珠退火一種單適合的片段(泊 松分布)。在下一步驟中,在油包水微反應器中對珠實施乳化,每個油包水微反應器包含 單個珠。PCR試劑存在于油包水微反應器中,以使得能夠在微反應器內(nèi)發(fā)生PCR反應。 隨后,打破微反應器,并富集包含DNA的珠(DNA陽性珠)。在接下來的步驟中,將珠置于孔中,其中每個孔包含單個珠??變?yōu)選為 PicoTiter(TM)Plate的一部分,以便于同時對大量片段進行測序。在添加攜帶酶的珠以 后,利用焦磷酸測序來確定片段的序列。在連續(xù)步驟中,在有常規(guī)測序試劑存在的條件 下,對PicoTiter(TM)Plate和珠以及其中的酶珠提供不同的脫氧核糖核苷酸,并在加入脫 氧核糖核苷酸以后,產(chǎn)生被記錄的光信號。正確的核苷酸的加入將產(chǎn)生可檢測的焦磷酸 測序信號。焦磷酸測序本身在本領域是已知的,尤其描述在www.biotagebio.com ; www. pyrosequencing.com/section technology 中。該技術被進一步應用在例如 WO 03/004690, WO 03/054142、WO 2004/069849、WO 2004/070005、WO 2004/070007、 以及 W02005/003375(均以454 Life Sciences命名)中。在本發(fā)明中,珠優(yōu)選配備有引物(結(jié)
合)序列或其能夠與擴增子結(jié)合(視情形而定)的部分。在其他實施方式中,在擴增中 使用的引物配備有序列,例如在它們的5'-端,以使得擴增子結(jié)合于珠從而便于隨后的 乳液聚合,接著進行測序??商鎿Q地,在連接于珠或表面以前,擴增子可以與測序銜接 子連接。經(jīng)測序的擴增子揭示了標識符的同一性,因而揭示了樣品中是否存在限制性片 段。Illumina-Solexa 技術用于高通量測序的方法之一可獲自Illumina,United Kingdom (www.illumina. co.uk),尤其描述在 W00006770、W0002752U W00058507、W00123610、 W00157248, W00157249, W002061127, W003016565, W003048387, W02004018497、W02004018493、W02004050915、W02004076692、W02005021786、 W0200504730U W02005065814、W02005068656、W02005068089 以及 W02005078130中。從本質(zhì)上講,該方法開始于基因組DNA的銜接子-連接片段。通常在流動池中, 將銜接子-連接DNA隨機附著于引物的致密平臺(dense lawn),其中引物被附著于固體表 面。銜接子連接片段的另一端與在表面上的互補引物雜交。在所謂的固相橋式擴增中, 在有核苷酸和聚合酶存在的條件下延伸引物,以提供雙鏈片段。這種固相橋式擴增可以 是選擇性擴增。固相橋式擴增的變性和重復導致產(chǎn)生分布在表面上的擴增片段的致密簇。通過向流動池加入四種不同標記的可逆終止子核苷酸、引物以及聚合酶來引發(fā)測序。在第一 輪引物延伸以后,檢測標記,記錄首先結(jié)合的堿基的種類,以及從結(jié)合的堿基除去被阻 斷的3'末端和熒光基團。然后以相同方式確定第二堿基的種類,并如此繼續(xù)測序。在本發(fā)明中,連接銜接子的限制片段或擴增子經(jīng)引物結(jié)合序列或引物序列結(jié)合 于表面。如上面指出的確定序列,包括標識符序列和限制片段。目前可以利用的Solexa 技術能夠測定約30個堿基對的片段的序列。測序步驟通過銜接子和表面結(jié)合引物的智 能設計,并通過樣品標識符和其余的所使用的限制性內(nèi)切核酸酶的識別序列的來進行讀 取。例如,當使用3bp樣品標識符和存在其余的稀有切點酶EcoRI(GAACCT)時,7bp 的限制片段的內(nèi)部序列可以用來唯一地鑒定樣品中的限制片段。在一種優(yōu)選實施方式 中,基于上述Illumina-Solexa測序技術,借助于一種引物來實施銜接子連接限制片段的 擴增,其中上述引物最多包含在其3'端的一個選擇性核苷酸,優(yōu)選在其3'端沒有選擇 性核苷酸,即引物僅互補于銜接子(+0引物)。在涉及本文描述的測序方法的可替換實施方式中,在擴增中使用的引物可以包 含特異性部分(作為本文描述的引物或引物結(jié)合序列的替換),其用于隨后的測序步驟以 將銜接子_加帽限制片段或擴增子結(jié)合于表面。這些特異性部分通常被描述為關鍵區(qū)或 5'-引物相容序列。在本發(fā)明的一種實施方式中,用至少一種限制酶消化核酸樣品并連接至少一種 銜接子,該銜接子包含用于II型限制性內(nèi)切核酸酶的識別序列。當II型酶的識別和限 制位點之間的距離相對較短(多達約30個核苷酸)時,II型限制性內(nèi)切核酸酶的銜接 子_連接限制片段的隨后的消化會產(chǎn)生更短和更長的限制片段,可以連接與II型限制位 點相容的銜接子。通常,II型限制位點的突出端是未知的,以致于可以使用在突出端簡 并的一組銜接子。在(選擇性)擴增以后,可以測定擴增子的序列。在此實施方式中, 銜接子序列通??梢员幻枋鰹?'-引物結(jié)合位點-樣品標識符序列_簡并II型粘性末 端序列-3'。相關的PCR引物通常為引物序列_樣品標識符序列_簡并II型粘性末 端序列_選擇性核苷酸-3'。于是用來引發(fā)通過合成的測序的引物通常具有以下結(jié)構(gòu) 5' _引物結(jié)合位點-3'。在用II酶消化以后,尺寸選擇步驟可以是優(yōu)選的,以除去較 小的片段。如這樣的實施方式中,針對這種類型的酶的其余限制位點通常為約2-4bp,這 導致在15-17bp的限制片段的測序中與6bp的樣品標識符相結(jié)合。因此本發(fā)明的方法很適合于鑒定屬于細胞或生物體的轉(zhuǎn)錄物組的基因的調(diào)節(jié)基 因組序列,而不需要細胞和/或從取得細胞的生物體的任何初始序列信息或先前的遺傳 知識。因此,根據(jù)本發(fā)明的方法,能夠鑒定已表達基因的啟動子區(qū)、前導序列和其它 5’ UTR區(qū)、內(nèi)含子和外顯子、3’ UTR序列以及終止子。因為不涉及克隆步驟,所以 還能夠確定在克隆步驟中引起問題的基因的基因組序列,例如對宿主生物體有毒性的基因、編碼調(diào)節(jié)蛋白的基因和/或在克隆中會導致問題的基因。另外,基于此信息,能夠直接分析與已表達基因的等位基因有關的所有多態(tài)性 (包括SNP),而不管這些多態(tài)性發(fā)生在基因的編碼序列中還是非編碼序列中。因此,其 能夠檢測啟動子序列中的畸變(其引起基因表達的調(diào)節(jié)),能夠檢測在內(nèi)含子中具有多態(tài) 性的突變體(其會引起不同的剪接變體),等等。為了增加經(jīng)測序的核酸序列和其中發(fā)現(xiàn)的差異的正確解釋,可以對經(jīng)測序的片 段或重疊群進行自動標注。類似地,所獲得的序列信息可以用來將上述序列和來自EST文庫的序列進行 比較。通過這種方式,可以鑒定內(nèi)含子序列或基因內(nèi)部非編碼序列、啟動子序列以及 3’ UTR和5’ UTR0 EST文庫 可以獲自相同生物體或獲自相關物種。另一方面,本發(fā)明涉及試劑盒,借助于試劑盒能夠?qū)嵤┍景l(fā)明的方法。除了用 于擴增試劑盒本身的常規(guī)組件,如dNTP、聚合酶等,所述試劑盒還包括一種或多種銜 接子和可選的一種或多種互補于所述銜接子的引物、連接酶和/或?qū)iT用于切割銜接子 的限制酶。另外,試劑盒應提供使用說明書,其中包括用于實施本發(fā)明的方法的說明方 案。另外,除其它以外,本發(fā)明還可以應用于鑒定分子標記物的方法、用于基因分 型、大量的分離分析、遺傳作圖、標記物輔助回交(marker-assisted back-crossing)、數(shù)量 性狀基因座的作圖、連鎖不平衡作圖、以及甲基化模式的確定。實施例cDNA 程序RNA分離和cDNA合成按照Chang等(1993)的方法,總RNA分離自蘋果(Malus xdomestica,栽培品種 Kanzi)的皮。蘋果來自4個不同的果園并在2007年的5個不同時間點(從8月初直到9 月底)采摘。將來自這些20個樣品的等量的總RNA匯集成一個樣品并根據(jù)制造商的說 明書使用試劑盒RNeasy Plus Micro Kit(QIAGEN,Hilden,德國,74034)加以純化,以除
去基因組DNA污染物。用2yg總RNA作為輸入來合成cDNA的第一條鏈,其中根據(jù)制造商的說明使 用Mint cDNA合成試劑盒(Evrogen,Moscow,俄羅斯,SK001)。使用最佳18次循環(huán) 的Mint cDNA合成試劑盒通過PCR擴增來合成雙鏈(ds) cDNA。利用QIAquick PCR 純化柱(QIAGEN,28104)純化獲得的ds cDNA并通過分光光度法測濃度。用1 %瓊脂糖 凝膠分析cDNA。ds cDNA的范圍為200至2000bp。cDNA平頭化、磷酸化、連接以及霧化利用試劑盒Quick Blunting Kit (New England Biolabs,Ipswich, MA, USA,
E1201S)來平頭化和磷酸化ds cDNA。將38 μ 1 cDNA(8 μ g)與5 μ 1 IOx平頭化緩沖液 (blunting buffer)、5 μ 1 ImM脫氧核苷酸溶液混合物以及2 μ 1平頭化酶混合物混合,并在
室溫下溫育30分鐘,接著在70°C下溫育10分鐘。隨后,通過將48 μ 1這種cDNA平頭化混合物與10 μ 1 10xT4DNA連接酶反應緩 沖液、5 μ 1 T4 DNA 連接酶(二者均來自 NewEngland Biolabs, M0202S,400,000U/ml)、 25 μ 140% (w/v)聚乙二醇8000以及12 μ 1水混合來對其進行連接。在室溫下溫育連接混合物2小時并通過瓊脂糖凝膠分析來證實連接。通過在65°C下溫育10分鐘來滅活T4 連接酶。通過霧化,對連接CDNA進行剪切。將ΙΟΟμΙ的cDNA連接混合物與650μ1霧 化緩沖液(IOmM Tris-HCl、ImM EDTA> 50%甘油、ρΗ 8.0)混合,然后將其轉(zhuǎn)移到霧化 器(Invi trogen,Paisley, UK, K7025-05)中。按照制造商的說明,在48psi下并使用氮氣 5.0 (Praxair, Danbury, CT, USA)霧化15分鐘。在霧化器的短時間離心作用以后,將 收集的霧化cDNA轉(zhuǎn)移到微量離心管中并通過添加2 μ 1糖原(Sigma-Aldrich,St.Louis, MO, USA, 20mg/ml, G 1767)、0.1體積的3M乙酸鈉ρΗ 5.2和1體積的異丙醇使其沉 淀,然后在_80°C下溫育10分鐘。通過在20,800g下離心15分鐘來沉淀cDNA,用70% 乙醇洗滌,干燥,然后溶解在50 μ 1的IOmM Tris-HCl, ImMEDTA, ρΗ 8.0中。cDNA尺寸分級(sizing)和平頭化在65°C下溫育經(jīng)剪切的cDNA 10分鐘,添加負載凝膠的緩沖液,然后將cDNA 分裝在2%瓊脂糖凝膠的三(羥甲基)氨基甲烷醋酸鹽(TAE)緩沖液的5個槽中(Sambrook et al.,1989)。在電泳以后,利用 GenElute Gel Extraction 試劑盒(Sigma-Aldrich, NAl 111)從凝膠分離100-400個bp的cDNA片段。在凝膠上檢查經(jīng)純化的cDNA的少量 樣品并發(fā)現(xiàn)濃度較低。因此,將上述cDNA平頭化、磷酸化、連接、霧化以及凝膠純化 的步驟重復若干次,其中借助于MintcDNA合成試劑盒獲得總共24 μ g的ds cDNA。通 過乙醇沉淀濃縮100-400個bp的cDNA片段,然后溶解在19 μ 1分子生物學級水中。通過與來自Quick Blunting 試劑盒(New England Biolabs, E1201S)的 2.5 μ 1 IOx 平頭化緩沖液、2.5 μ 1 ImM脫氧核苷酸溶液混合物以及1 μ 1平頭化酶混合物混合,然后 在室溫下溫育30分鐘,接著在70°C下溫育10分鐘,使經(jīng)剪切cDNA的磨損的末端(frayed ends)平頭化和磷酸化。隨后,利用MinElute :PCR純化試劑盒(QIAGEN,28004)純 化 cDNA。銜接子連接作用和缺口修復通過退火部分互補寡核苷酸ELTD-引 物—C (5,-AGTCCGTCGCATCGCTCTTC-3,)禾口 ELTD_AdC2(5,—GAAGAGCGA TGCGACG-3’ )來制備銜接子ELTD-AdC。此銜接子在一側(cè)是平的而在另一側(cè)具有 4nt(AGTC) 5'-突出,以實現(xiàn)連接于cDNA的方向性并防止多個銜接子與cDNA的連接 作用。ELTD-AdC銜接子還包含稀有切割SapI限制位點GCTCTTCN/NNNCGAGAAGNNNN/在該實驗方案的之后的步驟中,此限制位點使能夠從cDNA除 去ELTD-AdC。 通過退火部分互補寡核苷酸ELTD-引物-D (5’ -生物 素-TEG-AGTGGGTGTCCTGGGTCAAC-3,)禾口 ELTD_AdD2 (5,—GTTGACCCAGGA CACC-3’)來制備銜接子ELTD-AdD。此銜接子在一側(cè)還具有4nt(AGTG) 5’ -突出 端,其經(jīng)由四乙二醇(TEG)間隔臂標記有生物素。在實驗方案中之后的步驟中,生物 素標記將能夠使cDNA固定于鏈霉親和素包裹的珠。所有寡核苷酸是來自Sigma-Aldrich 得純化的有序HPLC,并溶解在ImM Tris-HCl,O.lmM EDTA,pH8.0中。銜接子的 制備如下混合50 μ 1的每種適當?shù)墓押塑账?400 μ Μ)和ΙΟΟμΙ的&退火緩沖液(20mM Tris-HCl, IOOmM NaCl, 2mM EDTA, ρΗ 7.6),在 95 °C 的加熱箱(加熱塊, thermoblock) (Thermomixer Compact, Eppendorf,漢堡,德國)中溫育混合物 5 分鐘,然
后關掉加熱箱,以使得內(nèi)部的樣品緩慢冷卻至低于30°C (需要3小時)。這產(chǎn)生濃度為 100 μ M 的雙鏈銜接子 ELTD-AdC 和 ELTD-AdD。在以下反應中將兩種銜接子連接于cDNA 來自MinElute純化柱的 9.2 μ 1 cDNA、1.25 μ 1 /K、0.4 μ 1 銜接子 ELTD-AdC (100 μ Μ)、0.4 μ 1 銜接子 ELTD-AdD (100 μ Μ)、12.5 μ 1 2χ快速連接反應緩沖液以及1.25 μ 1 Quick T4 DNA連接酶 (Quick Ligation Kit, NewEngland Biolabs,M2200S)。在 25 °C 下溫育連接混合物 20 分 鐘,然后利用試劑盒 GenElute PCR Clean-Up Kit (Sigma-Aldrich,NA1020)加以純化。在以下反應中對銜接子-連接cDNA進行缺口修復來自GenElute純化柱 的 47 μ 1 cDNA、8 μ 1 IOx 熱聚合反應緩沖液(ThermoPol Reaction Buffer) (New England Biolabs)、8 μ 1 lmg/mlBSA、2 μ 1 IOmM dNTP> 1 μ 1 8U/μ 1 Bst DNA 聚合酶、大片段 (LargeFragment) (New England Biolabs, M0275)以及 14 μ 1 水。缺口 修復反應在 65°C 下 溫育30分鐘,然后利用QIAquick PCR純化柱加以純化,從而產(chǎn)生50 μ 1的100-400個bp 的銜接子-連接cDNA。銜接子-連接CDNA的擴增在PCR反應中用高可靠性DNA聚合酶來擴增cDNA,其中上述PCR反應包 含來自 QIAquick PCR 純化柱的 10 μ 1 cDNA、10 μ 15x Phusion HF 緩沖液、1 μ 1 IOmM dNTP、2.5 μ 1 10 μ M ELTD-弓 I 物-C、2.5 μ 1 10 μ M ELTD-弓 | 物 _D、0.5 μ 1 2U/μ 1 Phusion Hot StartDNA 聚合酶(Finnzymes,Espoo,芬蘭,F(xiàn)_540)以及 23.5 μ 1 水。首
先,進行測試以確定用于cDNA擴增的PCR循環(huán)的最佳次數(shù)。將反應混合物放置在熱循 環(huán)儀中,在98°C下變性30秒,隨后經(jīng)變性-退火-延伸的5次循環(huán)98°C下5秒,60°C 下10秒,72°C下15秒。此后,從反應混合物取出5μ1并保持在冰上(5次循環(huán)以后的 樣品)。使余下的反應混合物經(jīng)另外三次如上所述的PCR循環(huán),然后取出5μ1并保持在 冰上(8次循環(huán)以后的樣品)。重復上述過程5次直至達到總共23次循環(huán)。用1.5%瓊脂 糖凝膠分析5、8、11、14、17、20以及23次循環(huán)的5μ1樣品。循環(huán)的最佳次數(shù)被確定 為17次循環(huán),其后達到穩(wěn)定期,因為更多的循環(huán)會導致出現(xiàn)高于cDNA的預期大小的成 片條帶。為了獲得更多cDNA,如上所述,制備了兩種PCR反應混合物,各自含有10 μ 1 cDNA。將反應混合物放置在熱循環(huán)儀中,在98°C下變性30秒,隨后經(jīng)變性-退火-延 伸的17次循環(huán)在98°C下5秒,在60°C下10秒,在72°C下15秒。接著是在72°C下進 行5分鐘的最后延伸步驟。利用QIAquick PCR純化柱、接著利用GenElute PCR Clean-Up 柱(Sigma-Aldrich)來純化擴增的cDNA,以除去引物和可能的引物_ 二聚體。單鏈CD-適合的cDNA的分離接著,通過結(jié)合于鏈霉親和素包裹的珠、洗滌以及堿性洗脫,對在先前步驟中 獲得的cDNA富集在一端攜帶ELTD-Ad-C并在另一端攜帶ELTD_Ad_D的分子上。在 兩端攜帶ELTD-Ad-C的cDNA分子(下文中稱作CC分子)不能結(jié)合于鏈霉親和素,因 而被從珠中沖掉。在兩端攜帶ELTD-Ad-D的cDNA分子(下文中稱作DD分子)在堿 性洗脫期間將與珠保持結(jié)合,因為兩 個鏈均被生物素化。在一端攜帶ELTD-Ad-C并在 另一端攜帶ELTD-Ad-D的cDNA分子(今后稱作CD分子)借助于一個生物素化的鏈保持與珠結(jié)合,通過用NaOH處理,其他的非生物素化的鏈將被洗脫。 使鏈霉親和素包裹的順磁性Dynabeads M-270(Invitrogen,653.05)充分重懸 浮并將50 μ 1 (相當于0.5mg)珠轉(zhuǎn)移到硅氧烷化微量離心管(Sigma-Aldrich,T4816)。用 ΙΟΟμΙ lxB&W 緩沖液(5mMTris_HCl,0.5mM EDTA, lMNaCl,pH 7.5)洗滌珠三次, 其中按照制造商的說明利用Dynal磁力座(magnetic stand) ( MPC _E_1,Invitrogen)來 分離珠。將珠懸浮在包含0.02%吐溫-20的100 μ 1 2x B&W緩沖液中以減少非特異性結(jié) 合。接著,將混合于55μ1水的45μ1的PCR-擴增和純化的cDNA加入珠懸浮液。在 室溫下并在管輕微旋轉(zhuǎn)的條件下使cDNA結(jié)合15分鐘。將管放置在磁力座中以使磁珠和 上清分離,將珠轉(zhuǎn)移到新管。此部分稱作AB (結(jié)合后)并且包含未結(jié)合于珠的cDNA。 隨后,如下洗滌珠顆粒用包含0.02%吐溫-20的200 μ 1 2x B&W緩沖液洗滌一次,用 包含0.02%吐溫-20的500 μ 1 2x B&W緩沖液洗滌一次并用500 μ 1水洗滌兩次。在第二 次將珠重懸浮于水中以后,在轉(zhuǎn)移到磁體以前,將珠轉(zhuǎn)移到新鮮的硅氧烷化管。最后, 將珠重懸浮于250 μ 1新制的0.1Μ NaOH中并輕輕旋轉(zhuǎn)管2_3分鐘。上清代表第一洗脫 液。將珠再一次重懸浮于250 μΙΟ.ΙΜ NaOH中并輕輕旋轉(zhuǎn)2_3分鐘,此上清代表第二洗 脫液。將洗脫液分別與1250 μ 1 PBI緩沖液(QIAquick PCR純化試劑盒)和7.2 μ 20% 乙酸混合,然后經(jīng)QIAquick PCR純化柱加以純化。此外,在QIAquick PCR純化柱上純 化 AB 部分。剩余珠用 200 μ 1 水洗滌一次,用 200 μ 1 IOmM Tris-HCL ImM EDTA、pH 8.0洗滌一次,再用200 μ 1水洗滌一次,并最后重懸浮在50 μ 1水并儲存在4°C。用1.5%瓊脂糖凝膠檢查5微升AB部分和兩種堿性洗脫液。在AB部分和第一 堿性洗脫液中發(fā)現(xiàn)cDNA,但在第二堿性洗脫液(其被丟棄)中則未發(fā)現(xiàn)cDNA。對1 μ 1 的AB部分、第一堿性洗脫以及珠(各自50μ1總?cè)莘e)進行對照PCR反應。將它們中的 每一種與 12.5 μ 1 REDTaq ReadyMix (Sigma-Aldrich, R2523)、1 μ 1 10 μ MELTD-弓 | 物-C或 Ιμ 10 μ M ELTD-弓丨物-D或[1 μ 1 10 μ M ELTD-弓丨物-C禾口 1 μ 1 IOyMELTDH 物-D]以及水混合至25 μ 1的總?cè)莘e。PCR條件是1分鐘@94°C,(30秒@94°C,30 秒@501,30秒@72°06、9、12以及15次循環(huán),5分鐘@72°C。在每次反應中,將 5μ1加載到1.5%瓊脂糖凝膠上。結(jié)果表明,如所預期的,在AB部分中存在的CC分子 比DD和CD分子要多,這是因為CC分子不能結(jié)合于珠。在堿性洗脫液和珠部分中, 發(fā)生的情況是CC < DD < CD。結(jié)論是,如所預期的,在堿性洗脫液中富含有CD分 子,而CC甚至是DD分子也存在,這可能是由于CC的非特異性結(jié)合以及DD分子與珠 的不完全結(jié)合造成的。堿性洗脫液(QIAquick純化的)稱作富含單鏈CD的cDNA。富含CD的cDNA的擴增在測試最佳PCR條件以后,富含單鏈CD的cDNA的擴增如下。安排了 16次 PCR反應,每次反應包含0.5 μ 1的上述Dynabeads的QIAquick柱純化的第一堿性洗 脫液、10 μ 1 5x Phusion HF 緩沖液、1 μ 1 IOmM dNTP、2.5 μ 1 10 μ M ELTD-弓 |物—C、 2.5 μ 1 10 μ MELTD-引物-D、0.5 μ 1 2U/ μ 1 Phusion Hot Start DNA 聚合酶(Finnzymes, F-540)以及33μ1水。將反應混合物放置在熱循環(huán)儀中,在98°C下變性30秒,隨后經(jīng)變 性_退火_延伸的11次循環(huán)在98°C下5秒,在60°C下10秒,在72°C下15秒。接著 是在72°C下進行的5分鐘的最后延伸步驟。利用三個平行的QIAquick PCR純化柱來純 化擴增的cDNA。用1.2%瓊脂糖凝膠分析了經(jīng)純化的cDNA并用分光光度法測得濃度。獲得總共27.5 μ g富含雙鏈CD的cDNA。富含CD的cDNA與Dynabeads的結(jié)合來自前述步驟的5微克富含雙鏈C D的cDNA用于與DynabeadsM-270結(jié)合。禾Ij 用上文描述的‘單鏈CD-適合cDNA的分離’程序并具有以下修改。將27.32μ1(相當于 5 μ g)富含CD的cDNA與水混合至總計100 μ 1的容積,并將此混合物加入在包含0.02% 吐溫-20的100 μ 1 2x B&W緩沖液中的珠中。在cDNA結(jié)合并用包含0.02 %吐溫-20的 2x B&W緩沖液洗滌并用水洗滌以后,用200 μ 1 IxNEBuffer 4 (New England Biolabs)洗滌 珠兩次。最后,將帶有結(jié)合cDNA的珠重懸浮在100 μ 1 Ix NEBuffer 4中并轉(zhuǎn)移到新的硅 氧烷化微量離心管。用SapI消化富含CD的CDNA-珠制劑 用SapI消化珠上的富含CD的cDNA以從cDNA分子除去銜接子ELTD-AdC,而
cDNA借助于生物素化銜接子ELTD-AdD仍然附著于珠。將5微升Sap I (2U/ μ 1,New England Biolabs, R0569)加入 cDNA-珠懸浮液并在 37°C下溫育 1.5 小時。以 1400rpm/10
分鐘對珠進行旋渦攪拌,以在此步驟期間使它們保持在懸浮狀態(tài)。接著,將珠放置在磁 力座中1分鐘以分離珠,棄上清,然后用包含0.02%吐溫-20的500 μ 1&B&W緩沖液洗 滌珠兩次并用500 μ 1水洗滌兩次。堿性洗脫以制備富含單鏈CD的cDNA珠文庫將珠顆粒重懸浮在250 μ 10.1Μ NaOH(新制的)中,然后輕輕旋轉(zhuǎn)管2_3分鐘。 將管放入磁力座中1分鐘并將上清(=堿性洗脫液)轉(zhuǎn)移到新管。將堿性洗脫液與1250 μ 1 PBI緩沖液(QIAquick PCR純化試劑盒)禾Π7.2μ 1 20%乙酸混合,然后經(jīng)QIAquick PCR純 化柱加以純化。剩余珠用200 μ 1水洗滌一次,用200 μ 1 IOmM Tris-HCL ImM EDTA、 ρΗ 8.0洗滌一次,再次用200 μ 1水洗滌一次,并最后重懸浮于50 μ 1水中并儲存在4°C。 這是富含單鏈CD的cDNA-珠文庫,準備好與基因組DNA雜交。對經(jīng)純化的堿性洗脫液用1.2%瓊脂糖凝膠進行分析接著下面的與‘富含CD的 cDNA與Dynabeads的結(jié)合,的結(jié)合分離以及來自‘銜接子-連接cDNA的擴增,的已 知濃度的雙鏈cDNA的稀釋系列。發(fā)現(xiàn)AB部分中存在約2 μ g的cDNA,但未結(jié)合于 Dynabead.堿性洗脫液顯示預期大小的成片條帶。通過分光光度法測得堿性洗脫液的濃 度,并且發(fā)現(xiàn)410ng單鏈cDNA已經(jīng)從珠被洗脫下來。從理論上講,等量的互補cDNA 鏈應在富含單鏈CD的cDNA-珠文庫中,相當于大約4pmol (假設平均大小為300nt)。基因組DNA基因組DNA的分離按照Kobayashi等(1998)的實驗方案,從Kanzi葉分離基因組DNA(gDNA)。 在按照Kobayashi等(1998)的描述進行核糖核酸酶處理以后,通過添加三分之二體積的 5MNaCl和兩體積的乙醇(p.a.),借助于高鹽來沉淀gDNA,以除去雜質(zhì),接著在20,OOOg 下離心15分鐘,用70%乙醇洗滌沉淀物,干燥,然后將沉淀物溶解在IOmM Tris-HCl、 ImM EDTA、pH8.0 中。gDNA的限制酶消化通過限制酶消化來片段化gDNA以產(chǎn)生非重疊片段。重疊片段會干擾實驗后 面的雜交步驟,從而導致產(chǎn)生雜交片段的網(wǎng)絡。選擇產(chǎn)生主要為l_3kb片段的限制酶切來進行消化。用Hindlll/BstYI并用EcoRI/BstYI消化gDNA以產(chǎn)生兩組不同片段。 通過添加 10 μ INEBuffer 2、3 μ 1 EcoRI (New England Biolabs, 20U/ μ 1,R0101)或 1 μ 1 HindIlKNew England Biolabs, IOOU/ μ 1,RO104)以及水直到 100 μ 1 的總?cè)莘e,接著在 37°C下溫育 1 小時,來消化 20 微克 gDNA。隨后,將 6 μ 1 BstYI (New England Biolabs, IOU/ μ 1,R0523)加入每個管,接著在60°C下溫育1小時。將經(jīng)消化的DNA各自裝載 于瓊脂糖凝膠的4個泳道中并分離。從凝膠上切割1和3kb之間的片段并利用試劑盒 GenElute Gel Extraction Kit(Sigma-Aldrich,NAl111)加以純化。重復一次以上程序以產(chǎn) 生足夠的DNA片段。將EcoRI/BstYI (EB)和Hindlll/BstYI (HB)基因組片段連接于銜接 子 ELTD-AdE-Eco、ELTD-AdE-Hind 以及 ELTD-AdF-Bst。
銜接子與gDNA連接通過使部分互補的寡核苷酸 ELTD-AdE-Eco 1 (5,-CTTGTAGGGCACGGGTC GAGAG-3,)禾口 ELTD-AdE_Eco2(5,-AATTCTCTCGACCCGTGCCCTA-3,)退火來 制備銜接子ELTD-AdE-Eco。此銜接子在一側(cè)具有5’ -AATT突出端,其與gDNA片 段的Ec0RI-突出端相容,而在另一側(cè)具有5’ -CTTG突出端。這些突出端可以實現(xiàn)與 gDNA的連接作用的方向性并防止多個銜接子與gDNA的連接。通過使部分互補的寡核 苷酸 ELTD-AdE-Hindl (5,—CTTGTAGGGCACGGGTCGGAGA—3,)禾口 ELTD-AdE-Hin d2(5,-AGCTTCTCCGACCCGTGCCCTA-3,)退火來制備銜接子 ELTD-AdE-Hind。類 似于 ELTD-AdE-Eco,ELTD-AdE-Hind 銜接子在一側(cè)具有與 HindIII 相容的 5,-AGCT 突出端并在另一側(cè)具有5’ -CTTG突出端。通過使部分互補的寡核苷酸ELTD-AdF-Bs tl(5,-GAATGGCTGGGAGAGTGCTGAG-3 ‘)禾口 ELTD-AdF_Bst2 (5,—GATCCTCAGC ACTCTCCCAGCC-3,)退火來制備銜接子 ELTD-AdF-Bst。類似于 ELTD-AdE-Eco, ELTD-AdF-Bst銜接子在一側(cè)具有與BstYI相容的5 ’ -GATC突出端并在另一側(cè)具有 5,-GAAT突出端。所有寡核苷酸用Sigma-Aldrich順序HPLC純化并溶解在ImM Tris-HCL 0.ImM EDTA、 pH8.0 中。 銜接子的制備如下混合15 μ 1各種的適合的寡核苷酸(800 μ Μ)和60 μ 1的 2χ 退火緩沖液(20mM Tris-HCl, IOOmM NaCl, 2mM EDTA, pH 7.6)以及 30 μ 1 水, 然后在95°C的加熱箱中溫育混合物5分鐘,接著關掉加熱箱以使得內(nèi)部的樣品緩慢冷卻 至低于30°C (需要3小時)。這產(chǎn)生濃度為100 μ M的雙鏈銜接子ELTD-AdE-Eco、 ELTD-AdE-Hind 以及 ELTD-AdF-Bst。在以下反應中,將銜接子ELTD-AdE-Eco禾Π ELTD-AdF-Bst連接 于 EcoRI/BstYI(EB)I_3kb gDNA 片段將 1.3 μ g EB 片段、0.4μ1 銜接子 ELTD-AdE-Eco (100 μ Μ)、0.4 μ 1 銜接子 ELTD-AdF_Bst(100 μ Μ)、40 μ 1 2χ 快速連接 反應緩沖液、4 μ 1 Quick T4DNA 連接酶(Quick Ligation Kit, New England Biolabs, M2200S)和水混合至80 μ 1的總?cè)莘e。在以下反應中,將銜接子ELTD-AdE-Hind禾口 ELTD-AdF-Bst 連接于 Hindlll/BstYI (HB) l_3kb gDNA 片段將 1.0 μ g HB 片段、0.4 μ 1 銜接子 ELTD-AdE-Hind(100 μ Μ)、0.4 μ 1 銜接子 ELTD-AdF_Bst(100 μ Μ)、40 μ 1 2χ 快速連接反應緩沖液、4 μ IQuick T4DNA 連接酶(Quick Ligation Kit, New England Biolabs, M2200S)和水混合至80 μ 1的總體積。在25°C下溫育連接混合物20分鐘并利 用試劑盒 GenElute PCR Clean-Up Kit (Sigma-Aldrich,NA1020)加以純化。
EB和HB gDNA的缺口修復和純化在以下反應中,對銜接子-連接gDNA進行缺口修復混合來自GenElute純 化柱的 40 μ 1 gDNA、8 μ 1 IOx ThermoPol ReactionBuffer> 8 μ 1 lmg/ml BSA、2 μ 1 IOmM dNTP、3 μ 1 8U/ μ 1 Bst DNA 聚合酶、Large Fragment (New England Biolabs, M0275) 和19μ1水。在65°C下溫育30分鐘進行缺口修復反應,然后利用試劑盒GenElutePCR Clean-Up Kit (Sigma-Aldrich,NA1020)加以純化。這產(chǎn)生 0.02 μ g/μ 1 (EB)和 0.014 μ g/ μ I(HB)的50 μ 1銜接子-連接gDNA備用,其用于與富含單鏈CD的cDNA-珠文庫的 雜交。通過PCR來檢查銜接子-連接作用步驟。使用1納克銜接子-連接的和缺口修 復的EB制劑作為PCR反應中的模板,其中使用弓丨物ELTD-AdE-Eco 1或ELTD-AdF-Bstl 或二者的組合(分別為Ε、F、EF)。類似地,使用銜接子-連接HB制劑作為PCR反 應中的模板,其中使用引物ELTD-AdE-Hindl或ELTD-AdF-Bstl或二者的組合(分別為 Ε、F、EF)。對于EB和ΗΒ,如所預期的,PCR反應產(chǎn)生l_3kb的成片條帶。所選基因組DNA片段的雜交和擴增cDNA-珠文庫和gDNA片段的雜交首先針對螢火蟲熒光素酶(Luc)基因片段測試雜交條件。簡單地說,將具有 ELTD-AdC 和 ELTD-AdD 的單鏈 200nt Luc 片段(Luc200)通過 ELTD-AdD 的生物素標 記結(jié)合于DynabeadsM-270。使此Luc-珠制劑雜交于1600nt Luc片段,該片段連接于與 非特異性1400nt對照DNA片段混合的ELTD-AdE和ELTD_AdF。在雜交和洗滌以后, 通過堿處理來洗脫結(jié)合于Luc200探針的片段并通過PCR加以擴增。研究發(fā)現(xiàn),1600nt Luc片段以比非特異性、非雜交對照片段高得多的濃度被洗脫。在PCR期間,在出現(xiàn)這 些片段之間存在24次循環(huán)的差異(224 = 1.7X 107倍富集的Lucl600,假設PCR效率為 100% )0對于cDNA-珠文庫和gDNA使用相同的雜交和洗滌條件。通過加熱來使上述EB和HB gDNA制劑變性。首先,用離心式真空濃縮器將 13 μ 1的EB禾Π 12 μ 1的HB濃縮至5 μ 1。EB的量相當于0.26 μ g或大約0.2pmol的平均 2kb的片段。HB的量相當于0.17 μ g或大約0.13pmol的平均2kb的片段。然后在95°C 的加熱箱中使樣品變性5分鐘,然后直接放置在冰上。 將上述富含單鏈CD的cDNA-珠文庫分裝在兩個硅氧烷化管(每個管25 μ 1珠) 中。用200μ1 6xSSC/0.1% SDS(在60°C下預熱)洗滌珠三次,然后重懸浮于100 μ 1 6xSSC/0.1% SDS中并保持在60°C。 向一個管中添加EB gDNA,向另一個管中添加 HB gDNA。在60°C和溫和旋轉(zhuǎn)下對管進行溫育4小時。用500 μ 1預熱的6xSSC/0.1 % SDS (60°C )快速洗滌珠兩次,在60°C和旋轉(zhuǎn)下用500 μ 1 6xSSC/0.1% SDS洗滌三次(15 分鐘),在室溫和旋轉(zhuǎn)下用500 μ 16xSSC洗滌兩次(5分鐘),然后用500 μ 1水快速洗滌 一次。雜交體的延伸以及所選gDNA片段的PCR擴增在珠上形成的cDNA/gDNA雜交體用于3’ cDNA末端的延伸,其中使用雜 交gDNA作為模板。在最后的水洗滌步驟以后,將珠直接重懸浮于77 μ 1水和20 μ 1 5χ PhUSianTMHF緩沖液的混合物中,然后轉(zhuǎn)移到新硅氧烷化管。接著添加2μ110ιηΜ dNTP 禾口 1 μ 1 2U/ μ IPhusion Hot Start DNA 聚合酶(Finnzymes,F(xiàn)-540)。在 72 °C 下延伸2分鐘。將珠保持在0°C下過夜。借助于不同的引 物組合,使用上述珠進行PCR擴增。借助于以下引物組,使雜 交于EB gDNA的珠擴增1) ELTD-AdE-Ecol 和 ELTD—AdF—Bstl2) ELTD-AdE-Ecol3) ELTD-AdF-Bstl。借助于以下引物組,使雜交于HB gDNA的珠擴增4) ELTD-AdE-Hind3 和 ELTD-AdF-Bstl5) ELTD-AdE-Hind36) LTD-AdF-Bstl。ELTD -弓I 物 E_Hind3 具 有 以 下 序 列 5,-GTAGGGCACGGGTCGGAGAAGC-3,。其與大部分的 ELTD-AdE-Hindl 相同并且
在3’端處包含3個額外的nt(AGC),以與連接銜接子和gDNA之間的HindIII位點相適
應,并使具有在退火期間能夠與靶更強結(jié)合的3’端。PCR 反應包括將 1 μ 1 的 EB 或 HB 珠、10 μ 1 5x Phusion HF 緩沖液、1 μ 1 IOmM dNTP、2.5 μ 1 的每一種引物(10 μ Μ)、0.5 μ 1 2U/ μ IPhusion Hot Start DNA 聚合酶 (Finnzymes, F_540)以及水混合至50 μ 1的最終容積。為了確定最佳循環(huán)次數(shù),將反應混 合物分裝在5個0.2ml PCR管(每個管為10 μ 1)中,用礦物油覆蓋,放置在熱循環(huán)儀中, 在98°C下變性30秒,隨后經(jīng)受變性-退火-延伸的11、14、17、20以及23次循環(huán)在 98°C下5秒,在60°C下10秒,在72°C下2分鐘。接著是在72°C下5分鐘的最后延伸步 驟。在每個反應中,用1.2%瓊脂糖凝膠分析2.5 μ 1。在使用ELTD-AdE和/或ELTD-AdF引物的PCR反應中,發(fā)現(xiàn)如針對gDNA片 段所預期的l_3kb片段的成片條帶。兩種引物的組合在17次循環(huán)時就已經(jīng)產(chǎn)生EB和HB 樣品的PCR產(chǎn)物。在僅使用ELTD-AdE的情況下,在23次循環(huán)后發(fā)現(xiàn)產(chǎn)物,而在使用 ELTD-AdF引物的情況下,則在20次循環(huán)后發(fā)現(xiàn)相同的產(chǎn)物強度。這是由于在基因組中 存在的BstYI-限制位點(識別位點RGATCY)比EcoRI位點或HindIII位點(GAATTC 或AAGCTT)要多。用于高通量測序的雜交體選擇的gDNA的擴增通過HB gDNA 及引物 ELTD-AdE_Hind3 和 ELTD-AdF-Bstl 以及 20 次循環(huán)的
PCR反應產(chǎn)生最好的結(jié)果l_3kb的均勻成片條帶。制備20倍的如下PCR反應混合物以 提供用于高通量測序的足夠的DNA: Iyl的HB珠、lOylSxPhusioi^HF緩沖液、Iyl lOmMdNTP、2.5 μ 1 ELTD-AdE_Hind3 (10 μ Μ)、2.5 μ 1 ELTD—AdF—Bstl (10 μ Μ)、0.5 μ 1 2U/ μ 1 Phusion Hot Start DNA聚合酶并用水定容至50 μ 1的最終容積。將反應混合物放 置在熱循環(huán)儀中,在98°C下變性30秒,隨后經(jīng)變性-退火-延伸的20次循環(huán)在98°C 下5秒,在60°C下10秒,在72°C下2分鐘。接著是在72°C下5分鐘的最后延伸步驟。 利用兩個平行的QIAquick PCR純化柱來純化這種所謂選擇的雜交體和擴增的HB gDNA。 產(chǎn)量(其是用分光光度法測得)是14.8 μ g。選擇的雜交體的HB gDNA的一部分經(jīng)受高 通量測序。另一部分用于克隆和桑格測序(Sanger sequencing)。用于高通量測序的cDNA的擴增
為了產(chǎn)生用于高通量測序的足夠的富含CD的cDNA,制備20倍的如下PCR 反應混合物0.5 μ 1的在‘單鏈CD-適合的cDNA的分離,部分所描述的Dynabeads 的QIAquick柱純化的第一堿性洗脫液、10 μ 1 5x Phusion HF緩沖液、1 μ 1 IOmM dNTP、2.5 μ 1 10 μ MELTD-弓| 物-C、2.5 μ 1 10 μ M ELTD-弓| 物-D-NB> 0.5 μ 1 2U/ μ 1 PhusionHot Start DNA 聚合酶(Finnzymes,F(xiàn)_540)以及 33 μ 1 水。ELTD-引物 D-NB 具 有和ELTD-引物D相同的序列,但并不包含在5’端的生物素標記。將反應混合物放置 在熱循環(huán)儀中,在98°C下變性30秒,隨后經(jīng)變性-退火-延伸的11次循環(huán)在98°C下 5秒,在60°C下10秒,在72°C下15秒。接著是在72°C下5分鐘的最后延伸步驟。利 用4個平行 的QIAquick PCR純化柱來純化擴增的cDNA。用1.2 %瓊脂糖凝膠分析經(jīng)純化 的cDNA并用分光光度法測得濃度。獲得總共29 μ g雙鏈富含CD的cDNA。對cDNA 進行高通量測序。所捕獲的基因組DNA分子的序列分析在用cDNA珠捕獲基因組DNA以后,利用帶有cDNA_gDNA雜交體的珠來進行 PCR擴增,其中使用基因組DNA特異性引物組ELTD-AdE-Hind3和ELTD-AdF-Bstl。 克隆基因組DNA的一部分并對800個克隆進行桑格測序(平均讀取長度為781bp)。使 基因組DNA的另一部分經(jīng)高通量測序技術,以產(chǎn)生平均長度為337bp的序列讀數(shù)。詳細分析了由800個單獨的桑格測序和1370個高通量測序讀取構(gòu)成的兩個序列 數(shù)據(jù)集,并與在公共數(shù)據(jù)庫(NCBI,在2009年3月9日以262.411進入)中所有可獲得 的蘋果 EST 進行比較。程序 BLASTN(S.F.Altschuletal.NAR 25 3389-3402,1997)用于 基因組DNA序列和蘋果EST序列的全局序列比對。在800個桑格測序中,488個序列顯示與來自公共數(shù)據(jù)庫中的蘋果EST匯集的 序列顯著的相似性(E值為10_1(1),而在1370個基因組DNA序列的隨機集中,765個序 列表現(xiàn)出顯著的相似性(E值為10,),這表明cDNA相關基因組DNA的特異性捕獲是 成功的。此外,這些基因組DNA序列的局部序列比對揭示了這些序列經(jīng)常延伸自5'或 3' cDNA邊界或內(nèi)含子區(qū),這表明該技術能夠鑒定非編碼區(qū)。如果考慮到僅從一側(cè)測 定片段的序列,片段大小在1Kb和3Kb之間且50%以上的序列具有與EST序列的可鑒定 的相似性,在與公共EST序列數(shù)據(jù)的序列比對以前,如果已完全測定了片段的序列并且 該片段構(gòu)成重疊群的組成部分,則會發(fā)現(xiàn)更高百分比的序列配對似乎是顯而易見的。因為蘋果基因組的大小是約750Mb而在植物基因組中基因的數(shù)目是約30000, 其中平均長度為1500bp,這產(chǎn)生在基因組上的45Mb的編碼序列,這意味著,通過隨機 測序,僅能夠被標注6%的基因組片段,而借助于本文所描述的方法,我們發(fā)現(xiàn)了 50% 以上的標注。根據(jù)上述實施例,描述了跨越EST邊界的基因組DNA片段的三個實例。例如三個實例的描述借助于本發(fā)明的方法發(fā)現(xiàn)的蘋果基因組序列的三個實例示于圖4和以下序列比 對。實例1.蘋果基因組序列FRA8S6E02IN5QW(序列,見下文)顯示與部分的蘋果重疊群 cg8984st_846_7 的 98.9 % 同一性,其構(gòu)造自 7 個 EST 序列(GenBank Acc C0899363、C0419003、C0052855、C0752637、C0901846、CN927506 以及 C0066317)。擬南芥的重疊群cg8984st 8467 的最好的 BLASTX 命中(hit) (S.F.Altschul et al.NAR 25 3389-3402, I"7)是基因 ATlG7Ol6O (基因組基因座標簽,TheArabidopsis Information Resource, http://www.arabidopsis.org),其中 E 值為 2e-104o 三個序列 的序列對比表明,F(xiàn)RA8S6E02IN5QW包含具有未知功能的蛋白質(zhì)部分的蛋白質(zhì)編碼 序列(CDS),其部分重疊于重疊群cg8984st_846_7。這示意性地示于圖4A中并在 下文示出序列的有關部分的序列對比。FRA8S6E02IN5QW的蛋白質(zhì)編碼序列也是與 AT1G70160具有77.8%的同一性,但在序列的5’ -端處被內(nèi)含子中斷,其中上述內(nèi)含 子位于與AT1G70160中的內(nèi)含子相同的位置(圖4A以及序列對比)。在此區(qū)域中,在 FRA8S6E02IN5QW 和 AT1G70160 之間的同一性較低,為 37.6%。在 AT1G70160 中, 內(nèi)含子小于在蘋果中的內(nèi)含子(在序列對比中,以粗體表示這種內(nèi)含子的5’ -邊界)。 在FRA8S6E02IN5QW中,在內(nèi)含子序列的所有三個讀碼框中存在終止密碼子,并且 BLAST檢索表明,F(xiàn)RA8S6E02IN5QW的CDS同源于其他植物物種的類似蛋白質(zhì),但在 內(nèi)含子區(qū)失去了上述同源性。這表明,F(xiàn)RA8S6E02IN5QW確實是基因組序列,其包含中 斷內(nèi)含子序列。此外在此處,內(nèi)含子序列的低得多的保守性表明,內(nèi)含子序列比外顯子 序列包含更多的SNP。
實例2.蘋果基因組克隆FRA8SE02H()H39(序列,見下文)示出了與蘋果重疊群 cgl2357st_1428_21 的同源性,其構(gòu)造自 21 個 EST 序列(GenBankAcc CN930585、 CV525017、CN873920、EB149394、EB121634、EB116211、CN909797、EB115871、 EB154300、CN877800、EB121026、CN932122、CN860924、EB110988、C0865849、 CN488473、CN497072、CN903918、CN903403、DR996731 以及 CN894330)。重疊群 cgl2357st_1428_21包含蛋白質(zhì)的完全編碼序列,其中蛋白質(zhì)與ATP依賴性Clp蛋白酶蛋 白水解亞單位(最好的BLASTX命中EEF49880,蓖麻,評分3e_128)相似。FRA8SE02HOH39重疊cgl2357st_1428_21的3,-未翻譯區(qū),并且延伸超過多 聚腺苷酸尾而進入非轉(zhuǎn)錄基因組DNA中,如圖4B以及以下序列對比所示。因此,F(xiàn)RA8SE02HOH39是包含轉(zhuǎn)錄區(qū)的3’ -旁側(cè)序列的基因組序列的一個實 例。實例3.蘋果基因組序列02-H03 (序列,見下文)與40個蘋果EST的5,-部分重疊, 并且與乙烯反應因子(最好的BLASTX命中AAV66332,黃瓜,評分6e_34)相似。對于 EST 91044950 (GenBankAcc EB155368),這示意性地示于圖4C中。其他EST具有類似 的5’端。以下示出序列的有關部分的序列對比?;蚪M序列在基因的翻譯起始密碼子 (ATG)的上游延伸744bp。對于在02-H03中并在編碼區(qū)外面的任何基因沒有發(fā)現(xiàn)序列相 似性,這證實了這是基因組序列。在轉(zhuǎn)錄起始的上游的保守序列是TATA框。在EST的 起始的上游39bp處發(fā)現(xiàn)了假定的TATA-框(TATAAA)。參考文獻Chang, S.,Puryear, J.and Cairney J.1993.A simple and efficient method forisolating RNAfrompinetrees.PlantMol.Biol.Rep.il 113-116.
Kobayashi, Ν.,Horikoshi, T., Katsuyama, H., Handa, Τ. and Takayanagi, K. 1998.Asimple and efficient DNA extraction method for plants, especially woody plants.Plant Tissue Culture and Biotechnology 4 76-80.Sambrook, J.,F(xiàn)ritsch, E.F.and Maniatis T. 1989.Molecular cloning.A laboratorymanual.Second edition.Cold Spring Harbor Laboratory Press.USA.FRA8S6E02IN5QWTATGTTGTGATAACCATATGGCTTCCCTGACATGCTCTGAACATACTCCCATGCTGCAGTAGAGTTGAATTTTGCACGCACCTCTGGATGCAAGGGAAGCAAGGCTATTTGTGGATTAGAACTATCCTTGAGTGTCAACTCCCACCACTCATCCCATGGAATCACCGCTATAATTTCTTCACCCTGCAATATTAAATTATTAATAAATGTAAAAATCAACCAAAAAGAAAAGAACTAACCACAATAAACTCTACAAAAAAGAAAAGAACTAAAGCAAAGTTTAAAATAATTAAGAAATCTGTGCAAGATTGTCATATATTTAATTTTGTCCCTAAACAAACGCTCATCATATGTTCATCACTACAATCCTGATTCAACTATTATTCCACTAAAGGCAAAGAACCAAAACATTTAGCTTAATTTCTATTCCTA
ATAAATCCCAAANACATGAAATGAGTTGCTTGCATAAGCATATACTCAATTGAAAATFRA8S6E02HOH39CAGCGACCTGTTTACGTGCAAGGTTTGGATGGAAGAGATTGAACAGTGATGCCAAATTGAATTGCCTCCAGAACAAATCTGAAGGGTGCAAAAAACATGTACTTTTTGAGAGTTGAAGAATGACGACACTTTCTTATGTTCTATATTATCTTGGTTAAGTTTTTTGCAGGACGGAATGAATCCTCGTCTTTTTTTTCCCTATCAAAAAGAAGAAAGCTGAGTTTTTATGTTTGATGTCTTGATGATGGATGACCTAGTGTTCAAGTGAAAAATTCGACGGACAAAACGCTTGGCAATCCA
ATTTGTGCCGTGTATAATGTGTCACGTCCAAACGAGTTTCACATCGAAGAAA02H03TGTTATTGTTTCATTGAAACATAACGTTACATAACAATATAGGNNNCATTTGGAACAACTTTTAAAATGGCTGAAAACGCATTTTGTGAAAATGATTTTTAAACAGTTTTGAGTAAAAATACAATGAATCATAGAAAAGTACTTGAAATGCTTTCTACAAATAGCATATAACTAGTGCTTATTTCAAAAAATATTNNNAAAACATAAACAAAATTCTCTAAAAATATTTACGGTCATTGTAAAATCATTTTCAAACGTGATTATAATCAGGCTATGTAAAATATTCTTTAATATTGACTCAACAAT
AAACGGCGAATCGAAACGATACACGGAGTGGAGCGTGGGAGATGGGAGGAAAGGATCACCGCACGCAATCAAAGAGTGCATTCGCAGCCGTCAGA TGATGATAAAAATGATGGGTGTGCTCTCTCG
ACAACGCACACATGCCACGTAATACGGAAACGAACATTGCACAATTACTAAATTGCCACCGATGGAGAGCCGCCCCTCCCTAATCCCATCTCAGTCAAATCCCTTGTTGACTGTGCGCCTCTCTCTCTCTCTCTCTCTCTCTCCTCTCTCTTTCTCTCTCTTCAATTCCTCGCTCATCATTTCTATTAAAACCCACAGCCTGCCTCCTAGTCCTCC ATCGCCATCTCCACACCCGTTTCTCTCACATATTTTCTGCAGCCAAACACTCTTTCCACCCAAACACTACATACACAAAACGCCAC
CGTTTAGTTATGGCGCCGAGAGAGAAGACGGCCACCGCCGCCGTTAGGATGAACGGTAACGGAAACGTGAAGGAGGTGCATTTTAGAGGTGTGAGGAAGAGGCCGTGGGGGAGGTACGCCGCCGAGATCAGA
權利要求
1.一種用于鑒定樣品中的基因組DNA的方法,包括從所選生物體分離mRNA并由所述mRNA制備具有一個銜接子的小單鏈cDNA片 段,其中所述銜接子包含親和標記;從相同或相關生物體分離基因組DNA并由所述基因組DNA制備連接于銜接子分子 的單鏈基因組DNA片段;使所述單鏈基因組DNA片段與所述單鏈cDNA片段雜交并擴增所述雜交體;以及 對所述雜交體進行高通量測序。
2.根據(jù)權利要求1所述的方法,包括以下步驟a)分離和純化來自生物體組織樣品的mRNA;b)利用所述mRNA作為模板來合成cDNA; C)可選地使所述cDNA的復雜度降低;d)所述cDNA的片段化;e)可選地選擇所述片段的大小;f)可選地通過結(jié)合于鏈霉親和素包裹的親和珠除去包含多聚腺苷酸的片段;g)拋光所述cDNA片段;h)所述片段與一種包含稀有限制酶的識別位點的銜接子和包含生物素標記的另一種 銜接子連接;i)可選地選擇所述片段的大?。?j)所述片段的缺口修復;k)選擇包含兩種銜接子序列的所述片段;1)對步驟h中描述的所述銜接子序列退火,利用引物來擴增所述片段,其中一種引物 與具有稀有限制位點的銜接子互補而另一種引物包含生物素標記; m)使所述片段結(jié)合于鏈霉親和素包裹的親和珠;η)利用來自所述片段的相應的限制酶,除去包含所述稀有限制位點的銜接子; ο)通過生物素-鏈霉親和素相互作用,從借助于生物素-鏈霉親和素相互作用附著于 親和珠的雙鏈DNA片段除去未附著于親和珠的單鏈,從而產(chǎn)生結(jié)合于鏈霉親和素親和珠 的DNA的單鏈;P)分離和純化例如來自步驟a的生物體的基因組DNA ; q)所述基因組DNA的片段化; r)可選地拋光所述基因組DNA ;S)所述基因組DNA與一種單一類型的銜接子或與兩種不同類型的銜接子(優(yōu)選的) 連接;t)將所述基因組DNA解鏈成單鏈DNA ;u)使來自步驟t)的基因組DNA與來自步驟ο)的在珠上的cDNA雜交; ν)通過洗滌除去未結(jié)合的基因組DNA;w)通過聚合酶來延伸所述cDNA-基因組DNA雜交體以產(chǎn)生雙鏈模板; χ)對所述基因組DNA-cDNA雜交體進行PCR ; y)通過大小分級,從所述PCR選擇大于約100個堿基對的片段; ζ)可選地純化所述片段;aa)對所述片段進行高通量測序。
3.—種用于鑒定多態(tài)性的方法,包括根據(jù)權利要求所述的所有步驟,另外包括ab)比較來自兩個或更多樣品的序列數(shù)據(jù)以鑒定多態(tài)性。
4.根據(jù)權利要求2或3所述的方法,其中,將來自步驟aa)的序列結(jié)合到重疊的單個 序列的重疊群中。
5.根據(jù)權利要求2-4中任一項所述的方法,其中,通過自動標注對來自步驟ab)的序 列或來自權利要求3的重疊群進行標注。
6.根據(jù)前述權利要求中任一項所述的方法,其中,序列獲自屬于一種物種的個體并 與可獲得的EST數(shù)據(jù)比較,以揭示非編碼序列如內(nèi)含子序列和基因內(nèi)部的非編碼序列。
7.根據(jù)前述權利要求中任一項所述的方法,其中,序列獲自屬于相關物種的一個或 多個個體,并與可獲得的EST數(shù)據(jù)比較,以揭示非編碼序列如內(nèi)含子序列和基因內(nèi)部非 編碼序列。
8.根據(jù)前述權利要求中任一項所述的方法,其中,序列獲自屬于相同物種的兩個或 更多個體,并比較以揭示多態(tài)位點。
9.根據(jù)前述權利要求中任一項所述的方法,其中,序列獲自不同物種的一個或多個 個體,并比較以揭示多態(tài)位點。
10.根據(jù)前述權利要求中任一項所述的方法,其中,序列獲自不同物種的一個或多個 個體,并比較以揭示基因組DNA中的保守區(qū)。
11.根據(jù)前述權利要求中任一項所述的方法,其中,包含來自步驟h)的稀有限制酶的 識別位點的銜接子包含酶SapI的識別位點。
12.根據(jù)前述權利要求中任一項所述的方法,其中,通過霧化來實現(xiàn)所述核酸的片段化。
13.一種用于實施權利要求1或2所述的方法的試劑盒,包括一種或多種銜接子和使 用說明書,以及可選的一種或多種互補于所述銜接子的引物、連接酶、和/或?qū)τ谇懈?所述銜接子具有特異性的限制酶、擴增試劑盒本身的常規(guī)組分,如dNTP、和聚合酶。
14.根據(jù)權利要求13所述的試劑盒,其中,所述銜接子通過寡核苷酸的退火獲得,其 中所述寡核苷酸選自由下述組成的組5' -AGTCCGTCGCATCGCTCTTC-3 ‘5,-GAAGAGCGATGCGACG-3 ‘5 ’ -生物素-TEG-AGTGGGTGTCCTGGGTCAAC-3 ’5' -GTTGACCCAGGACACC-3 ‘5' -CTTGTAGGGCACGGGTCGAGAG-3 ‘5' -AATTCTCTCGACCCGTGCCCTA-3 ‘5' -CTTGTAGGGCACGGGTCGGAGA-3 ‘5' -AGCTTCTCCGACCCGTGCCCTA-3 ‘5,-GAATGGCTGGGAGAGTGCTGAG-3 ‘5,-GATCCTCAGCACTCTCCCAGCC-3,禾口5' -GTAGGGCACGGGTCGGAGAAGC-3‘。
全文摘要
本發(fā)明涉及用于分析生物體的基因組區(qū)的方法,該方法包括四個主要部分。第一部分涉及從所選生物體分離mRNA,所選生物體用于制備小的單鏈DNA片段,其具有包含親和標記的銜接子。這些DNA片段用于第三部分。在第二部分中,從相同或相關生物體分離基因組DNA。該基因組DNA被片段化并連接于銜接子分子。在第三部分中,使這些基因組片段與來自第一部分的單鏈DNA片段雜交,并且在此過程中形成的雜交體用于DNA片段的合成。這些片段將用于第四部分,該部分涉及利用一種可用的高通量測序方法來對這些片段進行測序。
文檔編號C12N15/10GK102027136SQ200980117636
公開日2011年4月20日 申請日期2009年3月17日 優(yōu)先權日2008年3月17日
發(fā)明者伊沃·拉羅斯, 布爾 安妮·道韋·德, 德 爾赫 米蘭達·德博拉·范, 米夏埃爾·約翰內(nèi)斯·馬庫斯·埃伯斯坎普, 西蒙·阿爾貝圖斯·朗格弗爾德 申請人:表現(xiàn)研究有限公司