專(zhuān)利名稱(chēng):一種測(cè)序文庫(kù)及其制備方法、一種末端測(cè)序方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于分子生物學(xué)領(lǐng)域,涉及一種測(cè)序文庫(kù)及其制備方法、以及一種末端測(cè) 序方法和裝置。所述末端測(cè)序方法和裝置特別適用于高通量測(cè)序。
背景技術(shù):
在基因組測(cè)序中,通常將基因組DNA克隆到載體中再進(jìn)行測(cè)序。例如常用的載體 是Fosmid和細(xì)菌人工染色體(bacterial artificial chromosome,BAC),二者具有插入片 段大和穩(wěn)定的特點(diǎn),是基因組學(xué)研究重要工具。已知BAC通常可以插入100-200kb的片段, Fosmid通??梢圆迦氪蠹s40kb的片段,二者在基因圖位克隆、基因分析、結(jié)構(gòu)性變異和基 因組組裝中有重要的作用。此外還有多種其它載體也應(yīng)用在測(cè)序當(dāng)中。第一代測(cè)序技術(shù)中通常要對(duì)含有待測(cè)DNA的載體克隆的末端進(jìn)行測(cè)序,以構(gòu)建 重疊克隆,然而由于克隆具有低拷貝的特點(diǎn)以及插入的大片段存在的二級(jí)結(jié)構(gòu),所以對(duì) 克隆進(jìn)行末端測(cè)序比較困難,即使目前開(kāi)發(fā)了自動(dòng)化的設(shè)備(Kelley,J. Μ. et al. 1999. High throughout direct end sequencing of BAC clones. Nucleic Acids Res. 27 1539-1546),但是對(duì)于數(shù)十萬(wàn)的克隆來(lái)說(shuō),仍然顯得費(fèi)時(shí)費(fèi)力。第二代測(cè)序技術(shù)(next generation sequencing, NGS)是高通量測(cè)序技術(shù), 其對(duì)第一代測(cè)序技術(shù)進(jìn)行了改進(jìn),采用S0LEXA、SOLID、和454測(cè)序平臺(tái)等(Metzker ML Sequencing technologies-the nextgeneration. Nat Rev Genet.2010 Jan ;11 (1) 31-46)使高通量測(cè)序得到了迅速的發(fā)展。對(duì)于讀長(zhǎng)較小的一些測(cè)序平臺(tái)(如illumina/solexa),測(cè)序后的拼接較為困難, 得到的scaffold的N50偏低,組裝結(jié)果并不理想。在本發(fā)明中,術(shù)語(yǔ)“N50”為將所有的組 裝得到的序列從大到小排列起來(lái)并按長(zhǎng)度相加,當(dāng)相加得到的長(zhǎng)度為所有組裝得到序列 總長(zhǎng)的百分之五十時(shí)那條組裝序列的長(zhǎng)度,具體可以參考Miller et al. 2010. Assembly algorithms for next generation sequencing data. Genomics. 95(6) :315_327。為了克服組裝的困難,需要對(duì)大片段的末端進(jìn)行測(cè)序.W02010003316A1中公開(kāi)了 一種方法,該方法合成了構(gòu)建fosmid克隆的載體,在這些載體中存在的識(shí)別4堿基的內(nèi)切 酶FspBI和Csp6I的酶切位點(diǎn)被突變,利用這兩個(gè)內(nèi)切酶對(duì)插入外源片段的fosmid克隆進(jìn) 行酶切,回收目的酶切片段,環(huán)化之后,獲得fosmid克隆的兩個(gè)末端序列,可以利用第二代 測(cè)序儀進(jìn)行雙末端測(cè)序,但是這個(gè)方法會(huì)因?yàn)镕spBI和Csp6I的酶切位點(diǎn)并不是完全平均 分布在基因組中,導(dǎo)致有一些含有特定區(qū)域的fosmid克隆的末端無(wú)法得到,并且不能對(duì)插 入更長(zhǎng)片段的BAC進(jìn)行末端測(cè)序。此外,該方法還需要針對(duì)酶切位點(diǎn)選擇特定的載體或者 對(duì)現(xiàn)有載體進(jìn)行改造,增加了方法的復(fù)雜性,由于沒(méi)有載體通用性,也限制了該方法的大規(guī) 模推廣。
發(fā)明內(nèi)容
為了解決上述問(wèn)題,本發(fā)明人進(jìn)行了多方面的研究,終于獲得了一種改良的高通
4量末端測(cè)序方法,該方法沒(méi)有酶切偏好性,對(duì)片段大小和載體類(lèi)型并無(wú)特殊要求,無(wú)需對(duì)構(gòu) 建克隆的載體進(jìn)行改造和選擇,并且能夠得到更長(zhǎng)的組裝片段。本發(fā)明還提供了相應(yīng)的高 通量測(cè)序裝置。具體地,本發(fā)明的末端測(cè)序方法采用隨機(jī)打斷的方式對(duì)載體(例如BAC或者 Fosmid)克隆的質(zhì)粒DNA進(jìn)行片段化,選擇目的片段,環(huán)化之后,通過(guò)擴(kuò)增的方式獲得含有 雙末端的片段,利用高通量測(cè)序技術(shù)對(duì)獲得的片段測(cè)序,得到目的片段的雙末端序列。由此 提供了下述發(fā)明本發(fā)明的一個(gè)方面涉及一種制備測(cè)序文庫(kù)的方法,包括下述步驟1)隨機(jī)打斷將插入有待測(cè)DNA的載體進(jìn)行隨機(jī)打斷處理,得到隨機(jī)打斷片段 (圖 1);2)末端修復(fù)將步驟1)中得到的隨機(jī)打斷片段進(jìn)行末端修復(fù),使末端平端化;3)分離將步驟2)中的末端修復(fù)后的隨機(jī)打斷片段進(jìn)行分離,得到大于載體長(zhǎng)度 50bp至SOObp的隨機(jī)打斷片段(圖1);4)環(huán)化將步驟3)中分離得到的隨機(jī)打斷片段進(jìn)行自身連接,形成環(huán)形分子(圖 2),然后清除未自身連接的片段;5)擴(kuò)增根據(jù)載體序列設(shè)計(jì)引物,擴(kuò)增環(huán)形分子中的待測(cè)DNA的片段(圖2),得到 擴(kuò)增產(chǎn)物,即為測(cè)序文庫(kù)??蛇x地,一種制備測(cè)序文庫(kù)的方法,包括下述步驟A.隨機(jī)打斷將插入有待測(cè)DNA的載體進(jìn)行隨機(jī)打斷處理,得到隨機(jī)打斷片段 (圖 1);B.分離將步驟A中的隨機(jī)打斷片段進(jìn)行分離,得到大于載體長(zhǎng)度50bp至SOObp 的隨機(jī)打斷片段(圖1);C.末端修復(fù)將步驟B中分離得到的隨機(jī)打斷片段進(jìn)行末端修復(fù),使末端平端 化;D.環(huán)化將步驟C中末端修復(fù)的隨機(jī)打斷片段進(jìn)行自身連接,形成環(huán)形分子(圖 2),然后清除未自身連接的片段;E.擴(kuò)增根據(jù)載體序列設(shè)計(jì)引物,擴(kuò)增環(huán)形分子中的待測(cè)DNA的片段(圖2),得到 擴(kuò)增產(chǎn)物,即為測(cè)序文庫(kù)。 上述制備測(cè)序文庫(kù)的方法中,關(guān)于步驟1)或步驟A,所述載體是質(zhì)粒。具體地,所述質(zhì)粒是fosmid質(zhì)粒、BAC質(zhì) ?;駽osmid質(zhì)粒等。所述隨機(jī)打斷處理是霧化、超聲、或者HydroShear法。優(yōu)選地,采用 HydroShear法,當(dāng)含有核酸片段的溶液通過(guò)較小面積的通道時(shí),流體加速,產(chǎn)生的力使核酸 片段突然斷裂,流速和通道大小決定核酸片段的大小。可以通過(guò)參數(shù)設(shè)置,使得隨機(jī)打斷片 段處于大于載體長(zhǎng)度幾十bp到數(shù)百bp的范圍內(nèi)??梢栽O(shè)置儀器的參數(shù),使隨機(jī)打斷片段 長(zhǎng)度大于載體的長(zhǎng)度,優(yōu)選地,使隨機(jī)打斷片段長(zhǎng)度處于大于載體長(zhǎng)度50bp至SOObp (例如 載體大小為8. 2kb,則將質(zhì)粒DNA打斷為8. 25-9. Okb)的范圍內(nèi),更優(yōu)選地,使隨機(jī)打斷片段 處于大于載體長(zhǎng)度200bp至800bp的范圍內(nèi)。在本發(fā)明的一個(gè)實(shí)施方案中,還包括在進(jìn)行步驟1)或步驟A中的所述隨機(jī)打斷處 理之前,選擇載體上不存在酶切位點(diǎn)的核酸限制性?xún)?nèi)切酶進(jìn)行酶切處理的步驟,優(yōu)選識(shí)別6堿基的核酸限制性?xún)?nèi)切酶。例如利用pCC2F0S Vector (Epicentre, USA)得到的fosmid克 隆,可以使用Xhol、或ClaI等核酸限制性?xún)?nèi)切酶。關(guān)于步驟2)或步驟C,所述末端修復(fù)可以使用如下的酶Klenow酶、T4聚合酶、或 T4多核苷酸激酶。關(guān)于步驟3)或步驟B,所述分離采用凝膠電泳法(圖1)或梯度沉降法,優(yōu)選地, 采用凝膠電泳法??蛇x地,對(duì)分離得到的片段進(jìn)行大小和濃度的測(cè)定,例如可以使用安捷倫 2100生物芯片分析儀。優(yōu)選地,步驟3)中分離得到的隨機(jī)打斷片段是大于載體長(zhǎng)度200bp 至800bp的隨機(jī)打斷片段。關(guān)于步驟4)或步驟D,所述自身連接可以采用本領(lǐng)域已知的方法進(jìn)行,例如使 用T4連接酶進(jìn)行連接。環(huán)化體系中核酸片段的濃度不高于2ng/yl,防止不同的核酸片 段彼此連接并環(huán)化成一個(gè)大環(huán)。未連接的片段化核酸需要被清除,可采用已知的消化線(xiàn)性 核酸的方法進(jìn)行,例如使用不降解質(zhì)粒的ATP依賴(lài)DNA酶(Plasmid-Safe ATP-dependent DNase)、外切核酸酶I(Exonuclease I)等降解。關(guān)于步驟5)或步驟E,在步驟4)或步驟D環(huán)化之后的核酸分子中包括一些這樣的 分子,即載體序列保持完整,同時(shí)載體的插入位點(diǎn)的兩端分別帶有幾十到數(shù)百bp的片段, 此片段即為插入的核酸片段的兩個(gè)末端,由于已知載體的序列,根據(jù)載體序列設(shè)計(jì)適合的 引物,利用PCR技術(shù)擴(kuò)增出連接在一起的兩端的片段即末端序列(圖2),PCR反應(yīng)擴(kuò)增循環(huán) 數(shù)不宜過(guò)高,優(yōu)選采用18-20循環(huán)。本發(fā)明的另一方面涉及一種測(cè)序文庫(kù),其由本發(fā)明的制備測(cè)序文庫(kù)的方法制得。本發(fā)明的又一方面涉及一種末端測(cè)序方法,包括將本發(fā)明的測(cè)序文庫(kù)進(jìn)行測(cè)序的步驟。在本發(fā)明的一個(gè)實(shí)施方案中,所述測(cè)序是使用高通量的測(cè)序技術(shù)。測(cè)序過(guò)程需要 根據(jù)不同的測(cè)序技術(shù)要求進(jìn)行相關(guān)的預(yù)處理。考慮到技術(shù)的成熟度,本發(fā)明目前主要使用的是第二代測(cè)序技術(shù)。諸如在S0LEXA、 SOLID和454測(cè)序技術(shù)。使用第二代測(cè)序平臺(tái),需要將上面的步驟5)或步驟E中得到的擴(kuò)增產(chǎn)物進(jìn)行末端 修復(fù),使末端平端化,然后加上測(cè)序用接頭,進(jìn)行測(cè)序?;蛘撸诓襟E5)或步驟E的擴(kuò)增環(huán) 節(jié)使用高保真同時(shí)具有末端加A的功能的聚合酶。末端加A后的擴(kuò)增產(chǎn)物就可以直接根據(jù) 不同的測(cè)序平臺(tái)連接接頭,省去額外加A的操作步驟,減少產(chǎn)物損失。第二代測(cè)序憑的測(cè)序接頭包括基于SOLEXA測(cè)序平臺(tái)的接頭A和接頭B,SOLID的 測(cè)序平臺(tái)的ABI接頭Pl和接頭P2,454測(cè)序平臺(tái)的接頭A和接頭B。與測(cè)序接頭的連接方 法可以采用本領(lǐng)域已知的方法,常使用T4連接酶進(jìn)行連接。一般情況下,載體的插入位點(diǎn)常為多克隆位點(diǎn),具有多個(gè)限制性?xún)?nèi)切酶的酶切位 點(diǎn),可以使用這些限制性?xún)?nèi)切酶對(duì)擴(kuò)增產(chǎn)物進(jìn)行酶切,減少擴(kuò)增產(chǎn)物的序列上包含的載體 序列,在測(cè)序得到的讀長(zhǎng)中得到更長(zhǎng)的末端序列。加接頭前,需要對(duì)酶切的產(chǎn)物進(jìn)行末端修 復(fù),例如利用聚合酶如klen0W、T4聚合酶和T4多聚核苷酸激酶以及dNTP補(bǔ)平末端,接著用 沒(méi)有外切酶活性的Klenow片段加A。當(dāng)然,本發(fā)明測(cè)序部分也可考慮使用目前的最新一代的單分子測(cè)序技術(shù)(單分子 測(cè)序平臺(tái))。例如Helicos 公司的 True Single Molecule DNA sequencing 技術(shù),PacificBiosciences 公司的 the single molecule, real-time (SMRT. TM.)技術(shù),以及 Oxford Nanopore Technologies 公司的納米孔測(cè)序技術(shù)等(Rusk,Nicole (2009-04-01). Cheap Third-Generation Sequencing. Nature Methods 6(4) :244 245)。具體地,所述末端測(cè)序方法還包括將測(cè)序結(jié)果進(jìn)行組裝和/或拼接的步驟。本發(fā)明的再一方面涉及一種核酸測(cè)序方法,包括下述步驟1)使用S0LRXA、S0LID、454、或單分子測(cè)序平臺(tái)進(jìn)行測(cè)序,并進(jìn)行組裝和/或拼接 得到組裝結(jié)果1 ;2)使用本發(fā)明的末端測(cè)序方法進(jìn)行測(cè)序,得到測(cè)序結(jié)果;3)將組裝結(jié)果1和測(cè)序結(jié)果再次進(jìn)行組裝和/或拼接,得到組裝結(jié)果2。步驟2) 中的本發(fā)明的末端測(cè)序方法有利于得到大片段的兩個(gè)末端的序列,因此可以結(jié)合步驟1) 中得到的組裝結(jié)果1,進(jìn)行二次組裝,得到的組裝結(jié)果2的片段長(zhǎng)度明顯大于組裝結(jié)果1。其 中,所述組裝和/或拼接在本領(lǐng)域技術(shù)人員的知識(shí)和技能之內(nèi),例如可以使用SOAPdenovo 軟件。本發(fā)明的還一方面涉及一種末端測(cè)序裝置,包括如下單元1)隨機(jī)打斷單元,2)平端化修飾單元,3)分離單元,4)環(huán)化單元,5) PCR擴(kuò)增單元,以及6)測(cè)序單元。在本發(fā)明的一個(gè)實(shí)施方案中,所述隨機(jī)打斷單元是Hydroshear儀。在本發(fā)明的一個(gè)實(shí)施方案中,所述測(cè)序單元是第二代測(cè)序單元(例如S0LEXA、 SOLID、或454測(cè)序平臺(tái))或單分子測(cè)序單元(單分子測(cè)序平臺(tái))。在本發(fā)明中,術(shù)語(yǔ)“片段”是指一段核酸序列,具體地為DNA序列。術(shù)語(yǔ)“大片段” 是指該核酸片段(具體地為DNA片段)長(zhǎng)度較大,例如大于5kb,優(yōu)選地,大于10kb,更優(yōu)選 地,大于20kb。術(shù)語(yǔ)“核酸測(cè)序”具體地指DNA測(cè)序。發(fā)明的有益效果1)相對(duì)于目前常用的基于第一代測(cè)序技術(shù)的測(cè)序方法,本發(fā)明的測(cè)序方法減少了 挑克隆、制備單個(gè)克隆質(zhì)粒等繁瑣的步驟,大大節(jié)約了時(shí)間和財(cái)力。2)相對(duì)于基于酶切的fosmid克隆末端測(cè)序方法,本發(fā)明采用了隨機(jī)打斷的方式 對(duì)BAC或者Fosmid克隆的質(zhì)粒DNA進(jìn)行片段化,通過(guò)反向PCR得到末端片段,克服酶切處 理產(chǎn)生末端的方法導(dǎo)致的偏好性,同時(shí)無(wú)需針對(duì)酶切位點(diǎn)對(duì)構(gòu)建克隆的載體進(jìn)行改造和選 擇,使用具有廣泛性。3)本發(fā)明不受酶切位點(diǎn)的限制,能夠?qū)Σ迦敫笃蔚腂AC克隆進(jìn)行高通量的末 端測(cè)序。4)本發(fā)明的測(cè)序方法作為一種輔助方法能夠在基因組從頭測(cè)序(de novo sequencing)中大大提高組裝出的片段(scaffold)的長(zhǎng)度。組裝片段長(zhǎng)度的增長(zhǎng)會(huì)有利于 后續(xù)的各類(lèi)分子標(biāo)記的定位以及相關(guān)基因或性狀的研究。
圖1 隨機(jī)打斷處理以及片段電泳分離的示意圖。圖2 片段環(huán)化以及擴(kuò)增的示意圖。其中,白色為插入的DNA ;黑色為載體序列;點(diǎn) 狀為引物序列,與黑色載體配對(duì)。
具體實(shí)施例方式下面將結(jié)合實(shí)施例對(duì)本發(fā)明的實(shí)施方案進(jìn)行詳細(xì)描述。本領(lǐng)域技術(shù)人員將會(huì)理 解,下面的實(shí)施例僅用于說(shuō)明本發(fā)明,而不應(yīng)視為限定本發(fā)明的范圍。實(shí)施例中未注明具體 技術(shù)或條件者,按照本領(lǐng)域內(nèi)的文獻(xiàn)所描述的技術(shù)或條件(例如參考J.薩姆布魯克等著, 黃培堂等譯的《分子克隆實(shí)驗(yàn)指南》,第三版,科學(xué)出版社)或者按照產(chǎn)品說(shuō)明書(shū)進(jìn)行。所用 試劑或儀器未注明生產(chǎn)廠(chǎng)商者,均為可以通過(guò)市購(gòu)獲得的常規(guī)產(chǎn)品。實(shí)施例1 使用本發(fā)明的測(cè)序方法和現(xiàn)有技術(shù)方法的比較1)隨機(jī)打斷取北極熊基因組DNA(本實(shí)驗(yàn)室使用鹽析法提取,具體方法可以參考Lahiri D, Schnabel B. 1993. DNA isolation by a rapid method from human blood samples effects of MgC12, EDTA, storage time, and temperature on DNA yield and quality. Biochem Genet. 31 :321328),確保 DNA 大小不低于 36Kb,利用 CopyControl HTP Fosmid Library Production Kit (Epicentre, USA),按照生產(chǎn)商的詳細(xì)說(shuō)明制備北極熊的fosmid 克隆文庫(kù),利用本領(lǐng)域常用的堿裂解法對(duì)fosmid克隆混合樣提取質(zhì)粒DNA。使用標(biāo)準(zhǔn) Hydroshear 儀(GeneMachine, San Carlos, CA. ,USA), Custom Shearing Assembly-large (4Kb-40Kb)裝置(GeneMachine, San Carlos, CA. ,USA),以速度8 對(duì)200 μ 1 北極熊混合fosmid克隆質(zhì)粒DNA 20 μ g進(jìn)行20個(gè)循環(huán)的剪切,該克隆文庫(kù)使用了載體 PCC2F0S (Epicentre, Madison, WI.,USA)所構(gòu)建,載體大小為 8181bp。2)末端修復(fù)利用QIAquick PCR Purification Kit(Qiagen, Germany)純化片段化的 DNA,在 154. 8 μ 1 DNA溶液中加20 μ 1 10 X Τ4多聚核苷酸激酶緩沖液,3. 2 μ 1 25mM ΝΤΡ,ΙΟμ 1 T4DNA 聚合酶(3000 單位/ml,Enzymatics,Beverly,ΜΑ. , USA), 2 μ 1 Klenow 聚合酶(5000 單位 /ml, Enzymatics)和 10 μ 1 T4 多聚核苷酸激酶(10000 單位 /ml, Enzymatics), 20°C 溫育30分鐘,對(duì)片段化的DNA進(jìn)行補(bǔ)平末端。3)分離對(duì)補(bǔ)平末端后的DNA進(jìn)行電泳,使用0. 6%的Megebase瓊脂糖膠以電壓5V/CM電 泳16小時(shí),染色后,在Darkreader下切取8. 2-9. Okb片段大小的DNA,使用QIAquick Gel Purification Kit 進(jìn)行純化。4)環(huán)化對(duì)回收的8. 2-9. Okb片段大小的DNA進(jìn)行環(huán)化,在1600ng DNA溶液中加入80 μ 1 10ΧΤ4 DNA連接酶緩沖液和40 μ 1 Τ4 DNA連接酶(400,000單位/ml,NEB),16°C溫育16小 時(shí),此后通過(guò)向體系中加入 16μ 1 IOOmM的ΑΤΡ,192μ 1 10XPlasmid-Safe ATP-d印endent DNase 中1,80μ 1 Plasmid-Safe ATP—dependent DNase (10, 000 ^itL /ml, Epicentre) 和48 μ 1 Exonuclease I (20,000單位/ml, NEB),將反應(yīng)體系37°C放置30分鐘,以此來(lái)消
8化沒(méi)有環(huán)化的DNA,然后在72°C放置20分鐘,接著加入64 μ 1 0. 5Μ EDTA,此后將樣品用 QIAquickPCR Purification Kit 純化。5)擴(kuò)增在3)環(huán)化步驟中回收得到的36. 75μ1樣品中,依次加入5μ1 IOXEx Taq緩 沖液,4 μ 1 2. 5mM dNTP,2 μ 1 10 μ M的正向引物Fl 和反向引物Rl ,0. 25 μ 1的Ex Taq(5000單位/ml,Takara),對(duì)樣品進(jìn)行PCR擴(kuò)增。其中,所用引物的具體序列如下Fl :CAGGAAACAGCCTAGGAA(SEQ ID NO 1),Rl :GTACAACGACACCTAGAC(SEQ ID NO 2)。PCR程序如下(a) 94°C,1 分鐘;(b) 94°C >30 秒;(C) 58°C,30 秒;(d) 72°C,40 秒;其中步驟(b)到 (d)進(jìn)行18個(gè)循環(huán),(e)72°C,5分鐘,此后將反應(yīng)物保持在4°C。然后將樣品用Qiagen MinElute PCR Purification Kit 純化。6)測(cè)序在19 μ 1純化產(chǎn)物中加入10 μ 1 2x Rapid Ligase緩沖液,5 μ 1 T4DNA連接酶 (600,000 單位 /mL,Enzymatics),1 μ 1 15 μ M 的 SOLEXA Adaptor Mix,將混合液在 20°C溫 育15分鐘,接著用Qiagen MinElute PCR Purification Kit純化反應(yīng)產(chǎn)物。在回收得到的38. 75μ 1樣品中,依次加入5μ 1 IOx Ex Taq緩沖液,4μ1 2. 5mM dNTP, 1 μ 1 10 μ M的正向引物ΡΕ1.0和和反向引物ΡΕ2.0,0.25 μ 1的Ex Taq (5000單位/ ml, Takara),對(duì)樣品進(jìn)行PCR擴(kuò)增,所用引物的具體序列如下PEl. 0 5 ‘ AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCT(SEQ ID NO :3),PE2. 0 5 ‘ CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCTTCCGATCT(SEQ ID NO 4)。PCR程序如下(a) 94°C,1 分鐘;(b) 94°C,15 秒;(c) 65°C,30 秒;(d) 72°C,30 秒;其中步驟(b)到 (d)進(jìn)行18個(gè)循環(huán),(e)72°C,5分鐘,此后將反應(yīng)物保持在4°C。然后對(duì)反應(yīng)產(chǎn)物通過(guò)65°C放置10分鐘進(jìn)行變性,然后置于冰上,將變性后的產(chǎn) 物電泳,使用2.0%的Low Range Ultra瓊脂糖膠以電壓15V/CM電泳2小時(shí),染色后,在 Darkreader 下切取 400bp-700bp 片段大小的 DNA,使用 Qiagen MinElute Gel Purification Kit進(jìn)行純化。對(duì)純化后的產(chǎn)物在Illumina GA(Solexa)上機(jī)測(cè)序,76個(gè)循環(huán)。使用以上方法,得到以下結(jié)果共得到15,225,082對(duì)序列,去掉重復(fù)之后,共有2,865,235對(duì)干凈的序列(即去 掉重復(fù)測(cè)到的序列后所得到的具有唯一特征的序列)。將得到的測(cè)序結(jié)果的序列跟原始得到的scaffold的N50為2. 3M的基因組圖譜 進(jìn)行比對(duì),得到具有唯一匹配位點(diǎn)定位到同一個(gè)scaffold上且距離小于500bp的數(shù)目為 209,600對(duì),定位到同一個(gè)scaffold上且距離大于IOkb的數(shù)目為531,028對(duì),其中30_50kb 的有520,897對(duì),占98. 09%,定位到不同scaffold上的有185,888對(duì),利用這185,888對(duì)進(jìn)行基因組的輔助組裝,將scaffold的N50從2. 3M提高到6. 5M。其中,獲得2. 3M的方法如下采用與實(shí)施例1相同的基因組樣品,采用如下方法測(cè)序,測(cè)序過(guò)程為illumina提 供的標(biāo)準(zhǔn)流程,具體為使用Genomic DNA Sample Prep Kits (Illumina, USA),依據(jù)試劑 盒生產(chǎn)商的說(shuō)明構(gòu)建插入片段大小分別為165-175bp、450-550bp、720-880bp的測(cè)序文庫(kù); 使用Paired-End Sample Prep Kit (Illumina,USA),依據(jù)試劑盒生產(chǎn)商的說(shuō)明構(gòu)建插入 片段大小分別為2. 4kb-2. 7kb,5. 7kb-6. 3kb和IOkb-IIkb的測(cè)序文庫(kù),然后用Illumina GA(Solexa)對(duì)構(gòu)建的兩個(gè)文庫(kù)進(jìn)行測(cè)序。有效數(shù)據(jù)(去除原始測(cè)序得到數(shù)據(jù)中的重復(fù)和 錯(cuò)誤的reads)達(dá)到60X(測(cè)序深度)覆蓋度后,用SOAPdenovo (該軟件可從http //soap, genomics, org. cn/soapdenovo. html 下載,參考 Li et al. 2010. De novo assembly of human genomes with massively parallel short read sequencing. Genome Res. 20(2) 265-72)進(jìn)行組裝。計(jì)算得到的scaffold的N50為2. 3M。由此可見(jiàn),本發(fā)明的方法可以較好地提高組裝出的片段的長(zhǎng)度。組裝片段長(zhǎng)度的 增長(zhǎng)會(huì)有利于后續(xù)的各類(lèi)分子標(biāo)記的定位以及相關(guān)基因或性狀的研究。盡管本發(fā)明的具體實(shí)施方式
已經(jīng)得到詳細(xì)的描述,本領(lǐng)域技術(shù)人員將會(huì)理解。根 據(jù)已經(jīng)公開(kāi)的所有教導(dǎo),可以對(duì)那些細(xì)節(jié)進(jìn)行各種修改和替換,這些改變均在本發(fā)明的保 護(hù)范圍之內(nèi)。本發(fā)明的全部范圍由所附權(quán)利要求及其任何等同物給出。
權(quán)利要求
一種制備測(cè)序文庫(kù)的方法,包括下述步驟1)隨機(jī)打斷將插入有待測(cè)DNA的載體進(jìn)行隨機(jī)打斷處理,得到隨機(jī)打斷片段;2)末端修復(fù)將步驟1)中得到的隨機(jī)打斷片段進(jìn)行末端修復(fù),使末端平端化;3)分離將步驟2)中的末端修復(fù)后的隨機(jī)打斷片段進(jìn)行分離,得到大于載體長(zhǎng)度50bp至800bp的隨機(jī)打斷片段;4)環(huán)化將步驟3)中分離得到的隨機(jī)打斷片段進(jìn)行自身連接,形成環(huán)形分子,然后清除未自身連接的片段;5)擴(kuò)增根據(jù)載體序列設(shè)計(jì)引物,擴(kuò)增環(huán)形分子中的待測(cè)DNA的片段,得到擴(kuò)增產(chǎn)物,即為測(cè)序文庫(kù)。
2.一種制備測(cè)序文庫(kù)的方法,包括下述步驟A.隨機(jī)打斷將插入有待測(cè)DNA的載體進(jìn)行隨機(jī)打斷處理,得到隨機(jī)打斷片段;B.分離將步驟A中的隨機(jī)打斷片段進(jìn)行分離,得到大于載體長(zhǎng)度50bp至SOObp的隨 機(jī)打斷片段;C.末端修復(fù)將步驟B中分離得到的隨機(jī)打斷片段進(jìn)行末端修復(fù),使末端平端化;D.環(huán)化將步驟C中末端修復(fù)的隨機(jī)打斷片段進(jìn)行自身連接,形成環(huán)形分子,然后清除 未自身連接的片段;E.擴(kuò)增根據(jù)載體序列設(shè)計(jì)引物,擴(kuò)增環(huán)形分子中的待測(cè)DNA的片段,得到擴(kuò)增產(chǎn)物, 即為測(cè)序文庫(kù)。
3.根據(jù)權(quán)利要求1或2所述的方法,其中,步驟1)或步驟A中,所述載體是質(zhì)粒, 具體地是fosmid質(zhì)粒、BAC質(zhì)粒、或Cosmid質(zhì)粒;所述隨機(jī)打斷處理是霧化、超聲、或者 HydroShear 法。
4.根據(jù)權(quán)利要求1或2所述的方法,其中,還包括在進(jìn)行步驟1)或步驟A中的所述隨 機(jī)打斷處理之前,選擇載體上不存在酶切位點(diǎn)的內(nèi)切酶進(jìn)行酶切處理的步驟。
5.根據(jù)權(quán)利要求1或2所述的方法,其中,所述步驟2或步驟C中,所述末端修復(fù)使用 如下的酶=Klenow酶、T4聚合酶、或T4多核苷酸激酶。
6.根據(jù)權(quán)利要求1或2所述的方法,其中,步驟3)或步驟B中,所述分離采用凝膠 電泳法或梯度沉降法;所述大于載體長(zhǎng)度50bp至SOObp的隨機(jī)打斷片段為大于載體長(zhǎng)度 200bp-800bp的隨機(jī)打斷片段。
7.根據(jù)權(quán)利要求1或2所述的方法,其中,步驟4)或步驟D中中,所述自身連接使用 T4連接酶進(jìn)行,所述清除使用不降解質(zhì)粒的ATP依賴(lài)DNA酶和/或外切核酸酶I進(jìn)行。
8.根據(jù)權(quán)利要求1或2所述的方法,其中,步驟5)或步驟E中,所述擴(kuò)增為18-20個(gè)循 環(huán)的PCR擴(kuò)增;優(yōu)選地,所述PCR擴(kuò)增使用具有末端加A功能的聚合酶。
9.一種測(cè)序文庫(kù),其由權(quán)利要求1-8中任一項(xiàng)所述的方法制得。
10.一種末端測(cè)序方法,包括將權(quán)利要求9所述的測(cè)序文庫(kù)進(jìn)行測(cè)序的步驟;具體地, 使用SOLEXA、S0LID、454、或單分子測(cè)序平臺(tái)進(jìn)行測(cè)序;具體地,還包括將測(cè)序結(jié)果進(jìn)行組 裝和/或拼接的步驟。
11.一種核酸測(cè)序方法,包括下述步驟1)使用SOLEXA、S0LID、454、或單分子測(cè)序平臺(tái)進(jìn)行測(cè)序,并進(jìn)行組裝和/或拼接得到 組裝結(jié)果1 ;2)使用權(quán)利要求10所述的末端測(cè)序方法進(jìn)行測(cè)序,得到測(cè)序結(jié)果;3)將組裝結(jié)果1和測(cè)序結(jié)果再次進(jìn)行組裝和/或拼接,得到組裝結(jié)果2。
12. —種末端測(cè)序裝置,包括如下單元1)隨機(jī)打斷單元,2)平端化修飾單元,3)分離單元,4)環(huán)化單元,5)PCR擴(kuò)增單元,以及6)測(cè)序單元;具體地,所述隨機(jī)打斷單元是Hydroshear儀,所述測(cè)序單元是SOLEXA、S0LID、454、或 單分子測(cè)序平臺(tái)。
全文摘要
本發(fā)明屬于分子生物學(xué)領(lǐng)域,本發(fā)明屬于分子生物學(xué)領(lǐng)域,涉及一種測(cè)序文庫(kù)及其制備方法、一種末端測(cè)序方法和裝置。具體地,所述制備測(cè)序文庫(kù)的方法包括隨機(jī)打斷、末端修復(fù)、分離、環(huán)化、擴(kuò)增的步驟。所述末端測(cè)序方法包括將根據(jù)制備測(cè)序文庫(kù)的方法制得的測(cè)序文庫(kù)進(jìn)行測(cè)序的步驟,該測(cè)序方法特別適用于大片段DNA的高通量測(cè)序。本發(fā)明還涉及一種高通量末端測(cè)序裝置,包括如下單元1)隨機(jī)打斷單元,2)平端化修飾單元,3)分離單元,4)環(huán)化單元,5)PCR擴(kuò)增單元,以及6)測(cè)序單元。本發(fā)明的末端測(cè)序方法克服了酶切的偏好性,能夠得到更長(zhǎng)的組裝片段。
文檔編號(hào)C40B40/08GK101967684SQ20101027270
公開(kāi)日2011年2月9日 申請(qǐng)日期2010年9月1日 優(yōu)先權(quán)日2010年9月1日
發(fā)明者徐訊, 韓長(zhǎng)磊 申請(qǐng)人:深圳華大基因科技有限公司