從含有少量靶標(biāo)dna的樣品富集dna測序文庫的制作方法
【專利說明】從含有少量靶標(biāo)DNA的樣品富集DNA測序文庫
[0001] 政府I持
[0002] 本發(fā)明是受政府支持在美國國立衛(wèi)生研究院(NIH)授予的基金號HG005715和 HG003220的下完成的。政府具有本發(fā)明的某些權(quán)利。
[0003] 奪叉參考
[0004] 本申請要求2013年5月4日提交的美國臨時申請系列號61/819,564的權(quán)益,該 申請通過引用整體并入本文。
[0005] 發(fā)明背景
[0006] 由于成本原因,在最古老的樣本中殘留的極低水平的內(nèi)源性DNA已妨礙了許多目 標(biāo)樣品的鳥槍法測序。例如,源自骨和牙的古DNA(aDNA)文庫常常含有〈1%的內(nèi)源性DNA, 這意味著環(huán)境DNA占去了大部分的測序能力。因此,與對低內(nèi)源性DNA樣品進(jìn)行測序有關(guān) 的大部分成本沒有提供人基因組數(shù)據(jù)。其結(jié)果是,許多古DNA樣品被認(rèn)為不適合進(jìn)行測序, 因?yàn)榕c所需的資源相比數(shù)據(jù)產(chǎn)率低。因此,本領(lǐng)域存在在低內(nèi)源性DNA樣品中提高內(nèi)源性 DNA產(chǎn)率的需要,并且特別地存在當(dāng)對低內(nèi)源性DNA樣品進(jìn)行測序時提高待測序的內(nèi)源性 DNA的百分比的需要。
[0007] DNA提取的最近發(fā)展已提供了成本較低的下一代測序技術(shù),使得古遺傳學(xué)領(lǐng)域已 從專注于PCR擴(kuò)增的線粒體DNA和Y染色體標(biāo)志物轉(zhuǎn)換至全基因組的鳥槍法測序。但是, 由于在總樣品材料中內(nèi)源性DNA的低百分比,當(dāng)對低內(nèi)源性DNA樣品進(jìn)行測序時,鳥槍法測 序可能得到低于期望的結(jié)果。
[0008] 相反,利用常染色體DNA序列對于種群遺傳分析可以是優(yōu)越的,因?yàn)樗峁﹣碜?兩個譜系(即母系和父系)的信息。因此,本領(lǐng)域存在提供常染色體DNA測序技術(shù)用于古 DNA分析以獲得針對種群遺傳分析的改善的分辨率的特定需要。例如,單個古基因組(包 括尼安德特人、丹尼索瓦人、古愛斯基摩人、提洛爾冰人和澳大利亞土著人)的全基因組測 序已轉(zhuǎn)變了我們對人類迀徙的理解并且揭示了之前未知的古代種群之間的混合。然而,大 多數(shù)這些樣本的防腐水平是罕見的:在洞穴中發(fā)現(xiàn)的尼安德特人和丹尼索瓦人的骨分別含 有~1-5%和70%的內(nèi)源性DNA,而古愛斯基摩人和澳大利亞土著人的基因組則獲取自毛 發(fā)樣本,其通常含有較低水平的污染但在大多數(shù)考古環(huán)境下是無法獲得的。
[0009] 與此相反,源自來自溫帶環(huán)境的骨和牙的測序文庫通常含有〈1 %的內(nèi)源性DNA。 雖然具有1-2%的內(nèi)源性DNA的樣品在充分測序的情況下仍然能夠產(chǎn)生足夠的信息用于種 群遺傳分析,但具有較少DNA的樣本的測序所需的量是昂貴的,并因此對于許多研究者是 無法承擔(dān)的。古DNA研究者已開始通過使用靶向捕獲以僅富集mtDNA或單個染色體來解決 這一問題。但是,由于古DNA的高度片段化的性質(zhì),理想的富集技術(shù)會盡可能提取足夠多的 內(nèi)源性基因組以便不會丟掉任何潛在提供信息的序列。在法醫(yī)學(xué)中存在類似的問題。
[0010] 發(fā)明概沐
[0011] 本文提供了用于在溶液中捕獲DNA分子的方法。在某些實(shí)施方案中,該方法包括: a)從包含內(nèi)源性DNA和環(huán)境DNA的樣品提取DNA以產(chǎn)生提取的DNA,其中所提取的DNA包 含比內(nèi)源性DNA更多的環(huán)境DNA;b)將通用銜接子連接至所提取的DNA;c)在溶液中將所提 取的DNA與親和標(biāo)記的RNA探針雜交,所述親和標(biāo)記的RNA探針由以下步驟產(chǎn)生:在親和標(biāo) 記的核糖核苷酸的存在下,體外轉(zhuǎn)錄包含已被連接至RNA啟動子銜接子的片段化的參考基 因組DNA的文庫;d)在與所述銜接子互補(bǔ)的RNA寡核苷酸的存在下,將步驟c)的產(chǎn)物與針 對親和標(biāo)記的被系到基底的捕獲劑結(jié)合,從而將雜交的DNA分子捕獲在所述基底上;e)洗 滌所述基底以去除任何未結(jié)合的DNA分子;以及f)釋放所捕獲的DNA分子。還提供了用于 執(zhí)行該方法的試劑盒。
[0012] 本教導(dǎo)內(nèi)容的這些和其它特征示于本文中。
[0013] 附圖簡沐
[0014] 本領(lǐng)域技術(shù)人員將理解的是,下文所描繪的附圖僅用于舉例說明的目的。附圖不 旨在以任何方式限制本教導(dǎo)內(nèi)容的范圍。
[0015] 圖1示意性說明了全基因組溶液中捕獲方法。為了產(chǎn)生RNA"誘餌"文庫,通過含 有T7RNA聚合酶啟動子的銜接子(綠色盒)建立人基因組文庫。該文庫通過T7RNA聚合酶 和生物素-16-UTP(星形符號)進(jìn)行體外轉(zhuǎn)錄,從而建立生物素化的誘餌文庫。同時,通過 標(biāo)準(zhǔn)索引Illumina銜接子(紫色盒)制備古DNA文庫(aDNA"池")。這些aDNA文庫通常 含有〈1 %的內(nèi)源性DNA,其余為環(huán)境來源的。在雜交過程中,在封閉銜接子的RNA寡核苷酸 (藍(lán)色折線)(其與索引Illumina銜接子互補(bǔ)并因而阻止aDNA文庫中銜接子之間的非特異 性雜交)的存在下合并誘餌和池。雜交之后,用鏈霉抗生物素蛋白包被的磁珠拉下生物素 化的誘餌和結(jié)合的aDNA,并洗掉任何未結(jié)合的DNA。最后,將DNA洗脫并擴(kuò)增用于測序。
[0016] 圖2顯示了樣品M4和NA40的增加的測序的結(jié)果。⑷使用增加的測序量的M4(青 銅器時代毛發(fā))捕獲前(藍(lán)色)和捕獲后(紅色)文庫的獨(dú)特片段的產(chǎn)率。使用增加的測 序量的獨(dú)特讀數(shù)量的富集倍數(shù)以綠色進(jìn)行作圖,其值在第二y軸上。(B)使用增加的測序 量的NA40(秘魯人的骨)捕獲前(藍(lán)色)和捕獲后(紅色)文庫的獨(dú)特片段的產(chǎn)率。使用 增加的測序量的獨(dú)特讀數(shù)量的富集倍數(shù)以綠色進(jìn)行作圖,其值在第二y軸上。(C)維恩圖 顯示基于1.23X107個讀數(shù)的測序,在NA40捕獲前和捕獲后文庫之間的重疊。(D)分別基 于1. 86X107和1. 23X10 7個讀數(shù)的測序的M4和NA40文庫的覆蓋度圖。顯示的是1號染 色體的隨機(jī)10兆堿基區(qū)段。覆蓋度以跨該區(qū)域的lkb窗口進(jìn)行計(jì)算。(E)NA40捕獲前和捕 獲后文庫的插入片段大小分布。(F)NA40捕獲前和捕獲后文庫的讀數(shù)的百分比GC含量。
[0017] 圖3顯示基于各自1X106個讀數(shù)的測序的捕獲前和捕獲后樣品的主成分分析的 結(jié)果。在千人基因組參考小組和每個古代個體之間重疊的SNP的主成分分析,其中(E)和 (F)中還包括美洲土著人個體。主成分僅用現(xiàn)代個體進(jìn)行計(jì)算,然后將古代個體投射到圖 上。顯示的是(A)V2(保加利亞人的牙)捕獲前和⑶捕獲后;(C)M4(青銅器時代的毛發(fā)) 捕獲前和(D)捕獲后;以及(E)NA40(秘魯人的骨)捕獲前和(F)捕獲后。種群圖例:ASW,美 國西南部的非洲血統(tǒng)的美洲人;AYM,來自秘魯?shù)陌驳谒股矫}的艾馬拉人;CEU,具有北歐和 西歐血統(tǒng)的猶他居民(CEPH) ;CHB,中國北京的中國漢族人;CHS,南方的中國漢族人;CLM, 來自哥倫比亞麥德林的哥倫比亞人;FIN,芬蘭的芬蘭人;GBR,英格蘭和蘇格蘭的英國人; IBS,西班牙的伊比亞人群JPT,日本東京的日本人;KAR來自巴西亞馬遜的Karitiana人; LWK,肯尼亞韋布耶的盧希亞人;MAY,來自墨西哥的瑪雅人;MXL,來自美國洛杉磯的墨西哥 祖先;PUR,來自波多黎各的波多黎各人;TSI,意大利的托斯卡尼人;YRI,尼日利亞伊巴丹 的約魯巴人。
[0018] 圖4顯示的是獲取自不同測序?qū)嶒?yàn)的數(shù)據(jù)。
[0019]
[0020] 除非本文另有定義,否則本文所用的所有技術(shù)和科學(xué)術(shù)語都具有與本發(fā)明所屬領(lǐng) 域的普通技術(shù)人員通常所理解的相同含義。雖然類似于或等同于本文所述的方法和材料的 任何方法和材料可用于實(shí)踐或測試本發(fā)明,但將描述優(yōu)選的方法和材料。
[0021] 本文提及的所有專利和出版物,包括這樣的專利和出版物內(nèi)公開的所有序列,以 引用方式明確并入。
[0022] 數(shù)值范圍包括定義該范圍的數(shù)值。除非另外指明,否則核酸均以5'至3'方向從 左向右書寫;氨基酸序列均以氨基至羧基方向從左向右書寫。
[0023] 本文提供的標(biāo)題不限制本發(fā)明的各方面或?qū)嵤┓桨?。因此,緊接下文定義的術(shù)語 通過參考整個本說明書而更全面地定義。
[0024] 除非另有定義,否則本文所用的所有技術(shù)和科學(xué)術(shù)語具有與本發(fā)明所屬領(lǐng)域的普 通技術(shù)人員通常所理解的相同含義。Singleton等人,DICTIONARYOFMICROBIOLOGYAND MOLECULARBIOLOGY,第 2 版,JohnWileyandSons,NewYork(1994)以及Hale&Markham, THEHARPERCOLLINSDICTIONARYOFBIOLOGY,HarperPerennial,N.Y. (1991)為技術(shù)人員 提供了本文所用的許多術(shù)語的一般含義。另外,為了清楚起見和方便參考,下文將定義某些 術(shù)語。
[0025] 本文使用的術(shù)語"樣品"涉及包含一種或多種目標(biāo)分析物的材料或材料的混合物, 其通常但非必需地為液體形式。
[0026] 本文使用的術(shù)語"核酸樣品"表示含有核酸的樣品。本文使用的核酸樣品可以是復(fù) 雜樣品,因?yàn)樗鼈儼喾N不同的含有序列的分子。來自哺乳動物(例如小鼠或人)的基 因組0嫩是復(fù)雜樣品的類型。復(fù)雜樣品可具有多于10 4、105、106或107個不同的核酸分子。 DNA靶標(biāo)可源于任何來源,諸如基因組DNA或人工DNA構(gòu)建體。含有核酸(例如由組織培養(yǎng) 細(xì)胞或組織的樣品制備的基因組DNA)的任何樣品可用于本文。核酸樣品可以由任何合適 的來源(包括牙、骨、毛發(fā)或骨骼等的樣品)制備。
[0027] 術(shù)語"核苷酸"旨在包括那些不僅含有已知的嘌呤和嘧啶堿基還含有其它經(jīng)修飾 的雜環(huán)堿基的部分。這樣的修飾包括甲基化嘌呤或嘧啶、酰化嘌呤或嘧啶、烷基化核糖或其 它雜環(huán)化合物。此外,術(shù)語"核苷酸"包括那些含有半抗原或熒光標(biāo)記并且可不僅含有常規(guī) 的核糖和脫氧核糖還含有其它糖的部分。修飾的核苷或核苷酸還在糖部分上包含修飾,例 如,其中一個或多個羥基被鹵素原子或脂族基團(tuán)取代,或被官能化為醚、胺等。
[0028] 術(shù)語"核酸"和"多核苷酸"在本文可互換使用以描述包含核苷酸(例如脫氧核糖 核苷酸或核糖核苷酸)并可通過酶法或合成方法產(chǎn)生(例如,如美國專利號5, 948, 902以 及其中引用的參考文獻(xiàn)中所述的PNA)的任何長度的聚合物,例如,大于約2個堿基,大于約 10個堿基,大于約100個堿基,大于約500個堿基,大于1000個堿基,多達(dá)約10, 000個或更 多個堿基的聚合物,其可以與天然存在的核酸以與兩個天然存在的核酸相似的序列特異性 方式雜交,例如可以參與沃森-克里克堿基配對相互作用。天然存在的核苷酸包括鳥嘌呤、 胞嘧啶、腺嘌呤和胸腺嘧啶(分別為G、C、A和T)。DNA和RNA分別具有脫氧核糖和核糖主 鏈,而PNA的主鏈包括通過肽鍵連接的重復(fù)的N-(2-氨基乙基)-甘氨酸單元。在PNA中, 各種嘌呤和嘧啶堿基由亞甲基羰基鍵連接至主鏈。鎖核酸(LNA)(常常被稱為不可接近的 RNA)是經(jīng)修飾的RNA核苷酸。LNA核苷酸的核糖部分由連接2'氧和4'碳的額外的橋修飾。 該橋?qū)⒑颂?鎖"在3'-內(nèi)型(北)構(gòu)象中,其通常被發(fā)現(xiàn)于A型雙鏈體中。當(dāng)需要時,LNA 核苷酸可以與寡核苷酸中的DNA或RNA殘基混合。術(shù)語"非結(jié)構(gòu)化核酸"或"UNA"是含有 以降低的穩(wěn)定性彼此結(jié)合的非天然核苷酸的核酸。例如,非結(jié)構(gòu)化核酸可以含有G'殘基和 C'殘基,其中這些殘基分別對應(yīng)于G和C的非天然存在的形式(即類似物),其以降低的穩(wěn) 定性彼此堿基配對,但保留與天然存在的C和G殘基堿基配對的能力。非結(jié)構(gòu)化核酸描述 于US20050233340中,其因UNA的公開內(nèi)容而通過引用并入本文。ZNA(即拉鏈核酸)也包 括在此定義中。
[0029] 本文使用的術(shù)語"寡核苷酸"表示長度為約2至200個核苷酸、多至500個核苷酸 的單鏈核苷酸多聚體。寡核苷酸可以是合成的或可以通過酶法制備,并在一些實(shí)施方案中 為30至150個核苷酸長。寡核苷酸可包含核糖核苷酸單體(即,可以是寡核糖核苷酸)和 /或脫氧核糖核苷酸單體。寡核苷酸可以例如為10至20、21至30、31至40、41至50、51至 60、61至70、71至80、80至100、100至150或150至200個核苷酸長。
[0030] 術(shù)語"雜交"是指核酸鏈通過本領(lǐng)域已知的堿基配對與互補(bǔ)鏈結(jié)合的過程。如 果兩個序列在中等至高嚴(yán)格雜交和洗滌條件下彼此特異性雜交,則將核酸視為"選擇性雜 交"至參考核酸序列。中等和高嚴(yán)格雜交條件是已知的(參見例如Ausubel等人,Short ProtocolsinMolecularBiology,第 3 版,Wiley&Sonsl995 和Sambrook等人,Molecul