用于非期望核酸序列的陰性選擇的組合物和方法
【專利說明】用于非期望核酸序列的陰性選擇的組合物和方法 奪叉引用
[0001] 本申請要求2012年6月18日提交的美國臨時專利申請序列號61/661,293的優(yōu) 先權(quán),該臨時專利申請通過引用整體并入本文。
【背景技術(shù)】
[0002] 下一代測序(NGS)文庫是其核苷酸序列有待測定的DNA片段的集合。用于插入到 這些文庫中的DNA的來源通常為已被片段化為期望長度的基因組DNA或者來自給定細胞群 體的轉(zhuǎn)錄組的拷貝。轉(zhuǎn)錄組文庫的產(chǎn)生是通過制備RNA群體的cDNA拷貝,產(chǎn)生每條DNA鏈 的互補鏈,從而生成雙鏈DNA,然后將雙鏈DNA連接至文庫特異性銜接子進行的??赏ㄟ^使 用隨機引物、序列特異性引物或含有寡聚dT尾的引物引發(fā)聚腺苷酸化的轉(zhuǎn)錄物群體來合 成cDNA。常見地,這些片段群體包含并非特定研宄所關(guān)注的DNA,并且在一些情況下,這些 非期望的DNA序列占到整個DNA群體的非常顯著的百分比。例如,在全轉(zhuǎn)錄組研宄中,在不 存在從樣品中去除rRNA的步驟下,核糖體RNA (rRNA)序列構(gòu)成典型cDNA文庫中的所有片 段的大多數(shù)(60-90% )。在另一實例中,來自外周血的基因表達概況分析(profiling)主 要涉及來自外周血單核細胞(PBMC)的mRNA,PBMC占全血樣品的不到0. 1%。減少來自占 血液樣品中細胞的大多數(shù)的紅細胞的珠蛋白RNA在此類測定中是期望的。
[0003] 關(guān)于rRNA去除或排除,已描述了三種通用的方法:1)從起始群體中去除rRNA ;2) 采用寡聚dT引物進行差別性引發(fā)(即僅引發(fā)聚腺苷酸化的轉(zhuǎn)錄物);以及3)在與rRNA序 列互補的引物在引物集合體中被特異性消除(或代表不足)的情況下進行差別性引發(fā)(非 完全隨機(Not-So-Random)或NSR引物方法;參見Armour等人,2009)。基于以下兩個原 因,用僅識別poly (A)-序列的引物來引發(fā)總RNA群體是有問題的。首先,其不能用于原核 生物,因為原核mRNA在其3'端不含poly (A)-序列。其次,即使對于真核RNA樣品,許多生 物學上重要的元件,如調(diào)節(jié)性轉(zhuǎn)錄物,是未經(jīng)聚腺苷酸化的,因此從寡聚dT引發(fā)的文庫中 丟失。盡管NSR引發(fā)策略在設(shè)計用于特定生物體時可能是有效的,但當在更寬范圍的樣品 類型中使用一組優(yōu)化不足的引物時,NSR引發(fā)可引起樣品群體的失真。
[0004] 需要用于從NGS文庫中去除特定的非期望DNA片段的改進的方法。這樣的方法理 想地會使得能夠使用無偏模板群體開始并在產(chǎn)生NGS文庫后以序列特異性方式消除非期 望的DNA片段。本文所述的發(fā)明滿足了這一需求。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供了用于構(gòu)建NGS文庫的新的方法、組合物和試劑盒,在該文庫中非期 望的核酸序列已被排除或大幅度減少。特別地,本發(fā)明的一個重要方面是允許在產(chǎn)生NGS 文庫之后以序列特異性方式消除或減少非期望的DNA序列的方法和組合物,在該NGS文庫 中起始核酸序列群體(例如,轉(zhuǎn)錄組)的所有序列以未失真的、無偏的方式表現(xiàn)。本發(fā)明的 方法可用于從核酸文庫中消除非期望的核酸序列,如核糖體RNA,并因此可用于富集文庫中 的目的核酸序列。
[0006] 在一個方面,本發(fā)明提供了一種以序列特異性方式從具有單鏈DNA模板的核酸文 庫中選擇性地去除非期望的核酸序列的方法。在一些實施方案中,該方法包括:a)使一個 序列特異性寡核苷酸引物或一組序列特異性寡核苷酸引物與在每個末端附接有固定取向 的銜接子的單鏈DNA模板退火,其中該序列特異性寡核苷酸被設(shè)計為互補于非期望的核酸 序列或與非期望的核酸序列相鄰的區(qū)域,并且其中兩個銜接子序列中的一個包含對雙鏈 DNA具特異性的限制性內(nèi)切核酸酶的識別序列;b)用DNA聚合酶將序列特異性引物延伸至 銜接子-DNA模板連接點之外,從而產(chǎn)生雙鏈DNA片段,其中寡核苷酸引物與單鏈DNA模板 互補;c)用對雙鏈DNA具特異性的限制性內(nèi)切核酸酶處理DNA片段(單鏈的和雙鏈的)的 群體,從而僅在銜接子限制性內(nèi)切核酸酶位點裂解雙鏈DNA片段,并因此從包含非期望核 酸序列的片段的一個末端去除銜接子;以及d)使用對每種銜接子均具有特異性的引物進 行PCR,由此僅當片段在同一模板上具有兩個PCR引發(fā)位點時才發(fā)生指數(shù)式擴增,從而僅擴 增所期望的核酸序列。
[0007] 在另一方面,本發(fā)明提供了一種用于從目的樣品構(gòu)建核酸文庫、同時保留無偏核 酸模板群體的方法,在該無偏核酸模板群體中起始核酸序列群體的所有序列均得到表現(xiàn)。
[0008] 在一些實施方案中,本發(fā)明提供了一種用于構(gòu)建定向(即鏈特異性)核酸文庫的 方法,該方法包括:a)對RNA樣品進行逆轉(zhuǎn)錄;b)由逆轉(zhuǎn)錄的RNA樣品產(chǎn)生雙鏈CDNA,其中 在第二鏈cDNA合成中,將至少一種修飾的核苷酸沿cDNA的第二鏈的長度摻入該鏈中;c) 對該雙鏈cDNA進行末端修復;d)將銜接子連接至該雙鏈cDNA,其中兩種銜接子中的一種具 有摻入到該銜接子的連接鏈中的修飾的核苷酸;e)進行缺口修復;f)用合適的降解劑選擇 性地去除cDNA的第二鏈;以及g)從樣品中去除降解產(chǎn)物,從而產(chǎn)生有固定取向的銜接子附 接至每一末端的的單鏈DNA模板的文庫。
[0009] 在優(yōu)選的實施方案中,摻入CDNA的第二鏈中的修飾的核苷酸是脫氧尿苷三磷酸 (dUTP),并且降解劑是核酸酶尿嘧啶-N-糖基化酶(UNG)。
[0010] 在其他實施方案中,所構(gòu)建的核酸文庫不是鏈特異性的。
[0011] 在一些實施方案中,目的核酸樣品包含總RNA。在一些實施方案中,目的核酸樣品 使用隨機引物群體進行引發(fā)。在其他實施方案中,目的核酸樣品使用部分選擇性引物群體 進行引發(fā)。
[0012] 在多個方面,本發(fā)明涉及從核酸集合體中排除非期望的核酸的方法。可用剩余的 核酸制備文庫。核酸的排除和文庫的產(chǎn)生可以以鏈特異性方式進行。根據(jù)第一方面,本發(fā) 明涉及一種用于從核酸文庫中排除或減少特定的非期望的核酸序列的方法,該方法包括: (a)產(chǎn)生包含單鏈DNA片段的核酸文庫,該單鏈DNA片段在每個DNA片段的每個末端附接 有固定取向的銜接子;(b)使序列特異性寡核苷酸探針與在每個末端附接有固定取向的銜 接子的單鏈DNA片段退火,其中該序列特異性寡核苷酸探針被設(shè)計成與非期望的核酸序列 互補,并且其中兩個銜接子中的至少一個包含對雙鏈DNA具特異性的限制性內(nèi)切核酸酶的 識別序列;(c)用DNA聚合酶延伸該序列特異性寡核苷酸探針,從而創(chuàng)建包含非期望的核酸 序列的至少一部分的雙鏈DNA片段;(d)用對雙鏈DNA具特異性的限制性內(nèi)切核酸酶處理 包含雙鏈和單鏈DNA的DNA片段群體,從而在限制性內(nèi)切核酸酶位點處裂解雙鏈DNA片段; 以及(e)用一組對銜接子序列具有特異性的引物進行PCR,從而擴增包含期望的核酸序列 的DNA片段。在一些實施方案中,該方法進一步包括對擴增產(chǎn)物進行測序的額外步驟。在 一些實施方案中,該核酸文庫來源于分選的細胞的群體。在一些實施方案中,該核酸文庫來 源于單細胞。在一些實施方案中,該方法進一步包括將細胞分選到多孔板、微陣列、微流體 裝置或載玻片中,由此產(chǎn)生分選的細胞的群體。在一些實施方案中,根據(jù)細胞表面標志物進 行分選。在一些實施方案中,根據(jù)細胞的光學性質(zhì)進行分選。在一些實施方案中,根據(jù)細胞 大小進行分選。在一些實施方案中,非期望的核酸序列包含細菌核糖體RNA、線粒體DNA、人 珠蛋白mRNA、人細胞質(zhì)rRNA、人線粒體rRNA、葡萄細胞質(zhì)rRNA、葡萄線粒體rRNA或葡萄葉 綠體rRNA。在一些實施方案中,步驟d的限制性內(nèi)切核酸酶是BspQI。在一些實施方案中, 該DNA聚合酶包括熱啟動聚合酶。在一些實施方案中,該DNA聚合酶是MyTaq聚合酶。在 一些實施方案中,步驟(a)包括:i.對RNA樣品進行逆轉(zhuǎn)錄;ii.由逆轉(zhuǎn)錄的RNA樣品生成 雙鏈cDNA,其中四種dNTP (即dATP、dCTP、dGTP或dTTP)中的至少一種在第二鏈合成過程 中被非規(guī)范dNTP所替代,并摻入到第二鏈中;iii.對雙鏈cDNA進行末端修復;iv.將銜接 子連接至雙鏈cDNA的5'端,其中銜接子鏈中的一條具有摻入到銜接子的連接鏈中的非規(guī) 范核苷酸;V.進行缺口修復;以及iv.用裂解劑選擇性地去除第二鏈。在一些實施方案中, 非規(guī)范核苷酸包含尿苷或肌苷。在一些實施方案中,步驟vi包括裂解一種或多種非規(guī)范核 苷酸的堿基部分,從而形成脫堿基位點。在一些實施方案中,該裂解劑包含糖基化酶。在一 些實施方案中,該糖基化酶是UNG或UDG。在一些實施方案中,該裂解劑包含伯胺。在一些 實施方案中,該裂解劑包含多胺。在一些實施方案中,該多胺是DMED。在一些實施方案中, 該裂解劑包含糖基化酶和多胺。在一些實施方案中,該裂解劑包含內(nèi)切核酸酶V。
[0013] 在第二方面,本發(fā)明涉及一種將銜接子連接至核酸集合體的方法,該方法包括: (a)將包含含有5'磷酸的第一核酸鏈、含有5'磷酸以及一種或多種非規(guī)范核苷酸的第二核 酸鏈的核酸與至少一個包含缺乏5'磷酸的第一銜接子鏈和缺乏5'磷酸以及一種或多種非 規(guī)范核苷酸的第二銜接子鏈的第一銜接子連接;(b)進行3'延伸反應(yīng);以及(c)用包含一 種或多種裂解試劑的物質(zhì)(agent)進行裂解反應(yīng),從而裂解至少一條包含一種或多種非規(guī) 范核苷酸的核酸鏈;其中所述一種或多種裂解劑中的一種對包含所述一種或多種非規(guī)范核 苷酸的核酸鏈是特異性的。在一些實施方案中,該方法包括將核酸與第二銜接子連接,該第 二銜接子包含缺乏5'磷酸的第三銜接子鏈和缺乏5'磷酸以及一種或多種非規(guī)范核苷酸的 第四銜接子鏈,其中第一和第二銜接子是不同的。在一些實施方案中,該核酸在每個末端與 第一或第二銜接子連接。在一些實施方案中,非規(guī)范核苷酸選自尿嘧啶和肌苷。在一些實施 方案中,步驟c包括裂解所述一種或多種非規(guī)范核苷酸的堿基部分,從而形成脫堿基位點。 在一些實施方案中,所述一種或多種裂解試劑包含糖基化酶。在一些實施方案中,該糖基化 酶是UNG或UDG。在一些實施方案中,所述一種或多種裂解試劑包含伯胺。在一些實施方案 中,所述一種或多種裂解試劑包含多胺。在一些實施方案中,該多胺是DMED。在一些實施方 案中,所述一種或多種裂解試劑包含糖基化酶和多胺。在一些實施方案中,所述一種或多種 裂解試劑包含內(nèi)切核酸酶V。在一些實施方案中,該方法進一步包括進行包含第一引物和 第二引物的擴增反應(yīng),從而生成擴增產(chǎn)物,其中第一引物可與第一銜接子鏈雜交且第二引 物可與第四銜接子鏈雜交。在一些實施方案中,第一銜接子包含對雙鏈DNA具特異性的限 制性內(nèi)切核酸酶的識別序列。在一些實施方案中,該方法進一步包括:(d)使探針與第一核 酸鏈上的序列雜交,(e)用DNA聚合酶延伸該探針,從而產(chǎn)生部分雙鏈體核酸,以及(f)用 對雙鏈DNA具特異性的限制性內(nèi)切核酸酶處理該部分雙鏈體核酸,從而在識別序列處裂解 雙鏈DNA片段。在一些實施方案中,該方法進一步包括用一組對銜接子序列具有特異性的 引物進行PCR,從而擴增核酸集合體中的至少一個第二核酸。在一些實施方案中,第二核酸 缺乏步驟d中的序列。在一些實施方案中,該方法進一步包括對第二核酸的一部分進行測 序。在一些實施方案中,所述核酸通過以下步驟生成:i.在RNA上進行第一鏈合成,從而形 成第一鏈合成產(chǎn)物;以及ii.在非規(guī)范核苷酸的存在下在第一鏈上進行第二鏈合成,從而 形成第二鏈合成產(chǎn)物。在一些實施方案中,該方法進一步包括選擇性地裂解RNA。在一些實 施方案中,選擇性地裂解RNA包括用RNAse H進行處理。在一些實施方案中,該方法進一步 包括:iii.對第一和第二鏈合成產(chǎn)物進行片段化,從而生成片段化的第一和第二鏈合成產(chǎn) 物;iv.進行末端修復;以及V.進行5'磷酸化。在一些實施方案中,核酸集合體來源于分 選的細胞的群體。在一些實施方案中,核酸集合體來源于單細胞。在一些實施方案中,該方 法進一步包括將細胞分選到多孔板、微陣列、微流體裝置或載玻片中,由此產(chǎn)生分選的細胞 的群體。在一些實施方案中,根據(jù)細胞表面標志物進行分選。在一些實施方案中,根據(jù)細胞 的光學性質(zhì)進行分選。在一些實施方案中,根據(jù)細胞大小進行分選。在一些實施方案中,核 酸集合體包含細菌核糖體RNA、線粒體DNA、人珠蛋白mRNA、人細胞質(zhì)rRNA、人線粒體rRNA、 葡萄細胞質(zhì)rRNA、葡萄線粒體rRNA或葡萄葉綠體rRNA。在一些實施方案中,所述限制性內(nèi) 切核酸酶是BspQI。在一些實施方案中,使用熱啟動聚合酶進行3'延伸反應(yīng)。在一些實施 方案中,使用MyTaq聚合酶進行3'延伸反應(yīng)。
[0014] 在第三方面,本發(fā)明涉及一種進行銜接子連接以創(chuàng)建包含期望的和非期望的核酸 的鏈保留核酸文庫的方法,該方法包括:(a)將模板集合體與各自包含3'突出端的多個部 分雙鏈體引物混合,該模板集合體包含含有一種或多種非規(guī)范核苷酸的非期望的核酸和含 有一種或多種非規(guī)范核苷酸的期望的核酸;