發(fā)明領(lǐng)域
本發(fā)明涉及從起始模板生成可用于dna測序分析的多核苷酸片段的方法。這些片段在下一代測序方法中有用。本發(fā)明的多個(gè)方面涉及在該方法中使用的核酸引物。
發(fā)明背景
自從完成人類基因組序列草案以來,dna測序分析的生物化學(xué)和儀器已經(jīng)進(jìn)展到這樣的點(diǎn):對于原始基因組消耗的相同財(cái)務(wù)支出,現(xiàn)在(2014)對大都市芝加哥(人口270萬)中每個(gè)男人、女人和兒童以每設(shè)備每29小時(shí)一個(gè)完整基因組的速度產(chǎn)生基因組序列是可能的,每個(gè)基因組的每個(gè)和每一個(gè)區(qū)域被30倍覆蓋。這種驚人的能力增加是由以通用的方式處理所有被測序的dna片段的能力造成的,基因組的每個(gè)部分被同時(shí)暴露于相同的生物化學(xué)。“大規(guī)模平行”dna測序通過基因組dna的隨機(jī)片段化,然后將人工序列“連接子(adapter)”酶促連接到片段化的dna小片的每一端來實(shí)現(xiàn)。
從基因組dna生成測序“庫”是耗時(shí)的,而且由于兩個(gè)不同“風(fēng)格”的連接子的連接的隨機(jī)性質(zhì),產(chǎn)生其中約一半的模板事實(shí)上不可用于分析的片段:許多產(chǎn)物將具有相同的“a型”或“b型”連接子連接在片段的末端,而所需要的是偶然發(fā)生的不對稱連接,一個(gè)風(fēng)格的連接子(a型)在一個(gè)末端而另一個(gè)風(fēng)格的連接子(b型)在另一個(gè)末端。一旦開始測序反應(yīng),這些不對稱產(chǎn)物能夠從基因組模板被克隆擴(kuò)增,并理想地用于生成有價(jià)值的序列信息。
目前用于ngs的測序文庫的制備技術(shù)包括以下步驟:
·模板dna的隨機(jī)片段化
·具有所需長度的那些片段的尺寸選擇
·對片段末端的酶促“末端修復(fù)”以允許a型和b型連接子的平端連接
·連接子的連接,產(chǎn)生一部分“a/a”和“b/b”冗余產(chǎn)物以及“a/b”所需產(chǎn)物群
·連接子修飾的文庫片段的克隆擴(kuò)增。
隨著基因組重新測序成本降低和測序的速度增加,ngs的應(yīng)用越來越多地轉(zhuǎn)向臨床。然而,很少存在這樣的情況,其中讀取基因組的全部320萬個(gè)堿基是有重大關(guān)系的;可能的是更有針對性的方法是有實(shí)用性的,通過研究與具體狀況相關(guān)(或可能確認(rèn)具體狀況)的有限數(shù)量的遺傳位置指導(dǎo)治療。如果不必讀取基因組的全部堿基,那么伴隨的是,應(yīng)用僅為了實(shí)現(xiàn)讀取基因組的全部堿基的技術(shù)和方法學(xué)可能不是最佳的。
具體區(qū)域的靶向測序最有效地要求從可能極度多樣化和復(fù)雜的主體模板中分離那些序列。有效地,這可以通過將靶區(qū)域擴(kuò)增至它們的數(shù)量超過其它未擴(kuò)增區(qū)域的數(shù)量的水平來實(shí)現(xiàn)。此類擴(kuò)增產(chǎn)物將可用于ngs末端連接子的那種連接(如以上所述的),但這些將再次成為混合群體,在該混合群體中很大比例的序列將是不適合支持ngs測序的克隆擴(kuò)增的“a/a”和“b/b”形式。關(guān)鍵的是,甚至是那些a/b型的構(gòu)建體也會具有存在于插入在連接子序列和目標(biāo)是用于測序的基因組dna的區(qū)域之間的大的“引物殘留物”區(qū)域。如果連接子序列提供測序引物的結(jié)合位點(diǎn),那么這些引物殘留物將是產(chǎn)生的第一數(shù)據(jù):不必要且不能提供信息的。已知序列的大量區(qū)域必須在到達(dá)感興趣的未知序列之前通過ngs法處理。這不僅使用不必要的資源,而且通常測序方法在接近讀段起始處最準(zhǔn)確,導(dǎo)致之后的未知序列以較低的保真性被讀取。能夠產(chǎn)生具有較短的已知區(qū)域的序列片段,以降低所進(jìn)行的不必要的測序的量并提高生成的感興趣的未知序列的保真性將是期望的。
基于連接的連接子策略的另一個(gè)缺點(diǎn)是需要獲得連接子的不對稱摻入(即序列片段的每個(gè)末端上的連接子不同)。然而,連接反應(yīng)通常是非定向的,使得只有一部分片段將包括必需的不對稱連接子;其他的將在任一端包括相同的連接子。提供一種允許固有地不對稱摻入連接子的方法將是期望的。
發(fā)明概述
根據(jù)本發(fā)明的第一方面,提供了用于從起始模板多核苷酸生成多核苷酸片段的方法,所述方法包括:
a)使用第一引物對從所述起始模板擴(kuò)增感興趣的區(qū)域以形成摻入所述感興趣的區(qū)域的擴(kuò)增子,
b)用使用第二引物的核酸擴(kuò)增反應(yīng)從步驟a)中生成的第一擴(kuò)增子擴(kuò)增感興趣的區(qū)域,以形成摻入第二引物的擴(kuò)增子,
其中所述第二引物包括具有第一部分、第二部分和第三部分的核酸序列,所述第一部分與所述起始模板的第一部分互補(bǔ),所述第二部分與所述起始模板不互補(bǔ),所述第三部分與所述起始模板的第二部分互補(bǔ);
其中所述起始模板的所述第一和第二部分相鄰或彼此緊密靠近;
其中所述第二引物的所述第一、第二和第三部分以從5’到3’的順序布置,使得在與所述起始模板雜交時(shí),所述引物的所述第二部分保持不雜交并且在所述第一和第三部分之間形成環(huán);
從而生成包括兩側(cè)為所述第二引物的序列的感興趣的區(qū)域的擴(kuò)增產(chǎn)物。
由此生成的擴(kuò)增產(chǎn)物包括第二引物的部分,并且所述方法因此可用于生成摻入已知序列的擴(kuò)增子,所述已知序列可用于測序反應(yīng)(即產(chǎn)物是“測序即用的”)。
優(yōu)選地,步驟b)的擴(kuò)增反應(yīng)用第二引物對進(jìn)行,所述第二引物對的每一個(gè)是所述第二引物的形式。以此方式,擴(kuò)增產(chǎn)物在每個(gè)末端包括引物序列。
第二引物的第二部分可以包括通用序列,例如,與測序引物序列至少基本上相同的序列。此通用序列可以是許多或所有可能的第二引物共有的,從而允許擴(kuò)增子被用于測序反應(yīng)。
通用序列還可以與包括四種核苷酸堿基a、c、g和t的每一個(gè)的序列相鄰。這可以是四種核苷酸的簡單四聯(lián)體(tetrad)(例如atcg)或可以包括兩個(gè)、三個(gè)或更多個(gè)每個(gè)堿基(例如,aaccttgg)。核苷酸可以是任何順序。該序列可以將通用序列與引物的第三部分隔開。
優(yōu)選地,所述第二引物或每個(gè)第二引物的第一和第二部分的至少一部分是降解易感的,而該引物的至少第三部分和第二部分的至少一部分是降解不易感的;并且所述方法還包括步驟:
c)將所述引物或每個(gè)引物的易感部分從所述擴(kuò)增子降解下來。
這去除了擴(kuò)增子中的已知序列的區(qū)域并且防止殘留在擴(kuò)增子中的第二引物的第二部分再形成莖(當(dāng)存在莖環(huán)結(jié)構(gòu)時(shí))。該莖的再形成否則可以阻止接近另外的引物或引物對的3’末端處的該引物或引物對預(yù)期的引物結(jié)合位點(diǎn)。
所述方法還可包括以下步驟:
d)用第三引物或引物對擴(kuò)增b)的產(chǎn)物和/或c)的產(chǎn)物,該第三引物或每個(gè)第三引物包括與所述第二引物或每個(gè)第二引物的至少一部分基本上相同(并且優(yōu)選地相同)的3’核酸序列。
優(yōu)選地,第三引物的基本上相同的核酸序列與所述第二引物或每個(gè)第二引物的未降解的非易感部分基本上相同,從而生成包括感興趣的區(qū)域和所述第二引物或每個(gè)第二引物的未降解部分的擴(kuò)增產(chǎn)物。該基本上相同的部分可以與包含于第二引物的第二部分內(nèi)的通用序列基本上相同。
此方法解決了現(xiàn)有技術(shù)方法固有的困難。特別地,第二引物或引物對(因?yàn)樵陔s交時(shí)形成環(huán)或泡而被稱為“泡狀引物”)可以摻入兩個(gè)具有已知但變化的序列的區(qū)域(與靶互補(bǔ),并因此根據(jù)靶變化)和不與靶互補(bǔ)的固定序列的區(qū)域。固定序列可以被用于向擴(kuò)增區(qū)域引入測序連接子或其他有用的序列而不需要連接反應(yīng)。固定序列可以是人工序列,或衍生自另一生物體的不與模板互補(bǔ)的序列。在優(yōu)選的實(shí)施方案中,固定序列可以包括通用序列,例如測序引物序列。
當(dāng)一個(gè)部分或序列被描述為與靶或另一序列“不基本上相同”,優(yōu)選地該部分或序列與該靶或其他序列不相似,使得該部分或序列在擴(kuò)增反應(yīng)中使用的條件下不與和靶互補(bǔ)的序列雜交。相似地,當(dāng)一個(gè)序列與靶“不互補(bǔ)”時(shí),其足夠地不相似到使得其在擴(kuò)增反應(yīng)中使用的條件下不與靶雜交。
“對降解易感”的部分在本文中還可以被稱為“可降解的部分”,而對所述降解不易感的部分在本文中可以被稱為“耐受部分”。這些術(shù)語被互換使用。
模板可以是基因組多核苷酸。模板可以是真核的、原核的或古細(xì)菌的??梢蕴峁┮粋€(gè)或更多個(gè)模板。模板可以代表基因組的片段;例如,單個(gè)染色體或單個(gè)基因組的基因座(例如,用于等位基因多態(tài)性的快速測序)。
當(dāng)存在第二引物對時(shí)(即由引物a和b組成),引物a的第一和第三部分將與引物b的那些部分不同,而第二部分可以不同或可以相同,但優(yōu)選地不同。在不同的第二引物對中(即引物a和b;和引物a’和b’),對應(yīng)引物的第二部分(a和a’;b和b’)將相同,但盡管如此也可以在每個(gè)對內(nèi)不同。第一和第三部分賦予靶特異性并且允許引物的不對稱摻入。
另外,第二引物(或引物對)的第一和第三部分的用途允許生成泡狀部分,使得第一和第三部分緊密接近,并且引物保持對靶的高度特異性以降低非特異性雜交和擴(kuò)增的幾率。
優(yōu)選地,模板的第一和第二部分被0-20個(gè)核苷酸隔開,優(yōu)選地被1-10個(gè)核苷酸、更優(yōu)選地被1-6個(gè)核苷酸且最優(yōu)選地被1、2、3、4、5或6個(gè)核苷酸隔開。
第二引物(或引物對)的第一部分的長度可以是最多15、20、25、30、35、50個(gè)核苷酸,優(yōu)選20-35個(gè)核苷酸,更優(yōu)選25個(gè)核苷酸。
第二引物(或引物對)的第二部分可以包括第一可降解部分和第二耐受部分。第一可降解部分優(yōu)選地與引物的第一部分相鄰,并且第二耐受部分與引物的第三部分相鄰。
第二引物(或引物對)的第二部分優(yōu)選地包括自身互補(bǔ)區(qū)域,使得在雜交時(shí)形成的環(huán)采取莖環(huán)結(jié)構(gòu),其中自身互補(bǔ)區(qū)域形成莖。莖的形成使引物的第一和第三部分靠攏,迫使第三部分與其互補(bǔ)序列親密接觸,如果作為模板dna的第二部分存在的話。環(huán)的長度可以最小(通常需要約4個(gè)核苷酸以形成環(huán)),但優(yōu)選地第二區(qū)域還包括形成較大環(huán)的非自身互補(bǔ)區(qū)域。當(dāng)?shù)诙糠职山到獠糠趾湍褪懿糠謺r(shí),可降解部分優(yōu)選地形成莖的一半,耐受部分形成莖的另一半加環(huán)。
第二引物(或引物對)的第三部分的長度優(yōu)選地不超過2、4、5、6、7、8、9或10個(gè)核苷酸。優(yōu)選的尺寸不超過6個(gè)核苷酸、并且優(yōu)選地4至6個(gè)核苷酸、最優(yōu)選地6個(gè)核苷酸。認(rèn)為此長度(與第一部分一起)為引物提供了足夠的特異性,同時(shí)降低必須在隨后的測序反應(yīng)中測序的不提供信息的核苷酸的總長度。
優(yōu)選地,第二引物(或引物對)的第二部分或第二和第三部分一起被選擇為包括包含全部四種核苷酸堿基(a、c、g、t)的核苷酸四聯(lián)體。核苷酸的順序不重要。這允許通過提供在待被測序的區(qū)域的開始處具有全部四種核苷酸的已知序列校正測序反應(yīng)。四聯(lián)體可以隔開第二和第三部分。當(dāng)?shù)诙糠职山到獠糠趾湍褪懿糠謺r(shí),則四聯(lián)體可以存在于耐受部分中,或存在于耐受部分連同第三部分中。核苷酸的四聯(lián)體優(yōu)選地緊鄰測序引物序列的3’末端定位??梢园ǔ^四個(gè)核苷酸,條件是每種核苷酸以已知的數(shù)目存在(例如序列可以是aaggcctt)。
第二引物對的可降解部分可以包括rna,而耐受部分包括dna。可選擇地,可降解部分可以包括dna,其中胸腺嘧啶被尿嘧啶代替。可降解部分可以因此被rna酶h或堿性熱解(對于rna),或被尿嘧啶-n-糖基化酶(對于包含u的dna)降解,正常dna耐受其每一個(gè)。
步驟d)中的第三引物對還可以在5’末端包括另外的非模板序列;這允許在擴(kuò)增子中摻入另外的功能序列。例如,另外的序列可以包括可選擇標(biāo)志物、用于純化或檢測的標(biāo)簽、用于物理捕獲擴(kuò)增子的部分、克隆擴(kuò)增序列等。
第一引物對可被選擇成使得每個(gè)引物的3’末端是對應(yīng)于第二引物或引物對的每個(gè)相應(yīng)引物的第三部分的區(qū)域的5’朝向部分。即,第二引物(也被稱為“泡狀引物”)是巢式的,且擴(kuò)增是巢式pcr。
本發(fā)明的另外的方面提供了引物,該引物包括具有第一部分、第二部分和第三部分的核酸序列,所述第一部分與用于擴(kuò)增的起始模板的第一部分互補(bǔ),所述第二部分與所述起始模板不互補(bǔ),且所述第三部分與所述起始模板的第二部分互補(bǔ);
其中所述起始模板的所述第一和第二部分彼此相鄰或緊密靠近;
其中所述引物的所述第一、第二和第三部分以從5’到3’的順序布置,使得在與所述起始模板雜交時(shí),所述引物的所述第二部分保持不雜交并且在第一和第三部分之間形成環(huán)。
此處起始模板指將通過此引物擴(kuò)增的序列,并且該序列在上文定義的方法中將最初被常規(guī)引物對擴(kuò)增以生成擴(kuò)增子。
優(yōu)選地,所述每個(gè)引物的第一和第二部分的至少一部分也是對降解易感的,而該引物的至少第三部分和第二部分的至少一部分不是易感的。
還提供了包含上文所述的一對引物的引物對。
盡管pcr可能是最廣泛使用的擴(kuò)增方法并且在此作為舉例使用,但是可以設(shè)想其他非熱循環(huán)擴(kuò)增方法。
本發(fā)明的仍另外的方面提供了如本文所述的引物對的文庫,所述文庫包含多個(gè)引物對,每對具有第一和第二引物,包含相應(yīng)的第一個(gè)和第二第二部分,其中每個(gè)第一第二部分相同,并且每個(gè)第二第二部分相同。第一和第三部分可以在引物對之間不同(并且將在引物對的每個(gè)引物中不同)。
附圖簡述
圖1示出了用于在本文所述的方法中使用的引物的示意圖。
圖2展示了用于產(chǎn)生測序即用的多核苷酸片段的方法。
發(fā)明詳述
本文公開的方法能夠產(chǎn)生ngs(下一代測序)“測序即用”的dna片段,所述dna片段是存在于原始模板dna樣品中的總dna的目標(biāo)子集。只有那些感興趣的基因座被例如聚合酶鏈?zhǔn)椒磻?yīng)擴(kuò)增,使得所產(chǎn)生的擴(kuò)增子具有兩側(cè)是已知序列的末端的感興趣的模板dna。這些已知序列在所產(chǎn)生的所有擴(kuò)增子上相同或基本上相同,并且是有意地和可控地不對稱的,具有兩個(gè)不同序列應(yīng)用于擴(kuò)增片段的兩個(gè)末端的每一個(gè)。因此,產(chǎn)生的擴(kuò)增子功能上等同于常規(guī)ngs法中產(chǎn)生的連接子連接的片段,但提供在制備的容易性、時(shí)間和成本方面以及隨后產(chǎn)生的測序數(shù)據(jù)的質(zhì)量方面的明顯優(yōu)勢。在隨后的ngs操作諸如克隆擴(kuò)增和dna測序期間,這些擴(kuò)增子的末端可適用于通用的“一體適用的”生物化學(xué)程序。
此外,該方法的實(shí)施方案能夠使位點(diǎn)特異性引物的3’末端(
技術(shù)實(shí)現(xiàn)要素:
中的“第三部分”)相對短以緊密靠近地雜交同一引物上大得多的、穩(wěn)定雜交的5’元件(發(fā)明內(nèi)容中的“第一部分”),這兩個(gè)靶互補(bǔ)區(qū)域由非模板序列(發(fā)明內(nèi)容中的第二部分)隔開,所述非模板部分經(jīng)成功的引物延伸將成為子代擴(kuò)增子的一部分。非模板序列將摻入在下一代測序中使用的序列,使得測序反應(yīng)可以從那個(gè)點(diǎn)開始。這使得從直接的“連接子連接”策略將不可避免地浪費(fèi)地生成的已知dna序列數(shù)據(jù)的量最小化,避免測序通過大量的“不感興趣的區(qū)域”擴(kuò)增-引物殘留物。
此外,該方法的實(shí)施方案能夠使用ngs用于靶向分析來自復(fù)雜dna模板源內(nèi)的特定遺傳基因座。有效的靶向目標(biāo)基因測序(targeted-panelsequencing)是可能的(例如來自一個(gè)或更多個(gè)特定遺傳基因座),而不是當(dāng)前的大規(guī)模平行“全基因組鳥槍測序”。
用于在本方法中使用的引物的說明在圖1中示出。引物10包括第一部分12、第二部分14和第三部分16。第一部分12被設(shè)計(jì)為與待被擴(kuò)增的靶基因組序列的一部分互補(bǔ),而第三部分16也被設(shè)計(jì)為與該靶序列的相鄰部分互補(bǔ)。第一部分為約25個(gè)核苷酸的長度,第三部分為約6個(gè)核苷酸。在靶上在與第一部分互補(bǔ)的序列和與第三部分互補(bǔ)的那些序列之間可以存在0-4個(gè)核苷酸的缺口。此缺口是為了當(dāng)?shù)谝徊糠?2和第三部分16與靶鏈雜交時(shí),接納引物的不互補(bǔ)的第二部分14(莖環(huán)結(jié)構(gòu))。
第二部分14不與靶互補(bǔ),并且包括自身互補(bǔ)區(qū)域,使得該序列形成莖環(huán)發(fā)夾結(jié)構(gòu)。第二部分的環(huán)部分和莖部分包括與所選的測序反應(yīng)中使用的測序引物基本上相同的序列。注意,使用的特定測序化學(xué)很大程度上不重要;本文描述的方法是普遍適用的,并且被預(yù)期能夠在擴(kuò)增子中摻入相關(guān)的測序引物。在某些實(shí)施方案中,第二部分可以另外包括或相鄰于以任意順序包含四種核苷酸a、c、g、t中的每一個(gè)的序列。優(yōu)選地,該序列是四聯(lián)體(例如acgt),盡管該序列可以包括每個(gè)核苷酸的多個(gè)拷貝,但通常(但不必須)以相等的數(shù)目(例如aaggcctt)。
引物10可以包括兩個(gè)類型的核酸。在引物的5’末端的第一區(qū)域可以是對通過選定技術(shù)的降解敏感,而在引物的3’末端的第二區(qū)域?qū)υ摷夹g(shù)的降解不敏感。例如,引物的5’末端可以從rna形成,而3’末端從dna形成;rna部分可以被rna酶h或堿性熱解降解,而dna部分是耐受的??蛇x擇地,引物的5’末端可以由摻入尿嘧啶代替胸腺嘧啶的dna形成;這將可被尿嘧啶-n-糖基化酶降解。在優(yōu)選的實(shí)施方案中,可降解部分可被酶降解。
在此實(shí)例中,可降解部分包括引物的第一部分12的全部和第二部分14的第一段(在第二部分上以雙虛線示出)。引物的剩余部分是不可降解的。第二部分的可降解段包括形成莖環(huán)結(jié)構(gòu)的莖的一半的那個(gè)區(qū)域;不可降解部分(在以單虛線示出)形成環(huán)和與第三部分相鄰的莖的另一半。不可降解部分包括與測序引物的序列至少基本上相同的序列。測序引物與此序列的互補(bǔ)物雜交,所述互補(bǔ)物在經(jīng)dna聚合(通常是克隆擴(kuò)增)生成另一條鏈時(shí)產(chǎn)生。
引物10可以成對使用,由正向引物和反向引物構(gòu)成。正向引物和反向引物包括不同的第一部分和第三部分(因?yàn)檫@些被選擇為與待被擴(kuò)增的模板的區(qū)域的端點(diǎn)互補(bǔ))和不同的第二部分(導(dǎo)致不同的正向和反向測序引物被使用),因?yàn)槟繕?biāo)是允許將第二部分不對稱地?fù)饺氲綌U(kuò)增子中。然而,當(dāng)提供多個(gè)引物對時(shí),每對的第二部分可以是相同的,以允許使用公用測序引物測序所有擴(kuò)增子。
使用引物生成擴(kuò)增子的方法在圖2中示出。此圖詳述了所執(zhí)行的順序性步驟,以生成用于測序反應(yīng)的通用模板,在該測序反應(yīng)中最小量的殘留引物序列將被詢問。
該方法允許將多個(gè)單獨(dú)的模板靶快速轉(zhuǎn)化為可用于通用測序流程的產(chǎn)物,并且(最終)具有高的選擇性和特異性。順序性擴(kuò)增步驟可以在單獨(dú)的擴(kuò)增室中分開進(jìn)行,擴(kuò)增室物理上分離引物的種類,但本領(lǐng)域技術(shù)人員將理解,通過選擇引物結(jié)合溫度、仔細(xì)地控制引物濃度(使得某些引物種類被消耗至耗盡)和通過應(yīng)用時(shí)間上從參與整個(gè)過程的參與階段中區(qū)分單獨(dú)的階段的特異性熱循環(huán)方案,可以在更小數(shù)目的室(理想地只有一個(gè))中進(jìn)行這些反應(yīng)。
在第一步中[圖2a],使用常規(guī)寡核苷酸引物進(jìn)行標(biāo)準(zhǔn)pcr反應(yīng),用擴(kuò)增的靶富集模板群體。此反應(yīng)可以有利地多重進(jìn)行,不同的引物對實(shí)現(xiàn)若干靶的相對低的特異性多重?cái)U(kuò)增,以保證稀有種類被有效地?cái)U(kuò)增。此初始階段中的低特異性引物還可以接受靶引物結(jié)合位點(diǎn)內(nèi)的一定程度的非互補(bǔ)堿基配對,如可能在來自例如癌癥相關(guān)的基因的靶dna中及其周圍遇到的。此初始擴(kuò)增階段2a可以為了增加的靈敏度而犧牲特異性;此初始擴(kuò)增階段2a是容忍性的,因?yàn)槿魏尾划?dāng)?shù)財(cái)U(kuò)增的物質(zhì),包括引物二聚體人工產(chǎn)物將在隨后的階段期間被從進(jìn)一步的擴(kuò)增中清除。此步驟生成兩側(cè)是引物序列的第一擴(kuò)增子。應(yīng)注意,這些引物本身可以是可降解的(例如,由rna形成或由摻入u代替t的dna)。這些引物可以被這樣設(shè)計(jì),使得它們將在變得無效前通過以下的一個(gè)或組合產(chǎn)生有限量的擴(kuò)增子:
·高tm,之后的循環(huán)在較低退火溫度進(jìn)行;
·低初始濃度的該引物。
隨后,在步驟b)中,使用上文所述的“泡狀引物”或環(huán)狀引物擴(kuò)增來自步驟a)的擴(kuò)增子。在圖2b中,新的泡狀引物利用在第一步驟2a期間生成的模板的富集池,并高效地僅增殖來自2a的、從正確的靶生成的擴(kuò)增子,矯正初始擴(kuò)增可能具有相對低的特異性。因此,此擴(kuò)增生成利用初始低特異性擴(kuò)增的高靈敏性的擴(kuò)增子池(圖2a),但因?yàn)榕轄钜锏?’末端將僅由正確的擴(kuò)增子接受,所以在此第二階段重新建立高特異性(圖2b)。只有包含泡狀引物的“泡序列”的擴(kuò)增子由現(xiàn)在具有高靈敏度(2a)和高特異性(2b)(組合地)的反應(yīng)生成。生成的任何其他脫靶擴(kuò)增子或人工產(chǎn)物將無法被采用而前行通過該反應(yīng)方案,因?yàn)樗鼈儗⑷狈υ谂轄钜锏姆悄0?人工)泡中界定的必需通用序列。
泡狀引物的序列被這樣選擇,使得擴(kuò)增對于步驟a)中的擴(kuò)增是巢式的;即,泡狀引物的第一部分與步驟a)的引物基本上相同,而第三部分是步驟a)的引物的3’末端的3’朝向部分。這意味著,第三部分包含未被呈現(xiàn)在步驟a)的引物中的序列,并且僅允許在初始擴(kuò)增期間正確生成的那些擴(kuò)增子的選擇性“巢式”pcr,因此該“巢式”pcr可以接受一定程度的降低的特異性。第二和/或第三部分的序列也被理想地選擇為使得它包含包括四種核苷酸(a、c、g、t)的每一個(gè)的四聯(lián)體。核苷酸的四聯(lián)體優(yōu)選地緊鄰與測序引物的區(qū)域的3’末端至少基本上相同的區(qū)域定位。引物還可以在莖環(huán)結(jié)構(gòu)的莖中包括“索引密碼子(indexcode)”;例如以鑒定和標(biāo)記產(chǎn)物。作為一個(gè)實(shí)例,索引密碼子可以被用于鑒定來自特定的單個(gè)模板的特定產(chǎn)物。可選擇地或另外地,如果被測序,泡狀引物的第三部分的六個(gè)堿基將正常地足以鑒定在合理大小的多重反應(yīng)中正被測序的特定靶。
步驟c)示出了在步驟b)中生成的擴(kuò)增子。擴(kuò)增產(chǎn)物具有緊密靠近靶dna序列地呈現(xiàn)的非模板序列(即泡狀引物的第二部分的序列)。此產(chǎn)物可以具有源自初始靶特異性pcr結(jié)合位點(diǎn)的可降解序列(例如rna)和非模板環(huán)的含rna的殘留物。
步驟d)中,步驟c)的產(chǎn)物可以被降解(例如通過使用rna酶h和/或rna酶a),以從擴(kuò)增子去除可降解序列,如果存在的話。此降解還去除了未摻入擴(kuò)增子的任何過多的可降解引物,功能上去除這些引物的任何另外的活性。因此,剩余的擴(kuò)增子僅包括擴(kuò)增的靶序列,該擴(kuò)增的靶序列摻入了來自引物的第二部分和第三部分的不可降解的非靶序列。任選地,在此階段,通用pcr擴(kuò)增還可以用靶向泡狀引物的非靶序列的引物(在上文的“發(fā)明內(nèi)容”部分被稱作第三引物對)進(jìn)行。這些另外的引物可以另外攜帶用作序列捕獲標(biāo)簽的非模板人工5’延伸物,序列捕獲標(biāo)簽是用于克隆擴(kuò)增或用于產(chǎn)物的前置擴(kuò)增后的區(qū)域。
無論生成的擴(kuò)增子的5’易感末端是否被消化掉,擴(kuò)增方案的下一階段依賴使用與泡狀引物的非模板(人工)序列至少基本上相同的引物擴(kuò)增靶擴(kuò)增子。在多重反應(yīng)中生成的所有擴(kuò)增子適于使用此引物以通用方式擴(kuò)增,該引物與提供在泡狀引物的非模板區(qū)域中的人工序列至少基本上相同。此通用引物充當(dāng)擴(kuò)增引物,而具有相同或基本上相同的序列的引物可以在測序反應(yīng)期間被用作最終“測序引物”,該測序引物的3’末端(一般地)靠近待被詢問的靶擴(kuò)增子的區(qū)域定位,僅被少數(shù)幾個(gè)靶特異性堿基(根據(jù)此模板限定區(qū)域的gc含量,理想地在4和10個(gè)堿基之間的數(shù)量,6個(gè)堿基、7個(gè)堿基或8個(gè)堿基是最理想的)隔開。通用測序引物的3’末端和靶特異性堿基之間的區(qū)域被設(shè)計(jì)或選擇為包括核苷酸a、t、g和c的四聯(lián)體,充當(dāng)從這些單個(gè)堿基摻入事件的每一個(gè)生成的信號水平的引物。此核苷酸四聯(lián)體可以被提供為由每個(gè)核苷酸種類的多核苷酸表示(例如aa、tt、gg和cc,或者aaa、ttt、ggg或ccc)。四聯(lián)體引物內(nèi)堿基呈現(xiàn)的順序不重要,且每個(gè)堿基的呈現(xiàn)數(shù)目可以變化(例如aa、ttt、gg、ccc)。
步驟e)示出了最終產(chǎn)物。這包括任選地兩側(cè)是可用于捕獲/克隆擴(kuò)增的序列(在步驟d)的擴(kuò)增中引入)的靶序列;可用于雜交通用測序引物的區(qū)域(源自泡狀引物的第二部分內(nèi))和包含a、t、g和c充當(dāng)測序期間摻入的每個(gè)堿基所生成的信號強(qiáng)度的參考的區(qū)域(源自泡狀引物的第三部分內(nèi),或在第二和第三部分之間)。然后終產(chǎn)物可以被回收并在測序反應(yīng)中使用。
使用與泡狀引物的非模板序列至少基本上相同的引物通用擴(kuò)增靶序列能夠獲益于包括通用5’標(biāo)簽尾部延伸物,5’標(biāo)簽尾部延伸物可以被用于捕獲多重?cái)U(kuò)增子池中的單個(gè)分子并促進(jìn)這些單個(gè)分子(再次)以通用方式克隆擴(kuò)增。本領(lǐng)域普通技術(shù)人員將認(rèn)識到,對基于人工序列的擴(kuò)增的依賴給出了靶特異性或整體優(yōu)化這些擴(kuò)增的巨大空間,并且整體方案將產(chǎn)生適于ngs技術(shù)不可知論的測序的擴(kuò)增子群。
與連接子連接策略實(shí)現(xiàn)的~50%隨機(jī)對稱產(chǎn)物相比,本文描述的方法提供了在末端連接了一致的(可靠的不對稱的)連接子序列的“末端修飾片段”池:對稱產(chǎn)物不適于支持用于ngs測序的克隆擴(kuò)增,并且因此本發(fā)明有效地消除了在ngs中有用的可用模板的減少。
本方法能夠快速生成dna短片段的池,其中片段的內(nèi)部是待由ngs確定的感興趣的dna序列,而片段的末端是基本上通用的,允許在生成信號增強(qiáng)所需的克隆群體期間的平行處理。
在一種實(shí)施方案中,本方法使用利用尿嘧啶堿基代替胸腺嘧啶堿基的引物設(shè)計(jì),能夠功能上去除這些序列以有利于高效產(chǎn)生期望的產(chǎn)物。在另一個(gè)實(shí)施方案中,本發(fā)明使用在引物的5’末端是rna而在引物的3’末端是dna的雜合體的引物設(shè)計(jì),使得當(dāng)與dna雜交時(shí)能夠消化rna組分并功能上去除該組分。
泡狀引物的3’末端,第三部分,包括有限數(shù)量的足以接納dna聚合酶的附著和延伸的模板特異性堿基,但限制將在用于ngs反應(yīng)的終產(chǎn)物中“浪費(fèi)地”出現(xiàn)并被測序的堿基的數(shù)量。
本文描述的方法和引物相對于現(xiàn)有技術(shù)具有大量優(yōu)勢。在一些實(shí)施方案中,dna序列連接到dna的特定區(qū)域的末端,使得這些不同區(qū)域在多重反應(yīng)中被分析,相同的被應(yīng)用的生物化學(xué)在平行處理中實(shí)現(xiàn)ngs測序。本方法和引物在靶dna區(qū)域末端提供通用區(qū)域,這些通用區(qū)域可用于支持在多種固相和/或水相上捕獲和克隆擴(kuò)增多種靶區(qū)域。此外,本方法和引物避免了將dna連接子連接到由dna擴(kuò)增生成的dna片段的末端的需要,并提供適于高效測序的模板。
本方法和引物相對于隨后生成克隆擴(kuò)增產(chǎn)物池的操作(適于在表面、珠或溶液中生成克隆群體)是不可知論的。本技術(shù)也是隨后用于生成ngs數(shù)據(jù)的技術(shù)不可知論的,并且可以與(例如)illuminasbs技術(shù)、iontorrent或roche454“一次一個(gè)堿基”技術(shù)或其他ngs技術(shù)諸如納米孔測序一起使用。通常,如果希望在特定擴(kuò)增產(chǎn)物的一個(gè)或更多個(gè)末端引入已定義的序列,則本文所述的方法可能是有利的。
本方法和引物主要用于在分析一組選自大得多的可用dna序列池的dna靶。