本發(fā)明涉及下一代測序和核酸文庫制備的領(lǐng)域。
背景技術(shù):
1、下一代測序是一種新興技術(shù),其擴展到生物醫(yī)學研究和臨床診斷的所有領(lǐng)域。
2、用于下一代測序的儀器具有有限的讀長(測序引物下游的分子數(shù),其序列可以被準確確定)。在許多應(yīng)用中,該讀長不足以確定目標完整dna片段的序列。因此,稱為文庫制備的過程是測序應(yīng)用的重要組成部分。為此,將待測序的dna片段成倍增加,并且多個拷貝隨后通過稱為片段化的過程縮短。對這些片段進行測序,并將獲得的序列與參考序列對齊,以確定完整片段的序列。
3、基于片段化的文庫制備工作流程的理想結(jié)果是獲得均勻覆蓋待測序的dna分子的dna文庫分子(圖4a)。然而,基于片段化的文庫制備工作流程的典型文庫顯示未片段化dna的比例很高(10x?genomics用戶指南cg000208rev?e;chromiumnext?gem?single?cell?5'reagentkits?v2,第4.6節(jié),第57頁),這是文庫制備過程中的主要缺點(示例如圖4b所示)。
4、對于包含許多未片段化核酸的文庫,顯示通過測序獲得的許多讀取源自富集靶標的最3'端(例如,按照10x?genomics用戶指南cg000208rev?e/10x?genomics?chromiumnextgem?single?cell?5'reagentkits?v2生成的文庫)。為了確保從較短的片段中獲得足夠的讀取,必須增加測序讀取的數(shù)量。這導致更高的成本,因為必須增加樣品的讀取數(shù)量,因此必須減少可以并行測序的不同樣品的數(shù)量。如果不通過增加每個樣品的讀取數(shù)量來補償,則對于組裝初始dna分子的整個序列存在覆蓋度不足的高風險。
5、此外,來自初始靶向富集的引物二聚體可能存在于文庫中。這尤其發(fā)生在同時擴增多個靶標的靶向富集中(在這些多重反應(yīng)中,不可能設(shè)計無一將形成引物二聚體的大量引物)。這些引物二聚體通常也在文庫制備過程中被繼續(xù)攜帶,并且也將被測序。
6、引物二聚體(沒有關(guān)于靶標的信息)和未片段化(靶標的覆蓋度不均勻)的存在只能通過增加讀取的數(shù)量來補償。這導致成本增加或較低的覆蓋度。
7、這里我們描述了一種用于核酸文庫制備的改進或替代方法,以減少未片段化核酸的數(shù)量,從而避免對這些分子進行測序。因為可以減少測序讀取的數(shù)量,這使得測序更準確,并且節(jié)省了成本。該方法還可用于減少引物二聚體的數(shù)量。
技術(shù)實現(xiàn)思路
1、本發(fā)明的目的是一種用于獲得包含多核苷酸的樣品的核酸文庫的方法,所述方法包括以下步驟:
2、a.向所述多核苷酸提供多種修飾的引物,其中所述修飾的引物是用于核酸擴增的聚合酶的起點;
3、b.使用聚合酶擴增所述多核苷酸;
4、c.將擴增的多核苷酸片段化,從而獲得包含所述修飾的引物的片段化和未片段化多核苷酸的混合物;
5、d.將多種接頭寡核苷酸與步驟c)中獲得的混合物連接,從而獲得包含所述接頭寡核苷酸的多核苷酸混合物,其中所述接頭寡核苷酸包含用于擴增引物的結(jié)合位點;
6、e.向步驟d)中獲得的混合物提供擴增引物,其中所述擴增引物是用于核酸擴增的聚合酶的起點;
7、f.通過提供聚合酶啟動核酸擴增。
8、關(guān)鍵的因素是修飾的引物。步驟a)中提供的修飾的引物包含官能團。官能團是位于所述修飾的引物的5'端的封閉基團(圖2),從而阻止接頭寡核苷酸的連接,或者所述官能團是至少一種核苷酸類似物,并且其中核苷酸類似物在步驟d)之后被核酸內(nèi)切酶切除,從而去除由接頭寡核苷酸提供的引物結(jié)合位點(圖3)。由此,阻止了步驟f)中提供的擴增引物的結(jié)合和包含修飾的引物的片段化多核苷酸的核酸擴增。
9、此外,還阻止了引物二聚體的擴增。
10、本發(fā)明的方法可以與(pct/ep/2020/081731)中公開的統(tǒng)計學片段化技術(shù)相結(jié)合。在這種方法中,一種核苷酸類似物在擴增過程中摻入核酸中。所述核苷酸類似物被核酸內(nèi)切酶切除,從而產(chǎn)生片段化的核酸文庫。
11、通過本發(fā)明的方法獲得的靶標核酸文庫可用于測序。對于測序,可以使用本領(lǐng)域已知的任何方法。
12、定義
13、除非另有定義,本文中使用的技術(shù)和科學術(shù)語具有與本發(fā)明所屬領(lǐng)域的普通技術(shù)人員的通常理解相同的含義。
14、如本文所用,術(shù)語“包含(comprising)”或“包含(comprises)”在提及組合物、方法及其各自的組分中使用,所述組分對于所述方法或組合物是必不可少的,但仍可能包含未指定的要素(無論是否必不可少)。
15、詞語“結(jié)合”和“雜交”及其語法等價物可以互換使用。如果兩條核酸鏈彼此互補,它們就會發(fā)生雜交。雜交可在本領(lǐng)域已知的條件下發(fā)生。
16、如本文所用,術(shù)語“互補的”是指通過watson和crick堿基配對在兩個核苷酸之間精確配對的能力。解釋一下,如果核酸鏈給定位置的核苷酸能夠與另一條核酸鏈的核苷酸形成氫鍵,那么這兩個核酸在該位置被認為是彼此互補的。兩個單鏈核酸分子之間的互補性可以是“部分的”,其中只有一些核苷酸結(jié)合,或者當單鏈分子之間存在全部互補性時,它可以是完全的。
17、本文使用的“引物”是由核苷酸制成的單鏈寡核苷酸,它能夠與互補核酸序列結(jié)合。應(yīng)理解,本發(fā)明中描述的所有引物都可以作為核酸合成/擴增的起點。根據(jù)本發(fā)明,可以使用修飾的引物。這種修飾的引物包含官能團,并且能夠阻止接頭分子的連接或能夠從多核苷酸中去除。根據(jù)本發(fā)明,官能團是位于所述修飾的引物的5'端的封閉基團,或者所述官能團是包含在修飾的引物中的至少一種核苷酸類似物。修飾的引物也可以稱為“修飾的靶向富集引物”。此外,未修飾的引物也可用于所公開的方法。這些引物不攜帶能夠阻止接頭分子的連接或能夠從多核苷酸中去除的官能團。本文使用的擴增引物也具有未修飾的引物的特性。
18、本文使用的術(shù)語“核酸合成”和核酸擴增可以互換使用。核酸合成的過程是本領(lǐng)域眾所周知的。簡而言之:對于核酸合成,提供模板核酸,其可以是單鏈或雙鏈的。在初始使用雙鏈核酸的情況下,第一步是使用本領(lǐng)域已知的技術(shù)變性成單核酸鏈(互補和反向互補的)。單鏈核酸不需要變性步驟。在下一步中,提供與核酸鏈的互補區(qū)域結(jié)合的引物。然后使用聚合酶延伸引物的3'端,并通過填充互補核苷酸產(chǎn)生互補鏈。結(jié)果形成了互補的核酸鏈。為了進一步擴增,需要雙鏈核酸變性,然后可啟動另一輪核酸合成。根據(jù)本發(fā)明,核酸合成可以是對稱的或不對稱的。在對稱核酸合成過程中,僅使用一種引物。因此,僅合成一條鏈。在對稱反應(yīng)過程中,可以提供一對兩種引物(正向引物和反向引物)。一種引物與互補核酸鏈結(jié)合,另一種引物與反向互補核酸鏈結(jié)合。因此,可以在兩條鏈上啟動核酸合成。除非另有說明,否則本文中使用的詞語“引物”可以包括正向引物、反向引物或兩者。在具體實施方案中,詞語“具有相同特異性的引物”涉及所有使用的正向引物或所有使用的反向引物。
19、本文中使用的術(shù)語“接頭(adaptor)”或“接頭(adapter)”是指可以與多核苷酸連接的寡核苷酸。它們包含引物結(jié)合序列,便于締合的核酸的擴增或測序。接頭分子的引物結(jié)合序列可以是同樣(相同)或不同的序列。因此,例如,5'接頭可以包含相同或不同的引物結(jié)合序列,而3'接頭可以包含相同或不同的引物結(jié)合序列。可能存在于多種核酸分子的不同成員中的相同引物結(jié)合序列可以允許使用與通用/相同引物結(jié)合序列互補的單一通用擴增引物擴增多種不同的序列。接頭分子還可以包含一種或多種樣品標簽和分子標簽(條形碼)的序列。接頭可以是雙鏈(對稱)的、部分雙鏈(不對稱)的或單鏈的。一種或多種接頭分子可以位于核酸的5'或3'端。接頭-靶標-接頭的5'端和3'端的接頭可以是相同或不同的。
20、術(shù)語“多核苷酸”和“核酸”可以互換使用,并且是指由在鏈中共價鍵合的核苷酸單體構(gòu)成的生物聚合物。擴增的核酸可以命名為“擴增子”。核酸可以是dna或rna。它可以包含一種或多種核苷酸類似物。類似物的一些非限制性實例包括:8-氧代-7,8-二氫鳥嘌呤(8-oxog)、尿苷(u)、肌苷(i)、2,6-二氨基-4-羥基-5-甲酰胺基嘧啶、5-羥基尿嘧啶、5-羥甲基尿嘧啶、5-甲酰尿嘧啶、3-甲基腺嘌呤、7-甲基鳥嘌呤、1,n6-亞乙烯基腺嘌呤和次黃嘌呤及其衍生物,如脫氧-8-氧代-7,8-二氫鳥嘌呤(d8-oxog)、脫氧尿苷(du)、脫氧肌苷(di)。這些核苷酸類似物可以被核酸內(nèi)切酶,尤其是結(jié)構(gòu)特異性核酸內(nèi)切酶切除。
21、本文中使用的術(shù)語“多個”某物意指兩個或兩個以上。