背景技術(shù):
1、許多分子生物學(xué)和生物化學(xué)是經(jīng)由構(gòu)建誘變文庫來完成的:大量的部分隨機(jī)化序列,其中使初始蛋白質(zhì)編碼序列(稱為野生型、參考或親本序列,本文通常稱為“參考”序列或“參考”蛋白質(zhì))在一個以上的位置處突變以產(chǎn)生大量的突變變體,用于在隨后的實(shí)驗(yàn)中表達(dá)和表征。該過程的一個必要部分是從脫氧核糖核酸(dna)(其可從此類文庫中實(shí)驗(yàn)地測定)映射至每個dna分子表達(dá)的蛋白質(zhì)種類。這樣的映射可以通過直接對dna文庫的蛋白質(zhì)編碼區(qū)進(jìn)行測序來完成,但這種方法通常需要長讀長(read)測序,即,對足夠長度的讀長進(jìn)行測序以直接觀察整個感興趣的dna區(qū)域。
2、另一種方法是在蛋白質(zhì)編碼dna分子上并入用戶設(shè)計(jì)的合成dna條碼,可對所述條碼進(jìn)行測序以鑒定突變的感興趣區(qū)域,但包含隨機(jī)dna序列的此類條碼使其與維持完全定義的開放閱讀框(orf)不兼容,并因此必須置于攜帶實(shí)際突變變體的蛋白質(zhì)編碼區(qū)之外。鑒定合成dna條碼必須以某種方式與蛋白質(zhì)編碼序列內(nèi)的突變的感興趣區(qū)域相關(guān)聯(lián),已知的關(guān)系證實(shí)鑒定條碼和突變的感興趣區(qū)域在同一分子上。有兩個即刻顯而易見的選擇來建立這種關(guān)系。首先,跨越非編碼用戶指定的合成dna條碼和蛋白質(zhì)編碼突變的感興趣區(qū)域的整個序列可以合成為單個分子,使得在合成中建立鑒定合成dna條碼與感興趣區(qū)域之間的關(guān)系,而不需要實(shí)驗(yàn)地映射。然而,對于大規(guī)模的基于高通量文庫的實(shí)驗(yàn)而言,這種長度的分子的完全定制寡核苷酸合成是極其昂貴的。第二,可以將隨機(jī)dna條碼的文庫連接至突變的感興趣區(qū)域dna序列的文庫上,或者使用在其突出(overhang)中具有條碼的引物進(jìn)行聚合酶鏈?zhǔn)椒磻?yīng)(pcr),將隨機(jī)dna條碼的文庫通過聚合酶鏈?zhǔn)椒磻?yīng)(pcr)連接至突變的感興趣區(qū)域dna序列的文庫上,生成合成dna條碼和蛋白質(zhì)編碼區(qū)的隨機(jī)組合。一旦組裝好,可以從非編碼用戶設(shè)計(jì)的合成dna條碼、通過突變的感興趣區(qū)域、至dna的蛋白質(zhì)編碼區(qū)段對dna文庫進(jìn)行測序,以將獨(dú)特的鑒定dna條碼映射至獨(dú)特的突變的感興趣區(qū)域。然而,這種方法需要使用產(chǎn)生相對長的測序讀長的測序平臺(例如,pacific?biosciences的單分子實(shí)時測序或oxford?nanopore?technologies的納米孔測序,其目前通常產(chǎn)生超過10千堿基(kb)的讀長),本領(lǐng)域技術(shù)人員已知其與利用較短讀長的、更經(jīng)濟(jì)的且更準(zhǔn)確的其它高通量測序方法(例如illumina的novaseq、hiseq、nextseq和miseq平臺)相比,其讀長具有更低的質(zhì)量和/或更高的成本。此外,在此類誘變文庫的一些實(shí)施中,感興趣區(qū)域的一個突變變體可能與感興趣區(qū)域的另一突變變體幾乎相同,可能僅相差單堿基對置換。誘變文庫的突變變體之間的這種較小的差異容易被目前可用的長測序讀取的相對高的錯誤率所掩蓋,因此可能導(dǎo)致無法經(jīng)由測序來分辨兩個相對接近的突變變體。
3、因此,本領(lǐng)域需要一種方法來分辨獨(dú)特的用戶設(shè)計(jì)的合成dna條碼與感興趣蛋白質(zhì)編碼突變的感興趣區(qū)域之間的關(guān)系,所述方法具有提高的準(zhǔn)確性,其適于短讀長測序平臺(例如,illumina測序平臺)。此外,需要引入感興趣區(qū)域的突變變體之間增加的序列分歧,以便提高在使用易錯長讀長測序平臺(例如,pacbio或oxford?nanoporetechnologies)時誘變文庫內(nèi)突變變體的可分辨性。本文公開的方法滿足了所述需求。
技術(shù)實(shí)現(xiàn)思路
1、本公開提供了多核苷酸、多核苷酸的組合、和包含其的細(xì)胞,以及基于與每個所述多核苷酸相關(guān)的至少一個“條碼”的鑒定來鑒定多核苷酸內(nèi)(例如,在至少一些多核苷酸編碼不同的感興趣蛋白質(zhì)(poi)的多核苷酸文庫內(nèi))的蛋白質(zhì)編碼區(qū)的方法。在優(yōu)選的實(shí)施方案中,特定poi包括特定的感興趣區(qū)域(“roi”,poi的預(yù)設(shè)計(jì)區(qū)域,其相對于參考poi包括至少一個核苷酸序列差異)、在poi內(nèi)提供第一條碼而不改變poi編碼的氨基酸序列的至少一個沉默突變、和位于poi的上游(5’)并且在距離poi的起始、特別是距離第一條碼特定數(shù)量的核苷酸或堿基對內(nèi)(例如,在600個核苷酸或堿基對內(nèi))的具有“隨機(jī)”(例如,非蛋白質(zhì)編碼)核苷酸序列的至少一個第二條碼。優(yōu)選地,編碼包含特定roi的特定poi的此類多核苷酸可以通過僅對第一和第二條碼進(jìn)行測序來鑒定,或者在一些實(shí)施方案中,通過僅對第二條碼進(jìn)行測序來鑒定。也提供了其他實(shí)施方案,如本領(lǐng)域技術(shù)人員將從本公開中顯而易見的。
1.一種方法,其包括:
2.根據(jù)權(quán)利要求1所述方法,其中所述第二多核苷酸通過長讀長下一代測序進(jìn)行測序。
3.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述第二條碼使用短讀長下一代測序進(jìn)行測序。
4.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其還包括通過對編碼一個以上的蛋白質(zhì)編碼序列的多核苷酸的第二隨機(jī)化條碼進(jìn)行測序來確定所述多核苷酸的身份和相對豐度。
5.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述第二多核苷酸文庫的多核苷酸包含間隔超過約300個核苷酸的第一條碼和第二條碼。
6.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述第二多核苷酸文庫的多核苷酸包含間隔小于約600個核苷酸的第一條碼和第二條碼。
7.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述第二多核苷酸文庫的多核苷酸內(nèi)包含的所述第一條碼和所述第二(隨機(jī)化)條碼均通過短讀長下一代測序進(jìn)行測序。
8.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述第二多核苷酸文庫的每個多核苷酸內(nèi)包含的所述第一條碼和第二條碼均通過長讀長下一代測序進(jìn)行測序。
9.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述第一多核苷酸文庫包含一個以上的多核苷酸,所述多核苷酸包含蛋白質(zhì)編碼區(qū),所述蛋白質(zhì)編碼區(qū)編碼相對于參考蛋白質(zhì)序列具有單氨基酸突變的蛋白質(zhì)。
10.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中來自第一多核苷酸文庫的一個以上的多核苷酸包含由單核酸置換產(chǎn)生的單個非沉默突變。
11.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中所述第一條碼包含三個以上的沉默突變。
12.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中與相對于參考蛋白質(zhì)序列的非沉默核酸突變的數(shù)量相比,來自所述第一多核苷酸文庫的一個以上的多核苷酸相對于參考蛋白質(zhì)序列包含更多的沉默突變。
13.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中來自所述第二多核苷酸文庫的兩個以上的多核苷酸相對于參考蛋白序列包含相同的非沉默突變但不同的第二條碼,使得通過對所述第二條碼進(jìn)行測序來鑒定編碼相同氨基酸序列的兩個分子。
14.根據(jù)前述權(quán)利要求中任一項(xiàng)所述的方法,其中通過對一個以上的第二條碼進(jìn)行測序來鑒定一個以上的細(xì)胞中的一個以上的蛋白質(zhì)編碼區(qū)。
15.根據(jù)權(quán)利要求14所述的方法,其中通過對同一細(xì)胞內(nèi)包含的兩個第二條碼進(jìn)行測序來鑒定一個以上的細(xì)胞中的兩個蛋白質(zhì)編碼區(qū)。
16.根據(jù)權(quán)利要求15所述的方法,其中所述細(xì)胞是酵母二倍體細(xì)胞。
17.根據(jù)權(quán)利要求16所述的方法,其中所述酵母二倍體細(xì)胞通過將各自包含一個第二條碼的兩個酵母單倍體細(xì)胞的交配來產(chǎn)生。