專利名稱:一種構(gòu)建tale重復(fù)序列的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于分子生物學(xué)領(lǐng)域,涉及一種構(gòu)建TALE重復(fù)序列的方法。
背景技術(shù):
對內(nèi)源基因進行定點修飾不論對于生物學(xué)基礎(chǔ)研究還是臨床治療都具有極大的吸引力。雖然人工鋅指核酸酶(zinc finger nuclease)的出現(xiàn)大大促進了基因組祀向修飾技術(shù),但是篩選出能夠高效、特異結(jié)合特定DNA序列的鋅指蛋白仍然是一個相當(dāng)大的技術(shù)難題。來自于植物病原體 Xanthomonas 的 transcription activator-like effector(TALE)能夠侵染植物宿主,通過識別特異的DNA序列調(diào)控宿主植物內(nèi)源基因的表達,降低宿主的抵抗力,提高其易感性(圖I )。目前已知TALE家族有超過100個基因成員(Boch,J. &Bonas, U. , 2010, Annu Rev Phytopathol, 48:419-436.)。研究表明,TALE 蛋白中的 DNA ·結(jié)合結(jié)構(gòu)域具有特異性識別并結(jié)合DNA序列的特性(Boch,J. et al.,Science, 2009, 326:1509-1512.),它主要由I到33個長度為33-35個氨基酸殘基的重復(fù)單位(或稱重復(fù)單元)串聯(lián)后,再加上末尾的一個含有20個氨基酸殘基的半重復(fù)單位構(gòu)成;此外,位于重復(fù)區(qū)兩端的部分非重復(fù)序列(N端的136個氨基酸和C端的63個氨基酸)對于TALE蛋白識別并結(jié)合DNA的效率和特異性也有重要幫助(圖I)。即一個活性和特異性較高的TALE蛋白的DNA結(jié)合結(jié)構(gòu)域除了包含I. 5-33. 5個TALE重復(fù)單位之外,應(yīng)該還包括其N端和C端的部分非重復(fù)序列。其中每個重復(fù)單位以及末尾的半重復(fù)單位可特異地識別并結(jié)合一個特定的核苷酸靶位點。在每個重復(fù)單位中,+12和+13位的氨基酸殘基是實現(xiàn)靶向識別特異DNA堿基的關(guān)鍵位點,被稱作重復(fù)可變二殘基(repeat variable di-residue,簡稱RVD)位點;其它位點的氨基酸殘基則相對固定(圖I)。不同的RVD能夠分別特異識別A、T、C、G四種堿基。由此可見,相對于鋅指蛋白,TALE結(jié)合DNA的方式更便于預(yù)測和設(shè)計,因此在生命科學(xué)基礎(chǔ)理論研究、疾病模型建立、疾病預(yù)防與治療,以及農(nóng)林牧漁業(yè)經(jīng)濟物種遺傳改造等領(lǐng)域具有廣闊的應(yīng)用前景。將TALE的DNA結(jié)合結(jié)構(gòu)域與其它蛋白質(zhì)不同的功能結(jié)構(gòu)域融合后,可以得到各種衍生的融合蛋白,這樣,在理論上就能夠?qū)μ囟ǖ幕蚪M位點進行靶向突變和修飾。例如,與FokI核酸內(nèi)切酶的切割結(jié)構(gòu)域融合后,能夠?qū)蚪M的特定靶位點進行定向切割,從而實現(xiàn)基因打靶(Christian, M. et al.,2010, Genetics, 186:757-761.);與轉(zhuǎn)錄激活結(jié)構(gòu)域或抑制結(jié)構(gòu)域融合后,能夠特異調(diào)控靶基因的表達(Zhang,F(xiàn). et al.,2011,NatBiotechnol, 29:149-153.);與甲基化結(jié)構(gòu)域融合后,應(yīng)該能夠甲基化基因組上的特定位點。TALE的DNA結(jié)合結(jié)構(gòu)域與FokI的切割結(jié)構(gòu)域融合形成的人工蛋白質(zhì)稱為TALE核酸酶(TALE nuclease,簡稱TALEN)(圖3中的a)。目前,基于TALE的DNA改造技術(shù)越來越受到人們的青睞,而構(gòu)建識別特定DNA序列的TALE就成為了這一技術(shù)中的關(guān)鍵步驟。然而,為了保證TALE蛋白識別DNA序列的特異性,人工構(gòu)建的TALE蛋白DNA結(jié)合結(jié)構(gòu)域通常需要含有10個以上的重復(fù)單元,總長度大于lOOObp。因此,TALE串聯(lián)重復(fù)序列的構(gòu)建難度較大,成為TALE應(yīng)用中的主要瓶頸。目前,構(gòu)建TALE串聯(lián)重復(fù)序列及TALE蛋白DNA結(jié)合結(jié)構(gòu)域的主要方法包括人工合成全長的TALE序列,以及基于Golden Gate的載體克隆技術(shù)等兩種方法。Golden Gate的基本原理如下把IIS類限制性內(nèi)切酶的識別位點分別反向放置在任何一段DNA片段的5’和3’端,通過酶切反應(yīng),識別位點本身被切除,并在5’和3’留下粘性末端。如果兩段DNA序列具有互補的粘性末端,就可以通過連接反應(yīng)連接在一起。將多段序列分別設(shè)計具有序列不同的互補性的粘性末端,就可以通過一次連接反應(yīng)將這些序列順序連接起來(Engler, C. et al. , 2009, PLoS ONE, 4:e5553.)(圖 2)。AvrBs3 是TALE家族的一個蛋白,它含有17. 5個重復(fù)單元,每個重復(fù)單元含有34個氨基酸。以AvrBs3為框架,通過PCR對分別包括識別四種堿基的RVD的4種重復(fù)單位兩端引入BsaI的酶切位點和粘性末端序列,可以得到17X4=68種基礎(chǔ)I旲塊。由于Golden Gate法每次可以聞效連接9個DNA片段,因此可以分兩次連接,最終得到含有17. 5個重復(fù)單位的人工TALE蛋白,該蛋白可識別長度為18個核苷酸的特異的DNA序列(Weber,E. et al.,2011,PLoSONE, 6:el9722. )。Morbitzer等人也報道了分兩步構(gòu)建TALE的類似方法(Morbitzer, R.et al.,2011,Nucleic Acids Res, 39:5790-5799.)。另外一種方法對上述的 Golden Gate方法進行了一定的改進,主要利用了在每一對天然存在的TALE重復(fù)單元之間交界位置的Gly-Leu雙氨基酸的編碼序列。根據(jù)密碼子的簡并性,編碼這兩個氨基酸的密碼子一共有四個堿基可替換(編碼Gly有4個密碼子,編碼Leu有6個密碼子),因此一共可以有24種·不同的組合。這樣就可以人為設(shè)計出24種不同的TALE重復(fù)單元的交界序列。在具體實驗中,可以先使用12對不同的PCR引物對每一種RVD重復(fù)進行克隆,并加入IIS類內(nèi)切酶的識別位點。酶切后,將每4個重復(fù)進行連接,并用PCR進行擴增,得到3組4-重復(fù)體;再次酶切、連接并PCR擴增,得到12-重復(fù)體。最后連入目的載體中(Zhang, F. et al., 2011, NatBiotechnol, 29:149-153.)。還有一種稍有不同的方法則是利用了存在于AvrBs3等TALE中的IIS型限制性內(nèi)切酶BsmBI的酶切位點。它緊鄰于+18和+19位的密碼子,即GCGCTG之后。使用BsmBI酶切后,可產(chǎn)生GCTG凸出的粘性末端。根據(jù)密碼子的簡并性,GC (A/T/C/G) (T或C)TG這8種密碼子組合都能產(chǎn)生與內(nèi)源編碼相同的氨基酸密碼子,從而可以人工設(shè)計出8種不同的粘性末端。接下來分別合成帶有這8種末端的含有識別4種堿基的RVD的模塊,一共分為8組。使用BsmBI酶切后,可得到獨特的5’和3’粘性末端,順序連接,一次可以合成8個識別特定DNA序列的重復(fù)單位。經(jīng)過二次連接可獲得識別16個或24個堿基的重復(fù)序列(Li, T. et al. , 2011, Nucleic Acids Res, doi : 10. 1093/nar/gkrl88)??傊?,這些方法都是基于Golden Gate的載體構(gòu)建理念,人為地在重復(fù)單元的兩側(cè)設(shè)計出不同的粘性末端序列,并依次連接而成。直接合成法最大的缺陷在于價格昂貴,并且合成大于IOOObp的DNA的成功率和準(zhǔn)確率很低?;贕olden Gate的方法在最初需要比較復(fù)雜的PCR引物和DNA片段設(shè)計,以便得到合適的粘性末端序列,從而將重復(fù)序列依次順序連接。在實驗過程中需要構(gòu)建大量的載體或使用很多引物,有時還需要PCR擴增。而且,Golden Gate的方法是一步法進行酶切和連接,條件控制嚴格而復(fù)雜,需要較長的摸索和調(diào)整,效率和成功率有待更多的實踐和時間檢驗。此外,基于一步法連接能夠連接的片段長度有限,得到超過10個重復(fù)單元的效率因而非常低下。雖然可以通過分步連接獲得更多的重復(fù),但是同時又增加了實驗操作的難度。這些問題的存在使已知的方法限制了快速常規(guī)地構(gòu)建TALE
發(fā)明內(nèi)容
為了解決上述問題,本發(fā)明提供一種簡便的構(gòu)建TALE重復(fù)序列及TALE蛋白DNA結(jié)合結(jié)構(gòu)域編碼載體的方法,可稱為“單元組裝”法。本發(fā)明首先提供用于構(gòu)建TALE重復(fù)序列的旁單元,其為兩端含有同尾酶或不同的平末端酶識別位點的重復(fù)單元DNA片段,所述的重復(fù)單元DNA片段編碼含有NI、NG、HD、NK或NN的重復(fù)可變二殘基(RVD)的重復(fù)單元或其變體,其中,在5 ’端同尾酶或平末端酶的識別位點中,識別位點的3’端至少有I個核苷酸參與編碼旁單元N端的氨基酸;在3’端同尾酶或平末端酶的識別位點中,識別位點的5’端至少有I個核苷酸參與編碼旁單元C端的氨基酸。本領(lǐng)域技術(shù)人員應(yīng)該理解,本發(fā)明所述的重復(fù)單元包括本領(lǐng)域技術(shù)人員已知的TALE重復(fù)單元,或者其變體。本領(lǐng)域技術(shù)人員也應(yīng)當(dāng)理解,在TALE天然重復(fù)序列的非保守區(qū)域或非功能區(qū)域,如非RVD區(qū)域、+14位Gly和+15位Gly,添加、刪除或改變一個或幾個
氨基酸不會影響其重復(fù)單元的功能(即識別與結(jié)合DNA的能力)。其中,所述的同尾酶切割后通過粘末端相連或平末端酶切割后平末端連接后的旁單元不改變重復(fù)單元氨基酸的編碼。本發(fā)明選用了 NI、NG、HD、NK和NN這五種重復(fù)可變二殘基(RVD)用于構(gòu)建TALE重復(fù)中的“旁單元”,它們分別對應(yīng)識別A、T、C和G等4種核苷酸(其中NK和NN都對應(yīng)G)。本發(fā)明中,所述的旁單元編碼的重復(fù)單元的氨基酸序列如SEQ ID No. f 15任一所示,所述的旁單元的核苷酸序列如SEQ IDNo. 16 30任一所示。本發(fā)明還提供含有所述的旁單元序列的單一旁單元載體。在本發(fā)明所述單一旁單元載體的一個實施方案中,為了便于進行基因工程操作,還可以在同尾酶或平末端酶識別位點的外側(cè)設(shè)計至少一個其它的內(nèi)切酶識別位點。本發(fā)明單一旁單元載體的一個具體實施方案中,在NheI的識別位點的外側(cè)添加了 HindIII識別位點。本發(fā)明還提供含有任意重復(fù)數(shù)、任意排列順序的旁單元串聯(lián)重復(fù)序列,含有任意重復(fù)數(shù)、任意排列順序的旁單元串聯(lián)重復(fù)序列的載體,以及含有所述的旁單元串聯(lián)重復(fù)序列的編碼人工TALE蛋白DNA結(jié)合結(jié)構(gòu)域及其衍生的各種融合蛋白的載體。本發(fā)明還提供所述的旁單元串聯(lián)重復(fù)序列的構(gòu)建方法,其包括如下步驟I)用所述的同尾酶分別切割任意旁單元,再將切割的任意旁單元通過粘末端相連,獲得頭尾相接、串聯(lián)排列的雙旁單元;2)重復(fù)采用步驟I)所述的酶切-連接的操作組裝成含有任意重復(fù)單元數(shù)的旁單元串聯(lián)重復(fù)序列;或I)用所述的平末端酶分別切割任意旁單元,再將切割的任意旁單元平末端相連,獲得獲得頭尾相接、串聯(lián)排列的雙旁單元;2)重復(fù)采用步驟I)所述的酶切一連接的操作組裝成含有任意重復(fù)單元數(shù)、任意排列順序的旁單元串聯(lián)重復(fù)序列。本發(fā)明還提供所述的含有旁單元串聯(lián)重復(fù)序列的載體的構(gòu)建方法,其特征在于,包括如下步驟I)用所述的互為同尾酶中的一個和所述的內(nèi)切酶切割任意一個單一旁單元載體,用所述的互為同尾酶中的另一個和所述的內(nèi)切酶切割任意另一個單一旁單元載體,再將兩者含有旁單元的酶切產(chǎn)物進行連接,獲得雙旁單元載體,該載體含有頭尾相接、串聯(lián)排列的兩個旁單元;2)重復(fù)采用步驟I)所述的酶切一連接的操作組裝成含有任意重復(fù)單元數(shù)、任意排列順序的旁單元串聯(lián)重復(fù)載體;或I)用其中一個平末端酶和所述的內(nèi)切酶切割任意一個單一旁單元載體,用其中另一個平末端酶和所述的內(nèi)切酶切割任意另一個單一旁單元載體,再將兩者含有旁單元的酶切產(chǎn)物進行連接,獲得雙旁單元載體,該載體含有頭尾相接、串聯(lián)排列的兩個旁單元;2)重復(fù)采用步驟I)所述的酶切一連接的操作組裝成含有任意重復(fù)單元數(shù)、任意排列順序的旁單元串聯(lián)重復(fù)載體。在本發(fā)明的一個實施方案中,所述的旁單元DNA片段編碼典型的天然TALE重復(fù)單元中存在的+11位氨基酸殘基Ser起至下一重復(fù)單元+10位氨基酸殘基Ala為止之間的氨基酸序列。通過序列分析后發(fā)現(xiàn),編碼Ser的密碼子序列為tcn/agt/agc,與之相連的上一個旁單元3’端編碼的第一個氨基酸殘基應(yīng)為Ala,相應(yīng)的密碼子為gcn,兩個密碼子的序列合起來是gcntcn/gcnagt/gcnagc。通過分析發(fā)現(xiàn),限制性內(nèi)切酶SpeI的識別位點為actagt,該識別位點的3’端的3個核苷酸agt恰好編碼該旁單元編碼產(chǎn)物N端的氨基酸殘基Ser ;此外,其完成切割后留下的3’端核苷酸序列是ctagt,因此不會改變該旁單元編碼產(chǎn)物N端的第一個氨基酸殘基Ser。這樣就可以選擇SpeI作為該旁單元5’端的一個候選的同尾酶,即將該旁單元的5’端前6位核苷酸的序列設(shè)計成SpeI的識別位點。上述序列C端的氨基酸殘基為Ala,相應(yīng)的密碼子序列為gcn,與之相連的下一個旁單元5’端編碼的第一個氨基酸殘基應(yīng)為Ser,相應(yīng)的密碼子為tcn/agt/agc,兩個密碼子的序列合起來是gcntcn/gcnagt/gcnagc。通過分析發(fā)現(xiàn),SpeI的同尾酶NheI的識別位點恰好為gctagc。這樣就可以選擇NheI作為該旁單元3’端的同尾酶,即將該旁單元的3’端最后6位核苷酸的序列設(shè)計成NheI的識別位點。對于任意一種TALE單一重復(fù)旁單元載體或其變體,使用Nhel+Hindlll雙酶切后,可產(chǎn)生兩側(cè)帶有粘性末端并且包含旁單元的載體骨架;使用Spel+HindHI進行雙酶切后,可獲得兩側(cè)帶有粘性末端并且主要包含旁單元的DNA片段。由于SpeI和NheI是同尾酶,因此只需要通過簡單的連接反應(yīng),便可以獲得一個帶有兩個頭尾相接、串聯(lián)排列的旁單元重復(fù)單位的雙旁單元載體(圖3中的C)。同時,連接后獲得的雙旁單元載體仍然只在雙旁單元的5’和3’端分別含有SpeI和NheI的識別位點,而經(jīng)過上一步同尾連接后產(chǎn)生的新位點actagc將不再被這兩種酶所識別,從而可以對這種雙旁單元載體繼續(xù)進行上述的酶切一連接反應(yīng),而不會破壞已經(jīng)連接在一起的雙旁單元內(nèi)部的編碼序列。此外,雖然連接后的重復(fù)單元序列發(fā)生了一個單堿基的變化,即從agt變成agc,但是并不影響其編碼功能,依然編碼同樣的氨基酸(Ser)。因此,上述酶切一連接的操作并不會改變重復(fù)單元中的氨基酸序列,而只是將兩個旁單元串聯(lián)在一起。這些雙旁單元編碼載體可以接下來用來構(gòu)建含有更多重復(fù)單元的多旁單元載體。例如,若要構(gòu)建一個包含9到16個重復(fù)單元的旁單元串聯(lián)重復(fù)載體,只需從雙旁單元載體開始,經(jīng)過3輪簡單的酶切一連接循環(huán)操作就可以完成,費時不超過一周(圖4和圖6)。更長的旁單元串聯(lián)重復(fù)序列可以很容易地通過更多的酶切一連接循環(huán)反應(yīng)構(gòu)建出來。這樣,在理論上能夠構(gòu)建含有任意重復(fù)單元數(shù)、任意排列順序的旁單元串聯(lián)重復(fù)載體。本發(fā)明還提供編碼TALE蛋白DNA結(jié)合結(jié)構(gòu)域載體的構(gòu)建方法,其包括如下步驟當(dāng)完成了旁單元串聯(lián)重復(fù)載體的構(gòu)建后,便可以將其中的旁單元串聯(lián)重復(fù)序列通過亞克隆的方法連入包含TALE蛋白的部分或全部N端和C端非重復(fù)序列區(qū)編碼序列與部分重復(fù)單元編碼序列的質(zhì)粒載體中,以獲得完整的編碼TALE蛋白DNA結(jié)合結(jié)構(gòu)域的DNA片段與相應(yīng)的表達載體。在本發(fā)明的一個實施方案中,采用了 PCS2-N+C載體,構(gòu)建所述的TALE蛋白DNA結(jié)合結(jié)構(gòu)域的編碼載體。pCS2_N+C 質(zhì)粒的構(gòu)建方法如下PCR 擴增 Xanthomonas axonopodis pv. citri 中PthA基因的編碼緊鄰TALE重復(fù)序列的N端136aa和C端63aa的序列、編碼天然重復(fù)單元中5’端的10個氨基酸殘基的序列和編碼天然TALE重復(fù)序列3’端的最后0. 5個重復(fù)單元中+11位至末端的氨基酸殘基的序列(擴增PthA基因N端136aa編碼序列+天然重復(fù)單元中5’端的10個氨基酸編碼序列的引物對5’ -GATGGTACCGTGGATCTACGCACGCTCG-3’,5’ -GC
CAITGCTAGCGATGGCCACCACCTGCT-3’ ;擴增天然TALE重復(fù)序列3’端的最后0. 5個重復(fù)單元中+11位至末端的氨基酸殘基的編碼序列+pthA基因C端63aa編碼序列的引物對Tsense(用于擴增識別 T 的 0. 5 個重復(fù)單元):5’ -GCCATCGCTAGCAATGGCGGCGGCAGGC-3’,Asense (用于擴增識別 A 的 0. 5 個重復(fù)單元):5’ -CATCGCTAGCAATAITGGCGGCAGGCCGGCG-3’,Gsense (用于擴增識別 G 的 0. 5 個重復(fù)單元):5’ -CATCGCTAGCAACAATGGCGGCAGGCCGGCG-3’,Csense (用于擴增識別 C 的 0. 5 個重復(fù)單元)5’ -CATCGCTAGCCATGACGGCGGCAGGCCGGCG-3’,antisense(通用引物):5’ -GATGGATCCGGCAACGCGATGGGATGTG-3’),連入pCS2質(zhì)粒中??梢赃M一步通過分子克隆,將該人工TALE蛋白DNA結(jié)合結(jié)構(gòu)域跟其它蛋白結(jié)構(gòu)域融合,得到各種衍生的融合蛋白,從而實現(xiàn)對基因組的定點遺傳操作或修飾(圖5、圖9和圖12)。例如,如果需要進行基因打靶,就可以將構(gòu)建好的TALE重復(fù)序列通過亞克隆的方法接入pCS2-FokI載體中,構(gòu)建出編碼并表達TALE核酸酶(TALEN)的載體(pCS2-TALEN)(圖5、圖9和圖12)。pCS2_FokI載體是在PCS2-N+C質(zhì)粒的基礎(chǔ)上,進一步將FokI核酸酶切割結(jié)構(gòu)域的編碼序列連接到該載體編碼區(qū)的C端而成(圖5、圖9和圖12)。本發(fā)明的關(guān)鍵點在于I.未使用自然的TALE重復(fù)單元,而是提出了“旁單元”的概念,采用了自然重復(fù)單元中的任意一位氨基酸殘基(例如+11位氨基酸殘基Ser)的編碼序列起至下一重復(fù)單元前一位氨基酸殘基(例如上例中的+10位氨基酸殘基Ala)的編碼序列為止之間的序列作為新的重復(fù)單元,并在其兩端選擇/設(shè)計同尾酶或不同平末端酶的識別位點,構(gòu)建出新的序列組合,并將這樣的DNA片段稱為旁單元,從而簡化了 TALE重復(fù)序列以及TALE蛋白DNA結(jié)合結(jié)構(gòu)域及其各種衍生的融合蛋白編碼序列的構(gòu)建。2.使用了常規(guī)的III類限制性核酸內(nèi)切酶,構(gòu)建TALE重復(fù)序列只需要循環(huán)進行簡單的酶切一連接等常規(guī)操作,大大簡化了實驗的技術(shù)難度。3.充分利用了同尾酶對(例如NheI和SpeI)識別序列不同但是酶切后產(chǎn)生的粘性末端相同的特點,可以通過切割單一旁單元或多旁單元兩端的同尾酶識別位點,將兩段編碼序列串聯(lián)在一起;同時,同尾連接后由粘性末端組合產(chǎn)生的新的核苷酸序列不會再被同樣的同尾酶對識別,而在新產(chǎn)生的多旁單元序列的兩側(cè)則仍然保留了原有同尾酶對的識別位點,這樣就可以繼續(xù)重復(fù)酶切一連接的操作,構(gòu)建重復(fù)數(shù)更多的新的多旁單元串聯(lián)序列,而不會破壞已經(jīng)串聯(lián)在一起的重復(fù)序列(重復(fù)單元)。
本發(fā)明的有益效果第一,真正的模塊化操作。只需要首先構(gòu)建含有可分別識別4種單核苷酸的五種最基本的單一旁單元載體,就可以通過簡單的酶切一連接循環(huán)操作,組裝出含有任意重復(fù)單元數(shù)的旁單元串聯(lián)重復(fù)載體,并通過將旁單元串聯(lián)重復(fù)序列亞克隆到適當(dāng)?shù)妮d體質(zhì)粒中,進一步構(gòu)建出人工TALE蛋白DNA結(jié)合結(jié)構(gòu)域及其衍生的各種融合蛋白的編碼載體。而在Golden Gate方法中,需要針對每一種特定的重復(fù)單元在整個重復(fù)序列中所處的位置,在兩側(cè)設(shè)計不同的粘性末端序列,造成起始單元的數(shù)量很多,操作起來相對繁瑣。第二,本方法具有累積效應(yīng)。在每次旁單元串聯(lián)重復(fù)序列的構(gòu)建實驗中,每一步酶切、連接后所得到的包括n個重復(fù)單元的中間載體均可以保留下來,為構(gòu)建其它含有相同的n個重復(fù)單元(=識別同樣的核苷酸序列)的旁單元串聯(lián)重復(fù)序列所用,都可以作為起始的合成材料直接使用,而不必每次都從單個的旁單元開始載體構(gòu)建,從而節(jié)省時間和成本。可見,隨著旁單元串聯(lián)重復(fù)序列構(gòu)建數(shù)目的增加以及中間載體的積累,在后續(xù)的新載體的構(gòu)建過程中可以借鑒的前期構(gòu)建的中間載體會越來越多,從而使新載體的構(gòu)建工作會越來越方便、快捷。而之前的所有方法,都只能針對特定的某一個基因的靶序列合成相應(yīng)的TALE重復(fù)序列,終產(chǎn)物通過一步法或者分步法酶切、連接得到,沒有或者只有少量中間產(chǎn)物積累,而這些產(chǎn)物也很難再應(yīng)用于其它實驗。第三,可以快速組裝含有任意重復(fù)單元數(shù)量、任意排列順序的旁單元串聯(lián)重復(fù)序列,無重復(fù)數(shù)量的上限。而基于Golden Gate的方法,一·次連接反應(yīng)超過10個片段后,效率將會大大降低。第四,大大節(jié)約成本。不需要大量的引物構(gòu)建基本重復(fù)單元,無需復(fù)雜的實驗方法和特殊的連接酶,所有使用的酶均為常規(guī)的限制性內(nèi)切酶,實驗操作也很簡便,無需特殊的條件。每一個有條件從事基本分子生物學(xué)實驗的實驗室均可以操作。
圖I所示為TALE蛋白功能結(jié)構(gòu)域示意圖和天然TALE重復(fù)單元的氨基酸序列特征。其中,a為TALE蛋白功能結(jié)構(gòu)域示意圖;b為典型的天然TALE重復(fù)單元的氨基酸序列特征(修改自 Boch, J. & Bonas, U. , 2010, Annu Rev Phytopathol, 48:419-436.)。圖2所示為通過Golden Gate技術(shù)構(gòu)建重復(fù)單元的原理示意圖(修改自Engler, C.et al. , 2009, PLoS ONE, 4: e5553.)。圖3所示為本發(fā)明“單元組裝”法的設(shè)計原理和起始單一旁單元載體與AT雙旁單元載體的構(gòu)建示例。其中,a為天然TALE重復(fù)單元和“單元組裝”法使用的旁單元所編碼的氨基酸序列示意圖(以識別A核苷酸的NI旁單元為例),典型的TALE天然重復(fù)單元為34個氨基酸(圖中“天然重復(fù)單元示例”中的陰影部分所示),“單元組裝”法使用的旁單元的編碼產(chǎn)物從第+11位氨基酸開始(圖中“本發(fā)明的旁單元示例”中的陰影部分所示),可以通過同尾酶NheI和SpeI進行操作;b為五種基本的旁單元載體結(jié)構(gòu)示意圖,它們分別編碼不同的RVD,即NI、NG、NN、NK和HD,分別對應(yīng)識別單核苷酸A、T、G和C (其中NN和NK都識別G);c圖為通過同尾酶NheI和SpeI分別與HindIII組合進行雙酶切和連接反應(yīng),得到一種雙旁單元載體的過程,圖中以識別AT的雙旁單元載體的構(gòu)建為例進行說明;d為Nhel+Hindlll和Spel+Hindlll酶切單一旁單元載體的電泳結(jié)果。圖4所示為利用“單元組裝”法構(gòu)建特定旁單元串聯(lián)重復(fù)序列的設(shè)計方案及工作流程示例。
圖5所示為利用旁單元串聯(lián)重復(fù)序列構(gòu)建用于基因打靶的TALEN表達載體的過程示意圖。圖6所示為構(gòu)建用于tnikb基因打靶載體的旁單元串聯(lián)重復(fù)序列的過程示意圖;其中,a為斑馬魚tnikb基因的靶位點示意圖,小寫字母顯示第一個內(nèi)含子的序列,大寫字母代表第二個外顯子的序列,序列中下劃線部分分別標(biāo)記左側(cè)和右側(cè)的兩個TALEN結(jié)合位點山圖示以雙旁單元載體作為起始材料,使用“單元組裝”法,經(jīng)過三輪酶切一連接循環(huán),構(gòu)建出識別左側(cè)結(jié)合位點的旁單元串聯(lián)重復(fù)序列的過程以及PCR檢測結(jié)果;c圖示以雙旁單元載體作為起始材料,使用“單元組裝”法,經(jīng)過三輪酶切-連接循環(huán),構(gòu)建出識別右側(cè)結(jié)合位點的旁單元串聯(lián)重復(fù)序列的過程以及PCR檢測結(jié)果。圖7所示為利用TALEN靶向突變斑馬魚tnikb基因的效果檢測。其中,野生型和FokI均為對照組,NN和NK代表不同TALEN中所使用的識別核苷酸G的RVD。圖8所示為本發(fā)明設(shè)計并構(gòu)建的可識別單核苷酸靶位點的單一旁單元載體的結(jié)構(gòu)示意圖(包括五種分別識別A、T、C、G的單一旁單元載體,其中識別G的有RVD為NN和NK的兩種不同的載體)。圖9所示為本發(fā)明利用“單元組裝”法構(gòu)建的含有旁單元串聯(lián)重復(fù)序列的質(zhì)粒(pMD-TALE)結(jié)構(gòu)示意圖。圖10所示為本發(fā)明中用于通過pMD-TALE亞克隆來構(gòu)建編碼完整的TALE蛋白DNA結(jié)合結(jié)構(gòu)域的載體的PCS2-N+C質(zhì)粒的結(jié)構(gòu)示意圖。圖11所示為本發(fā)明構(gòu)建完成的TALE終載體pCS2_TALE (編碼完整的TALE蛋白DNA結(jié)合結(jié)構(gòu)域)的質(zhì)粒結(jié)構(gòu)示意圖。圖12所示為本發(fā)明中用于通過pMD-TALE亞克隆來構(gòu)建基因打靶載體TALEN的pCS2-FokI質(zhì)粒的結(jié)構(gòu)示意圖。
具體實施例方式以下實施例用于說明本發(fā)明,但不用來限制本發(fā)明的范圍。實施例I構(gòu)建單一旁單元載體首先人工合成編碼五種(依RVD的類型分類)本發(fā)明依據(jù)同尾酶位點與典型的TALE重復(fù)單元編碼序列選定的旁單元序列的DNA片段(表I所列的序列)。事先需要對各旁單元使用的密碼子進行仔細的挑選,以盡可能地降低各旁單元之間DNA序列的相似性。同時,由于天然重復(fù)單元中+4位的氨基酸殘基至少存在A、D、E等3種可能性,這樣,就由五種旁單元衍生出了本實例所列的15個序列變體。接下來,利用PCR對這五種DNA片段(15個變體)進行擴增。上游引物分別為Afwd:5’ -ACTAGTAATAITGGTGGCAAACAGGCTCTTG-3’ (SEQID No. 39)、Tfwd:5,-ACTAGTAATGGGGGTGGCAAACAGGCTCTTG-3’ (SEQ ID No. 40)、Cfwd:5,-ACTAGTCATGACGGTGGCAAACAGGC TCTTG-3’ (SEQ ID No. 41)、GNNfwd:5’-ACTAGTAACAATGGTGGCAAACAGGCTCTTG-3’ (SEQ ID No. 42)、GNKfwd:5’-ACTAGT AACAAAGGTGGCAAACAGGCTCTTG-3’ (SEQ ID No. 43),下游引物均為 rev: 5’-AAGCTTGCTAGCAATCGCTACAACTTG-3’ (SEQ IDNo. 44)。將擴增片段連接到pMD18T-simple載體(TaKaRa公司)中。這樣得到的質(zhì)粒在旁單元序列兩側(cè)包含有SpeI和NheI的識別位點,還包括一個在載體骨架上引入的、位于NheI下游附近、起輔助作用的HindIII位點(圖3中的b和圖8)。
表I本發(fā)明采用的旁單元及其編碼序列示例
權(quán)利要求
1.用于構(gòu)建TALE重復(fù)序列的旁單元,其為兩端含有同尾酶或不同的平末端酶識別位點的重復(fù)單元DNA片段,所述的重復(fù)旁單元的DNA片段編碼含有NI、NG、HD、NK或NN的重復(fù)可變二殘基RVD的重復(fù)氨基酸單元或其變體,其中,在5’端同尾酶或平末端酶的識別位點中,識別位點的3’端至少有I個核苷酸參與編碼旁單元N端的氨基酸;在3’端同尾酶或平末端酶的識別位點中,識別位點的5’端至少有I個核苷酸參與編碼旁單元C端的氨基酸。
2.根據(jù)權(quán)利要求I所述的旁單元,其特征在于,所述的同尾酶切割后同尾相連或平末端酶切割后平末端連接后的旁單元不改變重復(fù)單元氨基酸的編碼。
3.根據(jù)權(quán)利要求I所述的旁單元,其特征在于,所述的重復(fù)單元DNA片段編碼典型的天然TALE重復(fù)單元中存在的+11位氨基酸殘基Ser起至下一重復(fù)單元+10位氨基酸殘基Ala為止之間的氨基酸序列,所述的同尾酶為SpeI和NheI。
4.根據(jù)權(quán)利要求3所述的旁單元,其特征在于,所述的旁單元編碼的重復(fù)單元的氨基酸序列如SEQ ID No. I 15任一所示。
5.根據(jù)權(quán)利要求3所述的旁單元,其特征在于,所述的旁單元的核苷酸序列如SEQIDNo. 16 30任一所不。
6.含有權(quán)利要求I、任一項所述的旁單元的單一旁單元載體。
7.根據(jù)權(quán)利要求6所述的單一旁單元載體,其特征在于,其中同尾酶或平末端酶識別位點的外側(cè)還含有其它的內(nèi)切酶識別位點,所述的內(nèi)切酶識別位點不含于旁單元序列中,并且不同于所述的同尾酶或平末端酶識別位點。
8.根據(jù)權(quán)利要求7所述的單一旁單元載體,其特征在于,所述的其它的內(nèi)切酶識別位點為Hind III識別位點。
9.含有任意重復(fù)數(shù)的權(quán)利要求f5任一項所述的旁單元的旁單元串聯(lián)重復(fù)序列。
10.含有權(quán)利要求9所述旁單元串聯(lián)重復(fù)序列的旁單元串聯(lián)重復(fù)載體。
11.含有權(quán)利要求9所述的旁單元串聯(lián)重復(fù)序列的編碼人工TALE蛋白DNA結(jié)合結(jié)構(gòu)域及其衍生的各種融合蛋白的載體。
12.根據(jù)權(quán)利要求9所述的載體,其特征在于,還含有天然TALE蛋白的N端和C端非重復(fù)序列區(qū)的部分或全部編碼序列及部分重復(fù)單元的編碼序列及其變體。
13.權(quán)利要求9所述的旁單元串聯(lián)重復(fù)序列的構(gòu)建方法,其特征在于,包括如下步驟 1)用所述的同尾酶分別切割任意旁單元,再將切割的任意旁單元通過粘末端相連,獲得頭尾相接、串聯(lián)排列的雙旁單元; 2)重復(fù)采用步驟I)所述的酶切一連接的操作組裝成含有任意重復(fù)單元數(shù)、任意排列順序的旁單元串聯(lián)重復(fù)序列;或 1)用所述的平末端酶分別切割任意旁單元,再將切割的任意旁單元平末端相連,獲得頭尾相接、串聯(lián)排列的雙旁單元; 2)重復(fù)采用步驟I)所述的酶切一連接的操作組裝成含有任意重復(fù)單元數(shù)、任意排列順序的旁單元串聯(lián)重復(fù)序列。
14.權(quán)利要求10所述的旁單元串聯(lián)重復(fù)載體的構(gòu)建方法,其特征在于,包括如下步驟I)用所述的互為同尾酶中的一個和所述的內(nèi)切酶切割任意一個單一旁單元載體,用所述的互為同尾酶中的另一個和所述的內(nèi)切酶切割任意另一個單一旁單元載體,再將兩者含有旁單元的酶切產(chǎn)物進行連接,獲得雙旁單元載體,該載體含有頭尾相接、串聯(lián)排列的兩個旁單元; 2)重復(fù)采用步驟I)所述的酶切一連接的操作組裝成含有任意重復(fù)單元數(shù)、任意排列順序的旁單元串聯(lián)重復(fù)載體;或 1)用其中一個平末端酶和所述的內(nèi)切酶切割任意一個單一旁單元載體,用其中另一個平末端酶和所述的內(nèi)切酶切割任意另一個單一旁單元載體,再將兩者含有旁單元的酶切產(chǎn) 物進行連接,獲得雙旁單元載體,該載體含有頭尾相接、串聯(lián)排列的兩個旁單元; 2)重復(fù)采用步驟I)所述的酶切一連接的操作組裝成含有任意重復(fù)單元數(shù)、任意排列順序的旁單元串聯(lián)重復(fù)載體。
全文摘要
本發(fā)明公開了用于構(gòu)建TALE重復(fù)序列的旁單元,其為兩端含有同尾酶或不同的平末端酶識別位點的重復(fù)單元DNA片段,所述的重復(fù)單元DNA片段編碼含有NI、NG、HD、NK或NN的重復(fù)可變二殘基RVD的重復(fù)單元或其變體,其中,在5’端同尾酶或平末端酶的識別位點中,識別位點的3’端至少有1個核苷酸參與編碼旁單元N端的氨基酸;在其3’端同尾酶或平末端酶的識別位點中,識別位點的5’端至少有1個核苷酸參與編碼旁單元C端的氨基酸。本發(fā)明可以很方便地構(gòu)建含有任意重復(fù)單元數(shù)、任意排列順序的TALE重復(fù)序列,含有TALE重復(fù)序列的質(zhì)粒載體,以及編碼TALE蛋白DNA結(jié)合結(jié)構(gòu)域及其衍生的各種融合蛋白的質(zhì)粒載體。
文檔編號C12N15/10GK102787125SQ20121027610
公開日2012年11月21日 申請日期2012年8月3日 優(yōu)先權(quán)日2011年8月5日
發(fā)明者張博, 林碩, 肖安, 黃鵬 申請人:北京大學(xué)