一種用于talen高效構(gòu)建的雙rvd單元模塊庫及talen構(gòu)建方法
【專利摘要】本發(fā)明屬于基因工程技術(shù)領(lǐng)域,涉及一種用于TALEN高效構(gòu)建的雙RVD單元模塊庫。本發(fā)明針對現(xiàn)有GG?Vector TALEN組裝方法的諸多不足,從頭設(shè)計(jì)了“雙RVD單元”(two?RVD unite)的TALEN組裝策略。本發(fā)明的技術(shù)方案是一種用于TALEN高效構(gòu)建的雙RVD單元模塊庫,包括獨(dú)立包裝的144個(gè)雙RVD單元模塊、8個(gè)單RVD單元模塊和24個(gè)末位RVD單元。本發(fā)明公布了一種基于Golden Gate克隆法的雙RVD單元模塊庫,通過一次反應(yīng),可以構(gòu)建靶向15~19bp任意DNA序列的TALEN表達(dá)載體。
【專利說明】
一種用于TALEN高效構(gòu)建的雙RVD單元模塊庫及TALEN構(gòu)建 方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明屬于基因工程技術(shù)領(lǐng)域,涉及一種用于TALEN(轉(zhuǎn)錄激活樣效應(yīng)因子核酸 酶)高效構(gòu)建的雙RVD (重復(fù)變異雙殘基)單元模塊庫及TALEN構(gòu)建方法。
【背景技術(shù)】
[0002] 基因組編輯技術(shù)(genome editing)是指針對基因組的特定序列進(jìn)行定點(diǎn)突變、定 點(diǎn)整合、定點(diǎn)置換等遺傳修飾的一項(xiàng)技術(shù)。利用基因組編輯技術(shù)在基因組原位引入基因序 列的改變,對研究基因功能提供了方便。在應(yīng)用上,利用基因組編輯技術(shù)創(chuàng)制動(dòng)植物新品 種,可以避免現(xiàn)存轉(zhuǎn)基因技術(shù)中基因隨機(jī)插入造成的表達(dá)不確定性和對原基因組的損傷。 隨著靶向核酸酶技術(shù)的問世,實(shí)現(xiàn)了目的基因精準(zhǔn)定向敲除(knock-out),從而獲得目標(biāo)基 因敲除的突變體。目前研究較多的三項(xiàng)技術(shù)為ZFN(zinc finger nuclease,鋅指核酸酶)、 TALEN(transcription activator-like effectors nuclease,轉(zhuǎn)錄激活樣效應(yīng)因子核酸 酉每)和CRISPR/cas9(The clustered,regularly interspaced,short palindromic repeats-associated protein systems,成簇的規(guī)律間隔的短回文重復(fù)序列及關(guān)聯(lián)蛋白系 統(tǒng))。
[0003] TALENs蛋白包括兩個(gè)組成部分。第一個(gè)組成部分來自于天然TALE(Transcription Activator-Like Effectors,轉(zhuǎn)錄激活樣效應(yīng)因子)蛋白,其N端含有一個(gè)易位結(jié)構(gòu)域;中間 是一段由1.5~33.5個(gè)不等的TALE單元組成的重復(fù)氨基酸序列,每個(gè)單元又由34個(gè)氨基酸 組成,其中32個(gè)氨基酸是高度保守的,只有第12位和13位氨基酸是可以變化的,能夠特異地 結(jié)合一個(gè)堿基序列,因此這兩個(gè)氨基酸又被稱為重復(fù)變異雙殘基(Repeat variant diresidue,RVD),最后的0.5個(gè)單元只含有前面的20個(gè)氨基酸;天然TALE蛋白的C端含有一 個(gè)核定位信號以及轉(zhuǎn)錄激活因子,能幫助TALE蛋白從細(xì)胞質(zhì)進(jìn)入細(xì)胞核同時(shí)發(fā)揮轉(zhuǎn)錄激活 作用。以水稻白葉枯病菌分泌的TALE-AvrXslO蛋白為例,它結(jié)合宿主細(xì)胞內(nèi)19bp的DNA序列 需要17.5個(gè)單元,在天然的TALE蛋白中發(fā)現(xiàn)其5'端第一個(gè)堿基為T不需要TALE蛋白單元的 結(jié)合,最后一個(gè)堿基由最后的〇. 5個(gè)單元約20個(gè)氨基酸結(jié)合。
[0004] 2009年12月,Science第326期同時(shí)發(fā)表了兩篇破解植物病毒分泌的TALES蛋白能 夠特異識別堿基序列的機(jī)制,其中Moscou等完全采用生物信息學(xué)的方法得到了TALEs蛋白 識別堿基的規(guī)律,而Boch等則用實(shí)驗(yàn)手段破譯了這一"密碼"。他們發(fā)現(xiàn)TALEs蛋白中第12位 和13位氨基酸組合(天冬酰胺-異亮氨酸-NI )、(天冬酰胺-丙氨酸-NA)、(組氨酸-天冬氨酸-HD)、(天冬酰胺-甘氨酸-NG)可分別高效特異地識別堿基A、G、C、T,并提出將來可以像ZFNs 一樣把它改造成為基因定點(diǎn)修飾的工具。2010年,明尼蘇達(dá)大學(xué)Daniel Voytas教授領(lǐng)導(dǎo)的 實(shí)驗(yàn)室率先將TALE的DNA結(jié)合相關(guān)結(jié)構(gòu)域與FokI的核酸酶結(jié)構(gòu)域融合,優(yōu)化二者間的連接 序列(1 inker ),獲得了針對特定DNA序列具有特異切割活性的靶向核酸酶TALEN。此后,研究 人員以天然的TALEs蛋白為骨架,構(gòu)建了針對人、大鼠、小鼠、斑馬魚等不同生物基因的 dTALES(design TALE),并跟FokI核酸內(nèi)切酶、轉(zhuǎn)錄因子以及表觀遺傳修飾酶結(jié)合在一起實(shí) 現(xiàn)對不同物種基因組的定點(diǎn)修飾或調(diào)控。
[0005] TALENs的第二個(gè)組成部分為來自細(xì)菌的IIS型核酸內(nèi)切酶FokI,當(dāng)兩個(gè)FokI發(fā)生 二聚化后就會發(fā)揮活性對DNA雙鏈進(jìn)行切割,細(xì)胞DNA損傷后會啟動(dòng)兩種修復(fù)機(jī)制過程,一 種為末端非同源依賴的修復(fù)機(jī)制(NHEJ),另一種是依賴同源重組的修復(fù)機(jī)制(HDR)。當(dāng)沒有 外源的同源序列加入時(shí),細(xì)胞就會啟動(dòng)NHEJ修復(fù)機(jī)制,將斷開的DNA末端重新結(jié)合在一起, 但是這種修復(fù)機(jī)制是一種存在缺陷的修復(fù)過程,往往會引入新的突變,因此也就達(dá)到了進(jìn) 行基因敲除的目的。如果此時(shí)加入外源的同源堿基序列就可以啟動(dòng)第二種修復(fù)機(jī)制HDR修 復(fù),利用同源修復(fù)機(jī)制,可以幫助我們實(shí)現(xiàn)基因敲進(jìn)和基因修復(fù),但是如果外源的同源序列 是存在缺陷的,那么同樣可以達(dá)到基因敲除的效果。
[0006] 利用TALEN技術(shù)進(jìn)行基因組定向修飾一般包含1)根據(jù)目標(biāo)基因?qū)ふ襎ALEN候選靶 位點(diǎn);2)針對靶位點(diǎn)序列設(shè)計(jì)并構(gòu)建TALE載體;3)與合適的FokI序列組裝獲得TALEN載體; 4)將完整的TALEN載體導(dǎo)入目的細(xì)胞;5)篩選定向修飾的克隆。為了保證TALEN的剪切特異 性,避免脫靶效應(yīng),TALEN作用的靶序列長度通常選擇在15~20bp左右。這樣,就要求TALE需 要含有至少15個(gè)重復(fù)的RVD單元,編碼這個(gè)TALE的核苷酸長度就會大于1.5kb,并且序列的 重復(fù)性很強(qiáng)。因此在實(shí)際應(yīng)用中,構(gòu)建由重復(fù)RVD單元組裝而成的,識別特定DNA序列的TALE 載體就成為該技術(shù)的關(guān)鍵步驟和難點(diǎn)。
[0007] 目前,已發(fā)展的TALEN組裝方法主要有:基于PCR的Golden Gate克隆法(GG-PCR), 基于傳統(tǒng)質(zhì)粒載體的Golden Gate克隆法(GG-Vector),基于長粘性末端的LIC法,基于酶切 連接的連續(xù)克隆法,基于固相合成的高通量法等。其中,Cermak等報(bào)道的基于單個(gè)RVD質(zhì)粒 載體文庫的Golden Gate克隆法(GG-Vector)是TALEN設(shè)計(jì)和構(gòu)建組裝中使用最為廣泛的技 術(shù)體系(Cermak T,Starker CG,Voytas DF.2015.Efficient design and assembly of custom TALENs using the Golden Gate platform.Methods Molecular Biology,1239: 133-159.Cermak T,Dolye EL,Christian M,et al.,2011.Efficient design and assembly of custom TALEN and other TAL effector-based constructs for DNA targeting.Nucleic Acids Res ,39: e82)。該方法根據(jù)RVD識別核苷酸的規(guī)律(NI-A,HD- C,NN-G,NG-T,NK-G)以及其在TALE蛋白中的所有可能位置,分別構(gòu)建了包含50個(gè)RVD單 元模塊的質(zhì)粒載體、5個(gè)最末位RVD模塊質(zhì)粒載體、13個(gè)TALEN組裝中間載體以及4個(gè)TALEN表 達(dá)骨架質(zhì)粒載體的文庫。該GG-Vector文庫組裝TALEN載體的原理是根據(jù)設(shè)計(jì)的靶序列核苷 酸組成,從文庫中挑出所需的不同RVD單元載體,通過特定的II型內(nèi)切酶酶切這些載體產(chǎn)生 多種--對應(yīng)的、特異匹配的粘性末端對,一次同時(shí)連接8-10個(gè)RVD單元。
[0008] 在實(shí)際應(yīng)用中,由于受到Golden Gate反應(yīng)效率的限制,單次TALEN組裝反應(yīng)中RVD 單元的最大重復(fù)數(shù)目不能超過10個(gè),因此為了組裝出識另Ul5-20bp靶序列的TALEN載體,就 不得不分別組裝兩條長度小于10個(gè)RVD重復(fù)單元的TALE序列,再將他們通過Golden Gate法 連接起來。完整的TALEN組裝流程不得不被拆分為2個(gè)獨(dú)立的階段,耗時(shí)在5個(gè)工作日左右。 這無疑增加了實(shí)驗(yàn)消耗、延長了構(gòu)建周期,也極大的限制了 TALEN技術(shù)的高通量應(yīng)用。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明針對現(xiàn)有GG-Vector TALEN組裝方法的諸多不足,從頭設(shè)計(jì)了"雙RVD單元" (two-RVD unite)的TALEN組裝策略。
[0010]本發(fā)明的技術(shù)方案是一種用于TALEN高效構(gòu)建的雙RVD單元模塊庫,包括分別獨(dú)立 包裝的144個(gè)雙RVD單元模塊、8個(gè)單RVD單元模塊和24個(gè)末位RVD單元;
[0011 ]所述的144個(gè)雙RVD單元模塊用于識別任意組合的相鄰的2個(gè)堿基;所述的8個(gè)單 RVD單元模塊分為M08和M09兩組,每組4個(gè)單RVD單元模塊,M08用于靶序列為16bp時(shí)識別第 15位的堿基,M09組用于靶序列為18bp時(shí)識別第17位的堿基;
[0012] 所述的24個(gè)末位RVD單元分為左側(cè)組和右側(cè)組,每組12個(gè),左側(cè)組的末位RVD單元 3'端融合FokI異源二聚體的單體I,右側(cè)組末位RVD單元模塊3 '端融合FokI異源二聚體的單 體Π ;左側(cè)組和右側(cè)組分別包括識別15bp長度的靶序列第15位堿基的4個(gè)末位RVD單元,識 別16bp和17bp長度的靶序列第16位和第17位堿基的4個(gè)末位RVD單元,識別18bp和19bp長度 的靶序列第18位和19位堿基的4個(gè)末位RVD單元。
[0013] 進(jìn)一步的,所述的雙RVD單元模塊、單RVD單元模塊的兩端根據(jù)識別堿基在靶序列 中的位點(diǎn)順序設(shè)置首尾相連的粘性末端。
[0014] 進(jìn)一步的,所述的雙RVD單元模塊和單RVD單元模塊置于A/T克隆載體上。
[0015] 進(jìn)一步的,所述的末位RVD單元構(gòu)建到真核表達(dá)載體中,表達(dá)元件從5'到3'方向依 次包括CaMV35S啟動(dòng)子,核定位信號NLS及5'端TALE,ccdB毒素基因,末位RVD單元,和3 '端 TALE及FokI異源二聚體的單體I或單體Π 。
[0016] 具體的,所述的144個(gè)雙RVD單元模塊具有如SEQ ID No. 1~144所述的核苷酸序 列。
[0017] 具體的,所述的8個(gè)單RVD單元模塊具有如SEQ ID No. 143~152所述的核苷酸序 列。
[0018] 具體的,所述的識別15bp長度的靶序列第15位堿基的4個(gè)末位RVD單元具有如SEQ ID No. 153~156所示的核苷酸序列;識別16bp和17bp長度的靶序列第16位和第17位堿基的 4個(gè)末位RVD單元具有如SEQ ID如.157~160所示的核苷酸序列;識別18&?和1%?長度的靶 序列第18位和19位堿基的4個(gè)末位RVD單元具有如SEQ ID No. 161~164所示的核苷酸序列。
[0019] 本發(fā)明還提供了采用所述模塊庫構(gòu)建TALEN的方法,包括如下步驟:對一段目標(biāo)序 列構(gòu)建針對2個(gè)靶序列的表達(dá)載體,1個(gè)表達(dá)載體的末位RVD單元采用左側(cè)組,另1個(gè)表達(dá)載 體的末位RVD單元采用右側(cè)組;識別15、17、19bp長度靶序列的表達(dá)載體根據(jù)序列中堿基順 序選取7、8、9個(gè)雙RVD單元模塊,和識別第15位、第17位、第19位堿基的末位RVD單元模塊;識 另lJ16、18bp長度靶序列的表達(dá)載體根據(jù)序列中堿基順序選取7、8個(gè)雙RVD單元模塊,識別第 15位、第17位堿基的單RVD單元模塊,和識別第16位、第18位堿基的末位RVD單元模塊;然后 通過Golden Gate克隆法一步合成。
[0020] 通過將相鄰的兩個(gè)單一 RVD單元模塊串聯(lián),形成一個(gè)可識別兩個(gè)核苷酸的雙RVD單 元模塊,同時(shí)在雙RVD單元模塊的兩端設(shè)計(jì)可根據(jù)位點(diǎn)順序首尾相連的粘性末端,最后將其 構(gòu)建到合適的質(zhì)粒載體上形成一個(gè)包含144個(gè)雙RVD單元模塊文庫(圖1)。雙RVD單元模塊根 據(jù)RVD識別核苷酸的規(guī)律以及所有可能的位置進(jìn)行設(shè)計(jì),如NI-NI雙RVD單元模塊可識別AA 核苷酸,當(dāng)AA堿基位于靶序列第一二位時(shí),其對應(yīng)的雙RVD單元模塊載體即為D01-AA: NI-NI (D01-01-AA);當(dāng)AA堿基位于靶序列第三四位時(shí),其對應(yīng)的RVD模塊載體即為D02-AA:NI-NI (D02-01-AA);以此類推,所有可能的靶序列均可以簡便的在144個(gè)雙RVD單元文庫中找到對 應(yīng)的模塊載體。
[0021 ]除了 144個(gè)雙RVD單元模塊外,該體系還包含了 8個(gè)單RVD單元模塊(圖2)。這些單 RVD單元模塊只有一個(gè)RVD重復(fù)單元,用于靶序列為偶數(shù)長度時(shí)倒數(shù)第二位RVD構(gòu)建。如構(gòu)建 一個(gè)識別16bp靶序列的TALEN載體,前1~14bp根據(jù)核苷酸兩兩組合在144個(gè)雙RVD單元文庫 中挑選合適的7個(gè)載體,第15位的RVD就使用單RVD單元模塊M08中的一個(gè),再通過Golden Gate反應(yīng)將這7個(gè)雙RVD單元模塊、1個(gè)單RVD單元模塊與相應(yīng)的末位RVD表達(dá)載體連接起來, 組裝完成需要的16個(gè)RVD的TALEN表達(dá)載體。
[0022]為了便于雙RVD單元模塊組裝到TALEN表達(dá)載體上,該體系還使用了 24個(gè)左側(cè)和右 側(cè)末位RVD表達(dá)載體(圖3)。這些末位RVD表達(dá)載體使用植物組成型啟動(dòng)子CaMV 35S啟動(dòng)子, 以及Nos終止子調(diào)控基因的表達(dá),其轉(zhuǎn)錄區(qū)域包含了 TALE蛋白N端和C端序列、識別靶序列最 后一位核苷酸的末位RVD重復(fù)序列、核定位信號NLS的序列、便于載體篩選的ccdB毒素基因 序列、以及用于剪切DNA的核酸酶FokI序列。不同的骨架表達(dá)載體適應(yīng)于識別不同長度靶序 列的左側(cè)和右側(cè)TALEN的組裝,完成組裝的TALEN蛋白表達(dá)載體可以方便的通過農(nóng)桿菌介導(dǎo) 或其他方法導(dǎo)入宿主細(xì)胞中。野生型FokI活性剪切結(jié)構(gòu)域?yàn)橥炊垠w結(jié)構(gòu),實(shí)際應(yīng)用中, 為了降低非特異性剪切,常使用左右兩個(gè)序列存在差異的FokI剪切結(jié)構(gòu)域,便于在細(xì)胞內(nèi) 翻譯完成后形成異源二聚體。因此,在本申請中將二聚體的2個(gè)單體分別構(gòu)建載體,含有每 一單體的表達(dá)載體針對目標(biāo)序列中的同一靶序列或不同的靶序列。
[0023] 為了實(shí)現(xiàn)這種雙RVD單元模塊TALEN組裝體系,通過人工合成的方式,全合成了 144 個(gè)雙RVD單元的模塊序列(SEQ ID No.l:D01-01-AA至SEQ ID N〇.144:D09-16-TT),并分別 構(gòu)建到PUC57載體(購自金斯瑞公司)上,形成雙RVD單元模塊質(zhì)粒載體文庫。同樣的,人工合 成了8個(gè)單體RVD單元的模塊序列(SEQIDNo·143 :M08-01-A至SEQIDNo·152:M09-04-T), 也分別構(gòu)建到PUC57載體上,形成單RVD單元模塊質(zhì)粒載體文庫。此外,對zhang等報(bào)道的左 側(cè)和右側(cè)TALEN真核表達(dá)骨架載體pZHY500(EL)、pZHY501(ER)進(jìn)行改造 (Zhang Y,Zhang F, Li X,et al.,2013. Transcription activator-like effector nucleases enable efficient plant genome engineering.Plant Physiology, 161:20-27·)。將植物組成型 啟動(dòng)子CaMV 35S啟動(dòng)子(SEQ ID No.165 35S P)和Nos終止子(SEQ ID No.l70Nos-T)通過 Fusion PCR的方法分別連入上述兩個(gè)骨架載體中,用于調(diào)控核定位信號NLS及5'端TALE (SEQ ID No.l66NLS+5'TALE)、ccdB(SEQ ID No.l67ccdB)和3'端TALE及左側(cè)Fok I(Seq No.168 3'TALE+Fok I-L)、3'端TALE及右側(cè)Fok I(SEQ ID No.169 3'TALE+Fok I-R)的表 達(dá)。進(jìn)一步將合成的24個(gè)末位RVD重復(fù)單元序列(Seq NO EL/R07-01_Last A至Seq NO EL/ R09-04-Last T)通過融合PCR分別連入上述左側(cè)和右側(cè)改造載體中,得到如圖3所示的12個(gè) 左側(cè)末位RVD-TALEN骨架表達(dá)載體和12個(gè)右側(cè)末位RVD-TALEN骨架表達(dá)載體。
[0024] 對于靶序列長度大于19bp的TALEN組裝來說,同樣可以使用雙RVD單元模塊的載體 文庫,只是由于GG反應(yīng)中片段少于10個(gè)的限制,需要進(jìn)行兩步GG反應(yīng)來完成組裝構(gòu)建。但是 在實(shí)際應(yīng)用中,若單側(cè)TALEN的長度為19bp,左右兩側(cè)TALEN的長度就達(dá)到了38bp,這樣的靶 序列長度片段足以應(yīng)付現(xiàn)有物種的基因組復(fù)雜程度,實(shí)現(xiàn)對特定靶位點(diǎn)的特異性識別和切 害J,避免脫靶現(xiàn)象產(chǎn)生。
[0025] 本發(fā)明的有益效果:本發(fā)明公布了一種基于Golden Gate克隆法,通過一次反應(yīng)構(gòu) 建TALEN表達(dá)載體的RVD單元模塊庫,該模塊庫可以靶向15~19bp任意DNA序列。基于這一雙 RVD單元模塊文庫構(gòu)建TALEN表達(dá)載體的方法,有效的簡化了構(gòu)建步驟、降低了實(shí)驗(yàn)消耗、提 高了組裝效率,將構(gòu)建耗時(shí)縮短至1個(gè)工作日。利用本發(fā)明的模塊庫可以大大優(yōu)化TALEN組 裝個(gè)過程并降低成本,方便快捷,花費(fèi)較少,為TALEN技術(shù)的進(jìn)一步推廣應(yīng)用提供了保證,并 為TALEN技術(shù)的高通量應(yīng)用提供了基礎(chǔ)骨架載體。
【附圖說明】
[0026]圖1雙體RVD模塊的基本載體(16X9= 144)的排列矩陣。144個(gè)雙體RVD模塊以9列 16行的方式分布,每列為雙RVD所在的位置,每行為一個(gè)雙RVD所對應(yīng)的兩個(gè)相鄰核苷酸的 序列。圖中列代表雙RVD單元結(jié)合的2個(gè)堿基在靶序列中的位置,例如D01表示該雙RVD單元 結(jié)合的2個(gè)堿基位于靶序列的第1、2位,D02表示該雙RVD單元結(jié)合的2個(gè)堿基位于靶序列的 第3、4位,以此類推,D09表示該雙RVD單元結(jié)合的2個(gè)堿基位于靶序列的第17、18位。圖中行 代表雙RVD單元結(jié)合的2個(gè)堿基序列以及識別2個(gè)堿基的氨基酸,例如AA :NI-NI中AA表示雙 RVD單元結(jié)合的2個(gè)堿基序列為AA,NI-NI表示結(jié)合AA的氨基酸。如第一列第一行的載體為 D01-AA,表示位于該TALEN的第一二位堿基為AA時(shí),其雙RVD為NI-NI,對應(yīng)序列為SEQ ID No. 1 :D01-AA;第四列第三行的載體為D04-AG,表示位于該TALEN的第七八位堿基為AG時(shí),其 雙RVD為NI-NN,對應(yīng)序列為SEQ ID No · 51: D04-AG。CATG、GGAC、CCAG、TGTT、TGCA、CGGT、 6八八六、1^64、6(:1'(::雙1^0單元模塊兩端首尾相連的粘性末端41-祖、冊-肋、1?-順川1-如、 HD-NI、HD-HD、HD-NN、HD-NG、NN-NI、NN-HD、NN-NN、NN-NG、NG-NI、NG-HD、NG-NN、NG-NG :識別 連續(xù)兩個(gè)不同核苷酸的雙RVD對應(yīng)DNA序列;Kan:卡那霉素抗性基因。
[0027] 圖2單體RVD模塊的基本載體(4\2 = 8)。8個(gè)單1^)模塊以勵(lì)8列和]\?)9列兩列4〇6丁 各一行共計(jì)四行的方式分布。M08列用于當(dāng)靶序列長度為16時(shí),倒數(shù)第二位(第15位)堿基的 相應(yīng)RVD選擇;M09列用于當(dāng)靶序列長度為18時(shí),倒數(shù)第二位(第17位)堿基的相應(yīng)RVD選擇。 如構(gòu)建靶序列長16bp,且第15位為G的TALEN載體時(shí),挑選的單體RVD模塊即為M08-G,對應(yīng)序 列為SEQ ID No. HTJOS-GAAAAJCGAjCTC:單RVD單元模塊兩端首尾相連的粘性末端; 、冊、順、呢:識別不同單核苷酸的1^0對應(yīng)0嫩序列 ;1(&11:卡那霉素抗性基因。
[0028] 圖3末位RVD的TALEN骨架表達(dá)載體(4X 3 X 2 = 24)。24個(gè)骨架表達(dá)載體分為左側(cè) (EL)和右側(cè)(ER) TALEN兩列,分別用于構(gòu)建左側(cè)TALEN載體和右側(cè)TALEN載體時(shí)使用。每列 (側(cè))載體又根據(jù)不同長度靶序列末位RVD識別DNA堿基的不同分為12列,EL/ER07用于靶序 列長度為15bp時(shí),EL/ER08用于靶序列長度為16bp和17bp時(shí),EL/ER09用于靶序列長度為 18bp和19bp時(shí)。如構(gòu)建靶序列長16bp,末位為G的TALEN左側(cè)載體時(shí),挑選的骨架表達(dá)載體即 為EL08-G,對應(yīng)序列為SEQ ID N〇.159:EL/R08-Last GJ5S-P:植物組成型啟動(dòng)子CaMV 35S 啟動(dòng)子;NLS+5 ' TALE:核定位信號+TALE蛋白N端序列;CTAT、GAAA:粘性末端序列;ccdB:便于 載體篩選的ccdB毒素基因序列;Last-NI:末位RVD模塊序列;3 ' TALE+Fokl-L/R: TALE蛋白C 端序列+用于剪切DNA的核酸酶FokI左側(cè)/右側(cè)序列;Nos-T: Nos終止子;Amp:氨芐青霉素抗 性基因。
[0029] 圖4雙RVD單元(two-RVD unite)基本載體庫構(gòu)建檢測。A:以D04為例的雙RVD單元 模塊質(zhì)粒載體PCR檢測結(jié)果,1~16表示16個(gè)D04雙RVD單元模塊,Μ為分子量標(biāo)記;B: 8個(gè)單體 RVD單元模塊質(zhì)粒載體PCR檢測結(jié)果,1~4表示4個(gè)Μ08單RVD模塊,5~6表示4個(gè)Μ09單RVD模 塊,Μ為分子量標(biāo)記;C:以4個(gè)EL09為例的末位RVD的TALEN骨架表達(dá)載體Aatll/Agel雙酶切 檢測結(jié)果,1~4表不4個(gè)EL09表達(dá)骨架載體,Μ為分子量標(biāo)記。
[0030] 圖5水稻OsDEPl基因的左側(cè)TALEN表達(dá)載體示意圖。35S-P:植物組成型啟動(dòng)子CaMV 35S啟動(dòng)子;NLS+5 ' TALE:核定位信號+TALE蛋白N端序列;OsDEPl-Left RVD Cluster:水稻 DEP1基因定向編輯序列對應(yīng)的左側(cè)RVD序列;3'TALE+FokI-L:TALE蛋白C端序列+用于剪切 DNA的核酸酶FokI左側(cè)序列;N〇S-T:N〇S終止子;Amp:氨芐青霉素抗性基因;Ori:復(fù)制起始 子。
[0031] 圖6水稻OsDEPl基因的右側(cè)TALEN表達(dá)載體示意圖。35S-P:植物組成型啟動(dòng)子CaMV 35S啟動(dòng)子;NLS+5 ' TALE:核定位信號+TALE蛋白N端序列;OsDEPl-Left RVD Cluster:水稻 DEP1基因定向編輯序列對應(yīng)的左側(cè)RVD序列;3'TALE+FokI-R:TALE蛋白C端序列+用于剪切 DNA的核酸酶FokI右側(cè)序列;Nos-T: Nos終止子;Amp:氨芐青霉素抗性基因;Ori:復(fù)制起始 子。
[0032] 圖7基于雙RVD單元(two-RVD unite)文庫策略的目標(biāo)基因 TALEN表達(dá)載體構(gòu)建及 檢測。TAL-L01、TAL-R01為表2中OsDEP 1基因的兩個(gè)TALEN表達(dá)載體PCR結(jié)果,TAL-L01的2#、 4#、5#、6#單菌落均擴(kuò)增出了2000bp左右的目標(biāo)條帶(19RVD),TAL-R01的2#、3#、4#、5#、6#單 菌落均擴(kuò)增出了 1700bp左右的目標(biāo)條帶(15RVD) ;TAL-L02、TAL-R02為表2中0sBADH2基因的 兩個(gè)TALEN表達(dá)載體PCR結(jié)果,TAL-L02的2#、3#、4#、5#、6#單菌落均擴(kuò)增出了 1900bp左右的 目標(biāo)條帶(17RVD) ;TAL-R02的6個(gè)單菌落均擴(kuò)增出了 1800bp左右的目標(biāo)條帶(16RVD);說明4 個(gè)TALEN載體均構(gòu)建成功。
[0033] 圖8基于雙RVD單元(two-RVD unite)文庫策略的目標(biāo)基因 TALEN表達(dá)載體活性評 價(jià)。通過原生質(zhì)體瞬時(shí)表達(dá),檢測到不同TALEN載體的剪切活性從25%至55%,可以用于植 物的內(nèi)源基因定向修飾。
【具體實(shí)施方式】
[0034]以下將通過具體的實(shí)施實(shí)例說明本發(fā)明,但這些具體的實(shí)施實(shí)例并不應(yīng)被理解為 對本發(fā)明的限制,對某些細(xì)節(jié)進(jìn)行修改仍然落入本發(fā)明的保護(hù)范圍之內(nèi)。
[0035]實(shí)施例1雙RVD單元文庫的基本載體構(gòu)建及檢測
[0036]通過人工合成的方式(委托金斯瑞生物科技有限公司合成),全合成了 144個(gè)雙RVD 單元的模塊序列(SEQ ID No.lDOl-AA至SEQ ID NO.144D09-TT),并分別構(gòu)建到pUC57載體 (購自金斯瑞公司)上,形成雙RVD單元模塊質(zhì)粒載體(圖1)。將一系列質(zhì)粒載體通過熱激法 分別導(dǎo)入大腸桿菌DH5a菌株中,得到雙RVD單元模塊文庫,并通過菌落PCR的方法擴(kuò)增每個(gè) 質(zhì)粒的雙RVD單元區(qū)域,驗(yàn)證該文庫的準(zhǔn)確性?,F(xiàn)以D04列的D04-AA至D04-TT 16個(gè)載體為 例,介紹其驗(yàn)證方法。以D04-AA菌液為模板,相應(yīng)的寡聚核苷酸M13F和M13R為上下游引物, 建立如下PCR體系 :10XTaqbuffer5μL、dNTPMixture(10mM)5μL、M13F(SEQIDNo·171)(10 yM)lyL、M13R(SEQ ID No.172)(10yM)lyL、D04-AAlyL、TaqlyL、ddH2036yL。
[0037] PCR反應(yīng)條件為:預(yù)變性95°C,3min;變性94°C,20s;退火56°C,20s;延伸72°C,15s, 33個(gè)循環(huán),延伸72°C,3min。驗(yàn)證其他15個(gè)載體的PCR體系和反應(yīng)條件與此相同,僅有質(zhì)粒模 板和上下游引物不同。所得PCR結(jié)果電泳如圖4A所示:泳道1~16分別為16個(gè)D04雙RVD單元 模塊,均擴(kuò)增獲得200bp左右的目標(biāo)條帶,與預(yù)期相符,說明D04的16個(gè)雙RVD單元模塊質(zhì)粒 載體構(gòu)建成功。
[0038] 同樣的,人工合成(委托金斯瑞生物科技有限公司合成)了8個(gè)單體RVD單元的模塊 序列(SEQ ID N〇.145M08-A至Seq N〇.152M09-T),也分別構(gòu)建到pUC57載體上,形成單RVD單 元模塊質(zhì)粒載體文庫(圖2)。將這8個(gè)單RVD模塊質(zhì)粒載體通過熱激法分別導(dǎo)入大腸桿菌 DH5a菌株中,得到單RVD模塊文庫,并通過菌落PCR的方法擴(kuò)增每個(gè)質(zhì)粒的單RVD區(qū)域,驗(yàn)證 該文庫的準(zhǔn)確性。PCR體系和反應(yīng)條件與雙RVD單元模塊的相同,僅有菌液模板不同(引物同 上M13F和M13R)。所得PCR結(jié)果電泳如圖4B所示:泳道1~4表示4個(gè)M08單RVD模塊,5~6表示4 個(gè)M09單RVD模塊,均擴(kuò)增獲得lOObp左右的目標(biāo)條帶,與預(yù)期相符,說明M08和M09的8個(gè)單 RVD模塊質(zhì)粒載體構(gòu)建成功。
[0039] 為了構(gòu)建24個(gè)末位RVD的TALEN骨架表達(dá)載體,對Zhang等報(bào)道的左側(cè)和右側(cè)TALEN 真核表達(dá)骨架載體pZHY500(EL)、pZHY501(ER)進(jìn)行改造。將植物組成型啟動(dòng)子CaMV 35S啟 動(dòng)子(SEQ ID No.l6535S P)和Nos終止子(SEQ ID No.l70Nos-T)通過融合PCR的方法分別 連入上述兩個(gè)骨架載體中,用于調(diào)控核定位信號NLS及5'端TALE(SEQ ID N0.166NLS+5' TALE)、ccdB(SEQ ID No.l67ccdB)和3'端TALE及左側(cè)Fok I(SEQ ID Νο·168 3'TALE+Fok I-L)、3'端TALE及右側(cè)Fok I(SEQ ID No.169 3'TALE+Fok I-R)的表達(dá)。進(jìn)一步將合成的 12 個(gè)末位RVD重復(fù)單元序列(合成的末位RVD為12個(gè),在對應(yīng)的左側(cè)骨架和右側(cè)骨架載體中這 部分序列是完全一致的,只是連接的FokI不同)(SEQ ID N〇.153EL/R07-Last A至SEQ ID No. 164EL/R09-Last T)通過融合PCR分別連入上述左側(cè)和右側(cè)改造載體中,得到如圖3所示 的12個(gè)左側(cè)末位RVD-TALEN骨架表達(dá)載體和12個(gè)右側(cè)末位RVD-TALEN骨架表達(dá)載體。融合 PCR的反應(yīng)體系如下:10XK0Dbuffer5μL,dNTPMixture(10mM)5μL,PrimerF(SEQID No.l73、SEQIDNo.l74SSEQIDNo.l75)(10yM)lyL,PrimerR(SEQIDNo.l76)(10yM)ly 1^,口2冊500化1^)/^2!^501化1〇1以1^,1(001以1^,(1(1!12〇36以匕?0?反應(yīng)條件為:預(yù)變性95°(:,311^11 ; 變性 94°C,20s;退火 56°C,20s;延伸 68°C,15s,33 個(gè)循環(huán),延伸 68°C,3min。
[0040] 為驗(yàn)證構(gòu)建的骨架表達(dá)載體是否正確,通過Aatll/Agel (均為Thermo Scientif ic.Fermentas快酶)雙酶切進(jìn)行驗(yàn)證。以EL09的4個(gè)載體為例,建立酶切體系如下: lOXFast Digest 1311打61541^,厶&1:11]^1^,厶861]^1^,質(zhì)粒(卩1&81111(1)0嫩2〇41^,(1(1!12〇234匕 經(jīng)37°C酶切30min后,電泳結(jié)果如圖4C所示,4個(gè)EL09骨架表達(dá)載體均切出一條約4000bp左 右的TALEN表達(dá)框目的帶,與預(yù)期相符,說明EL和ER的24個(gè)末位RVD骨架表達(dá)載體構(gòu)建成功。 [0041 ] 上述PCR反應(yīng)所用試劑均為東洋紡(上海)生物科技有限公司KOD-Plus-Neo試劑 盒。
[0042]實(shí)施例2基于雙RVD單元模塊組裝TALEN的方法及規(guī)則
[0043] 應(yīng)用雙RVD單元模塊組織TALEN時(shí),先選定靶序列(長度一般在15~20bp),然后設(shè) 計(jì)相應(yīng)的RVD,再從雙RVD單元模塊庫、單RVD模塊庫、以及末位RVD骨架表達(dá)載體中選出適當(dāng) 的文庫載體,根據(jù)Golden Gate反應(yīng)進(jìn)行構(gòu)建即可。
[0044]雙RVD單元模塊根據(jù)RVD識別核苷酸的規(guī)律以及所有可能的位置進(jìn)行設(shè)計(jì),如NI-NI雙RVD單元可識別AA核苷酸,當(dāng)AA堿基位于靶序列第一二位時(shí),其對應(yīng)的RVD模塊載體即 為D01-AA:NI-NI(D01-01-AA);當(dāng)AA堿基位于靶序列第三四位時(shí),其對應(yīng)的RVD模塊載體即 為D02-AA:NI-NI(D02-01-AA);以此類推,所有可能的靶序列均可以簡便的在144個(gè)雙RVD單 元文庫中找到對應(yīng)的模塊載體。而單RVD單元模塊只有一個(gè)RVD重復(fù)單元,用于靶序列為偶 數(shù)長度時(shí)倒數(shù)第二位RVD構(gòu)建。如構(gòu)建一個(gè)識別16bp靶序列的TALEN載體,前1~14bp根據(jù)核 苷酸兩兩組合在144個(gè)雙RVD單元文庫中挑選合適的7個(gè)載體,第15位的RVD就使用單體RVD 單元模塊M08中的一個(gè),再通過GG反應(yīng)將這7個(gè)雙體載體、1個(gè)單體載體與相應(yīng)的末位RVD表 達(dá)載體連接起來,組裝完成需要的16個(gè)RVD的TALEN表達(dá)載體。
[0045] 表1列出了不同長度靶序列相應(yīng)的RVD模塊選擇規(guī)則,如組裝一對均識別15bp靶序 列的TALEN,需要根據(jù)DNA序列堿基組成不同,在雙RVD單元模塊文庫中挑選D01至D07列的相 應(yīng)質(zhì)粒載體,由于骨架表達(dá)載體已含有末位RVD,故不需要在單RVD單元模塊中挑選載體,選 用相應(yīng)的左側(cè)和右側(cè)末位骨架表達(dá)載體,就可以組裝出完整的左側(cè)和右側(cè)15個(gè)RVD的TALEN 載體。
[0046] 表1基于雙RVD單元模塊的TALEN組裝規(guī)則
[0047]
[0048] 同樣的若組裝一對識別16bp靶序列的TALEN,根據(jù)DNA序列堿基組成不同,除了選 擇雙RVD單元模塊文庫中D01至D07列的相應(yīng)質(zhì)粒載體外,還需要根據(jù)第15位核苷酸在單RVD 單元模塊中挑選一個(gè)相應(yīng)的M08載體,加上相應(yīng)的左側(cè)和右側(cè)末位RVD骨架表達(dá)載體,就可 以組裝出完整的左側(cè)和右側(cè)16個(gè)RVD的TALEN載體。
[0049] 對于靶序列長度17~19bp的TALEN組裝規(guī)則和前面15bp、16bp是類似的,僅僅是雙 RVD單元模塊的質(zhì)粒數(shù)量逐一增加。
[0050] 對于靶序列長度大于19bp的TALEN組裝來說,同樣可以使用雙RVD單元模塊的載體 文庫,只是由于GG反應(yīng)中片段少于10個(gè)的限制,需要進(jìn)行兩步GG反應(yīng)來完成組裝構(gòu)建。但是 在實(shí)際應(yīng)用中,若單側(cè)TALEN的長度為19bp,左右兩側(cè)TALEN的長度就達(dá)到了38bp,這樣的靶 序列長度片段足以應(yīng)付現(xiàn)有物種的基因組復(fù)雜程度,實(shí)現(xiàn)對特定靶位點(diǎn)的特異性識別和切 害J,避免脫靶現(xiàn)象產(chǎn)生。
[0051] 實(shí)施例3基于雙RVD單元模塊的植物內(nèi)源基因定向修飾TALEN載體的組裝及活性檢 測
[0052] 1、植物內(nèi)源基因定向修飾TALEN載體的設(shè)計(jì)與組裝
[0053]為檢驗(yàn)利用雙RVD單元模塊對植物內(nèi)源基因進(jìn)行定向剪切和突變的效率,選擇了 水稻品種日本晴的0sDEPl(GenBank NO. :FJ039904)、0sBADH2(GenBank NO. :KT993490)、 0sCKX2(GenBank NO. :AB205193)基因以及小麥的TaML0(GenBank NO. :KF009556)基因作為 目標(biāo)基因,分別設(shè)計(jì)了4對TALEN對其相應(yīng)的DNA靶序列進(jìn)行特異剪切。目標(biāo)基因名稱,革巴位 點(diǎn)DNA序列(SEQ ID吣.177~184)、對應(yīng)的了41^~名稱、1^0數(shù)目、1^0序列,以及在雙1^0單元 文庫中應(yīng)該選用的相應(yīng)雙體、單體和末位RVD質(zhì)粒載體編號均在表2中列出。
[0054] 表2基于雙RVD單元模塊組裝策略的目標(biāo)基因 TALEN表達(dá)載體構(gòu)建情況 [0055]
[0056] 2、內(nèi)源目標(biāo)基因的TALEN載體構(gòu)建及活性檢測
[0057]以 OsDEP 1 基因的TAL-L01 (圖 5)、TAL-R01 (圖 6),及0sBADH2基因的TAL-L02、TAL-R02四個(gè)TALEN載體的構(gòu)建為例。基于上述TALEN設(shè)計(jì)和組裝策略,參考Cermak等的方法 (Cermak T,Dolye EL,Christian M,et al.,2011.Efficient design and assembly of custom TALEN and other TAL effector-based constructs for DNA targeting.Nucleic Acids Res,39:e82),通過Golden Gate反應(yīng)將不同的RVD與末位RVD及 骨架表達(dá)載體連接起來。連接產(chǎn)物經(jīng)熱激法導(dǎo)入大腸桿菌DH5a中,鋪平板過夜培養(yǎng)。分別挑 選6個(gè)單克隆進(jìn)行菌落PCR檢測,結(jié)果如圖5所示:TAL-L01表達(dá)載體的2#、4#、5#、6#單菌落均 擴(kuò)增出了2000bp左右的目標(biāo)條帶(19RVD);TAL-R01表達(dá)載體的2#、3#、4#、5#、6#單菌落均擴(kuò) 增出了 1700bp左右的目標(biāo)條帶(15RVD);TAL-L02表達(dá)載體的2#、3#、4#、5#、6#單菌落均擴(kuò)增 出了 1900bp左右的目標(biāo)條帶(17RVD);TAL-R02表達(dá)載體的6個(gè)單菌落均擴(kuò)增出了 1800bp左 右的目標(biāo)條帶(16RVD)。以上結(jié)果表明4個(gè)TALEN表達(dá)載體均構(gòu)建成功。
[0058] 其余兩個(gè)基因 0sCKX2、TaML0的TALEN構(gòu)建方法與此相同,并同樣經(jīng)過菌落PCR檢 測,證明相應(yīng)的TAL-L03、TAL-R03和TAL-L04、TAL-R04均構(gòu)建成功。
[0059] 為了驗(yàn)證構(gòu)建的TALEN載體剪切活性,將每2個(gè)載體(一個(gè)是末位RVD是左側(cè)組,一 個(gè)末位RVD是右側(cè)組)作為一組導(dǎo)入原生質(zhì)體細(xì)胞中,經(jīng)2天黑暗培養(yǎng)后,在熒光顯微鏡下波 長450~490nm的藍(lán)光激發(fā)后觀察細(xì)胞的GFP熒光,統(tǒng)計(jì)熒光細(xì)胞比例,得到上述8個(gè)TALEN載 體的特異剪切活性結(jié)果如圖6所示。8個(gè)TALEN載體均表現(xiàn)出來TALEN剪切活性,其活性水平 從25%至55%不等,表明上述TALEN載體均可以用于下一步的植物定向修飾研究中。
【主權(quán)項(xiàng)】
1. 一種用于TALEN高效構(gòu)建的雙RVD單元模塊庫,其特征在于:包括分別獨(dú)立包裝的144 個(gè)雙RVD單元模塊、8個(gè)單RVD單元模塊和24個(gè)末位RVD單元; 所述的144個(gè)雙RVD單元模塊用于識別任意組合的相鄰的2個(gè)堿基;所述的8個(gè)單RVD單 元模塊分為M08和M09兩組,每組4個(gè)單RVD單元模塊,M08用于靶序列為16bp時(shí)識別第15位的 堿基,M09組用于靶序列為I Sbp時(shí)識別第17位的堿基; 所述的24個(gè)末位RVD單元分為左側(cè)組和右側(cè)組,每組12個(gè),左側(cè)組的末位RVD單元3 '端 融合FokI異源二聚體的單體I,右側(cè)組末位RVD單元模塊3'端融合FokI異源二聚體的單體 Π ;左側(cè)組和右側(cè)組分別包括識別15bp長度的靶序列第15位堿基的4個(gè)末位RVD單元,識別 16bp和17bp長度的靶序列第16位和第17位堿基的4個(gè)末位RVD單元,識別18bp和19bp長度的 靶序列第18位和19位堿基的4個(gè)末位RVD單元。2. 如權(quán)利要求1所述的用于TALEN高效構(gòu)建的雙RVD單元模塊庫,其特征在于:所述的雙 RVD單元模塊、單RVD單元模塊的兩端根據(jù)識別堿基在靶序列中的位點(diǎn)順序設(shè)置首尾相連的 粘性末端。3. 如權(quán)利要求1或2所述的用于TALEN高效構(gòu)建的雙RVD單元模塊庫,其特征在于:所述 的雙RVD單元模塊和單RVD單元模塊分別置于A/T克隆載體上。4. 如權(quán)利要求1~3任一項(xiàng)所述的用于TALEN高效構(gòu)建的雙RVD單元模塊庫,其特征在 于:所述的末位RVD單元構(gòu)建到真核表達(dá)載體中,表達(dá)元件從5'到3'方向依次包括CaMV35S 啟動(dòng)子,核定位信號NLS及5 '端TALE,ccdB毒素基因,末位RVD單元,和3 '端TALE及FokI異源 二聚體的單體I或單體Π 。5. 如權(quán)利要求1~4任一項(xiàng)所述的用于TALEN高效構(gòu)建的雙RVD單元模塊庫,其特征在 于:所述的144個(gè)雙RVD單元模塊具有如SEQ ID No. 1~144所述的核苷酸序列。6. 如權(quán)利要求1~5任一項(xiàng)所述的用于TALEN高效構(gòu)建的雙RVD單元模塊庫,其特征在 于:所述的8個(gè)單RVD單元模塊具有如SEQ ID No. 143~152所述的核苷酸序列。7. 如權(quán)利要求1~6任一項(xiàng)所述的用于TALEN高效構(gòu)建的雙RVD單元模塊庫,其特征在 于:所述的識別15bp長度的靶序列第15位堿基的4個(gè)末位RVD單元具有如SEQ ID No. 153~ 156所示的核苷酸序列;識別16bp和17bp長度的靶序列第16位和第17位堿基的4個(gè)末位RVD 單元具有如SEQ ID No. 157~160所示的核苷酸序列;識別ISbp和19bp長度的靶序列第18位 和19位堿基的4個(gè)末位RVD單元具有如SEQ ID No. 161~164所示的核苷酸序列。8. 采用權(quán)利要求1~7所述模塊庫構(gòu)建TALEN的方法,其特征在于:包括如下步驟:對一 段目標(biāo)序列構(gòu)建針對2個(gè)靶序列的表達(dá)載體,1個(gè)表達(dá)載體的末位RVD單元采用左側(cè)組,另1 個(gè)表達(dá)載體的末位RVD單元采用右側(cè)組;識別15、17、19bp長度靶序列的表達(dá)載體根據(jù)序列 中堿基順序選取7、8、9個(gè)雙RVD單元模塊,和識別第15位、第17位、第19位堿基的末位RVD單 元模塊;識別16、18bp長度靶序列的表達(dá)載體根據(jù)序列中堿基順序選取7、8個(gè)雙RVD單元模 塊,識別第15位、第17位堿基的單RVD單元模塊,和識別第16位、第18位堿基的末位RVD單元 模塊;然后通過Golden Gate克隆法一步合成。
【文檔編號】C12N15/113GK105950623SQ201610341638
【公開日】2016年9月21日
【申請日】2016年5月19日
【發(fā)明人】鄭雪蓮, 張勇, 鄧科君, 仲昭輝
【申請人】電子科技大學(xué)