專利名稱:合成殺蟲的晶狀蛋白質基因的制作方法
技術領域:
本發(fā)明涉及細菌分子生物學,更具體地說,涉及采用重組技術的基因工程,以防止植物遭受蟲害。這里所揭示的是源自蘇云金桿菌tenebrionis變種(Btt)的經修飾的晶狀蛋白質基因的化學合成,以及這一合成的殺蟲基因的選擇性表達。還揭示了將經克隆的合成基因轉移到一個宿主微生物中,所提到的生物體能夠在經改進的表達水平上生產一種對昆蟲具有毒性的蛋白質。本發(fā)明使通過細菌和植物的基因工程,獲得所需要的具有農業(yè)價值的新型毒素的表達水平。
蘇云金桿菌(Bt)是唯一能在孢子形成過程中產生蛋白質晶狀內涵物,后者被認為對于幾種農業(yè)上重要的害蟲具有很高的毒性。不同的Bt菌株的晶狀蛋白質具有相當窄的宿主范圍,因此在商業(yè)上被用作為選擇性嚴格的生物殺蟲劑。許多Bt菌株對于鱗翅目昆蟲和雙翅目昆蟲是有毒的。最近報導了Bt的兩個亞種(或變種)是鞘翅目昆蟲的致病菌tenebrionis變種(Krieg等人(1983)Z.Angew,Entomol.96500-508)和sandiego變種(Herrnstadt等人(1986)Biotechnol.4305-308)。兩種菌株產生扁平,矩形的晶狀內涵物并具有64-68KDa(千道爾頓)的主要晶體組分(Herrnstadt等人,上述;Bernhard(1986)FEMSMicrobiol.Lett.33261-265)。
已克隆了Bt的幾個亞種的毒素基因,且發(fā)現(xiàn)重組的克隆對鱗翅目昆蟲的幼蟲具有毒性。兩種對鞘翅目昆蟲具有活性的毒素基因也已被分離和表達。Herrnstadt等人(上述)克隆了一個5.8Kb(千堿基對)的Btsandigeo變種DNA的BamHI片段。在E.Coli中表達的蛋白質對P.Luteola(榆木葉甲蟲)有毒性,其分子量約為83KDa。從sandiego變種基因中得到的這種83KDa的毒素產物比從Btsandiego變種細胞中分離出來的64KDa晶狀蛋白質大,表明Btsandiego變種晶狀蛋白質在形成一個晶體前被合成為一個較大的前體分子,它是由Btsandiego變種而不是E.Coli加工完成的。
Sekar等人(1987)在Proc.Nat.Acad.Sci.USA847036-7040;美國專利申請第108,285號(1987年10月13日提出)中從Btt中分離得到晶狀蛋白質基因并測定了核苷酸順序。該晶狀蛋白質含有一個5.9Kb的BamHI片段(pNSBF544)。含有源自pNSBF544的3KbHindⅢ片段的亞克隆被構建。該HindⅢ片段含有一個編碼約73KDa的644個氨基酸多肽的開放式閱讀框架(ORF)。兩種亞克隆的提取物對科羅拉多土豆甲蟲(Leptinotarsadecemlineata,一種鞘翅目昆蟲)的幼蟲有毒性。與抗tenebrionis變種蛋白質的抗血清有交叉反應的73-和65KDa的肽在E.Coli中表達產生。孢子形成的tenebrions變種細胞含有與pNSBP544的ORF的產物相應的免疫反應性73KDa肽。但是,所分離的晶體主要包含65KDa組分。當晶狀蛋白質基因的N-末端區(qū)被縮短時,所得到的主要的蛋白質產物是65KDa肽。缺失衍生物p544Pst-Met5系用酶從5.9KbBamHI片段的N-末端移去46個氨基酸殘基而衍生得到的。N-末端缺失衍生物p544Pst-Met5的表達導致幾乎全部產生65KDa蛋白質。最近,MePherson等人(1988)在Biotechnology661-66中證明了Btt基因在同一個閱讀框架中含有兩個功能性轉譯啟始密碼子,導致全長蛋白質和N-末端截短的形式均被產生。
從幾個Bt菌株中得到的嵌合毒素基因已在植物中表達。在土壤桿菌TR-DNA的2′啟動子的控制下的得自berliber變種1715的四種經修飾的Bt2基因被轉移至煙草植物中(Vaeck等人(1987)Nature 32833-37)。當截短的基因在基因轉移的植物中表達時,毒素產生了殺蟲能力。但是,在基因轉移的植物中穩(wěn)定狀態(tài)mRNA濃度是如此之低,以至它們不能用Northern印跡分析法而可靠地檢測,因此要采用核糖核酸酶保護實驗進行定量。在產生最高水平蛋白質的植物中Bt mRNA的水平與約0.0001%的poly(A)+mRNA相當。
在Vaeck等人(1987)(上述)的報導中,將含有完整Bt2編碼順序的嵌合基因的表達與含有截短的Bt2基因的表達進行比較。此外,一些T-DNA結構包括可在植物中用作選擇性標記的嵌合NPTⅡ基因,而其它結構則攜帶Bt2和NPTⅡ基因片段之間的轉譯融合物。當截短的Bt2基因或融合結構在基因轉移的植物中表達時,毒素的殺蟲力就產生了。暖房生長的植物產生0.02%的總可溶性蛋白質作為毒素,或每克新鮮葉組織中有約3μg毒素,甚至比該濃度低5倍,在六天喂飼測試中顯示了100%的死亡率。但是,盡管由相同的啟動子指導表達,采用完整的Bt2編碼順序不能獲得明顯的殺蟲活性。在基因轉移的植物葉子中完整的Bt2蛋白質和RNA產量比截短的Bt2多肽或融合蛋白的低10-50倍。
Barton等人(1987)在Plant Physiol.851103-1109中顯示了在包含一個35S啟動子,一個病毒(TMV)前導順序,Bt HD-1 4.5Kb基因(編碼兩個脯氨酸殘基前的645個氨基酸的蛋白質)和蘭曙紅合成酶(nos)聚腺苷酸順序的系統(tǒng)中,一個Bt蛋白質進行表達。在這些條件下,可觀察到Bt mRNA的表達水平高達47Pg/20μg RNA和12ng/mg植物蛋白質。在植物組織中這個數(shù)量的Bt蛋白質2開內可產生100%的死亡率。這一表達水平仍表示了一個低的水平的mRNA(2.5×10-4%)和蛋白質(1.2×10-3%)。
各種雜交蛋白質,含有與NPTⅡ融合的長度增加的Bt2蛋白質的N-末端片段,由Hofte等人[(1988)FEBSLett.226364-370]在E.coli中制得。含有Bt2的最前面607個氨基酸的融合蛋白顯示出殺蟲活性;不含有這個最少的N-末端片段的融合蛋白則無毒性。NPTⅡ活性的表現(xiàn)不依賴殺蟲活性的存在;但是,Bt2多肽的結構對于融合的NPTⅡ蛋白質的酶活性有重要的影響。該研究表明Bt2多肽的球形3-D結構在截短的多肽中受到干擾。
一些研究者試圖在酵母(Neill等人(1987)Gene55303-317′Rothstein等人(1987)Gene55353-356;Coraggio等人(1986)EMBOJ.5459-465]和E.Coli[Fuzakawa等人(1987)FEBSLett.224125-127;Vies等人(1986)EMBOJ.52439-2444;Gatenby等人(1987)Eur.J.Biochem.168227-231]中表達植物基因。
就小麥α-醇溶蛋白[Neill等人(1987),supra)、α-淀粉酶基因(Rothstein等人(1987),supra)和玉米醇溶蛋白基因(Coraggio等人(1986)supra)來說,已報導了其在酵母中的低水平表達。Neill等人提出α-醇溶蛋白在酵母中的低水平表達部分原因可歸咎于密碼子使用不當,因為α-酵溶蛋白編碼Phe、Leu.Ser,Gly,Tyr尤其是Glu的密碼子與大量的酵母同功tRNAs并不十分相關。但是,在E.Coli中,大豆球蛋白A2(Fuzakawa等人(1987),(上述)和小麥RuBRCSSU(Vies等人(1986),(上述);Gatenby等人(1987),(上述)可被充分表達。
對植物中tRNA群的組成并不了解得很多。Viotti等人(1987)]在Biochem.Biopys,Acta517125-132中報導了玉米胚乳能有效地合成玉米醇溶蛋白,后者是富含谷氨酰胺,亮氨酸和丙氨酸的貯藏蛋白,玉米胚乳tRNA的特點是其接受這三種氨基酸的能力比玉米胚胎tRNAs更強。這可能表明特定的植物的tRNA群可能適合于高表達的蛋白質,如玉米醇溶蛋白的最佳轉譯。據我們所知,尚未有人用實驗方法改變在高表達的植物基因中的密碼子的優(yōu)先選擇,以確定其對植物中蛋白質轉譯的可能影響,并檢查其對表達水平的影響。
本發(fā)明的總的目的是提供一種防止植物遭受蟲害的方法。這里所揭示的本發(fā)明包括一種能編碼其功能與天然Bt殺蟲蛋白質相關的殺蟲蛋白質的化學合成的基因。該合成的基因可在植物中以比天然Bt基因更高的水平表達。較好的是,合成基因可在這里所定義的植物中高表達。合成基因以與Bt的殺蟲蛋白質基因至少約有85%同源為佳。
本發(fā)明的一個特別的目的是提供一種編碼殺蟲蛋白質的合成的結構基因,該基因來自具有例如
圖1中所表示的核苷酸順序和1-1793的核苷酸或功能相當?shù)?-1883的核苷酸的Btt。
在設計本發(fā)明的用于增加在植物中的表達的合成Btt基因時,天然Btt結構基因的DNA順序被修飾,其目的是使其含有高表達植物基因所需要的密碼子,獲得與植物中存在的核苷酸堿基組成中相應的A+T含量,以形成一個植物啟始順序,刪除引起DNA不穩(wěn)定,不適當?shù)亩嗑巯佘账峄到夂徒K止的順序為佳,避免構成二級發(fā)夾結構和RNA剪接位點的順序。在合成基因中,用以編碼一個所給的氨基酸的密碼子是根據在高表達的植物基因中所采用的編碼該氨基酸的密碼子使用的分布頻率而選擇的。如該領域的技術人員所欣賞的,在合成基因中所用的密碼子使用的分布頻率是表達水平的決定因素。因此,所設計的合成基因其密碼子使用的分布頻率以與高表達的植物基因的分布頻率的偏差不大于25%為佳,不大于約10%則更佳。此外,需要考慮簡并的第三個堿基的G+C的百分含量(單子葉植物在該位置上偏向于G+C,而雙子葉植物則不然)。業(yè)已認識到,XCG核苷酸是雙子葉植物中最不利的密碼子,而XTA密碼子在單子葉和雙子葉植物中均沒有。本發(fā)明的合成基因較好的是還具有CG和TA二聯(lián)體空缺指數(shù),如在選擇宿主植物的詳細說明中所指出的,這些空缺與宿主指數(shù)極為相似。更佳地是,這些指數(shù)與宿主的指數(shù)的偏差不大于約10-15%。
本發(fā)明的Bt基因的裝配是采用該領域中已知的標準技術來進行的。為了增強在某個特定的具體化的植物中的表達,Btt結構基因是采用酶用來自化學合成的寡核苷酸雙螺旋片段在一個DNA載體中裝配的。然后將合成的Bt基因引入植物宿主細胞并通過該領域已知的方法進行表達。在植物中的合成Bt基因表達而產生的殺蟲蛋白質與對同種的昆蟲具有毒性的天然Bt晶狀蛋白質具有相當?shù)墓πА?br>
圖1顯示了合成Btt基因的核苷酸順序。與其不同的,存在于p544Pst-Mef5中的天然順序如上所顯示。在合成的順序中,氨基酸有所改變(下劃線),用丙氨酸置換2號位殘基的蘇氨酸,用亮氨酸置換596號位殘基的終止子(stop),在C-末端接上13個氨基酸。
圖2表示用于構建合成Btt基因的簡單方法。片段A到M表示退火的寡核苷酸片段,它們連接起來形成具有獨一剪接位點的DNA雙螺旋,以便采用特定的酶裝配DNA片段而獲得所需要的基因。
圖3是表示在構建合成的Btt基因時寡核苷酸片段的裝配的示意圖。每一個片段(A-M)都是用不同大小的寡核苷酸構建的,經退火和連接形成所需要的DNA片段。
下面所給出的定義是為了更清楚地說明它們在說明書和權利要求書中使用的含義和范圍。
表達是指結構基因轉錄和轉譯而產生所編碼的蛋白質。本發(fā)明的合成Bt基因在植物中比相應的天然Bt基因具有更高的表達水平。令該領域的技術人員欣賞的是,結構基因的表達水平受到所用的DNA調節(jié)順序(啟動子、多聚腺苷酸化位點,增強子等)和結構基因在其中表達的宿主細胞的影響。合成Bt基因和天然Bt基因的表達的比較必須采用類似的調節(jié)順序并在相同的宿主細胞中進行。很顯然,在這種比較中還必須采用類似的方法測定基因表達水平。
啟動子系指在結構基因的5′末端的核苷酸順序,它指導轉錄的啟始。為了驅動下游基因的表達,啟動子順序是必須的,但不總是充分的。在原核生物中,啟動子通過提供RNA聚合酶和其它啟始和活化因子的結合位點而驅動轉錄。通常,啟動子優(yōu)先驅動下游區(qū)的轉錄,盡管當基因置于啟動子的上游時,也有啟動的活性(在低表達水平上)。轉錄水平通過啟動子順序而調節(jié)。因此,在構建異源啟動子/結構基因的組合時,結構基因被置于啟動子的調節(jié)控制下,這樣,基因的表達由啟動子順序控制。啟動子較佳的位置是在結構基因的上游,與轉錄啟始位點的距離接近于自然狀態(tài)下啟動子和基因的距離。如該領域中所已知的,在該距離中可以存在一些變異,但不失去啟動子的功能。
基因是指在合成一個蛋白質中的完整DNA部分。一個基因包括結構基因或從5′末端的轉錄啟始密碼子(通常為ATG)開始并延伸至3′末端的終止密碼子(TAG、TGA或TAA)的編碼部分。它還包括一個通常位于5′端或結構基因上游的啟動子區(qū),它啟始和調節(jié)結構基因的表達?;蛑羞€包括3′末端和末尾多聚腺苷酸順序。
結構基因是一個基因的部分,包括編碼蛋白質、多肽或其中一部分的DNA片段,它不包括驅動轉錄啟始的5′端順序。結構基因通常可以在細胞中發(fā)現(xiàn)或通常不在其被引入的細胞位置上,在這種情況下,它被稱為異源基因。異源基因可以全部地或部分地來自該領域已知的任何來源,包括細菌基因組或附加體、真核、核或質粒DNA、cDNA、病毒DNA或化學合成的DNA。結構基因在編碼區(qū)或非轉譯區(qū)有一個或多個修飾,它們能影響表達產物的生物活性或化學結構,表達率或表達控制的方式。這些修飾包括(但不局限于)突變、插入、缺失和一個或多個核苷酸的置換。結構基因可構成一個連續(xù)的編碼順序或它可能含有1個或多個內含子,通過適當?shù)募羟羞B續(xù)。結構基因可以是來自自然存在的或合成的等多種來源的片段的組合物。結構基因也可編碼融合蛋白。
合成基因是指一個結構基因的DNA順序,其編碼區(qū)的全部或大部分是化學合成的。如這里所列舉的,寡核苷酸片段是采用該領域的技術人員熟知的過程合成的,經連接和退火而形成基因片段,然后用酶裝配基因片段構建完整基因。如該領域的技術人員所知的,與這里所描述的合成基因的功能和結構相當?shù)幕蚩刹捎迷擃I域中所用的定點突變或其它有關的方法來制備。
轉化是指穩(wěn)定地將攜帶功能基因的一個DNA片段引入一個先前不含有該基因的生物體。
植物組織包括植物分化的或未分化的組織,包括(但不限于)根、芽、葉子、花粉、種子、腫瘤組織和在培養(yǎng)基中的各種形式的細胞,例如單細胞、原生質體、胚和胼胝組織。植物組織可以在植物本身中或在器官、組織或細胞培養(yǎng)基中。
植物細胞,這里所使用的植物細胞包括在植物本身中的植物細胞和在培養(yǎng)基中的植物細胞和原生質體。
同源性是指核苷酸或氨基酸順序一致或接近一致。如該領域所知的,核苷酸錯配可以發(fā)生在密碼子的第三個或搖擺的堿基上而不引起最終多肽順序中氨基酸的置換。同樣,在基因順序中某些區(qū)域發(fā)生少數(shù)核苷酸修飾(如置換、插入或缺失),當這類修飾所引起的氨基酸順序的改變不改變最終產物的功能時,這些修飾是可被接受,并認為是沒有意義的。業(yè)已顯示出,基因順序的全部或部分化學合成拷貝可以代替天然基因中相應的區(qū)域而不喪失基因功能。特定的DNA順序的同源性可以由該領域的技術人員采用核酸交叉雜交試驗,在該領域熟知的嚴格的條件下進行鑒定[如Hams和Higgens(eds)(1985)在NucleicAcidHybridization,IRLPress,Oxford,UK中所描述的]。同源性的程度通常用所比較的順序間的一致性的百分數(shù)來表示。
功能相當是指功能相同或接近相同。一種合成基因產物,其對各種昆蟲的毒性至少有一種與天然Bt蛋白質相同,就被認為與天然Bt蛋白質功能相當。如這里所列舉的,天然和合成的Btt基因均編碼65KDa,具有基本相同的氨基酸順序和對鞘翅目昆蟲具有毒性的殺蟲蛋白質。本發(fā)明的合成Bt基因不與天然Bt基因功能相當,因為它們在植物中比天然的Bt基因具有更高的表達水平。
優(yōu)先密碼子使用的頻率是指一個特定的宿主細胞使用核苷酸密碼子編碼一個給定的氨基酸時所表現(xiàn)的優(yōu)先選擇。為了測定特定的密碼子在基因中的使用頻率,以基因中該碼密子出現(xiàn)的次數(shù)被編碼基因中相同的氨基酸的所有密碼子出現(xiàn)的次數(shù)除。例如,表1給出了Bt基因的密碼子使用的頻率,它是通過分析4種已知順序的Bt基因而得到的。與其相似,宿主細胞的優(yōu)先密碼子使用的頻率可以通過在宿主細胞表達的大量基因中優(yōu)先密碼子使用的平均頻率而計算。這種分析局限于宿主細胞高表達的基因時則較好。例如,表1中給出了在雙子葉植物和單子葉植物中高表達的基因的密碼子使用的頻率。雙子葉植物中密碼子使用是用得自列于表1中的Genbank(基因庫)的154個高表達的編碼順序而計算的。單子葉植物中密碼子使用是采用得自表1中的Genbank的53個單子葉核基因編碼順序而計算的(表1在實例1中)。
當為提高宿主細胞中的表達而合成一個基因時,把該基因設計成其密碼子的使用頻率接近宿主細胞的優(yōu)先密碼子使用的頻率。
一個合成基因的優(yōu)先密碼子使用的頻率與宿主細胞所采用的頻率偏差百分數(shù)是這樣來計算的,首先測定單個密碼子使用的頻率與宿主細胞使用頻率的偏差百分比,然后得到全部密碼子的平均偏差。如這里所定義的,該計算中包括單一密碼子(即ATG和TGG)。表1中給出了合成的Btt基因(其順序在
圖1中給出)的優(yōu)先密碼子使用的頻率。在合成基因(0.10)中編碼纈氨酸的優(yōu)先密碼子‘GTA’的使用頻率與雙子葉(0.12)的優(yōu)先密碼子的使用頻率的偏差為0.02/0.12=0.167或16.7%。Btt合成基因的全部氨基酸密碼子使用與雙子葉植物的密碼子使用的平均偏差是7.8%。通常,合成基因的密碼子使用與宿主細胞的密碼子使用的總平均偏差采用下列方程式計算
其中Xn=在宿主細胞中密碼子n的使用頻率;Yn=在合成基因中密碼子n的使用頻率。n代表編碼一個氨基酸的單個密碼子,Z是密碼子總數(shù),在一個較佳的實例中它是61。所有氨基酸密碼子使用的頻率的總偏差以小于約25%為佳,以小于約10%則更佳。
衍生用于說明從一個來源中取得、獲得、接受到、少量獲得、復制得或遺傳得到(用化學和/或生物方法)。衍生物可以從其初始來源通過化學或生物處理(包括但不局限于置換、添加、插入、缺失、提取、分離、突變和復制)而得到。
化學合成,涉及DNA順序時,是指核苷酸組分在體外進行裝配。DNA的標準化學合成可采用已建立的方法來完成(Caruthers,M.(1983),MethodologyofDNAandRNA.Sequencing,Weissman(ed),PraegerPublishersNewYork,ChapterI),或采用一種商店里可購的機器進行自動化學合成。
這里所用的術語設計來用于高表達是指所設計的基因的表達水平,其特定的mRNA轉錄本的量足以用Norther印跡定量分析,這樣,它就表示相當于大于或等于約0.0001%多聚腺苷酸mRNA的特定mRNA的表達水平。迄今為止,天然Bt基因的轉錄水平為,其中特定mRNA的轉錄量不足以用Norther印跡分析來測定,但是,在本發(fā)明中,所設計的用于高表達的合成Bt基因的轉錄不僅可以對特定mRNA的轉錄本進行定量,還導致了轉譯產物表達的提高,它可在殺蟲生物分析中測定。
晶狀蛋白質或殺蟲晶狀蛋白質或晶狀毒素是指在Bt菌株中所形成的類芽孢晶體的主要蛋白質組分。這種蛋白質對于不同種的昆蟲有選擇致病性。從類芽孢晶體中分離出來的主要蛋白質的分子大小因來源的Bt菌株而異。已報導了分子量約132、65、和28KDa的晶狀蛋白質。已經發(fā)現(xiàn),約132KDa的蛋白質是一種原毒素,它可裂解而形成約65KDa的毒素。
晶狀蛋白質基因是指編碼根據基因來源的Bt菌株不同而以全長原毒素或毒素形式存在的殺蟲晶狀蛋白質的DNA順序。
本發(fā)明的作者觀察到Bt晶狀蛋白質mRNA在植物中的表達水平低,不能以常規(guī)的Norther印跡分析測得,這種低水平的Bt晶狀蛋白質表達與低水平的mRNA表達相應。Bt基因在植物細胞中表達水平的提高,BtmRNA在植物中的穩(wěn)定性的增加,就可以把這些基因用作潛在的生物學控制方法,這將累積更大量的BtmRNA并將導致植物組織中殺蟲蛋白量的增加。這對于控制對Bt蛋白質有相當抗性的昆蟲是必須的。
因此,本發(fā)明是基于認識到在基因轉移的植物中所設計的重組殺蟲蛋白質的表達水平可以通過增加穩(wěn)定的mRNA轉錄本的表達而提高;相反地,檢測這些穩(wěn)定的RNA轉錄本可用于測定轉譯產物(蛋白質)的表達。本發(fā)明通過用編碼來自Bt的殺蟲晶狀蛋白質的經改進的合成基因提供了解決殺蟲蛋白質RNA在植物中低水平表達以及由此產生的低的蛋白質表達的問題。
提高Bt基因在植物中表達水平的試驗集中于一些評價參數(shù)的比較研究,這些參數(shù)是基因型、基因長度、啟動子的選擇、植物病毒非轉譯RNA前導順序的添加、內含子順序的添加和啟始密碼子ATG周圍的核苷酸的修飾,迄今為止,這些參數(shù)的變化尚未導致Bt蛋白質在植物中表達的明顯提高。申請人出人意外地發(fā)現(xiàn),基因編碼區(qū)的修飾對于在植物中以所需要的水平表達Bt基因是有效的??梢圆捎枚c突變,即用含有預期要改變的核苷酸的合成DNA雙螺旋代替限制性片段而研究結構-功能關系。(Lo等人(1984),Proc,Natl,Acad.Sci,812285-2289)。但是,重組DNA技術上的最新進展,可以進行化學合成為得到所需要的功能而專門設計的一個完整的基因。因此,Btt編碼區(qū)被化學合成并加以修飾以提高其在植物中的表達?;蚝铣蛇€提供了設計基因的機會,使其能通過結合入許多位置的合適的限制內切酶位點而使隨后的誘變變得容易。
本發(fā)明提供了一個對昆蟲有毒的晶狀蛋白質的合成Bt基因。如這里所列舉的,該蛋白質對于鞘翅目昆蟲是有毒性的。關于提高該殺蟲的蛋白質在植物中的表達的最后,本發(fā)明還提供了與Btt結構基因同源的DNA片段,如這里所列舉的,它與p554Pst-Met5中的Btt結構基因有約85%的同源性。在這個具體例中,編碼Btt殺蟲蛋白質的結構基因是通過編碼區(qū)的化學合成而得到的。在這個具體例中采用了化學合成的基因,因為它能夠最容易和最有效地調節(jié)提高交叉表達水平所需要的核苷酸順序的修飾。
如今,化學合成通常是獲得所需要的經修飾的基因的較佳的方法。但是,迄今為止,尚未化學合成過植物蛋白質基因,也沒有任何編碼細菌蛋白的合成基因在植物中表達過。在本發(fā)明中用于合成基因的方法包括設計一個改進的編碼區(qū)核苷酸順序和裝配從化學合成的寡核苷酸片段得到的基因。在設計基因時,編碼對鞘翅目昆蟲有毒性的65KDa多肽的天然基因編碼區(qū)以從Btt亞克隆p544Pst-Met5中得到為佳,檢查這些編碼區(qū),以觀察引起合成基因在植物中表達提高的可能的修飾。例如,為了有最佳的轉譯效率,要采用在宿主細胞中高表達的蛋白的優(yōu)先密碼子。
在一個單一物種的基因中密碼子的優(yōu)先選擇與該基因編碼的蛋白質的表達水平有關。在E.coli和酵母的高表達蛋白中密碼子選擇的傾向是最嚴重的。在這些生物體中,大量的同功tRNA種類和有利的同義密碼子之間已被報導有很強的正相關。在一組在酵母中高表達的蛋白質中,96%以上的氨基酸僅由61個可得到的密碼子中的25個所編碼(BennetzenandHall(1982),J.Biol.Chem,2573026-3031)。這25個密碼子在所有已測序的酵母基因中是優(yōu)先的,但是其優(yōu)先的程度隨基因的表達水平而異。最近,Hoekema及其同事(1987)在Mol.Cell.Biol.72914-2924中報導了在高表達的酵母基因PGK1的5′末端,用少量密碼子代替這25個優(yōu)先的密碼子,結果引起蛋白質和mRNA的水平降低。它們推斷在高表達的基因中優(yōu)先密碼子選擇可提高轉譯并且是維持酵母中mRNA的穩(wěn)定性所需要的。毋容置疑,當在酵母和其它系統(tǒng)中建立異源基因的高表達時,密碼子選擇偏向的程度是要考慮的一個重要因素。
從點突變和缺失分析中所得到的實驗數(shù)據表明在真核基因中特定的順序與轉錄后加工、RNA不穩(wěn)定、轉譯終止、內含子剪接等有關。這些被較好地用于本發(fā)明的合成基因中。在設計一個在植物中表達的細菌基因時,影響基因表達效率的順序被刪除。
在設計一個合成基因時,要對編碼區(qū)的核苷酸順序進行修飾,以更改合成基因的DNA堿基組成中A+T的含量,從而反映出在宿主細胞天然高表達的蛋白質的基因中所通常有的A+T含量。合成基因的A+T含量以與所說的高表達的蛋白質的基因的A+T含量相等為佳。在編碼高表達的植物蛋白質的基因中,A+T含量約為55%。合成基因中A+T含量接近這個值是較佳的,它還未高到會引起RNA的不穩(wěn)定并因此而降低蛋白質表達水平。A+T含量不大于約60%更佳,約55%則最佳。而且,為了最終在植物中表達,對合成基因的核苷酸順序進行較佳的修飾,在編碼區(qū)5′末端形成一個植物啟始順序。此外,尤其要加以注意的是要保證獨一的限制位點在有意義的位置上,以便在合成基因的構建過程中有效地裝配寡核苷酸片段以及使隨后的核苷酸修飾變得容易。對天然Bt基因的編碼區(qū)進行修飾的結果表明,與在天然Bt結構基因中所觀察到的結果進行比較,發(fā)現(xiàn)較佳的合成基因在植物中的表達水平提高。
在特例中,本發(fā)明的合成Bt基因編碼一個對鞘翅目昆蟲有毒的Btt蛋白質。較佳的毒性肽約有598個氨基酸長,它至少與Btt多肽有75%同源性,而且如這里所列舉的,它除了在2號殘基處用丙氨酸置換蘇氨酸外,與p544Pst-Met5所編碼的蛋白質基本相同。該氨基酸的置換必然是在編碼順序的+4號位引入一個鳥嘌呤堿基的結果。
在設計本發(fā)明的合成基因時,檢查編碼對鞘翅目昆蟲有毒的65KDa多肽的得自Btt亞克隆p544Pst-Met5的編碼區(qū),以尋找引起合成基因在植物中表達提高的可能的修飾。例如,在較佳的實例中,合成殺蟲蛋白質在雙子葉植物,如煙草、番茄、棉花等中表達很強,因此,在這些條件下的合成基因被設計成含有被高表達雙子葉蛋白質優(yōu)先使用的優(yōu)選密碼子。在需要在單子葉植物中提高殺蟲蛋白質的表達的實例中,在設計合成基因時,要采用被高表達單子葉植物蛋白質所優(yōu)先使用的密碼子(在表1中給出)。
通常,在一個分類組中,不管這些基因的功能如何,基因在密碼子選擇上具有相似性。這樣,估計一個分類組使用的所有基因密碼子可通過將其所有經測序的基因的密碼子頻率加起來而得到。在本發(fā)明中,通過208個植物基因的分析,報導了這種種特異性密碼子選擇。單子葉和雙子葉植物被分別進行測定以確定這些較大的分類組是否具有不同模式的同義密碼子優(yōu)先選擇。在密碼子分析中,208個植物基因編碼具有廣范圍功能的蛋白質,它們代表6種單子葉和36種雙子葉植物。這些蛋白質以不同的表達水平存在于不同的植物細胞中。
本發(fā)明中已顯示了單子葉和雙子葉植物同義密碼子的有關使用不同。通常,在區(qū)別單子葉和雙子葉植物的密碼子使用模式時最重要的因素是簡并的第三堿基的G+C的百分含量。在單子葉植物中,18個氨基酸中的16個在這個位置上偏向于G+C,而雙子葉植物中,18個氨基酸中僅有7個在這個位置上偏向于G+C。
編碼Thr、Pro、Ala和Ser的以G結尾的密碼子在單子葉和雙子葉植物中是要避免的,因為它們在密碼子位置Ⅱ上含有C。CG二核苷酸在植物中要極力地避免[Boudraa(1987)Genet.Sel.Evol.19143-154),在其它真核生物中也要極力地避免[Grantham等人(1985).Bull.Inst.Pasteur8395-148),可能是由于包括甲基化在內的調節(jié)作用。在雙子葉植物中,XCG總是最不利的密碼子,而在單子葉植物中則不是這樣。在大多數(shù)真核生物中,二聯(lián)體TA在密碼子位置Ⅱ和Ⅲ是要避免的,對于單子葉植物和雙子葉植物均是如此。
Grantham及其同事(1986)在OxfordSurveysinEvol.Biol,348-81中提出了兩種密碼子選擇指數(shù)來測定CG和TA二聯(lián)體在密碼子位置Ⅱ和Ⅲ中的空缺。XCG/XCC是以C作為Ⅱ位堿基,以G結尾與以C結尾的三聯(lián)體密碼的比例,而XTA/XTT是以T作為第二個堿基,以A結尾與以T結尾的三聯(lián)體的比例。這些指數(shù)已被計算后用作植物數(shù)據,見表2,并且支持了這樣的結論,即單子葉和雙子葉植物對這些雙核苷酸的使用是不同的。
表2CG和TA二聯(lián)體在密碼子位置Ⅱ-Ⅲ上的空缺,XCG/XCC和XTA/XTT值×100分組植物雙子葉單子葉玉米大豆RuBPCCABSSUXCG/40306167371822XCCXTA/3735474341913XTTRuBPCSSU=1,5二磷酸核酮糖小亞基CAB=葉綠素a/b結合蛋白質此外,對于大豆和玉米兩個品種來說,已計算了種特異性密碼子使用的情況(未顯示)。玉米密碼子使用的模式通常與單子葉植物的相似,因為這些順序代表了一半以上有效的單子葉順序。玉米標本的一部分其密碼子在密碼子位置Ⅲ上對G+C的優(yōu)先傾向更為顯著,另一方面,大豆密碼子使用模式基本上與一般的雙子葉模式相同,盡管它只表示整個雙子葉標本的很小一部分。
為了確定一些高表達基因,如1,5-二磷酸核酮糖小亞基(RuBPCSSU)和葉綠素a/b結合蛋白質(CAB)的編碼方式是否比通常的植物基因的編碼方式具有更大的偏向性,計算了這些基因的部分(分別為19個和17個順序)的密碼子使用情況(未顯示)。RuBPCSSU和CAB庫的樣品的特征在于它比較大的單子葉和雙子葉植物樣品具有更嚴重的密碼子XCG和XTA空缺(表2)。盡管在這些標本的一部分中,大多數(shù)基因源于雙子葉(17/19和15/17),它們的密碼子情況與單子葉的相同,即在簡并堿基Ⅲ中采用G+C。
運用所有收集的高表達基因的數(shù)據可能引起對種特異性密碼子選擇模式鑒別的混淆。因此,把RuBPCSSU和CAB單個基因的密碼子選擇列成表。玉米和小麥基因的RuBPCSSU和CAB的優(yōu)先密碼子的選擇通常比雙子葉植物優(yōu)先密碼子的選擇更為嚴格。這是與Matsuoka等人[(1987)J.Biochem,102673-676]的結果是一致的,Motsuoka等人注意到玉米RuBPCSSU基因以及在玉米葉中的其它兩種高表達基因、CAB和磷酸烯醇式丙酮酸羧激酶有極為嚴重的密碼子偏向性。這些基因幾乎完全避免在密碼子位置Ⅲ上使用A+T,盡管這種密碼子偏向性不象在非葉蛋白,如乙醇脫氫酶、玉米醇溶蛋白22KDa亞基、蔗糖合成酶和ATP/ADP易位體中那樣顯著。因為小麥SSU和CAB基因具有相似的密碼子優(yōu)先模式,這可能反映了一般單子葉植物葉子中這些高表達基因的模型。Lemna的CAB基因和Chlamdomonas(衣藻屬)的RuBPCSSU基因都具有對于密碼子位置Ⅲ上的G+C的極大的傾向性。但是,在雙子葉CAB基因中,一些同義密碼子(例如編碼Ala的GCT、編碼Leu的CTT、編碼Gly的GGA和GGT)傾向于A+T簡并堿基。通常,雙子葉植物中RuBPCSSU和CAB基因的G+C優(yōu)先選擇不如單子葉中的顯著。
在設計一個在植物中表達的合成基因時,進行了刪除一些影響基因表達效率的順序的試驗。如植物多聚腺苷酸化信號區(qū)(如AATAAA)、聚合酶Ⅱ終止順序(如CAN(7-9)(AGTNNAA、UCUUCGG發(fā)夾環(huán))和植物一致剪接位點等順序是尤其主要的,如果它們存在于天然Btt編碼順序中,則將它們修飾以刪除潛在的不利順序。
最好對Btt編碼區(qū)的核苷酸順序進行修飾以減少DNA堿基組成中A+D的含量。Btt編碼區(qū)的A+T含量為64%,它比典型的植物編碼區(qū)中的約高10%。因為A+T富集區(qū)往往是植物基因的間隔區(qū)和植物調節(jié)區(qū),減少A+T含量需慎重。合成Btt基因被設計為A+T含量為55%,與在植物中通常的值一致。
在一個較佳實例中,對Btt編碼順序的第四個核苷酸位置進行了單一修飾(以鳥嘌呤置換腺嘌呤)以形成一段順序,它與被確信在表達最佳時其功能為植物啟動順序的順序相一致。(Taylor等人(1987)Mol.Gen.Genet,210572-577)。此外,在本發(fā)明的實例中,在合成基因的編碼區(qū)加入39個核苷酸(13個密碼子),以使初級轉錄本穩(wěn)定。但是,業(yè)已發(fā)現(xiàn),沒有這個含39個核苷酸的延長多肽時,也能得到同樣穩(wěn)定的轉錄本。
為提高表達而構建合成Bt基因時,并不是所有上述的天然Bt基因修飾都必須進行的。例如,除了提高表達外,合成基因還可以為其它目的而合成。在這些情況下,天然Bt基因的原始順序可以保留在一個DNA片段內,這一片段相應于一個或多個(但不是全部)用于構建合成基因的片段。根據基因的設計目的,修飾可能包括用一個天然Bt順序的相應區(qū)來置換一個或多個(但不是全部)用于構建合成基因的寡核苷酸片段。
如在合成基因領域中的技術人員所共知的(Mandecki等人(1985)Proc,Natl.Acad.Sci.823543-3547;Feretti等人(1986)Proc.Natl.Acad.Sci.83599-603),合成的DNA順序可以被分成幾個長度的片段,這些片段可以被方便地,而不過分復雜地合成。如這里所列舉的,在制備合成的Btt基因時,編碼區(qū)被分成13個片段(A-M)。每一個片段在粘性末端都具有單一的限制性順序。例如,片段A的長度為228個堿基對,它由6個各含有約75個堿基的寡核苷酸片段構成。單鏈寡核苷酸退火并連接而形成DNA片段。在互補寡核苷酸片段中凸出的粘性末端的長度是4-5個殘基。在發(fā)展的基因合成方法中,所設計的用于連接寡核苷酸片段和DNA片段的位點不同于基因中的限制性位點。
在一個特例中,每一個DNA片段都被克隆入一個pIC-20載體中進行DNA擴增。在這個階段,每一個片段的核苷酸順序都通過雙脫氧法,以重組噬菌體DNA為模板、經選擇的合成寡核苷酸為引物而進行測定。
如這里所列舉的和圖3、4中所示的,每一個獨立的片段(如片段M)在側面限制性位點被從克隆載體中切下并被拼接到含有片段A的載體中。為了增加效率,常常以加入成對的片段來代替加入單個片段。這樣,在載有片段A的原始質粒中構建了完整的基因。測定完整基因的核苷酸順序,發(fā)現(xiàn)其與
圖1中所顯示的順序完全對應。
在較佳的實例中,與天然Btt結構基因相比,合成Btt基因在植物中表達水平提高。要達到那樣的結果,合成的結構基因要與植物中的功能啟動子相結合,結構基因和啟動區(qū)互相之間要處于這樣的位置與取向,即結構基因可以在一個細胞中表達,而啟動子區(qū)在該細胞中又是有活性的,由此可形成一個功能基因。啟動子區(qū)包括(但不局限于)細菌和植物啟動子區(qū)。為了表達啟動子區(qū)/結構基因的組合,細胞中要包含攜帶該組合的DNA片段。植物細胞中含有包括植物啟動區(qū)在內的組合,它們也可依次包含于植物或種子中。細菌,如Bt或E.Coli中含有包括細菌啟動區(qū)在內的組合。該領域的技術人員將認識到,在除細菌外的幾類微生物中的表達在一些情況下可能是合意的,容易的,而不需要復雜的實驗,可得到目前的結果。
攜帶一個合成結構基因的重組DNA分子在啟動子控制下可通過該領域的技術人員已知的任何方法引入植物組織。用于一給定的植物品種或特定類型的植物組織的技術取決于已知的成功技術。隨著用于將外來基因穩(wěn)定地插入植物細胞和操縱經修飾的細胞的新方法的發(fā)展,技術人員能夠從已知的方法中選擇能達到所需要的結果的方法。用于將重組DNA引入植物組織的方法包括(但不局限于)直接DNA攝入[Paszkowski,J.等人(1984).EMBOJ.32717)、電刺激(electroporation)[Fromm,M等人(1985),Prov.Natl.Acad.Sci.USA825824)、微量注射[Crossway,A.等人(1986),Mol.Gen.Genet.202179),或從Agrobacteriumtumefaciens(土壤桿菌腫瘤)到植物組織的T-DNA介質轉移。已發(fā)現(xiàn)T-DNA轉化土壤桿菌屬的天然宿主并無十分重要的限制。業(yè)已報導了單子葉[Hooykaas-VanSlogteren;G.等人(1984),Nature311763)、裸子植物(Dandekar,A.等人(1987),Biotechnology5587)和藻類(Ausich,R,EPO申請第108,580號)中成功的T-DNA介質轉化。下面的參考文獻中描述了典型的T-DNA載體系統(tǒng)An,G,等人(1985)EMBOJ.4277;Herrera-Estrella.L.等人(1983),Nature303209;Herrera-Estrella,L.等人(1983)EMBOJ.2987;Herrera-Estrella,L.等人(1985)“PlantGeneticEngineering,”NewYorkCambridgUuiversityPress,P.63。一旦引入植物組織后,結構基因的表達可以通過該領域已知的任何方法進行測定,可用mRNA轉錄或蛋白質合成的量來測定表達水平。有關體外培養(yǎng)植物組織和在一些情況下,回到整個植物中再生的技術已經了解。將引入的表達復合體轉移到商業(yè)化裁培品種中的方法是該領域的技術人員已知的。
在這里所揭示的本發(fā)明的一個較佳實例中包括一個合成的殺蟲結構基因在一個植物中可表達的啟動子的控制下,在植物細胞中表達,也就是說,采用已知的方法,將殺蟲結構基因插入T-DNA中,使其在植物可表達的啟動子的控制之下,將含有插入體的T-DNA引入植物細胞。一旦得到在植物可表達的啟動子控制下可表達合成的殺蟲結構基因的植物細胞,就可以采用該領域熟知的方法和技術從中再生植物組織和整個植物。然后用傳統(tǒng)的方法再生產經再生的植物,通過傳統(tǒng)的植物育種技術可以將引入的基因轉移到其它株和栽培品種中。
殺蟲蛋白的合成的結構基因的引入和表達可被用于防止作物遭受普通蟲害的感染。本發(fā)明的其它用途,即了解被引入到其它植物種中的其它殺蟲的結晶基因的性能對于該領域的技術人員將是極為顯而易見的。原則上,本發(fā)明可用于將任何合成的殺蟲結構基因引入任何品種的植物,在這些植物種中,外源DNA(在一個較佳實例中是T-DNA)可以被引入,且在其中,DNA可以保持穩(wěn)定地復制。通常,這些類群包括(但不局限于)裸子植物和雙子葉植物,例如向日葵(Compositeae族)、煙草(Solanaceae族)、紫花苜蓿、大豆和其它豆科牧草(Leguminoseae族)、棉花(Malvaceae族)和大部分蔬菜以及單子葉植物。一個組織中含有表達水平提高的殺蟲蛋白質的植物可以控制那些不太敏感型的昆蟲,由此優(yōu)于現(xiàn)在使用的Bt殺蟲基因。通過將殺蟲蛋白質摻入植物組織中,本發(fā)明還在能排除施用不均勻的情況、免去購買費用以及在大田里施用殺蟲劑成品等方面優(yōu)于目前使用的殺蟲劑。本發(fā)明不需要嚴格控制這類制劑應用的時間,因為幼蟲對于殺蟲蛋白質是最敏感的,而蛋白質是一直存在的,也不需要仔細地減少作物的損傷,因損傷是預先施用殺幼蟲劑引起的。
本發(fā)明將這里所揭示的特殊的技術與該領域已知的各種技術和手段相結合。手段的選擇取決于可變項,例如Bt菌中殺蟲蛋白質的選擇、在優(yōu)先的密碼子使用中修飾的程度、被認為對于RNA不穩(wěn)定的順序或過早終止轉錄的順序的處理、為了以后的核苷酸修飾,在設計的合成基因中限制位點的插入、在合成的結構基因的5′和/或3′末端,內含子或增強子的順序的加入、啟動子區(qū)、啟動區(qū)/結構基因組合在其中表達的宿主,等等。隨著新型的殺蟲蛋白質和毒性多肽的發(fā)現(xiàn),和隨著能夠提高交叉表達(在一個給定宿主中一個外來結構基因的表達)的順序被闡明,普通的技術人員能夠在這些因素中作出選擇,從而產生“改進的”合成基因以得到所需要的具有農業(yè)價值的蛋白。本發(fā)明的基本特征是具有合成一個新型的編碼殺蟲蛋白質的基因的能力,這樣,所設計的蛋白質能在植物中以提高的水平表達,并保留其固有的對昆蟲的毒性和保留或增加它的特別的殺蟲活性。
實例以下的實施例可用作本發(fā)明的具體方案,它們不限制本發(fā)明的范圍,范圍是由權利要求書決定的。
E.coliMC1061是質粒轉化中的一個很好的宿主,由Casadaban報導。M.J.andCohen,S,N(1980)J.Mol.Biol138179-207。
實施例1合成的殺蟲晶狀蛋白基因的設計(ⅰ)Btt基因的毒性亞克隆的制備構建、分離及鑒定PNSB544由Sekar報導V.etal.(1987)Proc.Natl.Acad,Sci.USA847036-7040,和Seker,V.和Adang,M.J,美國專利申請系列號108,285,在1987年10月13日提交申請,這里作為參考。一個3.0kbp攜帶PNSB544晶狀蛋白基因的HindⅢ片段插入到PIC-20H(Marsh,J.L.etal.(1984)Gene32481-485)的HindⅢ位點,由此產生一個質粒稱為P544-HindⅢ,該質粒在保藏中。在E.coli中表達產生一個73KDa的晶狀蛋白,另外還有從Btt分離物中得到的(65KDa)種特異性晶狀蛋白。
一個5.9kbp帶晶狀蛋白基因的BamHI片段從PNSB544上切下來,然后插入BamⅡⅠ線性排列的PIC-20HDNA上。產生的質粒P405/44-7,用BglⅡ酶切并重新連結,去掉與結晶蛋白基因3′端相連結的芽孢桿菌(Bacillus)順序。由此產生的質粒P405/54-12,用PstI酶切并重新連結,去掉與結晶蛋白5′端相連接的芽孢桿菌(Bacillus)順序,離晶狀蛋白的結構基因5′端大約是150bp。由此產生的質粒P405/81-4,用Sph,I及PstI酶切,然后與一個合成的人工接頭混合并與之連接,接頭為以下結構。
SDMetThrAla5′CAGGATCCAACAATGACTGCA3′3′GTACGTCCTAGGTTGTTACTG5′SphIPstI
(SD表示Shine-Dalgarno原核生物的核糖體結合位點。)由此產生的質粒P544PstMet5,包含編碼一個蛋白質的結構基因,此蛋白質與PNSB544編碼的蛋白質相同,僅在氨基酸未端少了47個氨基酸殘基。P544-PstMet5中Btt編碼區(qū)的核苷酸序列在
圖1中列出。經生物檢測(Sekar和Adang,美國專利申請系列號108,285,(上述),PNSB544中全長Btt基因編碼的蛋白質與N-末端缺失衍生物P544PstMet5編碼的蛋白質有相同等的毒性。所有以上提到的質粒中的結晶蛋白基因,均與載體中l(wèi)acZ基因的方向一致。
(ⅱ)優(yōu)先密碼子使用的修飾表1顯示了密碼子使用頻率,(A)雙子葉蛋白,(B)Bt蛋白,(C)合成Btt基因和(D)單子葉蛋白。雖然有些為一個特定氨基酸編碼的密碼子,在雙子葉植物和Bt蛋白質中幾乎有差不多的運用,(例絲氨酸的密碼子),從大部分來看,雙子葉植物和Bt蛋白中的密碼子頻率分布有顯著的差異,如同表1中A欄和B欄中所顯示的。
表1密碼子使用頻率分配分數(shù)氨基酸密碼子(A)雙子葉(B)Bt基因(C)合成Btt(D)單子葉植物基因基因基因GlyGGG0.120.080.130.21GlyGGA0.370.530.370.18GlyGGT0.350.240.340.21GlyGGC0.160.160.160.40GluGAG0.520.130.520.77GluGAA0.480.870.480.23AspGAT0.570.680.560.31AspGAC0.430.320.440.69ValGTG0.300.150.300.38ValGTA0.120.320.100.07ValGTT0.380.290.350.20ValGTC0.200.240.250.34AlaGCG0.050.120.060.20AlaGCA0.260.500.240.16AlaGCT0.420.320.410.28AlaGCC0.280.060.290.36LysAAG0.610.130.580.87LysAAA0.390.870.420.13AsnAAT0.450.790.440.23AsnAAC0.550.210.560.77MetATG1.001.001.001.00IleATA0.190.300.200.09IleATT0.440.570.430.27IleATC0.360.130.370.64ThrACG0.070.140.070.18ThrACA0.270.680.270.14ThrACT0.360.140.340.22ThrACC0.310.050.320.47TrpTGG1.001.001.001.00EndTGA0.460.000.000.34CysTGT0.430.330.330.27CysTGC0.570.670.670.73EndTAG0.180.000.000.44EndTAA0.371.001.000.22TyrTAT0.420.810.430.19TyrTAC0.580.190.570.81
表1(續(xù))分配分數(shù)氨基酸密碼子(A)雙子葉(B)Bt基因(C)合成Btt植物基因基因基因PheTTT0.450.750.440.28PheTTC0.550.250.560.72SerAGT0.140.250.130.07SerAGC0.180.130.190.25SerTCG0.050.080.060.13SerTCA0.180.190.170.13SerTCT0.260.250.270.18SerTCC0.190.100.170.24ArgAGG0.220.090.230.28ArgAGA0.310.500.320.08ArgCGG0.040.140.050.14ArgCGA0.090.140.090.04ArgCGT0.230.090.230.11ArgCGC0.110.050.090.36GlnCAG0.380.180.390.43GlnCAA0.620.820.610.57HisCAT0.520.900.500.38HisCAC0.480.100.500.62LeuTTG0.260.080.270.15LeuTTA0.100.460.120.04LeuCTG0.090.040.100.27LeuCTA0.080.210.100.11LeuCTT0.290.150.180.16LeuCTC0.190.060.220.27ProCCG0.070.200.080.20ProCCA0.440.560.440.39ProCCT0.320.240.320.19ProCCC0.160.000.160.22Bt編碼順序已眾所周知,雙子葉植物核基因的88個編碼順序組成了密碼子使用表。雙子葉植物編碼順序庫從基因庫(Genbank)得到,有
表1(續(xù))屬/種基因庫蛋白質參考資料AntirrtinummajusAMACHSChalconesynthetaseArabidopsisthalianaATHADHAlcoholdehydrogenaseATHH3GAHistone3gene1ATHH3GBHistone3gene2ATH4GAHistone4gene1ATHLHCP1CABATHTUBAα-tubulin5-enolpyruvy14hifate3-phosphatesynthetase1BertholletiaexcelsaHighmethioninestorage2proteinBrassicacampestrisAcylcarrierprotein3BrassicanapusBNANAPNapinBrassicaoleaceaBOLSLSGRS-locusspecificglycoproteinCanavaliaensiformisCENCONAConcanavalinACaricapapayaCPAPAPPapainChlamdomonasreinbardtiiCREC552PreapocytochromeCRERBCS1RuBPCsmallsubunitgene1CRERBCS2RuBPCsmallsubunitgene2CucurbitapepoCUCPHTPhytochromeCucumissativusCUSGMSGlyoxosomalmalatesynthetaseCUSLHCPACABCUSSSURuBPCsmallsubunitDaucuscarotaDAREXTExtensinDAREXTR33KDextensinrelatedproteinDolichosbiflorusDBILECSseedlectinFlaveiatrincrviaFTRBCRRuBPcsmallsubunitlycinemaxSOY7SAA7sstorageproteinSOYACTIGActin1SOYCIIPICIIproteaseinhibitorSOYGLYALAGlycininAlaBxsubunitsSOYGLYAABGlycininA5A4B3subunitsSOYGLYABGlycininA3/b4subunitsSOYGLYRGlycininA2BlasubunitsSOYHSP175LowMWheatshockproteinsSOYLGBILeghemoglobinSOYLEALectinSOYLOXLipoxygenase1SOYNOD20G20KDanodulinSOYNOD23G23KDanodulinSOYNOD24H24KDanodulinSOYNOD26B26KDanodulinSOYNOD26R26KDanodulinSOYNOD27R27KDanodulinSOYNOD35M35KDanodulinSOYNOD7575KDanodulinSOYNODR1NodulinC5SOYNODR2NodulinE27SOYPRP1ProlinerichproteinSOYRUBPRuBPCsmallsubunitSOYURAUreaseSOYHSP26AHeatshockprotein26A
表1(續(xù))屬/種基因庫蛋白質參考資料Nuclear-encodedchloroplast4heatshockprotein22KDanodulin5β1tubulin6β2tubulin6GossypiumhirsutumSeedglobulin(vicilin)7Seedglobulin(vicilin)7HelianthusannusHNNRUBCSRuBPCsmallsubunit2Salbuminseedstorageprotein8IpomocabatatasWound-inducedcatalase9LemnagibbaLGIAB19CABLGIR5BPCRuBPCsmallsubunitLupinusluetusLUPLBRleghemoglobinILycopersiconesculentumTOMBIOBRBiotinbindingproteinTOMETHYBREthylenebiosynthesisproteinTOMPG2ARPolygalacturonase-2aTOMPSITomatophotosystemIproteinTOMRBCSARuBPCsmallsubunitTOMRBCSBRuBPCsmallsubunitTOMRBCSCRuBPCsmallsubunitTOMRBCSDRuBPCsmallsubunitTOMRRDRipeningrelatedproteinTOMWIPIGWoundinducedproteinaseinhibitorITOMWIPIIWoundinducedproteinaseinhibitorIICAB1A10CAB1B10CAB3C10CAB411CAB511MedicagosativaALFLB3RLeghemoglobinIIIMessmbryanthemunicrstallinumRuBPCsmallsubunit12NicotianaplumbaginifoliaTOBATP21MitochondrialATPsynthaseβsubunit13Nitratereductase13Glutaminesynthetase14NicotianatabacumTOBECHEndochitinaseTOBGAPAAsubunitofchloroplastG3PDTOBGAPBBsubunitofchloroplastG3PDTOBGAPCCsubunitofchloroplastG3PDTOBPR1ARPathogenesisrelatedprotein1aTOBPR1CRPathogenesis-relatedprotein1cTOBPRPRPathogenesisrelatedprotein1bTOBPXDLFPeroxidaseTOBRBPCORuBPCsmallsubunitTOBTHAURTMV-inducedproteinhomologoustothaumatinPercusamcricanaAVOCELCellulasePetroselinum
表1(續(xù))屬/種基因庫蛋白質參考資料hortensePIIOCHLChalconesynthasePetuniasp,PETCAB13CAB13PETCAB22LCAB22LPETCAB22RCAB22RPETCAB25CAB25PETCAB37CAB37PETCAB91RCAB91RPETCHSRChalconesynthasePETGCR1Glycine-richproteinPETRBCSO8RuBPCsmallsubunitPETRBCS11RuBPCsmallsubunit70KDaheatshockprotein15PhascolusvulgarisPHVCHMChitinasePHVDLECAPhytohemagglutininEPHVDLECBPhytohemagglutininLPHVGSR1Glutaminesynthetase1PHVGSR2Glutaminesynthetase2PHVLBALeghemoglobinPHVLECTLectinPHVPALPhenytalanineammonialyasePHVPHASARαphaseolinPHVPASBRβphaseolinArcelinseedprotein16Chalconesynthase17PisumsativumPEAALB2SeedalbuminPEACAB80CABPEAGSR1Glutaminesynthetase(nodule)PEALECALectinPEALEGALeguminPEARUBPSRuBPCsmallsubunitPEAVIC2VicilinPEAVIC4VicilinPEAVIC7VicilinAlcholdehydrogenase118Glutaminesynthetase(leaf)19Glutaminesynthetase(root)19Histone120Nuclearencodedchloroplast4heatshockproteinRaphanussativusRuBPCsmallsubunit21RicinuscommunisRCCAGGAgglutininRCCRICINRicinRCCICL4IsocitratelyaseSitenepratensisSIPFDXFerrodoxinprecursorSIPPCYPlastocyaninprecursorSinapisalbaSALGAPDHNucleargeneforG3PDSolanumtuberosumPOTPATPatatinPOTINHWIWound-inducedproteinaseinhibitorPOTLS1GLight-inducibletissuespecificST-LS1GENEPOTP12GWound-inducedproteinaseinhibitorIIPOTRBCSRuBPCsmallsubunit
表1(續(xù))屬/種基因庫蛋白質參考資料Sucrosesynthetase22SpinaciacleraceaSPIACPIAcylcarrierproteinISPIOEC1616KDaphotosyntheticoxygen-evolvingproteinSPIOEC2323KDaphotosyntheticoxygen-evolvingproteinSPIPCGPlastocyaninSPIPS3333KDaphotosyntheticwateroxidationcomplexprecursorGlycolateoxidase23ViciafabaVFALBALeghemoglobinVFALEB4LeguminBVicillin2453單子葉植物編碼順序庫從基因庫(Genbank)中獲得(釋放55個),或如果基因庫中的申請名沒有指定說明,可直接從公布的來源中獲得它們是AvenasativaASTAP3RPhytochrome3HordeumvulgareBLYALRAleurainBLYAMY1αamylase1BLYAMY2αamylase2BLYCHORD1HordeinCBLYGLUCBβglucanaseBLYHORBB1hordeinBLYPAPIAmylase/proteaseinhibitorBLYTH1ARToxinαhordothioninBLYUBIQRUbiquitinHistone325Leafspecificthionin126Leafspecificthionin226Plastocyanin27OryzasativaRICGLUTGGlutelinGlutelin28TriticumaestivumWHTAMYAαamylaseWHTCABCABWHTEMREmproteinWHTGIRgibberellinresponsiveproteinWHTGLGBγgliadinWHTGLIABAα/βgliadinClassAIIWHTGLUT1HighMWgluteninWHTH3Histone3WHTH4091Histone4WHTRBCBRuBPCsmallsubunitSecalecerealeRYESECGSRγsecalinZeamaysMZEA1G40.1KDA1protein(NADPH-dependentreductase)MZEACTIGActinMZEADH11FAlcoholdehydrogenase1MZEADH2NRAlcoholdehydrogenase2MZEALDAldolaseMZEANTATP/ADPtranslocatbr.
MZEEG2RGlutelin2MZEGGST3BGlutathioneStransferase
表1(續(xù))屬/種基因庫蛋白質參考資料MZEH3C2Histone3MZEH4C14Histon4MZEHSP70170KDHeatshockprotein,exon1MZEHSP70270KDHeatshockprotein,exon2MZELHCPCABMZEMP13LipidbodysurfaceproteinL3MZEPEPCRPhosphoenolyruvatecarboxylaseMZERBCSRuBPCsmallsubunitMZESUSYSGSucrosesynthetaseMZETP12Triosephosphateisomerase1MZEZEA20M19KDzeinMZEZEA30M19KDzeinMZEZE15A315KDzeinMZEZE1616KDzeinMZEZE19A19KDzeinMZEZE22A22KDzeinMZEZE22B22KDzeinCatalase229RegulatoryC1locus30
Bt密碼子是從對下列基因的編碼順序分析中得Btvar.kuratakiHD-73,6.6kbHindⅢfragment(Kronstadetal.(1983)J.Bacteriol.154419-428);Btvar,KuratakiHD-1,5.3kbfragment(Adangetal.(1987)inBiotechnologyinInvertenrarePathologyandCellCulture,K.Maramorosh\(ed.),AcademicPress,Inc.NewYork,pp.85-99);Btvar.kurstakiHD-1,4.5kbfragment(SchnepfandWhiteley(1985)J.Biol.Chem.2606273-6280);andBtvar.tenebrionis,3.0kbHindⅢfradment(Sekareal.(1987)Proc.Natl.Acad.Sci.847036-7040).
參考資料1.Klee,H.J.etal.(1987)Mol.Gen.Genet.210437-442.
2.Altenbach,S.B.etal.(1987)PlantMol.Biol.8239-250.
3.Rose,R.E.etal.(1987)Nucl.AcidsRes.157197.
4.Vierling,E.etal.(1988)EMBOJ.7575-581.
5.Sandal,N.N.etal.(1987)Nucl.AcidsRes.151507-1519.
6.Tingey,S.V.etal.(1987)EMBOJ.61-9.
7.Chlan,C.A.etal.(1987)PlantMol.Biol.9533-546.
8.Allen,R.D.etal.(1987)Mol.Gen.Genet.210211-218.
9.Sakajo,S.etal.(1987)Eur.J.Biochem.165437-442.
10.Pirersku,E.etal.(1987)PlantMol.Biol.9109-120.
11.Ray,J.etal.(1987)Nucl.Acids.1510587.
12.DeRocjer,E.j.etal.(1987)Nucl.AcidsRes.156301.
13.Cslza,R.etal.(1987)Mol.Gen.Genet.209552-562.
14.Tingey,S.V.andCoruzzi,G.M.(1987)PlantPhys.84366-373.
15.Winter,J.etal.(1988)Mil.Gen.Genet.211315-319.
16.Osborn,T.C.etal.(1988)Science240207-210.Genet.207446-454.
17.Pyder,T.B.etal.(1987)Mol.Gen.Genet.210219-233.
18.Llewellyn,D.J.etal.(1987)J.Mol.Biol.195115-123.
19.Tingey,S.V.etal.(1987)EMBOJ.61-9.
20.Gantt,J.S.andKey,J.L.(1987)Eur.J.Biochem.166119-125.
21.Guidet,F(xiàn).andFourcroy,P.(1988)Nucl.AcidsRes.162336.
22.Salanoubat,M.andBelliard,G.(1987)Gene6047-56.
23.Volokita,M.andSomerville,C.R.(1987)J.Biol.Chem.26215825-15828.
24.Bassner,R.etal.(1987)Nucl.AcidsRes.159609.
25.Chojecki,J.(1986)CarlsbergRes.Commun.51211-217.
26.Bohlmann,H.andApel,K.(1987)Mol.Gen.
27.Nielsen,P.S.andGausing,K.(1987)FEBS-3558.Lett.225-159-162.
28.Higuchi,W.andFukazawa,C.(1987)Gene55245-253.
29.Bethards,L.A.etal.(1987)Proc.Natl.Acad.Sci.USA846830-6834.
30Paz-Ares,J.etal.(1987)EMBOJ.63553-3558.
舉例來說,雙子葉植物用AAG密碼子編碼賴氨酸的頻率是61%,用AAA密碼子的頻率為39%,相反,在Bt蛋白中賴氨酸密碼子AAG和AAA使用頻率分別是13%和87%。本領域的人都知道很少使用的密碼子對那個系統(tǒng)常常是不利的,必須避免或謹慎地使用。因此,在設計編碼Btt晶狀蛋白的合成基因時,改變原先Btt基因中的單個氨基酸密碼子,可反映雙子葉植物基因編碼一個特定氨基酸的優(yōu)先密碼子。但是,必須注意保持基因編碼區(qū)域中每個氨基酸密碼子的總體上分布。舉例來說,就丙氨酸而言,從表1可見GCD密碼子在Bt蛋白質中使用的頻率是50%,而密碼子GCT在雙子葉植物蛋白質中是優(yōu)選密碼子。在設計合成Btt基因中,不是所有的在原先Btt基因中編碼丙氨酸密碼子均被GCT代替,而只是一部分密碼子換成GCT,另外的則用不同的丙氨酸密碼子代換,以保持在雙子葉植物蛋白質中編碼丙氨酸的密碼子的總體分布。表1中的C欄證明這個目標達到了,雙子葉植物蛋白質中密碼子使用頻率(A欄)與合成的Btt基因中所使用的非常相近(C欄)。
用類似的方法可以使編碼殺蟲晶狀蛋白的合成基因達到最佳,以提高在單子葉植物中的表達。表1中,D欄顯示了在高表達的單子葉植物的密碼子使用頻率。
由于基因密碼的簡并性,只有部分基因中的變化可在此蛋白質中表達。很明顯,簡并堿基頻率中的變化不是一個無偏向性的現(xiàn)象,因為已報導在細菌、酵母及哺乳類基因中有系統(tǒng)性密碼子優(yōu)選。對大量的植物基因順序的分析表明同義密碼子在單子葉和雙子葉植物中有不同的使用。這些模式與報道的大腸桿菌、酵母和人類中的也不同。
總的來說,植物密碼子使用模式類似于人類及其它高級真核生物而不是單細胞生物,因為在密碼子第三位上G+C含量總體上是優(yōu)選的。在這個樣品中,單子葉植物與人類基因樣品中的報導(Granthametal.1986,上述)一樣共有18個最常用的氨基酸密碼子中的13個,盡管雙子葉植物在最常用人類18個氨基酸密碼子中只利用7個。
關于植物密碼子使用的討論集中在植物核基因及葉綠體中密碼子使用的區(qū)別。葉綠體與高級植物的不同是它只編碼30種tRNA。因為葉綠體限制了它的tRNA基因,葉綠體編碼的蛋白對優(yōu)選密碼子的使用顯得更加嚴重。然而,編碼一個給定氨基酸的同功tRNA水平上與這個密碼子在葉綠體基因組中使用的頻率已報道呈正相關。(Pfitzingeretal.(1987)Nucl.AcidsRes.151377-1386)。
我們對植物基因樣品的分析證實了早先的報道,即植物中核及葉綠體基因組具有不同的編碼方式。在這個樣品中,單子葉植物中所用密碼同葉綠體中所用的顯著不同,僅共享最常用的18個氨基酸密碼子中的一個。雙子葉植物在這個樣品中只共享葉綠體最常用18個氨基酸密碼子中的4個,總的來說,葉綠體密碼子的外形與單細胞生物的更相似,有強的傾向于在簡并的第三個堿基上選用A+T。
在單細胞生物中,高表達的基因與低表達力的基因相比選用更少部分的密碼子,雖然優(yōu)先密碼子在有些情況下顯著不同。Sharp和Li(1986)Nucl.AcidsRes.147734-7749報道在165個大腸桿菌基因中密碼子的使用,顯示在高表達力和增強的密碼子偏向性間有一個正相關。Bennetzen和Hall(1982)(上述)描述了酵母中密碼子使用有類似的傾向。在這些高表達的基因中的密碼子使用與在酵母和大腸桿菌中具有豐富的同功tRNA有關??赡苁桥c豐富的同功受體tRNA相適應的豐富的酵母及大腸桿菌mRNA密碼子使用保證了這些蛋白質的高翻譯水平和高穩(wěn)定狀態(tài)。這點有力地表明,植物基因在酵母和大腸桿菌中高水平表達的潛力受到它們的密碼子使用的限制。Hoekemaetal.(1987)(上述)報道在高表達基因PGK15′端用很少用的密碼子置換25個最常使用的酵母密碼子后,導致DNA和蛋白產量的降低。這些結果表明,在酵母及其它系統(tǒng)中建立高表達的外源基因時,需強調密碼子選擇的偏向性。
(ⅲ)在Btt編碼區(qū)中的順序有潛在的使不穩(wěn)定的影響。
對Btt基因的分析顯示A+T含量占編碼區(qū)中DNA堿基組成的64%,這個A+T水平比在典型植物編碼區(qū)中發(fā)現(xiàn)的要高大約10%。通常,高A+T區(qū)域存在于基因間隔區(qū)中,另外,許多植物調節(jié)順序也被發(fā)現(xiàn)是高AT區(qū)。從這個現(xiàn)象中得到這樣一個結論,即在Btt編碼區(qū)中提高A+T的含量,可能引起植物中的低表達水平。因而,在設計合成Btt基因時,把A+T含量降低到更接近于植物中的A+T水平。如表3所示的,A+T含量被降低,使其與在植物核基因中編碼順序中的保持一致。本發(fā)明的合成Btt基因的A+T含量為55%。
表3Btt編碼區(qū)的A+T含量堿基G+C%A+T%編碼區(qū)GATC天然Btt基因3416335143063664合成Btt基因3925304834284555除此之外,檢查天然Btt基因中的BttRNA有潛在的不穩(wěn)定影響的順序。這些順序在天然Btt基因中鑒定出后,通過核苷酸順序修飾而去除。屬于這組具有潛在的不穩(wěn)定影響的順序有(a)植物多聚腺苷化(polyadenylation)信號區(qū)(如Joshi(1987)Nucl.AcidsRes159627-9640所描述)。在真核生物中,核基因的初級轉錄本被廣泛地進行加工(包括5′加帽,內含子剪接,多聚腺苷化),形成成熟的可翻譯的mRNA。在較高級植物中,多聚腺苷化包括在polyA位點處核苷酸基的內切,接著在被切末端加上幾個腺嘌呤殘基。polyA位點的選擇被認為是順式調控的。當Bt蛋白及RNA在不同的植物中表達時,本發(fā)明人觀察到從這些表達系統(tǒng)中分離得到的多聚腺苷化mRNA不是全長度的,而是被截短或降解的。由此,在本發(fā)明中,決定通過去除合成Btt基因編碼區(qū)中的潛在性多聚腺苷化信號區(qū)來減少RNA可能的不穩(wěn)定性。當檢查無錯配的順序時,植物多聚腺苷化信號區(qū)包含AATAAA、AATGAA、AATAAT、AATATT、GATAAA、GATAAA、及AATAAG型不在Btt基因中出現(xiàn)。
(b)多聚酶Ⅱ終止順序CAN7-9AGTNNAA這個順序(VankanandFilipowicz(1988)(EMBO.J7791-799)與Arabidopsisthaliana的SnRNA基因編碼區(qū)3′端鄰接,并且被相信對轉錄終止3′端加工是很重要的。
(c)CUUCGG發(fā)夾結構,與在各種各樣生化加工中極為穩(wěn)定的RNA二級結構有關。(Tuerketal.(1988)Proc.Natl.Acad.Sci851364-1368)。CUUCGG發(fā)夾的特殊的穩(wěn)定性意味著它具有不尋常的結構,并且可能在對復雜RNA結構作適當?shù)恼郫B中起作用。在Btt編碼區(qū)中,沒有發(fā)現(xiàn)CUUCGG發(fā)夾狀順序有一個錯配現(xiàn)象。
(d)植物一致剪接位點,5′=AAG∶GTAAGT和3′=TTTT(Pu)TTT(Pu)T(Pu)T(Pu)T(Pu)TGCAG∶C,如Brownetal.(1986)EMBO。J.52749-2758所描述的。5′和3′剪接處的一致順序是分別來自20和30個植物內含子順序。雖然有Bt基因中似乎不存在這種潛在的剪接順序,已開始在合成Bt基因中尋找類似于植物一致剪接位點的順序。對于5′剪接位點,離它最近的匹配有三個錯配點。這就得到12個順序,其中兩個有G∶GT。只有在948處有改變,因為1323處有在重新構建時需要的KpnI位點,3′剪接位點在合成Btt基因中沒有發(fā)現(xiàn)。
因此,通過對潛在性的使RNA不穩(wěn)定的順序的進行著重處理,在合成Btt基因的設計中去除了影響RNA合成及加工的已知真核生物調控順序。
實施例2,一個經修飾的Btt結構基因的化學合成(ⅰ)合成方法在圖2中簡要示意了合成在Btt中編碼晶狀蛋白的線性雙鏈DNA順序的一般方法。最佳DNA編碼順序(
圖1)被分成十三個片段(A-M片段),每段單獨合成,分離和純化。如圖2中所表示的,一般方法一開始是用酶把A片段和M片段連結起來形成AM片段,然后接到BL片段上形成ABLM片段,然后用酶把片段CK接到片段ABCKLM上,通過依次加上片段DJ、EI,最后給出總片段ABCDEFGHIJKLM,代表了Btt基因的整個編碼區(qū)域。
圖3更詳盡地概括了把單獨的DNA片段連結起來的方法,以合成一個其獨一的限制性位點,被整合到一個特定的核苷酸順序上的基因。十三個片段(A-M)中的每一個片段在兩端均具有獨一的限制性位點,使得各片段能按計劃地剪接到一個不斷增長的DNA多聚體上。同樣,在基因的每個末端加上獨一位點,可使它容易地從一個載體轉移到另一個載體上。
十三個用來構建合成基因的片段(A-M)在大小上不同。大致有75個核苷酸組成的寡核苷酸對被用來構建大約有225個核苷酸對的更大的片段。圖3證明了每個片段中所含堿基對的數(shù)目,并且詳細說明了鄰接每個片段的獨一的限制性位點。在圖3中還詳述了把這些特定的片段結合在合適的剪接位點上的總的方法。
(ⅱ)寡聚脫氧核苷酸的制備制備用于合成包含Btt基因的DNA順序的寡聚核苷酸是按照一般步驟進行的,如Matteuccietal.(1981)J.Am.Chem.Soc.1033185-3192和Beaucageetal.(1981)TetrahedronLett.221859-1862所描述的。所有的寡聚核苷酸是通過固相磷酰胺三酯偶聯(lián)法制備的,使用應用生化系統(tǒng)樣品380ADNA合成劑。(AppliedBiosystemsModel380ADNASynthesizer)。按標準步驟將寡聚體從固相支持物上去保護及裂解,粗制寡聚核苷酸混合物用寡聚核苷酸純化柱進行純化,如Mc-Brideetal.所描述(1988)Biotechniques6362-367。
寡聚核苷酸的5′磷酸化用T4多聚核苷酸激酶進行。反應包含2微克(μg)的寡聚核苷酸及18.2單位的多聚核苷酸激酶(Pharmacia),在接頭激酶緩沖液中進行(Maniatis(1982)Cloning Manual,F(xiàn)ritsch and Sambrood(eds.)Cold Spring Harbour Laboratory Cold Spring Harbour,NY)。該反應在37℃孵育1小時。
寡聚核苷酸的退火是先加熱到95℃5分鐘,然后使互補的堿基對慢慢冷卻到室溫。退火形成的堿基對再加熱到65℃,和溶液一起,然后慢慢冷卻到室溫,保存在冰上,直到使用。連接起來的混合物可以用4%的Nusieve瓊脂糖凝膠電泳純化,切下連接的雙螺旋的相應電泳帶,從瓊脂糖中抽提出DNA,用乙醇沉淀。
連接反應的進行如以M片段為例說明的將M片段DNA在65℃放置25分鐘,加入所需載體,整個反應混合物在65℃孵育15分鐘,反應在1-1/2小時內慢慢冷卻到室溫,加入0.5mMATP及3.5單位的T4RNA連接酶鹽(Ligase salts),反應混合物在室溫下孵育2小時,然后在15℃過夜。次日晨,未連在M片段DNA上的載體用EcoRI酶切線性化去除,與M片段DNA相連接的載體用來轉化大腸桿菌MC1061。含有插入片段的菌落通過與以32P標記的寡聚核苷酸為探針的菌落雜交來鑒定。通過分離質粒DNA并用Sanger等人(1977)Proc.Natl.Acad.Sci.745463-5467雙脫氧測序法來證實DNA片段的順序。
(ⅲ)AM片段的合成將三個寡聚核苷酸對(A1及它的互補鏈A1C,A2及A2C,A3及A3C)組裝起來,象上所描述的一樣連接形成片段A,片段A的核苷酸順序如下
在表4中,粗線區(qū)列開單獨的寡聚核苷酸片段,A1含71個堿基,A1C有76個堿基,A2有75個堿基,A2C有76個堿基,A3有82個堿基,A3C有76個堿基??偟膩碚f,片段A由228個堿基對組成,包含在EcoRI限制性內切酶位點及一被破壞的EcoRI位點(5′)J之間。(片段A中其它的限制性內切酶位點已標明)。EcoRI單鏈粘性末端使片段A可通過退火然后與經EcoRI酶切的克隆載體PIC20K相連結。
片段M由3個寡聚核苷酸對組成M1,80個堿基;M1C,86個堿基;M287個堿基;M2C,87個堿基;M3,85個堿基;M3C,79個堿基。單獨的寡聚核苷酸依上所描述那樣退火并連接。片段M的所有核苷酸順序如下
在表5中,粗線區(qū)分開單獨的寡聚核苷酸。片段M包含252個堿基對,兩端為破壞了的EcoRI限制性位點(M片段中其余的限制性位點被標明)。片段M在一個EcoRI限制性位點插入載體PIC20K中,并且被克隆。
如圖3中所顯示,片段M在它被包含的質粒中與片段A連結。片段M在側面限制性位點處從克隆載體上切除,通過HindⅢ隨后是BglⅡ剪接入載有片段A的PIC20K中,所得到的PIC20K載體含有與片段M連結的片段A,在剪接位點上有一個HindⅢ位點(見圖3)PIC20K質粒是通過從PIC20K上去除SCaI-NdeIDNA片段,插入一個含NPTI編碼區(qū)的HindⅡ片段而得到的。所得的4.4Kb質粒使大腸桿菌對卡那霉素產生抗性。
實施例3,在細菌系統(tǒng)中合成晶狀蛋白基因的表達。
合成Btt基因被設計成能在它所構建的PIC20R-Kan載體中表達。此表達利用PIC20K的LacZ蛋白的啟始甲硫氨酸產生。通過這種方式表達的野生型Btt晶狀蛋白順序具有完全的殺蟲活性。另外,此合成基因被設計成在啟始甲硫氨酸密碼鄰近的5′端含一BamHI位點。末尾TAG翻譯終止密碼子3′端有一BglⅡ位點,這樣可使殺蟲晶狀蛋白編碼區(qū)克隆進細菌表達載體如PDR540(RussellandBennett,1982)變得容易。質粒PDR540含有TAC啟動子,在受控制的條件下可使包括Btt晶狀蛋白在內的蛋白產量達到整個細菌蛋白質產量的10%。在許多革蘭氏陰性細菌包括大腸桿菌及假單孢菌(Pseudomonas)中這個啟動子都起作用。在細菌中從合成基因產生的Bt殺蟲晶狀蛋白證明產生的蛋白對鞘翅目昆蟲(coleopterahinsects)具有預期的毒性。這些重組細菌本身具有潛在的作為微生物殺蟲劑即合成基因的產物的價值。
實施例4在植物中合成晶狀蛋白基因的表達合成Btt晶狀蛋白基因被設計成可使之容易地克隆進表達盒(expressioncassettes),它利用了合成基因側面與BamHI及BglⅡ限制性位點一致的位點。表達盒中使用了包括CaMV355,CaMV19s的植物啟動子和來自T-DNA的ORF24啟動子,這些表達盒提供了對植物中蛋白質表達非常重要的識別信號,這些表達盒被用在微小Ti質粒如PH575中。由植物表達信號指導的包含合成Btt基因的質粒如PH575,在去臂(disarmed)Agrobacteriumtumefaciens中應用,將合成基因引入植物基因組DNA中。這個系統(tǒng)以前曾被Adang等人(1987)描述過,用來表達在煙草植物中的BtKrustaki變種晶狀蛋白。這些煙草植物對以煙草為食的天蛾科幼蟲(hornworm)有毒。
實施例5,殺蟲活性的檢測生物檢測主要如Sekal,V.et al.(上述)所描述,毒性是通過估計LD50來確定的。質粒在大腸桿菌JM105中生長(Yanisch-Perron,C.et al.(1985)Gene 33103-119)。經檢測,在克分子水平上(molar basis),由P544 Pst-Met5,P544-HindⅢ,及PNSBP544編碼的晶狀蛋白的毒性沒有顯著性差異。在完全相同的條件下在植物中表達時,包含由合成基因編碼的蛋白質的細胞經觀察比含有由天然Btt基因編碼的蛋白質的細胞毒性更大,細胞培養(yǎng)物的免疫印跡(Westernblots)顯示那些毒性更強的細胞具有更多的晶狀蛋白抗原。與天然Btt基因的表達相關的合成Btt基因的提高的表達可以用在Northern印跡檢測中,對合成Btt基因表達物中的特定的mRNA轉錄本進行定量的能力來表示。
權利要求
1.一種設計來在植物中高表達的合成基因,其特征在于它包括一個編碼與天然的Bt殺蟲蛋白質功能相當?shù)臍⑾x蛋白質的DNA順序。
2.如權利要求1所述的合成基因,其特征在于所說的DNA順序至少有約85%與天然Btt殺蟲蛋白質基因同源。
3.如權利要求1所述的合成基因,其特征在于所說的DNA順序是
圖1中所顯示的1~1793的核苷酸。
4.如權利要求1所述的合成基因,其特征在于所說的DNA順序是
圖1中所顯示的1~1833的核苷酸。
5.如權利要求1所述的合成基因,其特征在于所說的合成基因的完整編碼區(qū)中優(yōu)先密碼子使用的總頻率是在植物中優(yōu)先密碼子使用的頻率的約75%之內。
6.如權利要求1所述的合成基因,其特征在于所說的DNA順序中A+T堿基的含量與植物結構基因中的A+T堿基含量基本相等。
7.如權利要求1所述的合成基因,其特征在于植物啟始順序在編碼區(qū)的5′末端。
8.如權利要求1所述的合成基因,其特征在于包括具有AATAAA、AATGAA、AATAAT、AATATT、GATAAA、GATAAA和AATAAG形式在內的植物多聚腺苷酸化信號區(qū)在所說的DNA順序中被刪除。
9.如權利要求1所述的合成基因,其特征在于聚合酶Ⅱ終止順序,CAN7-9AGTNNAA在所說的DNA順序中被刪除。
10.如權利要求1所述的合成基因,其特征在于CUUCGG發(fā)夾(環(huán))在所說的DNA順序中被刪除。
11.如權利要求1所述的合成基因,其特征在于包括5′=AAG∶GTAAGT和3′=TTTT(Pu)TTT(Pu)T(Pu)T(Pu)T(Pu)TGCAG∶C在內的植物一致剪接位點在所說的DNA順序中被刪除。
12.如權利要求1所述的合成基因,其特征在于在經選擇的宿主細胞中CG和TA二聯(lián)體空缺指數(shù)與高表達基因的基本相同。
13.一種重組DNA克隆載體,其特征在于它包括所說的權利要求1的合成基因。
14.一種植物細胞,其特征在于它包含權利要求1的合成基因。
15.一種產生對昆蟲有毒性的蛋白質的改進的方法,其特征在于它包括將含有經設計的在植物中高表達的合成基因的DNA片段引入宿主植物細胞的步驟,所說的合成基因包括編碼與天然的Bt殺蟲蛋白質功能相當?shù)臍⑾x蛋白質的DNA順序,這樣,所說的合成基因就在所說的植物宿主中被表達。
全文摘要
本發(fā)明提供了經設計的在植物中以比天然存在的Bt基因更高水平表達的合成的蘇云金桿菌毒素基因。這些基因采用了在高表達的單子葉或雙子葉植物蛋白質中優(yōu)選的密碼子。
文檔編號A01H5/00GK1044298SQ8910715
公開日1990年8月1日 申請日期1989年9月9日 優(yōu)先權日1988年9月9日
發(fā)明者邁克爾·J·阿丹, 湯姆斯·A·羅克爾洛, 唐納德·J·梅洛, 伊麗莎白·E·默里 申請人:盧布里紹爾遺傳學股份有限公司