專利名稱:一種編碼糖基水解酶家族9的纖維素酶的基因及其應(yīng)用的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種新的編碼糖基水解酶家族9的纖維素酶的基因,特別是涉及克隆自堆肥未培養(yǎng)微生物的一種新的編碼糖基水解酶家族9的纖維素酶的基因,該基因編碼的蛋白質(zhì)可用于纖維素的降解。
背景技術(shù):
纖維素主要是植物用二氧化碳和水在太陽能作用下通過光合作用合成的地球上最豐富的可再生的生物質(zhì)(biomass)資源。據(jù)報道,全球每年通過光合作用產(chǎn)生的纖維素高達1.55×109噸,其中89%尚未被人類利用(DunlapC.Chiang G C.Utilization and recycle of agriculture wastes and residues.ShulerM L.Boca Raton,F(xiàn)lorida.USACRC Press Inc.1980.19)。纖維素是多個葡萄糖殘基以β-1,4-糖苷鏈連接而成的多聚物,其基本重復單位為纖維二糖。天然纖維素的基本結(jié)構(gòu)是由原纖維構(gòu)成的微纖維束集合而成。原纖維是由15-40根有結(jié)晶區(qū)和非結(jié)晶區(qū)構(gòu)成的纖維素分子長鏈所組成。纖維素的結(jié)晶部分是由纖維素分子進行非常整齊規(guī)劃地折迭排列形成。在天然纖維素中,木質(zhì)素和半纖維素形成牢固結(jié)合層,緊密地包圍纖維素。纖維素酶是能將纖維素轉(zhuǎn)化成葡萄糖的一系列酶的總稱,包括三類酶即內(nèi)切-β-1,4-葡聚糖酶(endo-β-1,4-glucanase,EC 3.2.1.4)、外切葡聚糖酶(exoglucanase,又叫纖維二糖水解酶cellobiohydrolase,EC3.2.1.91)和β-葡萄糖苷酶(β-glucosidase,EC3.2.1.21),這三種酶協(xié)同作用能將纖維素轉(zhuǎn)化成葡萄糖。內(nèi)切葡聚糖酶作用于纖維素長鏈分子的內(nèi)部將長纖維切成短纖維,外切葡聚糖酶作用于纖維素分子的一端,以兩個葡萄糖殘基為單位進行切割生成纖維二糖,β-葡萄糖苷酶切割纖維二糖生成葡萄糖(Tomme P,Warren R A J,Gilkes N R.1995.Cellulose hydrolysis bybacteria and fungi.Adv.Microbiol.Physiol.,371-81.1995;BhatM K,Bhat S.1997.Cellulose degrading enzymes and their potentialindustrial applications.Biotechnology Advances,15583-620)。葡萄糖可作為重要的工業(yè)原料生產(chǎn)酒精、丙酮等化工產(chǎn)品。纖維素的利用與轉(zhuǎn)化對于解決世界能源危機、糧食和飼料短缺、環(huán)境污染等問題具有重要意義。纖維素酶可廣泛應(yīng)用于釀酒、飼料、食品、紡織、造紙等行業(yè)。如纖維素酶作為飼料添加劑可增加飼料的可消化性,減少排泄的糞便量。纖維素酶可取代浮石進行牛仔褲的“石洗”處理,也可處理其它含纖維織物以降低粗糙度和增加光亮。纖維素酶可添加到洗滌劑中以提高洗滌劑的清潔能力(Bhat M K.2000.Cellulases and related enzymes inbiotechnology.Biotechnology Advances,18355-383)。由于纖維素酶的廣泛用途以及針對不同的用途需要使用不同性質(zhì)的纖維素酶,更由于纖維素酶的效率低、價格高而使以纖維素為原料生產(chǎn)燃料酒精的成本太高以至于無法真正實現(xiàn)產(chǎn)業(yè)化,因此,需要新的纖維素酶。
纖維素酶屬于糖基水解酶類(glycosyl hydrolases),許多糖基水解酶由一個催化功能域和一個或更多個其它的功能域如碳水化合物結(jié)合組件(carbohydrate-bindingmodules,CBMs)組成,根據(jù)催化功能域的氨基酸序列相似性,糖基水解酶類被劃分成不同的家族(families)(Davies G.,Henrissat B.1995.Structures and mechanisms of glycosyl hydrolases.Structure3853-859;Henrissat B.1991.A classification of glycosyl hydrolases based onamino-acid sequence similarities.Biochem.J.280309-316;Henrissat B.,Bairoch A.1993 New families in the classification of glycosyl hydrolases basedon amino-acid sequence similarities.Biochem.J.293781-788;Henrissat B.,Bairoch A.1996.Updating the sequence-based classification of glycosylhydrolases.Biochem.J.316695-696)。根據(jù)Expasy服務(wù)器(server)(http://www.expasy.org/cgi-bin/lists?glycosid.txt)上所列糖基水解酶類的最新清單,目前糖基水解酶類有68個家族,纖維素酶分屬于糖基水解酶類家族3、5、6、7、8、9、12、44、45、48、61。將未知的纖維素酶與已知的纖維素酶做序列同源性比較可對其進行分類。
目前除Rees等(Rees HC,Grant S,Jones B,Grant WD,Heaphy S.2003.Detecting cellulase and esterase enzyme activities encoded by novel genespresent in environmental DNA libraries.Extremophiles.7(5)415-421)報道從湖水和湖床沉積物未培養(yǎng)微生物中克隆到2個纖維素酶基因CRATCEL和HKCEL以及Voget等(Voget S,Leggewie C,Uesbeck A,Raasch C,Jaeger KE,Streit WR.2003.Prospecting for novel biocatalysts in a soil metagenome.ApplEnviron Microbiol.,69(10)6235-6242)報道從土壤未培養(yǎng)微生物中克隆到2個纖維素酶基因gnuB和uvs080外,人類所克隆的所有其它纖維素酶基因都是從人類所培養(yǎng)的微生物中來的,但并不是自然界中所有微生物都是可以被分離、培養(yǎng)的,一般認為可培養(yǎng)的微生物種類只占自然界中微生物種類的1%(Amann R I,Ludwig W,Schleifer K H.1995.Phylogeneticidentification and in situ detection of individual microbial cells withoutcultivation.Microbiol.Rev.59143-169),那么剩余的99%的不可培養(yǎng)的微生物中蘊藏著大量的基因資源。近年來從環(huán)境樣品未培養(yǎng)微生物提取基因組DNA然后構(gòu)建混合基因組DNA文庫以分離基因已是成熟技術(shù)(LorenzP.Schleper C.2002.Metagenome-a challenging source of enzyme discovery.Journal of Molecular Catalysis BEnzymatic 19-2013-19)。由于堆肥是纖維素等被活躍降解的地方,有大量的微生物在進行纖維素、半纖維素、果膠物質(zhì)等的分解,但這些分解性的微生物只有極少部分已被培養(yǎng),還有極大部分未被培養(yǎng),這些未培養(yǎng)微生物中一定含有大量的基因資源如纖維素酶基因資源,其中很可能有些就是優(yōu)于目前所發(fā)現(xiàn)的最好的纖維素酶的高效酶的基因。通過構(gòu)建堆肥未培養(yǎng)微生物的混合基因組DNA文庫,極有可能從中篩選得到比目前已知的最好的纖維素酶還要好的酶的基因。
本發(fā)明通過構(gòu)建堆肥未培養(yǎng)微生物的混合基因組DNA文庫和文庫克隆的纖維素酶活性平板檢測篩選法,得到了新的編碼纖維素酶的基因,可在宿主細胞中大量表達該基因以生產(chǎn)該纖維素酶,用于纖維素的降解。
發(fā)明內(nèi)容
本發(fā)明涉及一種新的編碼纖維素酶的基因umce19A(SEQ ID NO2),其是從堆肥未培養(yǎng)微生物中分離得到。堆肥未培養(yǎng)微生物的DNA(SEQ ID NO1)由2200個堿基組成,含完整的纖維素酶基因umce19A,自5’端的第150-1997位核苷酸為umce19A的開放閱讀框(Open Reading Frame,ORF),自5’端的第150-152位核苷酸為umce19A基因的起始密碼子ATG,自5’端的第1998-2000位核苷酸為umce19A基因的終止密碼子TAA。自5’端的第46-91位核苷酸為啟動子;自5’端的第48-53位核苷酸為啟動子的-35區(qū);自5’端的第72-77位核苷酸為啟動子的-10區(qū);自5’端的第140-145位核苷酸為SD序列。攜帶該基因的質(zhì)粒pGXN9001已在中國普通微生物菌種保藏管理中心保存,保存編號為CGMCC No.1039,保存日期為2003年11月24日,保藏的微生物為大腸埃希氏菌(Escherichiacoli)EPI100/pGXN9001。
SEQ ID NO3的蛋白質(zhì)是基因umce19A編碼的纖維素酶產(chǎn)物Umce19A,由616個氨基酸組成,自N端的第1-29位氨基酸為信號肽,自N端的第63-154位氨基酸為纖維素酶的N-末端類ig功能域(N-terminal ig-likedomain of cellulase),自N端的第162-611位氨基酸為家族9糖基水解酶(glycosyl hydrolase)功能域,和Umcel9A催化功能域同源性最高的為野油菜黃單胞菌野油菜致病變種(Xanthomonas campestrispv.campestris)的內(nèi)切-1,4-β-D-葡聚糖酶前體EGL2(TrEMBL索引號Q9RBJ4;da Silva AC et al.2002,Comparison of the genomes of twoXanthomonas pathogens with differing host specificities.Nature.417459-463)的催化功能域(e-值為e-165),兩者的相似性為75%、相同性為60%。
基因umce19A在大腸桿菌中表達的重組產(chǎn)物Umce19A能降解羧甲基纖維素。
本發(fā)明還涉及含有本發(fā)明基因的表達載體,及用于轉(zhuǎn)化本發(fā)明基因的宿主。
本發(fā)明提供了一種新的纖維素酶基因,該基因所編碼的纖維素酶在纖維素的降解中具有廣泛的用途。
圖1為從堆肥樣品中提取的未培養(yǎng)微生物的混合基因組DNA。1λMix(片段大小從大到小依次為48.5kb,38.4kb,33.5kb,29.9kb,24.5kb,24.0kb,19.4kb,17.1kb,15.0kb,12.2kb,10.1kb,8.6kb,8.3kb);2BamHI酶切的混合基因組DNA;3未酶切的混合基因組DNA;4未酶切的λDNA(48.5kb)。
圖2為堆肥未培養(yǎng)微生物基因文庫克隆的限制性內(nèi)切酶BamHI酶切分析以判斷文庫質(zhì)量。M1λ/EcoRI(片段大小從大到小依次為21.2kb,7.4kb,5.8kb,5.6kb,4.9kb,3.5kb);M21kb ladder(片段大小從大到小依次為10.0kb,8.0kb,6.0kb,5.0kb,4.0kb,3.5kb,3.0kb,2.5kb,2.0kb,1.5kb);M3λ/HindIII(片段大小從大到小依次為23.1kb,9.4kb,6.6kb,4.4kb,2.3kb,2.0kb);其它泳道分別為文庫克隆。
圖3為堆肥未培養(yǎng)微生物基因文庫克隆的篩選。
圖4為能降解羧甲基纖維素的文庫克隆質(zhì)粒pGXN9001的BamHI酶切帶型。1λ/EcoRI(片段大小從大到小依次為21.2kb,7.4kb,5.8kb,5.6kb,4.9kb,3.5kb);21kb ladder(片段大小從大到小依次為10.0kb,8.0kb,6.0kb,5.0kb,4.0kb,3.5kb,3.0kb,2.5kb,2.0kb,1.5kb);3pGXN9001/BamHI。
圖5為初篩獲得的重組質(zhì)粒pGXN9001轉(zhuǎn)化大腸桿菌后得到的轉(zhuǎn)化子能降解羧甲基纖維素(右),而空載體pWEB∷TNC轉(zhuǎn)化大腸桿菌后得到的轉(zhuǎn)化子不能降解羧甲基纖維素(左)。
具體實施例方式
下述實施方式是為了更好的解釋本發(fā)明,而不應(yīng)被解釋為限制本發(fā)明的目的。
在本發(fā)明的實施例中所用到的材料包括大腸桿菌(Escherichia coli)株系EPI100(屬購自Epicentre公司的文庫制備試劑盒pWEB∷TNC cosmidcloning kit(目錄號WEBC931)的一個組分);載體為購自Epicentre公司的柯斯質(zhì)粒載體pWEB∷TNC;購自Epicentre公司的文庫制備試劑盒(pWEB∷TNC cosmid cloning kit,目錄號WEBC931)和缺失柯斯質(zhì)粒轉(zhuǎn)座試劑盒(pWEB∷TNC deletion cosmid transposition kit,目錄號WEBC942),購自Promega、Stratagene、SIGMA、QIAGEN的限制性內(nèi)切酶、修飾酶等試劑。
實施例1.堆肥的堆制堆肥的堆制是在一個自制的1米×1米×1.2米的水泥槽中進行,該槽內(nèi)置通風管道。管道和槽外的一個鼓風機相連。堆肥的配方為稻草,50kg;牛糞,50kg;豬糞,10kg;雞糞,10kg;廢報紙,5kg;農(nóng)村堆肥,80kg;森林土,2.5kg;青草皮,5kg;果園土,2.5kg;菜園土,5kg;竹林土,5kg;酵母粉,0.065kg;硫酸銨,1kg;尿素,0.411kg;水,67kg。把稻草切成5cm左右長,按照上述配方稱取各原材料,把除稻草以外的各配方材料混合均勻,然后再和稻草秸稈混勻,在此過程中添加適量的水,使堆肥的最終含水量控制在59%左右?;旌暇鶆蚝笱b填堆肥發(fā)酵池。供氣方式采用鼓風機強制通氣,從發(fā)酵池底部供氣。加水為從堆肥頂部淋適量的自來水。
實施例2.堆肥未培養(yǎng)微生物的基因組文庫的構(gòu)建取50g堆肥土壤,懸浮在100ml的0.18M磷酸鉀緩沖液(pH7.2)中,充分混勻后在Beckman Coulter Avanti J-E離心機(購自Beckman Coulter公司,目錄號369003)JA-10轉(zhuǎn)頭上用600g離心力離心10分鐘,收集上清液,加入40ml PVPP(聚乙烯聚吡咯烷酮,polyvinylpolypyrrolidone)溶液(PVPP溶液每100mgPVPP(購自Sigma公司,目錄號P-6755)與1ml0.18M磷酸鉀緩沖液(pH7.2)混勻),振蕩30秒,再加入200μl 3M CaCl2溶液,振蕩30秒后,600g離心力離心5分鐘,收集上清液于另一個離心管中。再用同樣的離心機、轉(zhuǎn)頭用8000g離心力離心15分鐘收集上清液中的細菌細胞。將收集到的菌體充分懸浮在1ml TE(10mM Tris/HCl,pH8.0,1mM EDTA,pH8.0)溶液中,加入100μl溶菌酶(20mg/ml,溶于TE溶液),在37℃下作用30分鐘,在Eppendorf5417C離心機(購自Eppendorf公司,目錄號19718)上以10000g離心1分鐘以沉淀細胞,再將細胞充分懸浮在600μl PUREGENE公司的基因組DNA純化試劑盒(Genomic DNAPurification Kit,目錄號R-5500A)的細胞裂解緩沖液(Cell Lysis Solution)中,置80℃水浴鍋5分鐘以裂解細胞,待樣品冷卻到室溫后,加入200μl上述試劑盒中的蛋白質(zhì)沉淀溶液(Protein Precipitation Solution),充分混勻后13000g離心3分鐘,將上清液轉(zhuǎn)移到一個新的1.5ml微量離心管中,加入600μl 100%異丙醇,充分混勻后即見DNA絮狀沉淀析出,挑出DNA絮狀沉淀,用70%乙醇洗2次DNA,干燥后將DNA溶于500μl TE溶液即得DNA粗提物。
將DNA粗提物加到含有Sephadex G200(購自Pharmacia公司,目錄號17-0080-01)和2%PVPP(購自Sigma公司,目錄號P-6755)的層析柱(200mm×10mm)上,用TE緩沖液洗脫,按每組分1ml分部收集洗脫液,每一組分加入100μl的3M醋酸鈉溶液(pH4.8)及1ml異丙醇沉淀DNA,把沉淀物溶于TE中,合并所得DNA溶液(見圖1),0.7%瓊脂糖凝膠電泳后切下含20kb以上的DNA的凝膠,用電洗脫法回收純化DNA。為了用這些純化的DNA制做基因文庫,首先對這些DNA進行末端修補以產(chǎn)生平頭末端而和文庫制備試劑盒中已處理好的同樣具平頭末端的pWEB∷TNC載體相連,依次在冰上向一個新的滅過菌的微量離心管中加入6μl 10X末端修補緩沖液(330mM Tris-醋酸[pH7.8],660mM醋酸鉀,100mM醋酸鎂,5mMDTT),6μl 2.5mM dNTP混合物(每種2.5mM),6μl 10mM ATP,40μl DNA(0.2μg/μl),2μl末端修補酶混合物(T4 DNA聚合酶和T4多聚核苷酸激酶)。25℃下放置45分鐘,再轉(zhuǎn)移到70℃水浴鍋放置10分鐘以終止酶反應(yīng),1.0%低熔點瓊脂糖凝膠電泳后切下含25kb-45kb的DNA的凝膠進行DNA回收,為了使回收片段與文庫制備試劑盒中已處理好的具平頭末端的載體在T4 DNA連接酶的作用下連接起來,依次在冰上向一個新的滅過菌的微量離心管中加入12μl無菌水,2μl 10倍快速連接緩沖液(10X Fast-Link Ligation Buffer),1μl 10mM ATP,1μlpWEB∷TNC載體(0.5μg),3μl低熔點瓊脂糖凝膠回收的25kb-45kb的DNA(0.1μg/μl),1μl快速連接DNA連接酶(Fast-Link DNA Ligase,2單位/μl),混勻后在25℃下放置2個小時,再在70℃放置10分鐘以終止酶反應(yīng)。為了將連接反應(yīng)產(chǎn)物用λ包裝提取物(屬購自Epicentre公司的文庫制備試劑盒pWEB∷TNC cosmid cloning kit(目錄號WEBC931)的一個組分)包裝,將在冰上剛剛?cè)芑摩税b提取物(屬購自Epicentre公司的文庫制備試劑盒pWEB∷TNC cosmid cloning kit(目錄號WEBC931)的一個組分)25μl立即轉(zhuǎn)移到一個新的滅過菌的微量離心管中并快速置于冰上,再往其中加入10μl連接反應(yīng)產(chǎn)物,充分混勻后置于30℃ 90分鐘后,再往其中加入25μl溶化的λ包裝提取物,充分混勻后置于30℃90分鐘,向其中加入500μl噬菌體稀釋緩沖液(10mM Tris-HCl[pH8.3],100mM NaCl,10mM MgCl2),再將該560μl包裝反應(yīng)產(chǎn)物加入到5.6mL的OD600=1.0的宿主大腸桿菌EPI100培養(yǎng)液(培養(yǎng)基為LB[每升含胰蛋白胨(Oxoid),10g;酵母浸出粉(Difco),5g;NaCl,5g;pH7.0]+10mM MgSO4)中,25℃下放置20分鐘讓上述得到的包裝的λ噬菌體吸附和侵染宿主細胞E.coli EPI100,在含氨芐青霉素(100μg/mL)的LA平板上篩選轉(zhuǎn)化子。結(jié)果共獲得約10萬個轉(zhuǎn)化子,任意提取24個克隆的質(zhì)粒DNA,限制性內(nèi)切酶BamHI酶切后0.7%瓊脂糖凝膠電泳分析,結(jié)果所有質(zhì)粒除都有一個5.8kb的載體片段外,都含有插入片段,且沒有發(fā)現(xiàn)有兩個質(zhì)粒具有相同的酶切帶型(見圖2),說明文庫含有非常隨機的插入DNA片段,插入片段最大的為44.2kb,最小的為20.0kb,平均大小為31.1kb。說明文庫的克隆容量也是相當大的,文庫的質(zhì)量相當好。
實施例3.從堆肥未培養(yǎng)微生物的基因組文庫中篩選表達纖維素酶活性的克隆用平板影印法將含氨芐青霉素的LA平板上得到的轉(zhuǎn)化子(每平板約200個菌落左右)分別影印到含0.5%羧甲基纖維素(carboxylmethylcellulose,CMC)(購自Sigma公司,目錄號C-5678)的LA平板、含氨芐青霉素(100μg/mL)的LA平板上,將平板倒置于37℃培養(yǎng)箱培養(yǎng)24小時后,將長滿菌落的含氨芐青霉素的LA平板置于4℃冰箱保存,將長滿菌落的含羧甲基纖維素的LA平板用0.5%剛果紅溶液染色15分鐘,用1M的NaCl溶液脫色15分鐘,然后檢測菌落周圍有無水解圈(見圖3),結(jié)果共篩選到4個菌落周圍有水解圈的克隆,本發(fā)明只涉及其中一個克隆,進一步提取該克隆的質(zhì)粒DNA并將其命名為pGXN9001,用限制性內(nèi)切酶BamHI完全酶切pGXN900l后,進行0.7%瓊脂糖凝膠電泳分析,結(jié)果pGXN9001除有一個5.8kb的載體片段外,還給出另外3條BamHI片段,大小分別為30kb、8.2kb和3.1kb(見圖4),說明pGXN9001含有41.3kb的插入片段。
為了證實pGXN9001的插入片段確實含有纖維素酶基因,用pGXN9001質(zhì)粒DNA和空載體pWEB∷TNC分別轉(zhuǎn)化E.coliEPI100,在含氨芐青霉素(100μg/mL)的LA平板上篩選轉(zhuǎn)化子,隨機挑取由每個質(zhì)粒轉(zhuǎn)化得到的10個轉(zhuǎn)化子點接到含0.5%羧甲基纖維素的LA平板上,37℃培養(yǎng)24小時后,用0.5%剛果紅溶液染色15分鐘,用1M的NaCl溶液脫色,然后觀察菌落周圍有無水解圈,結(jié)果所有10個由空載體pWEB∷TNC轉(zhuǎn)化得到的轉(zhuǎn)化子周圍都沒有水解圈,所有10個由pGXN9001轉(zhuǎn)化得到的轉(zhuǎn)化子周圍都有水解圈,圖5給出各一個轉(zhuǎn)化子的檢測結(jié)果。從而證明重組質(zhì)粒pGXN9001的插入片段上確實含有纖維素酶基因。將重組質(zhì)粒pGXN9001于2003年11月24日保存在中國普通微生物菌種保藏管理中心,保藏號為CGMCC No.1039。
實施例4、重組質(zhì)粒pGXN9001上纖維素酶基因的測序為了測定重組質(zhì)粒pGXN9001上纖維素酶基因的DNA序列,首先用Epicentre公司生產(chǎn)的缺失柯斯質(zhì)粒轉(zhuǎn)座試劑盒(pWEB∷TNC deletioncosmid transposition kit,目錄號WEBC942)來獲得pGXN9001沿著一個方向缺失不同長度的DNA的缺失克隆。為了這個目的,先進行體外轉(zhuǎn)座反應(yīng),按順序向一個新的滅過菌的EP管中加入1μl EZ∷TN 10倍反應(yīng)緩沖液(0.5M Tris-醋酸(pH7.5),1.5M醋酸鉀,100mM醋酸鎂和40mM亞精胺)、1μl pGXN9001質(zhì)粒DNA(0.2μg/μl)、7μl無菌水和1μl EZ∷TN轉(zhuǎn)座酶,充分混勻后于37℃水浴保溫2小時,再加入1μl EZ∷TN 10X終止溶液(1%SDS溶液),混勻后置70℃水浴10分鐘。用1μl反應(yīng)液轉(zhuǎn)化E.coli EPI100,在含氨芐青霉素(50μg/mL)的LA平板上篩選轉(zhuǎn)化子。再將轉(zhuǎn)化子分別點接到含氨芐青霉素(50μg/mL)的LA平板、氯霉素(12μg/mL)LA平板上,篩選并留取氯霉素敏感、氨芐青霉素抗性的轉(zhuǎn)化子,進一步將這些轉(zhuǎn)化子點接到含0.5%羧甲基纖維素的LA平板上,檢測哪些轉(zhuǎn)化子能降解羧甲基纖維素和哪些不能,隨機挑選一些轉(zhuǎn)化子提取質(zhì)粒,用BamHI、NotI進行酶切分析,從能降解羧甲基纖維素的轉(zhuǎn)化子中選取一個最小的質(zhì)粒(pGXN9001-G27)進行測序。對于不能降解羧甲基纖維素的轉(zhuǎn)化子,其大小比pGXN9001小1.7kb的質(zhì)粒,是因1.7kb氯霉素抗性基因轉(zhuǎn)座過程中重組缺失造成的,而pGXN9001上的插入片段沒有發(fā)生缺失,因而不予考慮,將其它質(zhì)粒的大小和pGXN9001-G27進行比較,挑取大小和pGXN9001-G27比較接近的質(zhì)粒進行測序。用雙脫氧核苷酸法在ABI 377DNA自動測序儀(購自PE Biosystems公司,目錄號100002252)上測定DNA核苷酸序列。用軟件DNAStar(DNASTAR公司,版本5)對序列進行拼接,得到SEQ ID NO1的核苷酸序列,用NCBI(National Center forBiotechnology Information,http://www.ncbi.nlm.nih.gov)上的軟件如ORFfinder(http://www.ncbi.nlm.nih.gov/gorf/gorf.html),Blast(http://www.ncbi.nlm.nih.gov/BLAST)對DNA序列進行分析。
實施例5、纖維素酶基因umce19A的核苷酸序列分析
SEQ ID NO1的DNA的自5’端的第150-1997位核苷酸為基因umce19A的開放閱讀框(open reading frame,ORF),由1848個核苷酸組成,自5’端的第150-152位核苷酸為umce19A基因的起始密碼子ATG,自5’端的第1998-2000位核苷酸為umce19A基因的終止密碼子TAA。在其推測的起始密碼子ATG(核苷酸位置150)的上游相隔4bp處有一個潛在的核糖體結(jié)合位點(ribosome binding site,RBS,又叫Shine-Dalgarno序列)序列CGGAGA,該序列可使mRNA和細菌核糖體16S rRNA的3’端堿基互補配對。ORF在自5’端的第1998-2000位核苷酸為赭石(Ochre)終止密碼子TAA。在其編碼區(qū)上游,我們發(fā)現(xiàn)一個可能的啟動子序列即自5’端的第46-91位核苷酸為啟動子;自5’端的第48-53位核苷酸為啟動子的-35區(qū);自5’端的第72-77位核苷酸為啟動子的-10區(qū);即-35區(qū)為TTGATT,-10區(qū)為AAGGAT,兩者相隔18bp,該序列和大腸桿菌的σ70所識別的保守的啟動子序列(相隔17bp的TTGACA和TATAAT)非常相似。實施例6、纖維素酶基因umce19A編碼的產(chǎn)物Umce19A的氨基酸序列分析纖維素酶基因umce19A編碼一個含616個氨基酸的蛋白質(zhì),用DNAStar軟件預(yù)測該蛋白質(zhì)的理論分子量大小為66046.3道爾頓,等電點pI為5.36。
用簡單組件結(jié)構(gòu)研究工具(Simple Modular Architecture ResearchTool,SMART,http://smart.embl-heidelberg.de)分析由DNA序列推測的堆肥未培養(yǎng)微生物的纖維素酶Umce19A的組件結(jié)構(gòu),結(jié)果是自N端的第1-29位氨基酸為信號肽,自N端的第63-154位氨基酸為纖維素酶的N-末端類ig功能域(N-terminal ig-like domain of cellulase),自N端的第162-611位氨基酸為家族9糖基水解酶(glycosyl hydrolase)功能域。搜尋TrEMBL、PIR-PSD、SWISS-PROT和PDB數(shù)據(jù)庫,發(fā)現(xiàn)Umce19A的家族9催化功能域和家族9的其它內(nèi)切-β-1,4-葡聚糖酶的催化功能域具有一定的同源性,如和野油菜黃單胞菌野油菜致病變種的內(nèi)切-1,4-β-D-葡聚糖酶前體EGL2(TrEMBL索引號Q9RBJ4)的催化功能域的相似性為75%、相同性為60%(e-值為e-165)。和Xanthomonasaxonopodis pv.citri的纖維素酶EGL2(TrEMBL索引號Q8PJK9)的催化功能域的相似性為75%、相同性為61%(e-值為e-164。和Pseudomonassp.SK38的內(nèi)切-1,4-β-D-葡聚糖酶前體CEL9A(TrEMBL索引號Q9APG3)的催化功能域的相似性為71%、相同性為60%(e-值為e-154)。和Fibrobacter succinogenes的內(nèi)切-1,4-β-D-葡聚糖酶CMCASE(TrEMBL索引號Q59442)的催化功能域的相似性為64%、相同性為48%(e-值為e-113)。和Pseudomonas fluorescens的內(nèi)切葡聚糖酶A前體CELA(Swiss-Prot索引號P10476)的催化功能域的相似性為50%、相同性為34%(e-值為7e-66)。和Clostridium thermocellum的纖維素酶D(PIR-PSD索引號A65281,PDB索引號1CLC)的催化功能域的相似性為51%、相同性為32%(e-值為6e-69)。
纖維素酶Umce19A的纖維素酶N-末端類ig功能域(N-terminal ig-like domain of cellulase)和其它纖維素酶的N-末端類ig功能域具有一定的相似性,如和野油菜黃單胞菌野油菜致病變種的內(nèi)切-1,4-β-D-葡聚糖酶前體EGL2(TrEMBL索引號Q9RBJ4)的N-末端類ig功能域的相似性為55%、相同性為38%(e-值為1e-10)和Clostridiumthermocellum的纖維素酶D(PIR-PSD索引號A65281,PDB索引號1CLC)的N-末端類ig功能域的相似性為52%、相同性為30%(預(yù)期值為0.001)。
SEQUENCE LISTING<110>廣西大學<120>一種編碼糖基水解酶家族9的纖維素酶的基因及其應(yīng)用<130>I030469<160>3<170>Patent In version 3.1<210>1<211>2200<212>DNA<213>堆肥未培養(yǎng)微生物<220>
<221>啟動子<222>(46)..(91)<223>
<220>
<221>CDS<222>(150)..(2000)<223>
<400>1ggtttcccgc tcacactcct ggtgcctgtt tttggcgtca ccacttcttg attttgctta 60aaccgggacg caaggatttt gcgtgccgct taatataagt ttgcgtagcg cagtcattac120aaacataacg aaattcacgc ggagacttt atg cta ata act aac aaa aaa att 173Met Leu Ile Thr Asn Lys Lys Ile1 5atg ttg ccg ggc ctg ggt aag gcg ctg gcg ttg gcc gga gta tcg agt 221Met Leu Pro Gly Leu Gly Lys Ala Leu Ala Leu Ala Gly Val Ser Ser10 15 20tta ctg ctc gca tgc ggt ggc ggc ggc ggt agt aat agc ggt tcg aca 269Leu Leu Leu Ala Cys Gly Gly Gly Gly Gly Ser Asn Ser Gly Ser Thr25 30 35 40ccg gga tca aaa agc gct gcg agc agt aaa gcg gtc agt tcc gtg gtg 317Pro Gly Ser Lys Ser Ala Ala Ser Ser Lys Ala Val Ser Ser Val Val45 50 55
gtt agt tct gcc ggg gtt agc tca gca gca agt tca agc gcg gcc ccc 365Val Ser Ser Ala Gly Val Ser Ser Ala Ala Ser Ser Ser Ala Ala Pro60 65 70aag ctg att aaa gtt aat caa ctc gga ttt ttg ccg gat tcc acc aag 413Lys Leu Ile Lys Val Asn Gln Leu Gly Phe Leu Pro Asp Ser Thr Lys75 80 85ttg tcc ttg gtc ccc gat gtg ccc gcg ccc cgt ttt caa gtg att caa 461Leu Ser Leu Val Pro Asp Val Pro Ala Pro Arg Phe Gln Val Ile Gln90 95 100gtg gat act gat caa gag gtt ctg agt ggc gat ttg act gct gcc act 509Val Asp Thr Asp Gln Glu Val Leu Ser Gly Asp Leu Thr Ala Ala Thr105 110 115 120cgt tgg gag ccc gca agc gat agc gta aaa ctg gct gat ttt tcc agc 557Arg Trp Glu Pro Ala Ser Asp Ser Val Lys Leu Ala Asp Phe Ser Ser125 130 135ctg aat gcg cca ggc gat tac ctg att cgc gtt gaa ggc ttg ccc gat 605Leu Asn Ala Pro Gly Asp Tyr Leu Ile Arg Val Glu Gly Leu Pro Asp140 145 150tcc cac cca ttc acc att gcc gag aat gcc tat gag tca tta ctc gct 653Ser His Pro Phe Thr Ile Ala Glu Asn Ala Tyr Glu Ser Leu Leu Ala155 160 165gcg agc atc aag gcc ttt tat ttc agt cgt tcg ggt aca gaa ttg tta 701Ala Ser Ile Lys Ala Phe Tyr Phe Ser Arg Ser Gly Thr Glu Leu Leu170 175 180gag gaa cat gct gga aaa ttt gct cgc cca ctc ggc cat gcc gac tcc 749Glu Glu His Ala Gly Lys Phe Ala Arg Pro Leu Gly His Ala Asp Ser85 190 195 200aat gta ttg att cat gag tca gca gcc agc gcc gct cgc ccg gct gga 797Asn Val Leu Ile His Glu Ser Ala Ala Ser Ala Ala Arg Pro Ala Gly205 210 215acc cca atc tcc agt ccc aag ggt tgg tat gac gca ggc gat tac aac 845Thr Pro Ile Ser Ser Pro Lys Gly Trp Tyr Asp Ala Gly Asp Tyr Asn220 225 230aag tac ata gtc aac tca gga atc tcg act tac acc ttg ctt gcc acc 893Lys Tyr Ile Val Asn Ser Gly Ile Ser Thr Tyr Thr Leu Leu Ala Thr235 240 245
tac gag cac ttc ccc gaa ttg ttt gcc gat caa aac ctg gca atc ccc941Tyr Glu His Phe Pro Glu Leu Phe Ala Asp Gln Asn Leu Ala Ile Pro250 255 260gaa agc acc aat tca ttg cct gat ctg ctg gat gag atc aaa tgg aat989Glu Ser Thr Asn Ser Leu Pro Asp Leu Leu Asp Glu Ile Lys Trp Asn265 270 275 280ctc gac tgg atg ctg act atg caa gac cca gct gac ggt ggg gtt tat1037Leu Asp Trp Met Leu Thr Met Gln Asp Pro Ala Asp Gly Gly Val Tyr285 290 295cac aag ctg acc aac aaa aat ttt gat ggc acg gtt atg ccg cac cag1085His Lys Leu Thr Asn Lys Asn Phe Asp Gly Thr Val Met Pro His Gln300 305 310gca act agc ccg cgt tat gtg gtg cag aaa acc act gct gct gct ttg1133Ala Thr Ser Pro Arg Tyr Val Val Gln Lys Thr Thr Ala Ala Ala Leu315 320 325aat ttc gct gcg gta atg gcg act gcg agc cgg gtg ttt gcc gct cag1181Asn Phe Ala Ala Val Met Ala Thr Ala Ser Arg Val Phe Ala Ala Gln330 335 340gat gaa aca cta gcg caa caa atg tta gat gcg gct gaa gct gcc tgg1229Asp Glu Thr Leu Ala Gln Gln Met Leu Asp Ala Ala Glu Ala Ala Trp345 350 355 360gct tgg gct aaa gcc aat cct tca att act tat acc cag cct gcg gat1277Ala Trp Ala Lys Ala Asn Pro Ser Ile Thr Tyr Thr Gln Pro Ala Asp365 370 375ata aaa acc ggt gaa tac ggg gac agc aat ctc gcc gat gaa ttt gcc1325Ile Lys Thr Gly Glu Tyr Gly Asp Ser Asn Leu Ala Asp Glu Phe Ala380 385 390tgg gct gcg gcg gag tta tat atc acc act aag aag gat gat tac tac1373Trp Ala Ala Ala Glu Leu Tyr Ile Thr Thr Lys Lys Asp Asp Tyr Tyr395 400 405acc gaa atc aaa cca aat caa act tac aac acg gtt ccc tcc tgg ggg1421Thr Glu Ile Lys Pro Asn Gln Thr Tyr Asn Thr Val Pro Ser Trp Gly410 415 420gat gtg cgc ggc ctg gcc tgg gtg tca ctc gct cat cat cgc gag caa1469Asp Val Arg Gly Leu Ala Trp Val Ser Leu Ala His His Arg Glu Gln425 430 435 440tta acg aca gca gca gat aaa gct ttg atc ggc aca cgt att gaa agc1517
Leu Thr Thr Ala Ala Asp Lys Ala Leu Ile Gly Thr Arg Ile Glu Ser445 450 455ctg gcg aat aat ctt ttg tcg gta tgg aaa ctt tca ccg tac aaa atc1565Leu Ala Asn Asn Leu Leu Ser Val Trp Lys Leu Ser Pro Tyr Lys Ile460 465 470acc atg cag aac agc gat ttt gta tgg ggc agc aat gca gtg gtg ctg1613Thr Met Gln Asn Ser Asp Phe Val Trp Gly Ser Asn Ala Val Val Leu475 480 485aat cag gcg atg atg ctg gtg cag gcg tac cga cta aac ggc aag cgc1661Asn Gln Ala Met Met Leu Val Gln Ala Tyr Arg Leu Asn Gly Lys Arg490 495 500gag ttt ctg gat gct gcg caa tca cag ctg gat tac gtg ttg ggt cgc1709Glu Phe Leu Asp Ala Ala Gln Ser Gln Leu Asp Tyr Val Leu Gly Arg505 510 515 520aat gca gtg gac aca tca ttt gtg acc ggc ttt ggt cac aag tcg ccg1757Asn Ala Val Asp Thr Ser Phe Val Thr Gly Phe Gly His Lys Ser Pro525 530 535ctc cat ccg cac cat cgc ccc tct gaa gca gac ggg att gcg gag ccg1805Leu His Pro His His Arg Pro Ser Glu Ala Asp Gly Ile Ala Glu Pro540 545 550atc cca ggt tat gtt gtt ggt ggt ccg caa ccg ggg cag cag gat aaa1853Ile Pro Gly Tyr Val Val Gly Gly Pro Gln Pro Gly Gln Gln Asp Lys555 560 565gcg gat tgc ccc ctt gct tat ccg agc aat atc acc gct aaa tcc tat1901Ala Asp Cys Pro Leu Ala Tyr Pro Ser Asn Ile Thr Ala Lys Ser Tyr570 575 580ctc gat cat tac tgt agt tat gcg agt aat gag att gcg atc aac tgg1949Leu Asp His Tyr Cys Ser Tyr Ala Ser Asn Glu Ile Ala Ile Asn Trp585 590 595 600aac gcg ccc ctt gta tat gtg act gca gcc atc cag gcg ctg acc aag1997Asn Ala Pro Leu Val Tyr Val Thr Ala Ala Ile Gln Ala Leu Thr Lys605 610 615taa tttcaaaaat gtttttgatt ctttaacgcc agctttttgc tggcgttttt 2050tttaaattcc tgatgacaat tactgttcgg aagttgtcta taaaactggc tttatccttt 2110catgactgat catcgatcgc agtaggcgtt tataacacct gatcccgtca accttcattc 2170
gggagaaaca ccatgcaagc ctgcgcaata 2200<210>2<211>1851<212>DNA<213>堆肥未培養(yǎng)微生物<400>2atgctaataa ctaacaaaaa aattatgttg ccgggcctgg gtaaggcgct ggcgttggcc60ggagtatcga gtttactgct cgcatgcggt ggcggcggcg gtagtaatag cggttcgaca 120ccgggatcaa aaagcgctgc gagcagtaaa gcggtcagtt ccgtggtggt tagttctgcc 180ggggttagct cagcagcaag ttcaagcgcg gcccccaagc tgattaaagt taatcaactc 240ggatttttgc cggattccac caagttgtcc ttggtccccg atgtgcccgc gccccgtttt 300caagtgattc aagtggatac tgatcaagag gttctgagtg gcgatttgac tgctgccact 360cgttgggagc ccgcaagcga tagcgtaaaa ctggctgatt tttccagcct gaatgcgcca 420ggcgattacc tgattcgcgt tgaaggcttg cccgattccc acccattcac cattgccgag 480aatgcctatg agtcattact cgctgcgagc atcaaggcct tttatttcag tcgttcgggt 540acagaattgt tagaggaaca tgctggaaaa tttgctcgcc cactcggcca tgccgactcc 600aatgtattga ttcatgagtc agcagccagc gccgctcgcc cggctggaac cccaatctcc 660agtcccaagg gttggtatga cgcaggcgat tacaacaagt acatagtcaa ctcaggaatc 720tcgacttaca ccttgcttgc cacctacgag cacttccccg aattgtttgc cgatcaaaac 780ctggcaatcc ccgaaagcac caattcattg cctgatctgc tggatgagat caaatggaat 840ctcgactgga tgctgactat gcaagaccca gctgacggtg gggtttatca caagctgacc 900aacaaaaatt ttgatggcac ggttatgccg caccaggcaa ctagcccgcg ttatgtggtg 960cagaaaacca ctgctgctgc tttgaatttc gctgcggtaa tggcgactgc gagccgggtg 1020tttgccgctc aggatgaaac actagcgcaa caaatgttag atgcggctga agctgcctgg 1080gcttgggcta aagccaatcc ttcaattact tatacccagc ctgcggatat aaaaaccggt 1140gaatacgggg acagcaatct cgccgatgaa tttgcctggg ctgcggcgga gttatatatc 1200
accactaaga aggatgatta ctacaccgaa atcaaaccaa atcaaactta caacacggtt 1260ccctcctggg gggatgtgcg cggcctggcc tgggtgtcac tcgctcatca tcgcgagcaa 1320ttaacgacag cagcagataa agctttgatc ggcacacgta ttgaaagcct ggcgaataat 1380cttttgtcgg tatggaaact ttcaccgtac aaaatcacca tgcagaacag cgattttgta 1440tggggcagca atgcagtggt gctgaatcag gcgatgatgc tggtgcaggc gtaccgacta 1500aacggcaagc gcgagtttct ggatgctgcg caatcacagc tggattacgt gttgggtcgc 1560aatgcagtgg acacatcatt tgtgaccggc tttggtcaca agtcgccgct ccatccgcac 1620catcgcccct ctgaagcaga cgggattgcg gagccgatcc caggttatgt tgttggtggt 1680ccgcaaccgg ggcagcagga taaagcggat tgcccccttg cttatccgag caatatcacc 1740gctaaatcct atctcgatca ttactgtagt tatgcgagta atgagattgc gatcaactgg 1800aacgcgcccc ttgtatatgt gactgcagcc atccaggcgc tgaccaagta a 1851<210>3<211>616<212>PRT<213>堆肥未培養(yǎng)微生物<400>3Met Leu Ile Thr Asn Lys Lys Ile Met Leu Pro Gly Leu Gly Lys Ala1 5 10 15Leu Ala Leu Ala Gly Val Ser Ser Leu Leu Leu Ala Cys Gly Gly Gly20 25 30Gly Gly Ser Asn Ser Gly Ser Thr Pro Gly Ser Lys Ser Ala Ala Ser35 40 45Ser Lys Ala Val Ser Ser Val Val Val Ser Ser Ala Gly Val Ser Ser50 55 60Ala Ala Ser Ser Ser Ala Ala Pro Lys Leu Ile Lys Val Asn Gln Leu65 70 75 80
Gly Phe Leu Pro Asp Ser Thr Lys Leu Ser Leu Val Pro Asp Val Pro85 90 95Ala Pro Arg Phe Gln Val Ile Gln Val Asp Thr Asp Gln Glu Val Leu100 105 110Ser Gly Asp Leu Thr Ala Ala Thr Arg Trp Glu Pro Ala Ser Asp Ser115 120 125Val Lys Leu Ala Asp Phe Ser Ser Leu Asn Ala Pro Gly Asp Tyr Leu130 135 140Ile Arg Val Glu Gly Leu Pro Asp Ser His Pro Phe Thr Ile Ala Glu145 150 155 160Asn Ala Tyr Glu Ser Leu Leu Ala Ala Ser Ile Lys Ala Phe Tyr Phe165 170 175Ser Arg Ser Gly Thr Glu Leu Leu Glu Glu His Ala Gly Lys Phe Ala180 185 190Arg Pro Leu Gly His Ala Asp Ser Asn Val Leu Ile His Glu Ser Ala195 200 205Ala Ser Ala Ala Arg Pro Ala Gly Thr Pro Ile Ser Ser Pro Lys Gly210 215 220Trp Tyr Asp Ala Gly Asp Tyr Asn Lys Tyr Ile Val Asn Ser Gly Ile225 230 235 240Ser Thr Tyr Thr Leu Leu Ala Thr Tyr Glu His Phe Pro Glu Leu Phe245 250255Ala Asp Gln Asn Leu Ala Ile Pro Glu Ser Thr Asn Ser Leu Pro Asp260 265 270
Leu Leu Asp Glu Ile Lys Trp Asn Leu Asp Trp Met Leu Thr Met Gln275 280 285Asp Pro Ala Asp Gly Gly Val Tyr His Lys Leu Thr Asn Lys Asn Phe290 295 300Asp Gly Thr Val Met Pro His Gln Ala Thr Ser Pro Arg Tyr Val Val305 310 315 320Gln Lys Thr Thr Ala Ala Ala Leu Asn Phe Ala Ala Val Met Ala Thr325 330 335Ala Ser Arg Val Phe Ala Ala Gln Asp Glu Thr Leu Ala Gln Gln Met340 345 350Leu Asp Ala Ala Glu Ala Ala Trp Ala Trp Ala Lys Ala Asn Pro Ser355 360 365Ile Thr Tyr Thr Gln Pro Ala Asp Ile Lys Thr Gly Glu Tyr Gly Asp370 375 380Ser Asn Leu Ala Asp Glu Phe Ala Trp Ala Ala Ala Glu Leu Tyr Ile385 390 395 400Thr Thr Lys Lys Asp Asp Tyr Tyr Thr Glu Ile Lys Pro Asn Gln Thr405 410 415Tyr Asn Thr Val Pro Ser Trp Gly Asp Val Arg Gly Leu Ala Trp Val420 425 430Ser Leu Ala His His Arg Glu Gln Leu Thr Thr Ala Ala Asp Lys Ala435 440 445Leu Ile Gly Thr Arg Ile Glu Ser Leu Ala Asn Asn Leu Leu Ser Val450 455 460Trp Lys Leu Ser Pro Tyr Lys Ile Thr Met Gln Asn Ser Asp Phe Val
465 470 475 480Trp Gly Ser Asn Ala Val Val Leu Asn Gln Ala Met Met Leu Val Gln485 490 495Ala Tyr Arg Leu Asn Gly Lys Arg Glu Phe Leu Asp Ala Ala Gln Ser500 505 510Gln Leu Asp Tyr Val Leu Gly Arg Asn Ala Val Asp Thr Ser Phe Val515 520 525Thr Gly Phe Gly His Lys Ser Pro Leu His Pro His His Arg Pro Ser530 535 540Glu Ala Asp Gly Ile Ala Glu Pro Ile Pro Gly Tyr Val Val Gly Gly545 550 555 560Pro Gln Pro Gly Gln Gln Asp Lys Ala Asp Cys Pro Leu Ala Tyr Pro565 570 575Ser Asn Ile Thr Ala Lys Ser Tyr Leu Asp His Tyr Cys Ser Tyr Ala580 585 590Ser Asn Glu Ile Ala Ile Asn Trp Asn Ala Pro Leu Val Tyr Val Thr595 600 605Ala Ala Ile Gln Ala Leu Thr Lys610 61權(quán)利要求
1.一種編碼纖維素酶的基因,其特征在于具有SEQ ID NO2的核苷酸序列或其同源序列。
2.權(quán)利要求1的基因,其中所述同源序列與SEQ ID NO2的核苷酸序列具有80%以上的同源性。
3.一種權(quán)利要求1的基因所編碼的蛋白質(zhì),其特征在于具有SEQ ID NO3的氨基酸序列。
4.一種表達載體,其特征在于含有權(quán)利要求1所述的基因。
5.一種宿主細胞,其特征在于含有權(quán)利要求1所述的基因。
6.權(quán)利要求3所述的蛋白質(zhì)在纖維素降解和對含纖維素材料的處理中的應(yīng)用。
全文摘要
本發(fā)明涉及一種編碼纖維素酶的基因umcel9A,其特征在于含有SEQID NO2的核苷酸序列或其同源序列,其中所述同源序列具有與SEQ ID NO2的核苷酸序列80%以上的同源性。本發(fā)明還涉及該基因編碼的纖維素酶(SEQ ID NO3)及該酶在降解纖維素中的應(yīng)用。
文檔編號C12S3/00GK1621525SQ200310116908
公開日2005年6月1日 申請日期2003年11月28日 優(yōu)先權(quán)日2003年11月28日
發(fā)明者馮家勛, 龐浩, 張鵬, 靳振江, 李誠斌, 段承杰, 唐紀良 申請人:廣西大學