專(zhuān)利名稱(chēng):穩(wěn)定的功能嵌合纖維二糖水解酶i類(lèi)酶的制作方法
技術(shù)領(lǐng)域:
本公開(kāi)內(nèi)容涉及生物分子工程和設(shè)計(jì),以及工程化的蛋白和核酸。背景纖維素酶混合物在生物質(zhì)轉(zhuǎn)化過(guò)程中的表現(xiàn)除了取決于纖維素底物的物理狀態(tài)和組成以外,還取決于許多酶特性,包括穩(wěn)定性、產(chǎn)物抑制、不同纖維素酶組分之間的協(xié)作、生產(chǎn)性結(jié)合(productive binding)相對(duì)非生產(chǎn)性吸附(nonproductive adsorption)、以及pH依賴(lài)性。鑒于纖維素水解的多變量性質(zhì),具有多樣的纖維素酶選擇來(lái)優(yōu)化用于不同應(yīng)用和原料的酶制劑是令人期望的。概述本公開(kāi)內(nèi)容提供了大體純化的嵌合多肽,其包括來(lái)自至少兩個(gè)不同的親本纖維二糖水解酶I (CBH I)多肽的至少兩個(gè)結(jié)構(gòu)域,其中這些結(jié)構(gòu)域從N端到C端包含(區(qū)段
1)_(區(qū)段2)-(區(qū)段3)-(區(qū)段4)-(區(qū)段5)-(區(qū)段6)-(區(qū)段7)-(區(qū)段8);其中區(qū)段I包含與 SEQ ID NO 2( “1”)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3,,)、SEQ ID NO :8( “4”)或SEQ ID NO :10 (“5”)的氨基酸殘基從大約I或從大約18或19到大約X1至少50-100%相同的序列;區(qū)段 2 包含與 SEQ ID NO :2(“1”)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQID NO :8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 X1 到大約 X2 至少 50-100%相同的序列;區(qū)段 3 包含與 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 X2 到大約 X3 至少 50-100%相同的序列;區(qū)段 4 包含與 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQ IDNO :10( “5”)的氨基酸殘基 x3 到大約 x4 至少 50-100%相同的序列;區(qū)段 5 包含與 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 X4 到大約 X5 至少 50-100%相同的序列;區(qū)段 6 包含與 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 x5 到大約 x6 至少 50-100%相同的序列;區(qū)段 7 包含與 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或SEQ IDNO :10( “5”)的氨基酸殘基X6到大約X7至少50-100%相同的序列;及區(qū)段 8 包含與 SEQ ID NO :2( “1,,)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQID NO :8( “4”)或SEQ ID NO :10( “5”)的氨基酸殘基X7到大約X8至少50-100%相同的序列;且其中X1是SEQ ID NO :2、4、6或8的殘基47、48、49、50、51或52,或是SEQ ID NO:10 的殘基 48、49、50、51、52 或 53 ;x2 是 SEQ ID NO :2 或 10 的殘基 92、93、94、95、96 或 97,或是 SEQ ID NO :4、6 或 8 的殘基 91、92、93、94、95 或 96 ;x3 是 SEQ ID NO :2 的殘基 127、128、129,130,131 或 132,或是 SEQ ID NO :4 或 6 的殘基 125、126、127、128、129 或 130,或是 SEQID NO :8 的殘基 126、127、128、129、130 或 131,或是 SEQ ID NO : 10 的殘基 123、124、125、126、127 或 128 ;x4 是 SEQ ID NO :2 的殘基 175、176、177、178、180 或 181,或是 SEQ ID NO 4或 SEQ ID NO :6 的殘基 173、174、175、176、177 或 178,或是 SEQ ID NO :8 的殘基 174、175、176、177、178 或 179,或是 SEQ ID NO : 10 的殘基 171、172、173、174、175 或 176 ;x5 是 SEQ IDNO :2 的殘基 221、222、223、224、225 或 226,或是 SEQ ID NO :4 或 SEQ ID NO :6 的殘基 219、220、221、222、223 或 224,或是 SEQ ID NO 8 的殘基 220、221、222、223、224 或 225,或是 SEQID NO :10 的殘基 217、218、219、220、221 或 222 ;x6 是 SEQ ID NO :2 的殘基 268、269、270、271、272 或 273,或是 SEQ IDNO :4 或 SEQ ID NO :6 的殘基 266、267、268、269、270 或 271,或是 SEQID NO :8 的殘基 267、268、269、270、271 或 272,或是 SEQ ID NO : 10 的殘基 264、265、266、267、268 或 269 ;x7是SEQ ID NO :2 的殘基 384、385、386、387、388 或 389,或是 SEQ IDNO :4 的殘基 385、386、387、388、389 或 390,或是 SEQ ID NO :6 的殘基 378、379、380、381、382或 383,或是 SEQ ID NO :8 或 10 的殘基 383、384、385、386、387 或 388 ;并且 X8 是對(duì)應(yīng)于 ·SEQID NO 2 的殘基 454、SEQ ID NO 4 的殘基 457、SEQID NO 6 的殘基 458、SEQ ID NO 8 的殘基 453、SEQ ID NO : 10 的殘基 455、或者具有序列 SEQ ID N0:2、SEQ ID NO :4、SEQ ID NO:6、SEQ ID NO :8或SEQ ID NO :10的多肽的C端的氨基酸殘基,且其中嵌合多肽具有纖維二糖水解酶活性和與包含SEQ ID NO :2、4、6、8或10的CBH I多肽相比改善的熱穩(wěn)定性、pH穩(wěn)定性和/或表達(dá)。在前述的另一實(shí)施方案中,區(qū)段I包含SEQ ID N0:2(“1”)、SEQ ID NO:4( “2”)、SEQ ID NO 6( “3”)、SEQID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基從大約I或從大約18或19到大約X1并具有1-10個(gè)保守氨基酸取代;區(qū)段2是SEQ IDNO 2( “1”)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3,,)、SEQ ID NO :8( “4”)或 SEQ IDNO 10 (“5”)的從大約氨基酸殘基X1到大約X2并具有大約1-10個(gè)保守氨基酸取代;區(qū)段3是SEQ ID NO :2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO 8( “4”)或SEQ ID NO :10( “5”)的從大約氨基酸殘基X2到大約X3并具有大約1_10個(gè)保守氨基酸取代;區(qū)段 4 是 SEQ ID NO 2( “I”)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或SEQ IDNO :10( “5”)的從大約氨基酸殘基X3到大約X4并具有大約1-10個(gè)保守氨基酸取代;區(qū)段 5 是 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO :8 (“4”)或SEQ ID NO :10 (“5”)的從大約氨基酸殘基x4到大約x5并具有大約1-10 個(gè)保守氨基酸取代;區(qū)段 6 是 SEQ ID NO :2( “1,,)、SEQ ID NO :4 ( “2”)、SEQ ID NO:6( “3”)、SEQ ID NO :8( “4”)或SEQ IDNO :10( “5”)的從大約氨基酸殘基X5到大約X6并具有大約1-10個(gè)保守氨基酸取代;區(qū)段7是SEQ ID N0:2(“1,,)、SEQ ID NO :4 ( “2”)、SEQID NO :6( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO :10( “5”)的從大約氨基酸殘基 X6 到大約X7并具有大約1-10個(gè)保守氨基酸取代;并且區(qū)段8是SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO :8( “4”)或 SEQID NO :10( “5”)的從大約氨基酸殘基X7到大約X8并具有大約1-10個(gè)保守氨基酸取代。在前述中的任一個(gè)的又一個(gè)實(shí)施方案中,多肽與選自由 SEQ IDNO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33 和 34組成的組的序列至少60-100%相同。在前述任一個(gè)的又一個(gè)實(shí)施方案中,多肽包括可操作地連接到N端氨基酸的前導(dǎo)序列。在前述任一個(gè)的又一個(gè)實(shí)施方案中,多肽還包括選自由SEQ ID NO :16、17和18組成的組的序列的C端CBM結(jié)構(gòu)域。在前述任一個(gè)的又一個(gè)實(shí)施方案中,至少兩個(gè)不同的親本纖維二糖水解酶I (CBH I)多肽包括選自由SEQ ID NO :2、4、6、8和10組成的組的序列。在前述任一個(gè)的又一個(gè)實(shí)施方案中,多肽具有選自由以下組成的組的區(qū)段結(jié)構(gòu)55153552、12153252、25152252、12152252、55152252、55515555、55555551、55515551、55525555、55555552、55525552、55555155、55555515、55555115、55555255、55555525,55555225,34152252 (SEQ ID NO 19),55153552(SEQ ID NO 20),32153252(SEQID NO 21),55155552 (SEQ ID NO 22),22153252 (SEQ ID NO 23),52152552(SEQ IDNO 24)、12153252(SEQ ID NO 25),45153252(SEQ ID NO 26) ,12153552(SEQ ID NO :27)、25152252 (SEQ ID NO 28),13152552 (SEQ ID NO 29),12152252 (SEQ ID NO :30)、55153252 (SEQ ID NO 31),55552252 (SEQ IDNO 32),55152552 (SEQ ID NO 33)和55152252(SEQ ID NO 34)。本公開(kāi)內(nèi)容還提供了編碼如前述實(shí)施方案中任一個(gè)中所描述的多肽的多核苷酸,含有所述多核苷酸的載體,以及包含所述多核苷酸或載體的宿主細(xì)胞(例如植物或真菌細(xì) 胞)。本公開(kāi)內(nèi)容還提供了包含如以上以及本文中別處所述的多肽的酶制品。在又一實(shí)施方案中,酶制品還包含熱穩(wěn)定的纖維二糖水解酶II類(lèi)酶嵌合體。本公開(kāi)內(nèi)容還提供了處理包含纖維素的生物質(zhì)的方法,該方法包括使生物質(zhì)與本公開(kāi)內(nèi)容的酶制品接觸。本公開(kāi)內(nèi)容還提供了用于產(chǎn)生權(quán)利要求I所述的多肽的方法,所述多肽與一個(gè)親本多肽或一類(lèi)親本多肽相比具有改善的活性或穩(wěn)定性,該方法包括識(shí)別多個(gè)(P)進(jìn)化上、結(jié)構(gòu)上或者進(jìn)化上和結(jié)構(gòu)上相關(guān)的多肽;在多個(gè)相關(guān)多肽的至少第一多肽和至少第二多肽中選擇包含N個(gè)肽區(qū)段的一組交叉位置;從具有穩(wěn)定的功能表達(dá)的多個(gè)進(jìn)化上、結(jié)構(gòu)上或者進(jìn)化上和結(jié)構(gòu)上相關(guān)的多肽中選擇親本;產(chǎn)生多個(gè)嵌合體,所述嵌合體包含親本的N-I個(gè)肽區(qū)段以及所述多個(gè)進(jìn)化上、結(jié)構(gòu)上或者進(jìn)化上和結(jié)構(gòu)上相關(guān)的多肽中另一個(gè)多肽的一個(gè)異源肽區(qū)段;識(shí)別具有增強(qiáng)活性或穩(wěn)定性的改善的嵌合體以及識(shí)別異源肽區(qū)段作為改善的單體(monomera)中的活性/穩(wěn)定性相關(guān)的肽區(qū)段;產(chǎn)生重新組合的重組蛋白的樣品集UP”),所述重組蛋白包含所述至少第一多肽和第二多肽中的每一個(gè)的活性/穩(wěn)定性相關(guān)的肽區(qū)段,其中X < I ;測(cè)量折疊表達(dá)的重新組合的重組蛋白的樣品集的穩(wěn)定性;產(chǎn)生包含一個(gè)或多個(gè)活性/穩(wěn)定性相關(guān)的肽區(qū)段的多個(gè)嵌合多肽。附圖簡(jiǎn)述圖IA-B顯示了 CBH I多肽的三維結(jié)構(gòu)以及重組區(qū)塊圖。(A)CBH I催化結(jié)構(gòu)域三維結(jié)構(gòu)。形成二硫鍵的Cys殘基由通過(guò)黑線連接的球體表示。(B)CBH I重組區(qū)塊分割及二級(jí)結(jié)構(gòu)圖。區(qū)塊間二硫鍵由栗色線表示,區(qū)塊間二硫鍵由淺藍(lán)色線表示,區(qū)塊分割由黑色箭頭表示。埃默森籃狀菌(T. emersonii)CBH I的殘基編號(hào)。圖2顯示了親本CBH I以及32個(gè)單體的總分泌CBH I MUL-水解活性。單體含有從親本1-4到親本5 (來(lái)自埃默森籃狀菌)的單區(qū)塊取代。埃默森籃狀菌的CBH I的總分泌CBH I MUL-水解活性由粉色棒表示。在45°C下將酵母分泌培養(yǎng)上清液用300 μ M可溶的熒光MUL底物孵育30分鐘。三個(gè)獨(dú)立的埃默森籃狀菌分泌培養(yǎng)物的單一活性測(cè)量的平均值是2· 3X 1(T4 molMUL/(L · s),標(biāo)準(zhǔn)偏差是3. OX 10_5mol MUL/(L · s)。所有其它值代表單一培養(yǎng)物和測(cè)量。在圖的底部的黑線表示T5tl測(cè)量的1.6X10_5mol MUL/(L-s)的活性閾值。圖3顯示了 28個(gè)CBH I單體相對(duì)于埃默森籃狀菌(T5tl = 62. 9+/-0. 3°C )親本的T5tl值(V )的改變。單體含有從親本1-4到親本5 (來(lái)自埃默森籃狀菌)中的單區(qū)塊取代。單體的誤差棒代表兩個(gè)重復(fù)測(cè)量的極值。親本的誤差棒代表3個(gè)重復(fù)到8個(gè)重復(fù)的標(biāo)準(zhǔn)偏差。嗜熱毛殼菌(C. thermophilum)和嗜熱子囊菌(T. aurantiacus)親本CBH I的T5tl值分別是59. 9+/-0. 3°C和62. 2+/-0. 4°C。未分泌紅褐肉座菌(H. jecorina)和嗜熱支頂孢(A. thermophilum)親本 CBH I。圖4顯示了親本CBH I的T50值、總酵母分泌活性(moI MUL/ (L · s) X IO5)以及區(qū)塊序列。單體的T5tl誤差棒代表兩個(gè)重復(fù)測(cè)量的極值,親本的誤差棒代表3個(gè)重復(fù)和8個(gè)重復(fù)之間的標(biāo)準(zhǔn)偏差。除親本5 (埃默森籃狀菌,對(duì)于三個(gè)獨(dú)立培養(yǎng)物的單一測(cè)量,其具有(2· 3+/-0. 3) X 10_4 mo I MUL/(L* s)的平均值和標(biāo)準(zhǔn)偏差總酵母分泌活性)以外,總分泌活性值[mol MUL/(L · s)]是單一培養(yǎng)物的單一測(cè)量。親本3 (紅褐肉座菌)和親本4(嗜·熱支頂孢)的分泌水平低于T5tl測(cè)量的閾值。圖5顯示了親和分離的CBH I親本和嵌合體的標(biāo)準(zhǔn)化高溫固體纖維素水解活性。所顯示的值是相對(duì)于在50°C下的活性的在給定的溫度下的活性。在50mM醋酸鈉、pH 4.8中,用60mg/mL固體纖維素和14. 6 μ g/mL親和分離的CBH I進(jìn)行反應(yīng)16小時(shí)。誤差棒表示三個(gè)重復(fù)的標(biāo)準(zhǔn)偏差。*5表示具有穩(wěn)定化子區(qū)塊C插入的親本5的區(qū)塊7。圖6顯示了 CBH I親本和嵌合體的針對(duì)固體纖維素的總酵母分泌活性。在4°C下,在50mM醋酸鈉、pH 4. 8中用微晶纖維素孵育酵母培養(yǎng)上清液I小時(shí)以結(jié)合CBH I。隨后將纖維素洗滌并允許在37°C下進(jìn)行水解90分鐘。誤差棒代表三個(gè)重復(fù)的標(biāo)準(zhǔn)偏差。*5表示具有穩(wěn)定化子區(qū)塊C插入的親本5的區(qū)塊7。圖7顯示了 CBH I親本催化結(jié)構(gòu)域(分別是SEQ ID NO :2、4、6、8、10)的ClustalW多重序列比對(duì),區(qū)塊邊界由黑線表示。圖8顯示了 CBH I親本YPD酵母培養(yǎng)分泌上清液的SDS-PAGE分析。主要埃默森籃狀菌CBH I條帶出現(xiàn)在 62kDa處,并且由綠色矩形涵蓋。相對(duì)于 53kDa的氨基酸分子質(zhì)量的分子質(zhì)量的增加可通過(guò)來(lái)自N-連接和O-連接糖基化的預(yù)期的額外的S-IOkDa來(lái)解釋。在 62kDa以上的分子質(zhì)量處的拖尾效應(yīng)可能是由于糖基化異質(zhì)性。藍(lán)色數(shù)字表示相對(duì)于埃默森籃狀菌CBH I的針對(duì)MUL的CBH I上清液活性。紅色數(shù)字表示3個(gè)CBH I親本的T5tl值,對(duì)于熱穩(wěn)定性測(cè)量來(lái)說(shuō),其分泌是足夠的。圖9顯示了 CBH I單體的與破壞的接觸數(shù)目(E)相比的總分泌CBH IMUL活性。圈出了區(qū)塊7單體數(shù)據(jù)點(diǎn)。
圖10顯示了 Ni2+親和分離的CBH I親本和嵌合體針對(duì)MUL[ (molMUL/(L · μ gCBHI · s) X IO4]的比活性。在50mM醋酸鈉中用300 μ M MUL和29. 2 μ g/親和分離的CBHI進(jìn)行反應(yīng)30分鐘。*5表示具有穩(wěn)定化子區(qū)塊C插入的親本5的區(qū)塊7。圖11顯示了 B7P2(嗜熱子囊菌)和B7P5 (埃默森籃狀菌)序列的比對(duì)。子區(qū)塊圈在紅色框中。子區(qū)塊C起始于位置60并繼續(xù)到比對(duì)的第二行中。圖12顯示了 Ni2+親和分離的CBH I親本和嵌合體樣品的SDS PAGE分析。所有樣品以I. 5ug蛋白每泳道加樣。樣品泳道1-親本5、2_親本1、5-121522*52 4-551535*52、5-551522*52、6-251522*52、7-121522*52。親本2親和分離的樣品(未包括在凝膠中)蛋白濃度太低而無(wú)法進(jìn)行考馬斯藍(lán)顯色。由于存在嗜熱毛殼菌接頭和CBM而不是埃默森籃狀菌接頭和CBM,親本I預(yù)期的分子量大于親本5和嵌合體。*5表示具有穩(wěn)定化子區(qū)塊C插入的親本5的區(qū)塊7。圖13顯示了親和分離的CBH I親本和嵌合體的與溫度相比的比活性。在50mM醋酸鈉中,用60mg/mL固體纖維素和14. 6 μ g/mL親和分離的CBH I進(jìn)行反應(yīng)16小時(shí)。誤差棒表示三個(gè)重復(fù)的標(biāo)準(zhǔn)偏差。*5表示具有穩(wěn)定化子區(qū)塊C插入的親本5的區(qū)塊7。詳述如在此處和在所附權(quán)利要求書(shū)中所用的那樣,除非上下文另外清楚地指明,否則單數(shù)形式“一種”、“一個(gè)”和“該”包括多個(gè)指稱(chēng)。因此,例如,提及“一個(gè)結(jié)構(gòu)域”包括多個(gè)這樣的結(jié)構(gòu)域,提及“該蛋白”包括提及一種或更多種蛋白,等等。同樣,除非另外聲明,“或”表示“和/或”。類(lèi)似地,“包含(comprise) ”、“包含 (comprises) ”、“包含(comprising) ”、“包括(include) ”、“包括(includes)” 和“包括(including)”是可互換的并且不旨在限制。還應(yīng)理解,在各實(shí)施方案的描述使用術(shù)語(yǔ)“包含”時(shí),本領(lǐng)域技術(shù)人員將理解在一些具體情況下,實(shí)施方案能夠可替代地使用語(yǔ)言“基本上由...組成”或“由...組成”描述。 盡管在本公開(kāi)的方法和組合物的實(shí)施中可使用與本文所述的方法和材料相似或等同的方法和材料,但在此處描述了示例性方法、裝置和材料。除非另外定義,否則本文所用的所有技術(shù)術(shù)語(yǔ)和科學(xué)術(shù)語(yǔ)具有與本公開(kāi)所屬技術(shù)領(lǐng)域的普通技術(shù)人員所通常理解的相同的含義。因此,如本申請(qǐng)通篇所使用的,以下術(shù)語(yǔ)應(yīng)具有以下含義。鑒于已經(jīng)證明的SCHEMA效用以及用于產(chǎn)生新的熱穩(wěn)定酶的單體區(qū)塊篩選方法,將這種策略與改善酶熱穩(wěn)定性的其它方法比較和對(duì)照是有啟示的。共有序列誘變(consensus mutagenesis)可能是最廣泛利用的不應(yīng)用高通量篩選的酶熱穩(wěn)定化策略。共有序列誘變是基于大量(例如,幾十個(gè)或幾百個(gè))相關(guān)的酶序列的比對(duì)并識(shí)別在給定位置高頻率出現(xiàn)的殘基可能具有穩(wěn)定化作用。由此預(yù)測(cè),將給定位置的殘基身份從低頻率氨基酸改變?yōu)檩^高頻率氨基酸改善進(jìn)行了這種取代的酶的熱穩(wěn)定性。盡管成功地利用了共有序列誘變來(lái)預(yù)測(cè)改善酶的熱穩(wěn)定性的單殘基取代,但是對(duì)大量的系統(tǒng)發(fā)生學(xué)上多樣的序列來(lái)確保預(yù)測(cè)精度的需求是相當(dāng)大的限制。共有序列誘變的成功應(yīng)用加入了幾十個(gè)(如果沒(méi)有幾百個(gè))酶同源物序列。雖然CAZy數(shù)據(jù)庫(kù)(參見(jiàn)全球網(wǎng)絡(luò)cazy. org)含有多于四十個(gè)可用于將共有序列誘變應(yīng)用于CBH I穩(wěn)定化的CBH I或CBHI相關(guān)的基因序列,但是存在許多酶類(lèi),對(duì)于其,如此大量已知序列是不可獲得的。此外,即使可獲得許多序列,精確預(yù)測(cè)穩(wěn)定化殘基的能力受到酶由共同祖先進(jìn)化而來(lái)的事實(shí)的限制。從小起始庫(kù)的進(jìn)化使完整的同源物組中的殘基頻率偏向親本序列中出現(xiàn)的氨基酸,這破壞氨基酸可能具有的任何穩(wěn)定化作用??紤]到SCHEMA重組僅需要親本酶的序列以及親本酶或同源物的晶體結(jié)構(gòu),我們所描述的單體區(qū)塊篩選方法可能是用于改善穩(wěn)定性的共有序列誘變的有效的替代方案。在工業(yè)相關(guān)的真菌CBH I的上下文中說(shuō)明了通過(guò)SCHEMA重組的酶穩(wěn)定化,所述工業(yè)相關(guān)的真菌CBH I是大規(guī)模生物質(zhì)轉(zhuǎn)化過(guò)程中使用的纖維素酶混合物的主要組分。眾所周知,這些酶難以在異源宿主中表達(dá),并且蛋白質(zhì)工程計(jì)劃很少得到改善的酶,盡管其具有工業(yè)重要性。迄今為止,所描述的最熱穩(wěn)定的CBH I是由重組釀酒酵母(S. cerevisiae)宿主分泌的含有三個(gè)額外的合理設(shè)計(jì)的二硫鍵G4C-A72C、N54C-P191C和T243C-A375C的埃默森籃狀菌的變體。本文提供了用作SCHEMA重組親本的單G4C-A72C工程化二硫鍵埃默森籃狀菌催化結(jié)構(gòu)域。如通過(guò)圓二色性(CD)所測(cè)得的,單二硫鍵和三二硫鍵變體的各自的Tm值被報(bào)道為80°C和84°C,并且在不存在底物的情況下其在70°C下的半衰期被報(bào)道為270分鐘和320分鐘。G4C-A72C突變體的這些數(shù)字與在酵母分泌培養(yǎng)上清液中的埃默森籃狀菌CBHI親本所觀察到的T5tl值62. 9+/-0.3°C不匹配,并且還意味著熱穩(wěn)定性比我們?cè)诠腆w底物水解測(cè)定中觀察到的更大,其中埃默森籃狀菌親本在65°C以上的溫度下是非活性的。生物質(zhì)到生物燃料的轉(zhuǎn)化過(guò)程中常用的真菌纖維素酶混合物的高成本是實(shí)現(xiàn)從不可食用的植物物質(zhì)經(jīng)濟(jì)上可行地生產(chǎn)運(yùn)輸燃料的主要限制之一。纖維素酶處理的操作成本可通過(guò)改善這些酶混合物的熱穩(wěn)定性來(lái)降低。纖維素酶操作的壽命隨熱穩(wěn)定性而增加, 與其較不穩(wěn)定的對(duì)應(yīng)物相比,在生物質(zhì)降解的過(guò)程中允許熱穩(wěn)定的纖維素酶每單位酶水解更多的纖維素。熱穩(wěn)定的纖維素酶還可在較高的溫度下操作并且可從較高的比活性中獲益。這種增強(qiáng)的水解降低了將纖維素生物質(zhì)轉(zhuǎn)化成可發(fā)酵糖所需的酶負(fù)載。除穩(wěn)定性以外,性能諸如比活性、pH依賴(lài)性、產(chǎn)物抑制以及在固體底物的表面上的生產(chǎn)性相對(duì)非生產(chǎn)性吸附均對(duì)纖維素酶混合物的整體性能做出貢獻(xiàn)。I類(lèi)纖維二糖水解酶(CBH I或家族7糖基水解酶)是工業(yè)化纖維素酶混合物的主要組分并占由普遍的商業(yè)纖維素酶生產(chǎn)宿主(絲狀真菌紅褐肉座菌(T. reesei))分泌的纖維素酶的約60wt%。這樣,CBH I已成為以改善CBHI熱穩(wěn)定性為主要目標(biāo)的多種酶工程工作的主題。CBH I隨機(jī)突變文庫(kù)的高通量篩選(HTS)以及合理的二硫鍵設(shè)計(jì)已被應(yīng)用于創(chuàng)建穩(wěn)定的CBH I變體。HTS的適用性被限制于由足以實(shí)現(xiàn)文庫(kù)特征化的水平的合適的異源宿主表達(dá)的CBH I。二硫鍵設(shè)計(jì)的適用性被限制于存在晶體結(jié)構(gòu)的CBH I。這些方法中沒(méi)有一個(gè)產(chǎn)生可導(dǎo)致以上列舉的一組酶性能改善的CBH I基因序列多樣性。本公開(kāi)內(nèi)容描述了用于工程化纖維素酶(及其它蛋白)的方法,并且還提供了這種組合物以及工程多肽,所述纖維素酶(及其它蛋白)可靠地改善熱穩(wěn)定性而同時(shí)維持功能并提供高水平的序列多樣性。大多數(shù)的生物質(zhì)轉(zhuǎn)化過(guò)程利用真菌纖維素酶(主要是纖維二糖水解酶II類(lèi)(CBH
II)、纖維二糖水解酶I類(lèi)(CBH I)、內(nèi)切葡聚糖酶和β-葡糖苷酶)的混合物來(lái)實(shí)現(xiàn)高水平的纖維素水解。產(chǎn)生一組多樣的熱穩(wěn)定的CBH I酶嵌合體是構(gòu)建穩(wěn)定的高活性纖維素酶的清單的第一步,酶混合物可從這些穩(wěn)定的高活性纖維素酶配制并被優(yōu)化用于特定的應(yīng)用和原料。本公開(kāi)內(nèi)容中的這些嵌合CBH I可以與其它纖維二糖水解酶(例如野生型CBH II和嵌合CBH II,參見(jiàn),例如,PCT/US2010/027248和PCT/US2010/30133,其公開(kāi)內(nèi)容在此通過(guò)引用方式并入)組合使用。先前已使用SCHEMA來(lái)創(chuàng)建數(shù)百個(gè)活性CBH II、β -內(nèi)酰胺酶和細(xì)胞色素Ρ450酶嵌合體的家族。SCHEMA利用蛋白結(jié)構(gòu)數(shù)據(jù)來(lái)限定使<E>最小化的連續(xù)氨基酸“區(qū)塊”的邊界,<E>是當(dāng)這些區(qū)塊在不同親本之間交換時(shí)破壞的氨基酸側(cè)鏈接觸的文庫(kù)平均數(shù)目。已顯示β_內(nèi)酰胺酶嵌合體被折疊且具有活性的概率與該序列的E值負(fù)相關(guān)。RASPP(最短路徑重組問(wèn)題(Recombination as Shortest Path Problem))算法用于鑒定使<E>相對(duì)于突變的文庫(kù)平均數(shù)目<m>最小化的區(qū)塊邊界。由β-內(nèi)酰胺酶集合(collection)表征的包含來(lái)自3個(gè)親本的8個(gè)區(qū)塊(38 = 6,561條可能的序列)的 500種獨(dú)特嵌合體中多于20%具有催化活性。類(lèi)似方法產(chǎn)生了包含多于2,300種新穎的催化活性酶的3-親本、8-區(qū)塊細(xì)胞色素P450嵌合體家族。來(lái)自這兩種集合的嵌合體特征在于從最近的親本高數(shù)目的突變,分別為平均66個(gè)氨基酸和72個(gè)氨基酸。SCHEMA/RASPP因而使得設(shè)計(jì)具有顯著的序列多樣性和可觀比例的功能成員的嵌合體家族成為可能。還已顯示SCHEMA嵌合體的熱穩(wěn)定性能夠基于小樣品序列的序列穩(wěn)定性數(shù)據(jù)來(lái)預(yù)測(cè)。184種細(xì)胞色素P450嵌合體的熱失活數(shù)據(jù)的線性回歸建模顯示SCHEMA區(qū)塊對(duì)熱穩(wěn)定性作出加性的貢獻(xiàn)。通過(guò)這個(gè)模型預(yù)測(cè)多于300種嵌合體是熱穩(wěn)定的,并且所測(cè)試的所有44種比最穩(wěn)定的親本更穩(wěn)定。據(jù)估計(jì)少至35次熱穩(wěn)定性測(cè)量可用于預(yù)測(cè)熱穩(wěn)定性最高的嵌合體。此外,熱穩(wěn)定的P450嵌合體展示獨(dú)特的活性和特異性性質(zhì),表明嵌合(chimeragenesis)能產(chǎn)生另外有用的酶特性。本公開(kāi)內(nèi)容說(shuō)明CBH II酶的SCHEMA重組能夠產(chǎn)生在高溫下經(jīng)延長(zhǎng)的時(shí)間和寬范圍的PH對(duì)磷酸膨脹纖維素(PASC)具有活性的嵌合纖維素酶。·可通過(guò)交換序列區(qū)塊而制得的嵌合體的總數(shù)是pb,其中P是親本的數(shù)目且b是每個(gè)親本分成的區(qū)塊的數(shù)目。在SCHEMA重組家族的構(gòu)建中包括更多的親本酶產(chǎn)生更多潛在獨(dú)特的嵌合體,并能夠包括更多潛在有利的突變。然而,6,561個(gè)嵌合體可通過(guò)將3個(gè)親本和8個(gè)區(qū)塊重組而制得,再加入兩個(gè)親本序列增加家族大小至大于390,000o通過(guò)重組而開(kāi)發(fā)的突變的數(shù)目取決于親本序列同一性。對(duì)于CBH I,相對(duì)于埃默森籃狀菌背景親本(親本5 (P5)),親本I (嗜熱毛殼菌)含有151個(gè)突變,親本2 (嗜熱子囊菌)增加43個(gè)獨(dú)特的突變,親本3 (紅褐肉座菌)產(chǎn)生另外100個(gè)獨(dú)特的突變,且親本4 (嗜熱支頂孢)增加了 52個(gè)突變計(jì)數(shù),產(chǎn)生336的可由重組來(lái)搜索的突變的總數(shù)。用較大的嵌合體家族操作的缺點(diǎn)是必須表征更多的嵌合體以構(gòu)建預(yù)測(cè)性穩(wěn)定性模型。如果顯著比例的樣品嵌合體沒(méi)有以功能形式表達(dá),則這可能是高成本的。本公開(kāi)內(nèi)容說(shuō)明,可用單體篩選方法來(lái)有效地識(shí)別期望的序列,其中在穩(wěn)定的良好表達(dá)的親本的背景中進(jìn)行個(gè)體區(qū)塊的取代。相對(duì)于選擇用于測(cè)試區(qū)塊之間的相互作用的嵌合體樣品集,即背景序列的重要性,這一策略減少了構(gòu)建的非生產(chǎn)性序列的數(shù)目。對(duì)背景親本及32-成員CBH I單體集的28個(gè)分泌成員的穩(wěn)定性測(cè)量允許評(píng)價(jià)構(gòu)成5-親本、8-區(qū)塊CBH I嵌合體家族的40個(gè)區(qū)塊的36個(gè)的穩(wěn)定性貢獻(xiàn)。假設(shè)在區(qū)塊之中沒(méi)有非線性的穩(wěn)定性作用,并且區(qū)塊7親本5(B7P5)在全部嵌合體背景中在位置7處是最穩(wěn)定的區(qū)塊,這些測(cè)量允許預(yù)測(cè)58 = 390,625個(gè)CBH I嵌合體序列中最穩(wěn)定的序列。這表明篩選效率相對(duì)于先前CBH II重組操作的增加,但是建立在如下假設(shè)之上區(qū)塊對(duì)總穩(wěn)定性加性地做出貢獻(xiàn)并且沒(méi)有測(cè)試線性模型。本公開(kāi)內(nèi)容說(shuō)明用于從特征為大量的二硫鍵的親本酶創(chuàng)建活性嵌合體的SCHEMA重組的穩(wěn)定性。SCHEMA試圖限定區(qū)塊邊界以便使區(qū)塊之間的相互作用類(lèi)似于親本酶中發(fā)生的那些相互作用。然而,區(qū)塊邊界未考慮二硫鍵來(lái)限定。這樣,10個(gè)二硫鍵(其中的5個(gè)連接位于不同區(qū)塊的Cys殘基)的存在提出了 SCHEMA產(chǎn)生導(dǎo)致大比例活性成員的嵌合體家族設(shè)計(jì)的能力的新測(cè)試。如32個(gè)單體中的28個(gè)和16中的16個(gè)所示,預(yù)測(cè)的穩(wěn)定的嵌合體被分泌為活性纖維素酶,即使當(dāng)?shù)鞍子纱罅康亩蜴I交聯(lián)時(shí),SCHEMA重組可產(chǎn)生大比例的活性嵌合體。這些結(jié)果表明,SCHEMA重組保留了用于形成二硫鍵的Cys殘基的合適的定位和定向。允許定量預(yù)測(cè)嵌合體熱穩(wěn)定性的線性區(qū)塊穩(wěn)定性貢獻(xiàn)支持高序列多樣性和大比例的活性成員作為SCHEMA嵌合體家族的可用特征。區(qū)塊7是最大的區(qū)塊,具有116個(gè)殘基,其占CBH I催化結(jié)構(gòu)域的27%。在此位置處進(jìn)行取代的能力的下降顯著地降低了由單體樣品集篩選中所包含的突變的總數(shù)。具體地,32個(gè)單體樣品集的總計(jì)336個(gè)獨(dú)特的突變中的119個(gè)包含在區(qū)塊7中。高E值不一定預(yù)測(cè)區(qū)塊7對(duì)重組的抗性。為了測(cè)試,產(chǎn)生并重組了區(qū)塊7的另外的子區(qū)塊。不僅增加相應(yīng)的單體的穩(wěn)定性還增加其被取代進(jìn)入的全部五個(gè)穩(wěn)定嵌合體的穩(wěn)定性的子區(qū)塊被識(shí)別,并表明細(xì)分重組區(qū)塊可產(chǎn)生進(jìn)一步的穩(wěn)定性改五親本SCHEMA重組產(chǎn)生一組熱穩(wěn)定的CBH I嵌合體,其在可以配制應(yīng)用特異性混合物的熱穩(wěn)定的真菌纖維素酶的清單的裝配中是對(duì)前述熱穩(wěn)定的CBH II嵌合體7’8的關(guān)鍵補(bǔ)充。另外,該工作表明單體篩選策略使大家族中的期望的嵌合體序列的預(yù)測(cè)易于處理,因此增加了 SCHEMA用于開(kāi)發(fā)大范圍酶序列空間的功用。此外,觀察到的嵌合體性能的改善以及活性重組酶的高比例表明SCHEMA重組可應(yīng)用于含有廣泛的翻譯后修飾的酶。這樣,這些結(jié)果不僅對(duì)于工業(yè)化生物質(zhì)轉(zhuǎn)化過(guò)程的上下文中的酶工程有重要意義,還對(duì)于工程化期望高序列多樣性和/或其性能不易通過(guò)誘變和高通量篩選改善的其它蛋白有重要意義。使用本文所述的方法,產(chǎn)生了許多具有纖維二糖水解酶活性的嵌合多肽,其與野生型親本CBH I蛋白相比具有改進(jìn)的特征。使用相應(yīng)于含有大于390,000個(gè)獨(dú)特序列的8_區(qū)塊、5_親本家族的多樣的CBH I嵌合體樣品集。為了預(yù)測(cè)這種嵌合體家族的最穩(wěn)定的成員而仍?xún)H抽取一組有限的嵌合基因( 30-40),利用經(jīng)驗(yàn)來(lái)簡(jiǎn)化樣品集設(shè)計(jì)并使預(yù)期以功能形式分泌的樣品基因的數(shù)目最大化。具體地,假定SCHEMA區(qū)塊對(duì)嵌合體穩(wěn)定性具有加性的貢獻(xiàn)或至少累積的貢獻(xiàn)。還進(jìn)一步假設(shè),利用高度表達(dá)的親本作為背景(其中同源親本的單一區(qū)塊被取代)將增加樣品序列將被分泌和具有功能的可能性。因此,在良好表達(dá)的親本酶的背景下構(gòu)建出含有單一區(qū)塊取代的一組CBH I “單體”嵌合體。這是快速篩選用于穩(wěn)定序列的區(qū)塊的同源酶的有效方法。預(yù)測(cè)最穩(wěn)定的嵌合體的任務(wù)被減少到進(jìn)行親本酶及該背景中制得的32個(gè)單體的穩(wěn)定性測(cè)量。然后,可由具有穩(wěn)定作用的且中性的區(qū)段裝配多樣的熱穩(wěn)定的嵌合體?!鞍被帷笔蔷哂腥缦陆Y(jié)構(gòu)的分子其中中心碳原子與氫原子、羧酸基團(tuán)(其碳原子在此稱(chēng)為“羧基碳原子”)、氨基基團(tuán)(其氮原子在此稱(chēng)為“氨基氮原子”)和側(cè)鏈基團(tuán)R相連。當(dāng)加入到肽、多肽或蛋白中時(shí),在連接一個(gè)氨基酸與另一個(gè)氨基酸的脫水反應(yīng)中氨基酸失去其氨基酸羧基的一個(gè)或多個(gè)原子。結(jié)果,當(dāng)加入到蛋白中時(shí),氨基酸被稱(chēng)為“氨基酸殘基'“蛋白”或“多肽”是指兩個(gè)或更多個(gè)單獨(dú)的氨基酸(不論是否為天然存在的)通過(guò)肽鍵相連的任何聚合物。術(shù)語(yǔ)“蛋白”被理解為包括術(shù)語(yǔ)“多肽”和“肽”(有時(shí)其在本文中可互換地使用)在其含義之內(nèi)。另外,包含多個(gè)多肽亞基(例如,DNA聚合酶III、RNA聚合酶II)或其它組分(例如,如端粒酶中存在的RNA分子)的蛋白也將被理解為包括在本文所用的“蛋白”的含義之內(nèi)。類(lèi)似地,蛋白及多肽的片段也在本公開(kāi)內(nèi)容的范圍內(nèi)并可在此稱(chēng)為“蛋白”。在本公開(kāi)內(nèi)容的一個(gè)實(shí)施方案中,穩(wěn)定化的蛋白包括兩個(gè)或更多個(gè)親本肽區(qū)段的嵌合體。給定蛋白的具體氨基酸序列(即,當(dāng)從氨基端到羧基端書(shū)寫(xiě)時(shí)為多肽的“一級(jí)結(jié)構(gòu)”)由mRNA的編碼部分的核苷酸序列決定,mRNA進(jìn)而由遺傳信息指定,所述遺傳信息通常為基因組DNA (包括細(xì)胞器DNA,例如線粒體DNA或葉綠體DNA)。因此,確定基因的序列幫助預(yù)測(cè)對(duì)應(yīng)的多肽的一級(jí)序列和更特別的是預(yù)測(cè)由該基因或多核苷酸序列編碼的多肽或蛋白的作用或活性?!叭诤系摹薄ⅰ翱刹僮鞯剡B接的”和“可操作地關(guān)聯(lián)的”在本文可互換使用來(lái)概括地指兩種在其他方面不同的結(jié)構(gòu)域或肽區(qū)段的化學(xué)偶聯(lián)或物理偶聯(lián),其中每個(gè)結(jié)構(gòu)域或肽區(qū)段當(dāng)可操作地連接時(shí)能夠提供具有期望活性的功能多肽。結(jié)構(gòu)域或肽區(qū)段能夠通過(guò)使得它們具有功能的肽接頭直接連接或相連,或者能夠通過(guò)其他的中間體或化學(xué)鍵融合。例如,兩個(gè)結(jié)構(gòu)域可以是同一編碼序列的一部分,其中該多核苷酸是符合讀框的以使得該多核苷酸在轉(zhuǎn)錄時(shí)編碼一個(gè)mRNA,該mRNA在翻譯時(shí)包括這兩個(gè)結(jié)構(gòu)域作為一個(gè)多肽??商娲?,兩個(gè) 結(jié)構(gòu)域可以被分別表達(dá)為個(gè)體多肽并且使用化學(xué)方法彼此融合。通常,編碼結(jié)構(gòu)域?qū)⒈恢苯拥鼗虮浑慕宇^分隔地“符合讀框地”連接,并被一個(gè)多核苷酸編碼。肽接頭和肽的各個(gè)編碼序列是本領(lǐng)域已知的?!岸嗪塑账帷被颉昂怂嵝蛄小笔侵负塑账岬木酆闲问?。在一些情況下,多核苷酸是指不與在獲取該多核苷酸的生物體的天然存在的基因組中與之緊密鄰接的編碼序列(一個(gè)在5'端且一個(gè)在3'端)中的任何一個(gè)緊密鄰接的序列。該術(shù)語(yǔ)因此包括,例如,加入載體中的重組DNA ;加入自主復(fù)制質(zhì)?;虿《局械闹亟MDNA ;或加入原核生物或真核生物的基因組DNA中的重組DNA,或作為獨(dú)立于其他序列的單獨(dú)分子(例如,cDNA)而存在的重組DNA0本公開(kāi)內(nèi)容的核苷酸可以是核糖核苷酸、脫氧核糖核苷酸或任何一種核苷酸的修飾形式。如本文所用的多核苷酸是指,除了其他之外,單鏈和雙鏈的DNA,為單鏈和雙鏈區(qū)域的混合物的DNA,單鏈和雙鏈的RNA,以及為單鏈和雙鏈的區(qū)域的混合物的RNA,包含可能為單鏈的或更通常為雙鏈的或?yàn)閱捂満碗p鏈的區(qū)域的混合物的DNA和RNA的雜合分子。術(shù)語(yǔ)多核苷酸涵蓋基因組DNA或RNA (取決于生物體,即病毒的RNA基因組)以及由基因組DNA編碼的 mRNA、和 cDNA。“核酸區(qū)段”、“寡核苷酸區(qū)段”或“多核苷酸區(qū)段”是指較大多核苷酸分子的一部分。多核苷酸區(qū)段不必對(duì)應(yīng)于蛋白的編碼功能域;然而,在一些情況下該區(qū)段將編碼蛋白的功能域。多核苷酸區(qū)段的長(zhǎng)度可以是約6個(gè)核苷酸或更多(例如,長(zhǎng)度為6-20、20-50、50-100,100-200,200-300,300-400個(gè)或更多核苷酸)。穩(wěn)定性相關(guān)的肽區(qū)段可以被穩(wěn)定性相關(guān)的多核苷酸區(qū)段編碼,其中該肽區(qū)段與缺乏該肽區(qū)段的多肽相比促進(jìn)穩(wěn)定性、功能或折疊?!扒逗象w”是指至少兩個(gè)不同的親本蛋白或多肽的至少兩個(gè)區(qū)段或結(jié)構(gòu)域的組合。如本領(lǐng)域技術(shù)人員所理解的,這些區(qū)段不必實(shí)際來(lái)自每個(gè)親本,因?yàn)樗窍嚓P(guān)的特定序列,而不是實(shí)體核酸或肽本身。例如,嵌合真菌I類(lèi)纖維二糖水解酶(CBH I纖維素酶)將具有來(lái)自?xún)蓚€(gè)不同的親本CBH I多肽的至少兩個(gè)區(qū)段。這兩個(gè)區(qū)段是相連的以產(chǎn)生具有纖維二糖水解酶活性的新多肽。換言之,如果蛋白具有全長(zhǎng)親本中任一個(gè)的相同序列,那么該蛋白將不是嵌合體。嵌合多肽能夠包含來(lái)自?xún)蓚€(gè)不同親本蛋白的多于兩個(gè)區(qū)段。例如,對(duì)于每個(gè)最終的嵌合體或嵌合體的文庫(kù)來(lái)說(shuō)可能有2、3、4、5-10、10-20個(gè)或更多個(gè)親本。每個(gè)親本多肽的區(qū)段可以是非常短的或非常長(zhǎng)的,區(qū)段的連續(xù)氨基酸的長(zhǎng)度范圍可以是蛋白全長(zhǎng)的1%到約90%、95%、98%或99%。在一個(gè)實(shí)施方案中,最小長(zhǎng)度是10個(gè)氨基酸,但是長(zhǎng)度可以是 15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100 個(gè)或更多個(gè)氨基酸。在一個(gè)實(shí)施方案中,確定了兩個(gè)親本的一個(gè)交叉點(diǎn)。交叉位置確定了一個(gè)親本氨基酸區(qū)段停止和下一個(gè)親本氨基酸區(qū)段開(kāi)始的地方。因而,簡(jiǎn)單的嵌合體將只具有一個(gè)交叉位置,其中在該交叉位置之前的區(qū)段屬于第一親本而在該交叉位置之后的區(qū)段屬于第二親本。在一個(gè)實(shí)施方案中,嵌合體具有多于一個(gè)交叉位置。例如,2、3、4、5、6、7、8、9、10、11-30個(gè)或更多個(gè)交叉位置。這些交叉位置如何命名和定義均在以下討論。在其中有兩個(gè)交叉位置和兩個(gè)親本的實(shí)施方案中,將具有來(lái)自第一親本的第一連續(xù)區(qū)段,緊跟著來(lái)自第二親本的第二連續(xù)區(qū)段,緊跟著來(lái)自第一親本或又一不同的親本的第三連續(xù)區(qū)段。連續(xù)的旨在表示沒(méi)有任何中斷區(qū)段的含義。這些連續(xù)的區(qū)段相連形成連續(xù)的氨基酸序列。例如,來(lái)自嗜熱毛殼菌(此后稱(chēng)“I”)和嗜熱子囊菌(此后稱(chēng)“2”)的在49和94具有兩個(gè)交叉點(diǎn)的CBH I嵌合體可具有來(lái)自I的前49個(gè)氨基酸,緊跟著來(lái)自2的接下來(lái)55個(gè)氨基酸,緊跟著來(lái)自I的剩余氨基酸,所有這些氨基酸連接在一個(gè)連續(xù)氨基酸鏈中??蛇x地,CBH I嵌合體可具有來(lái) 自2的前49個(gè)氨基酸,來(lái)自I的接下來(lái)55個(gè)氨基酸以及緊跟著來(lái)自2的剩余氨基酸。如本領(lǐng)域技術(shù)人員所理解的,存在嵌合體的變體以及準(zhǔn)確序列。因而,如果是變異的嵌合體,則并非每個(gè)區(qū)段的100%必須存在于最終的嵌合體中??赏ㄟ^(guò)額外的殘基或殘基的移除或變化而改變的量將按照術(shù)語(yǔ)變體所定義的那樣定義。當(dāng)然,如本領(lǐng)域技術(shù)人員所理解的,以上討論不僅適用于氨基酸而且適用于編碼氨基酸的核酸?!氨J氐陌被崛〈笔侵妇哂蓄?lèi)似側(cè)鏈的殘基的可交換性,且因此通常涉及多肽中的氨基酸由相同或類(lèi)似定義類(lèi)別的氨基酸中的氨基酸取代。作為實(shí)例而非限制,具有脂族側(cè)鏈的氨基酸可由另一個(gè)脂族氨基酸取代,例如丙氨酸、纈氨酸、亮氨酸、異亮氨酸和甲硫氨酸;具有羥基側(cè)鏈的氨基酸由具有羥基側(cè)鏈的另一氨基酸取代,例如絲氨酸和蘇氨酸;具有芳族側(cè)鏈的氨基酸由具有芳族側(cè)鏈的另一氨基酸取代,例如,苯丙氨酸、酪氨酸、色氨酸和組氨酸;具有堿性側(cè)鏈的氨基酸由具有堿性側(cè)鏈的另一氨基酸取代,例如,賴(lài)氨酸、精氨酸和組氨酸;具有酸性側(cè)鏈的氨基酸由具有酸性側(cè)鏈的另一氨基酸取代,例如,天冬氨酸或谷氨酸;以及疏水性或親水性氨基酸分別由另一疏水性或親水性氨基酸取代?!胺潜J厝〈笔侵付嚯闹械陌被嵊删哂酗@著不同的側(cè)鏈性質(zhì)的氨基酸取代。非保守取代可使用定義的組之間而不是定義的組之內(nèi)的氨基酸,并影響(a)取代區(qū)域中多肽骨架的結(jié)構(gòu)(例如,脯氨酸代替甘氨酸),(b)電荷或疏水性,或者(C)側(cè)鏈體積。作為實(shí)例而非限制,示例的非保守取代可以是由堿性或脂族氨基酸取代酸性氨基酸;由小氨基酸取代芳族氨基酸;以及由疏水性氨基酸取代親水性氨基酸?!胺蛛x的多肽”是指與其天然伴隨的其他污染物例如蛋白、脂質(zhì)和多核苷酸分離的多肽。該術(shù)語(yǔ)包括已自其天然存在環(huán)境或表達(dá)系統(tǒng)(例如,宿主細(xì)胞或體外合成)中移出或純化的多肽?!盎旧霞兊亩嚯摹笔侵溉缦陆M合物在其中多肽物類(lèi)是存在的優(yōu)勢(shì)物類(lèi)(即,在爾基礎(chǔ)或重量基礎(chǔ)上它比該組合物中的任何其他個(gè)體大分子物類(lèi)更豐富),并且一般而言當(dāng)目標(biāo)物類(lèi)構(gòu)成存在的大分子物類(lèi)的按摩爾或重量%計(jì)至少約50%時(shí)是基本上純化的組合物。一般而言,基本上純的多肽組合物將占該組合物中所存在的所有大分子物類(lèi)的按摩爾或重量%計(jì)的約60%或更多、約70%或更多、約80%或更多、約90%或更多、約95%或更多以及約98%或更多。在一些實(shí)施方案中,將目標(biāo)物類(lèi)純化至基本的均一性(即,通過(guò)常規(guī)檢測(cè)方法不能在組合物中檢測(cè)出污染物類(lèi)),其中組合物基本上由單一大分子物類(lèi)組成。溶劑物類(lèi)、小分子(< 500道爾頓)、以及元素離子物類(lèi)不被認(rèn)為是大分子物類(lèi)?!皡⒖夹蛄小笔侵赣米餍蛄斜容^的基礎(chǔ)的限定序列。參考序列可以是較大序列的子部分,例如,全長(zhǎng)基因或多肽序列的區(qū)段。一般而言,參考序列長(zhǎng)度可為至少20個(gè)核苷酸或氨基酸殘基,至少25個(gè)核苷酸或殘基,至少50個(gè)核苷酸或殘基,或核酸或多肽的全長(zhǎng)。因?yàn)閮蓚€(gè)多核苷酸或多肽可以各自⑴包括在這兩條序列之間相似的序列(即完整序列的一部分),以及(2)還可以包括在這兩條序列之間相異的序列,所以在兩條(或多條)多核苷酸或多肽之間的序列比較通常是通過(guò)在“比較窗口 ”上比較這兩條多核苷酸或多肽的序列而進(jìn)行的,以識(shí)別和比較局部區(qū)域的序列相似性?!靶蛄型恍浴北硎驹诒容^窗口上兩條氨基酸序列基本上相同(即,在逐個(gè)氨基酸·的基礎(chǔ)上)。術(shù)語(yǔ)“序列相似性”是指共有相同的生物物理特點(diǎn)的相似氨基酸。術(shù)語(yǔ)“序列同一性百分比”或“序列相似性百分比”是通過(guò)如下方式計(jì)算的在比較窗口上比較兩條最佳比對(duì)的序列,確定兩條多肽序列中存在相同的殘基(或相似的殘基)的位置數(shù)目以得出匹配的位置數(shù)目,用匹配的位置數(shù)目除以比較窗口中的位置的總數(shù)目(即,窗口大小),并且將結(jié)果乘以100得出序列同一性百分比(或序列相似性百分比)。關(guān)于多核苷酸序列,術(shù)語(yǔ)序列同一性和序列相似性具有對(duì)于蛋白質(zhì)序列所述的類(lèi)似的含義,其中術(shù)語(yǔ)“序列同一性的百分比”指示在比較窗口上兩條多核苷酸序列是相同的(在逐個(gè)核苷酸的基礎(chǔ)上)。這樣,還可以計(jì)算多核苷酸序列同一性的百分比(或基于分析算法,多核苷酸序列相似性的百分比,例如,對(duì)于沉默取代或其他取代來(lái)說(shuō))。最大對(duì)應(yīng)可通過(guò)使用本文所述的序列算法之一(或本領(lǐng)域普通技術(shù)人員可用的其他算法)或通過(guò)視覺(jué)檢查來(lái)確定。當(dāng)應(yīng)用于多肽時(shí),術(shù)語(yǔ)基本的同一性或基本的相似性表示當(dāng)諸如通過(guò)使用缺省空位權(quán)重(default gap weight)的程序BLAST、GAP或BESTFIT或通過(guò)視覺(jué)檢查進(jìn)行最優(yōu)比對(duì)時(shí),兩條肽序列享有序列同一性或序列相似性。類(lèi)似地,在應(yīng)用于兩條核酸的上下文時(shí),術(shù)語(yǔ)基本的同一性或基本的相似性表示當(dāng)諸如通過(guò)使用缺省空位權(quán)重的程序BLAST、GAP或BESTFIT (如本文其他地方描述的)或通過(guò)視覺(jué)檢查進(jìn)行最優(yōu)比對(duì)時(shí),兩條核酸序列享有序列同一性或序列相似性。適于確定序列同一性百分比或序列相似性百分比的算法的一個(gè)實(shí)例是FASTA算法,它描述于 Pearson,ff. R. &Lipman, D. J.,(1988) Proc. Natl. Acad. Sci. USA 85 :2444 中。還參見(jiàn) W. R. Pearson, (1996)MethodsEnzymology 266:227-258。在計(jì)算同一性百分比或相似性百分比的DNA序列的FASTA比對(duì)中使用的優(yōu)選的參數(shù)被優(yōu)化,BL50 Matrix 15 :_5,k-tuple = 2 ;連接罰分(joining penalty) = 40,最優(yōu)=28 ;空位罰分-12,空位長(zhǎng)度罰分=~2 ;以及覽度=16。有用的算法的另一個(gè)實(shí)例是PILEUP。PILEUP利用漸進(jìn)的逐對(duì)比對(duì)從一組相關(guān)序列中創(chuàng)建多序列比對(duì)來(lái)顯示關(guān)系和序列同一性百分比或序列相似性百分比。它還繪制樹(shù)或系統(tǒng)樹(shù)圖,顯示用于創(chuàng)建比對(duì)的聚類(lèi)關(guān)系。PILEUP利用Feng & Doolittle, (1987) J. Mol.Evol. 35 :351-360的漸進(jìn)比對(duì)方法的簡(jiǎn)化形式。所用的方法與Higgins & Sharp, CABIOS5:151-153,1989所述的方法類(lèi)似。該程序可比對(duì)高達(dá)300條序列,各具有5,000個(gè)核苷酸或氨基酸的最大長(zhǎng)度。多重比對(duì)步驟開(kāi)始于兩條最相似序列的逐對(duì)比對(duì),產(chǎn)生兩條比對(duì)序列的簇。然后這種簇與下一個(gè)最相關(guān)的序列或比對(duì)序列的簇進(jìn)行比對(duì)。通過(guò)兩個(gè)個(gè)體序列的逐對(duì)比對(duì)的簡(jiǎn)單延伸對(duì)序列的兩個(gè)簇進(jìn)行比對(duì)。通過(guò)一系列漸進(jìn)的逐對(duì)比對(duì)實(shí)現(xiàn)最終的比對(duì)。通過(guò)指定具體的序列及其序列比對(duì)區(qū)域的氨基酸或核苷酸坐標(biāo)和通過(guò)指定程序參數(shù)來(lái)運(yùn)行該程序。使用PILEUP,利用以下參數(shù)將參考序列與其他測(cè)試序列進(jìn)行比較來(lái)確定序列同一性百分比(或序列相似性百分比)關(guān)系缺省空位權(quán)重(3. 00)、缺省空位長(zhǎng)度權(quán)重(O. 10)以及權(quán)重端空位(weighted end gap)。PILEUP可以從GCG序列分析軟件包例如7· O版本獲得(Devereaux 等人,(1984) Nuc. Acids Res. 12 :387-395) 適于多重DNA和氨基酸序列比對(duì)的算法的另一個(gè)實(shí)例是CLUSTALW程序(Thompson, J. D.等人,(1994) Nuc. Acids Res. 22 :4673-4680)。CLUSTALW 在序列組之間進(jìn)行多重逐對(duì)比較并且基于序列同一性將它們裝配成多重比對(duì)??瘴婚_(kāi)放罰分(Gap openpenalty)和空位擴(kuò)展罰分(Gapextension penalty)分別是10和O. 05。對(duì)于氨基酸比對(duì)來(lái)說(shuō),BLOSUM算法可用作蛋白權(quán)重矩陣(protein weight matrix) (Henikoff 和 Henikoff, (1992)Proc. Natl. Acad. Sci. USA 89 :10915-10919)。“功能的”是指如下的多肽,其具有其天然產(chǎn)生的蛋白形式的天然生物活性,或任何特定的期望的活性,例如,如通過(guò)其結(jié)合到配體分子或進(jìn)行酶促反應(yīng)的能力來(lái)判斷。本公開(kāi)內(nèi)容描述了基于纖維二糖水解酶家族和更具體地纖維二糖水解酶I酶的具體成員(例如,嗜熱毛殼菌是親本“I”(SEQ ID NO :2),嗜熱子囊菌是親本“2”(SEQ IDNO :4),紅褐肉座菌是親本“3”(SEQ ID NO :6),嗜熱支頂孢是親本“4”(SEQ ID NO :8)且埃默森籃狀菌是親本“5” SEQ ID NO :10))產(chǎn)生纖維二糖水解酶的定向SCHEMA重組文庫(kù)。SCHEMA是用于預(yù)測(cè)哪些相關(guān)蛋白的片段可被重組而不影響蛋白的結(jié)構(gòu)完整性的基于計(jì)算的方法(參見(jiàn),例如,Meyer等人,(2003)Protein Sci. , 12 :1686-1693)。這種計(jì)算方法鑒定了 CBH I親本蛋白中的七個(gè)重組點(diǎn),從而容許形成CBH I嵌合多肽的文庫(kù),其中每個(gè)多肽包含例如從二至八個(gè)區(qū)段。通過(guò)利用序列穩(wěn)定性數(shù)據(jù)的線性回歸或通過(guò)依賴(lài)折疊蛋白與未折疊蛋白的MSA的共有序列分析而確定每個(gè)區(qū)段對(duì)總的穩(wěn)定性的加性貢獻(xiàn),可鑒定具有較高穩(wěn)定性的嵌合體。SCHEMA重組確保嵌合體通過(guò)保留重要的功能殘基同時(shí)交換耐受殘基而保持生物功能并顯示高的序列多樣性。因而,如通過(guò)本文的各種實(shí)施方案所顯示的,本公開(kāi)內(nèi)容提供了包含親本結(jié)構(gòu)域的嵌合體的CBH I多肽。在一些實(shí)施方案中,多肽包含從N端到C端具有不同親本CBH II蛋白的多個(gè)結(jié)構(gòu)域的嵌合體(區(qū)段1)_(區(qū)段2)-(區(qū)段3)-(區(qū)段4)-(區(qū)段5)-(區(qū)段6)_(區(qū)段7)-(區(qū)段8);其中區(qū)段I 包含 SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或SEQ ID NO :10( “5”)的氨基酸殘基從大約I或從大約18或19到大約 X1 ;區(qū)段 2 包含與 SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 X1 到大約 X2 至少 50-100%相同的序列;區(qū)段 3 包含與 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQID NO :10( “5”)的氨基酸殘基 x2 到大約 x3 至少 50-100%相同的序列;區(qū)段 4 包含與 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 X3 到大約 X4 至少 50-100%相同的序列;區(qū)段 5 包含與 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 x4 到大約 x5 至少 50-100%相同的序列;區(qū)段 6 包含與 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或 SEQ IDNO :10( “5”)的氨基酸殘基 x5 到大約 x6 至少 50-100%相同的序列;區(qū)段 7 包含與 SEQ ID NO 2( “1,,)、SEQ ID NO :4( “2,,)、SEQ ID NO :6( “3”)、SEQID NO 8( “4”)或SEQ ID NO :10( “5”)的氨基酸殘基X6到大約X7至少50-100%相同的序列;及區(qū)段 8 包含與 SEQ ID NO :2( “1,,)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 X7 到大約 X8 至少 50-100%相同的序列;其中X1 是 SEQ ID NO :2、4、6 或 8 的殘基 47、48、49、50、51 或 52,或是 SEQ ID NO 10 的殘基 48、49、50、51、52 或 53 ;x2是SEQ ID NO :2 或 10 的殘基 92、93、94、95、96 或 97,或是 SEQ ID N0:4、6 或 8 的殘基 91、92、93、94、95 或 96 ;x3是SEQ ID NO :2 的殘基 127、128、129、130、131 或 132,或是 SEQ ID NO :4 或 6 的殘基 125、126、127、128、129 或 130,或 是 SEQ ID NO :8 的殘基 126、127、128、129、130 或 131,或是 SEQ ID NO :10 的殘基 123、124、125、126、127 或 128 ;x4 是 SEQ ID NO 2 的殘基 175、176、177、178、180 或 181,或是 SEQ IDNO :4 或 SEQ ID NO :6 的殘基 173、174、175、176、177 或 178,或是 SEQ ID NO :8 的殘基 174、175、176、177、178 或 179,或是 SEQ ID NO 10 的殘基 171、172、173、174、175 或 176 ;x5 是SEQ ID NO :2 的殘基 221、222、223、224、225 或 226,或是 SEQ ID NO :4 或 SEQ ID NO :6 的殘基 219、220、221、222、223 或 224,或是 SEQ ID NO 8 的殘基 220、221、222、223、224 或 225,或是 SEQ ID NO :10 的殘基 217、218、219、220、221 或 222 ;x6 是 SEQ ID NO :2 的殘基 268、269、270、271、272 或 273,或是 SEQ ID NO :4 或 SEQ ID NO :6 的殘基 266、267、268、269、270或 271,或是 SEQ ID N0:8的殘基267、268、269、270、271或272,或是SEQ ID N0:10 的殘基264、265、266、267、268 或 269 ;x7 是 SEQ ID NO 2 的殘基 384、385、386、387、388 或 389,或是 SEQ ID NO :4 的殘基 385、386、387、388、389 或 390,或是 SEQ ID NO :6 的殘基 378、379、380、381、382 或 383,或是 SEQ ID NO 8 或 10 的殘基 383、384、385、386、387 或 388 ;并且 X8是對(duì)應(yīng)于 SEQ ID NO :2 的殘基 454、SEQ ID NO :4 的殘基 457、SEQ ID NO :6 的殘基 458、SEQIDNO 8 的殘基 453,SEQ ID NO 10 的殘基 455、或者具有序列 SEQ ID NO :2、SEQ ID NO :4、SEQ ID NO :6、SEQ ID NO 8或SEQ ID NO 10的多肽的C端的氨基酸殘基。使用前述結(jié)構(gòu)域參考,產(chǎn)生如表I所列出的大量嵌合結(jié)構(gòu)。表I. 二硫鍵配對(duì)的CBH I嵌合體以及基礎(chǔ)單體的總酵母分泌MUL活性和T5tl值。T50值誤差棒代表2個(gè)重復(fù)測(cè)量的極值,MUL活性值為單一培養(yǎng)物的單一測(cè)量,300 μ M MUL,在45°C下孵育30分鐘。NS表示對(duì)于T5tl測(cè)量不充足的分泌。
權(quán)利要求
1. 一種基本上純化的嵌合多肽,包含來(lái)自至少兩個(gè)不同的親本纖維二糖水解酶I(CBHI)多肽的至少兩個(gè)結(jié)構(gòu)域,其中所述結(jié)構(gòu)域從N端到C端包含(區(qū)段I)-(區(qū)段2)-(區(qū)段.3)-(區(qū)段4)-(區(qū)段5)-(區(qū)段6)-(區(qū)段7)-(區(qū)段8); 其中:區(qū)段 I 包含與 SEQ ID NO 2( “1”)、SEQ ID NO :4( “2”)、SEQ IDNO :6( “3”)、SEQ ID NO 8( “4”)或SEQ ID NO :10( “5”)的氨基酸殘基從大約I或從大約18或19到大約X1至少50-100%相同的序列;區(qū)段2包含與SEQID NO :2 ( “ I”)、SEQ ID N0:4(“2”)、SEQ ID NO 6( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 X1 到大約 X2 至少 50-100%相同的序列;區(qū)段 3 包含與 SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 X2 到大約 X3 至少 50-100%相同的序列;區(qū)段 4 包含與 SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 X3 到大約 X4 至少 50-100%相同的序列;區(qū)段 5 包含與 SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO :8( “4”)或 SEQ IDNO :10( “5”)的氨基酸殘基 X4 到大約X5 至少 50-100%相同的序列;區(qū)段 6 包含與 SEQ ID NO :2 ( “ I”)、SEQ ID NO :4 ( “2”)、SEQID NO :6( “3”)、SEQID NO :8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 X5 到大約 X6 至少 50-100%相同的序列;區(qū)段 7 包含與 SEQ ID NO :2 ( “ I”)、SEQ ID NO :4 ( “2”)、SEQ IDNO :6( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO :10( “5”)的氨基酸殘基 X6 到大約 X7 至少 50-100%相同的序列;及區(qū)段 8 包含與 SEQ ID NO :2 ( “ I”)、SEQ ID NO :4 ( “2”)、SEQID NO 6( “3”)、SEQ ID NO 8( “4”)或 SEQID NO :10( “5”)的氨基酸殘基 X7 到大約 X8至少50-100%相同的序列;其中 X1 是 SEQ ID NO :2、4、6 或 8 的殘基 47、48、49、50、51 或 52,或是 SEQ ID N0:10 的殘基 48、49、50、51、52 或 53 ;x2是SEQ ID NO :2 或 10 的殘基 92、93、94、95、96 或 97,或是SEQ ID NO :4、6 或 8 的殘基 91、92、93、94、95 或 96 ;x3是SEQ ID NO :2 的殘基 127、128、129、.130、131 或 132,或是 SEQ ID NO :4 或 6 的殘基 125、126、127、128、129 或 130,或是 SEQ IDNO 8 的殘基 126、127、128、129、130 或 131,或是 SEQ ID NO 10 的殘基 123、124、125、126、.127 或 128 ;x4 是 SEQ ID NO :2 的殘基 175、176、177、178、180 或 181,或是 SEQ ID NO :4 或SEQ ID NO :6 的殘基 173、174、175、176、177 或 178,或是 SEQ ID NO :8 的殘基 174、175、176、.177、178 或 179,或是 SEQ ID NO :10 的殘基 171、172、173、174、175 或 176 ;x5 是 SEQ ID NO:.2 的殘基 221、222、223、224、225 或 226,或是 SEQ ID NO :4 或 SEQ ID NO :6 的殘基 219、220、.221、222、223 或 224,或是 SEQ ID NO :8 的殘基 220、221、222、223、224 或 225,或是 SEQ IDNO 10 的殘基 217、218、219、220、221 或 222 ;x6 是 SEQ ID NO 2 的殘基 268、269、270、271、.272 或 273,或是 SEQ ID NO :4 或 SEQ ID NO :6 的殘基 266、267、268、269、270 或 271,或是SEQ ID NO :8 的殘基 267、268、269、270、271 或 272,或是 SEQ ID NO : 10 的殘基 264、265、.266、267、268 或 269 ;x7是SEQ ID NO :2 的殘基 384、385、386、387、388 或 389,或是 SEQ IDNO :4 的殘基 385、386、387、388、389 或 390,或是 SEQ ID NO :6 的殘基 378、379、380、381、382或 383,或是 SEQ ID NO :8 或 10 的殘基 383、384、385、386、387 或 388 ;并且 X8 是對(duì)應(yīng)于 SEQID NO 2 的殘基 454、SEQ ID NO 4 的殘基 457、SEQ ID NO 6 的殘基 458、SEQ IDNO 8 的殘基 453、SEQ ID NO : 10 的殘基 455、或者具有序列 SEQ ID N0:2、SEQ ID NO :4、SEQ ID NO:.6、SEQ ID NO 8或SEQ ID NO 10的多肽的C端的氨基酸殘基,其中所述嵌合多肽具有纖維二糖水解酶活性和與包含SEQ ID NO :2、4、6、8或10的CBHI多肽相比改善的熱穩(wěn)定性、pH穩(wěn)定性和/或表達(dá)。
2.如權(quán)利要求I所述的多肽,其中區(qū)段I包含SEQID NO :2(“1”)、SEQ ID NO:4(“2”)、SEQ ID NO :6( “3”)、SEQ ID NO :8( “4”)或 SEQ IDNO :10( “5”)的氨基酸殘基從大約 I 或從大約18或19到大約X1并具有1-10個(gè)保守氨基酸取代;區(qū)段2是SEQ ID NO 2( “I”)、SEQ ID NO 4( “2,,)、SEQID NO :6( “3,,)、SEQ ID NO :8( “4”)或 SEQ ID NO 10( “5”)的從大約氨基酸殘基X1到大約X2并具有大約1-10個(gè)保守氨基酸取代;區(qū)段3是SEQ IDNO 2( “1”)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO 10 (“5”)的從大約氨基酸殘基X2到大約X3并具有大約1-10個(gè)保守氨基酸取代;區(qū)段4是SEQ ID NO :2( “I”)、SEQ ID NO 4( “2”)、SEQID NO 6( “3”)、SEQ ID NO 8( “4”)或SEQ ID NO :10( “5”)的從大約氨基酸殘基X3到大約X4并具有大約1_10個(gè)保守氨基酸取代;區(qū)段 5 是 SEQ IDNO 2( “I”)、SEQ ID NO :4( “2”)、SEQ ID NO :6( “3”)、SEQ ID NO 8( “4”)或SEQ ID NO 10( “5”)的從大約氨基酸殘基x4到大約x5并具有大約1-10個(gè)保守氨基酸取代;區(qū)段 6 是 SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQID NO 6( “3”)、SEQ ID N08( “4”)或SEQ ID NO :10( “5”)的從大約氨基酸殘基X5到大約X6并具有大約 1-10 個(gè)保守氨基酸取代;區(qū)段 7 是 SEQ IDNO :2( “I”)、SEQ ID NO :4( “2”)、SEQ IDN06( “3”)、SEQ ID NO :8( “4”)或 SEQ ID NO :10( “5”)的從大約氨基酸殘基 X6 到大約X7并具有大約1-10個(gè)保守氨基酸取代;并且區(qū)段8是SEQ ID NO 2( “I”)、SEQ ID NO 4( “2”)、SEQ ID NO 6( “3”)、SEQ ID NO 8( “4”)或 SEQ ID NO :10( “5”)的從大約氨基酸殘基X7到大約X8并具有大約1-10個(gè)保守氨基酸取代。
3.如權(quán)利要求I所述的多肽,其中所述多肽與選自由SEQID NO :19、20、21、22、23、24、25、26、27、28、29、30、31、32、33和34組成的組的序列至少60-100%相同。
4.如權(quán)利要求1、2或3所述的多肽,其中所述多肽包含可操作地連接到N端氨基酸的前導(dǎo)序列。
5.如權(quán)利要求1、2、3或4所述的多肽,還包括包含選自由SEQID N0:16、17和18組成的組的序列的C端CBM結(jié)構(gòu)域。
6.如權(quán)利要求1、2、3、4或5所述的多肽,其中所述至少兩個(gè)不同的親本纖維二糖水解酶I (CBH I)多肽包括選自由SEQ ID NO :2、4、6、8和10組成的組的序列。
7.如前述權(quán)利要求中任一項(xiàng)所述的多肽,其中所述多肽具有選自由以下組成的組的區(qū)段結(jié)構(gòu)55153552、12153252、25152252、12152252、55152252、55515555、55555551、55515551,55525555,55555552,55525552,55555155,55555515,55555115,55555255,55555525,55555225,34152252 (SEQ ID NO 19) ,55153552(SEQ ID NO 20),32153252(SEQID NO 21),55155552 (SEQ ID NO 22),22153252 (SEQ ID NO 23),52152552(SEQ IDNO 24)、12153252 (SEQ ID NO 25),45153252 (SEQ ID NO26),12153552(SEQ ID NO :27)、25152252 (SEQ ID NO 28),13152552 (SEQ ID NO 29),12152252 (SEQ ID NO :30)、55153252 (SEQ ID NO 31),55552252 (SEQ IDNO 32),55152552 (SEQ ID NO 33)和55152252(SEQ ID NO 34)。
8.—種編碼權(quán)利要求1-7中任一項(xiàng)所述的多肽的多核苷酸。
9.一種包含權(quán)利要求8的多核苷酸的載體。
10.一種包含權(quán)利要求9所述的載體的宿主細(xì)胞。
11.如權(quán)利要求10所述的宿主細(xì)胞,其中所述宿主細(xì)胞是植物細(xì)胞或真菌細(xì)胞。
12.—種包含權(quán)利要求1-7中任一項(xiàng)的多肽的酶制品。
13.如權(quán)利要求12所述的酶制品,還包含熱穩(wěn)定的纖維二糖水解酶II類(lèi)酶嵌合體。
14.一種處理包含纖維素的生物質(zhì)的方法,所述方法包括使所述生物質(zhì)與權(quán)利要求12或13的酶制品接觸。
15.—種處理包含纖維素的生物質(zhì)的方法,所述方法包括使所述生物質(zhì)與權(quán)利要求10的生物質(zhì)接觸。
16.—種用于產(chǎn)生權(quán)利要求I的多肽的方法,所述多肽與一個(gè)親本多肽或一類(lèi)親本多肽相比具有改善的活性或穩(wěn)定性,所述方法包括 識(shí)別多個(gè)(P)進(jìn)化上、結(jié)構(gòu)上或者進(jìn)化上和結(jié)構(gòu)上相關(guān)的多肽; 在多個(gè)相關(guān)多肽的至少第一多肽和至少第二多肽中選擇包含N個(gè)肽區(qū)段的一組交叉位置; 從具有穩(wěn)定的功能表達(dá)的所述多個(gè)進(jìn)化上、結(jié)構(gòu)上或者進(jìn)化上和結(jié)構(gòu)上相關(guān)的多肽中選擇親本; 產(chǎn)生多個(gè)嵌合體,所述嵌合體包含所述親本的N-I個(gè)肽區(qū)段以及所述多個(gè)進(jìn)化上、結(jié)構(gòu)上或者進(jìn)化上和結(jié)構(gòu)上相關(guān)的多肽中另一個(gè)多肽的一個(gè)異源肽區(qū)段; 識(shí)別具有增強(qiáng)活性或穩(wěn)定性的改善的嵌合體以及識(shí)別所述異源肽區(qū)段作為改善的單體中的活性/穩(wěn)定性相關(guān)的肽區(qū)段; 產(chǎn)生重新組合的重組蛋白樣品集(xP”),所述重組蛋白包含所述至少第一多肽和第二多肽中的每一個(gè)的活性/穩(wěn)定性相關(guān)的肽區(qū)段,其中x< I ;測(cè)量折疊表達(dá)的重新組合的重組蛋白的樣品集的穩(wěn)定性; 產(chǎn)生包含一個(gè)或多個(gè)活性/穩(wěn)定性相關(guān)的肽區(qū)段的多個(gè)嵌合多肽。
17.如權(quán)利要求16所述的方法,其中所述改善的嵌合體通過(guò)進(jìn)行回歸分析來(lái)識(shí)別。
18.如權(quán)利要求16所述的方法,其中所述選擇一組交叉位置包括比對(duì)所述多個(gè)進(jìn)化上、結(jié)構(gòu)上或者進(jìn)化上和結(jié)構(gòu)上相關(guān)的多肽的序列并識(shí)別序列同一性區(qū)域。
19.如權(quán)利要求18所述的方法,其中所述方法包括序列比對(duì)以及選自由以下組成的組的一種或多種方法X射線晶體學(xué)、NMR、搜索蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)、同源模建、從頭蛋白折疊及計(jì)算蛋白結(jié)構(gòu)預(yù)測(cè)。
20.如權(quán)利要求16所述的方法,其中所述選擇一組交叉位置包括識(shí)別所述至少第一多肽中的殘基對(duì)之間的偶聯(lián)相互作用; 產(chǎn)生多個(gè)數(shù)據(jù)結(jié)構(gòu),每個(gè)數(shù)據(jù)結(jié)構(gòu)代表包含所述至少第一多肽和第二多肽的重組的交叉突變體,其中每個(gè)重組具有不同的交叉位置; 對(duì)每個(gè)數(shù)據(jù)結(jié)構(gòu)確定與由所述數(shù)據(jù)結(jié)構(gòu)代表的交叉突變體中被破壞的偶聯(lián)相互作用的數(shù)目相關(guān)的交叉破壞;及 在所述多個(gè)數(shù)據(jù)結(jié)構(gòu)中識(shí)別具有低于閾值的交叉破壞的特定數(shù)據(jù)結(jié)構(gòu),其中由所述特定數(shù)據(jù)結(jié)構(gòu)代表的交叉突變體的交叉位置是被識(shí)別的交叉位置。
21.如權(quán)利要求20所述的方法,其中偶聯(lián)相互作用通過(guò)確定殘基之間的構(gòu)象能量來(lái)識(shí)別。
22.如權(quán)利要求20所述的方法,其中偶聯(lián)相互作用通過(guò)確定殘基之間的原子間距離來(lái)識(shí)別。
23.如權(quán)利要求20所述的方法,其中所述至少第一多肽和第二多肽的每一個(gè)的構(gòu)象能量由所述第一多肽和第二多肽中的至少一個(gè)的三維結(jié)構(gòu)來(lái)確定。
24.如權(quán)利要求22所述的方法,其中原子間距離由多個(gè)多肽中的至少一個(gè)多肽的三維結(jié)構(gòu)來(lái)確定。
25.如權(quán)利要求20所述的方法,其中偶聯(lián)相互作用通過(guò)高于閾值的殘基之間的構(gòu)象能量來(lái)識(shí)別。
26.如權(quán)利要求20所述的方法,其中所述閾值是所述多個(gè)數(shù)據(jù)結(jié)構(gòu)的交叉破壞的平均水平。
27.如權(quán)利要求26所述的方法,其中交叉位置的識(shí)別包括基于序列同一性區(qū)域來(lái)識(shí)別所述多肽中的可能的切割點(diǎn)。
28.如權(quán)利要求26或27所述的方法,其中所述序列同一性區(qū)域必須包含至少4個(gè)殘基。
29.如權(quán)利要求26所述的方法,其中穩(wěn)定性的測(cè)量包括選自由以下組成的組的技術(shù)化學(xué)穩(wěn)定性測(cè)量、功能穩(wěn)定性測(cè)量和熱穩(wěn)定性測(cè)量。
30.如權(quán)利要求29所述的方法,其中所述化學(xué)穩(wěn)定性測(cè)量包括化學(xué)變性測(cè)量。
31.如權(quán)利要求28所述的方法,其中所述熱穩(wěn)定性測(cè)量包括熱變性測(cè)量。
32.如權(quán)利要求29所述的方法,其中所述功能穩(wěn)定性測(cè)量包括配體或底物結(jié)合技術(shù)。
33.如權(quán)利要求16所述的方法,其中所述回歸分析包括確定序列穩(wěn)定性數(shù)據(jù)或折疊蛋白與未折疊蛋白的多重序列比對(duì)(MSA)的共有序列分析。
34.如權(quán)利要求33所述的方法,其中所述序列穩(wěn)定性數(shù)據(jù)包括與穩(wěn)定性測(cè)量可操作地 >聯(lián)的序列信息。
35.如權(quán)利要求16所述的方法,還包括創(chuàng)建具有肽區(qū)段的片段的單體。
36.如權(quán)利要求16所述的方法,其中所述親本包括與SEQID NO:15具有至少80% -100%同一性的序列。
全文摘要
本發(fā)明內(nèi)容涉及CBH I嵌合體融合的多肽、編碼該多肽的核酸以及用于產(chǎn)生該多肽的宿主細(xì)胞。
文檔編號(hào)C12N15/62GK102884086SQ201180022906
公開(kāi)日2013年1月16日 申請(qǐng)日期2011年6月1日 優(yōu)先權(quán)日2010年6月1日
發(fā)明者弗朗西斯·H·阿諾德, 皮特·海因策爾曼 申請(qǐng)人:加州理工學(xué)院