專利名稱:一種由蛋白質(zhì)的一級(jí)結(jié)構(gòu)序列確定蛋白質(zhì)三維結(jié)構(gòu)的方法
技術(shù)領(lǐng)域:
本發(fā)明與用計(jì)算方法確定蛋白同源關(guān)系領(lǐng)域相關(guān)。
背景技術(shù):
雖然人類基因組測(cè)序是基因組研究中一個(gè)很大的成就,但它也產(chǎn)生了下一個(gè)巨大的挑戰(zhàn),即對(duì)人類基因組編碼的每個(gè)蛋白建立精確的結(jié)構(gòu)模型。因?yàn)閷?duì)所有編碼蛋白結(jié)構(gòu)的實(shí)驗(yàn)測(cè)定將需要幾十年,因此如果結(jié)構(gòu)基因組研究將迅猛發(fā)展的話,用計(jì)算方法測(cè)定三維結(jié)構(gòu)將變得尤其重要。見S.K.Burley、S.C.Almo、J.B.Bonanno等,《自然基因》(Nature Gen.)23,151-157(1999)。這篇文獻(xiàn)和本說明書引用地所有其他文獻(xiàn)結(jié)合于此作為參考文獻(xiàn)。
蛋白是氨基酸的直鏈多聚體。天然存在的蛋白最多有20種不同類型的氨基酸殘基,每種氨基酸殘基有不同的側(cè)鏈。蛋白中氨基酸殘基的特定線性序列定義為蛋白的一級(jí)序列或一級(jí)結(jié)構(gòu)。蛋白的一級(jí)結(jié)構(gòu)可以用熟知的方法相對(duì)容易地確定。
蛋白折疊成三維結(jié)構(gòu)。所述折疊取決于氨基酸序列和蛋白的環(huán)境。許多天然蛋白三維結(jié)構(gòu)的研究已經(jīng)揭示了一些重復(fù)模式。常見的有α螺旋、平行折疊、和反平行折疊幾種模式。R.E.Dickerson等在《蛋白的結(jié)構(gòu)與功能》(“The Structure and Action of Proteins”)(W.A.Benjamin公司,California(1969))一書中描述了這些常見結(jié)構(gòu)模式。每個(gè)氨基酸殘基經(jīng)分配組成其中的一種模式并以此來確定蛋白的二級(jí)結(jié)構(gòu)。
蛋白的生物屬性直接取決于其三維(3D)構(gòu)象。所述三維構(gòu)象決定酶活性、結(jié)合蛋白的活性和特異性、以及受體分子的結(jié)構(gòu)屬性。因?yàn)榈鞍追肿拥娜S結(jié)構(gòu)是如此重要,所以人們很早就期待一種能從已知的蛋白氨基酸序列容易地確定該蛋白三維結(jié)構(gòu)的方法的出現(xiàn)。然而,已經(jīng)證明,在沒有實(shí)驗(yàn)數(shù)據(jù)的情況下很難確定蛋白的三維結(jié)構(gòu)。
過去,我們已經(jīng)用許多不同的實(shí)驗(yàn)方法來測(cè)定蛋白的三維結(jié)構(gòu)。也許公認(rèn)的蛋白結(jié)構(gòu)測(cè)定方法涉及使用X射線晶體衍射法技術(shù)。關(guān)于該技術(shù)的綜述可參見《物理生物化學(xué)》(PhysicalBio-chemistry),Van Holde,K.E.(Prentice-Hall,New Jersey 1971),pp.221-239,或《物理化學(xué)及在生命科學(xué)中的應(yīng)用》(PhysicalChemistry with Applications to the Life Science),D.Eisenberg & D.C.Crothers(Benjamin Cummings,Menlo Park 1979)。應(yīng)用該技術(shù)使精確說明三維結(jié)構(gòu)成為可能。此外,蛋白結(jié)構(gòu)也可以用中子衍射技術(shù)或核磁共振(NMR)來測(cè)定。參見,如W.J.Moore的《物理化學(xué)》(Physical Chemistry),第4版,(Prentice-Hall,New Jersey 1972)和K.Wuthrich的《蛋白和核酸的核磁共振技術(shù)》(NMR of Proteinsand Nucleic Acids)(Wiley-Interscience,New York 1986)。
這些實(shí)驗(yàn)技術(shù)都至少有一個(gè)很大的缺陷。即它們的勞動(dòng)量很大,因此費(fèi)時(shí)和價(jià)格昂貴?,F(xiàn)代測(cè)序技術(shù)使一級(jí)序列的數(shù)據(jù)庫(kù)不斷增長(zhǎng),而這些一級(jí)序列需要轉(zhuǎn)化成三維蛋白結(jié)構(gòu)。實(shí)際上,在包括人類基因組在內(nèi)的500以上的基因組已經(jīng)得到完全測(cè)序情況下,大約只有2%的這些序列確定了三維結(jié)構(gòu)。已經(jīng)預(yù)測(cè)的三維結(jié)構(gòu)量與一級(jí)序列量的比率每天都在變小。
為了更快地由一級(jí)序列預(yù)測(cè)三維結(jié)構(gòu),生化學(xué)家開始轉(zhuǎn)向無需繁重和復(fù)雜的實(shí)驗(yàn)技術(shù)的各種計(jì)算方法,所述方法允許通過計(jì)算機(jī)和軟件來確定結(jié)構(gòu)。在這些計(jì)算方法中最有希望的方法之一是比較需要測(cè)定三維結(jié)構(gòu)的一級(jí)序列(全文都稱為待查序列或待查肽)和一個(gè)或多個(gè)一級(jí)序列(通常是這類序列組成的數(shù)據(jù)庫(kù),全文都稱為模板序列或模板肽,其三維結(jié)構(gòu)是已知的)的相似性。這是一級(jí)序列同源模擬的一個(gè)方面。
從較高的層次上分,許多一級(jí)序列同源模擬方法都能分為兩步。在第一步,又稱為配對(duì)步,將需要確定三維結(jié)構(gòu)的待查序列與數(shù)據(jù)庫(kù)中的一個(gè)或多個(gè)模板序列配對(duì)。每個(gè)模板序列的三維結(jié)構(gòu)全部或大部分已知。在待查肽和模板肽之間每個(gè)配對(duì)比較后,該方法會(huì)給出一個(gè)分?jǐn)?shù)。在數(shù)據(jù)庫(kù)中的每個(gè)比較都進(jìn)行后,分?jǐn)?shù)最高的配對(duì)(alignment pair)反映最優(yōu)配對(duì)的待查序列/模板序列。該最優(yōu)序列配對(duì)可用來產(chǎn)生關(guān)于待查序列的最精確的結(jié)構(gòu)測(cè)定。而且,待查/模板配對(duì)產(chǎn)生一個(gè)次最優(yōu)分?jǐn)?shù),該次最優(yōu)分?jǐn)?shù)可用來產(chǎn)生有關(guān)待查序列的有用的結(jié)構(gòu)信息。
在第二步,又稱為模擬步,基于結(jié)構(gòu)信息(對(duì)應(yīng)于在模板序列中配對(duì)的序列或亞序列)可預(yù)測(cè)待查肽的結(jié)構(gòu)信息。最常用的一級(jí)序列同源方法是在配對(duì)模板序列的三維結(jié)構(gòu)基礎(chǔ)上用序列同源性來預(yù)測(cè)待查序列的三維結(jié)構(gòu)。此外,基于配對(duì)模板序列的一級(jí)序列,其他的一級(jí)序列同源模擬技術(shù)試圖確定一個(gè)或多個(gè)待查序列之間的一級(jí)序列同源關(guān)系。
本發(fā)明涉及一種進(jìn)行所述第一步的改進(jìn)方法,即,一種確定待查序列和模板序列之間最優(yōu)配對(duì)的改進(jìn)方法。
當(dāng)前的、現(xiàn)代化的的一級(jí)序列同源模擬技術(shù)例如MODELLER(參見
和T.L.Blundell,《分子生物學(xué)雜志》(J.Mol.Biol.)234,779-815(1993)),需要待查肽和模板肽之間至少有30%-40%的序列等同性才能得到準(zhǔn)確的三維結(jié)構(gòu)。R.Sánchez和
《美國(guó)國(guó)家科學(xué)院院報(bào)》(Proc.Natl.Acad Sci.USA)95,13597-13602(1998)。采用當(dāng)前的、現(xiàn)代化的方法,只有不足20%的Brewer酵母(啤酒酵母)基因組編碼的可溶性蛋白殘基能夠得到可信的結(jié)構(gòu)模型。同上。
MODELLER采用一種動(dòng)態(tài)編程方法來確定待查序列和模板序列之間的優(yōu)選配對(duì),其是序列配對(duì)技術(shù)領(lǐng)域中許多動(dòng)態(tài)編程方法的典型方法。接著MODELLER利用所述序列配對(duì)來構(gòu)建待查序列的三維結(jié)構(gòu)。
自從Needleman和Wunsch第一次采用動(dòng)態(tài)編程方法以來,動(dòng)態(tài)編程方法已用于確定序列同源性。S.B.Needleman和C.D.Wunsch,《分子生物學(xué)雜志》(J.Mol.Biol.)48,443-453(1970);T.F.Smith和M.S.Waterman,《高等應(yīng)用數(shù)學(xué)》(Adv.Appl.Math.),2,482-489(1981);[M.Gribskov,A.D.McLachlan和D.Eisenberg,《美國(guó)國(guó)家科學(xué)院院報(bào)》(Proc.Natl.Acad Sci.U.S.A.),84,4355(1987);M.Gribskov,M.Homyak,J.Edenfield,和D.Eisenberg,CABIOS4,(1988);M.Gribskov,D.Eisenberg,《蛋白化學(xué)技術(shù)》(Techniques in Protein Chemistry)(T.E.Hugli編輯),p.108,Academy Press,San Diego,Calif,1989;M.Gribskov,R.Luthy,和D.Eisenberg,《酶方法》(Meth.in Enz.)183,146(1990)]。一般而言,確定序列配對(duì)的動(dòng)態(tài)編程方法包括(1)產(chǎn)生一個(gè)由相似性分?jǐn)?shù)組成的矩陣,所述相似性分?jǐn)?shù)由兩個(gè)序列中每對(duì)殘基的匹配得到(一個(gè)和矩陣);和(2)通過使用動(dòng)態(tài)編程構(gòu)建和矩陣來確定兩個(gè)序列間的最優(yōu)配對(duì)。在Needleman-Wunsch動(dòng)態(tài)編程范例的基礎(chǔ)上已經(jīng)開發(fā)出許多方法(variations)來檢測(cè)蛋白序列相似性。
在最初的Needleman-Wunsch工作中,在產(chǎn)生和矩陣時(shí)只考慮兩個(gè)蛋白間的殘基等同性。更多同期的方法采用殘基替換記分系統(tǒng)例如點(diǎn)突變(PAM)矩陣(見“蛋白進(jìn)化變化的模型”(“A Modelof Evolutionary Change in Proteins”),M.O.Dayhoff所編《蛋白序列和結(jié)構(gòu)圖》(Atlas of Protein Sequence and Structure)Vol.5,Suppl.3,pp.345-352,1979)、或BLOSUM矩陣(見S.″Henikoff和J.G.Henikoff,《美國(guó)國(guó)家科學(xué)院院報(bào)》(Proc.Natl.Acad.Sci.USA)89,10915-10919(1992)),來產(chǎn)生一個(gè)配對(duì)和矩陣。可以用來產(chǎn)生配對(duì)分?jǐn)?shù)矩陣的另外的信息包括來自多重序列配對(duì)、殘基周圍環(huán)境描述(所謂的profile threading技術(shù))、二級(jí)結(jié)構(gòu)預(yù)測(cè)、和溶劑可進(jìn)入性預(yù)測(cè)的信息,這里僅列舉幾個(gè)。S.F.Altschul,T.L.Madden,A.A.Schaffer等,《核酸研究》(Nucl.Acids Res.)25,3389-3402(1997);J.U.Bowie,R.Lüthy和D.Eisenberg,《科學(xué)》(Science)253,164-170(1991);B.Rost,R.Schneider和C.Sander,《分子生物學(xué)雜志》(J.Mol.Biol.) 270,471-480(1997)。
雖然Needleman-Wunsch只是應(yīng)用一個(gè)很簡(jiǎn)單的和矩陣,但他們工作的最基本的貢獻(xiàn)在于利用動(dòng)態(tài)編程來確定兩個(gè)具有給定分?jǐn)?shù)和空隙等級(jí)的蛋白之間的最優(yōu)整體配對(duì)(空隙用在最后配對(duì)中不和另一個(gè)殘基配對(duì)的殘基來表示,這里“整體”(“global”)意思是與一個(gè)序列完全匹配并且所有可能的前綴與另一條鏈的子鏈接近)。已經(jīng)開發(fā)了很多同時(shí)期的方法,但它們一般都涉及通過和矩陣來尋找最優(yōu)整體、局部、或整體-局部配對(duì)途徑(path),所述和矩陣是從相似性分?jǐn)?shù)連同空隙得分(對(duì)不和另一個(gè)殘基配對(duì)的殘基來說)一道計(jì)算獲得。D.Fisher和D.Eisenberg,《蛋白科學(xué)》(ProteinSci.)5,947-955(1996)。T.F.Smith和M.S.Waterman,“普通分子亞序列的確證”(“Identification of Common MolecularSubsequences,”)《分子生物學(xué)雜志》(J.Molecular Biology),147,pp.195-197(1981),通過引入一個(gè)“零技巧”(zero trick)解決了局部配對(duì)問題。如果動(dòng)態(tài)編程表的入口處是負(fù)的,那么最優(yōu)局部配對(duì)就不能通過這個(gè)入口,因?yàn)榈谝徊糠纸档土朔謹(jǐn)?shù);因而可以通過將它替換成零的方式來消除前綴的影響。(這個(gè)簡(jiǎn)單的技巧就是計(jì)算領(lǐng)域熟知的最大子向量方法)。O.Gotoh在“生物序列匹配的改進(jìn)算法”(“An Improved Algorithm for Matching BiologicalSequence”),《分子生物學(xué)雜志》(J.Molecular Biology),162,pp.705-708(1982)中表明仿射空隙處罰(空隙的數(shù)量和長(zhǎng)度的分離處罰)能象線性空隙處罰一樣得到有效解決。M.S.Waterman和M.Eggert成功確證了多重相似區(qū)段,見“一種最佳序列配對(duì)的新算法并應(yīng)用于tRNA-rRNA比較”(“A New Algorithm for BestSubsequence Alignments With Application to tRNA-rRNAComparison”),《分子生物學(xué)雜志》(J.Molecular Biology),197,pp.723-728(1987)。
在MODELLER應(yīng)用標(biāo)準(zhǔn)動(dòng)態(tài)編程程序進(jìn)行配對(duì)的同時(shí),MODELLER還應(yīng)用各種增強(qiáng)作用去改善最后配對(duì)。首先,用不同的空隙處罰執(zhí)行動(dòng)態(tài)編程多次來確定共同配對(duì)。其次,根據(jù)特定空隙的環(huán)境不同改變空隙處罰,例如,所述空隙是否在模板二級(jí)結(jié)構(gòu)處(高處罰)或環(huán)形區(qū)域處(低處罰)。即使有這種附加的技術(shù),MODELLER一般仍需要至少30%的同源性才能獲取一個(gè)高質(zhì)量的配對(duì)以此來產(chǎn)生一個(gè)待查蛋白序列的精確的結(jié)構(gòu)模型。這些同源性模擬方法的另一個(gè)局限在于對(duì)于模板結(jié)構(gòu)中沒有長(zhǎng)環(huán)形區(qū)域來說,通常需要用不可靠的從頭開始方法(ab initio)或數(shù)據(jù)庫(kù)搜索的方法來模擬這類環(huán)形區(qū)域。正是因?yàn)樵诋?dāng)前的同源性模擬技術(shù)中存在這些局限性,所以我們需要改進(jìn)的蛋白結(jié)構(gòu)預(yù)測(cè)方法。
除了用來預(yù)測(cè)三維蛋白結(jié)構(gòu)的一級(jí)序列同源性模擬程序(如MODELLER)之外,還有一些一級(jí)序列同源性模擬程序例如PSIBLAST和HMM也使用序列配對(duì)方法,因此在預(yù)測(cè)三維蛋白結(jié)構(gòu)時(shí)它們具有和一級(jí)序列同源性模擬程序相同的局限性。S.F.Altschul,T.L.Madden,A.A.Schaffer等,《核酸研究》(Nucl.AcidsRes.)25,3389-3402(1997);K.Karplus,C.Barrett和R.Hughey,《生物信息學(xué)》(Bioinformatics)14,846-856(1998)。如果待查序列和模板序列之間至少有30%的序列同源性,PSI BLAST和HMM中現(xiàn)在使用的配對(duì)方法就能可靠地確定待查序列和模板序列之間的科同源性和結(jié)構(gòu)關(guān)系。這對(duì)許多科同源性的確定是不夠的。趨異進(jìn)化使得許多在同一結(jié)構(gòu)科的蛋白具有的序列等同性小于30%,S.A.Teichmann,C.Chothia和M.Gerstein,《當(dāng)今結(jié)構(gòu)生物學(xué)觀點(diǎn)》(Curr.Opin.Struct.Biol)9,390-399(1999),并且有許多序列等同性遠(yuǎn)低于20%的蛋白有非常相似的結(jié)構(gòu)。據(jù)估計(jì)在蛋白庫(kù)中大約有三分之二的認(rèn)為沒有任何結(jié)構(gòu)同系物的蛋白實(shí)際上具有結(jié)構(gòu)同系物。S.E.Brenner,C.Chothis,和T.Hubbard,《當(dāng)今結(jié)構(gòu)生物學(xué)觀點(diǎn)》(Curr.Opin.Struct.Biol)7,369-376(1997)。如果要確定這些結(jié)構(gòu)同源性和科關(guān)系,就需要在低水平序列同源的情況下具有較高準(zhǔn)確性的序列配對(duì)方法。
因此,本發(fā)明的一個(gè)方面是一種改進(jìn)的一級(jí)序列同源性模擬方法,所述方法在低于30%序列同源性的情況下同樣有效。與其他在相似性確定過程中不包含任何結(jié)構(gòu)信息的序列比較方法不同,根據(jù)本發(fā)明的方法利用來自多重參考序列配對(duì)的信息和實(shí)驗(yàn)上確定的結(jié)構(gòu),從而顯著增加了測(cè)試序列和比較序列之間的配對(duì)準(zhǔn)確性。與本領(lǐng)域中現(xiàn)有的序列比較方法相比,這種配對(duì)準(zhǔn)確性的增加大大增強(qiáng)了我們對(duì)遠(yuǎn)源相關(guān)結(jié)構(gòu)同系物的檢測(cè),并且能夠?qū)εc已知結(jié)構(gòu)序列的序列等同性遠(yuǎn)小于30%的序列建立精確的結(jié)構(gòu)模型。
如在其他配對(duì)方法中一樣,根據(jù)本發(fā)明的確定優(yōu)選配對(duì)的方法,是把我們感興趣的蛋白序列(待查序列)和已知結(jié)構(gòu)的對(duì)照序列或模板序列組成的數(shù)據(jù)庫(kù)相比較,由此獲取序列相似性并接著構(gòu)建待查序列的結(jié)構(gòu)。然而,與所有以前的配對(duì)方法不同,在根據(jù)本發(fā)明的方法中,參考序列的數(shù)據(jù)庫(kù)經(jīng)過預(yù)先分析以確定每個(gè)模板中配對(duì)空隙的位置(全文都稱為橋或凸出)。在優(yōu)選具體實(shí)施例中,所述橋或凸出信息是從蛋白結(jié)構(gòu)數(shù)據(jù)庫(kù)(例如,蛋白數(shù)據(jù)銀行(PDB))中所有或大體上所有參考序列組成的多重序列配對(duì)中得出的。用來確定橋/凸出的參考序列數(shù)據(jù)庫(kù)可以和用來確定優(yōu)選序列配對(duì)的模板序列數(shù)據(jù)庫(kù)含有同樣的序列。確定成對(duì)方式結(jié)構(gòu)配對(duì)(在兩個(gè)蛋白結(jié)構(gòu)之間)的方法已經(jīng)為本領(lǐng)域技術(shù)人員所熟知并且包括,例如,Holm和Sander開發(fā)的Dali方法。Holm,L.和Sander,C.《分子生物學(xué)雜志》(J.Mol.Bio1.)233123-138(1993);Holm,L.和Sander,C.,《科學(xué)》(Science)273,595-602(1996)。根據(jù)本發(fā)明的方法應(yīng)用橋和凸出信息來確定待查序列的可能配對(duì)序列和模板序列之間的配對(duì)分?jǐn)?shù)。接著這些配對(duì)分?jǐn)?shù)經(jīng)計(jì)算(在待查序列和多個(gè)模板序列之間)以確定待查序列和多個(gè)模板序列間的最佳配對(duì)。
由根據(jù)本發(fā)明的方法產(chǎn)生的配對(duì)可以與大家所熟知的從序列配對(duì)構(gòu)建三維結(jié)構(gòu)的技術(shù)聯(lián)合使用。一個(gè)優(yōu)選具體實(shí)施例用根據(jù)本發(fā)明的配對(duì)方法產(chǎn)生一個(gè)優(yōu)選的序列配對(duì),接著在所述優(yōu)選序列配對(duì)的基礎(chǔ)上用比較模擬數(shù)據(jù)包MODELLER,A.
和T.L.Blundell,《分子生物學(xué)雜志》(J.Mol.Biol.)234,779-815(1993),以獲取待查序列的預(yù)測(cè)的三維結(jié)構(gòu)。MODELLER可以看作是兩步合并而成1)首先MODELLER在由已知三維結(jié)構(gòu)的模板序列組成的數(shù)據(jù)庫(kù)中確定與待查序列產(chǎn)生優(yōu)選序列配對(duì)的一個(gè)或多個(gè)模板序列;和2)然后,MODELLER根據(jù)第一步結(jié)果構(gòu)建一個(gè)待查序列的三維結(jié)構(gòu)。因此,本發(fā)明的優(yōu)選方法可以用來替代MODELLER的序列配對(duì)方法并且和它的三維結(jié)構(gòu)構(gòu)建方法聯(lián)合使用從而得到一種基于同源性模擬的可用于預(yù)測(cè)待查序列的三維結(jié)構(gòu)的改進(jìn)的聯(lián)合方法。發(fā)明簡(jiǎn)述
本發(fā)明的優(yōu)選具體實(shí)施例是一種確定在待查序列和至少一個(gè)模板序列之間的優(yōu)選序列配對(duì)的方法,該方法包括以下步驟(1)配對(duì)兩個(gè)或更多參考序列以確定一個(gè)或多個(gè)BRIDGE/BULGE空隙;(2)根據(jù)待查序列和每個(gè)模板序列之間的一給定的序列配對(duì)是否產(chǎn)生BRIDGE/BULGE空隙,來確定待查序列的每個(gè)可能的配對(duì)和每個(gè)模板序列之間的配對(duì)分?jǐn)?shù);和(3)基于待查序列和每個(gè)模板序列之間的配對(duì)分?jǐn)?shù)確定優(yōu)選的序列配對(duì)。優(yōu)選序列配對(duì)包括任何能夠用來獲取待查序列有用結(jié)構(gòu)信息的序列配對(duì)。最優(yōu)序列配對(duì)是得分最高的配對(duì)。盡管最優(yōu)序列配對(duì)可以用來產(chǎn)生待查序列的最精確的結(jié)構(gòu)信息,但其他次優(yōu)序列配對(duì)經(jīng)常也能提供有用的結(jié)構(gòu)信息和一級(jí)序列同源性關(guān)系。
本發(fā)明的另一個(gè)具體實(shí)施例是一種確定待查序列與模板序列之間的優(yōu)選配對(duì)的方法,該方法包括以下步驟1)配對(duì)兩個(gè)或更多參考序列以確定一個(gè)或多個(gè)參考配對(duì)空隙(稱作BRIDGE/BULGE空隙);2)由待查序列和一個(gè)或多個(gè)模板序列產(chǎn)生一個(gè)序列配對(duì)相似矩陣;3)基于待查序列和每個(gè)模板序列組成的序列配對(duì)是否產(chǎn)生BRIDGE/BULGE空隙,來對(duì)每個(gè)序列配對(duì)相似矩陣進(jìn)行動(dòng)態(tài)變換,從而得到一個(gè)序列配對(duì)和矩陣;和4)從每個(gè)和矩陣的動(dòng)態(tài)變換得到待查序列和每個(gè)模板序列之間的優(yōu)選配對(duì)。
本發(fā)明的另一個(gè)具體實(shí)施例是一種確定待查序列的三維結(jié)構(gòu)的方法,該方法基于和一個(gè)或多個(gè)模板序列間的一級(jí)序列同源模擬并使用本發(fā)明的確定最優(yōu)序列配對(duì)的方法。當(dāng)根據(jù)本發(fā)明的優(yōu)選配對(duì)方法和一級(jí)序列同源模擬方法結(jié)合使用,來預(yù)測(cè)待查序列的三維結(jié)構(gòu)或確定一些待查序列之間的一級(jí)序列同源關(guān)系時(shí),可以在更低的配對(duì)同源性(低于本領(lǐng)域現(xiàn)有技術(shù)所允許的配對(duì)同源性)下得到待查序列的精確結(jié)構(gòu)模型。因此,本發(fā)明的另一個(gè)具體實(shí)施例是一種使用一級(jí)序列同源模擬方法預(yù)測(cè)待查序列三維結(jié)構(gòu)的方法,其中所述待查序列與模板序列含有10-20%的同源性殘基。本發(fā)明的又一個(gè)具體實(shí)施例是一種應(yīng)用一級(jí)序列同源模擬方法來確定至少兩個(gè)待查序列之間的一級(jí)序列同源關(guān)系的方法,其中所述待查序列與模板序列含有10-20%的同源性殘基。附表和附圖簡(jiǎn)要描述
圖1顯示通過程序clustal W找到的待查序列LVAFADFG-SVTFTNAEATSGGSTVGPSDATVMDIEQDGSVLTETSVSGDS-VTV的七個(gè)同源序列。
圖2表示可由以下兩個(gè)文本鏈“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”產(chǎn)生的序列配對(duì)組成的相似矩陣。
圖3表示根據(jù)當(dāng)前本領(lǐng)域內(nèi)序列配對(duì)方法從圖2中相似矩陣得到的部分完成的和矩陣。
圖4表示圖3中和矩陣進(jìn)一步完成的階段。
圖5顯示圖4中灰色方格的空隙處罰數(shù)量。
圖6表示根據(jù)當(dāng)前本領(lǐng)域內(nèi)序列配對(duì)方法,由以下兩個(gè)文本鏈“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”產(chǎn)生的序列配對(duì)組成的完全和矩陣。
圖7表示PIR格式中從圖6得到的最高得分配對(duì)。
圖8表示根據(jù)本發(fā)明的方法所需輸入數(shù)據(jù)。
圖9表示兩個(gè)文本鏈“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”中假設(shè)的橋/凸出設(shè)定。
圖10表示基于圖9中的橋/凸出設(shè)定,兩個(gè)文本鏈“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”中允許的配對(duì)空隙。
圖11表示根據(jù)本發(fā)明的方法,由圖2中相似矩陣產(chǎn)生的部分完全和矩陣。
圖12表示圖11中和矩陣進(jìn)一步完成的階段。
圖13顯示圖12中灰色方格的空隙處罰數(shù)量。
圖14表示根據(jù)本發(fā)明的方法,由以下兩個(gè)文本鏈“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”產(chǎn)生的序列配對(duì)組成的完全和矩陣。
圖15表示在PIR格式中從圖14得到的最高得分配對(duì)。
圖16表示用根據(jù)本發(fā)明的方法產(chǎn)生的MG001帶狀結(jié)構(gòu)。
圖17表示根據(jù)本發(fā)明的方法確定的,PIR格式下,在8C001和1b4kA之間的最優(yōu)序列配對(duì)。
圖18顯示根據(jù)本發(fā)明的方法預(yù)測(cè)的1aw5晶體結(jié)構(gòu)(左)和SC001結(jié)構(gòu)(右)。
圖19顯示從油酸中一起晶體出的1dkf的鏈A的空間充填圖。
圖20顯示根據(jù)本發(fā)明的方法,1dkf(命名為gi7766906)和結(jié)構(gòu)1a28的鏈A序列的PIR配對(duì)。
圖21顯示1dkf鏈A的預(yù)測(cè)結(jié)構(gòu)和晶體結(jié)構(gòu)之間的彩虹帶狀重疊圖。
圖22顯示根據(jù)本發(fā)明的方法預(yù)測(cè)的結(jié)構(gòu)1dkf和形成油酸結(jié)合口袋的22個(gè)關(guān)鍵殘基的晶體結(jié)構(gòu)的重疊圖。
圖23顯示1a252(PDB代碼)和雌二醇一起晶體出的插入圖。雌二醇配體用空間填充格式顯示。
圖24顯示根據(jù)本發(fā)明的方法,PIR格式下,雌激素受體序列(表示為gi3659931)和結(jié)構(gòu)1a28的鏈A序列(表示為1a28A)之間的配對(duì)。
圖25顯示根據(jù)本發(fā)明的方法,雌激素受體的預(yù)測(cè)結(jié)構(gòu)和1a52鏈A的晶體結(jié)構(gòu)之間的彩虹帶狀重疊圖。
圖26顯示根據(jù)本發(fā)明的方法預(yù)測(cè)的雌激素受體結(jié)構(gòu)和形成雌二醇結(jié)合口袋的19個(gè)關(guān)鍵殘基的晶體結(jié)構(gòu)的重疊圖。
圖27顯示根據(jù)本發(fā)明的方法,PIR格式下,嗜鹽菌紫質(zhì)(halorhodopsin)序列(表示為1e12A)和細(xì)菌視紫紅質(zhì)序列(表示為1c3wA)之間的配對(duì)。
圖28顯示由圖27中所述配對(duì)得到的三維結(jié)構(gòu)和嗜鹽菌紫質(zhì)(PDB代碼1e12的鏈A)的晶體結(jié)構(gòu)相比較的彩虹帶狀重疊圖。
圖29顯示根據(jù)本發(fā)明的方法,PIR格式下,細(xì)菌視紫紅質(zhì)序列(表示為1c3wA)和視紫紅質(zhì)序列(rhodopsin)(PDB結(jié)構(gòu)1f88的鏈A,表示為1f88A)之間的配對(duì)。
圖30顯示由圖29中所述配對(duì)得到的三維結(jié)構(gòu)和細(xì)菌視紫紅質(zhì)(PDB代碼1c3w的鏈A)的晶體結(jié)構(gòu)相比較的彩虹帶狀重疊圖。
圖31顯示根據(jù)本發(fā)明的方法,PIR格式下,光合成反應(yīng)中心跨膜鏈的序列(表示為6prcM)和光合成反應(yīng)中心另一條不同鏈的序列(PDB結(jié)構(gòu)6prc的鏈L,表示為6prcL)之間的配對(duì)。
圖32顯示由圖31中所述配對(duì)得到的三維結(jié)構(gòu)和PDB編碼6prc的鏈M的晶體結(jié)構(gòu)相比較的彩虹帶狀重疊圖。
圖33顯示根據(jù)本發(fā)明的方法,PIR格式下,ompA序列(表示為1bxwA)和ompX序列(PDB結(jié)構(gòu)1qj8的鏈A,表示為1qj8A)之間的配對(duì)。
圖34顯示由圖33中所述配對(duì)得到的三維結(jié)構(gòu)和ompA(PDB代碼1bxw的鏈A)晶體結(jié)構(gòu)相比較的彩虹帶狀重疊圖。
圖35顯示根據(jù)本發(fā)明的方法,PIR格式下,ompK36序列(表示為1osmA)和膜孔蛋白2por序列之間的配對(duì)。
圖36顯示由圖35中所述配對(duì)得到的三維結(jié)構(gòu)和ompK36(PDB代碼1osm的鏈A)晶體結(jié)構(gòu)相比較的彩虹帶狀重疊圖。
圖37顯示根據(jù)本發(fā)明的方法,PIR格式下,蔗糖特異性膜孔蛋白序列(表示為1a0tP)和麥芽糖膜孔蛋白序列(PDB結(jié)構(gòu)2mpr的鏈A,表示為2mprA)之間的配對(duì)。
圖38顯示由圖37中所述配對(duì)得到的三維結(jié)構(gòu)和蔗糖特異性膜孔蛋白(PDB代碼1a0tP的鏈P)晶體結(jié)構(gòu)相比較的彩虹帶狀重疊圖。
表1列出結(jié)構(gòu)域1ovaA和1by7A之間的結(jié)構(gòu)配對(duì)。
表2提供結(jié)構(gòu)域1ovaA的橋和凸出的BRIDGE/GAP空隙清單,其來自1ovaA和蛋白結(jié)構(gòu)域1ova、1ovaC、1azxI、和1by7A之間的DALI結(jié)構(gòu)配對(duì)。
表3提供了本發(fā)明的方法與本領(lǐng)域現(xiàn)有方法相比較而言具有的優(yōu)點(diǎn)。
表4顯示針對(duì)SCOP數(shù)據(jù)庫(kù)中27個(gè)序列而言本發(fā)明和PSI Blast的配對(duì)方法在科、總科、Fold、和類各個(gè)層次確認(rèn)序列同源性關(guān)系的相對(duì)能力。
表5顯示根據(jù)本發(fā)明的配對(duì)方法對(duì)34個(gè)以前未模擬的支原體genitalium序列正確模擬的殘基數(shù)目。
表6顯示根據(jù)本發(fā)明的配對(duì)方法對(duì)支原體genitalium基因組中前180個(gè)序列進(jìn)行結(jié)構(gòu)預(yù)測(cè)并與ModBase數(shù)據(jù)庫(kù)比較。能構(gòu)建成可靠結(jié)構(gòu)模型的殘基數(shù)目在每列中顯示。將含有至少80%總序列長(zhǎng)度的基本完全模型突出顯示。每種方法所得結(jié)構(gòu)都通過相同的可靠性測(cè)試。所述測(cè)試已經(jīng)公開發(fā)表(Sanchez和Sali1998),并且表明這些結(jié)構(gòu)正確折疊的置信限度大于95%的閾分?jǐn)?shù)。
表7提供用有空隙的(gapped)-BLAST方法找到的和SC001具有序列相似的PDB結(jié)構(gòu)。
表8提供結(jié)構(gòu)域1ovaA的橋和凸出的部分清單,其來自1ovaA和列出的蛋白結(jié)構(gòu)域之間的DALI結(jié)構(gòu)配對(duì)。發(fā)明詳述
本發(fā)明的優(yōu)選具體實(shí)施例是一種確定在待查序列和一個(gè)或多個(gè)模板序列之間的優(yōu)選序列配對(duì)的方法,該方法包括以下步驟(1)配對(duì)兩個(gè)或更多參考序列以確定一個(gè)或多個(gè)參考配對(duì)空隙(稱作BRIDGE/BULGE空隙);(2)根據(jù)待查序列和每個(gè)模板序列之間的一給定的序列配對(duì)是否產(chǎn)生BRIDGE/BULGE空隙,來確定待查序列的每個(gè)可能的配對(duì)和每個(gè)模板序列之間的配對(duì)分?jǐn)?shù);和(3)基于待查序列和每個(gè)模板序列之間的配對(duì)分?jǐn)?shù)確定優(yōu)選的序列配對(duì)。
確定參考配對(duì)空隙-BRIDGE/BULGE空隙的優(yōu)選方法
在本發(fā)明的一種優(yōu)選方法中,通過將參考序列數(shù)據(jù)庫(kù)中每一個(gè)參考序列與其他所有參考序列進(jìn)行配對(duì),則得到參考配對(duì)空隙清單,又稱為BRIDGE/BULGE清單。優(yōu)選地,這類參考序列數(shù)據(jù)庫(kù)包括所有已知蛋白序列或已知蛋白序列的統(tǒng)計(jì)顯著的交叉部分(cross section),例如不斷發(fā)展變化的PDB。這些結(jié)構(gòu)比較技術(shù)已經(jīng)為本領(lǐng)域技術(shù)人員所熟知,其包括,例如,Holm和Sander開發(fā)的Dali方法、組合擴(kuò)展法(CE)(Combinatorial Extension Method)、和VAST。Holm,L.和Sander,C.《分子生物學(xué)雜志》(J.Mol.Biol.)233,123-138(1993);Holm,L.和Sander,C.,《科學(xué)》(Science)273,595-602(1996);Shindyalov,L.N.,和Bourne,P.E.,《蛋白工程》(Protein Eng.)11,739-747(1998);Gibrat,J-F.,Madei,T.和Bryant,S.H.,《當(dāng)今結(jié)構(gòu)生物學(xué)觀點(diǎn)》(Curr.Opin.Struct.Biol)6,377-385(1996)。
表1
表1表明用Dali程序產(chǎn)生的蛋白結(jié)構(gòu)域1ovaA和1by7A之間的結(jié)構(gòu)配對(duì)(所述配對(duì)的C端(羧基末端)在1ovaA的189位殘基處切斷)。正如表1顯示的那樣,當(dāng)兩個(gè)序列配對(duì)時(shí),兩個(gè)序列中的大區(qū)域經(jīng)常是等同的并且被氨基酸殘基不同的區(qū)域所分隔。特別是,當(dāng)1ovaA和1by7A配對(duì)時(shí),兩個(gè)序列中最前的63個(gè)和最后的91個(gè)殘基相匹配。在較短的序列長(zhǎng)度,插入?yún)^(qū)域交替地配對(duì)和不配對(duì)。例如,1ovaA中的殘基69-78不與1by7A中任何殘基配對(duì),盡管空隙兩側(cè)的結(jié)構(gòu)相似。這樣,相對(duì)1by7A而言,1ovaA在這個(gè)區(qū)域內(nèi)有一個(gè)9-殘基凸出。相反地,相對(duì)1ovaA而言,結(jié)構(gòu)1by7A在1ovaA的這個(gè)區(qū)域內(nèi)跨越了9個(gè)殘基(bridges 9 residues)。
眾所周知,可以為每個(gè)蛋白相對(duì)于整個(gè)數(shù)據(jù)庫(kù)建構(gòu)結(jié)構(gòu)比較數(shù)據(jù)庫(kù)。參見,例如,F(xiàn)SSP數(shù)據(jù)庫(kù),Holm,L.和Sander,C.,《科學(xué)》(Science)273,595-602(1996)。如果已知一套序列配對(duì),我們就能夠得到與所給結(jié)構(gòu)相關(guān)的各種各樣序列配對(duì)中的所有橋和凸出的清單。一般而言,根據(jù)本發(fā)明的方法得到的結(jié)果會(huì)隨著數(shù)據(jù)庫(kù)中用來確定BRIDGE/BULGE信息的序列和基因組數(shù)目的增長(zhǎng)而改善。表2顯示橋和凸出信息的部分清單,其可從配對(duì)PDB中的各種序列而獲得。F.C.Bernstein,T.F.Koetzle,G.J.B.Williams等《分子生物學(xué)雜志》(J.Mol.Biol.)112,535-542(1977);H.M.Berman,J.Westbrook,Z.Feng,G.Gilliland,T.N.Bhat,H.Weissig,I.N.Shindyalov,P.E.Bourne《核酸研究》(Nucl.Acids Research),28235-242(2000);WWW地址http//www.rcsb.org/pdb]。在表1中來自1ovaA和1by7A配對(duì)得到的橋用灰色突出顯示。表2
另一種確定BRIDGE/BULGE信息的優(yōu)選方法是使用算法(例如BLAST,S.F.Altschul,W.Gish,W.Miller,E.W.Meyers,和D.J.Lippman,《分子生物學(xué)雜志》(J.Mol.Biol.)215,403-410(1990))來確定待查序列和取自任何大的序列數(shù)據(jù)庫(kù)的模板序列的一套同源序列,所述序列數(shù)據(jù)庫(kù)包含統(tǒng)計(jì)上具有代表性的跨越多種基因組的許多序列的交叉部分(cross section)。根據(jù)本優(yōu)選具體實(shí)施例用來確定BRIDGE/BULGE信息的數(shù)據(jù)庫(kù)最好包括所有已知的、與待查序列和模板序列同源性至少為45%的序列。NIH的非多余性蛋白序列銀行是一個(gè)適合的數(shù)據(jù)庫(kù),所述銀行現(xiàn)在有從多于100種不同有機(jī)體中獲取的多于600,000的序列。可以用任何本領(lǐng)域人員所熟知的多重序列配對(duì)算法,對(duì)由待查序列和模板序列組成的序列同源組合進(jìn)行處理得到BRIDGE/BULGE清單,例如clustal W,J.D.Thompson,D.G.Higgins,T.J.Gibbon,《核酸研究》(Nucl.AcidsRes.)22,4673-4680(1994)。圖1顯示用clustal W找到的以下序列的7個(gè)同源序列
LVAFADFGSVTFTNAEATSGGSTVGPSDATVMDIEQDGSVLTETSVSGDSVTV。
就待查序列而言,多重序列配對(duì)包含兩個(gè)不同的一殘基凸出區(qū)域,所述區(qū)域在待查序列中用“G-S”和“S-V”表示。圖1中多重配對(duì)也含有一個(gè)橋區(qū)域,在所述橋區(qū)域內(nèi)待查序列中的“STVGPSD”殘基為序列4中的一個(gè)空隙區(qū)域跨越。注意,如果同源序列的三維模型存在,則可以證明發(fā)現(xiàn)的每一個(gè)橋和凸出都遵守三維結(jié)構(gòu)所施加的物理限制。
BRIDGE/BULGE清單的另一個(gè)來源是服從三維蛋白結(jié)構(gòu)所施加的物理限制的橋和凸出空隙的清單。例如,我們可以得到模板序列中每個(gè)殘基的起始碳(C-alpha carbon)之間的殘基內(nèi)距離的清單。殘基內(nèi)距離在一定值范圍內(nèi)就可能成為適當(dāng)?shù)腂RIDGE/BULGE空隙的候選者。例如,兩個(gè)相距大約5的殘基就可能被一個(gè)殘基很好的分隔。在所述結(jié)構(gòu)中在該點(diǎn)的一殘基橋?qū)⒉粫?huì)破壞整個(gè)折疊,并且可以認(rèn)為是BRIDGE/BULGE空隙組合中的包含體(如果在待查序列中實(shí)際存在多于一個(gè)的殘基將這些殘基分隔)。這樣,一套不破壞模板序列三維結(jié)構(gòu)的BRIDGE/BULGE組合也可以用在BRIDGE/BULGE空隙組合中。
全部或部分位于細(xì)胞膜內(nèi)的膜內(nèi)蛋白的結(jié)構(gòu)有許多獨(dú)特的特質(zhì),這些特性使它們與其可溶性蛋白配對(duì)物區(qū)別開來。這樣的一個(gè)特性是蛋白膜內(nèi)區(qū)域的膜蛋白具有高度的結(jié)構(gòu)同源性。相反,在這些蛋白中細(xì)胞內(nèi)和細(xì)胞外的環(huán)形結(jié)構(gòu)具有相當(dāng)?shù)娜嵝圆⑶規(guī)缀醪痪哂薪Y(jié)構(gòu)保守性。本發(fā)明的方法獨(dú)特地適用于模擬這些序列。如果已知一個(gè)膜蛋白模板的結(jié)構(gòu),就可以確證細(xì)胞內(nèi)和細(xì)胞外的環(huán)形區(qū)域,并且能夠擴(kuò)充膜模板的BRIDGE/BULGE空隙清單,使得所有可能的環(huán)形結(jié)構(gòu)長(zhǎng)度都包含在候選配對(duì)組合之中。進(jìn)一步來講,可以將破壞蛋白高度保守膜內(nèi)結(jié)構(gòu)的BRIDGE/BULGE空隙從BRIDGE/BULGE組合中剔除,以便在最優(yōu)配對(duì)的確定過程中只考慮保持高度保守結(jié)構(gòu)的序列配對(duì)。與可溶性蛋白無關(guān),膜蛋白的標(biāo)準(zhǔn)空隙及BRIDGE/BULGE空隙的打開和延長(zhǎng)參數(shù)都應(yīng)獨(dú)立確定。
橋和凸出列表包含關(guān)于空隙類型的有價(jià)值的信息,并且人們知道對(duì)于給定序列比較所述空隙在自然界中存在。在本發(fā)明的優(yōu)選方法中,BRIDGE/BULGE組合中每個(gè)空隙都給予參與確定待查序列和模板序列間最優(yōu)配對(duì)的機(jī)會(huì)。本領(lǐng)域現(xiàn)有方法在確定待查序列和模板序列之間的最優(yōu)序列配對(duì)時(shí)并沒有考慮提出的配對(duì)空隙是否在自然界中其他地方被發(fā)現(xiàn)。
本領(lǐng)域熟練的技術(shù)人員會(huì)很快明白為何這種考慮是重要的。當(dāng)比較兩個(gè)序列時(shí),隨著序列同源性的相對(duì)降低,配對(duì)空隙的頻率和大小通常會(huì)增加。在不考慮所述空隙是否有物理基礎(chǔ)的情況下,最優(yōu)配對(duì)的確定將與序列三維結(jié)構(gòu)的物理真實(shí)性相脫離。
計(jì)算序列配對(duì)的優(yōu)選方法-和矩陣
確定待查序列和模板序列之間的最優(yōu)序列配對(duì)的優(yōu)選方法包括依據(jù)一種算法將序列相似性矩陣進(jìn)行動(dòng)態(tài)變換以計(jì)算和矩陣,其中所述算法會(huì)考慮提出的配對(duì)空隙是否產(chǎn)生一已知的BRIDGE/BULGE空隙。盡管相似性矩陣和動(dòng)態(tài)編程廣泛應(yīng)用于現(xiàn)有的配對(duì)技術(shù)中,現(xiàn)有的配對(duì)技術(shù)在確定最優(yōu)配對(duì)時(shí)并沒有將提出的BRIDGE/BULGE空隙是否物理存在這個(gè)因素考慮進(jìn)去。
實(shí)施例1
實(shí)施例1顯示確定最優(yōu)序列配對(duì)的現(xiàn)有方法,所述方法通過相似性矩陣的動(dòng)態(tài)變換來計(jì)算和矩陣。圖2顯示為(校留意)“ BIGTOWNSOWN”和“BIGBROWNTOWNOWN”兩個(gè)序列構(gòu)建的用來作為示范的相似性矩陣,該過程中使用了一種非常簡(jiǎn)單的計(jì)分方法,如Si,j=2,如果矩陣中i和j的位置的字母相同;以及Si,j=0,如果矩陣中i和j的位置的字母不同。
在動(dòng)態(tài)編程中,可以通過動(dòng)態(tài)變換相似性矩陣計(jì)算得到和矩陣。聯(lián)系相似性矩陣sij元素和和矩陣Sij元素的示范性變換方案顯示在方程1中。
Sij=sij+Max{
Si+1,j+1,[對(duì)角線的,向下和向右]
Si+1,j+2 to jmax-GAP,[i+1行向后,所有可能的空隙]
Si+2 to imax,j+2-GAP,[j+1列向后,所有可能的空隙]
}, (1)
其中Si,j表示相似性矩陣中單元格(i,j)的分?jǐn)?shù),Max表示括號(hào)里三項(xiàng)之中的最大值。GAP表示所提出的空隙打開和延長(zhǎng)的空隙處罰。空隙得分處罰的示例顯示在方程2中
GAP=Open-k(extension),(2)
其中“Open”表示打開一個(gè)空隙的處罰常數(shù),并且“k(extension)”表示延長(zhǎng)空隙“k”個(gè)殘基的處罰常數(shù)。
一種典型的動(dòng)態(tài)編程算法從和矩陣最底部一行開始填充,并且沿矩陣向上從右至左填充每行中每個(gè)單元格的分?jǐn)?shù)。圖3顯示正在構(gòu)建的和矩陣,其中空隙打開和延長(zhǎng)的處罰分別是2和1。在這個(gè)實(shí)施例中由相似性分?jǐn)?shù)矩陣得到的Si,j=2分?jǐn)?shù)已經(jīng)轉(zhuǎn)化到和矩陣中。在圖3中,和矩陣的底部?jī)尚幸呀?jīng)完成,并且從底部算第三行正在完成?;疑幱熬仃囋乇硎井?dāng)確定黑色矩陣元素的分?jǐn)?shù)時(shí)被考慮的矩陣元素。沿對(duì)角線上最暗的灰色陰影矩陣元素是對(duì)黑色矩陣元素的值有貢獻(xiàn)的矩陣元素。
圖4顯示處于進(jìn)一步變換階段的和矩陣,此時(shí)底部有9行已經(jīng)完成。和上述一樣,灰色陰影矩陣元素是確定黑色矩陣元素的分?jǐn)?shù)時(shí)需要考慮的矩陣元素。在這種情況下,最高分?jǐn)?shù)來自最暗的灰色陰影元素,該元素離黑色單元格有兩列遠(yuǎn)。
圖5顯示方程(1)中所用的灰色單元格的空隙處罰,所述灰色單元格是圖4中黑色陰影單元格的配對(duì)候選者。緊鄰黑色陰影單元格下方和右方的單元格的空隙=0。有兩個(gè)空隙=2的單元格,其中所述空隙第一次打開但沒有延長(zhǎng)。由黑色陰影單元格進(jìn)一步得到的單元格也有大小為1的延長(zhǎng)處罰,所以它們總的空隙處罰隨著延長(zhǎng)長(zhǎng)度的增加而增加一個(gè)單位(從方程1中得到的k)。
圖6顯示通過對(duì)相似性矩陣中矩陣元素sij(同上面的定義)的動(dòng)態(tài)變換得到的完全和矩陣。一旦和矩陣完成,我們就可以在和矩陣的最頂部一行和最左邊一列中找到分?jǐn)?shù)最高的單元格,并且接著追溯那些產(chǎn)生所述最高得分單元格的單元格,從而找到最優(yōu)配對(duì)。在這個(gè)實(shí)施例中,所述左上最優(yōu)配對(duì)從左上角的單元格開始并且突出顯示。圖7用廣泛使用的PIR格式、在和矩陣背景之外顯示最高得分配對(duì)。
目前的動(dòng)態(tài)編程方法(如上述所披露和用方程2來代表的)在將相似性矩陣進(jìn)行變換以計(jì)算和矩陣時(shí)并沒有考慮BRIDGE/BULGE信息。這樣,現(xiàn)有的確定待查序列和模板序列之間最優(yōu)序列配對(duì)的方法在進(jìn)行確定時(shí)沒有考慮到所提出BRIDGE/BULGE是否在自然界有物理基礎(chǔ)。這在低序列同源性的兩個(gè)序列之間進(jìn)行序列比較時(shí)有很重要的意義,并且能夠解釋為什么現(xiàn)有配對(duì)技術(shù)不適用于低同源性的情況。當(dāng)比較兩個(gè)序列時(shí),隨著相對(duì)序列同源性的降低,相對(duì)空隙的大小和頻率會(huì)增加。在不考慮所述空隙是否在自然界中有任何先例的情況下,最優(yōu)配對(duì)的確定將與序列三維結(jié)構(gòu)(alignment)的物理真實(shí)性相脫離。
本發(fā)明的方法是建立在以下認(rèn)識(shí)的基礎(chǔ)上如果要在低序列同源性的情況下通過相似性矩陣的動(dòng)態(tài)編程得到精確的和矩陣,動(dòng)態(tài)編程就必須考慮到所提出的配對(duì)是否在自然界中存在先例。本發(fā)明的優(yōu)選方法,和現(xiàn)有的確定待查序列和模板序列之間最優(yōu)序列配對(duì)的方法一樣,利用動(dòng)態(tài)編程從一個(gè)輸入相似性矩陣輸出一個(gè)和矩陣。然而,本發(fā)明的方法在確定最優(yōu)序列配對(duì)時(shí)還考慮一個(gè)輸入變量,也就是在所提出的配對(duì)中的任何BRIDGE/BULGE是否在自然界中有任何物理基礎(chǔ)。圖8圖示本發(fā)明的方法所需的兩個(gè)基本輸入量。
在根據(jù)本發(fā)明的一個(gè)優(yōu)選方法中,可以通過方程3動(dòng)態(tài)變換相似性矩陣(矩陣元素sij)以計(jì)算和矩陣(矩陣元素Sij)。
Sij=sij+Max{
Si+1,j+1,[對(duì)角線的,向下和向右]
Si+1,j+2 to jmax-GAP,[i+1行向后,所有可能的j]
Si+2 to imax,j+2-GAP,[j+1列向后,所有可能的i]
Sm,n-BRIDGE/BULGE[結(jié)束和矩陣元素i,j的橋和
凸出]
},(3)
方程3中的術(shù)語(yǔ)和方程2中定義的一樣,其中有一個(gè)額外術(shù)語(yǔ)BRIDGE/BULGE。BRIDGE/BULGE對(duì)應(yīng)于一個(gè)始于和矩陣的矩陣元素m,n,并結(jié)束于和矩陣的矩陣元素i,j的已知橋或凸出的處罰。Max{Si+1,j+1,Si+1,j+2 to jmax-GAP,Si+2 to imax,j+2-GAP,Sm,n-BRIDGE/BULGE}表示括號(hào)里四項(xiàng)之中的最大值。所述相似性矩陣可以用本領(lǐng)域熟知的任何方法得到。
實(shí)施例2
實(shí)施例2說明,在圖2的相似性矩陣和圖9的BRIDGE/BULGE組合的基礎(chǔ)上,包含BRIDGE/BULGE信息(來自方程3描述的優(yōu)選方法)將如何影響在“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”之間的優(yōu)選配對(duì)的確定。為了這個(gè)計(jì)算目的,不存在于已知BRIDGE/BULGE組合中的空隙的空隙打開和延長(zhǎng)處罰分別為3和2,存在于已知BRIDGE/BULGE組合中的空隙的空隙打開和延長(zhǎng)處罰分別為1和0。圖10顯示由圖9中BRIDGE/BULGE空隙組合允許的橋和凸出空隙。這樣,圖10顯示BRIDGE/BULGE組合怎樣控制相似性矩陣到和矩陣的動(dòng)態(tài)變換。
本發(fā)明的優(yōu)選方法從和矩陣最底部一行開始填充,并且沿矩陣向上、在行的每個(gè)單元格中從右至左填充分?jǐn)?shù)。
在圖11中,和矩陣的底部三行已經(jīng)完成,并且從底部算起第四行正在完成。再一次,當(dāng)確定黑色矩陣元素的分?jǐn)?shù)時(shí),灰色陰影矩陣元素是被考慮的可能的矩陣元素,并且最暗的灰色陰影矩陣元素是實(shí)際上對(duì)黑色矩陣元素的分?jǐn)?shù)有貢獻(xiàn)的矩陣元素。正如圖10中最粗的箭頭所示,從深灰色矩陣元素到黑色矩陣元素的變換是圖9中所示的BRIDGE/BULGE組合所允許的。
圖12顯示處于進(jìn)一步變換階段的和矩陣,此時(shí)底部12行已經(jīng)完成。同上所述,當(dāng)確定黑色單元格的分?jǐn)?shù)時(shí),灰色陰影矩陣單元格是要考慮的位置。在這種情況下,最高分?jǐn)?shù)來自在BRIDGE/BULGE空隙組合中的深灰色陰影單元格。
圖13顯示方程2中所用的灰色單元格的空隙處罰,所述灰色單元格是圖12中黑色陰影單元格的配對(duì)候選者。從深灰色單元格到黑色單元格的變換是在BRIDGE/BULGE空隙組合范圍內(nèi),因此具有大小為1的空隙處罰。
圖14顯示根據(jù)本發(fā)明的優(yōu)選方法產(chǎn)生的“BIGTOWNSOWN”和“BIGBROWNTOWNOWN”的假設(shè)配對(duì)和矩陣。一旦該和矩陣完成,我們就可以在和矩陣的最頂部一行和最左邊一列的所有單元格中找到分?jǐn)?shù)最高的單元格,并且接著追溯那些產(chǎn)生所述最高得分單元格的單元格,從而可找到最優(yōu)配對(duì)。對(duì)該實(shí)施例來說,最優(yōu)配對(duì)從左上角的單元格開始,并且突出顯示。圖中箭頭用來標(biāo)明列在BRIDGE/BULGE空隙組合中的最優(yōu)配對(duì)的空隙。注意,在這種情況下得到的整體最優(yōu)配對(duì)與圖6中得到的標(biāo)準(zhǔn)動(dòng)態(tài)編程配對(duì)不同。圖15用廣泛使用的PIR格式、在和矩陣背景之外顯示最高得分配對(duì)。從圖15可以明顯看到,在本實(shí)施例中獲得的最高得分配對(duì)并不連續(xù)配對(duì)來自待查序列或模板序列的殘基,因?yàn)樵谧詈笈鋵?duì)中存在的凸出空隙省去了兩個(gè)序列中的部分殘基。
確定BRIDGE/BULGE處罰的優(yōu)選方法
在動(dòng)態(tài)編程中確定空隙打開和延長(zhǎng)處罰的方法已經(jīng)為本領(lǐng)域所熟知。一種優(yōu)選方法是針對(duì)很大數(shù)量的蛋白序列(其中最優(yōu)配對(duì)已知)經(jīng)驗(yàn)調(diào)節(jié)這些參數(shù)以獲取最佳結(jié)果。一般的進(jìn)程是先匯集許多不同的空隙打開和延長(zhǎng)處罰結(jié)合的結(jié)果,然后選出在測(cè)試組合中表現(xiàn)最佳的參數(shù)。關(guān)于該程序參見,例如,B.Rost,R.Schneider和C.Sander,《分子生物學(xué)雜志》(J.Mol.Biol.)270,471-480(1997)。當(dāng)為了優(yōu)化序列配對(duì)以參數(shù)表示標(biāo)準(zhǔn)動(dòng)態(tài)編程程序時(shí),兩個(gè)必須參數(shù)化的變量是空隙打開和空隙延長(zhǎng)處罰。在根據(jù)本發(fā)明的方法中,除了標(biāo)準(zhǔn)的空隙打開和空隙延長(zhǎng)處罰參數(shù)之外,BRIDGE/BULGE組合的空隙打開和延長(zhǎng)處罰(校原文多一個(gè)“penalties”)也必須參數(shù)化。這些參數(shù)可以用與動(dòng)態(tài)編程中用來確定標(biāo)準(zhǔn)空隙打開和延長(zhǎng)處罰的相同的方法來進(jìn)行調(diào)節(jié)。
確定三維結(jié)構(gòu)和科同源性的優(yōu)選組合方法
一旦待查序列和蛋白結(jié)構(gòu)模板或多個(gè)模板之間的配對(duì)構(gòu)建完成,就可以用本領(lǐng)域熟知的各種序列同源性模擬方法進(jìn)行待查序列的三維結(jié)構(gòu)的構(gòu)建。一種廣泛應(yīng)用的方法是剛性結(jié)構(gòu)(rigid-body)裝配,其中模板蛋白骨架殘基的精確坐標(biāo)作為待查蛋白中相應(yīng)配對(duì)殘基的坐標(biāo)。K.Brew,T.C.Vanaman,和R.C.Hill,《分子生物學(xué)雜志》(J.Mol.Biol.)42,65-86(1969);T.L.Blundell,B.L.Sibanda,M.J.E.Sternberg,和J.M.Thornton,《自然》(Nature)326,347-352(1987);W.J.Browne,A.C.T.North,D.C.Philips,J.Greer,《蛋白》(Proteins)7,317-334(1990)。另一套本領(lǐng)域熟知的方法是片段配對(duì)法,所述方法是依靠模板蛋白中原子的大致坐標(biāo)。T.H.Jones,S.Thirup,EMBO J.5,819-822(1986);M.Claessens,E.V.Cutsem,I.Lasters,S.Wodak,《蛋白工程》(Protein Eng.)4,335-345(1989);R.Unger,D.Harel,S.Wherland,J.L.Sussman,《蛋白》(Proteins)5,355-373(1989);M.Levitt,《分子生物學(xué)雜志》(J.Mol.Biol.)226,507-533(1992)。還有另一組方法并不明確使用模板蛋白的坐標(biāo),而是用這些模板來產(chǎn)生一套殘基內(nèi)距離限制條件,并用其來產(chǎn)生待查結(jié)構(gòu)。在一套限制條件下,可用如距離幾何學(xué)或能量?jī)?yōu)化技術(shù)等方法來獲得滿足所有限制條件的待查序列的結(jié)構(gòu)。T.F.Havel和M.E.Snow,《分子生物學(xué)雜志》(J.Mol.Biol.)217,1-7(1991);S.M.Brockelhurst,R.N.Perham,《蛋白科學(xué)》(Prot.Science)2,626-639(1993);A.Sali和T.Blundell,《分子生物學(xué)雜志》(J.Mol.Biol.)234,779-815(1993);S.Srinivasan,C.J.March,和S.Sudarsaman,《蛋白工程》(Protein Eng.)6,501-512(1993);A.Aszodi和W.R.Taylor,《折疊設(shè)計(jì)》(Folding Design)1,325-34(1996)]。對(duì)于給定的待查序列和模板序列配對(duì)而言,三種類型的算法的準(zhǔn)確性和精度是相似的,其已經(jīng)為本領(lǐng)域人員所熟知。
本發(fā)明的方法也可以用來確定多個(gè)待查序列之間的相對(duì)同源性關(guān)系。確定多個(gè)待查序列之間的相對(duì)同源性關(guān)系的優(yōu)選方法包括確定每個(gè)待查序列和一個(gè)或多個(gè)模板序列之間的最優(yōu)配對(duì)分?jǐn)?shù),并且通過比較優(yōu)選的配對(duì)分?jǐn)?shù)來確定待查序列之間的相對(duì)同源性。與一個(gè)或多個(gè)相同模板序列具有配對(duì)分?jǐn)?shù)的待查序列可以認(rèn)為比具有更分散的配對(duì)分?jǐn)?shù)的待查序列具有更緊密的關(guān)系。
本發(fā)明優(yōu)選方法相對(duì)于現(xiàn)有方法的優(yōu)點(diǎn)
在優(yōu)選方法中,待查序列和模板序列之間的最優(yōu)序列配對(duì)的確定參考了所提出的橋或凸出是否在自然界中有先例。因?yàn)樵跇?gòu)建配對(duì)時(shí)所使用的每個(gè)橋和凸出空隙都在三維數(shù)據(jù)庫(kù)中存在,所以眾所周知,三維蛋白模型能夠滿足所有的空隙條件而不違背分子幾何學(xué)(即空隙是實(shí)際存在的(physical))。
進(jìn)一步來講,因?yàn)閮?yōu)選方法使用已知結(jié)構(gòu)的橋和凸出信息,因此長(zhǎng)的橋和凸出空隙的適當(dāng)構(gòu)象已經(jīng)存在于PDB中的序列中。這與現(xiàn)有方法相比較有很大的好處。例如,在由MODELLER程序產(chǎn)生的配對(duì)中,要使待查序列中所有殘基都有一個(gè)結(jié)構(gòu)模板的唯一方法是包括足夠數(shù)量的結(jié)構(gòu)模板從而考慮到所有不同環(huán)形長(zhǎng)度的變化。用本發(fā)明的方法,在最后的一致性配對(duì)過程開始之前,完成這項(xiàng)任務(wù)所需要的結(jié)構(gòu)模板是預(yù)先確定的。這使得對(duì)空隙區(qū)域的預(yù)測(cè)更準(zhǔn)確,因?yàn)楹苌傩枰ㄟ^從頭開始方法(ab initio)或數(shù)據(jù)庫(kù)搜索的方法來構(gòu)建環(huán)形區(qū)域(這些方法通常導(dǎo)致模擬性很差或錯(cuò)誤導(dǎo)向的結(jié)構(gòu)區(qū)域)。這些改進(jìn)總結(jié)在表3中。表3
在下面的實(shí)施例中,本發(fā)明的方法將與本領(lǐng)域現(xiàn)有配對(duì)技術(shù)進(jìn)行比較,以解決各種結(jié)構(gòu)同源性模擬問題。
實(shí)施例3
實(shí)施例3是相對(duì)于PSI-BLAST算法,針對(duì)序列相差較大的結(jié)構(gòu)類似物的檢測(cè),測(cè)試本發(fā)明的方法,S.F.Altschul,T.L.Madden,A.A.Schaffer等,《核酸研究》(Nucl.Acids Res.)25,3389-3402(1997)。PSI-BLAST目前代表同源性模擬程序的現(xiàn)有水平。E.Lindahl和A.Elofsson,《分子生物學(xué)雜志》(J.Mol.Biol.),295,613-625(2000)。在本實(shí)施例中,用Lindahl和Elofsson概述(outlined)的測(cè)試方法和27個(gè)已知的蛋白序列,對(duì)每種算法進(jìn)行測(cè)試以確定其確認(rèn)結(jié)構(gòu)鄰居的相對(duì)能力,其中所述結(jié)構(gòu)鄰居,在結(jié)構(gòu)相似性的科、總科、Fold、和類層次上(科關(guān)系最近,F(xiàn)old關(guān)系最弱),其序列同源性小于25%,如在SCOP蛋白數(shù)據(jù)庫(kù)中所定義,A.G.Murzin,S.E.Brenner,T.Hubbard和C.Chothia,《分子生物學(xué)雜志》(J.Mol.Biol.),247,536-540(1995)。測(cè)試組中的所有結(jié)構(gòu)相似性在FSSP數(shù)據(jù)庫(kù)中同樣存在,Holm和Sander,《科學(xué)》(Science),273,595-602(1996),因此即使在Fold和類這樣的相似性層次,高結(jié)構(gòu)同源性的區(qū)域也能保證其存在??偟膩碇v,所述測(cè)試中共有99個(gè)科、171個(gè)總科、184個(gè)Fold、和1931個(gè)類關(guān)系。優(yōu)選方法和PSI-BLAST方法確認(rèn)這些關(guān)系的能力在表4的1、5和10(即0、4和9是假陽(yáng)性)中有一個(gè)總的排列。這些結(jié)果表明用本發(fā)明的方法,在總科、Fold和、類相似性層次上,序列確認(rèn)能力有很大的提高。表4
實(shí)施例4
實(shí)施例4說明本發(fā)明的方法和廣泛可獲得的同源性模擬數(shù)據(jù)包聯(lián)合使用,可用來預(yù)測(cè)待查序列的三維結(jié)構(gòu)。在本實(shí)施例中,對(duì)來自支原體genitalium基因組的54個(gè)待查序列,用本領(lǐng)域現(xiàn)有配對(duì)技術(shù)在MODELLER中無法單獨(dú)進(jìn)行正確結(jié)構(gòu)模擬,A.
和T.L.Blundell,《分子生物學(xué)雜志》(J.Mol.Biol.),234,779-815(1993),而聯(lián)合使用本發(fā)明的配對(duì)方法和MODELLER的三維結(jié)構(gòu)構(gòu)建部分,則可以進(jìn)行結(jié)構(gòu)模擬。實(shí)驗(yàn)結(jié)果總結(jié)在表5中。表5表明當(dāng)用本發(fā)明的方法確定優(yōu)先序列配對(duì)并基于這些優(yōu)選配對(duì)用MODELLER獲取三維蛋白結(jié)構(gòu)時(shí),能成功模擬54個(gè)序列中的35個(gè)(65%),這相當(dāng)于8800個(gè)以前未模擬的殘基,如按照pG測(cè)試所判斷的,R.Sánchez和A.
“釀酒酵母基因組的大規(guī)模蛋白結(jié)構(gòu)模擬”《美國(guó)國(guó)家科學(xué)院院報(bào)》(Proc.Natl.Acad.Sci.USA),95,13597-13602(1998)],其中使用PROSAII的Z計(jì)分方法,M.J.Sippl,《蛋白》(Proteins),17,355-362(1993)。表5
這些結(jié)果表明本發(fā)明的方法比現(xiàn)有的配對(duì)技術(shù)有明顯的改善,因?yàn)閷?duì)于這35個(gè)成功模擬序列的每一個(gè),本領(lǐng)域現(xiàn)有技術(shù)MODELLER程序失敗了。如果將這些結(jié)果外推到整個(gè)支原體genitalium基因組,本發(fā)明的方法將能正確地、在結(jié)構(gòu)上模擬大約40000個(gè)殘基,這相當(dāng)于30%以上的可溶性蛋白殘基。因?yàn)楸景l(fā)明的方法能同樣應(yīng)用于任何基因組,因此,本發(fā)明的方法應(yīng)能改善對(duì)所有基因組的類似模擬,包括人類基因組。
實(shí)施例5
實(shí)施例5說明本發(fā)明的方法針對(duì)支原體genitalium基因組的前l(fā)80個(gè)序列能提供比R.Sánchez和A.
的方法和ModBASE方法更好的三維結(jié)構(gòu)。R.Sánchez和A.
《生物信息學(xué)》(Bioinformatics),15,1060-1061(1999)。在本實(shí)施例中,聯(lián)合使用本發(fā)明的優(yōu)選配對(duì)技術(shù)和MODELLER的三維結(jié)構(gòu)構(gòu)建能力來確定支原體genitalium基因組的前180個(gè)序列的三維結(jié)構(gòu)。這個(gè)實(shí)驗(yàn)的結(jié)果和Sánchez和
方法的結(jié)果列在表6中。表6的第一列表示每個(gè)序列的實(shí)際殘基數(shù)。剩下的兩列顯示用本發(fā)明的方法正確模擬的殘基數(shù)目(從左數(shù)第3列)和用Sánchez和
方法正確模擬的殘基數(shù)目(最右邊的一列)。含有至少80%的總序列長(zhǎng)度的基本完全模型突出顯示。用每種方法產(chǎn)生的結(jié)構(gòu)經(jīng)過同樣的可靠性測(cè)試。這些測(cè)試結(jié)果已經(jīng)公開發(fā)表(Sanchez和Sali 1998),并且提供這些結(jié)構(gòu)正確折疊的置信限大于95%的閾分?jǐn)?shù)(thresho1d)。表6
或許,確定一種配對(duì)方法的有效性的唯一的、最重要的標(biāo)準(zhǔn)是所述方法用來預(yù)測(cè)大體上完全結(jié)構(gòu)模型的能力-即至少正確模擬80%的殘基。本發(fā)明的方法對(duì)180個(gè)支原體genitalium序列的模擬正確率至少為80%的比率約為27%,然而ModBASE在相同正確率前提下僅達(dá)到13%。因此,本發(fā)明的配對(duì)方法與本領(lǐng)域現(xiàn)有的配對(duì)方法相比有至少兩倍的提高。
測(cè)量配對(duì)方法的有效性的另一種重要的標(biāo)準(zhǔn)是所述方法用來正確預(yù)測(cè)完全結(jié)構(gòu)域結(jié)構(gòu)的能力。又一次,當(dāng)本發(fā)明的方法用來構(gòu)建三維模型時(shí),180個(gè)序列的完全結(jié)構(gòu)域中能正確模擬106個(gè)(59%),而ModBASE只有48個(gè)(27%)。
測(cè)量配對(duì)方法的有效性第三個(gè)標(biāo)準(zhǔn)是所述方法用來預(yù)測(cè)結(jié)構(gòu)模型中任何一個(gè)殘基的空間位置的能力。再一次,當(dāng)本發(fā)明的方法用來構(gòu)建三維模型時(shí),在估計(jì)約50000個(gè)可溶性蛋白殘基中,將近22000個(gè)殘基的坐標(biāo)可以精確定位,而ModBASE只能對(duì)小于前者一半,也就是約21%的殘基進(jìn)行適當(dāng)定位。
圖16是聯(lián)合使用本發(fā)明的方法和MODELLER產(chǎn)生的MG001帶狀結(jié)構(gòu)圖。而MODBASE對(duì)相同的序列只能提供不完整的結(jié)構(gòu)片段。實(shí)施例6
實(shí)施例6說明本發(fā)明的方法和廣泛可獲得的同源性模擬數(shù)據(jù)包聯(lián)合使用,可用來預(yù)測(cè)低序列同源類似物的正確三維結(jié)構(gòu)。在這個(gè)實(shí)施例中我們基于一個(gè)低同源性模板序列來確定啤酒酵母(Saccharomyces cerevisiae,釀酒酵母)中SC001(orf YGL040C)的三維結(jié)構(gòu)。為了構(gòu)建一個(gè)BRIDGE/BULGE清單,用空隙-BLAST方法來確定PDB中與待查序列SC001具有相似序列的蛋白結(jié)構(gòu)清單。已找到的8個(gè)PDB相似結(jié)構(gòu)列在表7中。
表7
為了進(jìn)一步說明所述優(yōu)選配對(duì)方法在低序列同源性的情況下產(chǎn)生準(zhǔn)確結(jié)構(gòu)的能力,用序列1b4kA(示于表7中)作為模板序列并產(chǎn)生BRIDGE/BULGE清單。SC001和1b4kA之間的結(jié)構(gòu)配對(duì)具有35%的序列同源性,并且MODBASE中不存在從1b4kA建立的序列SC001的可靠的結(jié)構(gòu)模型。結(jié)構(gòu)1b4kA長(zhǎng)為326個(gè)殘基;在FSSP中有211個(gè)與1b4kA結(jié)構(gòu)上配對(duì)的蛋白。這些配對(duì)為該結(jié)構(gòu)產(chǎn)生3444個(gè)可能的橋和凸出,其中部分列于下面的表8中。
表8
根據(jù)本發(fā)明的方法,在PIR格式下,SC001和1b4kA之間的最優(yōu)序列配對(duì)顯示在圖17中。為該配對(duì)使用的空隙處罰為空隙打開和延長(zhǎng)處罰,分別是10.0和1.5,其中橋和凸出打開和延長(zhǎng)處罰分別是1.0和0.3。這些空隙處罰是通過對(duì)已知結(jié)構(gòu)組合中得到的配對(duì)進(jìn)行優(yōu)化而確定。
接著,把PIR格式的配對(duì)作為MODELLER同源性模擬軟件的配對(duì)輸入項(xiàng)。在圖18中(1aw5在左邊,預(yù)測(cè)結(jié)構(gòu)在右邊),將MODELLER用該配對(duì)模擬的結(jié)構(gòu)與SC001的實(shí)際晶體結(jié)構(gòu)1aw5比較。326個(gè)匹配殘基的起始碳CRMS(alpha-carbon CRMS)為2.11,這再一次說明所述優(yōu)選方法在和同源性模擬程序聯(lián)合使用時(shí),能得到現(xiàn)有方法得不到的準(zhǔn)確結(jié)構(gòu)模型。
實(shí)施例7
實(shí)施例7說明本發(fā)明的方法和廣泛可獲得的同源性模擬數(shù)據(jù)包一道,可用來在序列同源性遠(yuǎn)低于25%的情況下預(yù)測(cè)準(zhǔn)確的三維結(jié)構(gòu)。
考察類視黃醇核受體視黃酸受體(RXR retinoic acid receptor),PDB代碼1dkf的鏈A的三維結(jié)構(gòu)。蛋白和油酸一起結(jié)晶,得到所述結(jié)構(gòu)。圖19顯示油酸配體的空間充填帶狀結(jié)構(gòu)圖。圖20顯示1dkf(命名為gi7766906)序列和結(jié)構(gòu)1a28的鏈A(命名為1a28A)序列之間的STRUCTFAST配對(duì)(PIR格式)。總體上講,197個(gè)殘基和模板配對(duì),序列等同性只有19%。圖21顯示1dkf鏈A的預(yù)測(cè)結(jié)構(gòu)和晶體結(jié)構(gòu)之間的彩虹帶狀重疊圖。配對(duì)最佳的158個(gè)殘基(全部197個(gè)殘基的80%)的起始碳CRMS為1.6。圖22顯示形成油酸結(jié)合口袋的22個(gè)關(guān)鍵殘基的預(yù)測(cè)結(jié)構(gòu)(較暗)和晶體結(jié)構(gòu)(較亮)的重疊圖。在這些22個(gè)殘基中的骨架原子重疊至1.7,并且殘基中所有的重原子,包括側(cè)鏈原子,都重疊至2.2。
考慮雌激素受體,PDB代碼1a52的鏈A的三維結(jié)構(gòu)。蛋白作為和雌二醇的二聚體一起結(jié)晶,得到所述結(jié)構(gòu)。圖23顯示所述結(jié)構(gòu)的插入圖,其中雌二醇配體用空間填充格式顯示。圖24顯示根據(jù)本發(fā)明的方法,PIR格式下,雌激素受體(表示為gi3659931)序列和結(jié)構(gòu)1a28的鏈A(表示為1a28A)序列之間的配對(duì)??傮w上講,241個(gè)殘基和模板配對(duì),序列等同性為23%。圖25顯示雌激素受體的根據(jù)本發(fā)明的方法預(yù)測(cè)的結(jié)構(gòu)和1a52鏈A的晶體結(jié)構(gòu)之間的彩虹帶狀重疊圖。配對(duì)最佳的193個(gè)殘基(全部241個(gè)殘基的80%)的起始碳CRMS為1.9。圖26顯示形成雌二醇結(jié)合口袋的19個(gè)關(guān)鍵殘基的預(yù)測(cè)結(jié)構(gòu)(較暗)和晶體結(jié)構(gòu)(較亮)的重疊圖。在這些19個(gè)殘基中的骨架原子重疊至0.8,并且殘基中所有的重原子,包括側(cè)鏈原子,都重疊至1.8。
實(shí)施例8
實(shí)施例8說明本發(fā)明的方法和廣泛可獲得的同源性模擬數(shù)據(jù)包一道,可用來在低序列同源性的條件下預(yù)測(cè)細(xì)胞膜內(nèi)蛋白的準(zhǔn)確的三維結(jié)構(gòu)。
圖27顯示根據(jù)本發(fā)明的方法,在PIR格式下,嗜鹽菌視紫紅質(zhì)(halorhodopsin)序列(表示為1e12A)和細(xì)菌視紫紅質(zhì)序列(表示為1c3wA)之間的配對(duì)??傮w上講,233個(gè)殘基和模板配對(duì),序列等同性為32%。圖28顯示用圖27中的配對(duì)得到的三維結(jié)構(gòu)和嗜鹽菌視紫紅質(zhì)(PDB代碼1e12的鏈A)的晶體結(jié)構(gòu)相比較時(shí)獲得的彩虹帶狀重疊圖。配對(duì)最佳的187個(gè)殘基(全部233個(gè)殘基的80%)的起始碳CRMS為0.91。
圖29顯示根據(jù)本發(fā)明的方法,在PIR格式下,細(xì)菌視紫紅質(zhì)序列(表示為1c3wA)和視紫紅質(zhì)序列(rhodposin)(PDB結(jié)構(gòu)1f88的鏈A,表示為1f88A)之間的配對(duì)??傮w上講,214個(gè)殘基和模板配對(duì),序列等同性只有13%。圖30顯示用圖29中的配對(duì)得到的三維結(jié)構(gòu)和細(xì)菌視紫紅質(zhì)(PDB代碼1c3w的鏈A)的晶體結(jié)構(gòu)相比較時(shí)獲得的彩虹帶狀重疊圖。配對(duì)最佳的172個(gè)殘基(全部214個(gè)殘基的80%)的起始碳CRMS為5.24。
圖31顯示根據(jù)本發(fā)明的方法,在PIR格式下,光合成反應(yīng)中心的跨膜鏈序列(表示為6prcM)和光合成反應(yīng)中心的一條不同鏈的序列(PDB結(jié)構(gòu)6prc的鏈L,表示為6prcL)之間的配對(duì)??傮w上講,259個(gè)殘基和模板配對(duì),序列等同性為28%。圖32顯示用圖31中的配對(duì)得到的三維結(jié)構(gòu)和PDB代碼6prc的鏈M的晶體結(jié)構(gòu)相比較時(shí)獲得的彩虹帶狀重疊圖。配對(duì)最佳的207個(gè)殘基(全部259個(gè)殘基的80%)的起始碳CRMS為1.00。
圖33顯示根據(jù)本發(fā)明的方法,在PIR格式下,ompA序列(表示為1bxwA)和ompX序列(PDB結(jié)構(gòu)1qj8的鏈A,表示為1qj8A)之間的配對(duì)??傮w上講,153個(gè)殘基和模板配對(duì),序列等同性只有21%。圖34顯示用圖33中的配對(duì)得到的三維結(jié)構(gòu)和ompA(PDB代碼1bxw的鏈A)晶體結(jié)構(gòu)相比較時(shí)獲得的彩虹帶狀重疊圖。配對(duì)最佳的172個(gè)殘基(全部214個(gè)殘基的80%)(校有道理)的起始碳CRMS為2.59。
圖35顯示根據(jù)本發(fā)明的方法,在PIR格式下,ompK36序列(表示為1osmA)和膜孔蛋白2por序列之間的配對(duì)??傮w上講,323個(gè)殘基和模板配對(duì),序列等同性只有12%。圖36顯示用圖35中的配對(duì)得到的三維結(jié)構(gòu)和ompK36(PDB代碼1osm的鏈A)的晶體結(jié)構(gòu)相比較時(shí)獲得的彩虹帶狀重疊圖。配對(duì)最佳的259個(gè)殘基(全部323個(gè)殘基的80%)的起始碳CRMS為3.11。
圖37顯示根據(jù)本發(fā)明的方法,在PIR格式下,蔗糖特異性膜孔蛋白序列(表示為1a0tP)和麥芽糖膜孔蛋白序列(PDB結(jié)構(gòu)2mpr的鏈A,表示為2mprA)之間的配對(duì)??傮w上講,410個(gè)殘基和模板配對(duì),序列等同性為21%。圖38顯示用圖37中的配對(duì)得到的三維結(jié)構(gòu)和蔗糖特異性膜孔蛋白(PDB代碼1a0tP的鏈P)的晶體結(jié)構(gòu)相比較時(shí)獲得的彩虹帶狀重疊圖。配對(duì)最佳的328個(gè)殘基(全部410個(gè)殘基的80%)的起始碳CRMS為2.26。
雖然本發(fā)明已經(jīng)參考其特定的具體實(shí)施例而加以描述,但是對(duì)于本領(lǐng)域技術(shù)人員來說,可以對(duì)上述實(shí)施方案進(jìn)行做多種修改和改變,而不偏離本發(fā)明的精神和范圍。因此,本說明書只是通過實(shí)施例加以描述,而不是對(duì)本發(fā)明專利申請(qǐng)權(quán)利要求范圍的限制。
權(quán)利要求
1.一種確定待查序列和至少一個(gè)模板序列之間的優(yōu)選配對(duì)的方法,包括以下步驟
a.配對(duì)至少兩個(gè)參考序列以確定一個(gè)或多個(gè)BRIDGE/BULGE空隙;
b.在所述待查序列的可能配對(duì)和每個(gè)所述模板序列之間確定至少一個(gè)配對(duì)分?jǐn)?shù);其中每個(gè)所述配對(duì)分?jǐn)?shù)反映所述待查序列和每個(gè)所述模板序列之間的所述配對(duì)是否產(chǎn)生一個(gè)BRIDGE/BULGE空隙;以及
c.基于所述配對(duì)分?jǐn)?shù)確定所述待查序列和每個(gè)所述模板序列之間的優(yōu)選配對(duì)。
2.根據(jù)權(quán)利要求1所述的方法,其中所述優(yōu)選配對(duì)是最優(yōu)配對(duì)。
3.根據(jù)權(quán)利要求1所述的方法,其中所述步驟b包括以下步驟
a.為所述待查序列和每個(gè)所述模板序列形成一個(gè)序列配對(duì)相似性矩陣,矩陣元素為sij;以及
b.從每個(gè)所述序列配對(duì)相似性矩陣的動(dòng)態(tài)變換確定一個(gè)矩陣元素為Sij的序列配對(duì)和矩陣,其中每個(gè)所述和矩陣的所述矩陣元素反映任何可能的配對(duì)空隙是否產(chǎn)生BRIDGE/BULGE空隙,其中所述配對(duì)空隙可由所述待查序列和每個(gè)所述模板序列的配對(duì)而形成。
4.根據(jù)權(quán)利要求3所述的方法,其中所述步驟b包括以下步驟
a.依據(jù)如下方程Sij=sij+Max{Si+1,j+1,Si+1,j+2 to jmax-GAP,Si+2 to imax,j+2-GAP,Sm,n-BRIDGES/BULGE},從每個(gè)所述序列配對(duì)相似性矩陣的所述動(dòng)態(tài)變換,計(jì)算所述序列配對(duì)和矩陣,其中GAP表示所述待查序列和每個(gè)所述模板序列之間的配對(duì)空隙的空隙處罰,BRIDGES/BULGE表示一個(gè)已知橋或凸出的處罰,其中所述已知橋或凸出始于所述和矩陣的矩陣元素m,n,結(jié)束于所述和矩陣的矩陣元素i,j,并且Max{Si+1,j+1,Si+1,j+2 to jmax-GAP,Si+2 to imax,j+2-GAP,Sm,n-BRIDGES/BULGE}表示括號(hào)里四項(xiàng)之中的最大值。
5.一種確定待查序列和至少一個(gè)模板序列之間的優(yōu)選配對(duì)的方法,包括以下步驟
a.配對(duì)至少兩個(gè)參考序列以確定至少一個(gè)BRIDGE/BULGE空隙;
b.由所述待查序列和每個(gè)所述模板序列組成一個(gè)序列配對(duì)相似性矩陣;
c.從每個(gè)所述序列配對(duì)相似性矩陣的動(dòng)態(tài)變換確定一個(gè)序列配對(duì)和矩陣,其中每個(gè)所述和矩陣的矩陣元素反映任何可能的配對(duì)空隙是否產(chǎn)生BRIDGE/BULGE空隙,其中所述配對(duì)空隙可由所述待查序列和每個(gè)所述模板序列的配對(duì)而形成;以及
d.從每個(gè)所述和矩陣的所述動(dòng)態(tài)變換確定所述待查序列和每個(gè)所述模板序列之間的優(yōu)選配對(duì)。
6.根據(jù)權(quán)利要求5所述的方法,其中所述優(yōu)選配對(duì)是最優(yōu)配對(duì)。
7. 一種確定待查序列和至少一個(gè)模板序列之間的優(yōu)選配對(duì)的方法,包括以下步驟
a.配對(duì)至少兩個(gè)參考序列以確定至少一個(gè)BRIDGE/BULGE空隙;
b.為所述待查序列和每個(gè)所述模板序列計(jì)算矩陣元素為sij的序列配對(duì)相似性矩陣;
c.依據(jù)如下方程Sij=sij+Max{Si+1,j+1,Si+1,j+2 to jmax-GAP,Si+2 to imax,j+2-GAP,Sm,n-BRIDGES/BULGE},從每個(gè)所述序列配對(duì)相似性矩陣的動(dòng)態(tài)變換,計(jì)算矩陣元素為Sij的序列配對(duì)和矩陣,
其中GAP表示所述待查序列和每個(gè)所述模板序列之間的配對(duì)空隙的空隙處罰,BRIDGES/BULGE表示一個(gè)已知橋或凸出的處罰,其中所述已知橋或凸出始于所述和矩陣的矩陣元素m,n,結(jié)束于所述和矩陣的矩陣元素i,j,并且Max{Si+1,j+1,Si+1,j+2 to jmax-GAP,Si+2 to imax,j+2-GAP,Sm,n-BRIDGE/BULGE}表示括號(hào)里四項(xiàng)之中的最大值;以及
d.從所述和矩陣的所述動(dòng)態(tài)變換確定所述待查序列和每個(gè)所述模板序列之間的優(yōu)選配對(duì)。
8.根據(jù)權(quán)利要求7所述的方法,其中所述優(yōu)選配對(duì)是最優(yōu)配對(duì)。
9.一種確定至少一個(gè)待查序列和至少一個(gè)模板序列之間的優(yōu)選配對(duì)的方法,所述方法用于一級(jí)序列同源性模擬方法中,包括以下步驟
a.配對(duì)至少兩個(gè)參考序列以確定一個(gè)或多個(gè)BRIDGE/BULGE空隙;
b.確定每個(gè)所述待查序列和每個(gè)所述模板序列之間的可能配對(duì)的至少一個(gè)配對(duì)分?jǐn)?shù);其中每個(gè)所述配對(duì)分?jǐn)?shù)反映每個(gè)所述待查序列和每個(gè)所述模板序列之間的所述配對(duì)是否產(chǎn)生BRIDGE/BULGE空隙;以及
c.基于所述配對(duì)分?jǐn)?shù)確定每個(gè)所述待查序列和每個(gè)所述模板序列之間的優(yōu)選配對(duì),其中所述優(yōu)選配對(duì)含有約10%至約20%的同源殘基。
10.根據(jù)權(quán)利要求9所述的方法,其中所述優(yōu)選配對(duì)是最優(yōu)配對(duì)。
11.根據(jù)權(quán)利要求9所述的方法,其中所述一級(jí)序列同源性方法是一種確定所述待查序列的三維結(jié)構(gòu)的方法。
12.根據(jù)權(quán)利要求10所述的方法,其中所述一級(jí)序列同源性模擬方法是一種確定所述待查序列的三維結(jié)構(gòu)的方法。
13.根據(jù)權(quán)利要求9所述的方法,其中所述一級(jí)序列同源性模擬方法是一種確定至少兩個(gè)待查序列之間的一級(jí)序列同源性關(guān)系的方法。
14.根據(jù)權(quán)利要求10所述的方法,其中所述一級(jí)序列同源性模擬方法是一種確定至少兩個(gè)待查序列之間的序列同源性關(guān)系的方法。
15.一種確定至少一個(gè)待查序列和至少一個(gè)模板序列之間的優(yōu)選配對(duì)的方法,所述方法用于一級(jí)序列同源性模擬方法中,包括以下步驟
a.配對(duì)至少兩個(gè)參考序列以確定至少一個(gè)BRIDGE/BULGE空隙;
b.為每個(gè)所述待查序列和每個(gè)所述模板序列形成一個(gè)序列配對(duì)相似性矩陣;
c.從每個(gè)所述序列配對(duì)相似性矩陣的動(dòng)態(tài)變換確定一個(gè)序列配對(duì)和矩陣,其中每個(gè)所述和矩陣的矩陣元素反映任何可能的配對(duì)空隙是否產(chǎn)生BRIDGE/BULGE空隙,其中所述配對(duì)空隙可由每個(gè)所述待查序列和每個(gè)所述模板序列的配對(duì)而形成;以及
d.從每個(gè)所述和矩陣的所述動(dòng)態(tài)變換確定每個(gè)所述待查序列和每個(gè)所述模板序列之間的優(yōu)選配對(duì),其中所述優(yōu)選配對(duì)含有約10%至約20%的同源殘基。
16.根據(jù)權(quán)利要求15所述的方法,其中所述優(yōu)選配對(duì)是最優(yōu)配對(duì)。
17.根據(jù)權(quán)利要求15所述的方法,其中所述一級(jí)序列同源性方法是一種確定所述待查序列的三維結(jié)構(gòu)的方法。
18.根據(jù)權(quán)利要求16所述的方法,其中所述一級(jí)序列同源性模擬方法是一種確定所述待查序列的三維結(jié)構(gòu)的方法。
19.根據(jù)權(quán)利要求15所述的方法,其中所述一級(jí)序列同源性模擬方法是一種確定至少兩個(gè)待查序列之間的一級(jí)序列同源性關(guān)系的方法。
20.根據(jù)權(quán)利要求16所述的方法,其中所述一級(jí)序列同源性模擬方法是一種確定至少兩個(gè)待查序列之間的一級(jí)序列同源性關(guān)系的方法。
21.一種確定至少一個(gè)待查序列和至少一個(gè)模板序列之間的優(yōu)選配對(duì)的方法,所述方法用于一級(jí)序列同源性模擬方法中,包括以下步驟
a.配對(duì)至少兩個(gè)參考序列以確定至少一個(gè)BRIDGE/BULGE空隙;
b.為每個(gè)所述待查序列和每個(gè)所述模板序列計(jì)算矩陣元素為sij的序列配對(duì)相似性矩陣;
c.依據(jù)如下方程Sij=sij+Max{Si+1,j+1,Si+1,j+2 to jmax-GAP,Si+2 to imax,j+2-GAP,Sm,n-BRIDGE/BULGE},從每個(gè)所述序列配對(duì)相似性矩陣的動(dòng)態(tài)變換,計(jì)算矩陣元素為Sij的序列配對(duì)和矩陣,
其中GAP表示所述待查序列和每個(gè)所述模板序列之間的配對(duì)空隙的空隙處罰,BRIDGE/BULGE表示一個(gè)已知橋或凸出的處罰,其中所述已知橋或凸出始于所述和矩陣的矩陣元素m,n,結(jié)束于所述和矩陣的矩陣元素i,j,并且Max{Si+1,j+1,Si+1,j+2 to jmax-GAP,Si+2 to imax,j+2-GAP,Sm,n-BRIDGE/BULGE}表示括號(hào)里四項(xiàng)之中的最大值;以及
d.從所述和矩陣的動(dòng)態(tài)變換確定每個(gè)所述待查序列和每個(gè)所述模板序列之間的優(yōu)選配對(duì),其中所述優(yōu)選配對(duì)含有約10%至約20%的同源殘基。
22.根據(jù)權(quán)利要求21所述的方法,其中所述優(yōu)選配對(duì)是最優(yōu)配對(duì)。
23.根據(jù)權(quán)利要求21所述的方法,其中所述一級(jí)序列同源性模擬方法是一種確定所述待查序列的三維結(jié)構(gòu)的方法。
24.根據(jù)權(quán)利要求22所述的方法,其中所述一級(jí)序列同源性模擬方法是一種確定所述待查序列的三維結(jié)構(gòu)的方法。
25.根據(jù)權(quán)利要求21所述的方法,其中所述一級(jí)序列同源性模擬方法是一種確定至少兩個(gè)待查序列之間的一級(jí)序列同源性關(guān)系的方法。
26.根據(jù)權(quán)利要求22所述的方法,其中所述一級(jí)序列同源性模擬方法是一種確定至少兩個(gè)待查序列之間的一級(jí)序列同源性關(guān)系的方法。
27.一種基于對(duì)至少一個(gè)模板序列的一級(jí)序列同源性模擬來確定待查序列的三維結(jié)構(gòu)的方法,其中所述待查序列和所述模板序列之間的所述配對(duì)由根據(jù)權(quán)利要求2、權(quán)利要求6、權(quán)利要求8、權(quán)利要求12、權(quán)利要求20、和權(quán)利要求24所述的方法來確定。
28.一種基于對(duì)至少一個(gè)模板序列的一級(jí)序列同源性模擬來確定至少兩個(gè)待查序列之間的一級(jí)序列同源性關(guān)系的方法,其中所述待查序列和所述模板序列之間的所述配對(duì)由根據(jù)權(quán)利要求2、權(quán)利要求6、權(quán)利要求8、權(quán)利要求14、權(quán)利要求22、和權(quán)利要求26所述的方法來確定。
全文摘要
本發(fā)明的優(yōu)選具體實(shí)施例是一種確定在待查序列和一個(gè)或多個(gè)模板序列之間的優(yōu)選序列配對(duì)的方法,該方法包括以下步驟(1)配對(duì)至少兩個(gè)參考序列以確定一個(gè)或多個(gè)BRIDGE/BULGE空隙;(2)根據(jù)待查序列和每個(gè)模板序列之間的一給定的序列配對(duì)是否產(chǎn)生BRIDGE/BULGE空隙,來確定待查序列的每個(gè)可能的配對(duì)和每個(gè)模板序列之間的配對(duì)分?jǐn)?shù);和(3)基于待查序列和每個(gè)模板序列之間的配對(duì)分?jǐn)?shù)確定優(yōu)選的序列配對(duì)。
文檔編號(hào)G06F19/16GK1447862SQ0181446
公開日2003年10月8日 申請(qǐng)日期2001年7月12日 優(yōu)先權(quán)日2000年7月12日
發(fā)明者德里克·A·戴比 申請(qǐng)人:加州理工學(xué)院