專(zhuān)利名稱(chēng)::基于距離判定的蛋白質(zhì)復(fù)合物識(shí)別方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于系統(tǒng)生物學(xué)領(lǐng)域,尤其涉及蛋白質(zhì)復(fù)合物的識(shí)別。技術(shù)背景在后基因組時(shí)代,系統(tǒng)地分析和全面理解生物網(wǎng)絡(luò)拓?fù)浼凹?xì)胞內(nèi)的生物化學(xué)進(jìn)程成為一個(gè)非常重要的研究課題。細(xì)胞中的每個(gè)蛋白質(zhì)并不是獨(dú)立完成被賦予的功能,而是通過(guò)與其它蛋白質(zhì)相互作用形成大的復(fù)合物,在特定的時(shí)間和空間內(nèi)完成特定的功能,而且有些蛋白質(zhì)的功能只有在復(fù)合物形成后才能發(fā)揮出來(lái)。識(shí)別這些蛋白質(zhì)復(fù)合物對(duì)預(yù)測(cè)蛋白質(zhì)功能、解釋特定的生物進(jìn)程具有重要作用。目前,用于識(shí)別蛋白質(zhì)復(fù)合物的方法包括化學(xué)實(shí)驗(yàn)測(cè)定方法、基于進(jìn)化模型的物種比較方法、基于多信息集成的分析方法和基于蛋白質(zhì)相互作用信息的聚類(lèi)分析方法?;瘜W(xué)實(shí)驗(yàn)測(cè)定方法主要包括APMS(A伍nityPurificationtechniquesusingMassSpectrometry)、TAP(TandemAffinityPurification)、iTAP(TAP與RNAi)禾口HMS-PCI(High漏throughputMassSpectromicProteinComplexIdentification)等方法。通過(guò)化學(xué)實(shí)驗(yàn)可以準(zhǔn)確地測(cè)定某一環(huán)境下的蛋白質(zhì)復(fù)合物,特別是那些比較穩(wěn)定的復(fù)合物。但環(huán)境中仍存在一定數(shù)量的不穩(wěn)定復(fù)合物,復(fù)合物內(nèi)的蛋白質(zhì)之間的相互作用是瞬時(shí)的,動(dòng)態(tài)變化的,以實(shí)驗(yàn)為基礎(chǔ)的研究方法很難捕捉到這些蛋白質(zhì)復(fù)合物,而且實(shí)驗(yàn)成本十分昂貴?;谶M(jìn)化模型的物種比較方法依據(jù)不同物種間的同源信息及進(jìn)化過(guò)程中同一復(fù)合物內(nèi)的蛋白質(zhì)或集體保留或集體消失的機(jī)制,通過(guò)兩個(gè)或多個(gè)物種的比較分析識(shí)別那些在物種進(jìn)化過(guò)程中保守的蛋白質(zhì)復(fù)合物。這種基于進(jìn)化模型的物種比較方法在一定程度上提高了識(shí)別的蛋白質(zhì)復(fù)合物的可靠性,但該方法以蛋白質(zhì)的同源信息為基礎(chǔ),對(duì)兩個(gè)蛋白質(zhì)的同源程度本身的把握就是一個(gè)難題,基于同源去識(shí)別蛋白質(zhì)復(fù)合物就變得更加困難?;诙嘈畔⒓傻姆治龇椒▌t是依據(jù)已知數(shù)據(jù)庫(kù)中的蛋白質(zhì)功能注釋、蛋白質(zhì)結(jié)構(gòu)、基因表達(dá)、亞細(xì)胞定位、蛋白質(zhì)相互作用等信息在整個(gè)基因組規(guī)模上進(jìn)行研究。ZoltdnDezso等人基于假定mRNA共表達(dá)的一組蛋白質(zhì)可能調(diào)節(jié)相同功能的假說(shuō),通過(guò)分析mRNA共表達(dá)系數(shù)來(lái)識(shí)別蛋白質(zhì)復(fù)合物。雖然基因表達(dá)和蛋白質(zhì)相互作用之間的相互關(guān)系能夠揭示出這些數(shù)據(jù)內(nèi)部之間的總體趨勢(shì),但基因表達(dá)水平未必能夠真正代表蛋白質(zhì)豐度,特別是高通量方法產(chǎn)生的蛋白質(zhì)相互作用數(shù)據(jù)具有較高的假陽(yáng)性,蛋白質(zhì)相互作用信息和基因表達(dá)信息之間的關(guān)系非常復(fù)雜。目前,普遍的做法是基于蛋白質(zhì)相互作用信息進(jìn)行聚類(lèi)分析,將蛋白質(zhì)相互作用數(shù)據(jù)表示成一個(gè)無(wú)向圖,蛋白質(zhì)復(fù)合物對(duì)應(yīng)于其中的稠密子圖,應(yīng)用各種聚類(lèi)算法來(lái)識(shí)別這些稠密子圖(又稱(chēng)為"簇/Cluster",即蛋白質(zhì)復(fù)合物)。已經(jīng)提出的聚類(lèi)方法主要有SPC方法、MCODE方法,RNSC方法、LCMA方法、DPClus方法、CFinder方法和STM方法等。SPC(SuperParamagneticClustering)是一種層次聚類(lèi)法。SPC方法模擬鐵磁模型的物理特性,給每個(gè)蛋白質(zhì)設(shè)定"spin",每個(gè)spin可以存在多種狀態(tài)。對(duì)應(yīng)連接的兩個(gè)頂點(diǎn)的spins之間互相影響,spins處于相同狀態(tài)時(shí)系統(tǒng)的能量最低。同一個(gè)高連通簇內(nèi)的頂點(diǎn)對(duì)應(yīng)的spins以關(guān)聯(lián)的方式進(jìn)行浮動(dòng),可以通過(guò)識(shí)別關(guān)聯(lián)的spins來(lái)識(shí)別蛋白質(zhì)復(fù)合物。根據(jù)Broh6e和Helden在BMCBioinformatics上給出的評(píng)估結(jié)果,SPC方法的敏感度和健壯性都較弱。MCODE(MolecularComplexDetection)是一種基于密度的局部搜索方法。MCODE方法首先根據(jù)每個(gè)頂點(diǎn)對(duì)應(yīng)鄰居頂點(diǎn)的密度計(jì)算出所有頂點(diǎn)權(quán)重,并將權(quán)重最大的頂點(diǎn)作為種子,從種子頂點(diǎn)不斷地向外擴(kuò)展,擴(kuò)展的條件是被擴(kuò)展的頂點(diǎn)權(quán)重大于給定閾值。但是,由于權(quán)重大的頂點(diǎn)彼此之間的連接并不一定稠密,MCODE方法并不能保證得到的簇是稠密的,對(duì)于那些稀疏的子圖還需要進(jìn)一步處理。RNSC是一個(gè)基于成本的局部搜索方法。RNSC方法首先隨機(jī)地將蛋白質(zhì)相互作用網(wǎng)絡(luò)分為若干個(gè)獨(dú)立簇,定義一個(gè)成本函數(shù),然后不斷地將一個(gè)簇內(nèi)蛋白質(zhì)移至另一個(gè)簇來(lái)降低整體成本,直到這種移動(dòng)次數(shù)超過(guò)事先設(shè)定的閾值而沒(méi)有使整體成本下降。RNSC方法的缺陷在于結(jié)果質(zhì)量與方法開(kāi)始生成簇的質(zhì)量關(guān)系密切,此外每個(gè)蛋白質(zhì)只屬于一個(gè)簇與蛋白質(zhì)可能參與多個(gè)復(fù)合物的事實(shí)不符。LCMA是一個(gè)基于局部團(tuán)合并的方法。LCMA方法首先將每個(gè)蛋白質(zhì)頂點(diǎn)擴(kuò)充成為一個(gè)團(tuán),再根據(jù)這些團(tuán)之間的密切關(guān)系進(jìn)行合并。DPClus和MCODE類(lèi)似,也是一種基于密度的局部搜索方法。DPClus方法首先計(jì)算出可能的蛋白質(zhì)復(fù)合物種子,然后從種子頂點(diǎn)開(kāi)始不斷地向外擴(kuò)展,被擴(kuò)展的頂點(diǎn)需要滿(mǎn)足密度和簇性質(zhì)的要求。CFinder是一種基于團(tuán)滲透的方法,該方法將蛋白質(zhì)復(fù)合物對(duì)應(yīng)于圖中相互連通的若干k-團(tuán)的集合。由于CFinder需要枚舉網(wǎng)絡(luò)中的所有極大團(tuán),所以對(duì)于規(guī)模比較大的網(wǎng)絡(luò)其效率成為難以克服的瓶頸。STM是一種流方法,首先計(jì)算出網(wǎng)絡(luò)中任意兩個(gè)頂點(diǎn)之間的最短路徑,并在此基礎(chǔ)上計(jì)算出任意兩個(gè)頂點(diǎn)之間的信號(hào)傳導(dǎo)關(guān)系,然后為每個(gè)頂點(diǎn)選擇一個(gè)簇表達(dá),并在此基礎(chǔ)上進(jìn)行初步聚類(lèi),最后對(duì)這些初步獲得的簇進(jìn)行合并。在上述這些方法中,基于局部搜索和優(yōu)化的聚類(lèi)方法更適用于識(shí)別比較小的簇,而大多數(shù)蛋白質(zhì)復(fù)合物都比較小,規(guī)模為5至25不等?;诰植克阉骱蛢?yōu)化的聚類(lèi)方法的難點(diǎn)在于種子的選擇和擴(kuò)充條件的制定,特別是擴(kuò)充條件對(duì)產(chǎn)生蛋白質(zhì)復(fù)合物的質(zhì)量有很大的影響。
發(fā)明內(nèi)容本發(fā)明基于對(duì)已知復(fù)合物內(nèi)蛋白質(zhì)之間的最短距離一般不超過(guò)2的發(fā)現(xiàn),提出了一種基于距離判定的蛋白質(zhì)復(fù)合物識(shí)別方法(IPCA)。該方法不需要其它任何輔助信息,只根據(jù)蛋白質(zhì)相互作用數(shù)據(jù)就能夠較準(zhǔn)確地識(shí)別大量具有生物意義的蛋白質(zhì)復(fù)合物,解決了化學(xué)實(shí)驗(yàn)方法很難識(shí)別動(dòng)態(tài)蛋白質(zhì)復(fù)合物的難題,而且節(jié)約了成本,并且一次可以預(yù)測(cè)出大量的蛋白質(zhì)復(fù)合物。本發(fā)明的技術(shù)方案為建立蛋白質(zhì)相互作用無(wú)向圖輸入一組蛋白質(zhì)相互作用數(shù)據(jù),設(shè)置允許的蛋白質(zhì)頂點(diǎn)之間的最短距離的最大值A(chǔ)力,和一個(gè)大小在(o,i)之間的閾值r,",過(guò)濾重復(fù)的相互作用和自相互作用,建立無(wú)向計(jì)算頂點(diǎn)權(quán)重計(jì)算出網(wǎng)絡(luò)中每條邊的權(quán)重,邊權(quán)重定義為邊的兩個(gè)頂點(diǎn)的公共鄰居頂點(diǎn)個(gè)數(shù);然后,將每個(gè)頂點(diǎn)連接的邊的權(quán)重求和,計(jì)算出網(wǎng)絡(luò)中所有頂點(diǎn)的權(quán)重,并根據(jù)權(quán)重對(duì)這些頂點(diǎn)按從大到小進(jìn)行排序,放入一個(gè)候選種子隊(duì)列S,中;如果兩個(gè)頂點(diǎn)的權(quán)重相同,或頂點(diǎn)的權(quán)重為0,則根據(jù)頂點(diǎn)度對(duì)頂點(diǎn)進(jìn)行排序;選擇種子若所述候選種子隊(duì)列&不為空,將隊(duì)列^的首個(gè)頂點(diǎn),即權(quán)重最大的頂點(diǎn)作為種子,并初始化為一個(gè)簇,將該種子作為識(shí)別的蛋白質(zhì)復(fù)合物的初始狀態(tài)進(jìn)行擴(kuò)充;每擴(kuò)充完一個(gè)簇,隊(duì)列&中對(duì)應(yīng)的該簇內(nèi)的頂點(diǎn)被刪除;隊(duì)列&為空時(shí),整個(gè)識(shí)別過(guò)程結(jié)束;擴(kuò)充簇根據(jù)簇的所有鄰居頂點(diǎn)對(duì)簇進(jìn)行擴(kuò)充;所述簇的鄰居頂點(diǎn)指與簇內(nèi)的頂點(diǎn)有直接相互作用且不在簇內(nèi)的頂點(diǎn);簇的每個(gè)鄰居頂點(diǎn)都擁有一個(gè)被擴(kuò)充的優(yōu)先權(quán),由該頂點(diǎn)與簇內(nèi)頂點(diǎn)連接的邊數(shù)以及邊的權(quán)重之和決定;首先考慮優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選的擴(kuò)充頂點(diǎn),候選的擴(kuò)充頂點(diǎn)是否會(huì)被擴(kuò)充需要調(diào)用擴(kuò)充判斷子過(guò)程對(duì)其進(jìn)行判斷,符合擴(kuò)充條件的候選擴(kuò)充頂點(diǎn)才能被加入簇;一旦有一個(gè)新的候選擴(kuò)充頂點(diǎn)被加入簇,簇的鄰居頂點(diǎn)就進(jìn)行更新,并重新計(jì)算其優(yōu)先權(quán);擴(kuò)充判斷判斷一個(gè)候選的擴(kuò)充頂點(diǎn)是否符合兩個(gè)條件1)SiYv,wj^A力,"ECV2)/iVv》7;,若符合就將其加入該簇,并調(diào)用擴(kuò)充簇子過(guò)程對(duì)其作進(jìn)一步的擴(kuò)充;若不符合,且所有的鄰居頂點(diǎn)都己作過(guò)候選擴(kuò)充頂點(diǎn)被考察過(guò),則對(duì)該簇的擴(kuò)充結(jié)束;若仍存在未被考察的鄰居頂點(diǎn),則將下一個(gè)優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選擴(kuò)充頂點(diǎn);所述5P(v,w)表示蛋白質(zhì)頂點(diǎn)v和蛋白質(zhì)頂點(diǎn)"之間的最短距離,C表示蛋白質(zhì)復(fù)合物內(nèi)的蛋白質(zhì)頂點(diǎn)集;4越大,識(shí)別的蛋白質(zhì)復(fù)合物越稠密;所述/iV《是指某個(gè)蛋白質(zhì)頂點(diǎn)v與蛋白質(zhì)復(fù)合物之間的作用概率,定義為-<formula>formulaseeoriginaldocumentpage6</formula>式(1)中^d表示蛋白質(zhì)復(fù)合物內(nèi)部蛋白質(zhì)頂點(diǎn)的數(shù)量,l&d表示蛋白質(zhì)頂點(diǎn)V與蛋白質(zhì)復(fù)合物之間作用邊的條數(shù)。本發(fā)明的方法對(duì)蛋白質(zhì)相互作用大規(guī)模數(shù)據(jù)中普遍存在的比例較高的假陽(yáng)性和假陰性具有很好的健壯性,能夠在蛋白質(zhì)相互作用數(shù)據(jù)還不完善且具有較高噪聲的情況下有效地識(shí)別蛋白質(zhì)復(fù)合物,為生物學(xué)家進(jìn)行蛋白質(zhì)復(fù)合物識(shí)別的實(shí)驗(yàn)和進(jìn)一步研究提供有價(jià)值的參考信息。圖l:兩個(gè)直徑小于等于2的拓?fù)浣Y(jié)構(gòu)圖;圖2:本發(fā)明IPCA的流程圖;圖3:不同匹配閾值下IPCA從酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)和隨機(jī)網(wǎng)絡(luò)中標(biāo)識(shí)出已知復(fù)合物數(shù)量比較圖;圖4:IPCA的健壯性分析,其在隨機(jī)增加一定比例的邊后識(shí)別的蛋白質(zhì)復(fù)合物與已知蛋白質(zhì)復(fù)合物匹配結(jié)果比較圖(隨機(jī)增加邊的比例從10°/。到100%,按10個(gè)百分點(diǎn)間隔);圖5:IPCA的健壯性分析,其在隨機(jī)刪除一定比例的邊后識(shí)別的蛋白質(zhì)復(fù)合物與已知蛋白質(zhì)復(fù)合物匹配結(jié)果比較圖(隨機(jī)刪除邊的比例從10%到90%,按10個(gè)百分點(diǎn)間隔)。具體實(shí)施方式一、統(tǒng)計(jì)分析己知蛋白質(zhì)復(fù)合物的拓?fù)涮卣髂壳把芯孔顬閺V泛的物種是酵母,而且已經(jīng)具有一定數(shù)量的通過(guò)實(shí)驗(yàn)手段測(cè)定的酵母蛋白質(zhì)復(fù)合物。本發(fā)明從MIPS(MunichInformationcenterforProteinSequences)數(shù)據(jù)庫(kù)下載得到已知的酵母蛋白質(zhì)復(fù)合物和酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)。將相互作用數(shù)據(jù)去除自相互作用和冗余的相互作用,最終形成的蛋白質(zhì)相互作用網(wǎng)絡(luò)包括4546個(gè)酵母蛋白質(zhì)和12319對(duì)相互作用。整個(gè)網(wǎng)絡(luò)的平均聚集系數(shù)為0.4,網(wǎng)絡(luò)直徑為13,特征路徑長(zhǎng)度(即網(wǎng)絡(luò)內(nèi)任意兩個(gè)頂點(diǎn)之間的最短路徑長(zhǎng)度的平均值)為4.42。蛋白質(zhì)復(fù)合物數(shù)據(jù)集去除只有一個(gè)蛋白質(zhì)的復(fù)合物后共有216個(gè),最小的復(fù)合物包括2個(gè)蛋白質(zhì),最大的復(fù)合物包括81個(gè)蛋白質(zhì),平均每個(gè)復(fù)合物包括6.31個(gè)蛋白質(zhì)。216個(gè)復(fù)合物中共有118個(gè)是連通的,98個(gè)非連通,對(duì)連通的復(fù)合物和非連通的復(fù)合物內(nèi)的連通部分分析其直徑和蛋白質(zhì)間的平均最短路徑長(zhǎng)度的結(jié)果如表1所示。表1酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)中復(fù)合物的直徑和復(fù)合物內(nèi)蛋白質(zhì)間的平均最短路徑長(zhǎng)度<table>tableseeoriginaldocumentpage7</column></row><table>從表1可以看出,連通的復(fù)合物的直徑和非連通復(fù)合物的連通部分的直徑都遠(yuǎn)小于其所在的網(wǎng)絡(luò)的直徑。在118個(gè)連通的復(fù)合物中直徑小于等于2的占94.91%,蛋白質(zhì)間的平均最短路徑長(zhǎng)度小于等于2的占99.15%。98個(gè)非連通的復(fù)合物的連通部分直徑小于等于2的占82.66%,平均最短路徑長(zhǎng)度全部小于2.5,其中小于等于2的占93.88%。分析的結(jié)果表明復(fù)合物中的蛋白質(zhì)頂點(diǎn)之間的距離具有顯著的統(tǒng)計(jì)特性,他們之間的距離一般不超過(guò)2。所以,本發(fā)明認(rèn)為距離可以作為蛋白質(zhì)復(fù)合物識(shí)別過(guò)程中一個(gè)非常重要的參數(shù)。二、識(shí)別蛋白質(zhì)復(fù)合物的種子-擴(kuò)充模型(IPCA)由于具有相同直徑或平均最短路徑長(zhǎng)度的圖的稠密程度可能相差比較大。如圖1所示的兩個(gè)直徑小于等于2的圖的拓?fù)浣Y(jié)構(gòu)就相差甚遠(yuǎn)。所以,本發(fā)明以作用概率/A/vc來(lái)進(jìn)一步控制識(shí)別的蛋白質(zhì)復(fù)合物的稠密程度。在擴(kuò)充過(guò)程中,某個(gè)蛋白質(zhì)頂點(diǎn)v與蛋白質(zhì)復(fù)合物(Cluster)之間的作用概率/A^定義為其中,|&|表示蛋白質(zhì)復(fù)合物內(nèi)部蛋白質(zhì)頂點(diǎn)的數(shù)量,l&d表示蛋白質(zhì)頂點(diǎn)v與蛋白質(zhì)復(fù)合物之間作用邊的條數(shù)。用于識(shí)別蛋白質(zhì)復(fù)合物的種子擴(kuò)充模型定義如下給定一個(gè)蛋白質(zhì)頂點(diǎn)V與一個(gè)蛋白質(zhì)復(fù)合物,蛋白質(zhì)頂點(diǎn)V若屬于該蛋白質(zhì)復(fù)合物則必須滿(mǎn)足如下兩個(gè)條件A",WGC;2)/M^r,"。其中,S尸(V,")表示蛋白質(zhì)頂點(diǎn)V和蛋白質(zhì)頂點(diǎn)W之間的最短距離,C表示蛋白質(zhì)復(fù)合物內(nèi)的蛋白質(zhì)頂點(diǎn)集,A。為允許的蛋白質(zhì)頂點(diǎn)之間的最短距離的最大值,7^是給定的一個(gè)大小在(0,1)之間的閾值,7;越大,識(shí)別的蛋白質(zhì)復(fù)合物越稠密?;诰嚯x判定的蛋白質(zhì)復(fù)合物識(shí)別方法IPCA的整個(gè)流程如圖2所示。先輸入一組蛋白質(zhì)相互作用數(shù)據(jù)。用戶(hù)可以自己設(shè)置輸入?yún)?shù)A"和4的值?;诒景l(fā)明對(duì)己知蛋白質(zhì)復(fù)合物拓?fù)涞慕y(tǒng)計(jì)分析,本發(fā)明將參數(shù)An的默認(rèn)值設(shè)置為2。方法IPCA可以劃分為4個(gè)子過(guò)程計(jì)算頂點(diǎn)權(quán)重、選擇種子、擴(kuò)充簇和擴(kuò)充判斷。子過(guò)程l:計(jì)算頂點(diǎn)權(quán)重。方法IPCA首先計(jì)算出網(wǎng)絡(luò)中每條邊的權(quán)重,邊權(quán)重定義為邊的兩個(gè)頂點(diǎn)的公共鄰居頂點(diǎn)個(gè)數(shù)。然后,將每個(gè)頂點(diǎn)連接的邊的權(quán)重求和,計(jì)算出網(wǎng)絡(luò)中所有頂點(diǎn)的權(quán)重,并根據(jù)權(quán)重對(duì)這些頂點(diǎn)進(jìn)行排序,放入一個(gè)候選種子隊(duì)列&中。如果兩個(gè)頂點(diǎn)的權(quán)重相同,或頂點(diǎn)的權(quán)重為O,則根據(jù)頂點(diǎn)度對(duì)頂點(diǎn)進(jìn)行排序。計(jì)算出所有邊的權(quán)重的時(shí)間復(fù)雜度為o(iw問(wèn)),計(jì)算出所有頂點(diǎn)的權(quán)重,并將其按權(quán)重大小放入候選種子隊(duì)列&的時(shí)間復(fù)雜度為0(|W/ogW)。子過(guò)程2:選擇種子。若候選種子隊(duì)列&不為空,將隊(duì)列&的首個(gè)頂點(diǎn),即權(quán)重最大的頂點(diǎn),作為種子,并將該種子作為識(shí)別的蛋白質(zhì)復(fù)合物(稱(chēng)為"簇")的初始狀態(tài)進(jìn)行擴(kuò)充。候選種子隊(duì)列^的初始狀態(tài)為按權(quán)重從大到小排列的整個(gè)網(wǎng)絡(luò)圖中的所有頂點(diǎn),每擴(kuò)充完一個(gè)簇,隊(duì)列^中對(duì)應(yīng)的該簇內(nèi)的頂點(diǎn)被刪除。隊(duì)列&為空時(shí),整個(gè)識(shí)別過(guò)程結(jié)束。子過(guò)程3:擴(kuò)充簇。對(duì)簇進(jìn)行擴(kuò)充需要考慮簇的所有鄰居頂點(diǎn)。簇的鄰居頂點(diǎn)是指那些與簇內(nèi)的頂點(diǎn)有直接相互作用且不在簇內(nèi)的頂點(diǎn)。簇的每個(gè)鄰居頂點(diǎn)都擁有一個(gè)被擴(kuò)充的優(yōu)先權(quán),由該頂點(diǎn)與簇內(nèi)頂點(diǎn)連接的邊數(shù)以及這些邊的權(quán)重之和決定,連接的邊數(shù)越多,權(quán)重和越大,優(yōu)先權(quán)越高。進(jìn)行簇?cái)U(kuò)充時(shí),首先考慮優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選的擴(kuò)充頂點(diǎn)。候選的擴(kuò)充頂點(diǎn)是否會(huì)被擴(kuò)充需要調(diào)用擴(kuò)充判斷子過(guò)程對(duì)其進(jìn)行判斷,符合擴(kuò)充條件的候選擴(kuò)充頂點(diǎn)才能被加入簇。一旦有一個(gè)新的候選擴(kuò)充頂點(diǎn)被加入簇,簇的鄰居頂點(diǎn)就進(jìn)行更新,并重新計(jì)算其優(yōu)先權(quán)。從簇的鄰居頂點(diǎn)產(chǎn)生候選擴(kuò)充頂點(diǎn)的時(shí)間復(fù)雜度為0(|^||K—wl+IK—wllog|rLwll),其中l(wèi)^為簇內(nèi)的頂點(diǎn)個(gè)數(shù),IKjvl為簇的鄰居頂點(diǎn)個(gè)數(shù)。實(shí)際上,當(dāng)一個(gè)新的候選頂點(diǎn)被加入簇后,簇的鄰居頂點(diǎn)及其優(yōu)先權(quán)只需根據(jù)該頂點(diǎn)被加入簇引起的變化進(jìn)行更新。簇的鄰居頂點(diǎn)更新的次數(shù)取決于該簇?cái)U(kuò)充終止時(shí)的規(guī)模。子過(guò)程4:擴(kuò)充判斷。一個(gè)候選的擴(kuò)充頂點(diǎn)是否被擴(kuò)充需要判斷其是否符合種子-擴(kuò)充模型中的兩個(gè)判斷條件,若符合就將其加入該簇,并調(diào)用擴(kuò)充簇子過(guò)程對(duì)其作進(jìn)一步的擴(kuò)充;若不符合,且所有的鄰居頂點(diǎn)都已作過(guò)候選擴(kuò)充頂點(diǎn)被考察過(guò),則對(duì)該簇的擴(kuò)充結(jié)束,若仍存在未被考察的鄰居頂點(diǎn),則將下一個(gè)優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選擴(kuò)充頂點(diǎn)。判斷一個(gè)候選擴(kuò)充頂點(diǎn)是否滿(mǎn)足被擴(kuò)充條件的時(shí)間復(fù)雜度為0(|^|2)。為了驗(yàn)證方法IPCA的有效性,我們將方法IPCA應(yīng)用于MIPS數(shù)據(jù)庫(kù)中的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)和計(jì)算機(jī)生成的與該酵母網(wǎng)絡(luò)具有相同度分布的隨機(jī)網(wǎng)絡(luò)。首先,我們將參數(shù)A"設(shè)置為2,參數(shù)r,"設(shè)置從O.l到0.9,按0.1的間隔遞增,將方法IPCA分別應(yīng)用于酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)和隨機(jī)網(wǎng)絡(luò),并將識(shí)別的復(fù)合物與已知數(shù)據(jù)庫(kù)中通過(guò)實(shí)驗(yàn)獲得的標(biāo)準(zhǔn)數(shù)據(jù)進(jìn)行比較分析。識(shí)別出來(lái)的復(fù)合物(Pc)與已知復(fù)合物(i^)的匹配程度OS(Pc,Kc)的計(jì)算如下141X1^1(2)其中l(wèi)&l和Fd分別表示識(shí)別復(fù)合物和己知復(fù)合物的規(guī)模,z'表示他們交集的規(guī)模。若兩個(gè)復(fù)合物的匹配程度OS(PC。超過(guò)給定的閾值,則稱(chēng)這兩個(gè)復(fù)合物匹配。對(duì)于標(biāo)準(zhǔn)復(fù)合物數(shù)據(jù)集中的已知復(fù)合物,如果存在一個(gè)或多個(gè)算法識(shí)別出來(lái)的復(fù)合物與之匹配程度OS(戶(hù)c人c)超過(guò)給定閾值,則稱(chēng)該已知復(fù)合物被標(biāo)識(shí),如果OS(尸c,尺c"l,則稱(chēng)該已知復(fù)合物被完全標(biāo)識(shí)。表2給出了不同匹配閾值下已知復(fù)合物被方法IPCA和其他方法標(biāo)識(shí)出來(lái)的數(shù)量。表2不同匹配閾值下已知復(fù)合物被方法IPCA和其他方法標(biāo)識(shí)出來(lái)的數(shù)量<table>tableseeoriginaldocumentpage10</column></row><table>從表2可以看出,在不同匹配閾值下,方法IPCA標(biāo)識(shí)出來(lái)的己知復(fù)合物的數(shù)量都高于方法DPClus、CFinder、LCMA、MCODE、RNSC和STM標(biāo)識(shí)出來(lái)的已知復(fù)合物的數(shù)量。圖3描述了不同匹配閾值下方法IPCA從酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)和對(duì)應(yīng)的隨機(jī)網(wǎng)絡(luò)中標(biāo)識(shí)出來(lái)的已知復(fù)合物數(shù)量。從圖3可以看出,方法IPCA在酵母網(wǎng)絡(luò)中標(biāo)識(shí)出大量的已知復(fù)合物,但在隨機(jī)網(wǎng)絡(luò)中幾乎沒(méi)有已知復(fù)合物被標(biāo)識(shí)出。這說(shuō)明,方法IPCA識(shí)別的蛋白質(zhì)復(fù)合物具有很強(qiáng)的生物意義。由于目前所能獲得的蛋白質(zhì)相互作用數(shù)據(jù)都不可避免地具有較高的假陽(yáng)性和假陰性,好的蛋白質(zhì)復(fù)合物識(shí)別方法應(yīng)該具有很好的健壯性。我們用隨機(jī)增加和刪除一定比例的邊來(lái)模擬蛋白質(zhì)相互作用網(wǎng)絡(luò)的假陽(yáng)性和假陰性。隨機(jī)增加邊的比例從10%到100%,按10個(gè)百分點(diǎn)間隔,產(chǎn)生了10組數(shù)據(jù),從這些高假陽(yáng)性的數(shù)據(jù)中進(jìn)行蛋白質(zhì)復(fù)合物識(shí)別,并將識(shí)別出來(lái)的結(jié)果與已知蛋白質(zhì)復(fù)合物進(jìn)行匹配,匹配的結(jié)果如圖4所示。從圖4可以看出,隨著假陽(yáng)性的增強(qiáng),方法IPCA能夠標(biāo)識(shí)出來(lái)的已知蛋白質(zhì)復(fù)合物數(shù)量幾乎沒(méi)有下降多少,說(shuō)明其具有相當(dāng)高的抗噪能力。隨機(jī)刪除邊的比例從10%到90%,也按10個(gè)百分點(diǎn)間隔,重復(fù)上面的工作,匹配結(jié)果如圖5所示。從圖5可以看出,只要?jiǎng)h除邊的比例小于50%,方法IPCA能夠標(biāo)識(shí)出來(lái)的己知蛋白質(zhì)復(fù)合物數(shù)量下降的很少。當(dāng)刪除邊的比例大于50%時(shí),標(biāo)識(shí)出的數(shù)量開(kāi)始下降。當(dāng)刪除邊的比例大于80%時(shí),標(biāo)識(shí)出的數(shù)量有了十分明顯的下降。隨機(jī)增加和刪除一定比例邊的模擬實(shí)驗(yàn)充分說(shuō)明了方法IPCA對(duì)蛋白質(zhì)相互作用網(wǎng)絡(luò)的假陽(yáng)性和假陰性都具有相當(dāng)高的健壯性。權(quán)利要求1.一種基于距離判定的蛋白質(zhì)復(fù)合物識(shí)別方法,其特征在于包括以下步驟(1)建立蛋白質(zhì)相互作用無(wú)向圖輸入一組蛋白質(zhì)相互作用數(shù)據(jù),設(shè)置允許的蛋白質(zhì)頂點(diǎn)之間的最短距離的最大值Din,和一個(gè)大小在(0,1)之間的閾值Tin,過(guò)濾重復(fù)的相互作用和自相互作用,建立無(wú)向圖;(2)計(jì)算出網(wǎng)絡(luò)中每條邊的權(quán)重,邊權(quán)重定義為邊的兩個(gè)頂點(diǎn)的公共鄰居頂點(diǎn)個(gè)數(shù)。然后,將每個(gè)頂點(diǎn)連接的邊的權(quán)重求和,計(jì)算出網(wǎng)絡(luò)中所有頂點(diǎn)的權(quán)重,并根據(jù)權(quán)重對(duì)這些頂點(diǎn)按從大到小進(jìn)行排序,放入一個(gè)候選種子隊(duì)列Sq中;如果兩個(gè)頂點(diǎn)的權(quán)重相同,或頂點(diǎn)的權(quán)重為0,則根據(jù)頂點(diǎn)度對(duì)頂點(diǎn)進(jìn)行排序;(3)選擇種子若所述候選種子隊(duì)列Sq不為空,將隊(duì)列Sq的首個(gè)頂點(diǎn),即權(quán)重最大的頂點(diǎn)作為種子,并初始化為一個(gè)簇,將該種子作為識(shí)別的蛋白質(zhì)復(fù)合物的初始狀態(tài)進(jìn)行擴(kuò)充;每擴(kuò)充完一個(gè)簇,隊(duì)列Sq中對(duì)應(yīng)的該簇內(nèi)的頂點(diǎn)被刪除;隊(duì)列Sq為空時(shí),整個(gè)識(shí)別過(guò)程結(jié)束;(4)擴(kuò)充簇的過(guò)程為根據(jù)簇的所有鄰居頂點(diǎn)對(duì)簇進(jìn)行擴(kuò)充;所述簇的鄰居頂點(diǎn)指與簇內(nèi)的頂點(diǎn)有直接相互作用且不在簇內(nèi)的頂點(diǎn);簇的每個(gè)鄰居頂點(diǎn)都擁有一個(gè)被擴(kuò)充的優(yōu)先權(quán),由該頂點(diǎn)與簇內(nèi)頂點(diǎn)連接的邊數(shù)以及邊的權(quán)重之和決定;首先考慮優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選的擴(kuò)充頂點(diǎn),候選的擴(kuò)充頂點(diǎn)是否會(huì)被擴(kuò)充需要調(diào)用擴(kuò)充判斷子過(guò)程對(duì)其進(jìn)行判斷,符合擴(kuò)充條件的候選擴(kuò)充頂點(diǎn)才能被加入簇;一旦有一個(gè)新的候選擴(kuò)充頂點(diǎn)被加入簇,簇的鄰居頂點(diǎn)就進(jìn)行更新,并重新計(jì)算其優(yōu)先權(quán);(5)所述擴(kuò)充判斷的過(guò)程為判斷一個(gè)候選的擴(kuò)充頂點(diǎn)是否符合兩個(gè)條件1)SP(v,u)≤Din,u∈C;2)INvC≥Tin,若符合就將其加入該簇,并調(diào)用擴(kuò)充簇子過(guò)程對(duì)其作進(jìn)一步的擴(kuò)充;若不符合,且所有的鄰居頂點(diǎn)都已作過(guò)候選擴(kuò)充頂點(diǎn)被考察過(guò),則對(duì)該簇的擴(kuò)充結(jié)束;若仍存在未被考察的鄰居頂點(diǎn),則將下一個(gè)優(yōu)先權(quán)最高的鄰居頂點(diǎn)作為候選擴(kuò)充頂點(diǎn);所述SP(v,u)表示蛋白質(zhì)頂點(diǎn)v和蛋白質(zhì)頂點(diǎn)u之間的最短距離,C表示蛋白質(zhì)復(fù)合物內(nèi)的蛋白質(zhì)頂點(diǎn)集;Tin越大,識(shí)別的蛋白質(zhì)復(fù)合物越稠密;所述INvC是指某個(gè)蛋白質(zhì)頂點(diǎn)v與蛋白質(zhì)復(fù)合物之間的作用概率。全文摘要本發(fā)明公開(kāi)了一種基于距離判定的蛋白質(zhì)復(fù)合物識(shí)別方法,基于對(duì)已知蛋白質(zhì)復(fù)合物中蛋白質(zhì)頂點(diǎn)之間的最短距離一般不超過(guò)2的發(fā)現(xiàn),將蛋白質(zhì)頂點(diǎn)之間的最短距離作為蛋白質(zhì)復(fù)合物識(shí)別的一個(gè)重要參數(shù),并利用蛋白質(zhì)頂點(diǎn)與蛋白質(zhì)復(fù)合物之間的作用概率來(lái)控制識(shí)別的蛋白質(zhì)復(fù)合物的稠密程度。本發(fā)明實(shí)現(xiàn)簡(jiǎn)單,能夠通過(guò)蛋白質(zhì)相互作用網(wǎng)絡(luò)識(shí)別大量已知的具有生物意義的蛋白質(zhì)復(fù)合物,對(duì)蛋白質(zhì)相互作用大規(guī)模數(shù)據(jù)中普遍存在的比例較高的假陽(yáng)性和假陰性具有很好的健壯性,有效地解決了化學(xué)實(shí)驗(yàn)成本昂貴,單次識(shí)別數(shù)量少以及很難識(shí)別動(dòng)態(tài)復(fù)合物的生物學(xué)難題。文檔編號(hào)G06F19/00GK101246520SQ20081003083公開(kāi)日2008年8月20日申請(qǐng)日期2008年3月18日優(yōu)先權(quán)日2008年3月18日發(fā)明者敏李,王建新申請(qǐng)人:中南大學(xué)