亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于圖模型的蛋白質復合物識別方法與流程

文檔序號:12467390閱讀:373來源:國知局
一種基于圖模型的蛋白質復合物識別方法與流程

本發(fā)明涉及一種蛋白質復合物識別方法,尤其涉及一種基于H-index圖模型的蛋白質復合物識別算法HPCMiner(H-index based Protein complex Miner),將圖模型H-index看作蛋白質復合物的核,通過考察擴展該圖模型的一階鄰居結點識別蛋白質復合物。



背景技術:

在后基因時代,系統(tǒng)分析蛋白質互作網(wǎng)絡拓撲結構,從蛋白質網(wǎng)絡中識別蛋白質復合物,對預測蛋白質功能、解釋特定的生物進程具有重要作用。同時,蛋白質復合物識別也為研究蛋白質互作網(wǎng)絡提供了一種研究途徑。蛋白質網(wǎng)絡可以用圖模型表達,其中結點是蛋白質,邊代表蛋白質之間的相互作用。這樣的圖模型為理解復雜的生物系統(tǒng)提供了一個新的視角。

雖然可以對蛋白紙互作網(wǎng)絡利用圖模型的表達方法做研究,但是目前對蛋白質互作網(wǎng)絡上的蛋白質復合物或蛋白質模塊的識別,還停留在蛋白質復合物在圖模型里呈現(xiàn)的是一個密集的蛋白質簇這樣一個概念。目前對蛋白質復合物在相互作用網(wǎng)絡中對應的子圖模型還沒有嚴格的數(shù)學表述和統(tǒng)一的定義。所以,很多研究者將蛋白質復合物識別問題轉化為稠密子圖的求解問題。

為了在蛋白質網(wǎng)絡中發(fā)現(xiàn)這些重要且有生物意義的稠密子圖,Sprin和Mimy(Spirin V and Mimy LA.Protein complexes and functional modules in molecular networks.Proc Natl Acad Sci USA,100(21):12123-12128,2003.)通過挖掘蛋白質中ds=1(dense subgraph,ds)的全連通圖(極大團)來識別蛋白質復合物。然而,由于目前能夠獲得的蛋白質相互作用還不完全,僅通過挖掘全連通圖來識別蛋白質復合物存在很大的局限性。最近,有很多蛋白質復合物識別方法,Bader和Hogue(Bader G.and Hogue C.An automated method for finding molecular complexes in large protein interaction networks.BMC Bioinformatics,4:2,1.)提出的MCODE(Molcular Complex Detection)算法,算法以蛋白質互作網(wǎng)絡為輸入,通過尋找稠密的蛋白質簇發(fā)現(xiàn)蛋白質復合物。MCODE算法可以大致分為三個階段:第一階段利用基于網(wǎng)絡密度的方式計算網(wǎng)絡結點的權重;根據(jù)已經(jīng)計算完畢網(wǎng)絡中結點的權重,從權重較大的結點開始利用貪婪搜索的方式擴展一個區(qū)域作為尋找到的蛋白質復合物;最后通過定義好的條件過濾掉不符合條件的復合物,但是該算法不能保證預測到的蛋白質復合物之間連接緊密。Enright等(Enright A.et al.An effcient algorithm for large-scale detection of protein families.Nucleic Acids Res,30:1575-1584,2002.)提出的MCL(Markov Cluster Algorithm)發(fā)現(xiàn)蛋白質互作網(wǎng)絡上稠密的簇,通過模擬隨機流的方式分析網(wǎng)絡結點的分布情況,模擬隨機游走的反復迭代在蛋白質互作網(wǎng)絡上游走。網(wǎng)絡可以看成是引導游走的路徑的集合。經(jīng)過足夠的次數(shù)的迭代游走之后,游走者如果進入一個稠密的連接區(qū)域,就會有很小的概率走出來。該算法利用一個膨脹系數(shù)將高密度連接區(qū)域與低密度鏈接區(qū)域分開,但是膨脹系數(shù)會影響算法尋找到的蛋白質簇的結構,膨脹系數(shù)越大簇的數(shù)量越大。Rungarityotin等(Rungsarityotin W.et al.Identifying protein complexes directly from high-throughput tap data with markov random fields.BMC Bioinformatics,8:482.2007.)提出一個新的基于馬爾科夫隨機域MRF(Markov Random Feilds)的蛋白質復合物識別算法,MRF應用概率模型確定蛋白質互作網(wǎng)絡上假陰性和假陽性的結點的質量,定義每個蛋白質的質量分數(shù)由其周圍的鄰居決定,根據(jù)已經(jīng)確定的蛋白質的質量分數(shù)尋找蛋白質復合物。King等(King AD,Przulj N,and Jurisica I.Protein complex prediction via cost-based clustering.Bioinformatics,20(17):3013-20,2004.)提出的RNSC(the Restricted Search Clustering)盡力發(fā)現(xiàn)蛋白質復合物通過把網(wǎng)絡中的定點集劃分為不同的簇。RNSC算法開始隨機指定一個簇類,然后不斷地對這些定點集進行再劃分使得劃分分數(shù)達到最大值,最后根據(jù)劃分的網(wǎng)絡子集,即功能模塊的最小、密度以及功能同源性,對這些功能模塊進行過濾。Palla等(Palla G,Derényi I,F(xiàn)arkas I,and Vicsek T.Uncovering the overlapping community structure of complex networks in nature and society.Nature,435(7043):814-818,2005.)提出基于圖論的計算方法CPM,是一種基于團滲透的算法,通過挖掘圖中相互連通的若干k-團組成的一個k-團鏈。k-團是指包含k個頂點的全連通圖。如果兩個k-團有k-1個公共頂點,則稱這兩個k-團是鄰接的。一系列鄰接的k-團組成一個k-團鏈。如果兩個k-團出現(xiàn)在一個k-團鏈中,則稱這兩個k-團是連通的。但是算法CPM的結果數(shù)據(jù)集與k值有關,k值較大獲得連通的k-團集合的規(guī)模較小,且內部結點之間連接比較緊密。算法CPM在蛋白質網(wǎng)絡中能夠識別到的蛋白質復合物數(shù)量較少,特別是k取值比較大時能夠識別到的蛋白質復合物就更少。對于較小的k取值算法CPM通常會發(fā)生規(guī)模比較龐大的k-團集合。這樣的k-團集合包含了規(guī)模大于k的團結構和比較稀疏的k-團鏈。在實際應用中,更希望將這樣的k-團集合分裂成多個比較稠密的團。

綜上所述,現(xiàn)有的蛋白質復合物識別方法夠識別出的具有生物意義的蛋白質復合物較少,且算法對輸入?yún)?shù)較為敏感,識別結果不太理想。



技術實現(xiàn)要素:

本發(fā)明要解決的技術問題是提供一種能夠識別出比較多的具有生物意義的蛋白質復合物,且算法對輸入?yún)?shù)不敏感的蛋白質復合物識別方法。

為了解決上述技術問題,本發(fā)明的技術方案是提供一種基于圖模型的蛋白質復合物識別方法,其特征在于:該方法由以下步驟組成:

步驟1:概念定義

將給定物種的蛋白質互作網(wǎng)絡視為網(wǎng)絡圖G=(V,E),V是蛋白質結點,E是蛋白質相互作用邊的集合,從所有的邊的集合中去掉網(wǎng)絡中自連接邊和重復邊;為從蛋白質互作網(wǎng)絡G中發(fā)現(xiàn)所定義的蛋白質復合物,首先定義如下概念:

定義1 HP-vertices

給定蛋白質互作網(wǎng)絡G=(V,E),H-index結點代表HP-vertices蛋白質集合,定義為HP=v:v V,d(v)≥h,假如此時|HP|=h,v(V\H),d(v)≤h;HP-vertices蛋白質集合包括h個蛋白,這h個蛋白的度至少為h;從HP-vertices擴展至概念HP-neighbors;

其中,v是代表蛋白質結點,d(v)是結點v的度,v(V\H)是度為H的蛋白質結點;H-index,又稱為H指數(shù)或H因子,是一種評價學術成就的新方法。H代表“高引用次數(shù)”,一名科研人員的H指數(shù)是指他至多有H篇論文分別被引用了至少H次;

定義2 HP-neighbors

HP-neighbors定義為HP-vertices蛋白質集合的一階鄰居的集合;

定義3 HP-graph

蛋白質互作網(wǎng)絡G的子圖HP-graph由HP-vertices和它的HP-neighbors,除去一階鄰居HP-neighbors之間的邊;

對于一個蛋白質互作網(wǎng)絡,HP-graph從一個原始蛋白質互作網(wǎng)絡里分離出來有可能是一個非連通子圖,因此從非連通子圖HP-graph中分離出所有的子圖,最終得到的蛋白質互作網(wǎng)絡的所有子圖為所要識別的蛋白質復合物;

定義4 HP-complex

如果HP-graph是非連通的,HP-complex定義為HP-graph的所有子圖;

所有從HP-graph中分離的子圖都是想要找到的蛋白質復合物;

步驟2:獲取蛋白質復合物的核蛋白HP-vertices頂點集,擴展其邊緣結點一階鄰居HP-neighbors,形成HP-graph圖模型;

步驟3:判別HP-graph的連通性,找到所有的稠密子圖,即蛋白質復合物。

本發(fā)明提供的算法能夠識別出具有重要生物意義的蛋白質復合物,另一方面本算法只需要掃描一次給定的蛋白質互作網(wǎng)絡,不需要重復計算,且算法對單數(shù)不敏感,因此本算法是非常有效的。

本發(fā)明提供了一種新的基于H-index圖模型的蛋白質復合物識別算法HPCMiner,將圖模型H-index看作蛋白質復合物的核,通過考察擴展該圖模型的一階鄰居結點識別蛋白質復合物。將算法應用于已知的酵母蛋白質網(wǎng)絡,實驗結果表明算法HPCMiner能夠識別出比較多的具有生物意義的蛋白質復合物,且算法對輸入?yún)?shù)不敏感。

附圖說明

圖1為一個給定物種的蛋白質互作網(wǎng)絡示意圖;

圖2為執(zhí)行算法結果得到的子圖HP-graph;

圖3為由算法執(zhí)行結果HP-graph分離出兩個蛋白質復合物;(a)為第一個蛋白質復合物,(b)為第二個蛋白質復合物;

圖4為Yeast蛋白質相互作用網(wǎng)絡利用算法HPCMiner得到的蛋白質復合物統(tǒng)計數(shù)據(jù);

圖5為邊的密度增加算法執(zhí)行時間變化圖;

圖6為算法HPCMiner在Yeast數(shù)據(jù)集上的執(zhí)行速率展示;

圖7為Rcp值為0.6、0.8、1時蛋白質復合物的質量;

圖8為369個蛋白質復合物中隨機選取的蛋白質復合物。

具體實施方式

下面結合具體實施例,進一步闡述本發(fā)明。應理解,這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。此外應理解,在閱讀了本發(fā)明講授的內容之后,本領域技術人員可以對本發(fā)明作各種改動或修改,這些等價形式同樣落于本申請所附權利要求書所限定的范圍。

本實施例中,給定物種的蛋白質互作網(wǎng)絡可以視為網(wǎng)絡圖G=(V,E),V是蛋白質結點,E是蛋白質相互作用邊的集合,從所有的邊的集合中去掉網(wǎng)絡中自連接邊和重復邊。為從蛋白質互作網(wǎng)絡G中發(fā)現(xiàn)所定義的蛋白質復合物,首先定義一些概念,為從蛋白質網(wǎng)絡中識別蛋白質復合物做準備。

一、定義

定義1 HP-vertices

給定蛋白質互作網(wǎng)絡G=(V,E),H-index結點代表HP-vertices,定義為HP=v:v V,d(v)≥h,假如此時|HP|=h,v(V\H),d(v)≤h。HP-vertices蛋白質集合包括h個蛋白,這h個蛋白的度至少為h。從HP-vertices擴展至概念HP-neighbors。

其中,v是代表蛋白質結點,d(v)是結點v的度,v(V\H)是度為H的蛋白質結點;H-index,又稱為H指數(shù)或H因子,是一種評價學術成就的新方法。H代表“高引用次數(shù)”,一名科研人員的H指數(shù)是指他至多有H篇論文分別被引用了至少H次;

定義2 HP-neighbors

HP-neighbors定義為HP-vertices蛋白質集的一階鄰居的集合。

定義3 HP-graph

蛋白質互作網(wǎng)絡G的子圖HP-graph由HP-vertices和它的HP-neighbors,除去一階鄰居HP-neighbors之間的邊。

對于一個蛋白質互作網(wǎng)絡,HP-graph從一個很大原始蛋白質互作網(wǎng)絡里分離出來有可能是一個非連通子圖。因此本實施例的方式是從非連通子圖HP-graph中分離出所有的子圖,最終得到的蛋白質互作網(wǎng)絡的所有子圖為所要識別的蛋白質復合物。

定義4 HP-complex

如果HP-graph是非連通的,HP-complex定義為HP-graph的所有子圖。

所有從HP-graph中分離的子圖都是想要找到的蛋白質復合物。下面舉個實例說明這些概念的具體含義。假設圖1是一個給定物種的蛋白質互作網(wǎng)絡,包括19個結點和33條邊。蛋白質互作網(wǎng)絡G中HP-vertices是H={a,b,c,d,e,l},這意味著H=6。在圖1中很容易要檢測出這6個蛋白質結點,即圖1中帶有陰影的結點,這些節(jié)點的度都為6。

從圖1中可以看到,HP-vertices的HP-neighbors集合是{r,s,w,x,y,z,o,p,m,n,t,u}。H集合中的多有頂點,H={a,b,c,d,e,l,r,s,w,x,y,z,o,p,m,n,t,u},即是HP-graph包含的所有頂點。頂點q沒有包含在H中,因為它不是H中頂點的一階鄰居。HP-graph包含HP-vertices與HP-neighbors點之間所有的邊除去HP-neighbors本身蛋白質之間的邊。

二、算法

首先獲取蛋白質復合物的核蛋白HP-vertices頂點集,然后擴展其邊緣結點一階鄰居HP-neighbors,形成HP-graph。值得注意的是HP-graph可能是一個非連通子圖HP-index圖模型的定義決定的,在之前的舉例說明中也介紹過這個特點。算法最終目的是從很大的蛋白質互作用網(wǎng)絡中能夠將所有的稠密子圖,分離出來作為蛋白質復合物。根據(jù)HP-graph圖模型的特征,識別出的蛋白質復合物中每個蛋白質復合物中至少有一個核蛋白。算法HPCMiner主要步驟包括尋找HP-vertices頂點集、擴展至邊緣頂點集合HP-neighbors、生成初始圖模型HP-graph、判別HP-graph的連通性終找到所有的稠密子圖即蛋白質復合物。由于紙張的篇幅大小限制,算法RWSPFinder分兩個部分描述,一部分是算法的輸入和輸出,見算法2,另一部分是算法的核心執(zhí)行代碼,見算法3。

算法2識別復雜網(wǎng)絡中蛋白質復合物算法

利用圖1的蛋白質互作網(wǎng)絡,演示算法HPCMiner在該網(wǎng)絡上執(zhí)行識別蛋白質復合物人物的結果。首先輸入蛋白質互作網(wǎng)絡G即圖1,通過我們定義的圖模型HP-vertices和HP-neighbors找到第一個h=6的HP-graph子圖,用G1表示,其對應的子圖即是圖2中那些陰影的結點。明顯的,子圖G1包含兩個子圖是非連通的,算法將分解該子圖為兩個蛋白質復合物。

算法3識別復雜網(wǎng)絡中蛋白質復合物算法

圖3顯示了算法找到的兩個蛋白質復合物。

三、算法分析

HPCMiner算法第一步將蛋白質互作網(wǎng)絡轉化為無向簡單圖的時間復雜度為O(m),第二部迭代窮舉蛋白胡互作網(wǎng)絡中所有的HP-graph,包括更新圖過程需要花費,當然,此部分還要再加上每個蛋白n次在h和度h-index的對比的時間花費。最后一步識別蛋白質復合物的時間花費。這暗含時間復雜度的上限,這里h表示每個子圖HP-graph中h-index的值,n是蛋白質互作網(wǎng)絡中積淀的數(shù)量,u是找到的所有子圖HP-graph的數(shù)量。本實施例提出的算法能夠識別出具有重要生物意義的蛋白質復合物,另一方面本實施例提出的算法只需要掃描一次給定的蛋白質互作網(wǎng)絡,不需要重復計算,且算法對單數(shù)不敏感,因此本實施例提出的算法HPCMiner是非常有效的。

四、算法有效性驗證

為了評估所提出算法的有效性,利用C語言實現(xiàn)了算法HPCMiner,在真實的數(shù)據(jù)集和模擬數(shù)據(jù)集上做了大量的實驗。Graphweb是一個公共的基于圖分析數(shù)據(jù)的生物網(wǎng)絡web服務器,也是一個生物網(wǎng)絡圖數(shù)據(jù)分析工具,該生物工具可以分析包括基因、蛋白質和基因表達微陣列數(shù)據(jù)等有向生物網(wǎng)絡、無向生物網(wǎng)絡、加權網(wǎng)絡、無權網(wǎng)絡生物數(shù)據(jù)集。用戶可以上傳GraphWeb規(guī)定的生物數(shù)據(jù)集格式,該web平臺會自動映射到集合數(shù)據(jù)的基因標識,經(jīng)處理和統(tǒng)計得出指定的統(tǒng)計分析指標。在本實驗中,將四個生物數(shù)據(jù)集經(jīng)過處理,得到GraphWeb可以識別的規(guī)定的數(shù)據(jù)格式,利用該實驗工具,分別上傳生物蛋白質相互作用數(shù)據(jù)集包括Yeast,得到每個蛋白質互作網(wǎng)絡的結點(Nodes)、邊(Edges)、邊密度(Edge Density,ED)和結點的平均度密度(Average node Degree,AveD)信息,來了解和認識這些生物網(wǎng)絡的特征,詳細的統(tǒng)計信息見表1。

表1蛋白質相互作用網(wǎng)絡的詳細信息

本實驗以酵母蛋白質網(wǎng)絡作為研究對象,因為酵母是所有物種中蛋白質相互作用數(shù)據(jù)最完備的。實驗所用的蛋白質相互作用數(shù)據(jù)和用于評估的標準蛋白質復合物數(shù)據(jù)來源于MIPS數(shù)據(jù)庫。在數(shù)據(jù)預處理階段,去除了蛋白質相互作用數(shù)據(jù)中的自相互作用和冗余的相互作用,最終的相互作用網(wǎng)絡包括1812個酵母蛋白質和6838對相互作用。首先對蛋白質復合物的核蛋白以及蛋白質復合物做基于GO注釋的評估upcitepcGuang:159。GO是一個層次結構,一個蛋白質能夠映射在不同的類層次或者相同的。利用GO詞典映射機制評估找到的蛋白質之間的相似程度。另外,功能富集分析進一步識別蛋白質復合物的生物意義,計算每個蛋白質復合物對應的P-value。很多研究者根據(jù)超幾何聚集分布的P-value來注釋識別蛋白質復合物的主要功能。P-value體現(xiàn)了識別的蛋白質復合物對某個功能的富集程度,其計算公式為:

其中,N表示蛋白質網(wǎng)絡的規(guī)模,C表示蛋白質復合物中蛋白質數(shù)量,k表示蛋白質復合物中含有某個功能的蛋白質數(shù)量,F(xiàn)表示蛋白質網(wǎng)絡中含有該功能的蛋白質數(shù)量。如果P-value越小,越接近0,則說明蛋白質復合物能夠隨機出現(xiàn)這種功能的概率就越低,當然可能更有生物學意義。同一個蛋白質復合物內的蛋白質通常具有相同或相似的功能。一般,將P-value的最小值對應的功能作為該蛋白質復合物的主要功能。通過給每個識別的蛋白質復合物賦予其P-value最小時對應的功能,可以預測位置蛋白質的功能。這里計算P-value所用的蛋白質功能注視信息來源于FunCat。通過計算P-value,可以給每個識別的蛋白質復合物一個最佳功能注視信息。

為了清晰的表達蛋白質復合物的識別結果,將識別出的酵母蛋白質網(wǎng)絡的復合物數(shù)量分為幾組,進行統(tǒng)計分析。對于酵母蛋白質網(wǎng)絡,利用HPCMiner算法識別出蛋白質復合物369個,在這些蛋白質復合物中包含蛋白質數(shù)量大于100個的有2個,大于50小于100個蛋白質的蛋白質復合物2個,大于30個蛋白質小于50個蛋白質的蛋白質復合物5個,大于2個蛋白質小于30個蛋白質的蛋白質復合物360個,利用算法HPCMiner找到的蛋白質復合物復合meso-scale要求的5至25個,這個統(tǒng)計結果如圖4所示。

這個統(tǒng)計結果也證實了酵母蛋白質網(wǎng)絡僅有幾個很大的簇,約97.56%的蛋白質復合物包含的蛋白質個數(shù)都小于30。意味著通過本模型和算法得到的蛋白質復合物的大小在2到30正常的范圍內。為了展示本算法HPCMiner處理大數(shù)據(jù)集的能力,利用模擬的四個數(shù)據(jù)集分別包含10000個頂點、20000個頂點、30000個頂點、40000個頂點的網(wǎng)絡模擬數(shù)據(jù)集,邊的密度設置為0.2%,然后改變邊的密度直到10%。圖5是HPCMiner算法在這四個數(shù)據(jù)集上隨著邊的密度增加算法執(zhí)行時間變化圖。

為了評估核蛋白在一個蛋白質復合物中的關鍵作用,利用BiNGO工具計算核蛋白與邊緣蛋白之間的P-value值,保留那些滿足P-value閾值的蛋白質對。在蛋白質復合物中,核蛋白集合為Cc,邊緣蛋白為Cr。那些與核蛋白構成的蛋白質對為Cnb。當計算完Cnb中那些關鍵的蛋白質對的P-value值后,那些剩余的符合P-value值閾值的蛋白質對留下來為Pnb,每個蛋白質復合物都計算比例為Rcp。

對于圖6通過隨機抽取出酵母蛋白質網(wǎng)絡上10%、30%、50%、80%、100%數(shù)量的邊,展示了HPCMiner算法在酵母蛋白質互作網(wǎng)絡上的執(zhí)行效率。測試蛋白質復合物中核蛋白與邊緣蛋白的緊密關系。定義的拓撲結構圖模型HP-graph包含HP-vertices及HP-neighbors,在這個圖模型里,HP-vertices蛋白之間聯(lián)系是非常緊密的,但是需要確定HP-vertices蛋白與HP-neighbors蛋白的聯(lián)系是否緊密,聯(lián)系的緊密程度在生物學上體現(xiàn)的是兩個物質之間的相似程度。

下面計算核蛋白與邊緣蛋白之間的P-value值的方法,計算HP-vertices中每個核蛋白與邊緣蛋白HP-value值的方法,計算HP-vertices中每個核蛋白與邊緣蛋白HP-neighbors之間的P-value值,如果P-value小于一定的閾值就保留該對蛋白,在一個蛋白質復合物中,剩余越多的蛋白質對,說明檢測到的蛋白質復合物越優(yōu)越。在計算P-value值的時候,使用生物工具BiNGO,這個生物工具是做蛋白質功能的統(tǒng)計分析工具。為了評估核蛋白在一個蛋白質復合物中的關鍵作用,利用BiNGO工具計算核蛋白與邊緣蛋白之間的P-value值,保留那些滿足P-value閾值的蛋白質對。在蛋白質復合物中,核蛋白集合為Cc,邊緣蛋白為Cr。那些與核蛋白構成的蛋白質對為Cnb。當計算完Cnb中那些關鍵的蛋白質對的P-value值后,那些剩余的符合P-value值閾值的蛋白質對留下來為Pnb。然后計算Cnb與Pnb的交集,如果交集越大說明檢測到的蛋白質復合物越是準確,越具有生物意義的。利用找到的蛋白質復合物作為實際例子,闡述測試的實驗過程。如圖3所示,由算法HPCMiner檢測出的蛋白質復合物,其核蛋白Cc=l,Cr=m,n,o,u,p,t,則Cnb={(l,m),(l,n),(l,o),(l,u),(l,p),(l,t)},假設P-value值為0.0001,小于該閾值的要加入到Pnb中。用如下公式計算衡量找到的蛋白質復合物的質量。

對每個蛋白質復合物都計算比例此Rcp,根據(jù)設定的不同的P-value閾值測量出的所有蛋白質復合物的Rcp,根據(jù)所統(tǒng)計的Rcp的平均值展示所找到的蛋白質復合物的質量如圖7所示。圖7展示了分別設定Rcp值為0.6,0.8,1來觀察和衡量蛋白質復合物的質量。Rcp=1意味著整個蛋白質復合物所有的蛋白質都符合測定P-value閾值。

由圖7可見,當設置P-value為0.01時,滿足比例Rcp平均值0.8以上的蛋白質復合物達到84.8%。甚至當設定P-value閾值為0.001時,滿足比例Rcp平均值0.6以上的蛋白質復合物達到78.9%。

這個實驗結果表明,基于HP-graph模型的蛋白質復合物識別方法是非常有效的,能夠找到具有生物意義的蛋白質復合物。為了進一步估計蛋白質復合物在GO分類詞典上的生物相關性,考慮了蛋白質復合物在GO上所有的分類映射。從識別的369酵母蛋白質復合物中,隨機選擇一個蛋白質復合物,結構如圖8所示,計算該蛋白質復合物中所有蛋白之間的蛋白質語義相似性。

在圖1-8中核蛋白是YMR268C,其一階鄰居為YER112W,YBR055C,YPR178W,YBL026W,YJR022W,YNL147W,YDR378C,YER146W,YLR438C-A。語義相似性度量采用的是James Z.Wang的語義度量生物工具測得。

由表1可以看出,所有蛋白質之間的語義相似性的值都大于0.7,其中最大的語義相似性值達到完全相似為1(非對角線元素)。此結果表明通過本實施例提供的算法識別到的蛋白質復合物是具有生物意義的。

當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1