亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識別方法與流程

文檔序號:12011934閱讀:381來源:國知局
基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識別方法與流程
本發(fā)明屬于系統(tǒng)生物學(xué)領(lǐng)域,涉及一種基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識別方法。

背景技術(shù):
眾所周知,不同的蛋白質(zhì)對生物有機(jī)體生命活動的作用各有不同,重要性也各不相同。一般來說,在蛋白質(zhì)相互作用網(wǎng)絡(luò)中維持生物機(jī)體生命活動所必需的蛋白質(zhì)被認(rèn)為是關(guān)鍵蛋白質(zhì)。關(guān)鍵蛋白質(zhì)的缺失將導(dǎo)致細(xì)胞死亡或者無法復(fù)制繁殖。關(guān)鍵蛋白質(zhì)的識別可以促進(jìn)藥物標(biāo)靶技術(shù)的發(fā)展【注釋:藥物靶標(biāo)是指體內(nèi)具有藥效功能并能被藥物作用的生物大分子,如某些蛋白質(zhì)和核酸等生物大分子。那些編碼靶標(biāo)蛋白的基因也被稱為靶標(biāo)基因。事先確定靶向特定疾病有關(guān)的靶標(biāo)分子是現(xiàn)代新藥開發(fā)的基礎(chǔ)。更通俗地講,就是使用某種藥物作用在生物大分子上,影響該生物大分子,從而對疾病產(chǎn)生療效。這個(gè)生物大分子就是藥物靶標(biāo)。】。由于關(guān)鍵蛋白質(zhì)的剔除、打斷或者阻塞都可能導(dǎo)致生物體的死亡。因此,在目前抗菌素普遍存在抗藥性和藥物毒性問題的背景下,研究一些細(xì)菌病毒的關(guān)鍵蛋白質(zhì),有助于研發(fā)新的抗菌藥物。關(guān)鍵蛋白質(zhì)的識別還有助于合成生物研究的發(fā)展。合成生物的目標(biāo)是找出最小的能執(zhí)行特定任務(wù)的基因組。在2010年,J.CraigVenter學(xué)會的研究人員移除絲狀支原體的所有非關(guān)鍵基因,創(chuàng)造第一個(gè)具有自我復(fù)制功能的人造細(xì)菌,稱作JCVI-syn1.0。目前,識別關(guān)鍵蛋白質(zhì)的生物實(shí)驗(yàn)方法,例如單個(gè)基因敲除,RNA干擾和有條件基因敲除等,既浪費(fèi)時(shí)間又效率低下,而且只能在少量物種上實(shí)行。因此,迫切需要有效的計(jì)算方法來降低實(shí)驗(yàn)的成本,提高實(shí)驗(yàn)效率。隨著高通量的蛋白質(zhì)相互作用數(shù)據(jù)的積累,利用蛋白質(zhì)相互作用網(wǎng)絡(luò)來識別關(guān)鍵蛋白質(zhì)成為了目前的研究熱點(diǎn)。根據(jù)對一些物種的觀察,如酵母,線蟲和果蠅等,蛋白質(zhì)相互作用網(wǎng)絡(luò)中擁有高度的蛋白質(zhì)結(jié)點(diǎn)更有可能是關(guān)鍵蛋白質(zhì)。從拓?fù)涞慕嵌葋砜?,高度連接的蛋白質(zhì)結(jié)點(diǎn)可以維持蛋白質(zhì)相互作用網(wǎng)絡(luò)的基本特征,如果刪除這些蛋白質(zhì)結(jié)點(diǎn)將會引起整個(gè)蛋白質(zhì)相互作用網(wǎng)絡(luò)的崩潰;從生物學(xué)的角度來看,這些高度連接的蛋白質(zhì)結(jié)點(diǎn)一般保證了蛋白質(zhì)相互作用網(wǎng)絡(luò)的功能完整性。這種現(xiàn)象被認(rèn)為是生物網(wǎng)絡(luò)中普遍存在的“中心性-致死性”法則。該法則表明蛋白質(zhì)相互作用網(wǎng)絡(luò)中某一蛋白質(zhì)結(jié)點(diǎn)的拓?fù)涮卣髋c蛋白質(zhì)的關(guān)鍵性之間密切相關(guān)。近年來,一些基于網(wǎng)絡(luò)拓?fù)涮卣鞯闹行男苑椒ū惶岢鰜碜R別關(guān)鍵蛋白質(zhì),例如度中心性(DegreeCentrality,DC),介數(shù)中心性(BetweennessCentrality,BC),接近性中心性(ClosenessCentrality,CC),子圖中心性(SubgraphCentrality,SC),特征向量中心(EigenvectorCentrality,EC),信息中心性(InformationCentrality,IC)和鄰居中心性(NeighborCentrality,NC)等等。這些方法對蛋白質(zhì)在相互作用網(wǎng)絡(luò)中的中心性進(jìn)行打分,然后將這些得分進(jìn)行排序來判斷蛋白質(zhì)是否是關(guān)鍵蛋白質(zhì)。這類方法的優(yōu)點(diǎn)是不需要預(yù)先知道一部分關(guān)鍵蛋白質(zhì)來訓(xùn)練分類器,而是直接通過給蛋白質(zhì)打分來預(yù)測關(guān)鍵蛋白質(zhì)。這些基于網(wǎng)絡(luò)拓?fù)涮卣鞯闹行男苑椒ǖ年P(guān)鍵蛋白質(zhì)預(yù)測準(zhǔn)確性依賴于蛋白質(zhì)相互作用網(wǎng)絡(luò)的可靠性。然而,目前可以得到的蛋白質(zhì)相互作用網(wǎng)絡(luò)數(shù)據(jù)是不完整的,包含很多假陽性和假陰性。這些會影響關(guān)鍵蛋白質(zhì)識別的準(zhǔn)確性。隨著高通量生物數(shù)據(jù)的增多,最近一些研究者試圖結(jié)合其它生物信息來提高識別關(guān)鍵蛋白質(zhì)的準(zhǔn)確率。例如,Li等人通過考慮基因的功能注釋,構(gòu)建了一個(gè)加權(quán)的蛋白質(zhì)相互作用網(wǎng)絡(luò),通過集成網(wǎng)絡(luò)拓?fù)涮卣髋c基因表達(dá)信息提出了PeC方法。除此之外,基于機(jī)器學(xué)習(xí)的方法也被用來預(yù)測關(guān)鍵蛋白質(zhì),常用的特征有GC內(nèi)容、蛋白質(zhì)長度、ORF長度等。例如,Acencio等人提出的基于機(jī)器學(xué)習(xí)的方法結(jié)合網(wǎng)絡(luò)的拓?fù)涮卣鳌⑸镞^程信息以及細(xì)胞定位等來識別關(guān)鍵蛋白質(zhì)。這些機(jī)器學(xué)習(xí)的方法通過學(xué)習(xí)一個(gè)物種中一些已知的關(guān)鍵蛋白質(zhì)的特征,訓(xùn)練出一個(gè)分類器,然后利用這個(gè)分類器來識別該物種或其它物種中的關(guān)鍵蛋白質(zhì)。機(jī)器學(xué)習(xí)方法需要預(yù)先知道一部分關(guān)鍵蛋白質(zhì),其性能取決于分類器的性能以及訓(xùn)練物種與預(yù)測物種之間的距離。上述各類方法從不同的角度解決了關(guān)鍵蛋白質(zhì)識別存在的一些問題。然而,由于可利用的蛋白質(zhì)相互作用數(shù)據(jù)存在噪聲等因素,基于網(wǎng)絡(luò)水平的關(guān)鍵蛋白質(zhì)識別還存在很多挑戰(zhàn)。公開號為102176223A的發(fā)明專利公開了一種基于關(guān)鍵蛋白質(zhì)和局部適應(yīng)的蛋白質(zhì)復(fù)合物識別方法,其核心構(gòu)思是基于蛋白質(zhì)相互作用無向圖,并以關(guān)鍵蛋白質(zhì)為種子對關(guān)鍵蛋白質(zhì)進(jìn)行識別,這種方法雖然效果較佳,但是受制于種子的選擇,因此對于未知的蛋白質(zhì)識別難度較大。公開號為102841985A的發(fā)明專利公開了一種基于結(jié)構(gòu)域特征的關(guān)鍵蛋白質(zhì)識別方法【申請?zhí)枮?01210282873.7】,其核心構(gòu)思在于,基于首先通過數(shù)據(jù)庫或進(jìn)行蛋白質(zhì)序列分析等得到結(jié)構(gòu)域信息,在結(jié)構(gòu)域信息基礎(chǔ)上統(tǒng)計(jì)各個(gè)結(jié)構(gòu)域類型在蛋白質(zhì)中出現(xiàn)次數(shù),通過統(tǒng)計(jì)結(jié)果計(jì)算每個(gè)蛋白質(zhì)的權(quán)重,權(quán)重越大蛋白質(zhì)成為關(guān)鍵蛋白質(zhì)的可能性越大。該方法簡單有效,且僅基于蛋白質(zhì)結(jié)構(gòu)域信息,不依賴蛋白質(zhì)相互作用網(wǎng)絡(luò)信息等,避免了生物實(shí)驗(yàn)所消耗的大量人力物力。通過與隨機(jī)方法比較,該方法能夠較準(zhǔn)確的識別關(guān)鍵蛋白質(zhì)。然而由于結(jié)構(gòu)域信息存在不完整性,會使得預(yù)測結(jié)果出現(xiàn)偏差。例如,一些的結(jié)構(gòu)域頻率低,并不是因?yàn)檎嬲哂嘘P(guān)鍵性,而是由于沒有測得這些結(jié)構(gòu)域在這個(gè)物種中所有蛋白質(zhì)中的完整分布所致。公開號為101051335公開了一種利用計(jì)算機(jī)模擬蛋白質(zhì)相互作用的方法【申請?zhí)枺?00710015493.6】,該方法只是通過計(jì)算機(jī)軟件來模擬蛋白質(zhì)相互作用,并不涉及到蛋白質(zhì)的識別。因此,有必要設(shè)計(jì)一種新型的關(guān)鍵蛋白質(zhì)識別方法。

技術(shù)實(shí)現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題是提供一種基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識別方法,該基于亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識別方法在關(guān)鍵蛋白質(zhì)的識別方面準(zhǔn)確性高、敏感度高。發(fā)明的技術(shù)解決方案如下:一種基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識別方法,包括以下步驟:步驟1:建立亞細(xì)胞定位的蛋白質(zhì)相互作用子網(wǎng);輸入一組蛋白質(zhì)的亞細(xì)胞定位信息和一組蛋白質(zhì)相互作用數(shù)據(jù),其中蛋白質(zhì)的亞細(xì)胞定位信息包括細(xì)胞骨架、細(xì)胞核、內(nèi)質(zhì)網(wǎng)、細(xì)胞質(zhì)、高爾基體、線粒體、核內(nèi)體、細(xì)胞膜、溶酶體、細(xì)胞外基質(zhì)和液泡共11種亞細(xì)胞定位信息;首先在蛋白質(zhì)相互作用數(shù)據(jù)中去掉重復(fù)相互作用和自相互作用的數(shù)據(jù);然后依據(jù)亞細(xì)胞定位信息以及經(jīng)過上述處理后的蛋白質(zhì)相互作用數(shù)據(jù)構(gòu)建11個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng);步驟2:衡量各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度;根據(jù)各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的規(guī)模(子網(wǎng)的規(guī)模指子網(wǎng)中包含的蛋白質(zhì)數(shù)目),給每個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度進(jìn)行打分,可信度的計(jì)算公式如下:其中,|Si|為子網(wǎng)Si中蛋白質(zhì)的數(shù)目,|Smax|為子網(wǎng)Smax中蛋白質(zhì)的數(shù)目,Smax是包含有最多蛋白質(zhì)的子網(wǎng);步驟3:計(jì)算所有蛋白質(zhì)的關(guān)鍵性綜合得分:將細(xì)胞內(nèi)所有蛋白質(zhì)的關(guān)鍵性綜合得分初始化為0;基于蛋白質(zhì)在蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的關(guān)鍵性得分以及不同蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度,按可信度的從高到底依次更新各個(gè)子網(wǎng)中的蛋白質(zhì)的關(guān)鍵性綜合得分;關(guān)鍵性綜合得分的更新公式為:對于該公式的解釋和說明:由于蛋白質(zhì)p的關(guān)鍵性綜合得分C_Ess(p)是基于較高可信度的子網(wǎng)計(jì)算的,當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度小于之前已計(jì)算過的子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度,因此,更新關(guān)鍵性綜合得分的規(guī)則為,當(dāng)?shù)鞍踪|(zhì)p的關(guān)鍵性綜合得分C_Ess(p)比當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)高時(shí),其關(guān)鍵性綜合得分C_Ess(p)保持不變;而當(dāng)p的關(guān)鍵性綜合得分C_Ess(p)小于當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)時(shí),關(guān)鍵性綜合得分C_Ess(p)更新為原關(guān)鍵性綜合得分C_Ess(p)加上當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分S_Ess(Si,p)與原關(guān)鍵性綜合得分C_Ess(p)的差值按可信度P(Si)的折算值;其中,S_Ess(Si,p)是采用中心性方法在蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si上計(jì)算的蛋白質(zhì)p的關(guān)鍵性得分;P(Si)為子網(wǎng)Si的蛋白質(zhì)關(guān)鍵性得分的可信度;(例如當(dāng)采用DC中心性方法時(shí),S_Ess(Si,p)等于蛋白質(zhì)p在子網(wǎng)Si中連接的邊的條數(shù))步驟4:輸出結(jié)果:對細(xì)胞內(nèi)所有蛋白質(zhì)按關(guān)鍵性綜合得分排序并輸出排序結(jié)果。不同物種的蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)從COMPARTMENTS數(shù)據(jù)庫中獲得,蛋白質(zhì)相互作用數(shù)據(jù)從公共數(shù)據(jù)庫中獲得,所述的公共數(shù)據(jù)庫包括DIP和Biogrid數(shù)據(jù)庫。COMPARTMENTS數(shù)據(jù)庫整合了來自UniProtKB,MGI,SGD,F(xiàn)lyBase,WormBase等數(shù)據(jù)庫的基于實(shí)驗(yàn)的蛋白質(zhì)亞細(xì)胞注釋信息,涵蓋了人類、酵母、果蠅、小鼠等真核生物的蛋白質(zhì)亞細(xì)胞定位信息。DIP和Biogrid等公共數(shù)據(jù)庫里包含了許多物種的蛋白質(zhì)相互作用數(shù)據(jù)。有益效果:本發(fā)明基于對關(guān)鍵蛋白質(zhì)在不同亞細(xì)胞定位的分布的差異性和特異性,提出了一種基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識別方法(LSED),利用蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)和相互作用數(shù)據(jù)構(gòu)建了蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng),分別對每個(gè)子網(wǎng)中的蛋白質(zhì)進(jìn)行關(guān)鍵性打分,通過對蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度進(jìn)行衡量,并結(jié)合各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)進(jìn)行蛋白質(zhì)的關(guān)鍵性預(yù)測來計(jì)算蛋白質(zhì)的關(guān)鍵性綜合得分。本發(fā)明簡單易用,試驗(yàn)表明,與已有的基于網(wǎng)絡(luò)拓?fù)涮卣鞯年P(guān)鍵蛋白質(zhì)識別方法相比較,本發(fā)明提出的方法在預(yù)測的準(zhǔn)確性、與已知關(guān)鍵蛋白質(zhì)匹配的敏感度和特異性等方面都有明顯提高,能為生物學(xué)家進(jìn)行關(guān)鍵蛋白質(zhì)識別的實(shí)驗(yàn)和進(jìn)一步研究提供有價(jià)值的參考信息。附圖說明圖1:各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中關(guān)鍵蛋白質(zhì)和非關(guān)鍵蛋白質(zhì)的數(shù)目圖2:各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中多定位關(guān)鍵蛋白質(zhì)以及特異性關(guān)鍵蛋白質(zhì)的數(shù)目比圖3:本發(fā)明LSED的流程圖;圖4:在酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)上不同比例的具有較高排序得分的蛋白質(zhì)作為預(yù)測的關(guān)鍵蛋白質(zhì)時(shí),方法LSED和6種拓?fù)渲行男苑椒ㄗR別關(guān)鍵蛋白質(zhì)的數(shù)量的比較圖;圖a-f分別是比例為1%、5%、10%、15%、20%、25%時(shí)的對比圖。圖5:方法LSED和6種拓?fù)渲行男苑椒ㄅcLSED-NC的ROC曲線的比較圖;圖a-f分別為DC與LSED-DC,IC與LSED-IC,EC與LSED-EC,SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的ROC曲線的比較圖;圖6:方法LSED和6種拓?fù)渲行男苑椒ɑ趈ackknife曲線的比較圖;圖6(a)-(f)分別展示的是DC與LSED-DC,IC與LSED-IC,EC與LSED-EC,SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的jackknife曲線比較結(jié)果。圖7:方法LSED和6種拓?fù)渲行男苑椒ㄗR別的蛋白質(zhì)重疊性和差異性比較;具體實(shí)施方式以下將結(jié)合附圖和具體實(shí)施例對本發(fā)明做進(jìn)一步詳細(xì)說明:實(shí)施例1:(1)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)構(gòu)建及關(guān)鍵蛋白質(zhì)的分布特性分析不同物種的蛋白質(zhì)亞細(xì)胞定位數(shù)據(jù)可以從COMPARTMENTS數(shù)據(jù)庫中獲得。COMPARTMENTS數(shù)據(jù)庫整合了來自UniProtKB,MGI,SGD,F(xiàn)lyBase,WormBase等數(shù)據(jù)庫的基于實(shí)驗(yàn)的蛋白質(zhì)亞細(xì)胞注釋信息,涵蓋了人類、酵母、果蠅、小鼠等真核生物的蛋白質(zhì)亞細(xì)胞定位信息。DIP和Biogrid等公共數(shù)據(jù)庫里包含了許多物種的蛋白質(zhì)相互作用數(shù)據(jù)。目前研究最為廣泛的物種是酵母,其蛋白質(zhì)相互作用網(wǎng)絡(luò)和關(guān)鍵蛋白質(zhì)數(shù)據(jù)在眾多物種中是最為完整和可靠的,因此,首先基于酵母的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和實(shí)驗(yàn)驗(yàn)證。酵母的蛋白質(zhì)相互作用網(wǎng)絡(luò)來自于DIP數(shù)據(jù)庫2010年10月的數(shù)據(jù)。除去自相互作用和重復(fù)的相互作用,總共有5093個(gè)蛋白質(zhì),24743條邊。酵母蛋白質(zhì)亞細(xì)胞定位注釋信息來自COMPARTMENTS數(shù)據(jù)庫,酵母蛋白質(zhì)分別被11種亞細(xì)胞定位注釋,其中包括細(xì)胞骨架、細(xì)胞核、內(nèi)質(zhì)網(wǎng)、細(xì)胞質(zhì)、高爾基體、線粒體、核內(nèi)體、細(xì)胞膜、溶酶體、細(xì)胞外基質(zhì)和液泡等亞細(xì)胞定位。關(guān)鍵蛋白質(zhì)信息來源于MIPS,SGD,DEG和SGDP四個(gè)數(shù)據(jù)庫。在5093個(gè)蛋白質(zhì)中1167個(gè)為關(guān)鍵蛋白質(zhì),剩余3926個(gè)蛋白質(zhì)視作非關(guān)鍵蛋白質(zhì)。將DIP數(shù)據(jù)庫里的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)分別映射到每個(gè)亞細(xì)胞定位,一共構(gòu)建了酵母的11個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。每個(gè)子網(wǎng)由被這種亞細(xì)胞定位注釋的蛋白質(zhì)以及它們之間的相互作用構(gòu)成。經(jīng)過這種映射,包含分別位于兩個(gè)不同的亞細(xì)胞定位的蛋白質(zhì)的相互作用被丟掉了,這使得任何一個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中相互作用的蛋白質(zhì)都處于同一亞細(xì)胞定位,從而保證了蛋白質(zhì)相互作用的發(fā)生。我們統(tǒng)計(jì)了各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)分布以及關(guān)鍵蛋白質(zhì)分布,如圖1所示。從圖1可以看出,不同蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)數(shù)量以及關(guān)鍵蛋白質(zhì)數(shù)量存在很大的差異性。其中,處于蛋白質(zhì)細(xì)胞核(Nulceus)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)數(shù)量以及關(guān)鍵蛋白質(zhì)數(shù)量都顯著高于其他蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。從圖1還可以發(fā)現(xiàn),不同蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的關(guān)鍵蛋白質(zhì)與非關(guān)鍵蛋白質(zhì)的比例存在較大差異;關(guān)鍵蛋白質(zhì)在蛋白質(zhì)細(xì)胞骨架(Cytoskeleton)、細(xì)胞核(Nulceus)、內(nèi)質(zhì)網(wǎng)(Endoplasmic)、細(xì)胞質(zhì)(Cytosol)、以及高爾基體(Golgi)亞細(xì)胞定位相互作用子網(wǎng)中的比例高于關(guān)鍵蛋白質(zhì)在DIP數(shù)據(jù)庫里的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)中的比例。分析的結(jié)果表明:關(guān)鍵蛋白質(zhì)在各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的分布具有顯著的統(tǒng)計(jì)特性,且關(guān)鍵蛋白質(zhì)主要在某些亞細(xì)胞定位相互作用子網(wǎng)富集,這說明并非所有的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性評分都對細(xì)胞內(nèi)關(guān)鍵蛋白質(zhì)的預(yù)測有用。(2)統(tǒng)計(jì)分析關(guān)鍵蛋白質(zhì)的亞細(xì)胞定位特異性為考察關(guān)鍵蛋白質(zhì)的亞細(xì)胞定位特異性,統(tǒng)計(jì)各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中特異性關(guān)鍵蛋白質(zhì)(只出現(xiàn)在某個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的關(guān)鍵蛋白質(zhì))和多定位關(guān)鍵蛋白質(zhì)(出現(xiàn)在至少兩個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的關(guān)鍵蛋白質(zhì))占各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中關(guān)鍵蛋白質(zhì)的比例,統(tǒng)計(jì)結(jié)果如圖2所示。從圖2中,我們可以發(fā)現(xiàn)在蛋白質(zhì)細(xì)胞核(Nulceus)亞細(xì)胞定位相互作用子網(wǎng)中,具有亞細(xì)胞特異性的關(guān)鍵蛋白質(zhì)占主要成分。另外,在蛋白質(zhì)核內(nèi)體(Endosome)定位亞細(xì)胞相互作用子網(wǎng)和蛋白質(zhì)液泡(Vacuole)亞細(xì)胞定位相互作用子網(wǎng)中,特異性關(guān)鍵蛋白質(zhì)非常少。這說明這些蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中幾乎所有的關(guān)鍵蛋白質(zhì)能夠通過其他蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)識別。在1167個(gè)關(guān)鍵蛋白質(zhì)中,包括了852個(gè)特異性關(guān)鍵蛋白質(zhì)和315個(gè)交疊性關(guān)鍵蛋白質(zhì),由此可知,大多數(shù)關(guān)鍵蛋白質(zhì)具有亞細(xì)胞定位特異性。因此分別在各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中預(yù)測關(guān)鍵蛋白質(zhì),能較容易地夠檢測到特異性關(guān)鍵蛋白質(zhì),從而能夠提高關(guān)鍵蛋白質(zhì)預(yù)測的準(zhǔn)確性。(3)基于亞細(xì)胞定位特異性的蛋白質(zhì)關(guān)鍵性綜合得分計(jì)算基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識別方法(LSED)的流程圖如圖3所示。首先,將蛋白質(zhì)相互作用網(wǎng)絡(luò)分別映射到每個(gè)亞細(xì)胞定位,一共構(gòu)建了若干個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。在各個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中采用中心性方法,對子網(wǎng)中各個(gè)蛋白質(zhì)的關(guān)鍵性進(jìn)行打分。然而,由于各個(gè)子網(wǎng)的網(wǎng)絡(luò)拓?fù)洳煌?,多定位蛋白質(zhì)(出現(xiàn)在至少兩個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的蛋白質(zhì))在不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中關(guān)鍵性評分也必然存在差異;另一方面,由于不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)規(guī)模等存在差異,特異性蛋白質(zhì)(只出現(xiàn)在某個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的蛋白質(zhì))為關(guān)鍵蛋白質(zhì)的可能性高低也不能簡單通過唯一的關(guān)鍵性評分來決定。我們基于多個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng),計(jì)算每個(gè)蛋白質(zhì)的關(guān)鍵性綜合得分,具體步驟如下:步驟1考慮到不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中預(yù)測關(guān)鍵蛋白質(zhì)的準(zhǔn)確度存在差異性,我們對所有的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度進(jìn)行衡量。從上述分析可以發(fā)現(xiàn),蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)規(guī)模越大(網(wǎng)絡(luò)規(guī)模指網(wǎng)絡(luò)中包含蛋白質(zhì)的數(shù)目),特異性蛋白質(zhì)數(shù)目越多,包含的關(guān)鍵蛋白質(zhì)數(shù)目也越多,從而蛋白質(zhì)關(guān)鍵性得分的可信度越高。假設(shè)Smax是網(wǎng)絡(luò)規(guī)模最大的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng),相比于其他子網(wǎng),該子網(wǎng)蛋白質(zhì)關(guān)鍵性得分的可信度最高。對于其他蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si,通過考察該子網(wǎng)的規(guī)模與Smax的網(wǎng)絡(luò)規(guī)模的比值,可信度計(jì)算如公式1所示。其中,|Si|為子網(wǎng)Si中蛋白質(zhì)的數(shù)目,|Smax|為子網(wǎng)Smax中蛋白質(zhì)的數(shù)目,Smax是包含有最多蛋白質(zhì)的子網(wǎng)。步驟2采用一種中心性方法(DC,IC,EC,SC,BC或NC),分別在每個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)上計(jì)算各個(gè)蛋白質(zhì)的關(guān)鍵性得分。假設(shè)蛋白質(zhì)p存在于蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si中,計(jì)算的關(guān)鍵性得分標(biāo)記為S_Ess(Si,p)。步驟3計(jì)算所有蛋白質(zhì)的關(guān)鍵性綜合得分:一個(gè)蛋白質(zhì)可能出現(xiàn)在不同的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中,從而有多個(gè)關(guān)鍵性得分,因此需要為每個(gè)蛋白質(zhì)計(jì)算關(guān)鍵性綜合得分來衡量它的關(guān)鍵性。計(jì)算所有蛋白質(zhì)的關(guān)鍵性綜合得分步驟:1)將細(xì)胞內(nèi)所有蛋白質(zhì)的關(guān)鍵性綜合得分初始化為0;2)根據(jù)子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度從高到底,依次更新各個(gè)子網(wǎng)中蛋白質(zhì)的關(guān)鍵性綜合得分。由于蛋白質(zhì)p的關(guān)鍵性綜合得分C_Ess(p)是基于較高可信度的子網(wǎng)計(jì)算的,當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度小于之前已計(jì)算過的子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分的可信度,因此,更新關(guān)鍵性綜合得分的規(guī)則為,當(dāng)?shù)鞍踪|(zhì)p的關(guān)鍵性綜合得分C_Ess(p)比當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)高時(shí),其關(guān)鍵性綜合得分C_Ess(p)保持不變;而當(dāng)p的關(guān)鍵性綜合得分C_Ess(p)小于當(dāng)前子網(wǎng)Si中p的關(guān)鍵性得分S_Ess(Si,p)時(shí),關(guān)鍵性綜合得分C_Ess(p)更新為原關(guān)鍵性綜合得分C_Ess(p)加上當(dāng)前子網(wǎng)的蛋白質(zhì)關(guān)鍵性得分S_Ess(Si,p)與原關(guān)鍵性綜合得分C_Ess(p)的差值按可信度P(Si)的折算值。關(guān)鍵性綜合得分的更新規(guī)則如公式2所示。例如,當(dāng)輪到可信度第i高的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)Si時(shí),對子網(wǎng)中的每個(gè)蛋白質(zhì)p,比較其在子網(wǎng)Si中的關(guān)鍵性得分S_Ess(Si,p)和其關(guān)鍵性綜合得分C_Ess(p),將其關(guān)鍵性綜合得分C_Ess(p)按公式2進(jìn)行更新。其中,otherwise為否則的意思。當(dāng)所有的蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)中的蛋白質(zhì)都依次檢查完畢,對細(xì)胞內(nèi)所有蛋白質(zhì)按關(guān)鍵性綜合得分進(jìn)行降序排序。最后關(guān)鍵性綜合得分越高的越可能為關(guān)鍵蛋白質(zhì)。(4)基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識別方法(LSED)的有效性驗(yàn)證為了評估LSED方法的有效性,我們將LSED方法分別與幾種代表性的中心性方法結(jié)合,如DC,BC,SC,EC,IC,以及NC,計(jì)算酵母所有蛋白質(zhì)的關(guān)鍵性綜合得分,按降序排序;另外,只用按中心性方法對酵母的蛋白質(zhì)相互作用網(wǎng)絡(luò)中的蛋白質(zhì)進(jìn)行關(guān)鍵性打分,按降序排序,作為對照試驗(yàn)。酵母的蛋白質(zhì)相互作用網(wǎng)絡(luò)來自于DIP數(shù)據(jù)庫2010年10月的數(shù)據(jù),包含有5093個(gè)蛋白質(zhì),24743條邊。酵母蛋白質(zhì)亞細(xì)胞定位注釋信息來自COMPARTMENTS數(shù)據(jù)庫,將DIP數(shù)據(jù)庫里的酵母蛋白質(zhì)相互作用網(wǎng)絡(luò)分別映射到每個(gè)亞細(xì)胞定位,一共構(gòu)建了酵母的11個(gè)蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)。來源于MIPS,SGD,DEG和SGDP四個(gè)數(shù)據(jù)庫的1167個(gè)關(guān)鍵蛋白質(zhì)作為標(biāo)準(zhǔn)集,用來比較預(yù)測結(jié)果的準(zhǔn)確性。a.與六種中心性方法比較選取排在前面1%,5%,10%,15%,20%,25%的蛋白質(zhì)作為預(yù)測的關(guān)鍵蛋白質(zhì)。再依據(jù)已知的關(guān)鍵蛋白質(zhì)集合,對比預(yù)測結(jié)果。預(yù)測正確的蛋白質(zhì)數(shù)量作為評價(jià)各個(gè)方法性能的標(biāo)準(zhǔn)。這種評價(jià)方法已經(jīng)被以前的研究廣泛采用。我們選擇不同比例的具有較高排序得分的蛋白質(zhì)作為預(yù)測的關(guān)鍵蛋白質(zhì),然后比較LSED方法和中心方法識別關(guān)鍵蛋白質(zhì)的數(shù)量。圖4表明,相比于各種中心性方法(總稱XC)的預(yù)測結(jié)果,結(jié)合不同中心性方法的LSED方法(總稱LSED-XC)極大提高了正確預(yù)測的關(guān)鍵蛋白質(zhì)數(shù)量。當(dāng)選擇排序得分排在前1%的蛋白質(zhì)作為預(yù)測的關(guān)鍵蛋白質(zhì)時(shí),LSED方法的準(zhǔn)確率范圍64%-80%左右,而各種中心性方法的準(zhǔn)確率最高僅為62%。當(dāng)選擇排序得分排在前25%的蛋白質(zhì)作為預(yù)測的關(guān)鍵,LSED-XC可以達(dá)到47.1%的準(zhǔn)確率,而中心性方法中準(zhǔn)確率最高為42.7%。NC是在現(xiàn)存的中心性方法中性能最好的中心性方法。與NC相比,在選擇排序得分排在前1%,5%,10%,15%,20%和25%的蛋白質(zhì)作為關(guān)鍵蛋白質(zhì)時(shí),LSED-NC預(yù)測的準(zhǔn)確率能夠分別提高25%,15%,9.2%,12.3%,10.9%,10.9%。DC是一種廣泛使用的關(guān)鍵蛋白質(zhì)的預(yù)測方法。與DC相比,LSED-DC也體現(xiàn)了明顯的優(yōu)勢。特別是在選前1%的蛋白質(zhì)時(shí),LSED-DC預(yù)測關(guān)鍵蛋白質(zhì)的準(zhǔn)確性是DC的1.77倍。在選擇前5%和前10%的蛋白質(zhì)時(shí),LSED-DC預(yù)測關(guān)鍵蛋白質(zhì)的準(zhǔn)確性比DC提高了56.4%和42.9%。相比于其他中心性方法(XC),LSED-XC的優(yōu)勢也非常明顯。我們可以發(fā)現(xiàn),與任意一種中心性方法結(jié)合,LSED方法預(yù)測關(guān)鍵蛋白質(zhì)的準(zhǔn)確性高于絕大多數(shù)的中心性方法的準(zhǔn)確性。b.基于ROC曲線比較實(shí)驗(yàn)結(jié)果用ROC曲線以及其下的面積(AUC)進(jìn)一步驗(yàn)證LSED方法和各種中心性方法的性能。將細(xì)胞中所有的蛋白質(zhì)依據(jù)各個(gè)方法計(jì)算的關(guān)鍵性得分降序排序,排在前面的K個(gè)蛋白質(zhì)作為預(yù)測的關(guān)鍵蛋白質(zhì)(陽性數(shù)據(jù)集),細(xì)胞中剩下的蛋白質(zhì)作為非關(guān)鍵蛋白質(zhì)(陰性數(shù)據(jù)集)。閾值K的范圍從1到5093。隨著K取值的不同,分別計(jì)算各個(gè)方法相應(yīng)的Sensitivity和Specificity值,從而得到ROC曲線,如圖5所示。圖5(a)-(f)分別顯示了是DC與LSED-DC,IC與LSED-IC,EC與LSED-EC,SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的ROC曲線對比圖。從圖5,我們可以看出各種LSED-XC的ROC曲線明顯高于各種XC中心性方法的ROC曲線。另外,我們還可以觀察到,各種LSED-XC的AUC明顯大于各種XC中心性方法的AUC。c.基于jackknife曲線比較實(shí)驗(yàn)結(jié)果我們用jackknife曲線來進(jìn)一步驗(yàn)證LSED方法以及其他XC方法的預(yù)測性能。實(shí)驗(yàn)結(jié)果如圖6所示。X軸表示的是按照各個(gè)關(guān)鍵蛋白質(zhì)預(yù)測方法排序,排在前面的蛋白質(zhì)數(shù)量。Y軸表示的是識別的正確關(guān)鍵蛋白質(zhì)的累積數(shù)量。圖中線下的面積用來比較各個(gè)方法的性能。圖6(a)-(f)分別展示的是DC與LSED-DC,IC與LSED-IC,EC與LSED-EC,SC與LSED-SC,BC與LSED-BC,NC與LSED-NC的jackknife曲線比較結(jié)果。從圖6,我們可以看出各種LSED-XC對應(yīng)的jackknife曲線位于相應(yīng)的XC對應(yīng)的jackknife曲線的上方,曲線下的面積明顯大于相應(yīng)的XC對應(yīng)的曲線下的面積。所有的實(shí)驗(yàn)結(jié)果表明LSED方法預(yù)測關(guān)鍵蛋白質(zhì)的準(zhǔn)確性高于各種中心性的方法。d.LSED與其他中心性方法在預(yù)測上的差異比較被各個(gè)方法排在前100位的蛋白質(zhì),計(jì)算它們的重疊預(yù)測和差異預(yù)測。如圖7所示,LSED-XC識別的排在前100位的蛋白質(zhì)中,有一半以上與相應(yīng)的XC方法識別的蛋白質(zhì)不同。這說明LSED方法的亞細(xì)胞特異性信息是導(dǎo)致這種不同的主要原因。為了進(jìn)一步的分析,我們比較了LSED方法和中心性方法識別的不同蛋白質(zhì)中關(guān)鍵蛋白質(zhì)的比率。如圖7所示,對比各種XC和LSED-XC方法識別的不同蛋白質(zhì),LSED-XC能夠找到更多的不同的關(guān)鍵蛋白質(zhì)。以NC為例,在前100個(gè)蛋白質(zhì)中LSED-NC找到了56個(gè)不同的蛋白質(zhì),其中48(48/56=85.7%)個(gè)是關(guān)鍵蛋白質(zhì),而僅有19(48/56=33.9%)個(gè)不同關(guān)鍵蛋白質(zhì)被NC找到而被LSED-NC忽略。這說明,通過基于蛋白質(zhì)亞細(xì)胞定位相互作用子網(wǎng)的關(guān)鍵性綜合評分比基于全局蛋白質(zhì)相互作用網(wǎng)絡(luò)的關(guān)鍵性評分更加準(zhǔn)確,基于亞細(xì)胞定位特異性的蛋白質(zhì)關(guān)鍵性綜合得分更能刻畫蛋白質(zhì)的關(guān)鍵性,且能夠降低了假陽性相互作用對中心性計(jì)算造成的影響。綜上所述,基于本發(fā)明的基于蛋白質(zhì)亞細(xì)胞定位特異性的關(guān)鍵蛋白質(zhì)識別方法(LSED),亞細(xì)胞定位信息對預(yù)測出來的關(guān)鍵蛋白質(zhì)的準(zhǔn)確性以及與已知關(guān)鍵蛋白質(zhì)匹配的敏感度和特異性等方面具有重要作用。
當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1