一種基于功能模塊的生物分子網(wǎng)絡(luò)分析的方法
【專利摘要】本發(fā)明屬于生物信息【技術(shù)領(lǐng)域】。本發(fā)明提供了一種基于功能模塊的生物分子網(wǎng)絡(luò)如基因表達(dá)調(diào)控網(wǎng)絡(luò)或蛋白質(zhì)相互作用等網(wǎng)絡(luò)間比較的方法,主要包括如下步驟:構(gòu)建生物網(wǎng)絡(luò)的鄰接矩陣Madj,計(jì)算網(wǎng)絡(luò)節(jié)點(diǎn)間的功能相似性矩陣Msim,計(jì)算網(wǎng)絡(luò)邊的功能權(quán)重矩陣,最小圖熵算法挖掘網(wǎng)絡(luò)模塊,最后對(duì)網(wǎng)絡(luò)模塊進(jìn)行功能富集分析,其中符號(hào)含義如說明書中所定義。
【專利說明】一種基于功能模塊的生物分子網(wǎng)絡(luò)分析的方法
[0001]
【技術(shù)領(lǐng)域】
[0002]本發(fā)明屬于生物信息【技術(shù)領(lǐng)域】。更具體而言,本發(fā)明涉及生物分子網(wǎng)絡(luò)如蛋白質(zhì)-蛋白質(zhì)相互作用網(wǎng)絡(luò)或基因表達(dá)調(diào)控網(wǎng)絡(luò)。
【背景技術(shù)】
[0003]過去的幾十年,分子生物學(xué)的研究對(duì)象主要是生物體內(nèi)部的單個(gè)組織、細(xì)胞或基因,利用的是經(jīng)典還原論的思想,研究難免留于局部。實(shí)際上,生物體是一個(gè)復(fù)雜系統(tǒng),生物分子之間存在層次性關(guān)聯(lián)及相互作用,且生命現(xiàn)象并不是一個(gè)靜態(tài)而是一個(gè)動(dòng)態(tài)演化的過程。網(wǎng)絡(luò)分析由于它的系統(tǒng)性及內(nèi)部元素間的關(guān)聯(lián)性已成為研究現(xiàn)代生物學(xué)及系統(tǒng)生物學(xué)的一個(gè)重要方法。
[0004]隨著生物芯片、高通量測(cè)序、質(zhì)譜等分子生物學(xué)實(shí)驗(yàn)技術(shù)的飛速發(fā)展,產(chǎn)生了海量的基因組學(xué)、轉(zhuǎn)錄組學(xué)、蛋白質(zhì)組學(xué)及代謝組學(xué)等高通量數(shù)據(jù),并伴隨之產(chǎn)生了常見的生物網(wǎng)絡(luò)如蛋白質(zhì)相互作用網(wǎng)絡(luò)、基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)、代謝調(diào)控網(wǎng)絡(luò)、非編碼基因調(diào)控網(wǎng)絡(luò)及各種跨組學(xué)調(diào)控網(wǎng)絡(luò)等。這些網(wǎng)絡(luò)的應(yīng)用極大地促進(jìn)了對(duì)基因表達(dá)調(diào)控機(jī)制、蛋白質(zhì)功能機(jī)制、代謝物傳遞機(jī)制等的研究,并廣泛應(yīng)用于疾病機(jī)制研究,藥物相互作用研究,育種遺傳研究和考古進(jìn)化研究等領(lǐng)域。
[0005]生物分子網(wǎng)絡(luò)的復(fù)雜性,一方面體現(xiàn)在網(wǎng)絡(luò)的分子組成,比如人類的基因數(shù)為20,000^30, 000個(gè),人類蛋白質(zhì)及其修飾的種類更是指數(shù)級(jí)增長(zhǎng);另一方面是生物分子間關(guān)系的復(fù)雜性,比如基因表達(dá)轉(zhuǎn)錄調(diào)控、轉(zhuǎn)錄后調(diào)控、非編碼基因調(diào)控及蛋白質(zhì)翻譯后修飾等。一般網(wǎng)絡(luò)的拓?fù)湫再|(zhì)可以從全局進(jìn)行分析,但從整體上研究生物分子網(wǎng)絡(luò)的功能可行性較低。此外,生物分子網(wǎng)絡(luò)還具有無尺度性、小世界特征和模塊化特征,即網(wǎng)絡(luò)中大部分的節(jié)點(diǎn)度較小,而少部分節(jié)點(diǎn)與其它節(jié)點(diǎn)的連接度比較高;網(wǎng)絡(luò)中的大部分節(jié)點(diǎn)都不是直接相連的,但可以通過有限幾個(gè)節(jié)點(diǎn)`進(jìn)行連通;網(wǎng)絡(luò)中的部分節(jié)點(diǎn)呈現(xiàn)高聚類性,模塊內(nèi)部連接緊密,模塊間連接比較稀疏。模塊是實(shí)現(xiàn)生物功能的主體,與功能之間的聯(lián)系也更為緊密,承擔(dān)著各個(gè)生物學(xué)功能的模塊被定義為網(wǎng)絡(luò)的功能模塊。因此生物網(wǎng)絡(luò)分析的策略是:首先從總體上分析網(wǎng)絡(luò)的拓?fù)鋵W(xué)性質(zhì),然后是挖掘全局網(wǎng)絡(luò)中的模塊,最后基于網(wǎng)絡(luò)模塊功能分析研究全局網(wǎng)絡(luò)的功能機(jī)制。目前常用的網(wǎng)絡(luò)模塊識(shí)別算法和軟件有層次聚類、k近鄰、k均值、AutoS0ME、MCL、MC0DE、GLAY和MINE等,其中MCL馬爾科夫聚類算法是一種基于隨機(jī)流模擬的圖聚類算法,MCODE是給定網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)一個(gè)權(quán)值(可以為節(jié)點(diǎn)的連接度),根據(jù)貪婪算法分離出網(wǎng)絡(luò)中稠密的區(qū)域,再對(duì)這些區(qū)域進(jìn)行整合,添加或刪除節(jié)點(diǎn)。上述的方法中,無一例外均是采用網(wǎng)絡(luò)拓?fù)鋵傩赃M(jìn)行網(wǎng)絡(luò)模塊的識(shí)別,然后基于基因本體論(Gene Ontology, GO)方法進(jìn)行功能富集得到模塊的功能。這些方法存在的共同問題是在挖掘網(wǎng)絡(luò)模塊的時(shí)候,依據(jù)的是網(wǎng)絡(luò)中節(jié)點(diǎn)的拓?fù)鋵W(xué)性質(zhì)(度、聚類系數(shù)、介數(shù)等)而沒有考慮相鄰節(jié)點(diǎn)間的功能相似性。
【發(fā)明內(nèi)容】
[0006]本發(fā)明結(jié)合了網(wǎng)絡(luò)中節(jié)點(diǎn)間的功能相似性和拓?fù)湫再|(zhì),使得生物分子網(wǎng)絡(luò)由無權(quán)重的網(wǎng)絡(luò)成為邊具有功能相似性權(quán)重的網(wǎng)絡(luò),然后再基于權(quán)重模塊識(shí)別方法來挖掘生物網(wǎng)絡(luò)中的功能模塊。
[0007]本發(fā)明提供了一種基于功能模塊的生物分子網(wǎng)絡(luò)分析方法,通過網(wǎng)絡(luò)中節(jié)點(diǎn)間的功能相似性結(jié)合網(wǎng)絡(luò)的拓?fù)湫再|(zhì),篩選出網(wǎng)絡(luò)中功能關(guān)聯(lián)的一些節(jié)點(diǎn)和邊,組成功能模塊。
[0008]在一個(gè)實(shí)施方案中,對(duì)于數(shù)學(xué)化的生物網(wǎng)絡(luò)G(V,E),V表示網(wǎng)絡(luò)中的節(jié)點(diǎn)集合,E表示網(wǎng)絡(luò)中邊的集合,本發(fā)明是這樣實(shí)現(xiàn)的,主要包括如下流程:
步驟1,基于所述生物網(wǎng)絡(luò)G,構(gòu)建網(wǎng)絡(luò)節(jié)點(diǎn)間的鄰接矩陣Madj,矩陣的行和列分別表示網(wǎng)絡(luò)中的節(jié)點(diǎn)集合V,矩陣由0和I構(gòu)成,如果兩個(gè)節(jié)點(diǎn)間存在邊關(guān)系,則矩陣中此兩個(gè)節(jié)點(diǎn)所在行和列相交的元素為1,其他情況則為O。
[0009]步驟2,構(gòu)建網(wǎng)絡(luò)節(jié)點(diǎn)間的功能相似性矩陣Msim,矩陣的行和列分別表示網(wǎng)絡(luò)中的節(jié)點(diǎn)集合V,矩陣由0.001-1之間的小數(shù)構(gòu)成,如果兩個(gè)節(jié)點(diǎn)間存在語義相似性,則此矩陣中此兩個(gè)節(jié)點(diǎn)所在行和列相交的元素為這兩個(gè)節(jié)點(diǎn)的功能語義相似性得分;功能語義相似性得分計(jì)算優(yōu)選基因本體論中的分子功能(Molecular Function)或生物學(xué)過程(Biological Process)語義,其次是細(xì)胞學(xué)組成(Cellular Component)語義。如果兩個(gè)分子節(jié)點(diǎn)間存在完全語義相似性則值為1,如果兩個(gè)分子節(jié)點(diǎn)間不存在語義相似性則值為
0.001,功能語義相似性方法優(yōu)選GOSemSim算法(Yu G, Bioinformatics 2010)。
[0010]步驟3,計(jì)算網(wǎng)絡(luò)邊的功能權(quán)重矩陣Me,
【權(quán)利要求】
1.一種基于功能模塊的生物網(wǎng)絡(luò)分析方法,通過網(wǎng)絡(luò)中節(jié)點(diǎn)間的功能相似性結(jié)合網(wǎng)絡(luò)的拓?fù)湫再|(zhì),篩選出網(wǎng)絡(luò)中功能關(guān)聯(lián)的一些節(jié)點(diǎn)和邊,組成功能模塊。
2.權(quán)利要求1的方法,對(duì)于給定的生物網(wǎng)絡(luò)G(V,E),V網(wǎng)絡(luò)中的節(jié)點(diǎn)集合,E網(wǎng)絡(luò)中邊的集合,該方法包含如下步驟: 步驟1,基于所述生物網(wǎng)絡(luò)G,構(gòu)建網(wǎng)絡(luò)節(jié)點(diǎn)間的鄰接矩陣Madj,矩陣的行和列分別表示網(wǎng)絡(luò)中的節(jié)點(diǎn)集合V,矩陣由O和I構(gòu)成,如果兩個(gè)節(jié)點(diǎn)間存在邊關(guān)系,則矩陣中此兩個(gè)節(jié)點(diǎn)所在行和列相交的元素為1,其他情況則為O ; 步驟2,構(gòu)建網(wǎng)絡(luò)節(jié)點(diǎn)間的鄰接矩陣Msim,矩陣的行和列分別表示網(wǎng)絡(luò)中的節(jié)點(diǎn)集合V,矩陣由0.001-1的小數(shù)構(gòu)成,如果兩個(gè)節(jié)點(diǎn)間存在語義相似性,則矩陣中此兩個(gè)節(jié)點(diǎn)所在行和列相交的元素為這兩個(gè)節(jié)點(diǎn)的功能語義相似性得分,如果兩個(gè)分子節(jié)點(diǎn)間存在完全語義相似性則為1,如果兩個(gè)分子節(jié)點(diǎn)間不存在語義相似性則為0.001 ; 步驟3,計(jì)算網(wǎng)絡(luò)邊的功能權(quán)重矩陣Me,
3.權(quán)利要求1的方法,還包括步驟5,對(duì)步驟4識(shí)別出的功能模塊進(jìn)行功能富集分析(例如在線功能富集分析工具DAVID或Perl平臺(tái)的GO::TermFinder工具)。
4.權(quán)利要求1-3任一項(xiàng)的方法,所述生物網(wǎng)絡(luò)包含基因轉(zhuǎn)錄調(diào)控網(wǎng)絡(luò)、蛋白質(zhì)相互作用網(wǎng)絡(luò)、代謝網(wǎng)絡(luò)和非編碼基因調(diào)控網(wǎng)絡(luò)及其跨組學(xué)調(diào)控網(wǎng)絡(luò)等。
5.權(quán)利要求2或3的方法,所述功能語義相似性得分計(jì)算基于基因本體GeneOntology的分子功能語義,或者基于生物學(xué)過程和細(xì)胞學(xué)組成語義,例如通過功能語義相似性算法 GOSemSim(Yu G, Bioinformatics 2010)進(jìn)行計(jì)算。
6.權(quán)利要求2或3的方法,所述最小圖熵算法為:圖熵 S(0.P) = -1it1Pi1gzPi +q.log^.^, Q 表示子模塊內(nèi)的頂點(diǎn)集合,i 屬于 Q ,p.= ^/Ni,Iii為節(jié)點(diǎn)與模塊內(nèi)的鄰接節(jié)點(diǎn)間功能權(quán)重累加和,Ni為節(jié)點(diǎn)在大網(wǎng)絡(luò)中與其鄰接節(jié)點(diǎn)間功能權(quán)重累加和
【文檔編號(hào)】G06F19/12GK103778349SQ201410042705
【公開日】2014年5月7日 申請(qǐng)日期:2014年1月29日 優(yōu)先權(quán)日:2014年1月29日
【發(fā)明者】不公告發(fā)明人 申請(qǐng)人:思博奧科生物信息科技(北京)有限公司