1.一種基于多層復(fù)雜網(wǎng)絡(luò)對(duì)腫瘤miRNA標(biāo)志物的篩選方法,其特征在于,包括以下步驟:
1)提供腫瘤病人的miRNA數(shù)據(jù),所述miRNA數(shù)據(jù)包括腫瘤病人正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù);
2)將所述步驟1)得到的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù)分別進(jìn)行過(guò)濾;
3)將所述步驟2)過(guò)濾后的腫瘤組織的miRNA數(shù)據(jù)分別做歸一化處理,得到標(biāo)準(zhǔn)化的腫瘤組織的miRNA數(shù)據(jù);
4)將所述步驟3)得到的標(biāo)準(zhǔn)化的miRNA數(shù)據(jù)與下載的miRNA成熟序列進(jìn)行序列比對(duì),分別得到miRNA表達(dá)水平之間的歐式距離矩陣、二級(jí)結(jié)構(gòu)間的差異矩陣和miRNA的序列比對(duì)值矩陣;
5)將所述步驟4)得到的三個(gè)矩陣分別作為網(wǎng)絡(luò)中節(jié)點(diǎn)間的距離,分別構(gòu)建miRNA表達(dá)量網(wǎng)絡(luò)、miRNA結(jié)構(gòu)網(wǎng)絡(luò)和miRNA序列網(wǎng)絡(luò);
6)比較所述步驟5)中的三個(gè)網(wǎng)絡(luò)的平均邊覆蓋和度分布,得到具有相似二級(jí)結(jié)構(gòu)的miRNA,所述相似二級(jí)結(jié)構(gòu)的miRNA的表達(dá)量也相似;
7)采用隨機(jī)森林模型對(duì)所述步驟2)中得到相同病人的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA的表達(dá)量選擇最佳子集,計(jì)算最佳子集的miRNA的MIC值;
8)基于所述步驟7)的最佳子集miRNA的MIC值分別構(gòu)建正常組織和腫瘤組織的miRNA網(wǎng)絡(luò);
9)計(jì)算在正常組織和腫瘤組織的miRNA網(wǎng)絡(luò)中同一節(jié)點(diǎn)的節(jié)點(diǎn)介數(shù),比較并統(tǒng)計(jì)正常組織和腫瘤組織的網(wǎng)絡(luò)中節(jié)點(diǎn)介數(shù)發(fā)生較大變化的點(diǎn),從而篩選出腫瘤miRNA標(biāo)志物的種類(lèi)。
10)采用最小網(wǎng)格聚類(lèi)方法對(duì)所述步驟4)得到的miRNA序列比對(duì)值矩陣進(jìn)行聚類(lèi),將序列相似的miRNA聚為一類(lèi),根據(jù)已知的miRNA的功能推知具有相同序列的miRNA的功能,從而驗(yàn)證篩選出腫瘤miRNA標(biāo)志物的種類(lèi)是否準(zhǔn)確。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟2)中過(guò)濾具體為從挑選的相同病人的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù)中去除miRNA表達(dá)量低于5%的數(shù)據(jù)。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟3)中歸一化處理是采用Z標(biāo)準(zhǔn)化處理;Z標(biāo)準(zhǔn)化公式如式I所示:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟5)中構(gòu)建miRNA表達(dá)量網(wǎng)絡(luò)、miRNA結(jié)構(gòu)網(wǎng)絡(luò)和miRNA序列網(wǎng)絡(luò)的方法具體為:miRNA表達(dá)水平之間的歐式距離矩陣、二級(jí)結(jié)構(gòu)間的差異矩陣和miRNA的序列比對(duì)值矩陣,作為網(wǎng)絡(luò)中miRNA結(jié)點(diǎn)間的距離,miRNA表達(dá)量網(wǎng)絡(luò)分為三個(gè)部分構(gòu)建,第一部分所選閾值為25,第二部分所選閾值為33,第三部分所選閾值為161;所述miRNA結(jié)構(gòu)網(wǎng)絡(luò)分為三部分構(gòu)建,第一部分所選閾值為16,第二部分所選閾值為27,第三部分所選閾值為49;所述miRNA序列網(wǎng)絡(luò)一次構(gòu)建完成。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟6)中平均邊覆蓋是采用以下方法進(jìn)行計(jì)算:將復(fù)雜網(wǎng)絡(luò)之間的平均邊覆蓋<o>定義為:
其中,k為至少在一個(gè)網(wǎng)絡(luò)層中出現(xiàn)的結(jié)點(diǎn)對(duì)數(shù);ai,j=1表示結(jié)點(diǎn)和結(jié)點(diǎn)之間有連邊,ai,j=0表示結(jié)點(diǎn)和結(jié)點(diǎn)之間無(wú)連邊;<0>=1時(shí)表示當(dāng)且僅當(dāng)所有網(wǎng)絡(luò)連邊都相同。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟7)中選擇最佳子集后還包括:十折交叉驗(yàn)證對(duì)數(shù)據(jù)進(jìn)行驗(yàn)證。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟7)中選擇最佳子集是采用隨機(jī)森林模型分類(lèi)器對(duì)miRNA表達(dá)量進(jìn)行過(guò)濾和封裝,對(duì)正常組織和腫瘤組織的miRNA表達(dá)量進(jìn)行特征選擇。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟7)中最佳子集miRNA的MIC值采用如下計(jì)算方法得到:
首先定義兩個(gè)聯(lián)合隨機(jī)變量(X,Y)特征矩陣的分布規(guī)律的性質(zhì),然后使用G(k,l)表示;k,l均為正整數(shù);聯(lián)合隨機(jī)變量(X,Y)分布在[0,1]×[0,1]中,定義網(wǎng)格G,使得(X,Y)|G=(colG(X),rowG(Y)),所述colG(X)表示網(wǎng)格G的X軸上的網(wǎng)格列數(shù),rowG(Y)表示網(wǎng)格G的Y軸上的網(wǎng)格行數(shù);
其中X,Y表示隨機(jī)變量,p(x,y)表示聯(lián)合概率分布,p(x)p(y)表示邊際概率分布;
最大信息系數(shù)思想:把散點(diǎn)圖中的數(shù)據(jù)用網(wǎng)格進(jìn)行分區(qū),封存在網(wǎng)格里,計(jì)算變量間的MIC值轉(zhuǎn)化成網(wǎng)格的最佳分區(qū);
用M(X,Y)表示(X,Y)的群體特征矩陣如式Ⅱ所示:
I*((X,Y),s,t)=maxI((X,Y)|G)
s·t<B(n)=n0.6
其中:G∈G(k,l),I(X,Y),代表的交互信息;n表示數(shù)據(jù)的數(shù)量,s,t分別表示軸和軸分區(qū)的數(shù)量;
所述的MIC值計(jì)算公式為MIC=maxs.t<B(n)M(X,Y)s,t,。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計(jì)算節(jié)點(diǎn)介數(shù)的方法是采用Matlab程序運(yùn)算。
10.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟10)中最小網(wǎng)格聚類(lèi)方法具體為:
定義:x設(shè)為任一miRNA,Y為miRNA集合,則D(x,Y)=miny∈YD(x,y)為到的距離;記[x]為包含miRNA:x的類(lèi),Γ為所有miRNA的集合;最小網(wǎng)格聚類(lèi)方法如下:
(1)求(x1,x2)=argmaxx,yD(x,y),設(shè)x1,y1為兩個(gè)初始類(lèi),CL1=[x1],CL2=[x2]。C1={CL1,CL2},R1=Γ\C1,集合R1為剩下的miRNA集合;
(2)n步以后,可得Cn={CL1,CL2,…,CLn+1},Rn=Γ\Cn,其中CLi為單點(diǎn)類(lèi),i=1,2,…,n+1,在n+1步,設(shè)為剩余miRNA與集合距離,若MD>ε,ε為設(shè)定的最小網(wǎng)格閾值,需找設(shè)Cn+1={Cn,xMD},Rn+1=Γ\Cn+1,直到滿(mǎn)足MD<ε;
(3)假設(shè)上述步驟在N步停止,有CN={CL1,CL2,…,CLN+1},對(duì)于任意x∈RN的,尋找與其距離最近的類(lèi),若yk∈CLk則是CLk類(lèi);
定義:設(shè)CLi為任一個(gè)聚類(lèi),則,為聚類(lèi)CLi的半徑。