本發(fā)明涉及腫瘤標(biāo)志物技術(shù)領(lǐng)域,具體涉及一種基于多層復(fù)雜網(wǎng)絡(luò)對腫瘤miRNA標(biāo)志物的篩選方法。
背景技術(shù):
癌癥是嚴(yán)重威脅人類生存和社會(huì)發(fā)展的重大疾病和嚴(yán)重的公共衛(wèi)生問題之一,癌癥控制已成為世界各國政府的衛(wèi)生戰(zhàn)略重點(diǎn)。MicroRNAs(miRNAs)是在真核生物中發(fā)現(xiàn)的一類內(nèi)源性的具有調(diào)控功能的非編碼RNA,其大小長約20~25個(gè)核苷酸。近些年,對miRNA研究越來越多,miRNA的表達(dá)水平與癌癥的類型、分期及病人的其它臨床數(shù)據(jù)相關(guān),在癌癥生物學(xué)的幾乎所有方面都扮演角色,如增殖、凋亡、入侵、轉(zhuǎn)移和血管生成。
在選擇腫瘤標(biāo)志物時(shí),僅僅選擇一種血清miRNA作為腫瘤標(biāo)志物往往特異性較低,若測定多種miRNA組合或miRNA表達(dá)譜,可提高診斷的準(zhǔn)確性。但是目前遇到的問題是癌癥的復(fù)雜性。盡管系統(tǒng)分子生物學(xué)技術(shù)極大地提高了發(fā)現(xiàn)導(dǎo)致腫瘤惡化的miRNA表達(dá)譜異常的可能性,但產(chǎn)生的海量分子生物學(xué)數(shù)據(jù)很少被系統(tǒng)分析和利用。
盡管現(xiàn)有技術(shù)中有研究對癌癥大數(shù)據(jù)和癌癥miRNA表達(dá)譜進(jìn)行數(shù)據(jù)挖掘,找出數(shù)據(jù)中蘊(yùn)含的信息,例如,Wu等人綜合比較了線性判別方法、二次判別分析,k近鄰,bagging和boosting分類樹(裝袋和提高分類樹),支持向量機(jī)和隨機(jī)森林方法在卵巢癌分類中的應(yīng)用,隨機(jī)森林方法優(yōu)于其他方法(Comparison ofstatistical methods forclassification ofovarian cancerusing mass spectrometry data.BaolinWu,Bioinformatics,2003,19(13):1636–1643.),但是該方法使用比較復(fù)雜。另外,McDermott等人利用LuminimalA-like乳腺癌患者和對照組的血液樣本,提取RNA,逆轉(zhuǎn)錄并進(jìn)行微陣列分析確定76個(gè)差異表達(dá)miRNA,進(jìn)一步通過神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)挖掘算法識(shí)別10個(gè)差異表達(dá)miRNA,其中組合miR-29、miR-181a和miR-652經(jīng)過二進(jìn)制邏輯回歸可較好區(qū)分癌癥組和對照組,準(zhǔn)確率0.8,經(jīng)RQ-PCR檢測這三個(gè)miRNA在乳腺癌中低表達(dá)(Identification andValidationofOncologic miRNABiomarkers for LuminalA-like Breast Cancer.McDermottAM,PLoS ONE,2014,9(1):e87032.doi:10.1371/journal.pone.0087032)。但是人工神經(jīng)網(wǎng)絡(luò)需要大量的參數(shù),如網(wǎng)絡(luò)結(jié)構(gòu)、權(quán)值和閾值的初始值。由于不能觀察中間的學(xué)習(xí)過程,輸出結(jié)果難以解釋,會(huì)影響到結(jié)果的可信度和可接受程度,并且人工神經(jīng)網(wǎng)絡(luò)算法學(xué)習(xí)時(shí)間長,有時(shí)甚至可能達(dá)不到學(xué)習(xí)的目的。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于通過對癌癥大數(shù)據(jù)和癌癥miRNA表達(dá)譜的數(shù)據(jù)挖掘,找出數(shù)據(jù)中蘊(yùn)含的隱藏信息,找到miRNA序列、二級結(jié)構(gòu)和表達(dá)量的關(guān)系,提供一種新的視角分析發(fā)現(xiàn)腫瘤診斷標(biāo)記物。
為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供以下技術(shù)方案:
本發(fā)明提供了一種基于多層復(fù)雜網(wǎng)絡(luò)對腫瘤miRNA標(biāo)志物的篩選方法,包括以下步驟:
1)提供腫瘤病人的miRNA數(shù)據(jù),所述miRNA數(shù)據(jù)包括腫瘤病人正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù);
2)將所述步驟1)得到的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù)分別進(jìn)行過濾;
3)將所述步驟2)過濾后的miRNA數(shù)據(jù)分別做歸一化處理,得到標(biāo)準(zhǔn)化的正常組織和腫瘤組織的miRNA數(shù)據(jù);
4)將所述步驟3)得到的標(biāo)準(zhǔn)化的miRNA數(shù)據(jù)與下載的miRNA成熟序列進(jìn)行序列比對,分別得到miRNA表達(dá)水平之間的歐式距離矩陣、二級結(jié)構(gòu)間的差異矩陣和miRNA的序列比對值矩陣;
5)將所述步驟4)得到的三個(gè)矩陣作為網(wǎng)絡(luò)中節(jié)點(diǎn)間的距離,構(gòu)建miRNA表達(dá)量網(wǎng)絡(luò)、miRNA結(jié)構(gòu)網(wǎng)絡(luò)和miRNA序列網(wǎng)絡(luò);
6)比較所述步驟5)中的三個(gè)網(wǎng)絡(luò)的平均邊覆蓋和度分布,得到相似二級結(jié)構(gòu)的miRNA表達(dá)量相似;
7)采用隨機(jī)森林模型對所述步驟2)中得到相同病人的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA的表達(dá)量選擇最佳子集,計(jì)算最佳子集的miRNA的MIC值(Maximal Information coefficient,MIC);
8)基于所述步驟7)的最佳子集miRNA的MIC值分別構(gòu)建正常組織和腫瘤組織的miRNA網(wǎng)絡(luò);
9)計(jì)算在正常組織和腫瘤組織的miRNA網(wǎng)絡(luò)中同一節(jié)點(diǎn)的節(jié)點(diǎn)介數(shù),比較并統(tǒng)計(jì)正常組織和腫瘤組織的網(wǎng)絡(luò)中節(jié)點(diǎn)介數(shù)發(fā)生較大變化的點(diǎn),從而篩選出腫瘤miRNA標(biāo)志物的種類。
10)采用最小網(wǎng)格聚類方法對所述步驟4)得到的miRNA序列比對值矩陣進(jìn)行聚類,將序列相似的miRNA聚為一類,根據(jù)已知的miRNA的功能推知具有相同序列的miRNA的功能,從而驗(yàn)證篩選出腫瘤miRNA標(biāo)志物的種類是否準(zhǔn)確。
優(yōu)選的,所述步驟2)中過濾具體為挑選得到相同病人的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù)去除miRNA表達(dá)量低于5%的數(shù)據(jù)。
優(yōu)選的,所述步驟3)中歸一化處理是采用Z標(biāo)準(zhǔn)化處理;Z標(biāo)準(zhǔn)化公式如式I所示為:
優(yōu)選的,所述步驟5)中構(gòu)建miRNA表達(dá)量網(wǎng)絡(luò)、miRNA結(jié)構(gòu)網(wǎng)絡(luò)和miRNA序列網(wǎng)絡(luò)的方法具體為:miRNA表達(dá)水平之間的歐式距離矩陣、二級結(jié)構(gòu)間的差異矩陣和miRNA的序列比對值矩陣,作為網(wǎng)絡(luò)中miRNA結(jié)點(diǎn)間的距離,miRNA表達(dá)量網(wǎng)絡(luò)分為三個(gè)部分構(gòu)建,第一部分所選閾值為25,第二部分所選閾值為33,第三部分所選閾值為161;所述miRNA結(jié)構(gòu)網(wǎng)絡(luò)分為三部分構(gòu)建,第一部分所選閾值為16,第二部分所選閾值為27,第三部分所選閾值為49;所述miRNA序列網(wǎng)絡(luò)一次構(gòu)建完成。
優(yōu)選的,所述步驟6)中平均邊覆蓋是采用以下方法進(jìn)行計(jì)算:將復(fù)雜網(wǎng)絡(luò)之間的平均邊覆蓋<o>定義為:
其中,k為至少在一個(gè)網(wǎng)絡(luò)層中出現(xiàn)的結(jié)點(diǎn)對數(shù);ai,j=1表示結(jié)點(diǎn)和結(jié)點(diǎn)之間有連邊,ai,j=0表示結(jié)點(diǎn)和結(jié)點(diǎn)之間無連邊;<0>=1時(shí)表示當(dāng)且僅當(dāng)所有網(wǎng)絡(luò)連邊都相同。
優(yōu)選的,所述步驟7)中選擇最佳子集后還包括:十折交叉對數(shù)據(jù)進(jìn)行驗(yàn)證。
優(yōu)選的,所述步驟7)中選擇最佳子集是采用隨機(jī)森林模型分類器對miRNA表達(dá)量進(jìn)行過濾和封裝,對正常組織和腫瘤組織的miRNA表達(dá)量進(jìn)行特征選擇。
優(yōu)選的,所述步驟7)中最佳子集miRNA的MIC值采用如下計(jì)算方法得到:
首先定義兩個(gè)聯(lián)合隨機(jī)變量(X,Y)特征矩陣的分布規(guī)律的性質(zhì),然后使用G(k,l)表示;k,l均為正整數(shù);聯(lián)合隨機(jī)變量(X,Y)分布在[0,1]×[0,1]中,定義網(wǎng)格G,使得(X,Y)|G=(colG(X),rowG(Y)),這里的colG(X)表示網(wǎng)格G的X軸上的網(wǎng)格列數(shù),rowG(Y)表示網(wǎng)格G的Y軸上的網(wǎng)格行數(shù);
其中X,Y表示隨機(jī)變量,p(x,y)表示聯(lián)合概率分布,p(x)p(y)表示邊際概率分布;
最大信息系數(shù)思想:把散點(diǎn)圖中的數(shù)據(jù)用網(wǎng)格進(jìn)行分區(qū),封存在網(wǎng)格里,計(jì)算變量間的MIC值轉(zhuǎn)化成網(wǎng)格的最佳分區(qū);
用M(X,Y)表示(X,Y)的群體特征矩陣如式Ⅱ所示:
I*((X,Y),s,t)=maxI((X,Y)|G)
s·t<B(n)=n0.6
其中:G∈G(k,l),I(X,Y),代表的交互信息;n表示數(shù)據(jù)的數(shù)量,s,t分別表示軸和軸分區(qū)的數(shù)量;
所述的MIC值計(jì)算公式為MIC=maxs.t<B(n)M(X,Y)s,t,。
優(yōu)選的,所述計(jì)算節(jié)點(diǎn)介數(shù)的方法是采用Matlab程序運(yùn)算。
優(yōu)選的,所述最小網(wǎng)格聚類方法具體為:
定義:x設(shè)為任一miRNA,Y為miRNA集合,則D(x,Y)=miny∈YD(x,y)為到的距離;記[x]為包含miRNA:x的類,Γ為所有miRNA的集合;最小網(wǎng)格聚類方法如下:
(1)求(x1,x2)=argmaxx,yD(x,y),設(shè)x1,y1為兩個(gè)初始類,CL1=[x1],CL2=[x2]。C1={CL1,CL2},R1=Γ\C1,集合R1為剩下的miRNA集合;
(2)n步以后,可得Cn={CL1,CL2,…,CLn+1},Rn=Γ\Cn,其中CLi為單點(diǎn)類,i=1,2,…,n+1,在n+1步,設(shè)為剩余miRNA與集合距離,若MD>ε,ε為設(shè)定的最小網(wǎng)格閾值,需找設(shè)Cn+1={Cn,xMD},Rn+1=Γ\Cn+1,直到滿足MD<ε;
(3)假設(shè)上述步驟在N步停止,有CN={CL1,CL2,…,CLN+1},對于任意x∈RN的,尋找與其距離最近的類,若yk∈CLk則是CLk類;
定義:設(shè)CLi為任一個(gè)聚類,則,為聚類CLi的半徑。
本發(fā)明提供的一種基于多層復(fù)雜網(wǎng)絡(luò)對腫瘤miRNA標(biāo)志物的篩選方法,通過構(gòu)建正常組織和腫瘤組織的miRNA網(wǎng)絡(luò),得到兩個(gè)網(wǎng)絡(luò)結(jié)構(gòu)差異較大的節(jié)點(diǎn)介數(shù),從而篩選出腫瘤miRNA標(biāo)志物的種類。將隨機(jī)森林模型和復(fù)雜網(wǎng)絡(luò)中結(jié)點(diǎn)重要性度量—介數(shù)結(jié)合在一起,提供一種新的視角分析發(fā)現(xiàn)致病因子或診斷標(biāo)記物。篩選微小RNA分子組學(xué)等系統(tǒng)生物組學(xué)數(shù)據(jù),構(gòu)建了由多變量組成的癌癥分子信息數(shù)據(jù)結(jié)構(gòu)網(wǎng)絡(luò)。通過生物信息學(xué),數(shù)學(xué)統(tǒng)計(jì),建立不同分子網(wǎng)絡(luò)數(shù)據(jù)的相關(guān)性,從而整合了與腫瘤相關(guān)的不同數(shù)據(jù)層的數(shù)據(jù),在各種不同類型生物學(xué)數(shù)據(jù)層之間建立起高度的內(nèi)部連結(jié),從而形成一個(gè)復(fù)雜的網(wǎng)絡(luò)。這種不同種類生物分子之間的高度整合,從而提供了一種方法更加簡便,準(zhǔn)確度高的篩選方法,從而為癌癥診斷和藥物的發(fā)現(xiàn)提供有價(jià)值的參考。
說明書附圖
圖1為本發(fā)明實(shí)施例1中miRNA表達(dá)量網(wǎng)絡(luò)、miRNA二級結(jié)構(gòu)網(wǎng)絡(luò)和miRNA比對序列網(wǎng)絡(luò);
圖2為本發(fā)明實(shí)施例2中miRNA表達(dá)量網(wǎng)絡(luò)和二級結(jié)構(gòu)網(wǎng)絡(luò)度分布情況;
圖3為本發(fā)明實(shí)施例2中乳腺癌病人正常組織和腫瘤組織miRNA表達(dá)量的MIC網(wǎng)絡(luò);
圖4為本發(fā)明實(shí)施例3中前列腺病人正常組織和腫瘤組織miRNA表達(dá)量的MIC網(wǎng)絡(luò)。
具體實(shí)施方式
本發(fā)明提供了一種基于多層復(fù)雜網(wǎng)絡(luò)對腫瘤miRNA標(biāo)志物的篩選方法,包括以下步驟:
1)提供腫瘤病人的miRNA數(shù)據(jù),所述miRNA數(shù)據(jù)包括腫瘤病人正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù);
2)將所述步驟1)得到的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù)分別進(jìn)行過濾;
3)將所述步驟2)過濾后的腫瘤組織的miRNA數(shù)據(jù)分別做歸一化處理,得到標(biāo)準(zhǔn)化的腫瘤組織的miRNA數(shù)據(jù);
4)將所述步驟3)得到的標(biāo)準(zhǔn)化的miRNA數(shù)據(jù)與下載的miRNA成熟序列進(jìn)行序列比對,分別得到miRNA表達(dá)水平之間的歐式距離矩陣、二級結(jié)構(gòu)間的差異矩陣和miRNA的序列比對值矩陣;
5)將所述步驟4)得到的三個(gè)矩陣作為網(wǎng)絡(luò)中節(jié)點(diǎn)間的距離,構(gòu)建miRNA表達(dá)量網(wǎng)絡(luò)、miRNA結(jié)構(gòu)網(wǎng)絡(luò)和miRNA序列網(wǎng)絡(luò);
6)比較所述步驟5)中的三個(gè)網(wǎng)絡(luò)的平均邊覆蓋和度分布,發(fā)現(xiàn)相似二級結(jié)構(gòu)的miRNA,它們的表達(dá)量也相似;
7)采用隨機(jī)森林模型對所述步驟2)中得到相同病人的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA的表達(dá)量選擇最佳子集,計(jì)算最佳子集的miRNA的MIC值;
8)基于所述步驟7)的最佳子集miRNA的MIC值分別構(gòu)建正常組織和腫瘤組織的miRNA網(wǎng)絡(luò);
9)計(jì)算在正常組織和腫瘤組織的miRNA網(wǎng)絡(luò)中的同一節(jié)點(diǎn)的節(jié)點(diǎn)介數(shù),比較并統(tǒng)計(jì)正常組織和腫瘤組織的網(wǎng)絡(luò)中節(jié)點(diǎn)介數(shù)發(fā)生較大變化的點(diǎn),從而篩選出腫瘤miRNA標(biāo)志物的種類。
10)采用最小網(wǎng)格聚類方法對所述步驟4)得到的miRNA序列比對值矩陣進(jìn)行聚類,將序列相似的miRNA聚為一類,根據(jù)已知的miRNA的功能推知具有相同序列的miRNA的功能,從而驗(yàn)證篩選出腫瘤miRNA標(biāo)志物的種類是否準(zhǔn)確。
本發(fā)明提供的一種基于多層復(fù)雜網(wǎng)絡(luò)對腫瘤miRNA標(biāo)志物的篩選方法,將隨機(jī)森林模型和復(fù)雜網(wǎng)絡(luò)中結(jié)點(diǎn)重要性度量—介數(shù)結(jié)合在一起,提供一種新的視角分析發(fā)現(xiàn)致病因子或診斷標(biāo)記物。
首先,提供腫瘤病人的miRNA數(shù)據(jù),所述miRNA數(shù)據(jù)包括腫瘤病人正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù)。
本發(fā)明中,所述腫瘤病人的miRNA數(shù)據(jù)的來源為癌癥基因信息數(shù)據(jù)庫The Cancer GenomeAtlas/TCG(https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.h tm)。
得到的相同病人的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù)后,本發(fā)明對得到的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù)分別進(jìn)行過濾。
本發(fā)明中,所述過濾具體優(yōu)選為挑選得到相同病人的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA數(shù)據(jù)中去除miRNA表達(dá)量低于5%的數(shù)據(jù)。
得到的過濾后的miRNA數(shù)據(jù)后,本發(fā)明為減少后續(xù)數(shù)據(jù)的差距,對所述過濾后的腫瘤組織的miRNA數(shù)據(jù)分別做歸一化處理,得到標(biāo)準(zhǔn)化的腫瘤組織的miRNA數(shù)據(jù)。
本發(fā)明中,所述的歸一化處理優(yōu)選采用Z標(biāo)準(zhǔn)化處理進(jìn)行;所述的Z標(biāo)準(zhǔn)化公式如式I所示為:
得到的標(biāo)準(zhǔn)化的腫瘤組織的miRNA數(shù)據(jù)后,本發(fā)明對得到的標(biāo)準(zhǔn)化腫瘤組織的miRNA數(shù)據(jù)與下載的miRNA成熟序列進(jìn)行序列比對,分別得到miRNA表達(dá)水平之間的歐式距離矩陣、二級結(jié)構(gòu)間的差異矩陣和miRNA的序列比對值矩陣。本發(fā)明中,所述的miRNA成熟序列的來源優(yōu)選為miRBase(http://www.mirbase.org)數(shù)據(jù)庫下載得到。
本發(fā)明中,將標(biāo)準(zhǔn)化的腫瘤組織的miRNA數(shù)據(jù)按照下載的miRNA成熟序列的數(shù)量調(diào)整,使兩者的數(shù)據(jù)數(shù)量相同。
本發(fā)明中,所述miRNA表達(dá)水平之間的歐式距離矩陣優(yōu)選將腫瘤組織的miRNA數(shù)據(jù)與miRNA成熟序列表達(dá)水平之間的歐氏距離形成歐式距離矩陣。
本發(fā)明中,所述二級結(jié)構(gòu)間的差異矩陣優(yōu)選將標(biāo)準(zhǔn)化的腫瘤組織的miRNA序列與miRNA成熟序列的二級結(jié)構(gòu)間的差異數(shù)據(jù)形成矩陣。
本發(fā)明中,所述miRNA的序列比對值矩陣優(yōu)選是將標(biāo)準(zhǔn)化的腫瘤組織的miRNA序列與miRNA成熟序列的miRNA的序列比對值形成矩陣。miRNA序列比對優(yōu)選用Needlemen-Wunsch算法求得的matlab函數(shù)(nwalign)。
得到miRNA表達(dá)水平之間的歐式距離矩陣、二級結(jié)構(gòu)間的差異矩陣和miRNA的序列比對值矩陣后,本發(fā)明根據(jù)所述得到三個(gè)矩陣分別構(gòu)建miRNA表達(dá)量網(wǎng)絡(luò)、miRNA結(jié)構(gòu)網(wǎng)絡(luò)和miRNA序列網(wǎng)絡(luò)。
本發(fā)明中,所述miRNA表達(dá)水平之間的歐式距離矩陣的數(shù)值點(diǎn)作為網(wǎng)絡(luò)中節(jié)點(diǎn)間的距離,構(gòu)建miRNA表達(dá)量網(wǎng)絡(luò)。本發(fā)明中,所述miRNA表達(dá)量網(wǎng)絡(luò)分為三個(gè)部分構(gòu)建,第一部分所選閾值為25,第二部分所選閾值為33,第三部分所選閾值為161。
本發(fā)明中,所述二級結(jié)構(gòu)間的差異矩陣的數(shù)值點(diǎn)作為網(wǎng)絡(luò)中節(jié)點(diǎn)間的距離,構(gòu)建miRNA結(jié)構(gòu)網(wǎng)絡(luò)。本發(fā)明中,所述miRNA結(jié)構(gòu)網(wǎng)絡(luò)分為三部分構(gòu)建,第一部分所選閾值為16,第二部分所選閾值為27,第三部分所選閾值為49。
本發(fā)明中,所述miRNA序列比對值矩陣的數(shù)值點(diǎn)作為網(wǎng)絡(luò)中節(jié)點(diǎn)間的距離,構(gòu)建miRNA序列網(wǎng)絡(luò)。本發(fā)明中,所述miRNA序列網(wǎng)絡(luò)優(yōu)選一次構(gòu)建完成,所選閾值為31.2。
得到miRNA表達(dá)量網(wǎng)絡(luò)、miRNA結(jié)構(gòu)網(wǎng)絡(luò)和miRNA序列網(wǎng)絡(luò)后,本發(fā)明對所述miRNA表達(dá)量網(wǎng)絡(luò)、miRNA結(jié)構(gòu)網(wǎng)絡(luò)和miRNA序列網(wǎng)絡(luò)通過計(jì)算兩者平均邊覆蓋和度分布的趨勢,具有相似二級結(jié)構(gòu)的miRNA,它們的表達(dá)量也相似。
本發(fā)明中,所述平均邊覆蓋具體技術(shù)方法優(yōu)選為將復(fù)雜網(wǎng)絡(luò)之間的平均邊覆蓋(average edge overlap)<o>定義為:
其中,k為至少在一個(gè)網(wǎng)絡(luò)層中出現(xiàn)的結(jié)點(diǎn)對數(shù);ai,j=1表示結(jié)點(diǎn)和結(jié)點(diǎn)之間有連邊,ai,j=0表示結(jié)點(diǎn)和結(jié)點(diǎn)之間無連邊;<0>=1時(shí)表示當(dāng)且僅當(dāng)所有網(wǎng)絡(luò)連邊都相同。
本發(fā)明中,所述miRNA表達(dá)量網(wǎng)絡(luò)和結(jié)構(gòu)網(wǎng)絡(luò)的平均邊覆蓋和度分布相似,得到具有相似二級結(jié)構(gòu)的miRNA它的表達(dá)量也相似的結(jié)論。
基于具有相似二級結(jié)構(gòu)的miRNA它的表達(dá)量也相似的結(jié)論,采用隨機(jī)森林模型對所述過濾后的正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA的表達(dá)量選擇最佳子集,計(jì)算正常組織的miRNA數(shù)據(jù)和腫瘤組織miRNA數(shù)據(jù)的最佳子集的miRNA數(shù)據(jù)間的MIC值。
本發(fā)明中,所述隨機(jī)森林模型具體優(yōu)選為采用隨機(jī)森林模型分類器進(jìn)行選擇。所述選擇最佳子集是采用隨機(jī)森林模型分類器對miRNA表達(dá)量進(jìn)行過濾和封裝,對正常組織和腫瘤組織的miRNA表達(dá)量進(jìn)行特征選擇。所述過濾和封裝具體優(yōu)選采用R語言caret包中sbf和rfe方法進(jìn)行特征選擇,以降低維度。
本發(fā)明中,所述選擇最佳子集后優(yōu)選還包括采用十折交叉對數(shù)據(jù)進(jìn)行驗(yàn)證,以檢測最佳子集的選擇的準(zhǔn)確率。所述最佳子集的選擇經(jīng)十折交叉驗(yàn)證準(zhǔn)確率≥98.50%時(shí)才能進(jìn)入后續(xù)分析。
所述十折交叉的具體方法沒有特殊限制,采用本領(lǐng)域技術(shù)人員所熟知的十折交叉的技術(shù)方法即可。
本發(fā)明中,所述計(jì)算最佳子集miRNA的MIC值具體是最佳子集中每個(gè)miRNA之間的MIC值。
本發(fā)明中,所述最佳子集miRNA的MIC值優(yōu)選采用如下計(jì)算方法得到:
首先定義兩個(gè)聯(lián)合隨機(jī)變量(X,Y)特征矩陣的分布規(guī)律的性質(zhì),然后使用G(k,l)表示;k,l均為正整數(shù);聯(lián)合隨機(jī)變量(X,Y)分布在[0,1]×[0,1]中,定義網(wǎng)格G,使得(X,Y)|G=(colG(X),rowG(Y)),這里的colG(X)表示網(wǎng)格G的X軸上的網(wǎng)格列數(shù),rowG(Y)表示網(wǎng)格G的Y軸上的網(wǎng)格行數(shù);
其中X,Y表示隨機(jī)變量,p(x,y)表示聯(lián)合概率分布,p(x)p(y)表示邊際概率分布;
最大信息系數(shù)思想:把散點(diǎn)圖中的數(shù)據(jù)用網(wǎng)格進(jìn)行分區(qū),封存在網(wǎng)格里,計(jì)算變量間的MIC值轉(zhuǎn)化成網(wǎng)格的最佳分區(qū);
用M(X,Y)表示(X,Y)的群體特征矩陣如式Ⅱ所示:
I*((X,Y),s,t)=maxI((X,Y)|G)
s·t<B(n)=n0.6
其中:G∈G(k,l),I(X,Y)代表的交互信息;n表示數(shù)據(jù)的數(shù)量,s,t分別表示軸和軸分區(qū)的數(shù)量;
所述的MIC值計(jì)算公式為MIC=maxs.t<B(n)M(X,Y)s,t,可知:0≤MIC≤1。對于B(n)=nα中的α=0.6,n表示數(shù)據(jù)的數(shù)量,涉及探索最大上限網(wǎng)格B(n)的劃分。B(n)設(shè)置太大將導(dǎo)致隨機(jī)數(shù)據(jù)的MIC值非零,每個(gè)點(diǎn)將落到自身的小空格里;B(n)設(shè)置過小將導(dǎo)致MIC只能檢測出明顯和簡單的函數(shù)關(guān)系。所述B(n)的大小依賴n的大小。MIC-P2:反映非線性關(guān)系的程度。其中P為pearson相關(guān)系數(shù),由于MIC代表一般性的相關(guān)關(guān)系,MIC-P2值越大,非線性程度越高。
基于所述正常組織miRNA的最佳子集的MIC值和腫瘤組織miRNA的最佳子集的MIC值分別構(gòu)建正常組織miRNA網(wǎng)絡(luò)和腫瘤組織的miRNA網(wǎng)絡(luò)。
本發(fā)明中,所述構(gòu)建正常組織miRNA網(wǎng)絡(luò)和腫瘤組織的miRNA網(wǎng)絡(luò)的具體方法優(yōu)選為每兩個(gè)miRNA之間的MIC值作為網(wǎng)絡(luò)中兩個(gè)結(jié)點(diǎn)邊的權(quán)重,兩個(gè)網(wǎng)絡(luò)閾值都選0.35,互信息大于0.35的兩個(gè)節(jié)點(diǎn)之間有連邊。
計(jì)算正常組織和腫瘤組織的miRNA網(wǎng)絡(luò)中同一節(jié)點(diǎn)的節(jié)點(diǎn)介數(shù),比較并統(tǒng)計(jì)正常組織和腫瘤組織的網(wǎng)絡(luò)中節(jié)點(diǎn)介數(shù)發(fā)生較大變化的點(diǎn),從而篩選出腫瘤miRNA標(biāo)志物的種類。
本發(fā)明中,所述計(jì)算節(jié)點(diǎn)介數(shù)的方法優(yōu)選采用Matlab程序運(yùn)算。
采用最小網(wǎng)格聚類方法對所述步驟4)得到的miRNA序列比對值矩陣進(jìn)行聚類,將序列相似的miRNA聚為一類,根據(jù)已知的miRNA的功能推知具有相同序列的miRNA的功能,從而驗(yàn)證篩選出腫瘤miRNA標(biāo)志物的種類是否準(zhǔn)確。
本發(fā)明中,所述步驟10)中最小網(wǎng)格聚類方法具體優(yōu)選為:
定義:x設(shè)為任一miRNA,Y為miRNA集合,則D(x,Y)=miny∈YD(x,y)為到的距離;記[x]為包含miRNA:x的類,Γ為所有miRNA的集合;最小網(wǎng)格聚類方法如下:
(1)求(x1,x2)=argmaxx,yD(x,y),設(shè)x1,y1為兩個(gè)初始類,CL1=[x1],CL2=[x2]。C1={CL1,CL2},R1=Γ\C1,集合R1為剩下的miRNA集合;
(2)n步以后,可得Cn={CL1,CL2,…,CLn+1},Rn=Γ\Cn,其中CLi為單點(diǎn)類,i=1,2,…,n+1,在n+1步,設(shè)為剩余miRNA與集合距離,若MD>ε,ε為設(shè)定的最小網(wǎng)格閾值,需找設(shè)Cn+1={Cn,xMD},Rn+1=Γ\Cn+1,直到滿足MD<ε;
(3)假設(shè)上述步驟在N步停止,有CN={CL1,CL2,…,CLN+1},對于任意x∈RN的,尋找與其距離最近的類,若yk∈CLk則是CLk類;
定義:設(shè)CLi為任一個(gè)聚類,則,為聚類CLi的半徑。
下面結(jié)合實(shí)施例對本發(fā)明提供的一種基于多層復(fù)雜網(wǎng)絡(luò)對腫瘤miRNA標(biāo)志物的篩選方法進(jìn)行詳細(xì)的說明,但是不能把它們理解為對本發(fā)明保護(hù)范圍的限定。
實(shí)施例1
研究數(shù)據(jù)的來源為癌癥基因信息數(shù)據(jù)庫(The Cancer Genome Atlas/TCGA)(https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.htm)。選取浸潤性乳癌病人miRNASeq數(shù)據(jù)。其中,miRNA的數(shù)據(jù)為1034個(gè)數(shù),來自1206個(gè)病人。其中在miRNA表達(dá)數(shù)據(jù)中有101個(gè)為乳腺癌病人的正常組織miRNA數(shù)據(jù),其余為乳腺癌病人腫瘤組織miRNA數(shù)據(jù)。在正常組織和腫瘤組織的miRNA數(shù)據(jù)中,有很多miRNA不表達(dá)或表達(dá)率低,去除miRNA表達(dá)量低于5%的個(gè)體得到正常組織和腫瘤組織的miRNA數(shù)據(jù)。從miRBase(http://www.mirbase.org)數(shù)據(jù)庫下載收集540個(gè)miRNA的成熟序列。
對腫瘤組織的miRNA表達(dá)水平做歸一化處理,對腫瘤組織的miRNA數(shù)據(jù)進(jìn)行Z標(biāo)準(zhǔn)化,從而縮小構(gòu)建矩陣的差距。將選擇540個(gè)Z標(biāo)準(zhǔn)化的腫瘤組織的miRNA數(shù)據(jù)與540個(gè)miRNA的成熟序列進(jìn)行比對,分別得到miRNA表達(dá)水平之間的歐式距離矩陣、二級結(jié)構(gòu)間的差異矩陣和miRNA的序列比對值矩陣。將三個(gè)矩陣的數(shù)值點(diǎn)作為網(wǎng)絡(luò)中節(jié)點(diǎn)間的距離分別構(gòu)建miRNA表達(dá)量網(wǎng)絡(luò)、miRNA結(jié)構(gòu)網(wǎng)絡(luò)和miRNA序列網(wǎng)絡(luò)。
用平均邊覆蓋和度分布比較miRNA表達(dá)量網(wǎng)絡(luò)、miRNA結(jié)構(gòu)網(wǎng)絡(luò)和miRNA序列網(wǎng)絡(luò)。如附圖1所示為miRNA表達(dá)量、miRNA二級結(jié)構(gòu)和miRNA序列網(wǎng)絡(luò),其中A)為miRNA表達(dá)量網(wǎng)絡(luò),分為三個(gè)部分共有3025條邊,6個(gè)孤立點(diǎn);B)為miRNA二級結(jié)構(gòu)網(wǎng)絡(luò),三部分共有2798條邊,2個(gè)孤立點(diǎn);C)miRNA序列網(wǎng)絡(luò),共有2897條邊,4個(gè)孤立點(diǎn)。miRNA表達(dá)水平網(wǎng)絡(luò)與結(jié)構(gòu)網(wǎng)絡(luò)和序列網(wǎng)絡(luò)的平均邊覆蓋分別為0.507和0.5314,三個(gè)網(wǎng)絡(luò)的總邊數(shù)大致相同,結(jié)構(gòu)網(wǎng)絡(luò)有2798個(gè)總邊數(shù),表達(dá)量網(wǎng)絡(luò)有3025個(gè)總邊數(shù),比對序列值網(wǎng)絡(luò)有2897個(gè)總邊數(shù),三個(gè)網(wǎng)絡(luò)的邊僅約占完全圖邊數(shù)的0.02。所占比例較小的情況下,表達(dá)水平網(wǎng)絡(luò)與結(jié)構(gòu)網(wǎng)絡(luò)的邊覆蓋已經(jīng)超過50%。統(tǒng)計(jì)兩個(gè)網(wǎng)絡(luò)的重要屬性,結(jié)果如表1所示,這兩個(gè)網(wǎng)絡(luò)的度分布函數(shù)大致服從冪分布,如圖2A-B所示,用Matlab進(jìn)行曲線擬合,得到的曲線如圖2C-D所示,得到miRNA表達(dá)量網(wǎng)絡(luò)的度分布函數(shù)為f(x)=0.3618x-0.08919-0.2588,SSE為0.002626,R-square為0.9013。miRNA結(jié)構(gòu)網(wǎng)絡(luò)的度分布函數(shù)f(x)=0.199x-0.2244-0.08338,SSE為0.001386,R-square為0.9481。miRNA表達(dá)量網(wǎng)絡(luò)和結(jié)構(gòu)網(wǎng)絡(luò)的度分布相似,大致服從冪律分布。miRNA的表達(dá)量網(wǎng)絡(luò)和序列網(wǎng)絡(luò)邊覆蓋為0.5314,與結(jié)構(gòu)網(wǎng)絡(luò)的邊覆蓋為0.507,有理由相信在癌癥網(wǎng)絡(luò)研究中miRNA的表達(dá)量和二級結(jié)構(gòu)是有關(guān)聯(lián)的。
表1miRNA表達(dá)量網(wǎng)絡(luò)和miRNA結(jié)構(gòu)網(wǎng)絡(luò)屬性
實(shí)施例2
將實(shí)施例1下載得到的乳腺癌病人的正常組織和腫瘤組織的miRNA數(shù)據(jù),提取乳癌病人正常組織和腫瘤組織的miRNA,病人數(shù)101個(gè),miRNA數(shù)據(jù)為622個(gè)。采用隨機(jī)森林模型對乳腺癌病人正常組織的miRNA數(shù)據(jù)和腫瘤組織的miRNA進(jìn)行封裝和過濾選擇篩選擇最佳子集。為了選擇具有最小基因數(shù)量的并保持最高分類準(zhǔn)確率的miRNA子集,采用十折交叉驗(yàn)證進(jìn)行試驗(yàn)以評估分類器模型,得到miRNA分類結(jié)果如表2所示。對于乳腺癌數(shù)據(jù)集,當(dāng)miRNA子集數(shù)量為50時(shí),得到交叉驗(yàn)證準(zhǔn)確率為98.50%。篩選出這50個(gè)miRNA,分別計(jì)算病人正常組織和腫瘤組織的50個(gè)miRNA之間的互信息(MIC)值,根據(jù)所得到的值構(gòu)建MIC網(wǎng)絡(luò),附圖3為正常組織和腫瘤組織的MIC網(wǎng)絡(luò)。每兩個(gè)miRNA之間的互信息作為網(wǎng)絡(luò)中兩個(gè)結(jié)點(diǎn)邊的權(quán)重,兩個(gè)網(wǎng)絡(luò)閾值都選0.35,互信息大于0.35的兩個(gè)節(jié)點(diǎn)之間有連邊。一個(gè)miRNA在兩個(gè)網(wǎng)絡(luò)中,節(jié)點(diǎn)介數(shù)差別大,說明此miRNA在正常組織和腫瘤組織間發(fā)生了較大變化,也許在癌癥發(fā)生發(fā)展中起重要作用。
提取10個(gè)節(jié)點(diǎn)介數(shù)差異較大的miRNA,hsa-mir-101-2、hsa-mir-10b、hsa-mir-130b、hsa-mir-190b、hsa-mir-193a、hsa-mir-204、hsa-mir-28、hsa-mir-365-2、hsa-mir-375、hsa-mir-192。查閱文獻(xiàn)資料可知,其中hsa-mir-101-2側(cè)翼區(qū)rs462480和rs1053872遺傳突變可增加患乳腺癌的風(fēng)險(xiǎn)。抑制hsa-mir-10的表達(dá)可部分逆轉(zhuǎn)由于TGF-b1誘導(dǎo)的乳腺癌細(xì)胞的EMT過程。hsa-mir-130b被驗(yàn)證在三陰性乳腺癌中可直接抑制細(xì)胞周期蛋白G2基因(CCNG2--一種調(diào)節(jié)細(xì)胞周期的關(guān)鍵基因)。BMP-6(骨形態(tài)發(fā)生蛋白)已被確認(rèn)為乳腺癌分化和轉(zhuǎn)移相關(guān)的腫瘤抑制劑,miR-192表達(dá)量升高可抑制細(xì)胞生長,在乳腺癌組中miR-192表達(dá)量明顯下降,與BMP-6表達(dá)量成正比,可調(diào)控miR-192表達(dá)發(fā)揮BMP-6對細(xì)胞增殖的抑制作用。hsa-mir-193a作為新的腫瘤抑制劑作用于EGFR驅(qū)動(dòng)細(xì)胞周期,抑制乳腺腫瘤細(xì)胞周期進(jìn)程和增值、hsa-mir-204與乳腺癌的TMN分期和轉(zhuǎn)移相關(guān),mir-204低表達(dá)的患者比高表達(dá)的患者存活時(shí)間短。眾所周知,BCL2蛋白是的調(diào)節(jié)線粒體生理和細(xì)胞死亡的基因,miR-195,miR-24-2和miR-365-2通過直接結(jié)合BCL2基因的3'-UTR結(jié)合位點(diǎn)負(fù)調(diào)控BCL2。miR-195,miR-24-2和miR-365-2的異位表達(dá)可導(dǎo)致BCL2蛋白水平的顯著減少。hsa-mir-375在乳腺小葉增生差異表達(dá)并促進(jìn)乳腺腺泡極性的損失。其中hsa-mir-101-2、hsa-mir-10b、hsa-mir-193a、hsa-mir-204、hsa-mir-28、hsa-mir-365-2在乳腺癌表達(dá)水平中下調(diào)。hsa-mir-130b、hsa-mir-190b、hsa-mir-375、hsa-mir-192腺癌表達(dá)水平中上調(diào)。
表2采用隨機(jī)森林分類器所獲得的miRNA十折交叉驗(yàn)證準(zhǔn)確率
從miRBase查詢miRNA成熟序列并做序列比對,得到一個(gè)540×540的距離矩陣,利用最小網(wǎng)格聚類,將這些miRNA做聚類分析。這個(gè)聚類算法把序列相似的miRNA聚為一類,具有相似結(jié)構(gòu)的miRNA,功能也相似,其中如表3所示的第七類含有23個(gè)miRNA。其中hsa-let-7家族與乳腺癌相關(guān),hsa-let-7i,hsa-mir-34a,hsa-mir-34b,hsa-mir-520b,hsa-mir-708,hsa-mir-548l與癌癥轉(zhuǎn)移相關(guān),hsa-mir-28,hsa-mir-376a-2在正常組織與腫瘤組織的網(wǎng)絡(luò)中,前后介數(shù)相差較大,在這兩個(gè)網(wǎng)絡(luò)中節(jié)點(diǎn)重要性發(fā)生很大變化,可推測也與乳癌轉(zhuǎn)移相關(guān)。
類52中含有三個(gè)miRNA,hsa-mir-210,hsa-mir-331,hsa-mir-940,其中hsa-mir-210,hsa-mir-940都與細(xì)胞侵襲相關(guān)。hsa-mir-331在正常組織與腫瘤組織的網(wǎng)絡(luò)中,前后介數(shù)相差較大,可推測也與細(xì)胞侵襲相關(guān)。
如表4所示的類14中含有14個(gè)元素,其中hsa-let-7家族與乳腺癌相關(guān),hsa-mir-1256抑制前列腺癌細(xì)胞的增值和擴(kuò)散,hsa-mir-146a可以誘導(dǎo)細(xì)胞凋亡,hsa-mir-195,hsa-mir-31可以抑制癌細(xì)胞的增值,擴(kuò)散和轉(zhuǎn)移。hsa-mir-1323參與人肺癌細(xì)胞的抗輻射。miR-192的過表達(dá)顯著誘導(dǎo)膀胱癌細(xì)胞、食管癌細(xì)胞has-mir-1307在正常組織與腫瘤組織的網(wǎng)絡(luò)中,前后介數(shù)相差較大,可推測也與細(xì)胞擴(kuò)散和增值相關(guān)。
由此得之,隨機(jī)森林模型和復(fù)雜網(wǎng)絡(luò)分析方法選取癌癥的重要生物分子方法是可靠的,可為癌癥的預(yù)測、治療和藥物的選擇與研發(fā)提供有價(jià)值的參考。
表3第7類miRNA的種類
表4第14類miRNA的種類
實(shí)施例3
選取與乳腺癌不相關(guān)的另種癌癥--前列腺癌,采用實(shí)施例1和實(shí)施2的方法下載序列并處理,對隨機(jī)森林模型和復(fù)雜網(wǎng)絡(luò)分析方法選取乳癌發(fā)生重要生物分子方法進(jìn)行驗(yàn)證。當(dāng)miRNA子集數(shù)量為30時(shí),得到95.27%的交叉驗(yàn)證準(zhǔn)確率。構(gòu)建前列腺病人正常組織和腫瘤組織miRNA表達(dá)量的MIC網(wǎng)絡(luò),見附圖4,圖4-A)圖為前列腺癌病人正常組織miRNA表達(dá)量的MIC網(wǎng)絡(luò),節(jié)點(diǎn)越大,顏色越深表明節(jié)點(diǎn)介數(shù)越大;圖4-B)前列腺癌病人腫瘤組織miRNA表達(dá)量的MIC網(wǎng)絡(luò),節(jié)點(diǎn)越大,顏色越深表明節(jié)點(diǎn)介數(shù)越大。
計(jì)算MIC網(wǎng)絡(luò)中節(jié)點(diǎn)的節(jié)點(diǎn)介數(shù),選取8個(gè)節(jié)點(diǎn)介數(shù)差異較大的miRNA,hsa-mir-183、hsa-mir-19a、hsa-mir-221、hsa-mir-25、hsa-mir-375、hsa-mir-381、hsa-mir-92a-1、hsa-mir-96。其中七個(gè)都與前列腺癌相關(guān),具體信息見表5,除了hsa-mir-381。
表5與前列腺癌相關(guān)miRNA功能
由以上實(shí)施例可知,本發(fā)明提供的一種基于多層復(fù)雜網(wǎng)絡(luò)對腫瘤miRNA標(biāo)志物的篩選方法,采用隨機(jī)森林模型和復(fù)雜網(wǎng)絡(luò)分析方法選取癌癥的重要生物分子方法是可靠的,可為癌癥的預(yù)測、治療和藥物的選擇與研發(fā)提供有價(jià)值的參考。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。