本發(fā)明屬于生物信息學(xué)領(lǐng)域,更具體地說(shuō)是涉及一種基于稀疏相似矩陣的譜聚類(lèi)算法識(shí)別癌癥分子亞型的方法,利用該算法的分類(lèi)結(jié)果制定對(duì)應(yīng)的癌癥治療方案,提高癌癥患者的生存率。
背景技術(shù):
癌癥分子表達(dá)水平具有高度異質(zhì)性,異質(zhì)性即癌癥組織內(nèi)部存在多個(gè)突變類(lèi)型是癌癥的基本特征之一,也是開(kāi)展精準(zhǔn)醫(yī)學(xué)的最大難題。具有相同臨床分期或病理特征的癌癥患者采用相同治療方案卻存在明顯的預(yù)后差別?;诨虮磉_(dá)研究對(duì)癌癥的分子亞型進(jìn)行分類(lèi),為解析癌癥的高度異質(zhì)性,提高預(yù)后判別的準(zhǔn)確性,選擇有效化療藥物實(shí)現(xiàn)個(gè)體化治療提供了重要的依據(jù)。
對(duì)于癌癥患者進(jìn)行治療的依據(jù)是TNM分期,但預(yù)后效果欠佳;在實(shí)際治療中,醫(yī)生依靠自身經(jīng)驗(yàn)確定癌癥患者的治療方案,主觀性較強(qiáng)且難以復(fù)制,具有不可預(yù)測(cè)性,而且患者預(yù)后效果各不相同。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明是為避免上述現(xiàn)有技術(shù)所存在的不足,提供一種基于稀疏相似矩陣的譜聚類(lèi)算法識(shí)別癌癥分子亞型方法,解析癌癥的高度異質(zhì)性,有效地區(qū)分具有不同預(yù)后效果的多類(lèi)病患。對(duì)多類(lèi)癌癥患者分別制定不同的治療方案,識(shí)別出的無(wú)復(fù)發(fā)生存概率較低的患者可以通過(guò)放化療治療,識(shí)別出的無(wú)復(fù)發(fā)生存概率較高的患者可以免于放化療治療。
本發(fā)明為解決技術(shù)問(wèn)題采用如下技術(shù)方案:
本發(fā)明基于稀疏相似矩陣的譜聚類(lèi)算法識(shí)別癌癥分子亞型的方法的特點(diǎn)是:基于稀疏相似矩陣的譜聚類(lèi)算法,利用癌癥基因表達(dá)譜數(shù)據(jù)作為訓(xùn)練集樣本,構(gòu)建癌癥分子亞型預(yù)測(cè)模型;將所述預(yù)測(cè)模型用于預(yù)測(cè)獨(dú)立測(cè)試集樣本的癌癥分子亞型,從而將獨(dú)立測(cè)試集樣本劃分為多類(lèi)分子亞型。
本發(fā)明基于稀疏相似矩陣的譜聚類(lèi)算法識(shí)別癌癥分子亞型的方法的特點(diǎn)也在于按如下過(guò)程進(jìn)行:
步驟1、計(jì)算作為訓(xùn)練集樣本的癌癥基因表達(dá)譜數(shù)據(jù)中的任意兩個(gè)癌癥樣本之間的相似度矩陣SL(n×n);
癌癥樣本是指以列為基因表達(dá)譜數(shù)據(jù)的向量;依據(jù)高斯函數(shù)計(jì)算兩個(gè)癌癥樣本之間的相似度值sij,以所述相似度值sij構(gòu)造相似度矩陣SL(n×n);其中xi和xj為癌癥樣本,1≤i≤n,1≤j≤n,n為癌癥基因表達(dá)譜數(shù)據(jù)中的樣本個(gè)數(shù),σ為尺度參數(shù);
步驟2、采用t近鄰相似度計(jì)算的方法,將所述相似度矩陣SL(n×n)變換為稀疏化矩陣S,所述t為近鄰參數(shù);
步驟3、計(jì)算正則拉普拉斯矩陣L為:L=I-D-1/2SD-1/2;其中D為對(duì)角陣,且D-1/2為D的逆平方根,I為單位對(duì)角陣;
步驟4、將正則拉普拉斯矩陣L依據(jù)公式L=VΛLVT進(jìn)行特征分解,V為特征向量矩陣,ΛL為特征值,VT為特征向量矩陣V的轉(zhuǎn)置矩陣;
步驟5、計(jì)算獲得特征向量矩陣V的歸一化矩陣U,并有:其中uij為歸一化矩陣U的第i行第j列的值,vij為特征向量矩陣V的第i行第j列的值,vir為特征向量矩陣V的第i行第r列的值,k為聚類(lèi)值,1≤r≤k;
步驟6、基于k-means聚類(lèi)算法得到譜聚類(lèi)模型,以所述譜聚類(lèi)模型將歸一化矩陣U聚為k類(lèi),將所述訓(xùn)練集樣本中癌癥患者劃分為k類(lèi)分子亞型;所述譜聚類(lèi)模型即為癌癥分子亞型預(yù)測(cè)模型;
步驟7、將所述癌癥分子亞型預(yù)測(cè)模型用于預(yù)測(cè)獨(dú)立測(cè)試集樣本的癌癥分子亞型,從而將獨(dú)立測(cè)試集樣本劃分為多類(lèi)分子亞型,完成癌癥樣本集多類(lèi)分子亞型的劃分;
步驟8、分別利用步驟6與步驟7中獲得的所述訓(xùn)練集樣本與獨(dú)立測(cè)試集樣本的k類(lèi)分子亞型,計(jì)算無(wú)復(fù)發(fā)生存曲線(xiàn)Relapse-free survival的Log-rank P值,以所述Log-rank P值作為評(píng)價(jià)指標(biāo),用來(lái)評(píng)價(jià)k類(lèi)分子亞型的有效性。
本發(fā)明基于稀疏相似矩陣的譜聚類(lèi)算法識(shí)別癌癥分子亞型的方法的特點(diǎn)也在于:所述步驟2中的近鄰參數(shù)t按如下方式確定:
設(shè)定近鄰參數(shù)t的選擇范圍,通過(guò)選擇不同t值,將所述訓(xùn)練集樣本中癌癥患者劃分為對(duì)應(yīng)的k類(lèi)分子亞型,對(duì)于所述對(duì)應(yīng)的k類(lèi)分子亞型,計(jì)算無(wú)復(fù)發(fā)生存曲線(xiàn)Relapse-free survival的Log-rank P值,將最小的Log-rank P值所對(duì)應(yīng)的t值確定為近鄰參數(shù)t。
本發(fā)明基于稀疏相似矩陣的譜聚類(lèi)算法識(shí)別癌癥分子亞型的方法的特點(diǎn)也在于:所述訓(xùn)練集樣本為GSE25055,所述獨(dú)立測(cè)試集樣本是由癌癥基因表達(dá)譜數(shù)據(jù)得到的GSE25065。
本發(fā)明中譜聚類(lèi)算法能夠識(shí)別任意形狀的樣本空間且收斂于全局最優(yōu)解,其基本思想是利用樣本數(shù)據(jù)的相似矩陣進(jìn)行特征分解后得到的特征向量進(jìn)行聚類(lèi)?;谙∈柘嗨凭仃嚨淖V聚類(lèi)算法,通過(guò)移除樣本間較小的相似度值使得相似矩陣稀疏化,從而有效地去除噪音數(shù)據(jù),改進(jìn)預(yù)測(cè)精度。在癌癥分子亞型預(yù)測(cè)問(wèn)題中,其高維特征向量造成奇異性問(wèn)題,基于稀疏相似矩陣的譜聚類(lèi)算法,逼近真實(shí)的特征空間,可以有效降低計(jì)算復(fù)雜度,收斂于全局最優(yōu)解,提高預(yù)測(cè)精度,對(duì)于癌癥分子亞型預(yù)測(cè)具有重要的應(yīng)用價(jià)值。與已有技術(shù)相比,本發(fā)明有益效果體現(xiàn)在:
1、本發(fā)明方法中基于稀疏相似矩陣的譜聚類(lèi)算法,避免了癌癥分子亞型預(yù)測(cè)問(wèn)題中高維特征向量造成的奇異性問(wèn)題。
2、本發(fā)明利用稀疏相似矩陣進(jìn)行近似計(jì)算,有效地降低計(jì)算復(fù)雜度,節(jié)省計(jì)算存儲(chǔ)空間,對(duì)于提高癌癥分子亞型判斷的準(zhǔn)確率具有重要意義。
3、本發(fā)明方法中基于稀疏相似矩陣的譜聚類(lèi)算法構(gòu)建癌癥分子亞型預(yù)測(cè)模型,可以明確識(shí)別癌癥患者個(gè)體的無(wú)復(fù)發(fā)生存概率,具有實(shí)際應(yīng)用價(jià)值。
4、本發(fā)明將預(yù)測(cè)模型用于識(shí)別獨(dú)立測(cè)試集樣本的癌癥分子亞型,能夠有效地把癌癥患者依據(jù)無(wú)復(fù)發(fā)生存概率區(qū)分為多類(lèi),識(shí)別出的無(wú)復(fù)發(fā)生存概率較低的患者可以通過(guò)放化療治療,識(shí)別出的無(wú)復(fù)發(fā)生存概率較高的患者可以免于放化療治療。
附圖說(shuō)明
圖1為利用本發(fā)明方法預(yù)測(cè)得到的訓(xùn)練集樣本GSE25055中的無(wú)復(fù)發(fā)生存曲線(xiàn);
圖2為利用本發(fā)明方法預(yù)測(cè)得到的獨(dú)立測(cè)試集樣本GSE25065中的無(wú)復(fù)發(fā)生存曲線(xiàn);
具體實(shí)施方式
本實(shí)施例中是基于稀疏相似矩陣的譜聚類(lèi)算法,利用癌癥基因表達(dá)譜數(shù)據(jù)作為訓(xùn)練集樣本,構(gòu)建癌癥分子亞型預(yù)測(cè)模型;將預(yù)測(cè)模型用于預(yù)測(cè)獨(dú)立測(cè)試集樣本的癌癥分子亞型,從而將獨(dú)立測(cè)試集樣本劃分為多類(lèi)分子亞型。
具體是按如下步驟進(jìn)行:
步驟1、計(jì)算作為訓(xùn)練集樣本的癌癥基因表達(dá)譜數(shù)據(jù)中的任意兩個(gè)癌癥樣本之間的相似度矩陣SL(n×n)。
癌癥樣本是指以列為基因表達(dá)譜數(shù)據(jù)的向量;依據(jù)高斯函數(shù)計(jì)算兩個(gè)癌癥樣本之間的相似度值sij,以相似度值sij構(gòu)造相似度矩陣SL(n×n);其中xi和xj為癌癥樣本,1≤i≤n,1≤j≤n,n為癌癥基因表達(dá)譜數(shù)據(jù)中的樣本個(gè)數(shù),σ為尺度參數(shù)。
步驟2、采用t近鄰相似度計(jì)算的方法,將相似度矩陣SL(n×n)變換為稀疏化矩陣S,t為近鄰參數(shù)。
步驟3、計(jì)算正則拉普拉斯矩陣L為:L=I-D-1/2SD-1/2;其中D為對(duì)角陣,且D-1/2為D的逆平方根,I為單位對(duì)角陣。
步驟4、將正則拉普拉斯矩陣L依據(jù)公式L=VΛLVT進(jìn)行特征分解,V為特征向量矩陣,ΛL為特征值;VT為特征向量矩陣V的轉(zhuǎn)置矩陣。
步驟5、計(jì)算獲得特征向量矩陣V的歸一化矩陣U,并有:其中uij為歸一化矩陣U的第i行第j列的值,vij為特征向量矩陣V的第i行第j列的值,vir為特征向量矩陣V的第i行第r列的值,1≤r≤k,k為聚類(lèi)值。
步驟6、基于k-means聚類(lèi)算法得到譜聚類(lèi)模型,以譜聚類(lèi)模型將歸一化矩陣U聚為k類(lèi),將訓(xùn)練集樣本中癌癥患者劃分為k類(lèi)分子亞型;譜聚類(lèi)模型即為癌癥分子亞型預(yù)測(cè)模型。
步驟7、將癌癥分子亞型預(yù)測(cè)模型用于預(yù)測(cè)獨(dú)立測(cè)試集樣本的癌癥分子亞型,從而將獨(dú)立測(cè)試集樣本劃分為多類(lèi)分子亞型,完成癌癥樣本集多類(lèi)分子亞型的劃分。
步驟8、分別利用步驟6與步驟7中獲得的訓(xùn)練集樣本與獨(dú)立測(cè)試集樣本的k類(lèi)分子亞型,計(jì)算無(wú)復(fù)發(fā)生存曲線(xiàn)Relapse-free survival的Log-rank P值,以L(fǎng)og-rank P值作為評(píng)價(jià)指標(biāo),用來(lái)評(píng)價(jià)k類(lèi)分子亞型的有效性,Log-rank P值越小,對(duì)應(yīng)的分類(lèi)效果越好。
具體實(shí)施中,按如下方式確定近鄰參數(shù)t:
設(shè)定近鄰參數(shù)t的選擇范圍,通過(guò)選擇不同t值,將訓(xùn)練集樣本中癌癥患者劃分為對(duì)應(yīng)的k類(lèi)分子亞型,對(duì)于對(duì)應(yīng)的k類(lèi)分子亞型,計(jì)算無(wú)復(fù)發(fā)生存曲線(xiàn)Relapse-free survival的Log-rank P值,將最小的Log-rank P值所對(duì)應(yīng)的t值確定為近鄰參數(shù)t。本實(shí)施例中近鄰參數(shù)t的選擇范圍是{5,10,15,20,50,100,150,200,300},通過(guò)選擇不同的近鄰參數(shù)t,構(gòu)成9種不同參數(shù)組合的待選預(yù)測(cè)模型。各待選預(yù)測(cè)模型的構(gòu)建重復(fù)執(zhí)行10次,獲得10個(gè)Log-rank P值;以10個(gè)Log-rank P值的最小值作為評(píng)價(jià)指標(biāo)。比較9個(gè)待選預(yù)測(cè)模型的最小Log-rank P值,以最小P值所對(duì)應(yīng)的待選模型作為選定的癌癥分子亞型預(yù)測(cè)模型。
訓(xùn)練集樣本為GSE25055,獨(dú)立測(cè)試集樣本是由癌癥基因表達(dá)譜數(shù)據(jù)得到的GSE25065。
下面基于稀疏相似矩陣的譜聚類(lèi)算法,構(gòu)建乳腺癌的分子亞型預(yù)測(cè)模型,預(yù)測(cè)乳腺癌的分子亞型,分子亞型樣本間的差異具有重要的統(tǒng)計(jì)學(xué)意義:
1、收集癌癥基因表達(dá)譜數(shù)據(jù)。利用基因表達(dá)譜數(shù)據(jù)平臺(tái)Gene Expression Omnibus(GEO),收集到的乳腺癌基因表達(dá)數(shù)據(jù)集,包括GEO數(shù)據(jù)集GSE25055,樣本數(shù)n=310;GSE25065,樣本數(shù)n=198。以上數(shù)據(jù)來(lái)源于平臺(tái)為Affymetrix的U133A基因芯片,分別對(duì)每一個(gè)數(shù)據(jù)集進(jìn)行獨(dú)立處理。把原始的CEL文件用RMA進(jìn)行歸一化并計(jì)算基因的原始表達(dá)值,然后將各基因的表達(dá)值經(jīng)過(guò)Log2轉(zhuǎn)化。對(duì)于得到的基因表達(dá)值進(jìn)行標(biāo)準(zhǔn)化處理,使得各基因在樣本中表達(dá)值的均值為0,標(biāo)準(zhǔn)差為1。
2、計(jì)算任意兩個(gè)癌癥樣本之間的相似度矩陣SL。依據(jù)高斯函數(shù)計(jì)算兩個(gè)癌癥樣本之間的相似度值。對(duì)于基因表達(dá)譜數(shù)據(jù)GSE25055,得到的相似度矩陣包括310行與310列。依此類(lèi)推,可以得到基因表達(dá)譜數(shù)據(jù)GSE25065的相似度矩陣包括198行與198列。
3、計(jì)算矩陣SL對(duì)應(yīng)的稀疏化矩陣S,采用t近鄰相似度計(jì)算方法。例如:對(duì)于基因表達(dá)譜數(shù)據(jù)GSE25055,矩陣SL包括310行與310列,采用t近鄰相似度計(jì)算方法,近鄰參數(shù)t的選擇范圍{5,10,15,20,50,100,150,200,300},得到對(duì)應(yīng)的稀疏化矩陣S包括310行與310列。
4、計(jì)算正則拉普拉斯矩陣L為:L=I-D-1/2SD-1/2。
5、將正則拉普拉斯矩陣L依據(jù)公式L=VΛLVT進(jìn)行特征分解。
6、計(jì)算獲得矩陣V的歸一化矩陣U。
7、基于k-means聚類(lèi)算法得到譜聚類(lèi)模型,以譜聚類(lèi)模型將歸一化矩陣U聚為k類(lèi),將訓(xùn)練集樣本中癌癥患者劃分為k類(lèi)分子亞型,本實(shí)施例中k=3。以上基于稀疏相似矩陣的譜聚類(lèi)算法采用MATLAB語(yǔ)言編程實(shí)現(xiàn)。
8、將癌癥分子亞型預(yù)測(cè)模型用于預(yù)測(cè)獨(dú)立測(cè)試集樣本的癌癥分子亞型,將獨(dú)立測(cè)試集樣本劃分為k類(lèi)分子亞型。
9、評(píng)價(jià)指標(biāo)。進(jìn)行生存分析,計(jì)算出無(wú)復(fù)發(fā)生存曲線(xiàn)的Log-rank P值,評(píng)價(jià)k類(lèi)分子亞型作為預(yù)后評(píng)價(jià)的有效性。生存分析基于R語(yǔ)言的軟件包Survival編程實(shí)現(xiàn)。
10、310個(gè)結(jié)直腸癌樣本做為譜聚類(lèi)算法的輸入特征建模。訓(xùn)練集樣本GSE25055中每個(gè)樣本有12694個(gè)特征的列,矩陣的行與列為310×12694?;谙∈柘嗨凭仃嚨淖V聚類(lèi)算法,選擇Log-rank P值最小值對(duì)應(yīng)的參數(shù),得到t=50。此時(shí),得到的Log-rank P值為0.0005。
11、對(duì)獨(dú)立測(cè)試集樣本GSE25065進(jìn)行驗(yàn)證。采用12694個(gè)基因作為輸入特征,GSE25065對(duì)應(yīng)矩陣的行與列為198×12694,將癌癥分子亞型預(yù)測(cè)模型用于獨(dú)立測(cè)試集樣本的測(cè)試,獨(dú)立測(cè)試集按照分子亞型劃分為3類(lèi),此時(shí)得到的Log-rank P值為0.03。
以下仿真結(jié)果進(jìn)一步驗(yàn)證本發(fā)明效果:
圖1為利用本發(fā)明方法預(yù)測(cè)得到的訓(xùn)練集樣本GSE25055中的無(wú)復(fù)發(fā)生存曲線(xiàn),訓(xùn)練集樣本被劃分為3類(lèi)分子亞型,圖1中曲線(xiàn)表示訓(xùn)練集中3類(lèi)樣本各自對(duì)應(yīng)的無(wú)復(fù)發(fā)生存概率。圖1中曲線(xiàn)a為分子亞型1類(lèi)的無(wú)復(fù)發(fā)生存曲線(xiàn),對(duì)應(yīng)90個(gè)癌癥樣本,曲線(xiàn)b為分子亞型2類(lèi)的無(wú)復(fù)發(fā)生存曲線(xiàn),對(duì)應(yīng)116個(gè)癌癥樣本,曲線(xiàn)c為分子亞型3類(lèi)的無(wú)復(fù)發(fā)生存曲線(xiàn),對(duì)應(yīng)104個(gè)癌癥樣本。
圖2為利用本發(fā)明方法預(yù)測(cè)得到的獨(dú)立測(cè)試集樣本GSE25065中的無(wú)復(fù)發(fā)生存曲線(xiàn),測(cè)試集樣本被劃分為3類(lèi),圖2中曲線(xiàn)表示測(cè)試集中3類(lèi)樣本各自對(duì)應(yīng)的無(wú)復(fù)發(fā)生存概率。圖2中曲線(xiàn)a為分子亞型1類(lèi)的無(wú)復(fù)發(fā)生存曲線(xiàn),對(duì)應(yīng)49個(gè)癌癥樣本,曲線(xiàn)b為分子亞型2類(lèi)的無(wú)復(fù)發(fā)生存曲線(xiàn),對(duì)應(yīng)62個(gè)癌癥樣本,曲線(xiàn)c為分子亞型3類(lèi)的無(wú)復(fù)發(fā)生存曲線(xiàn),對(duì)應(yīng)87個(gè)癌癥樣本。
如圖1所示,針對(duì)訓(xùn)練集樣本GSE25055,基于稀疏相似矩陣的譜聚類(lèi)算法,得到無(wú)復(fù)發(fā)生存曲線(xiàn)的Log-rank P值,P=0.0005。從統(tǒng)計(jì)學(xué)出發(fā)當(dāng)P<0.05時(shí)樣本之間的差異具有統(tǒng)計(jì)學(xué)意義,因此得到的訓(xùn)練集3類(lèi)分子亞型作為癌癥預(yù)后評(píng)價(jià)具有有效性。
如圖2所示,針對(duì)測(cè)試集樣本GSE25065,基于稀疏相似矩陣的譜聚類(lèi)算法,得到無(wú)復(fù)發(fā)生存曲線(xiàn)的Log-rank P值,P=0.03。當(dāng)P<0.05時(shí)樣本之間的差異具有統(tǒng)計(jì)學(xué)意義,因此得到的測(cè)試集3類(lèi)分子亞型作為癌癥預(yù)后評(píng)價(jià)具有有效性。