本發(fā)明涉及生物信息學(xué)技術(shù)領(lǐng)域,主要涉及生物數(shù)據(jù)分析和生物數(shù)據(jù)挖掘的方法,具體涉及大遺傳和環(huán)境相關(guān)的大腸癌數(shù)據(jù)建立一個(gè)穩(wěn)健的結(jié)直腸癌的數(shù)據(jù)模型,并在該數(shù)據(jù)模型的基礎(chǔ)上進(jìn)行數(shù)據(jù)分析和挖掘。
背景技術(shù):
結(jié)直腸癌包括結(jié)腸癌和直腸癌,是世界范圍內(nèi)癌癥相關(guān)發(fā)病和死亡的一個(gè)主要原因。2002年約有1023152例新診斷結(jié)直腸癌病例,并且528978有例患者死于結(jié)直腸癌,結(jié)直腸癌在男性惡性腫瘤發(fā)病譜和死亡譜中均居第四位分別為,而在女性惡性腫瘤發(fā)病譜中居第三位,在死亡譜中居第五位。也就是說每半分鐘就有1人被新診斷為結(jié)直腸癌,每分鐘就有1人因患有結(jié)直腸癌而死亡。
雖然與北美和西歐發(fā)達(dá)國家相比,我國結(jié)直腸癌發(fā)病尚處于中等水平,但是隨著生活環(huán)境的變化、人口老齡化及生活方式的西化,我國結(jié)直腸癌的發(fā)病率近年來呈明顯上升的趨勢。根據(jù)中國國家癌癥數(shù)據(jù)庫資料表明,結(jié)直腸癌是中國一年期間發(fā)病率上升速度最快的第三大惡性腫瘤,僅次于肺癌、女性乳腺癌。中國結(jié)直腸癌患者的發(fā)病年齡多在40-60歲,由于結(jié)直腸癌起病隱匿,癥狀的公眾知曉度較低,許多患者在確診時(shí)已經(jīng)處于晚期。結(jié)直腸癌大約有25%的患者初次就診時(shí)就已經(jīng)發(fā)生轉(zhuǎn)移。另外,高達(dá)50%的新診斷患者最終將進(jìn)展為轉(zhuǎn)移性結(jié)直腸癌,發(fā)生轉(zhuǎn)移的患者能存活5年以上的不足5%。中晚期的結(jié)直腸癌患者治療效果較差,其不良預(yù)后嚴(yán)重影響患者本人的生活質(zhì)量的同時(shí),也給腫瘤患者及家人帶來了巨大的經(jīng)濟(jì)負(fù)擔(dān)。結(jié)直腸癌已經(jīng)成為嚴(yán)重影響我國人群生命質(zhì)量的疾病。
盡管近幾十年來隨著科學(xué)技術(shù)的發(fā)展及診療技術(shù)的進(jìn)步,結(jié)直腸癌的治療效果得到了很大的提升,尤其是早期結(jié)直腸癌的預(yù)后情況大有好轉(zhuǎn),但是晚期結(jié)直腸癌患者的5年生存率仍極差,而且大多數(shù)結(jié)直腸癌病例發(fā)現(xiàn)時(shí)已進(jìn)入晚期。如能探明結(jié)直腸癌的發(fā)病機(jī)制,即可在病因上對其進(jìn)行預(yù)防和控制,大大降低其發(fā)生率。
結(jié)直腸癌的形成既非單純環(huán)境因素所致,也非僅僅遺傳因素所為,而是外部致病因素通過一定途徑與相關(guān)基因相互作用,導(dǎo)致機(jī)體代謝和功能的變化。因此,單純環(huán)境因素或基因多態(tài)性的研究已不能滿足結(jié)直腸癌發(fā)生的病因解釋,所以基因-環(huán)境交互作用的研究已倍受關(guān)注。由于遺傳因素一般恒定不變,我們可以根據(jù)其與環(huán)境因素交互作用的特點(diǎn),控制環(huán)境、職業(yè)和生活方式中的有害暴露因素,以達(dá)到有效預(yù)防結(jié)直腸癌的目的。因此,使用大遺傳和環(huán)境相關(guān)的大腸癌數(shù)據(jù)建立一個(gè)穩(wěn)健的結(jié)直腸癌風(fēng)的險(xiǎn)預(yù)測模型的方法具有重大的現(xiàn)實(shí)意義。
隨著疾病遺傳學(xué)研究的深入開展,人們發(fā)現(xiàn)基因?qū)膊〉挠绊懯欠浅?fù)雜的,很多疾病并非簡單的由單一環(huán)境影響,許多常見疾病和復(fù)雜性狀可能.由多種遺傳與環(huán)境因素以及它們的相互作用確定,在人群中比較常見,如結(jié)直腸癌、糖尿病、骨質(zhì)疏松癥、高血壓等。在復(fù)雜性疾病中,很多位點(diǎn)相互作用并且和環(huán)境因素一起影響疾病的形成。
眾所周知,傳統(tǒng)的生物實(shí)驗(yàn)非常昂貴并且要花費(fèi)大量的時(shí)間,所以近年來越來越多的癌癥科學(xué)家使用統(tǒng)計(jì)模型去預(yù)測結(jié)直腸癌的發(fā)病狀況,從數(shù)學(xué)的層面上去預(yù)測結(jié)直腸癌的發(fā)病風(fēng)險(xiǎn)或者提取關(guān)鍵致癌生物標(biāo)記。yazhouwu等人用傳統(tǒng)的邏輯回歸和交叉分析去分析數(shù)據(jù)量比較小的結(jié)直腸癌病人數(shù)據(jù),確定預(yù)測模型去探索結(jié)直腸癌的發(fā)病狀況;ritchie和她的同事等人基于統(tǒng)計(jì)量和交叉驗(yàn)證提出了多因子降維法(mdr)來探索結(jié)直腸癌的致癌基因。mdr其基本思想是:先利用部分?jǐn)?shù)據(jù)(從全部數(shù)據(jù)中隨機(jī)抽取)得出模型,再在剩余的數(shù)據(jù)中加以檢驗(yàn);并且多次重復(fù)這一過程以避免數(shù)據(jù)的機(jī)會(huì)性劃分對結(jié)果造成的影響。但是,上面的研究方法存在一定的局限性,并沒有提高預(yù)測結(jié)直腸癌的精度。
以下對本發(fā)明所涉及到的技術(shù)詞匯/技術(shù)術(shù)語注釋如下:
1、結(jié)直腸癌(colorectalcancer,crc)
2、稀疏主成分分析(sparseprincipalcomponentanalysis,spca)
3、支持向量機(jī)(supportvectormachine,svm)
4、廣義遞歸最大相關(guān)熵算法(generalizedkernelrecursivemaximumcorrentropyalgorithm,gkrmc)
5、relief方法:是一種特征選擇算法,根據(jù)各個(gè)特征和類別的相關(guān)性賦予特征不同的權(quán)重,權(quán)重小于某個(gè)閾值的特征將被移除。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明在總結(jié)前人的研究基礎(chǔ)上,提出建立一個(gè)多層次的結(jié)直腸癌數(shù)據(jù)模型,并基于上述模型進(jìn)行數(shù)據(jù)的分析,利用現(xiàn)有crc數(shù)據(jù),結(jié)合稀疏主成分分析、信息熵和relief算法來對數(shù)據(jù)進(jìn)行降維,并且用維恩圖得到三個(gè)方法選取的特征的交集,并且使用邏輯回歸、svm和gkrmc對降維后的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘和結(jié)果預(yù)測,提高分析和預(yù)測結(jié)果的準(zhǔn)確度。
具體而言,本發(fā)明所提出的技術(shù)方案如下:
一種基于遺傳和環(huán)境相關(guān)的結(jié)直腸癌數(shù)據(jù)模型的分析方法,其特征在于,所述方法包括:
步驟1、接收樣本特征類型的crc數(shù)據(jù);
步驟2、對所述crc數(shù)據(jù)進(jìn)行預(yù)處理,獲得預(yù)處理數(shù)據(jù);
步驟3、將crc的所述預(yù)處理數(shù)據(jù)分為多個(gè)子類;
步驟4、針對每個(gè)所述子類,進(jìn)行特征選擇,獲得不同子類的特征集;
步驟5、獲取不同子類的所述特征集的交集,檢驗(yàn)并得到其中具有顯著性差異的特征;
步驟6、將所述具有顯著性差異的特征對應(yīng)的特征基因數(shù)據(jù)樣本集分成測試樣本和訓(xùn)練樣本,我們可以采用多種方式進(jìn)行樣本的劃分,例如使用基于交叉驗(yàn)證方法等,將所述訓(xùn)練樣本分別注入多個(gè)分類器,得到訓(xùn)練后分類器,將所述測試樣本注入所述訓(xùn)練后分類器,對所述測試樣本進(jìn)行特征分類,并統(tǒng)計(jì)所述訓(xùn)練后分類器的分類準(zhǔn)確性。
優(yōu)選地,步驟2.1、對維度不一致的所有crc數(shù)據(jù),進(jìn)行規(guī)范化,所述規(guī)范化方法為:
其中x表示某一具體分?jǐn)?shù),u表示平均值,σ表示標(biāo)準(zhǔn)差,z為規(guī)范化后的數(shù)據(jù)。
優(yōu)選地,所述步驟3中,所述子類為四個(gè),四個(gè)子類數(shù)據(jù)分別為基因數(shù)據(jù)、人口學(xué)特征數(shù)據(jù)、生活方式數(shù)據(jù)、食物數(shù)據(jù)。
優(yōu)選地,所述步驟4中,針對每個(gè)所述子類,采用以下方法中的一種或其任意組合,進(jìn)行特征選擇:稀疏主成分分析法、信息熵方法、relief方法。
優(yōu)選地,所述在所述稀疏主成分分析法中,所述主成分為:
pci=l1ix1+l2ix2+l+lmixm
其中,x1,x2,...,xm表示原始的變量,l1i,l2i,...lmi表示的是主成分pci的系數(shù),m表示變量的總數(shù)量。
優(yōu)選地,所述信息熵方法中,計(jì)算每個(gè)變量的信息增益,選取信息增益大于一預(yù)設(shè)閾值的特征。
優(yōu)選地,所述relief方法根據(jù)各個(gè)特征和類別的相關(guān)性賦予該特征不同的權(quán)重,移除權(quán)重小于一預(yù)設(shè)閾值的特征;
對于所述權(quán)重,依據(jù)各個(gè)特征與同類樣本特征及不同類樣本特征的距離關(guān)系,更新所述權(quán)重。
更為優(yōu)選地,上述權(quán)重的更新可以采用具體如下的方式:
從訓(xùn)練集d中隨機(jī)選擇一個(gè)樣本r,從和r同類的樣本中尋找最近鄰樣本h,設(shè)為nearhit,從和r不同類的樣本中尋找最近鄰樣本m,設(shè)為nearmiss,根據(jù)以下規(guī)則更新每個(gè)特征的權(quán)重:如果r和nearhit在某個(gè)特征上的距離小于r和nearmiss上的距離,則增加該特征的權(quán)重;反之,如果r和nearhit在某個(gè)特征的距離大于r和nearmiss上的距離,則降低該特征的權(quán)重;重復(fù)以上過程t次,最后得到各特征的平均權(quán)重。
優(yōu)選地,所述步驟5具體包括:針對所述步驟4中獲得的特征集,采用維恩圖選取交集,再利用u檢驗(yàn)得到具有顯著性差異的特征。
優(yōu)選地,所述多個(gè)分類器采用以下分類器中的一種或其任意數(shù)量的組合:邏輯回歸分類器、支持向量機(jī)分類器和廣義遞歸最大相關(guān)熵分類器。
優(yōu)選地,對所述分類器的分類準(zhǔn)確性判定時(shí),采用以下四個(gè)指標(biāo):靈敏性、特效性、精度、準(zhǔn)確率。
優(yōu)選地,對于基于信息熵進(jìn)行特征選擇,計(jì)算每個(gè)變量的信息增益,選取信息增益大的特征。信息熵的定義為:
其中,p(x)表示x每一種取值的概率。
優(yōu)選地,對于使用relief方法進(jìn)行特征選擇,根據(jù)各個(gè)特征和類別的相關(guān)性賦予特征不同的權(quán)重,權(quán)重小于某個(gè)閾值的特征將被移除。relief算法中特征和類別的相關(guān)性是基于特征對近距離樣本的區(qū)分能力。算法從訓(xùn)練集d中隨機(jī)選擇一個(gè)樣本r,然后從和r同類的樣本中尋找最近鄰樣本h,稱為nearhit(nh),從和r不同類的樣本中尋找最近鄰樣本m,稱為nearmiss(nm),然后根據(jù)以下規(guī)則更新每個(gè)特征的權(quán)重:如果r和nearhit在某個(gè)特征上的距離小于r和nearmiss上的距離,則說明該特征對區(qū)分同類和不同類的最近鄰是有益的,則增加該特征的權(quán)重;反之,如果r和nearhit在某個(gè)特征的距離大于r和nearmiss上的距離,說明該特征對區(qū)分同類和不同類的最近鄰起負(fù)面作用,則降低該特征的權(quán)重。以上過程重復(fù)t次,最后得到各特征的平均權(quán)重。特征的權(quán)重越大,表示該特征的分類能力越強(qiáng),反之,表示該特征分類能力越弱。
更為優(yōu)選地,relief算法的流程可以采用如下方式:
fori=1:t
wi=wi+|x(i)-nm(i)(x)|+|x(i)-nh(i)(x)|
其中,wi表示特征的權(quán)重。
優(yōu)選地,對于使用邏輯回歸分類器,邏輯回歸其實(shí)僅為在線性回歸的基礎(chǔ)上,套用了一個(gè)邏輯函數(shù),可采用如下方式:
其中,x1,x2,...,xm表示原始的變量,β0,β1,...,βk表示的是的系數(shù)。
優(yōu)選地,對于支持向量機(jī)分類器,進(jìn)行回歸預(yù)測,這里我們考慮的是一個(gè)兩類的分類問題,數(shù)據(jù)點(diǎn)用x來表示,這是一個(gè)n維向量,wt中的t代表轉(zhuǎn)置,而類別用y來表示,可以取1或者-1,分別代表兩個(gè)不同的類。一個(gè)線性分類器就是要在n維的數(shù)據(jù)空間中找到一個(gè)超平面,其方程可以表示為:
f(x)=wtx+b
其中,wtx表示向量wt和向量x的內(nèi)積。
優(yōu)選地,對于gkrmc分類器,進(jìn)行回歸預(yù)測,gkrmc方法的流程為:
其中,γ(.)表示伽瑪函數(shù),α是一個(gè)形式參數(shù),β是遺忘因子,γα,β表示標(biāo)準(zhǔn)化常量,
與現(xiàn)有技術(shù)相比,本發(fā)明技術(shù)方案具有以下的有益效果:
(1)使用大數(shù)據(jù)標(biāo)準(zhǔn)收集臨床結(jié)直腸癌的遺傳變異和環(huán)境暴露的信息數(shù)據(jù)。收集的高維數(shù)據(jù)不僅有大容量,包括369個(gè)結(jié)直腸癌患者和929個(gè)無結(jié)直腸癌對照組,而且有305個(gè)數(shù)據(jù)類型。
(2)整合的生物分類,特征選擇和回歸分析三個(gè)階段設(shè)計(jì)的結(jié)直腸癌預(yù)測模型,具有很好的魯棒性和可靠性。
(3)通過gkrmc算法來提高模型預(yù)測結(jié)直腸癌的準(zhǔn)確度。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
圖1為本發(fā)明實(shí)施例的方法流程圖;
圖2為本發(fā)明維恩圖得到的交集結(jié)果圖;
圖3為本發(fā)明gkrmc方法流程圖;
圖4為本發(fā)明預(yù)測結(jié)果對比圖;
圖5為本發(fā)明各方法運(yùn)行時(shí)間對比圖。
具體實(shí)施方式
下面結(jié)合附圖對本發(fā)明實(shí)施例進(jìn)行詳細(xì)描述。應(yīng)當(dāng)明確,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本領(lǐng)域技術(shù)人員應(yīng)當(dāng)知曉,下述具體實(shí)施例或具體實(shí)施方式,是本發(fā)明為進(jìn)一步解釋具體的發(fā)明內(nèi)容而列舉的一系列優(yōu)化的設(shè)置方式,而該些設(shè)置方式之間均是可以相互結(jié)合或者相互關(guān)聯(lián)使用的,除非在本發(fā)明明確提出了其中某些或某一具體實(shí)施例或?qū)嵤┓绞綗o法與其他的實(shí)施例或?qū)嵤┓绞竭M(jìn)行關(guān)聯(lián)設(shè)置或共同使用。同時(shí),下述的具體實(shí)施例或?qū)嵤┓绞絻H作為最優(yōu)化的設(shè)置方式,而不作為限定本發(fā)明的保護(hù)范圍的理解。
在一個(gè)具體的實(shí)施例中,本發(fā)明提供了一種基于遺傳和環(huán)境相關(guān)的結(jié)直腸癌數(shù)據(jù)的患病預(yù)測方法,所述方法包括:
步驟1、接收參考人群的指定特征類型的crc數(shù)據(jù);
步驟2、對所述數(shù)據(jù)進(jìn)行預(yù)處理,得到標(biāo)準(zhǔn)化數(shù)據(jù);
步驟3、基于標(biāo)準(zhǔn)化數(shù)據(jù),從生物醫(yī)學(xué)角度對數(shù)據(jù)進(jìn)行分類;
步驟4、對每個(gè)子類分別使用稀疏主成分分析、信息熵、relief方法進(jìn)行特征選擇的;
步驟5、使用維恩圖獲取三種方法的交集,使用u檢驗(yàn)得到有顯著性差異的特征;
步驟6、將所述具有顯著性差異的特征對應(yīng)的特征基因數(shù)據(jù)樣本集分成測試樣本和訓(xùn)練樣本,將所述訓(xùn)練樣本分別注入多個(gè)分類器,得到訓(xùn)練后分類器,將所述測試樣本注入所述訓(xùn)練后分類器,對所述測試樣本進(jìn)行特征分類,并統(tǒng)計(jì)所述訓(xùn)練后分類器的分類準(zhǔn)確性。
在一個(gè)具體的實(shí)施方式中,該步驟6還可以采用如下的一個(gè)優(yōu)選方式實(shí)現(xiàn):基于交叉驗(yàn)證方法,將所述特征基因數(shù)據(jù)樣本集分成測試樣本和訓(xùn)練樣本,將所述訓(xùn)練樣本分別注入邏輯回歸分類器、支持向量機(jī)分類器和廣義遞歸最大相關(guān)熵分類器,得到訓(xùn)練后分類器,將所述測試樣本注入所述訓(xùn)練后分類器,對所述測試樣本進(jìn)行特征分類,并統(tǒng)計(jì)分類器的分類準(zhǔn)確性。本發(fā)明實(shí)施例可以提高提取致癌因子的準(zhǔn)確性、降低測試樣本和訓(xùn)練樣本的選擇對結(jié)直腸癌分類準(zhǔn)確率的影響。
圖1是本發(fā)明的總體流程圖,以下結(jié)合圖1對本發(fā)明的模型建立和計(jì)算方法進(jìn)行詳細(xì)闡述。
(1)獲取crc數(shù)據(jù),建立模型基礎(chǔ)數(shù)據(jù)庫
數(shù)據(jù)的收集是由中國重慶的第三軍醫(yī)大學(xué)收集,收集到的數(shù)據(jù)包括369例經(jīng)診斷為結(jié)直腸癌患者的數(shù)據(jù),929個(gè)無癌癥的患者的數(shù)據(jù)。
(2)crc數(shù)據(jù)預(yù)處理
對維度不一致的所有crc數(shù)據(jù),進(jìn)行規(guī)范化,規(guī)范化方法可以采用本領(lǐng)域中的一般規(guī)范化方法,均能夠適用于上述的多維度數(shù)據(jù)預(yù)處理中。
在一個(gè)優(yōu)選的實(shí)施方式中,規(guī)范化方法可以采用如下的方式:
其中x表示某一具體分?jǐn)?shù),u表示平均值,σ表示標(biāo)準(zhǔn)差,z為規(guī)范化后的數(shù)據(jù)。
(3)生物醫(yī)學(xué)分類
從醫(yī)學(xué)角度出發(fā),在一個(gè)具體的實(shí)施方式中,可以將crc數(shù)據(jù)分為四類,分別為基因、人口學(xué)特征、生活方式、食物四類數(shù)據(jù)?;蛎枋龅氖腔蛭稽c(diǎn)的分布;人口學(xué)特征描述的是像年齡、性別、身高體重等;生活方式描述的是吸煙、飲酒、飲茶等情況;食物描述的是蔬菜類、豆制品類、肉類、海鮮類等食物的食用情況。
(4)特征選擇
具體特征的選擇,可以采用不同的方式,也可以采用相同的方式對不同的子集進(jìn)行選擇,以下列舉出的幾種方法,僅作為最優(yōu)的方法供選擇使用,本領(lǐng)域技術(shù)人員也可以在此基礎(chǔ)上使用本領(lǐng)域中的其他特征選擇方式對特征子集進(jìn)行選擇處理,該些常規(guī)的方法更改均應(yīng)當(dāng)視為落入本發(fā)明的保護(hù)范圍之內(nèi)。
(4.1)、使用稀疏主成分分析進(jìn)行特征選擇。在主成分分析中增加一個(gè)懲罰函數(shù),它會(huì)把主成分變得稀疏。所描述的主成分是;
pci=l1ix1+l2ix2+l+lmixm
其中,x1,x2,...,xm表示原始的變量,l1i,l2i,...lmi表示的是主成分pci的系數(shù)。獲得的特征如下表所示:
具體稀疏主成分分析的一般方法是本領(lǐng)域技術(shù)人員所熟知的,此處不再贅述。
(4.2)、基于信息熵進(jìn)行特征選擇。計(jì)算每個(gè)變量的信息增益,選取信息增益大的特征。信息熵的定義為:
其中,p(x)表示x每一種取值的概率。獲取的特征如下表所示:
選取信息熵增益大的特征時(shí),我們可以根據(jù)樣本數(shù)量、數(shù)據(jù)特性等要求,設(shè)置一閾值進(jìn)行比較篩選。
(4.3)、使用relief方法進(jìn)行特征選擇。根據(jù)各個(gè)特征和類別的相關(guān)性賦予特征不同的權(quán)重,權(quán)重小于某個(gè)閾值的特征將被移除。relief算法中特征和類別的相關(guān)性是基于特征對近距離樣本的區(qū)分能力。
對于所述權(quán)重,依據(jù)各個(gè)特征與同類樣本特征及不同類樣本特征的距離關(guān)系,更新所述權(quán)重。權(quán)重的更新,在于對不同的特征進(jìn)行區(qū)分,從而實(shí)現(xiàn)對有價(jià)值特征的篩選和選取。
在一個(gè)優(yōu)選的實(shí)施方式中,具體可以采用如下的方法:從訓(xùn)練集d中隨機(jī)選擇一個(gè)樣本r,然后從和r同類的樣本中尋找最近鄰樣本h,稱為nearhit(nh),從和r不同類的樣本中尋找最近鄰樣本m,稱為nearmiss(nm),然后根據(jù)以下規(guī)則更新每個(gè)特征的權(quán)重:如果r和nearhit在某個(gè)特征上的距離小于r和nearmiss上的距離,則說明該特征對區(qū)分同類和不同類的最近鄰是有益的,則增加該特征的權(quán)重;反之,如果r和nearhit在某個(gè)特征的距離大于r和nearmiss上的距離,說明該特征對區(qū)分同類和不同類的最近鄰起負(fù)面作用,則降低該特征的權(quán)重。以上過程重復(fù)t次,最后得到各特征的平均權(quán)重。特征的權(quán)重越大,表示該特征的分類能力越強(qiáng),反之,表示該特征分類能力越弱。relief算法的流程為:
fori=1:t
wi=wi+|x(i)-nm(i)(x)|+|x(i)-nh(i)(x)|
其中,wi表示特征的權(quán)重。獲取的特征如下表所示:
(5)維恩圖
對上述三種方法或其任意組合方式選出來的特征,用維恩圖做一個(gè)交集選取交集,如圖2所示。
我們選取其中兩兩或者三個(gè)相交的特征作為我們的候選特征。接下來,用u檢驗(yàn)選取出有顯著性差異的特征作為致癌因子。獲取的特征如下表所示:
綜合上述結(jié)果,對通過步驟4的三種方法選出來的特征,用維恩圖做一個(gè)交集選取交集,使用u檢驗(yàn)得到有顯著性差異的特征。
(6)回歸預(yù)測
基于上述數(shù)據(jù)進(jìn)行回歸預(yù)測時(shí),對于不同的分類器,其具體的分類預(yù)測方法分別如下,這里需要指出的是,以下各個(gè)不同的分類器的步驟不分先后順序,可以是以任意順序進(jìn)行先后運(yùn)行的,也可以以任意的組合方式進(jìn)行并列同步運(yùn)行,以下的步驟標(biāo)號,僅為理解方便而設(shè)置,不應(yīng)理解為步驟之間的先后邏輯關(guān)系:
步驟6.1、使用邏輯回歸進(jìn)行回顧預(yù)測。邏輯回歸其實(shí)僅為在線性回歸的基礎(chǔ)上,套用了一個(gè)邏輯函數(shù)。其中公式是;
其中,x1,x2,...,xm表示原始的變量,β0,β1,...,βk表示的是的系數(shù)。
步驟6.2、基于支持向量機(jī)進(jìn)行回歸預(yù)測。這里我們考慮的是一個(gè)兩類的分類問題,數(shù)據(jù)點(diǎn)用x來表示,這是一個(gè)n維向量,wt中的t代表轉(zhuǎn)置,而類別用y來表示,可以取1或者-1,分別代表兩個(gè)不同的類。一個(gè)線性分類器就是要在n維的數(shù)據(jù)空間中找到一個(gè)超平面,其方程可以表示為:
f(x)=wtx+b
其中,wtx表示向量wt和向量x的內(nèi)積。
步驟6.3、使用gkrmc方法進(jìn)行回歸預(yù)測。gkrmc是一種在線的自適應(yīng)的方法,它可以對數(shù)據(jù)進(jìn)行萬能逼近。相對來說,計(jì)算復(fù)雜度比較小。gkrmc算法的流程為:
其中,γ(.)表示伽瑪函數(shù),α是一個(gè)形式參數(shù),β是遺忘因子,γα,β表示標(biāo)準(zhǔn)化常量,
我們使用四個(gè)指標(biāo):靈敏性(sensitivity)、特效性(specificity)、精度(precision)和準(zhǔn)確率(accuracy)來衡量模型的預(yù)測結(jié)直腸癌的效果。所述定義如下表所示:
在一些可行的實(shí)施例中,基于本發(fā)明提供的方法,得到的分類準(zhǔn)確率如圖4所示,各方法運(yùn)行時(shí)間如圖5所示。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分流程,是可以通過計(jì)算機(jī)程序來指令相關(guān)的硬件來完成,所述的程序可存儲于一計(jì)算機(jī)可讀取存儲介質(zhì)中,該程序在執(zhí)行時(shí),可包括如上述各方法的實(shí)施例的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(read-onlymemory,rom)或隨機(jī)存儲記憶體(randomaccessmemory,ram)等。
以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。