一種基于特征辨識(shí)度和獨(dú)立性的特征選擇方法及應(yīng)用
【專(zhuān)利摘要】本發(fā)明涉及一種基于特征辨識(shí)度與獨(dú)立性的特征選擇方法和應(yīng)用,其是以特征辨識(shí)度度量特征的類(lèi)間判別能力,以特征獨(dú)立性度量特征間的相關(guān)關(guān)系,計(jì)算出每個(gè)特征的重要度值,并按照降序排列,選擇重要度遠(yuǎn)高于其余特征重要度的前k個(gè)特征構(gòu)成類(lèi)別區(qū)分性能高的特征子集,在腫瘤基因表達(dá)譜數(shù)據(jù)應(yīng)用中所選擇的差異表達(dá)基因子集獲得較好的時(shí)間性能和類(lèi)別區(qū)分性能,本發(fā)明計(jì)算簡(jiǎn)單,時(shí)間復(fù)雜度低,選擇效率高,為腫瘤等疾病在臨床上的診斷和判別提供參考。
【專(zhuān)利說(shuō)明】
一種基于特征辨識(shí)度和獨(dú)立性的特征選擇方法及應(yīng)用
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及基于特征辨識(shí)度和獨(dú)立性的特征選擇方法及其在腫瘤基因表達(dá)譜數(shù) 據(jù)中的應(yīng)用,具體涉及針對(duì)生物信息學(xué)腫瘤表達(dá)譜基因數(shù)據(jù)挖掘分析的預(yù)處理技術(shù)領(lǐng)域, 是一種針對(duì)腫瘤基因表達(dá)譜的基因選擇方法。
【背景技術(shù)】
[0002] 含有大量冗余和無(wú)關(guān)特征的高維數(shù)據(jù)的涌現(xiàn),給機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘算法帶來(lái)巨 大挑戰(zhàn)。特征選擇在保持?jǐn)?shù)據(jù)分類(lèi)能力不變前提下,從原始特征集中選擇與類(lèi)別高度相關(guān)、 相互間盡可能不相關(guān)且蘊(yùn)含原始特征集合大部分或全部分類(lèi)信息的特征構(gòu)成特征子集,使 建立在該特征子集的分類(lèi)模型更精確和易理解,有較好解釋性,泛化能力好,計(jì)算效率高, 同時(shí)降低了 "維數(shù)災(zāi)難"對(duì)算法的影響,使數(shù)據(jù)分析結(jié)果可視化成為可能。
[0003] 微陣列技術(shù)一次性可以獲取大量的表達(dá)基因,為腫瘤等疾病提供了全新的治療手 段。然而,基因表達(dá)譜數(shù)據(jù)具有高維小樣本特點(diǎn),且存在大量冗余和不相關(guān)基因,給基因數(shù) 據(jù)集的分類(lèi)分析和疾病的診斷帶來(lái)影響。特征(基因)選擇可以從成千上萬(wàn)的基因中剔除冗 余和與疾病分類(lèi)不相關(guān)的基因,保留具有高類(lèi)別區(qū)分能力的基因,這不但可以提高疾病的 分類(lèi)識(shí)別和預(yù)測(cè)的準(zhǔn)確率,降低疾病診斷時(shí)間,減少臨床診斷費(fèi)用,并可促進(jìn)相應(yīng)藥物的研 發(fā),具有重要的生物學(xué)意義。
[0004] 特征選擇算法研究主要包括兩部分:特征子集搜索和特征子集評(píng)估。不同特征搜 索策略導(dǎo)致了不同特征選擇方法。依據(jù)特征選擇過(guò)程與訓(xùn)練分類(lèi)模型的學(xué)習(xí)算法的依賴(lài)關(guān) 系,特征選擇算法分為Fi I ter方法和Wrapper方法兩大類(lèi)。Fi I ter方法獨(dú)立于學(xué)習(xí)過(guò)程,直 接根據(jù)某種特征評(píng)價(jià)準(zhǔn)則定義特征重要度,選擇重要特征構(gòu)成特征子集,該方法計(jì)算效率 高、泛化性能好,適用于大規(guī)模高維度空間的特征選擇任務(wù)。Re lief、CFS (Corre Iat ion based Feature Selector)和mRMR(maximal relevance-minimal redundancy)是經(jīng)典的 Fi I ter特征選擇方法。由于Fi I ter方法自身的特點(diǎn),大部分基于Fi I ter方法的特征選擇方 法在評(píng)價(jià)特征重要度時(shí),認(rèn)為每個(gè)特征都是孤立的,并沒(méi)有考慮到特征間的相關(guān)或冗余關(guān) 系,如卡方檢驗(yàn)、相似性度量、信息增益、混信息、Re I i ef和AUC等特征評(píng)價(jià)準(zhǔn)則。為了改善 F i 11 er方法中的缺陷和不足,同時(shí)保留其效率高、泛化性能好的優(yōu)點(diǎn),Guy ou等人提出最大 相關(guān)最小冗余的方法,Wang等人基于層次聚類(lèi)的方法和Song等基于無(wú)向完全圖的方法等都 取得不錯(cuò)的效果。
[0005] Wrapper方法依賴(lài)于學(xué)習(xí)過(guò)程,特征子集產(chǎn)生過(guò)程依據(jù)建立在相應(yīng)特征子集的分 類(lèi)模型在驗(yàn)證集的性能來(lái)完成,一般會(huì)選擇到比Fi Iter方法性能更優(yōu)、規(guī)模更小的特征子 集,但需多次訓(xùn)練分類(lèi)模型,時(shí)間開(kāi)銷(xiāo)大,且在小樣本數(shù)據(jù)集上易產(chǎn)生"過(guò)擬合"問(wèn)題。SVM-RFE(SVM Recursive Feature Elimination)和SVM_SFS(SVM Sequential Forward Search)屬于Wrapper方法,且在基因數(shù)據(jù)集上都取得不錯(cuò)分類(lèi)效果。集成Fi I ter方法的高 效和Wrapper方法的準(zhǔn)確于一起的混合特征選擇方法能得到更優(yōu)特征子集,且時(shí)間復(fù)雜度 和Fi I ter相近,是特征選擇研究的一個(gè)熱點(diǎn)。
【發(fā)明內(nèi)容】
[0006] 本發(fā)明針對(duì)特征選擇方法中現(xiàn)有技術(shù)的缺陷和不足以及在高維數(shù)據(jù)中存在的時(shí) 間瓶頸問(wèn)題,提出了一種基于特征辨識(shí)度和獨(dú)立性的特征選擇方法,計(jì)算時(shí)間復(fù)雜度低、選 擇效率高,尤其對(duì)高維、小樣本的基因表達(dá)譜數(shù)據(jù)具有較好的時(shí)間性能和分類(lèi)效果。
[0007] 同時(shí)將該方法應(yīng)用到腫瘤基因表達(dá)譜數(shù)據(jù)中,有效選擇基因子集,為醫(yī)學(xué)界提供 有效的信息參考。
[0008] 本發(fā)明為了實(shí)現(xiàn)上述目的所采用的技術(shù)方案是該基于特征辨識(shí)度與獨(dú)立性的特 征選擇方法由以下步驟組成:
[0009] (1)計(jì)算每個(gè)特征的辨識(shí)度
[0010] 根據(jù)特征權(quán)重計(jì)算方法計(jì)算出數(shù)據(jù)集〇中每個(gè)特征的權(quán)重Wi,該數(shù)據(jù)集表示為D = {父1而「_丄:^1^><",其中包含111個(gè)樣本,每個(gè)樣本的特征數(shù)為1 1,第1個(gè)特征為心,1幻<11; 利用權(quán)重Wi計(jì)算出每個(gè)特征的辨識(shí)度di Si,表達(dá)為:
[0011] disi=Wi ;
[0012] (2)計(jì)算每個(gè)特征的獨(dú)立性
[0013]根據(jù)步驟(1 )所計(jì)算的每個(gè)特征的辨識(shí)度d i s i,利用
汁算出數(shù)據(jù)集D中每個(gè)特征的獨(dú) 立性indi,其中r為特征間Pearson相關(guān)系數(shù)絕對(duì)值,fi為第i個(gè)特征,fj為第j個(gè)特征,Kj彡 11,且_]_乒;[;
[0014] (3)計(jì)算特征的重要度Score
[0015] 利用步驟(1)所得每個(gè)特征的辨識(shí)度diSl和步驟(2)所得每個(gè)特征的獨(dú)立性incU, 根據(jù)下式計(jì)算出每個(gè)特征的重要度Scorei;
[0016] Scorei = disi X indi
[0017] (4)確定特征子集
[0018] 根據(jù)每個(gè)特征的重要度Score1,對(duì)數(shù)據(jù)集D中的所有特征的重要度值降序排列,選 取其中重要度明顯高于其余特征重要度的前k個(gè)特征,l<k<n,組成包含有k個(gè)優(yōu)選特征的 特征子集。
[0019] 上述步驟(1)中特征權(quán)重計(jì)算方法具體可以選擇以下方法之一:
[0020] I )Wi Icoxon秩和檢驗(yàn)方法
[0021]禾
計(jì)算出數(shù)據(jù)集D中每個(gè)特征的Wi Icoxon 秩和檢驗(yàn)值,其中是判別函數(shù)和分別表示第^1和^個(gè)樣本的第乜個(gè)特征值,
成立,則;取值為1,否則取值〇;仏,見(jiàn)分別代表二類(lèi)數(shù)據(jù)集中每類(lèi) 樣本的個(gè)數(shù);
[0022] 根據(jù)所得Wilcoxon秩和檢驗(yàn)值$/;,利用Wi = max[N0*Ni-S(fi),S(fi)]計(jì)算出每個(gè) 特征對(duì)應(yīng)的權(quán)值Wi;
[0023] 2)D_Score 方法
[0024] 對(duì)數(shù)據(jù)集D中每個(gè)特征的權(quán)重計(jì)算方法定義為下式:
[0025]
[0026] 其中,Di表示數(shù)據(jù)集D中第fi個(gè)特征的D-Score值,即第fi個(gè)特征的權(quán)重,c為數(shù)據(jù)集 的類(lèi)別個(gè)數(shù),;,別為第i個(gè)特征在整個(gè)數(shù)據(jù)集和第j'類(lèi)數(shù)據(jù)集上的均值,xif為第 j'類(lèi)中第V個(gè)樣本點(diǎn)在第i個(gè)特征的特征值,Ilf表示第j'類(lèi)數(shù)據(jù)集上的樣本個(gè)數(shù);
[0027] 3)基于互信息的方法
[0028]互信息用于評(píng)價(jià)兩個(gè)特征之間或特征與類(lèi)標(biāo)的相關(guān)性,計(jì)算公式如下:
[0029] I(fi,Y)=H(Y)-H(Y|fi)
[0030] 其中,Y表示數(shù)據(jù)集D的類(lèi)標(biāo)向量;I (f i, Y)表示數(shù)據(jù)集D中每個(gè)特征與類(lèi)標(biāo)向量Y之 間的互信息值,即特征匕的權(quán)重;H(Y)為類(lèi)標(biāo)向量Y的信息熵;H(Ylf1)為在特征6取值確定 條件下類(lèi)標(biāo)向量Y的信息熵;
[0031] 4)基于對(duì)稱(chēng)不確定性的方法
[0032] 基于對(duì)稱(chēng)不確定性方法的計(jì)算公式如下:
[0033]
[0034] 其中,SU(f i,Y)表示數(shù)據(jù)集中特征f i的對(duì)稱(chēng)不確定性值,即特征權(quán)重;I (f i,Y)表示 數(shù)據(jù)集D中每個(gè)特征與類(lèi)標(biāo)向量Y之間的互信息值;!Kf1)和H(Y)分別表示每個(gè)特征的信息 熵和類(lèi)標(biāo)向量的信息熵。
[0035] hi術(shù)步碟(2)中特征間Pearson相關(guān)系數(shù)絕對(duì)值r的計(jì)算方法為:
[0036]
[0037] 式⑷中,Xi,Yi表示兩個(gè)待求相關(guān)系數(shù)的特征向量,X1是特征向量Xi的均值,Y丨表 示特征向量Yi的均值。
[0038] 上述步驟(3)具體可以是:以步驟(1)所得的辨識(shí)度為橫坐標(biāo),步驟(2)的獨(dú)立性為 縱坐標(biāo),確定出每個(gè)特征在坐標(biāo)軸中的位置,即構(gòu)造特征獨(dú)立性與辨識(shí)度散點(diǎn)圖,則每個(gè)特 征對(duì)應(yīng)的重要度Score 1即為辨識(shí)度與獨(dú)立性所圍成的矩形面積,表示為:
[0039] Scorei = disi X indi〇
[0040] 上述步驟(4)具體可以是:以每個(gè)特征的重要度Score1為縱軸、特征的個(gè)數(shù)為橫軸 建立坐標(biāo),描繪出每個(gè)特征在坐標(biāo)中的位置,即得到重要度值降序排列所得的特征點(diǎn)集,沿 著縱坐標(biāo)自上而下選取前k個(gè)特征點(diǎn),組成優(yōu)選特征子集。
[0041] 上述的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法可以在腫瘤基因表達(dá)譜數(shù)據(jù)中 的應(yīng)用,其具體的實(shí)現(xiàn)方法包括以下步驟:
[0042] (1)將腫瘤基因表達(dá)譜數(shù)據(jù)按照下式的最大最小化方法進(jìn)行基因標(biāo)準(zhǔn)化,記D = {X1; X2;…;Xm} G Rmxn,其中包含m個(gè)樣本,每個(gè)樣本的基因數(shù)為n,第i個(gè)基因表示為f i,1彡i ^n;
[0043]
[0044]其中,gi,v表示第i個(gè)基因在第V個(gè)樣本上的表達(dá)值,max(gi)表示第i個(gè)基因的最大 值,min(gi)表示第i個(gè)基因的最小值;
[0045] (2)將標(biāo)準(zhǔn)化后的基因數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,用Wilcoxon秩和檢驗(yàn)方法 度量訓(xùn)練集中每個(gè)基因的權(quán)值,并用K-means聚類(lèi)分析,從各類(lèi)簇中保留權(quán)重大于該簇平均 特征權(quán)重的基因,構(gòu)成預(yù)選擇基因子集,即{fl,f2,…,ft,"_,fl},其中,/_□
[0046] (3)根據(jù)步驟(2)的預(yù)選擇基因子集中每個(gè)基因?qū)?yīng)的權(quán)重值計(jì)算出每個(gè)基因?qū)?應(yīng)的辨識(shí)度,表示為:
[0047] disi=Wi ;
[0048] ( 4 )根據(jù)步驟(3 )所計(jì)算的每個(gè)基因?qū)?yīng)的辨識(shí)度d i s i,利用
十算出數(shù)據(jù)集中對(duì)應(yīng)基因的獨(dú)立 性,其中r為特征間Pearson相關(guān)系數(shù)絕對(duì)值,fi為第i個(gè)基因,fj為第j個(gè)基因,KjSnjj
[0049] (5)利用步驟(3)所得每個(gè)特征的辨識(shí)度diSl和步驟(4)所得每個(gè)特征的獨(dú)立性 incU,根據(jù)下式計(jì)算出預(yù)選擇基因子集中每個(gè)基因?qū)?yīng)的重要度Score1;
[0050] Scorei = disi X indi
[0051 ] (6)依據(jù)每個(gè)基因的重要度值序列{Scorei,Score〗,…,Scoret,…,Scorei },對(duì)其 進(jìn)行降序排序,得到新的基因重要度值序列{ScorepI,ScoreP2,…,Score pt,…,ScorepI },此 時(shí)對(duì)應(yīng)的基因重要度序列為{心1,42,一,4*,一,仇1},選取前1^個(gè)重要度遠(yuǎn)大于其余基因重 要度的優(yōu)選基因組成基因子集,即{f pl,fp2,fp3,…,fPk},其中M /。
[0052]上述步驟(6)之后還可以包括步驟(7),具體是:根據(jù)最終基因子集獲取降維后的 訓(xùn)練數(shù)據(jù)集eiTlXi,將該訓(xùn)練數(shù)據(jù)集£>& GiTxt與測(cè)試數(shù)據(jù)集Div e iT2xA,作為SVM 分類(lèi)器的輸入數(shù)據(jù),測(cè)試該最終基因子集分類(lèi)性能。
[0053]步驟(2)中劃分基因數(shù)據(jù)集的方法采用bootstrap方法或k-折交叉驗(yàn)證法。
[0054]與已有技術(shù)相比,本發(fā)明的有益效果主要是:
[0055] (1)本發(fā)明提出的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法,屬于特征選擇方法 中的Filter方法,在克服Filter方法因自身特點(diǎn)而沒(méi)有考慮特征間冗余和與分類(lèi)分析任務(wù) 不相關(guān)特征的同時(shí),還保留了該方法效率高的特性。
[0056] (2)本發(fā)明提出的特征選擇方法采用Wi Icoxon秩和檢驗(yàn)技術(shù)度量特征權(quán)重,采用 K-means聚類(lèi)技術(shù)對(duì)特征進(jìn)行聚類(lèi),根據(jù)同一類(lèi)簇內(nèi)特征相關(guān)性高、不同類(lèi)簇內(nèi)相關(guān)性低的 特點(diǎn),將部分高度冗余特征識(shí)別并刪除。一方面,可以降低冗余或噪音特征對(duì)實(shí)驗(yàn)結(jié)果的影 響,另一方面,可以降低數(shù)據(jù)維度,加快特征選擇過(guò)程。
[0057] (3)本發(fā)明提出的特征選擇方法定義特征辨識(shí)度來(lái)度量特征的類(lèi)別區(qū)分能力,定 義特征獨(dú)立性度量特征間的相關(guān)性,并將特征重要度在二維坐標(biāo)系中以辨識(shí)度、獨(dú)立性與 坐標(biāo)系所圍矩形面積來(lái)表示,使得任意維度、任意空間分布的特征重要度均可在2維空間展 不。
[0058] (4)本發(fā)明提出的特征選擇方法時(shí)間復(fù)雜度低,解決現(xiàn)有特征選擇方法的時(shí)間瓶 頸問(wèn)題,尤其對(duì)高維、小樣本的基因表達(dá)譜數(shù)據(jù)具有較好的時(shí)間性能和分類(lèi)效果,為腫瘤等 疾病在臨床上的診斷和判別提供參考。
【附圖說(shuō)明】
[0059] 圖1為本發(fā)明特征選擇方法在實(shí)施例1中數(shù)據(jù)集上的特征對(duì)應(yīng)所圍矩形面積的散 點(diǎn)圖表示。
[0060] 圖2為本發(fā)明特征選擇方法在實(shí)施例1中數(shù)據(jù)集上的特征重要度降序排序結(jié)果的 散點(diǎn)圖表示。
[0061] 圖3為本發(fā)明提出的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法在腫瘤基因表達(dá)譜 數(shù)據(jù)中應(yīng)用的流程圖。
[0062] 圖4為本發(fā)明特征選擇方法在CNS基因數(shù)據(jù)集上的平均分類(lèi)準(zhǔn)確率曲線圖。
[0063]圖5為本發(fā)明特征選擇方法在CNS基因數(shù)據(jù)集上的平均AUC值曲線圖。
【具體實(shí)施方式】
[0064]以下結(jié)合附圖和具體實(shí)施例對(duì)本發(fā)明技術(shù)方案作進(jìn)一步說(shuō)明。
[0065] 實(shí)施例1
[0066] 本實(shí)施例基于特征辨識(shí)度和獨(dú)立性的特征選擇方法由如下步驟實(shí)現(xiàn):
[0067] (1)隨機(jī)生成符合正態(tài)分布的第一類(lèi)數(shù)據(jù)集D1,表示Sd1=UuXw^x iqI GRiq X5Q,隨機(jī)生成符合正態(tài)分布的第二類(lèi)數(shù)據(jù)集D2,表示為D2 = {Xn; X12;…;X2Q} e R1()x5(),數(shù)據(jù)集 Di和D2都分別包含10個(gè)樣本,每個(gè)樣本有50個(gè)特征。將數(shù)據(jù)集Di和D2合并為數(shù)據(jù)集D,表示為 D = (X1;X2;…;X2q} e R2qx5q,其中包含20個(gè)樣本,分布在2個(gè)類(lèi)別中,每個(gè)樣本包含有50個(gè)特 征,之后利用bootstrap方法劃分?jǐn)?shù)據(jù)集,得到訓(xùn)練集和測(cè)試集。
[0068] (2)計(jì)算每個(gè)特征的辨識(shí)度
[0069 ] (2.1)利用Wi I coxon秩和檢驗(yàn)方法計(jì)算出數(shù)據(jù)集D中每個(gè)特征的權(quán)重Wi,具體是:
[0070]利用公j
計(jì)算出數(shù)據(jù)集D中每個(gè)特征的 Wi I coxon秩和檢驗(yàn)值;其中% 是判別函數(shù),j和Iv j分別表示第V1和V個(gè)樣本在第fi 個(gè)特征值,若(又;id,;;+) S O成立,則Z(D)取值為I,否則取值ο; No,他分別代表二類(lèi)數(shù) 據(jù)集中每類(lèi)樣本的個(gè)數(shù),第i個(gè)特征為f1;
[0071 ] 根據(jù)所得Wilcoxon秩和檢驗(yàn)值&丨:,利用Wi=max[No*Ni-S(fi),S(fi)]計(jì)算出每個(gè) 特征對(duì)應(yīng)的權(quán)值Wi,I Si Sn;
[0072] (2.2)根據(jù)每個(gè)特征的權(quán)重Wi計(jì)算出每個(gè)特征對(duì)應(yīng)的辨識(shí)度diSi,表達(dá)為:
[0073] disi=Wi ;
[0074] (3)計(jì)算每個(gè)特征的獨(dú)立性
[0075]根據(jù)步驟(1 )所計(jì)算的每個(gè)特征對(duì)應(yīng)的辨識(shí)度d i s i,利用
計(jì)算出數(shù)據(jù)集D中每個(gè)特征的獨(dú) 立性indi,
[0076]其中:fi為第i個(gè)特征,fj為第j個(gè)特征,1彡j<n,且j辛i,r為特征間Pearson相關(guān)系 數(shù)絕對(duì)值,其具體的計(jì)算方法為:
[0077]
[0078] 式⑷中,示兩個(gè)待求相關(guān)系數(shù)的特征向量,$是特征向量&的均值,^表 示特征向量Yi的均值。
[0079] (4)計(jì)算特征的重要度Score
[0080] 以步驟(1)所得的辨識(shí)度為橫坐標(biāo),步驟(2)的獨(dú)立性為縱坐標(biāo),確定出每個(gè)特征 在坐標(biāo)軸中的位置,即構(gòu)造特征獨(dú)立性與辨識(shí)度散點(diǎn)圖,如圖1,則每個(gè)特征對(duì)應(yīng)的重要度 Score1即為辨識(shí)度與獨(dú)立性所圍成的矩形面積,表示為:
[0081] Scorei = disi X indi〇
[0082] (5)確定特征子集
[0083]以每個(gè)特征的重要度Scorei為縱軸、特征的個(gè)數(shù)為橫軸建立坐標(biāo),描繪出每個(gè)特 征在坐標(biāo)中的位置,即圖2所示,即得到重要度值降序排列所得的特征點(diǎn)集,沿著縱坐標(biāo)自 上而下選取前k個(gè)特征點(diǎn),組成優(yōu)選特征子集。
[0084] 本實(shí)施例中,通過(guò)度量準(zhǔn)則Score度量特征重要性,分類(lèi)性能好的特征其得分較 高,冗余或噪音特征得分較低。將50個(gè)特征的重要度Score以其對(duì)應(yīng)的辨識(shí)度、獨(dú)立性與二 維坐標(biāo)系的坐標(biāo)軸所圍矩形面積的散點(diǎn)圖表示,其效果圖如圖1所示。特征重要度的降序排 序結(jié)果在二維坐標(biāo)系中的散點(diǎn)圖表示如圖2所示。如圖1圖2所示,50個(gè)特征中,第48,39和26 個(gè)特征具有較好的類(lèi)別區(qū)分性能,以此作為最終特征子集。
[0085] 將得到的最終特征子集對(duì)應(yīng)的訓(xùn)練集和測(cè)試集在SVM分類(lèi)器中訓(xùn)練和測(cè)試,可以 得到100%完全正確分類(lèi)的效果,而且當(dāng)特征子集規(guī)模為1(第48個(gè)特征)和2(第48和39個(gè)特 征)時(shí),在SVM分類(lèi)器中的分類(lèi)正確率為74.72 %和89.81 %,說(shuō)明本發(fā)明中提供的特征選擇 方法所選擇的特征子集具有較好的分類(lèi)性能。
[0086] Kruskal Wallis秩和檢驗(yàn)是對(duì)Wilcoxon秩和檢驗(yàn)的擴(kuò)展,當(dāng)對(duì)于多類(lèi)的數(shù)據(jù)集 時(shí),可以采用Kruskal Wallis秩和檢驗(yàn)法計(jì)算特征權(quán)重。
[0087] 實(shí)施例2
[0088] 本實(shí)施例的步驟(2)中,數(shù)據(jù)集D中每個(gè)特征的權(quán)重W1的計(jì)算方法還可以用D-Score方法進(jìn)行計(jì)算,D-Score是一種基于類(lèi)內(nèi)、類(lèi)間距離的特征權(quán)重計(jì)算方法,具體計(jì)算公 式如下,
[0089]
[0090] 其中,Di表示數(shù)據(jù)集D中第fi個(gè)特征的D-Score值,即第fi個(gè)特征的權(quán)重,c為數(shù)據(jù)集 的類(lèi)別個(gè)數(shù),^分別為第i個(gè)特征在整個(gè)數(shù)據(jù)集和第j '類(lèi)數(shù)據(jù)集上的均值,xif為第 j'類(lèi)中第V個(gè)樣本點(diǎn)在第i個(gè)特征的特征值。
[0091] 其他的步驟與實(shí)施例1相同。
[0092] 實(shí)施例3
[0093]本實(shí)施例的步驟(2)中,數(shù)據(jù)集D中每個(gè)特征的權(quán)重Wi的計(jì)算方法還可以用基于互 信息的方法進(jìn)行計(jì)算,互信息用于評(píng)價(jià)兩個(gè)特征之間或特征與類(lèi)標(biāo)的相關(guān)性,計(jì)算公式如 下:
[0094] I(fi,Y)=H(Y)-H(Y|fi)
[0095] 其中,Y表示數(shù)據(jù)集的類(lèi)標(biāo)向量;I (f i, Y)表示數(shù)據(jù)集中特征f i與類(lèi)標(biāo)向量Y之間的 互信息值,即特征6的權(quán)重;H(Y)為類(lèi)標(biāo)向量Y的信息熵;H(Ylf1)為在特征匕取值確定條件 下類(lèi)標(biāo)向量Y的信息熵。
[0096] 對(duì)于連續(xù)型特征來(lái)說(shuō),需提前對(duì)其進(jìn)行離散化。
[0097]其他的步驟與實(shí)施例1相同。
[0098] 實(shí)施例4
[0099] 本實(shí)施例的步驟(2)中,數(shù)據(jù)集D中每個(gè)特征的權(quán)重W1的計(jì)算方法還可以用基于對(duì) 稱(chēng)不確定性的方法進(jìn)行計(jì)算,對(duì)稱(chēng)不確定性方法可以避免在利用互信息方法計(jì)算特征權(quán)重 時(shí)會(huì)更傾向于選擇那些取值點(diǎn)更分散的特征,其計(jì)算公式如下:
[0100]
[0101] 其中,SU(fi,Y)表示數(shù)據(jù)集中特征fi的權(quán)重;I (fi,Y)表示數(shù)據(jù)集中特征fi與類(lèi)標(biāo) 向量Y之間的互信息值;Hai)和H(Y)分別表示每個(gè)特征的信息熵和類(lèi)標(biāo)向量的信息熵。
[0102] 其他的步驟與實(shí)施例1相同。
[0103] 上述實(shí)施例1~4所記載的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法可以在腫瘤 基因表達(dá)譜數(shù)據(jù)中的應(yīng)用,具體如下:
[0104] 本實(shí)施例中,將本發(fā)明提供的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法應(yīng)用于于 腫瘤基因表達(dá)譜數(shù)據(jù)集的分類(lèi)分析中,具體應(yīng)用數(shù)據(jù)集D為二類(lèi)數(shù)據(jù)集,其中包括結(jié)腸癌 Colon、中樞神經(jīng)系統(tǒng)胚胎細(xì)胞瘤CNS(Central Nervous System Embryonal Tumor)、白血 病Leukemia、上皮細(xì)胞癌Carcinoma和乳腺癌Breast Cancer疾病基因數(shù)據(jù)集,各基因數(shù)據(jù) 集具體信息如表1所示。
[0105] 衷1基閔數(shù)據(jù)集信息描沭
[0108] 下面以數(shù)據(jù)集CNS為例,參見(jiàn)圖3,具體的實(shí)現(xiàn)步驟為:
[0109] (1)將CNS基因表達(dá)譜數(shù)據(jù)按照下式的最大最小化方法進(jìn)行基因標(biāo)準(zhǔn)化,記D = {X1;X2;…;X62}eR9()x7129,其中包含90個(gè)樣本,每個(gè)樣本的基因數(shù)為7129,第i個(gè)基因表示為 fi(l彡i彡7129)。
[0110]
[0111]其中,gi,v表示第i個(gè)基因在第V個(gè)樣本上的表達(dá)值,max(gi)表示第i個(gè)基因的最大 值,min(gi)表示第i個(gè)基因的最小值;
[0112] (2)將標(biāo)準(zhǔn)化后的基因數(shù)據(jù)集使用bootstrap方法劃分為訓(xùn)練集和測(cè)試集,假設(shè)訓(xùn) 練集中樣本個(gè)數(shù)為mi,測(cè)試集中樣本個(gè)數(shù)為m2;用Wi Icoxon秩和檢驗(yàn)方法度量訓(xùn)練集中每個(gè) 基因的權(quán)值,然后用K-means聚類(lèi)分析,從各類(lèi)簇中保留權(quán)重大于該簇平均特征權(quán)重的基 因,構(gòu)成預(yù)選擇基因子集,即出山,~,5,~彳1},其中,?口7129 ;
[0113] (3)根據(jù)步驟(2)的預(yù)選擇基因子集中每個(gè)基因?qū)?yīng)的權(quán)重值計(jì)算出每個(gè)基因?qū)?應(yīng)的辨識(shí)度,表示為:
[0114] disi=Wi ;
[0115] ( 4 )根據(jù)步驟(3 )所計(jì)算的每個(gè)基因?qū)?yīng)的辨識(shí)度,利用
十算出數(shù)據(jù)集中對(duì)應(yīng)基因的獨(dú)立 性,其中r為特征間Pearson相關(guān)系數(shù)絕對(duì)值,fi為第i個(gè)基因,fj為第j個(gè)基因;
[0116] (5)利用步驟(3)所得每個(gè)特征的辨識(shí)度和步驟(4)所得每個(gè)特征的獨(dú)立性,根據(jù) 下式計(jì)算出預(yù)選擇基因子集中每個(gè)基因?qū)?yīng)的重要度值;
[0117] Scorei = disi X indi
[0118] (6)依據(jù)每個(gè)基因的重要度值序列{Scorei,Score2,…,Scoret,…,Scorei},對(duì)其 進(jìn)行降序排序,得到新的基因重要度值序列{ScorepI,ScoreP2,…,Score pt,…,ScorepI },此 時(shí)對(duì)應(yīng)的基因重要度序列為{fpl,fp2,…,fPt,"_,f Pi},選取前50個(gè)具有最大Score的基因作 為最終基因子集,即{f Pl,f p2,f p3,…,f p5q },其中50 □ /。
[0119] (7)根據(jù)最終基因子集獲取降維后的訓(xùn)練數(shù)據(jù)集Z^eZTix'將該訓(xùn)練數(shù)據(jù)集 iTlX5<)與測(cè)試數(shù)據(jù)集e i^x5<),作為SVM分類(lèi)器的輸入數(shù)據(jù),測(cè)試該最終基因子集 分類(lèi)性能。
[0120]上述步驟(2)在標(biāo)準(zhǔn)化后的基因數(shù)據(jù)集還可以采用k-折交叉驗(yàn)證法進(jìn)行劃分,k-折交叉驗(yàn)證法和bootstrap方法均屬于常規(guī)的數(shù)據(jù)集劃分方法。
[0121]為了驗(yàn)證本發(fā)明的有益效果,并將本發(fā)明提供的基因選擇方法與常用的Weight、 mRMR、SVM-RFE、Re I i ef和ARCO算法進(jìn)行比較,其中:
[0122] I、Weight是一種基于權(quán)重策略與K-means聚類(lèi)方法的特征選擇方法,是集Filter 方法和Wrapper方法的混合特征選擇方法。
[0123] 2、mRMR方法基于理想的特征子集,不僅滿足特征和類(lèi)標(biāo)的相關(guān)性盡可能大,而且 滿足特征子集中的特征之間冗余度盡可能低的思想,利用互信息度量特征與類(lèi)標(biāo)和特征之 間的相關(guān)性來(lái)實(shí)現(xiàn)特征選擇。
[0124] 3、SVM-RFE是一種典型的Wrapper方法,利用支持向量機(jī)權(quán)重向量對(duì)特征重要性進(jìn) 行評(píng)估,并從原始數(shù)據(jù)集中逐個(gè)剔除對(duì)分類(lèi)器貢獻(xiàn)小的特征,保留下的特征即為最優(yōu)特征 子集。
[0125] 4、Relief方法假設(shè)相互靠近且同類(lèi)的樣本之間應(yīng)彼此相似,而相互靠近但不同類(lèi) 的樣本應(yīng)相當(dāng)不同,是一種特征權(quán)重算法,利用各個(gè)特征和類(lèi)別的相關(guān)性度量特征不同的 權(quán)重,權(quán)重小于某個(gè)閾值的特征將被移除。
[0126] 5、ARC0是基于AUC最大化與mRMR框架的特征選擇方法,使得所選特征子集中特征 不僅具有較強(qiáng)的分類(lèi)性能,且相互之間冗余度低。
[0127] 將本發(fā)明的步驟重復(fù)運(yùn)行100次,基因子集的分類(lèi)性能以平均正確率和平均AUC (Area under an ROC curve ,Receiver operating characteristic curve,R0C)值來(lái)評(píng) 價(jià),得到6種方法隨基因子集規(guī)模大小而變化的平均正確率Acc和平均AUC曲線圖,分別如圖 4和圖5所示。
[0128] 從圖4和圖5中實(shí)驗(yàn)結(jié)果可以看出:本發(fā)明提供的基因選擇方法在CNS基因數(shù)據(jù)集 的應(yīng)用上得到了較好的分類(lèi)效果,在所選基因子集規(guī)模大于10時(shí),本發(fā)明中的基因選擇方 法所選基因子集的分類(lèi)性能最優(yōu),當(dāng)所選基因子集規(guī)模小于10時(shí),從圖4可見(jiàn),本發(fā)明中基 因選擇方法所選基因子集的分類(lèi)性能和對(duì)比算法We i ght、mRMR和ARCO相當(dāng),均優(yōu)于SVM-RFE 和Relief算法;從圖5可見(jiàn),本發(fā)明中基因選擇方法所選基因子集的分類(lèi)性能僅次于ARCO算 法。
[0129] 將本發(fā)明提供所提供特征選擇方法和其它5種方法的平均運(yùn)行時(shí)間進(jìn)行比較,結(jié) 果如表2所示。
[0130] 表2 6種特征選擇方法在CNS基因數(shù)據(jù)集上的平均運(yùn)行時(shí)間比較
[0132] 從表2本發(fā)明中基因選擇方法和其它5種對(duì)比方法的平均時(shí)間對(duì)比可見(jiàn),本發(fā)明中 基因選擇方法在CNS數(shù)據(jù)集上運(yùn)行一次的平均時(shí)間僅為0.31秒,其效率性能均優(yōu)于其它對(duì) 比方法。
[0133] 綜上所述,本發(fā)明提出的特征選擇方法可以選擇出有效的特征區(qū)分子集,并且具 有較好的時(shí)間性能,尤其在腫瘤基因表達(dá)譜數(shù)據(jù)的應(yīng)用中,其對(duì)應(yīng)的基因子集具有較高的 分類(lèi)效果和時(shí)間性能,為腫瘤等疾病的診斷研究和藥物研發(fā)提供技術(shù)支持和理解手段,具 有重要的生物學(xué)意義。
【主權(quán)項(xiàng)】
1. 一種基于特征辨識(shí)度與獨(dú)立性的特征選擇方法,其特征在于由W下步驟組成: (1) 計(jì)算每個(gè)特征的辨識(shí)度 根據(jù)特征權(quán)重計(jì)算方法計(jì)算出數(shù)據(jù)集D中每個(gè)特征的權(quán)重Wi,該數(shù)據(jù)集表示為D={Xi; 拉;…;Xm}erxn,其中包含m個(gè)樣本,每個(gè)樣本的特征數(shù)為n,第i個(gè)特征為利用 權(quán)重Wi計(jì)算出每個(gè)特征的辨識(shí)度di Si,表達(dá)為: disi=wi; (2) 計(jì)算每個(gè)特征的獨(dú)立性 根據(jù)步驟(1 )所計(jì)算的每個(gè)特征的辨識(shí)度d i S 1,利用計(jì)算出數(shù)據(jù)集D中每個(gè)特征的獨(dú) 立性indi,其中r為特征間Pearson相關(guān)系數(shù)絕對(duì)值,fi為第i個(gè)特征,。為第j個(gè)特征,1刮《 n,且j聲i; (3) 計(jì)算特征的重要度Score 利用步驟(1)所得每個(gè)特征的辨識(shí)度disi和步驟(2)所得每個(gè)特征的獨(dú)立性indi,根據(jù) 下式計(jì)算出每個(gè)特征的重要度Score。 Scorei = disi X indi (4) 確定特征子集 根據(jù)每個(gè)特征的重要度Scorei,對(duì)數(shù)據(jù)集D中的所有特征的重要度值降序排列,選取其 中重要度明顯高于其余特征重要度的前k個(gè)特征,l<k<n,組成包含有k個(gè)優(yōu)選特征的特征 子集。2. 根據(jù)權(quán)利要求1所述的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法,其特征在于步驟 (1)中所述的特征權(quán)重計(jì)算方法具體是W下方法之一: 1. Wilcoxon秩和檢驗(yàn)方法 利用計(jì)算出數(shù)據(jù)集D中每個(gè)特征的Wilcoxon秩和檢 驗(yàn)值,其中x( ·)是判別函數(shù),本.ι,?和分別表示第VI和V個(gè)樣本的第fi個(gè)特征值,若 (不,W -X,.,,:)言0誠(chéng)立,則x(.)取值為1,否則取值〇;N。,化分別代表二類(lèi)數(shù)據(jù)集中每類(lèi)樣 本的個(gè)數(shù); 根據(jù)所得胖;[1。(^〇]1秩和檢驗(yàn)值》5'^^.,利用*1=max陽(yáng)〇*化-5(f i), S (f i)]計(jì)算出每個(gè)特征對(duì) 應(yīng)的權(quán)值Wi; 2. D-Score 方法 對(duì)數(shù)據(jù)集D中每個(gè)特征的權(quán)重計(jì)算方法定義為下式:其中,Di表示數(shù)據(jù)集D中第fi個(gè)特征的D-Score值,即第fi個(gè)特征的權(quán)重,c為數(shù)據(jù)集的類(lèi) 別個(gè)數(shù),石,方'> 分別為第i個(gè)特征在整個(gè)數(shù)據(jù)集和第j '類(lèi)數(shù)據(jù)集上自勺均值,成為第j '類(lèi) 中第V個(gè)樣本點(diǎn)在第i個(gè)特征的特征值,表示第j'類(lèi)數(shù)據(jù)集上的樣本個(gè)數(shù); 3) 基于互信息的方法 互信息用于評(píng)價(jià)兩個(gè)特征之間或特征與類(lèi)標(biāo)的相關(guān)性,計(jì)算公式如下: I(fi,Y)=H(Y)-H(Y|fi) 其中,Y表示數(shù)據(jù)集D的類(lèi)標(biāo)向量;I(fi,Y)表示數(shù)據(jù)集D中每個(gè)特征與類(lèi)標(biāo)向量Y之間的 互信息值,即特征fi的權(quán)重;H(Y)為類(lèi)標(biāo)向量Y的信息賭;H(Y|fi)為在特征fi取值確定條件 下類(lèi)標(biāo)向量Y的信息賭; 4) 基于對(duì)稱(chēng)不確定性的方法 基于對(duì)稱(chēng)不確定性方法的計(jì)算公式如下:\ - I / 、 / 其中,SU(fi,Y)表示數(shù)據(jù)集中特征fi的對(duì)稱(chēng)不確定性值,即特征權(quán)重;I(fi,Y)表示數(shù)據(jù) 集D中每個(gè)特征與類(lèi)標(biāo)向量Y之間的互信息值;H(fi)和H(Y)分別表示每個(gè)特征的信息賭和 類(lèi)標(biāo)向量的信息賭。3. 根據(jù)權(quán)利要求1所述的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法,其特征在于所述 步驟(2)中特征間化arson相關(guān)系數(shù)絕對(duì)值r的計(jì)算方法為:式(4)中,Χι,Υ康示兩個(gè)待求相關(guān)系數(shù)的特征向量是特征向量Xi的均值表示特 征向量Yi的均值。4. 根據(jù)權(quán)利要求1所述的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法,其特征在于所述 步驟(3)具體是步驟(1)所得的辨識(shí)度為橫坐標(biāo),步驟(2)的獨(dú)立性為縱坐標(biāo),確定出每 個(gè)特征在坐標(biāo)軸中的位置,即構(gòu)造特征獨(dú)立性與辨識(shí)度散點(diǎn)圖,則每個(gè)特征對(duì)應(yīng)的重要度 Scorei即為辨識(shí)度與獨(dú)立性所圍成的矩形面積,表示為: Scorei = disi X indiD5. 根據(jù)權(quán)利要求1所述的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法,其特征在于所述 步驟(4)具體是每個(gè)特征的重要度Scorei為縱軸、特征的個(gè)數(shù)為橫軸建立坐標(biāo),描繪出 每個(gè)特征在坐標(biāo)中的位置,即得到重要度值降序排列所得的特征點(diǎn)集,沿著縱坐標(biāo)自上而 下選取前k個(gè)特征點(diǎn),組成優(yōu)選特征子集。6. 權(quán)利要求1所述的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法在腫瘤基因表達(dá)譜數(shù)據(jù) 中的應(yīng)用。7. 根據(jù)權(quán)利要求6所述的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法在腫瘤基因表達(dá)譜 數(shù)據(jù)中的應(yīng)用,其具體的實(shí)現(xiàn)方法包括W下步驟: (1) 將腫瘤基因表達(dá)譜數(shù)據(jù)按照下式的最大最小化方法進(jìn)行基因標(biāo)準(zhǔn)化,記D={Xi; X2r'';Xm}eRmxn,其中包含m個(gè)樣本,每個(gè)樣本的基因數(shù)為n,第i個(gè)基因表示為其中,gi,v表示第i個(gè)基因在第V個(gè)樣本上的表達(dá)值,max(gi)表示第i個(gè)基因的最大值, min(gi)表示第i個(gè)基因的最小值; (2) 將標(biāo)準(zhǔn)化后的基因數(shù)據(jù)集劃分為訓(xùn)練集和測(cè)試集,用Wilcoxon秩和檢驗(yàn)方法度量 訓(xùn)練集中每個(gè)基因的權(quán)值,并用K-means聚類(lèi)分析,從各類(lèi)簇中保留權(quán)重大于該簇平均特征 權(quán)重的基因,構(gòu)成預(yù)選擇基因子集,即也,f2,…,ft,…,fl},其中,l<<n; (3) 根據(jù)步驟(2)的預(yù)選擇基因子集中每個(gè)基因?qū)?yīng)的權(quán)重值計(jì)算出每個(gè)基因?qū)?yīng)的 辨識(shí)度,表示為: disi=wi; (4 )根據(jù)步驟(3 )所計(jì)算的每個(gè)基因?qū)?yīng)的辨識(shí)度d i S 1,利用十算出數(shù)據(jù)集中對(duì)應(yīng)基因的獨(dú)立 性,其中r為特征間化arson相關(guān)系數(shù)絕對(duì)值,fi為第i個(gè)基因,fj為第j個(gè)基因,且j 聲i; (5) 利用步驟(3)所得每個(gè)特征的辨識(shí)度disi和步驟(4)所得每個(gè)特征的獨(dú)立性indi,根 據(jù)下式計(jì)算出預(yù)選擇基因子集中每個(gè)基因?qū)?yīng)的重要度Score。 Scorei = disi X indi (6) 依據(jù)每個(gè)基因的重要度值序列{Scorei, Scores,· · ·,Scoret,· · ·,Scorei},對(duì)其進(jìn)行降 序排序,得到新的基因重要度值序列 {Scorepi,Scorep2,…,Scorept,···,Scorepi},此時(shí)對(duì)應(yīng)的基因重要度序列為 (fpl,fp2,…,fpt,…,fpl},選取前k個(gè)重要度遠(yuǎn)大于其余基因重要度的優(yōu)選基因組成基 因子集,即陽(yáng)1山2山3,。'山山其中1^<<1。8. 根據(jù)權(quán)利要求7所述的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法在腫瘤基因表達(dá)譜 數(shù)據(jù)中的應(yīng)用,其特征在于,所述步驟(6)之后還包括步驟(7),具體是: 根據(jù)最終基因子集獲取降維后的訓(xùn)練數(shù)據(jù)集〇& £巧"iixt,將該訓(xùn)練數(shù)據(jù)集。 與測(cè)試數(shù)據(jù)集E及"""4 :,作為SVM分類(lèi)器的輸入數(shù)據(jù),測(cè)試該最終基因子集分類(lèi)性能。9. 根據(jù)權(quán)利要求7所述的基于特征辨識(shí)度和獨(dú)立性的特征選擇方法在腫瘤基因表達(dá)譜 數(shù)據(jù)中的應(yīng)用,其特征在于步驟(2)中劃分基因數(shù)據(jù)集的方法采用bootstrap方法或k-折交 叉驗(yàn)證法。
【文檔編號(hào)】G06F19/24GK105938523SQ201610196013
【公開(kāi)日】2016年9月14日
【申請(qǐng)日】2016年3月31日
【發(fā)明人】謝娟英, 王明釗
【申請(qǐng)人】陜西師范大學(xué)