集S,該數(shù)據(jù)集中包含特征數(shù)n2,也稱為最優(yōu)特征集。
[0031] 本發(fā)明的聯(lián)合mRNA和microRNA表達(dá)譜芯片的腫瘤特征基因選擇方法,按照以下 步驟具體實(shí)施:
[0032] 步驟1、通過(guò)基因芯片(即mRNA和microRNA表達(dá)譜芯片)檢測(cè)到大量基因的表達(dá) 值,其中多數(shù)基因與腫瘤相關(guān)性不大,對(duì)腫瘤的分類貢獻(xiàn)也小,往往采用過(guò)濾式特征基因選 擇方法對(duì)所有基因的相關(guān)性進(jìn)行排序,去除大量的低相關(guān)度基因,留下少量與腫瘤分類密 切相關(guān)的基因,
[0033] 過(guò)濾式特征基因選擇方法具體涉及到以下幾種:(在步驟1中,如果mRNA表達(dá)譜 芯片采用7種過(guò)濾式方法中的一種,建議microRNA表達(dá)譜芯片也使用相應(yīng)的方法,比如在 實(shí)施例中,mRNA表達(dá)譜芯片采用卡方(Chi-Squared)法,則對(duì)microRNA表達(dá)譜芯片亦采用 卡方法。7種方法可以依次使用,以分別驗(yàn)證本發(fā)明的效果。后面的具體實(shí)施例中只使用了 其中的卡方選擇法。)
[0034] 1. 1)卡方選擇法
[0035] 卡方選擇法[16] (Chi-Squared,X2)采用每個(gè)基因的卡方統(tǒng)計(jì)值(X2)單獨(dú)評(píng)價(jià) 每個(gè)基因,首先將順序或數(shù)字的特征屬性值進(jìn)行離散化,隨后采用下式(1)計(jì)算每個(gè)基因 的X2值,
[0037] 其中k表示間隔數(shù),η為類的數(shù)量,'表示第i間隔第j類的實(shí)際總模式數(shù),E^為 的理論頻數(shù)。
[0038] 1. 2)基于相關(guān)性的特征選擇法
[0039]基于相關(guān)性的特征選擇法[17] (Correlation-basedFeatureSelection,CFS), 其核心思想是所選擇的特征子集里的每個(gè)特征與每一個(gè)類高度相關(guān),但特征子集相互間的 相關(guān)度最低,評(píng)價(jià)特征子集的標(biāo)準(zhǔn)定義為下式(2):
[0041] 其中Mt表示特征子集T的得分值,該特征子集T含有1個(gè)特征,ξ;表示特征子集 Τ內(nèi)每個(gè)特征與類間的平均相關(guān)度,^表示特征子集Τ內(nèi)每個(gè)特征相互之間的平均相關(guān)度。
[0042] 1. 3)信息增益選擇法
[0043] 信息增益選擇法[18](InformationGain,IG)是基于熵的衡量方法,對(duì)于每個(gè)特 征屬性的計(jì)算公式如下式(3):
[0044]InfoGain(Class,Attribute) =H(Class)-H(Class|Attribute), (3)
[0045] 其中H(Class)為每個(gè)類的總熵,H(ClassIAttribute)為計(jì)算給定屬性下每個(gè)類 的條件熵。
[0046] 1. 4)信息增益率選擇法
[0047] 信息增益率選擇法(GainRatio,GR)計(jì)算每個(gè)屬性的信息增益率,GR用于衡量每 個(gè)屬性與類間的相對(duì)熵值,計(jì)算公式如下式(4):
[0048]GainRatio(Class,Attribute) =InfoGain(Class,Attribute)/H(Attribute), (4)
[0049] 其中H(Attribute)表不每個(gè)屬性的熵值,InfoGain(class,Attribute)代表每個(gè) 特征的信息增益。
[0050] 1. 5)對(duì)稱不確定性選擇法
[0051] 對(duì)稱不確定性選擇法[17](SymmetricalUncertainty,SU)計(jì)算每個(gè)屬性的SU 值,SU選擇法是針對(duì)信息增益選擇法偏向選擇具有較大信息增益值的特征而進(jìn)行的調(diào)整, 計(jì)算公式如下式(5):
[0052] SU(Class,Attribute) = 2*InfoGain(Class,Attribute) / (H(Class)+H(Attribute)), (5)
[0053] 其中InfoGain(class,Attribute)代表每個(gè)特征的信息增益,H(Class)為每個(gè)類 的總熵,H(Attribute)表示每個(gè)屬性的熵值。
[0054] 1. 6)ReliefF選擇法
[0055] 在ReliefF選擇法[19]中,良好的分類特征被定義為在同一類中具有相同的屬性 值,并在不同的類中具有不同的屬性值,ReliefF法采用最近鄰方法來(lái)計(jì)算每個(gè)屬性的相關(guān) 性得分,通過(guò)對(duì)實(shí)施例的重復(fù)采樣,根據(jù)最近的相同類和不同類的實(shí)例,評(píng)估每個(gè)屬性的得 分值。
[0056] 1. 7)基于支持向量機(jī)的遞歸特征基因消除法
[0057]Guyon等人[5]提出了基于支持向量機(jī)的遞歸特征基因消除法(supportvector machinemethodbasedonrecursivefeatureelimination,SVM-RFE) 〇SVM-RFE方法從 原始基因集中逐個(gè)消除對(duì)分類器貢獻(xiàn)最小的基因,基因?qū)Ψ诸惼髫暙I(xiàn)的重要性采用基因排 序得分(generankingscore)評(píng)估,基因排序得分定義為支持向量機(jī)權(quán)重向量w的平方 和,w的計(jì)算公式如下式(6):
[0059] 其中訓(xùn)練集中樣本i的基因表達(dá)向量,y# [-1,+1]為樣本i的類標(biāo)簽,ai 從訓(xùn)練集計(jì)算得到;大多數(shù)樣本的^為零,ai為非零的向量為支持向量[5]。
[0060] 通過(guò)步驟1中各個(gè)方法的選擇實(shí)施,分別去除mRNA和microRNA表達(dá)譜芯片中大 量的低相關(guān)度基因,留下少量與腫瘤分類密切相關(guān)的基因,分別在mRNA和microRNA表達(dá)譜 中選取得分最高的η個(gè)基因。
[0061] 步驟2、將采用過(guò)濾式特征基因選擇方法獲取的mRNA和microRNA特征基因進(jìn)行合 并,形成基因池U。
[0062] 步驟3、通過(guò)遺傳算法,對(duì)基因池進(jìn)一步選擇基因,目的是消除冗余基因,搜索獲得 一個(gè)最優(yōu)特征的最優(yōu)基因集S,使其具有更少的基因數(shù)量和更好的分類性能,遺傳算法的基 本組成如下:
[0063] 3. 1)編碼方案,每個(gè)個(gè)體都是由ηι位二進(jìn)制字符串編碼,其中"1"代表選擇相應(yīng) 的基因,而"0"表示未選擇;
[0064] 3. 2)適應(yīng)度函數(shù),適應(yīng)度函數(shù)的設(shè)計(jì)以最大限度地減少分類錯(cuò)誤率,由一個(gè)SVM 分類器評(píng)估一個(gè)群體中每個(gè)個(gè)體的分類錯(cuò)誤率;
[0065] 3. 3)遺傳算子,以輪盤賭選擇算子為選擇算子,采用一點(diǎn)交叉算子作為交叉算子, 并用位點(diǎn)變異算子作為變異算子;
[0066] 采用支持向量機(jī)分類器評(píng)估一個(gè)群體中每個(gè)個(gè)體的分類錯(cuò)誤率,支持向量機(jī)分類 器包括normalizedpolykernel,polykernel,RBF和stringkernel四種核函數(shù);米用K折 交叉驗(yàn)證法評(píng)估分類器的性能,在K折交叉驗(yàn)證法中,初始數(shù)據(jù)集被分割成K個(gè)子集,一個(gè) 單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù),其他K-1個(gè)樣本用來(lái)訓(xùn)練;交叉驗(yàn)證重復(fù)K次, 每個(gè)子樣本驗(yàn)證一次,最后將K次計(jì)算結(jié)果平均,即成。
[0067] 本發(fā)明實(shí)施例的結(jié)果與分析
[0068] 為測(cè)試本發(fā)明方法的實(shí)用性及有效性,下載了mRNA和microRNA表達(dá)譜芯片數(shù)據(jù), 采用Lu等人發(fā)表論文[20]所提供的數(shù)據(jù)集,該數(shù)據(jù)集可從下列網(wǎng)址下載:
[0069]http://www.broad,mit.edu/cgi-bin/cancer/publications/pub_paper.cgi? mode=view&paper_id= 114。該數(shù)據(jù)集是個(gè)多類別腫瘤數(shù)據(jù)集,共有89個(gè)腫瘤和正常組 織樣本,其中腫瘤68個(gè)(11類腫瘤),正常組織21個(gè)。數(shù)據(jù)集同時(shí)包含mRNA和microRNA 表達(dá)譜芯片數(shù)據(jù),其中microRNA表達(dá)譜芯片數(shù)據(jù)含217條micorRNA表達(dá)值,mRNA表達(dá)譜 芯片數(shù)據(jù)含16, 063個(gè)基因表達(dá)值。
[0070] 采用支持向量機(jī)執(zhí)行分類任務(wù)。本發(fā)明實(shí)施例選擇其中的多項(xiàng)式核函數(shù) (polykernel),懲罰參數(shù)設(shè)置為100。采用10折交叉驗(yàn)證法評(píng)估分類器的性能,在10折交 叉驗(yàn)證法中,數(shù)據(jù)被隨機(jī)劃分為10個(gè)子集,分類器被訓(xùn)練10次,每次以9個(gè)子集作為訓(xùn)練 數(shù)據(jù),另一個(gè)子集作為測(cè)試集,最后將10次計(jì)算結(jié)果平均。在實(shí)驗(yàn)中,遺傳算法參數(shù)設(shè)置 為:
[0071]probabilityofcrossover=1,probabilityofmutation= 0. 02,numberof generations= 50,populationsize= 30。
[0072] 首先,以卡方(Chi-Squared)過(guò)濾法分別從mRNA和microRNA表達(dá)譜選擇得分最 高的20個(gè)基因組成支持向量機(jī)分類器,分別以10折交叉驗(yàn)證法評(píng)估分類器,再聯(lián)合mRNA 和microRNA表達(dá)譜得分最高的20個(gè)基因,組成融合分類器,并以10折交叉驗(yàn)證法評(píng)估分 類器。由表1可見(jiàn),采取mRNA表達(dá)譜得分最高的20個(gè)基因組成的分類器可獲得60. 67% 的分類準(zhǔn)確度,