聯(lián)合mRNA和microRNA表達(dá)譜芯片的腫瘤特征基因選擇方法_2

文檔序號(hào)：9489642閱讀：來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>聯(lián)合mRNA和microRNA表達(dá)譜芯片的腫瘤特征基因選擇方法

集S，該數(shù)據(jù)集中包含特征數(shù)n2，也稱為最優(yōu)特征集。
[0031] 本發(fā)明的聯(lián)合mRNA和microRNA表達(dá)譜芯片的腫瘤特征基因選擇方法，按照以下步驟具體實(shí)施：
[0032] 步驟1、通過(guò)基因芯片（即mRNA和microRNA表達(dá)譜芯片）檢測(cè)到大量基因的表達(dá) 值，其中多數(shù)基因與腫瘤相關(guān)性不大，對(duì)腫瘤的分類貢獻(xiàn)也小，往往采用過(guò)濾式特征基因選擇方法對(duì)所有基因的相關(guān)性進(jìn)行排序，去除大量的低相關(guān)度基因，留下少量與腫瘤分類密切相關(guān)的基因，
[0033] 過(guò)濾式特征基因選擇方法具體涉及到以下幾種：（在步驟1中，如果mRNA表達(dá)譜芯片采用7種過(guò)濾式方法中的一種，建議microRNA表達(dá)譜芯片也使用相應(yīng)的方法，比如在實(shí)施例中，mRNA表達(dá)譜芯片采用卡方（Chi-Squared)法，則對(duì)microRNA表達(dá)譜芯片亦采用卡方法。7種方法可以依次使用，以分別驗(yàn)證本發(fā)明的效果。后面的具體實(shí)施例中只使用了其中的卡方選擇法。）
[0034] 1. 1)卡方選擇法
[0035] 卡方選擇法[16] (Chi-Squared，X2)采用每個(gè)基因的卡方統(tǒng)計(jì)值（X2)單獨(dú)評(píng)價(jià) 每個(gè)基因，首先將順序或數(shù)字的特征屬性值進(jìn)行離散化，隨后采用下式（1)計(jì)算每個(gè)基因的X2值，
[0037] 其中k表示間隔數(shù)，η為類的數(shù)量，'表示第i間隔第j類的實(shí)際總模式數(shù)，E^為的理論頻數(shù)。
[0038] 1. 2)基于相關(guān)性的特征選擇法
[0039]基于相關(guān)性的特征選擇法[17] (Correlation-basedFeatureSelection，CFS)，其核心思想是所選擇的特征子集里的每個(gè)特征與每一個(gè)類高度相關(guān)，但特征子集相互間的相關(guān)度最低，評(píng)價(jià)特征子集的標(biāo)準(zhǔn)定義為下式（2):
[0041] 其中Mt表示特征子集T的得分值，該特征子集T含有1個(gè)特征，ξ；表示特征子集 Τ內(nèi)每個(gè)特征與類間的平均相關(guān)度，^表示特征子集Τ內(nèi)每個(gè)特征相互之間的平均相關(guān)度。
[0042] 1. 3)信息增益選擇法
[0043] 信息增益選擇法[18](InformationGain，IG)是基于熵的衡量方法，對(duì)于每個(gè)特征屬性的計(jì)算公式如下式（3):
[0044]InfoGain(Class,Attribute) =H(Class)-H(Class|Attribute), (3)
[0045] 其中H(Class)為每個(gè)類的總熵，H(ClassIAttribute)為計(jì)算給定屬性下每個(gè)類的條件熵。
[0046] 1. 4)信息增益率選擇法
[0047] 信息增益率選擇法（GainRatio,GR)計(jì)算每個(gè)屬性的信息增益率，GR用于衡量每個(gè)屬性與類間的相對(duì)熵值，計(jì)算公式如下式（4):
[0048]GainRatio(Class,Attribute) =InfoGain(Class,Attribute)/H(Attribute), (4)
[0049] 其中H(Attribute)表不每個(gè)屬性的熵值，InfoGain(class,Attribute)代表每個(gè) 特征的信息增益。
[0050] 1. 5)對(duì)稱不確定性選擇法
[0051] 對(duì)稱不確定性選擇法[17](SymmetricalUncertainty，SU)計(jì)算每個(gè)屬性的SU 值，SU選擇法是針對(duì)信息增益選擇法偏向選擇具有較大信息增益值的特征而進(jìn)行的調(diào)整，計(jì)算公式如下式（5):
[0052] SU(Class,Attribute) = 2*InfoGain(Class,Attribute) / (H(Class)+H(Attribute)), (5)
[0053] 其中InfoGain(class,Attribute)代表每個(gè)特征的信息增益，H(Class)為每個(gè)類的總熵，H(Attribute)表示每個(gè)屬性的熵值。
[0054] 1. 6)ReliefF選擇法
[0055] 在ReliefF選擇法[19]中，良好的分類特征被定義為在同一類中具有相同的屬性值，并在不同的類中具有不同的屬性值，ReliefF法采用最近鄰方法來(lái)計(jì)算每個(gè)屬性的相關(guān) 性得分，通過(guò)對(duì)實(shí)施例的重復(fù)采樣，根據(jù)最近的相同類和不同類的實(shí)例，評(píng)估每個(gè)屬性的得分值。
[0056] 1. 7)基于支持向量機(jī)的遞歸特征基因消除法
[0057]Guyon等人[5]提出了基于支持向量機(jī)的遞歸特征基因消除法（supportvector machinemethodbasedonrecursivefeatureelimination，SVM-RFE) 〇SVM-RFE方法從原始基因集中逐個(gè)消除對(duì)分類器貢獻(xiàn)最小的基因，基因?qū)Ψ诸惼髫暙I(xiàn)的重要性采用基因排序得分（generankingscore)評(píng)估，基因排序得分定義為支持向量機(jī)權(quán)重向量w的平方和，w的計(jì)算公式如下式（6):
[0059] 其中訓(xùn)練集中樣本i的基因表達(dá)向量，y# [-1，+1]為樣本i的類標(biāo)簽，ai 從訓(xùn)練集計(jì)算得到；大多數(shù)樣本的^為零，ai為非零的向量為支持向量[5]。
[0060] 通過(guò)步驟1中各個(gè)方法的選擇實(shí)施，分別去除mRNA和microRNA表達(dá)譜芯片中大量的低相關(guān)度基因，留下少量與腫瘤分類密切相關(guān)的基因，分別在mRNA和microRNA表達(dá)譜中選取得分最高的η個(gè)基因。
[0061] 步驟2、將采用過(guò)濾式特征基因選擇方法獲取的mRNA和microRNA特征基因進(jìn)行合并，形成基因池U。
[0062] 步驟3、通過(guò)遺傳算法，對(duì)基因池進(jìn)一步選擇基因，目的是消除冗余基因，搜索獲得一個(gè)最優(yōu)特征的最優(yōu)基因集S，使其具有更少的基因數(shù)量和更好的分類性能，遺傳算法的基本組成如下：
[0063] 3. 1)編碼方案，每個(gè)個(gè)體都是由ηι位二進(jìn)制字符串編碼，其中"1"代表選擇相應(yīng) 的基因，而"0"表示未選擇；
[0064] 3. 2)適應(yīng)度函數(shù)，適應(yīng)度函數(shù)的設(shè)計(jì)以最大限度地減少分類錯(cuò)誤率，由一個(gè)SVM 分類器評(píng)估一個(gè)群體中每個(gè)個(gè)體的分類錯(cuò)誤率；
[0065] 3. 3)遺傳算子，以輪盤賭選擇算子為選擇算子，采用一點(diǎn)交叉算子作為交叉算子，并用位點(diǎn)變異算子作為變異算子；
[0066] 采用支持向量機(jī)分類器評(píng)估一個(gè)群體中每個(gè)個(gè)體的分類錯(cuò)誤率，支持向量機(jī)分類器包括normalizedpolykernel，polykernel，RBF和stringkernel四種核函數(shù)；米用K折交叉驗(yàn)證法評(píng)估分類器的性能，在K折交叉驗(yàn)證法中，初始數(shù)據(jù)集被分割成K個(gè)子集，一個(gè) 單獨(dú)的子樣本被保留作為驗(yàn)證模型的數(shù)據(jù)，其他K-1個(gè)樣本用來(lái)訓(xùn)練；交叉驗(yàn)證重復(fù)K次，每個(gè)子樣本驗(yàn)證一次，最后將K次計(jì)算結(jié)果平均，即成。
[0067] 本發(fā)明實(shí)施例的結(jié)果與分析
[0068] 為測(cè)試本發(fā)明方法的實(shí)用性及有效性，下載了mRNA和microRNA表達(dá)譜芯片數(shù)據(jù)，采用Lu等人發(fā)表論文[20]所提供的數(shù)據(jù)集，該數(shù)據(jù)集可從下列網(wǎng)址下載：
[0069]http://www.broad,mit.edu/cgi-bin/cancer/publications/pub_paper.cgi? mode=view&paper_id= 114。該數(shù)據(jù)集是個(gè)多類別腫瘤數(shù)據(jù)集，共有89個(gè)腫瘤和正常組織樣本，其中腫瘤68個(gè)（11類腫瘤），正常組織21個(gè)。數(shù)據(jù)集同時(shí)包含mRNA和microRNA 表達(dá)譜芯片數(shù)據(jù)，其中microRNA表達(dá)譜芯片數(shù)據(jù)含217條micorRNA表達(dá)值，mRNA表達(dá)譜芯片數(shù)據(jù)含16, 063個(gè)基因表達(dá)值。
[0070] 采用支持向量機(jī)執(zhí)行分類任務(wù)。本發(fā)明實(shí)施例選擇其中的多項(xiàng)式核函數(shù) (polykernel)，懲罰參數(shù)設(shè)置為100。采用10折交叉驗(yàn)證法評(píng)估分類器的性能，在10折交叉驗(yàn)證法中，數(shù)據(jù)被隨機(jī)劃分為10個(gè)子集，分類器被訓(xùn)練10次，每次以9個(gè)子集作為訓(xùn)練數(shù)據(jù)，另一個(gè)子集作為測(cè)試集，最后將10次計(jì)算結(jié)果平均。在實(shí)驗(yàn)中，遺傳算法參數(shù)設(shè)置為：
[0071]probabilityofcrossover=1,probabilityofmutation= 0. 02,numberof generations= 50,populationsize= 30。
[0072] 首先，以卡方（Chi-Squared)過(guò)濾法分別從mRNA和microRNA表達(dá)譜選擇得分最高的20個(gè)基因組成支持向量機(jī)分類器，分別以10折交叉驗(yàn)證法評(píng)估分類器，再聯(lián)合mRNA 和microRNA表達(dá)譜得分最高的20個(gè)基因，組成融合分類器，并以10折交叉驗(yàn)證法評(píng)估分類器。由表1可見(jiàn)，采取mRNA表達(dá)譜得分最高的20個(gè)基因組成的分類器可獲得60. 67% 的分類準(zhǔn)確度，

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁(yè)1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

表達(dá)譜芯片相關(guān)技術(shù)

基因表達(dá)譜芯片相關(guān)技術(shù)

全基因組表達(dá)譜芯片相關(guān)技術(shù)

腫瘤蛋白芯片相關(guān)技術(shù)

多腫瘤蛋白芯片相關(guān)技術(shù)

多腫瘤蛋白芯片檢測(cè)相關(guān)技術(shù)

多腫瘤標(biāo)志物蛋白芯片相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

聯(lián)合mRNA和microRNA表達(dá)譜芯片的腫瘤特征基因選擇方法_2