聯(lián)合mRNA和microRNA表達(dá)譜芯片的腫瘤特征基因選擇方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于生物醫(yī)學(xué)數(shù)據(jù)分析技術(shù)領(lǐng)域,涉及一種聯(lián)合mRNA和microRNA表達(dá)譜 芯片的腫瘤特征基因選擇方法。
【背景技術(shù)】
[0002] 目前快速發(fā)展的基因芯片技術(shù)具有高通量的優(yōu)勢,它為腫瘤研究提供了一種系統(tǒng) 性的研究手段。腫瘤的病因復(fù)雜,涉及基因組水平、基因調(diào)控水平和表觀遺傳水平的改變, 利用傳統(tǒng)的方法難以全面展開研究,基因芯片技術(shù)可以用來區(qū)別多種常見腫瘤的分類標(biāo) 志,用于幫助發(fā)現(xiàn)腫瘤的新分型以及與腫瘤相關(guān)的新的疾病生物標(biāo)記,因此采用基因芯片 技術(shù)有明顯的優(yōu)勢。
[0003]mRNA表達(dá)譜芯片能一次檢測成千上萬個基因的表達(dá)值,是最早用于腫瘤研究的基 因芯片產(chǎn)品。1999年,Golub等人[1]率先采用mRNA表達(dá)譜芯片對白血病的兩種亞型AML 與ALL的分類問題進行了研究。Van't等人[2]將mRNA基因表達(dá)譜用于乳腺癌的診斷中, 利用包含70個基因的表達(dá)譜,區(qū)分預(yù)后好和預(yù)后差的亞型,效果好于臨床參數(shù)。
[0004] 繼mRNA表達(dá)譜芯片之后,microRNA表達(dá)譜芯片成為腫瘤新的研究熱點。microRNA 是在真核生物中發(fā)現(xiàn)的一類內(nèi)源性的具有調(diào)控功能的非編碼RNA,其大小長約20~25個核 苷酸,microRNA通過阻斷翻譯或誘導(dǎo)靶mRNA降解,在轉(zhuǎn)錄后水平調(diào)芐基因表達(dá),從而精細(xì) 地調(diào)節(jié)多種生物學(xué)過程,包括生長發(fā)育、信號轉(zhuǎn)導(dǎo)、免疫調(diào)節(jié)、細(xì)胞死亡、細(xì)胞凋亡、細(xì)胞周 期、細(xì)胞增殖及腫瘤發(fā)生等。多數(shù)microRNA還具有高度保守性、時序性和組織特異性。人 類腫瘤microRNA表達(dá)模式與腫瘤診斷、分期、進展、預(yù)后及對治療的反應(yīng)密切相關(guān)[3]。
[0005] 在基因芯片技術(shù)中,一個眾所周知的問題是其基因的數(shù)目遠(yuǎn)遠(yuǎn)大于樣品數(shù)量?;?因芯片數(shù)據(jù)具有數(shù)據(jù)量大,樣本數(shù)?。ㄒ话阈∮?00),基因數(shù)量多(一般多于10000)的特 點,給后期的數(shù)據(jù)分析和處理帶來很大的挑戰(zhàn)。特征基因選擇是基于基因芯片數(shù)據(jù)分類中 的關(guān)鍵技術(shù)[4-9]?;蜻x擇的目的是消除噪聲基因,將基因數(shù)量減至最小,減少后續(xù)的分 類任務(wù)中的計算負(fù)擔(dān),并提高學(xué)習(xí)模型的預(yù)測性能[7]。此外,一個較小的最優(yōu)基因子集可 能包含著腫瘤生物標(biāo)志物,且它們與某些腫瘤的表型間的生物學(xué)關(guān)系可以更方便地在后續(xù) 的分子生物學(xué)實驗中進行驗證,從而更好地理解腫瘤發(fā)生發(fā)展的分子機制[4, 8]。
[0006] 常見的特征選擇算法有三種[10],即過濾(Filter)法、纏繞(Wrapper)法和嵌入 (embedded)法。過濾法的評估函數(shù)與分類器無關(guān),過濾法的評價函數(shù)又可以分為距離測度 [11]、信息測度[12]、相關(guān)性測度[13]等。盡管使用過濾器的基因選擇方法簡單快速,但它 也有幾個不足之處:首先,過濾法中的基因選擇的標(biāo)準(zhǔn)不一定與分類器直接相關(guān);其次,過 濾法并沒有考慮到基因之間的相關(guān)性,從而降低了所選定的基因在分類器中的有效性;最 后,過濾法對于最終確定選擇多少基因并無有力的理論支持,所選擇的基因數(shù)量往往是隨 意的。
[0007] 纏繞法[14, 15]采用分類器的分類錯誤率或正確率作為評價函數(shù),纏繞法模式的 基因選擇方法在某種程度上可以克服過濾法的上述問題。在纏繞法模式的基因選擇方法 中,基因逐個順序選擇,并以優(yōu)化分類器準(zhǔn)確度的方式進行。也就是說,首先使用單個基因 訓(xùn)練分類器,并逐個加入新的基因到訓(xùn)練分類器;該過程持續(xù)進行,直到分類器具有足夠高 的準(zhǔn)確度。與過濾器模式相反,纏繞法模式的基因選擇方法采取為特定分類器"量身訂做" 的方式。此外,該方法確保新加入的基因與已經(jīng)選擇的基因是互補的,而不是相關(guān)的。該方 法還提供了一個停止條件,當(dāng)選擇的基因數(shù)量達(dá)到所需的準(zhǔn)確度時,計算終止。然而,該方 法的一個主要缺點是,其對計算的要求是比較高,特別是當(dāng)原始的基因集所含基因數(shù)目比 較大的情況下。
[0008] 嵌入法[5]考慮到分類器的內(nèi)部特征(比如支持向量機分類器里的支持向量),能 與分類器較好地耦合,從而具有較高的精確度,但同對參與特征選擇的分類器依賴性大,選 擇結(jié)果適應(yīng)性差,需要檢驗選擇基因?qū)ζ渌诸惼鞯挠行浴?br>[0009] 盡管研究人員大量采用包括mRNA和microRNA表達(dá)譜芯片等多種基因芯片工具, 試圖揭示腫瘤發(fā)生發(fā)展的分子機制,但為數(shù)眾多的研究往往只是考慮一個平臺的數(shù)據(jù)。比 如說,單獨采用mRNA表達(dá)譜芯片進行特征基因的選擇,并對腫瘤進行分子分類。然而研究 結(jié)果顯示,腫瘤相關(guān)基因不但相互之間存在調(diào)控,構(gòu)成網(wǎng)絡(luò),而且也受到包括microRNA等 非編碼基因的調(diào)控。
【發(fā)明內(nèi)容】
[0010] 本發(fā)明提供了一種聯(lián)合mRNA和microRNA表達(dá)譜芯片的腫瘤特征基因選擇方法, 解決了現(xiàn)有技術(shù)往往只是考慮一個平臺的數(shù)據(jù),難以從多層面、多角度揭示腫瘤相關(guān)的分 子生物學(xué)改變的缺陷,以及單一平臺對理解腫瘤的發(fā)生、發(fā)展機制以及研發(fā)診斷、判斷預(yù)后 的分子標(biāo)志物和治療靶標(biāo),難以充分發(fā)揮有效的作用的問題。
[0011] 本發(fā)明的技術(shù)方案是,一種聯(lián)合mRNA和microRNA表達(dá)譜芯片的腫瘤特征基因選 擇方法,按照以下步驟具體實施:
[0012] 步驟1、通過mRNA和microRNA表達(dá)譜芯片檢測到大量基因的表達(dá)值,采用過濾式 特征基因選擇方法對所有基因的相關(guān)性進行排序,去除大量的低相關(guān)度基因,留下少量與 腫瘤分類密切相關(guān)的基因,
[0013] 通過過濾式特征基因選擇方法的選擇實施,分別去除mRNA和microRNA表達(dá)譜芯 片中大量的低相關(guān)度基因,留下少量與腫瘤分類密切相關(guān)的基因,分別在mRNA和microRNA 表達(dá)譜中選取得分最高的η個基因;
[0014] 步驟2、將采用過濾式特征基因選擇方法獲取的mRNA和microRNA特征基因進行合 并,形成基因池U;
[0015] 步驟3、通過遺傳算法,對基因池進一步選擇基因,消除冗余基因,搜索獲得一個最 優(yōu)特征的最優(yōu)基因集S,使其具有更少的基因數(shù)量和更好的分類性能。
[0016] 本發(fā)明的有益效果是,本發(fā)明提出了一個聯(lián)合mRNA和microRNA表達(dá)譜芯片的混 合模型,希望能從多層面、多角度揭示腫瘤相關(guān)的分子生物學(xué)改變,為理解腫瘤的發(fā)生、發(fā) 展機制以及研發(fā)診斷、判斷預(yù)后的分子標(biāo)志物和治療靶標(biāo)奠定基礎(chǔ),具體包括:
[0017] 1)聯(lián)合mRNA和microRNA表達(dá)譜芯片各自的優(yōu)勢,獲得了分類準(zhǔn)確度更高的基因 集;2)獲得的基因集既包含mRNA基因,又包含microRNA基因,便于更進一步分析它們之 間的調(diào)控關(guān)系;3)該方法最終選擇的基因可以被認(rèn)為是更魯棒性,并且更有資格作為可靠 的生物標(biāo)志物;4)該混合模型已經(jīng)包含過濾法和纏繞法,可以綜合各類基因選擇方法的優(yōu) 勢。
【附圖說明】
[0018] 圖1是本發(fā)明方法的工作原理示意圖。
【具體實施方式】
[0019] 下面結(jié)合附圖和【具體實施方式】對本發(fā)明進行詳細(xì)說明。
[0020] 參照圖1,本發(fā)明的方法基于聯(lián)合mRNA和microRNA表達(dá)譜芯片的腫瘤特征基因 選擇混合模型,該模型的設(shè)置是,首先,分別使用多重過濾器在mRNA和microRNA表達(dá)譜芯 片中選擇各自的特征基因,使用多個過濾器的過濾指標(biāo),確保在初始過濾階段不會排除掉 有用的生物標(biāo)志物。其次,將獲取的mRNA和microRNA特征基因進行合并,形成基因池。最 后,采用遺傳算法,進一步選擇基因,目的是消除冗余基因,搜索一個最佳的子集,使其具有 更少的基因數(shù)量和更好的分類性能。
[0021] 該(腫瘤特征基因選擇混合模型)的設(shè)置特征是,
[0022] 首先是過濾法選擇,設(shè)定η=每個過濾器選擇的基因數(shù)目:
[0023] 采用不同過濾器R,分別計算mRNA和microRNA表達(dá)譜芯片原始基因集中所有基 因的得分并排序,選取得分最高的η個基因。
[0024] 其次、將不同過濾器獲得的基因進行合并,得到合并基因集U。
[0025] 最后、采用遺傳算法,對合并基因集U進一步選擇。
[0026] 輸入:將合并基因集U作為訓(xùn)練數(shù)據(jù)集,該訓(xùn)練數(shù)據(jù)集中包含特征數(shù)ηι,采用遺傳 算法訓(xùn)練包含特征數(shù)&的訓(xùn)練數(shù)據(jù)集,遺傳算法的具體過程如下:
[0027] 1)編碼方案。每個個體都是由叫位二進制字符串編碼,其中"1"代表選擇相應(yīng)的 基因,而表示未選擇。
[0028] 2)適應(yīng)度函數(shù)。適應(yīng)度函數(shù)用來最大限度地減少分類錯誤率,由一個SVM分類器 評估一個群體中每個個體的分類錯誤率。
[0029] 3)遺傳算子,以輪盤賭選擇算子為選擇算子,采用一點交叉算子作為交叉算子,并 用位點變異算子作為變異算子。
[0030] 輸出最優(yōu)基因