本發(fā)明屬于基因識別
技術(shù)領(lǐng)域:
,更為具體地講,涉及一種用于癌癥生物標(biāo)志物識別的方法。
背景技術(shù):
:生物標(biāo)志物是疾病正?;蛘弋惓顟B(tài)的標(biāo)志,癌癥生物標(biāo)志物是檢測疑似患有癌癥或處于患癌癥風(fēng)險的個體的標(biāo)志,對于癌癥的診斷和治療具有指導(dǎo)作用。癌癥生物標(biāo)志物識別的常用方法主要是基于單一來源的數(shù)據(jù),比如基于基因表達(dá)芯片數(shù)據(jù),或者基于dna甲基化數(shù)據(jù),以及多種數(shù)據(jù)的簡單融合。由于上述數(shù)據(jù)存在的高維小樣本特點(diǎn),特征選擇方法獲得的具有最好分類性能的特征組合可能有多種,這也使得基于不同來源的數(shù)據(jù)樣本得到的潛在生物標(biāo)志物存在較大差異,且推廣性能不好。因此,如果能夠得到推廣性能良好的潛在癌癥生物標(biāo)志物,對于診斷和治療癌癥具有重大意義。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種用于癌癥生物標(biāo)志物識別的方法,通過找到具有良好推廣性能的癌癥基因,提供癌癥的診斷和治療的指導(dǎo)。為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法,其特征在于,包括以下步驟:(1)、獲取任意一種癌癥的基因表達(dá)數(shù)據(jù)和450k芯片的dna甲基化數(shù)據(jù),以及對應(yīng)癌癥已知的重要基因;(2)、設(shè)基因表達(dá)數(shù)據(jù)為n×p的矩陣,n為矩陣的行數(shù),p為矩陣的列數(shù);取矩陣的前p-1列構(gòu)成矩陣a,取矩陣的第p列構(gòu)成矩陣b;(3)、對矩陣a進(jìn)行預(yù)處理(3.1)、對矩陣a進(jìn)行標(biāo)準(zhǔn)化處理,得到矩陣其中,xi,j表示矩陣a第i行第j列的元素,表示第j列元素的平均值,sj表示第j列元素的標(biāo)準(zhǔn)差;(3.2)、對矩陣進(jìn)行重采樣,得到矩陣a*;(4)、對矩陣a*進(jìn)行特征選擇(4.1)、結(jié)合癌癥已知的重要基因,使用elasticnet回歸模型對矩陣a*進(jìn)行特征選擇;l(λ1,λ2,β)=|b-a*β|2+λ2|β|2+λ1|β|1其中,l(λ1,λ2,β)為elasticnet回歸模型的懲罰項(xiàng),λ1,λ2為懲罰系數(shù),β為j行1列的系數(shù)矩陣,β的估計(jì)值為:表示l(λ1,λ2,β)取最小值時,β的取值;βj為β的第j行;(4.2)、令α=λ2/(λ1+λ2),在約束項(xiàng)(1-α)|β|1+α|β|2≤t下,計(jì)算其中t為很小的常數(shù);(4.3)、把癌癥已知的重要基因?qū)?yīng)的基因表達(dá)數(shù)據(jù)相應(yīng)列的系數(shù)置為0,求得取出中不為0的值對應(yīng)的列,再找到這些列對應(yīng)的基因,把這些基因和已知重要基因求并集,得到最后的特征基因;(5)、對450k芯片的dna甲基化數(shù)據(jù)進(jìn)行擴(kuò)展處理,得到擴(kuò)展后的dna甲基化數(shù)據(jù),再利用t-test假設(shè)檢驗(yàn)法對擴(kuò)展后的dna甲基化數(shù)據(jù)進(jìn)行檢驗(yàn),得到差異甲基化位點(diǎn);(6)、利用差異甲基化位點(diǎn)去比對現(xiàn)有基因,在現(xiàn)有基因中找出每個啟動子區(qū)中擁有k個差異甲基化位點(diǎn)的基因,再將特征基因與找出的基因求交集,得到重疊基因,重疊基因即為識別的潛在的癌癥生物標(biāo)志物。本發(fā)明的發(fā)明目的是這樣實(shí)現(xiàn)的:本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法,通過從公共數(shù)據(jù)庫中獲取癌癥的基因表達(dá)數(shù)據(jù)和dna甲基化數(shù)據(jù),再對基因表達(dá)數(shù)據(jù)進(jìn)行預(yù)處理和特征提取得到特征基因,對dna甲基化數(shù)據(jù)進(jìn)行擴(kuò)展和t-test假設(shè)檢驗(yàn)得到差異甲基化位點(diǎn),最后利用差異甲基化位點(diǎn)去比對現(xiàn)有基因,通過比對成功的現(xiàn)有基因與特征基因求交集得到重疊基因,重疊基因即為識別的潛在的癌癥生物標(biāo)志物。同時,本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法還具有以下有益效果:(1)、本發(fā)明利用擴(kuò)展后的dna甲基化芯片數(shù)據(jù)和癌癥的基因表達(dá)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,減小了傳統(tǒng)數(shù)據(jù)融合方法的有偏性;(2)、本發(fā)明保留了文獻(xiàn)報道中的跟癌癥相關(guān)的重要基因信息,尋找與其組合性能最好的癌癥基因特征,優(yōu)于傳統(tǒng)的癌癥生物標(biāo)志物識別方法,具有良好推廣性能,且為癌癥的診斷和治療提供指導(dǎo)。附圖說明圖1是本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法流程圖;圖2是基因中差異甲基化位點(diǎn)示意圖。具體實(shí)施方式下面結(jié)合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許會淡化本發(fā)明的主要內(nèi)容時,這些描述在這里將被忽略。實(shí)施例圖1是本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法流程圖。在本實(shí)施例中,如圖1所示,本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法,包括以下步驟:s1、獲取任意一種癌癥的基因表達(dá)數(shù)據(jù)和dna甲基化數(shù)據(jù),以及對應(yīng)癌癥已知的重要基因;在本實(shí)施例中,從癌癥基因組公共數(shù)據(jù)庫tcga中獲取甲狀腺癌thca(thyroidcarcinoma),來作為例子來說明,并取其對應(yīng)的450k芯片的dna甲基化數(shù)據(jù),以及文獻(xiàn)報道中跟thca相關(guān)的重要基因。其中,甲狀腺癌thca的基因表達(dá)數(shù)據(jù)擁有572個樣本,20503個基因特征。450k芯片的dna甲基化數(shù)據(jù)擁有484個樣本,401833個位點(diǎn)特征。s2、設(shè)基因表達(dá)數(shù)據(jù)為n×p的矩陣,n為矩陣的行數(shù),p為矩陣的列數(shù),即基因表達(dá)數(shù)據(jù)為572×20503的矩陣;取矩陣的前p-1列構(gòu)成矩陣a,取矩陣的第p列構(gòu)成矩陣b;其中,前p-1列為基因表達(dá)數(shù)據(jù)的數(shù)據(jù)值,第p列為基因表達(dá)數(shù)據(jù)的標(biāo)簽。s3、對矩陣a進(jìn)行預(yù)處理s3.1、掃描矩陣a的每一行,看每一行中是否存在缺失值,如果存在,則用該行的均值進(jìn)行填補(bǔ);然后對填補(bǔ)后的矩陣a進(jìn)行標(biāo)準(zhǔn)化處理,得到矩陣其中,xi,j表示矩陣a第i行第j列的元素,表示第j列元素的平均值,sj表示第j列元素的標(biāo)準(zhǔn)差;s3.2、對矩陣進(jìn)行重采樣,得到矩陣a*,重采樣的目標(biāo)是平衡正負(fù)樣本。s4、對矩陣a*進(jìn)行特征選擇s4.1、結(jié)合癌癥已知的重要基因,使用elasticnet回歸模型對矩陣a*進(jìn)行特征選擇;l(λ1,λ2,β)=|b-a*β|2+λ2|β|2+λ1|β|1其中,l(λ1,λ2,β)為elasticnet回歸模型的懲罰項(xiàng),λ1,λ2為懲罰系數(shù),β為j行1列的系數(shù)矩陣,β的估計(jì)值為:表示l(λ1,λ2,β)取最小值時,β的取值;βj為β的第j行;s4.2、令α=λ2/(λ1+λ2),在約束項(xiàng)(1-α)|β|1+α|β|2≤t下,計(jì)算其中,t為很小的常數(shù),取0.01;α取0.2;s4.3、把癌癥已知的重要基因?qū)?yīng)的基因表達(dá)數(shù)據(jù)相應(yīng)列的系數(shù)置為0,求得取出中不為0的值對應(yīng)的列,再找到這些列對應(yīng)的基因,把這些基因和已知重要基因求并集,得到最后的特征基因;在本實(shí)施例中,甲狀腺癌thca的基因表達(dá)數(shù)據(jù)經(jīng)過步驟s3、s4的處理后剩余690個樣本,287個基因特征。s5、對450k芯片的dna甲基化數(shù)據(jù)進(jìn)行擴(kuò)展處理,得到擴(kuò)展后的450k芯片的dna甲基化數(shù)據(jù),在本實(shí)施例中,對450k芯片的dna甲基化數(shù)據(jù)進(jìn)行擴(kuò)展處理為現(xiàn)有技術(shù),具體擴(kuò)展的流程在此不再贅述;再利用t-test假設(shè)檢驗(yàn)法對擴(kuò)展后的dna甲基化數(shù)據(jù)進(jìn)行檢驗(yàn),得到差異甲基化位點(diǎn)。s6、如圖2所示,在基因的啟動子區(qū)中,黑色點(diǎn)代表差異甲基化位點(diǎn),白色點(diǎn)代表正常的甲基化位點(diǎn);利用差異甲基化位點(diǎn)去比對現(xiàn)有基因,在現(xiàn)有基因中找出每個啟動子區(qū)中擁有5個差異甲基化位點(diǎn)的基因,得到1053個現(xiàn)有基因,再將特征基因與找出的基因求交集,得到21個重疊基因,這21個重疊基因即為識別癌癥生物標(biāo)志物。s7、模型驗(yàn)證在基因表達(dá)數(shù)據(jù)中取出這21個重疊基因?qū)?yīng)的數(shù)據(jù),構(gòu)建數(shù)目適當(dāng)?shù)臎Q策樹分別進(jìn)行分類,最終將結(jié)果采用投票的方式就能得到隨機(jī)森林模型。其中,利用重疊基因構(gòu)建決策樹的方法為:設(shè)重疊基因的維度是f維,即重疊基因有f個屬性。在構(gòu)建開始之前選定一個參數(shù)f,滿足f<<f,在構(gòu)建每個內(nèi)部節(jié)點(diǎn)的過程中,都需要從21個重疊基因中采用隨機(jī)抽樣的方法從他的所有f個屬性選取f個屬性,然后從f個屬性中根據(jù)信息增益比,選出一個最優(yōu)的屬性充當(dāng)分裂屬性,進(jìn)而是決策在此節(jié)點(diǎn)產(chǎn)生分裂。信息增益比的計(jì)算采用如下公式:其中,s為21個重疊基因,value(t)表示屬性t所有取值的集合,v是t的其中一個屬性值,sv是s中屬性t的值為v的樣例集合,|sv|為sv中所含樣例數(shù)。entropy(sv)即表示信息增益,他的計(jì)算采用如下公式:其中,n就是類別的總數(shù),類別c是變量,它的取值是c1,c2,...,cn,而每一個類別出現(xiàn)的概率分別是p(c1),p(c2),...,p(cn)。在得到隨機(jī)森林模型后,我們采用特異性(sp)、靈敏度(se)和準(zhǔn)確性(acc)3個指標(biāo)來進(jìn)行評估,通過使用3倍交叉驗(yàn)證測試20次,獲得隨機(jī)森林模型的平均性能。表1所示,我們構(gòu)建的模型與兩種數(shù)據(jù)簡單融合的傳統(tǒng)方法的對比,結(jié)果優(yōu)于傳統(tǒng)的方法。方法acc(%)sp(%)se(%)傳統(tǒng)方法66.6756.2571.88本發(fā)明85.4268.7593.75表1最后,我們再取獨(dú)立基因表達(dá)數(shù)據(jù)進(jìn)行處理,獲得21個基因特征的數(shù)據(jù)進(jìn)行預(yù)測。在新批次數(shù)據(jù)的結(jié)果如表2所示,取得的結(jié)果是令人滿意的。這表明我們構(gòu)建的模型可用于檢測疑似患有癌癥或處于患癌癥風(fēng)險的個體,能夠用于識別癌癥生物標(biāo)志物。傳統(tǒng)方法acc(%)sp(%)se(%)本發(fā)明84.9566.6791.78表2盡管上面對本發(fā)明說明性的具體實(shí)施方式進(jìn)行了描述,以便于本
技術(shù)領(lǐng)域:
的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于具體實(shí)施方式的范圍,對本
技術(shù)領(lǐng)域:
的普通技術(shù)人員來講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。當(dāng)前第1頁12