一種用于癌癥生物標(biāo)志物識別的方法與流程

文檔序號：11590868閱讀：491來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明屬于基因識別
技術(shù)領(lǐng)域：
，更為具體地講，涉及一種用于癌癥生物標(biāo)志物識別的方法。
背景技術(shù)：
：生物標(biāo)志物是疾病正?；蛘弋惓顟B(tài)的標(biāo)志，癌癥生物標(biāo)志物是檢測疑似患有癌癥或處于患癌癥風(fēng)險的個體的標(biāo)志，對于癌癥的診斷和治療具有指導(dǎo)作用。癌癥生物標(biāo)志物識別的常用方法主要是基于單一來源的數(shù)據(jù)，比如基于基因表達(dá)芯片數(shù)據(jù)，或者基于dna甲基化數(shù)據(jù)，以及多種數(shù)據(jù)的簡單融合。由于上述數(shù)據(jù)存在的高維小樣本特點(diǎn)，特征選擇方法獲得的具有最好分類性能的特征組合可能有多種，這也使得基于不同來源的數(shù)據(jù)樣本得到的潛在生物標(biāo)志物存在較大差異，且推廣性能不好。因此，如果能夠得到推廣性能良好的潛在癌癥生物標(biāo)志物，對于診斷和治療癌癥具有重大意義。技術(shù)實(shí)現(xiàn)要素：本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足，提供一種用于癌癥生物標(biāo)志物識別的方法，通過找到具有良好推廣性能的癌癥基因，提供癌癥的診斷和治療的指導(dǎo)。為實(shí)現(xiàn)上述發(fā)明目的，本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法，其特征在于，包括以下步驟：(1)、獲取任意一種癌癥的基因表達(dá)數(shù)據(jù)和450k芯片的dna甲基化數(shù)據(jù)，以及對應(yīng)癌癥已知的重要基因；(2)、設(shè)基因表達(dá)數(shù)據(jù)為n×p的矩陣，n為矩陣的行數(shù)，p為矩陣的列數(shù)；取矩陣的前p-1列構(gòu)成矩陣a，取矩陣的第p列構(gòu)成矩陣b；(3)、對矩陣a進(jìn)行預(yù)處理(3.1)、對矩陣a進(jìn)行標(biāo)準(zhǔn)化處理，得到矩陣其中，xi,j表示矩陣a第i行第j列的元素，表示第j列元素的平均值，sj表示第j列元素的標(biāo)準(zhǔn)差；(3.2)、對矩陣進(jìn)行重采樣，得到矩陣a*；(4)、對矩陣a*進(jìn)行特征選擇(4.1)、結(jié)合癌癥已知的重要基因，使用elasticnet回歸模型對矩陣a*進(jìn)行特征選擇；l(λ1,λ2,β)＝|b-a*β|2+λ2|β|2+λ1|β|1其中，l(λ1,λ2,β)為elasticnet回歸模型的懲罰項(xiàng)，λ1,λ2為懲罰系數(shù)，β為j行1列的系數(shù)矩陣，β的估計(jì)值為：表示l(λ1,λ2,β)取最小值時，β的取值；βj為β的第j行；(4.2)、令α＝λ2/(λ1+λ2)，在約束項(xiàng)(1-α)|β|1+α|β|2≤t下，計(jì)算其中t為很小的常數(shù)；(4.3)、把癌癥已知的重要基因?qū)?yīng)的基因表達(dá)數(shù)據(jù)相應(yīng)列的系數(shù)置為0，求得取出中不為0的值對應(yīng)的列，再找到這些列對應(yīng)的基因，把這些基因和已知重要基因求并集，得到最后的特征基因；(5)、對450k芯片的dna甲基化數(shù)據(jù)進(jìn)行擴(kuò)展處理，得到擴(kuò)展后的dna甲基化數(shù)據(jù)，再利用t-test假設(shè)檢驗(yàn)法對擴(kuò)展后的dna甲基化數(shù)據(jù)進(jìn)行檢驗(yàn)，得到差異甲基化位點(diǎn)；(6)、利用差異甲基化位點(diǎn)去比對現(xiàn)有基因，在現(xiàn)有基因中找出每個啟動子區(qū)中擁有k個差異甲基化位點(diǎn)的基因，再將特征基因與找出的基因求交集，得到重疊基因，重疊基因即為識別的潛在的癌癥生物標(biāo)志物。本發(fā)明的發(fā)明目的是這樣實(shí)現(xiàn)的：本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法，通過從公共數(shù)據(jù)庫中獲取癌癥的基因表達(dá)數(shù)據(jù)和dna甲基化數(shù)據(jù)，再對基因表達(dá)數(shù)據(jù)進(jìn)行預(yù)處理和特征提取得到特征基因，對dna甲基化數(shù)據(jù)進(jìn)行擴(kuò)展和t-test假設(shè)檢驗(yàn)得到差異甲基化位點(diǎn)，最后利用差異甲基化位點(diǎn)去比對現(xiàn)有基因，通過比對成功的現(xiàn)有基因與特征基因求交集得到重疊基因，重疊基因即為識別的潛在的癌癥生物標(biāo)志物。同時，本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法還具有以下有益效果：(1)、本發(fā)明利用擴(kuò)展后的dna甲基化芯片數(shù)據(jù)和癌癥的基因表達(dá)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合，減小了傳統(tǒng)數(shù)據(jù)融合方法的有偏性；(2)、本發(fā)明保留了文獻(xiàn)報道中的跟癌癥相關(guān)的重要基因信息，尋找與其組合性能最好的癌癥基因特征，優(yōu)于傳統(tǒng)的癌癥生物標(biāo)志物識別方法，具有良好推廣性能，且為癌癥的診斷和治療提供指導(dǎo)。附圖說明圖1是本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法流程圖；圖2是基因中差異甲基化位點(diǎn)示意圖。具體實(shí)施方式下面結(jié)合附圖對本發(fā)明的具體實(shí)施方式進(jìn)行描述，以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是，在以下的描述中，當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許會淡化本發(fā)明的主要內(nèi)容時，這些描述在這里將被忽略。實(shí)施例圖1是本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法流程圖。在本實(shí)施例中，如圖1所示，本發(fā)明一種用于癌癥生物標(biāo)志物識別的方法，包括以下步驟：s1、獲取任意一種癌癥的基因表達(dá)數(shù)據(jù)和dna甲基化數(shù)據(jù)，以及對應(yīng)癌癥已知的重要基因；在本實(shí)施例中，從癌癥基因組公共數(shù)據(jù)庫tcga中獲取甲狀腺癌thca(thyroidcarcinoma)，來作為例子來說明，并取其對應(yīng)的450k芯片的dna甲基化數(shù)據(jù)，以及文獻(xiàn)報道中跟thca相關(guān)的重要基因。其中，甲狀腺癌thca的基因表達(dá)數(shù)據(jù)擁有572個樣本，20503個基因特征。450k芯片的dna甲基化數(shù)據(jù)擁有484個樣本，401833個位點(diǎn)特征。s2、設(shè)基因表達(dá)數(shù)據(jù)為n×p的矩陣，n為矩陣的行數(shù)，p為矩陣的列數(shù)，即基因表達(dá)數(shù)據(jù)為572×20503的矩陣；取矩陣的前p-1列構(gòu)成矩陣a，取矩陣的第p列構(gòu)成矩陣b；其中，前p-1列為基因表達(dá)數(shù)據(jù)的數(shù)據(jù)值，第p列為基因表達(dá)數(shù)據(jù)的標(biāo)簽。s3、對矩陣a進(jìn)行預(yù)處理s3.1、掃描矩陣a的每一行，看每一行中是否存在缺失值，如果存在，則用該行的均值進(jìn)行填補(bǔ)；然后對填補(bǔ)后的矩陣a進(jìn)行標(biāo)準(zhǔn)化處理，得到矩陣其中，xi,j表示矩陣a第i行第j列的元素，表示第j列元素的平均值，sj表示第j列元素的標(biāo)準(zhǔn)差；s3.2、對矩陣進(jìn)行重采樣，得到矩陣a*，重采樣的目標(biāo)是平衡正負(fù)樣本。s4、對矩陣a*進(jìn)行特征選擇s4.1、結(jié)合癌癥已知的重要基因，使用elasticnet回歸模型對矩陣a*進(jìn)行特征選擇；l(λ1,λ2,β)＝|b-a*β|2+λ2|β|2+λ1|β|1其中，l(λ1,λ2,β)為elasticnet回歸模型的懲罰項(xiàng)，λ1,λ2為懲罰系數(shù)，β為j行1列的系數(shù)矩陣，β的估計(jì)值為：表示l(λ1,λ2,β)取最小值時，β的取值；βj為β的第j行；s4.2、令α＝λ2/(λ1+λ2)，在約束項(xiàng)(1-α)|β|1+α|β|2≤t下，計(jì)算其中，t為很小的常數(shù)，取0.01；α取0.2；s4.3、把癌癥已知的重要基因?qū)?yīng)的基因表達(dá)數(shù)據(jù)相應(yīng)列的系數(shù)置為0，求得取出中不為0的值對應(yīng)的列，再找到這些列對應(yīng)的基因，把這些基因和已知重要基因求并集，得到最后的特征基因；在本實(shí)施例中，甲狀腺癌thca的基因表達(dá)數(shù)據(jù)經(jīng)過步驟s3、s4的處理后剩余690個樣本，287個基因特征。s5、對450k芯片的dna甲基化數(shù)據(jù)進(jìn)行擴(kuò)展處理，得到擴(kuò)展后的450k芯片的dna甲基化數(shù)據(jù)，在本實(shí)施例中，對450k芯片的dna甲基化數(shù)據(jù)進(jìn)行擴(kuò)展處理為現(xiàn)有技術(shù)，具體擴(kuò)展的流程在此不再贅述；再利用t-test假設(shè)檢驗(yàn)法對擴(kuò)展后的dna甲基化數(shù)據(jù)進(jìn)行檢驗(yàn)，得到差異甲基化位點(diǎn)。s6、如圖2所示，在基因的啟動子區(qū)中，黑色點(diǎn)代表差異甲基化位點(diǎn)，白色點(diǎn)代表正常的甲基化位點(diǎn)；利用差異甲基化位點(diǎn)去比對現(xiàn)有基因，在現(xiàn)有基因中找出每個啟動子區(qū)中擁有5個差異甲基化位點(diǎn)的基因，得到1053個現(xiàn)有基因，再將特征基因與找出的基因求交集，得到21個重疊基因，這21個重疊基因即為識別癌癥生物標(biāo)志物。s7、模型驗(yàn)證在基因表達(dá)數(shù)據(jù)中取出這21個重疊基因?qū)?yīng)的數(shù)據(jù)，構(gòu)建數(shù)目適當(dāng)?shù)臎Q策樹分別進(jìn)行分類，最終將結(jié)果采用投票的方式就能得到隨機(jī)森林模型。其中，利用重疊基因構(gòu)建決策樹的方法為：設(shè)重疊基因的維度是f維，即重疊基因有f個屬性。在構(gòu)建開始之前選定一個參數(shù)f，滿足f＜＜f，在構(gòu)建每個內(nèi)部節(jié)點(diǎn)的過程中，都需要從21個重疊基因中采用隨機(jī)抽樣的方法從他的所有f個屬性選取f個屬性，然后從f個屬性中根據(jù)信息增益比，選出一個最優(yōu)的屬性充當(dāng)分裂屬性，進(jìn)而是決策在此節(jié)點(diǎn)產(chǎn)生分裂。信息增益比的計(jì)算采用如下公式：其中，s為21個重疊基因，value(t)表示屬性t所有取值的集合，v是t的其中一個屬性值，sv是s中屬性t的值為v的樣例集合，|sv|為sv中所含樣例數(shù)。entropy(sv)即表示信息增益，他的計(jì)算采用如下公式：其中，n就是類別的總數(shù)，類別c是變量，它的取值是c1,c2,...,cn，而每一個類別出現(xiàn)的概率分別是p(c1),p(c2),...,p(cn)。在得到隨機(jī)森林模型后，我們采用特異性(sp)、靈敏度(se)和準(zhǔn)確性(acc)3個指標(biāo)來進(jìn)行評估，通過使用3倍交叉驗(yàn)證測試20次，獲得隨機(jī)森林模型的平均性能。表1所示，我們構(gòu)建的模型與兩種數(shù)據(jù)簡單融合的傳統(tǒng)方法的對比，結(jié)果優(yōu)于傳統(tǒng)的方法。方法acc(％)sp(％)se(％)傳統(tǒng)方法66.6756.2571.88本發(fā)明85.4268.7593.75表1最后，我們再取獨(dú)立基因表達(dá)數(shù)據(jù)進(jìn)行處理，獲得21個基因特征的數(shù)據(jù)進(jìn)行預(yù)測。在新批次數(shù)據(jù)的結(jié)果如表2所示，取得的結(jié)果是令人滿意的。這表明我們構(gòu)建的模型可用于檢測疑似患有癌癥或處于患癌癥風(fēng)險的個體，能夠用于識別癌癥生物標(biāo)志物。傳統(tǒng)方法acc(％)sp(％)se(％)本發(fā)明84.9566.6791.78表2盡管上面對本發(fā)明說明性的具體實(shí)施方式進(jìn)行了描述，以便于本
技術(shù)領(lǐng)域：
的技術(shù)人員理解本發(fā)明，但應(yīng)該清楚，本發(fā)明不限于具體實(shí)施方式的范圍，對本
技術(shù)領(lǐng)域：
的普通技術(shù)人員來講，只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi)，這些變化是顯而易見的，一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。當(dāng)前第1頁12

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：凡時財(cái);黃康;鄒見效;何建;徐紅兵
技術(shù)所有人：電子科技大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

生物標(biāo)志物相關(guān)技術(shù)

實(shí)驗(yàn)室生物安全標(biāo)志相關(guān)技術(shù)

交通標(biāo)志識別相關(guān)技術(shù)

癌癥標(biāo)志物相關(guān)技術(shù)

癌癥標(biāo)志物檢查相關(guān)技術(shù)

癌癥標(biāo)志物檢測相關(guān)技術(shù)

癌癥標(biāo)志相關(guān)技術(shù)

生物治療癌癥為何叫停相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于癌癥生物標(biāo)志物識別的方法與流程