本發(fā)明屬于生物醫(yī)學(xué)與基因,具體涉及一種基于轉(zhuǎn)錄組學(xué)的機(jī)器學(xué)習(xí)模型在慢性腎病腎損傷基因鑒定中的應(yīng)用。
背景技術(shù):
1、慢性腎病(chronic?kidney?disease,ckd)是全球范圍內(nèi)一個重大的公共衛(wèi)生問題,對個人健康和醫(yī)療系統(tǒng)構(gòu)成了巨大的挑戰(zhàn)。慢性腎病的發(fā)展通常是一個緩慢而隱秘的過程,在早期可能并不會出現(xiàn)明顯的癥狀,但是如果得不到及時的管理,慢性腎病可能會繼續(xù)惡化,最終導(dǎo)致終末期腎病,屆時患者只能依靠透析或腎臟移植來維持生命。因此,早期的診斷和干預(yù)是改善預(yù)后的關(guān)鍵。
2、慢性腎病的診斷主要依賴于臨床癥狀、腎功能指標(biāo)和腎活檢等,這些方法仍然存在一些局限性。例如,血清肌酐(serum?creatine,scr)和尿液分析等傳統(tǒng)腎功能指標(biāo)檢測不能早期準(zhǔn)確反映腎臟損傷程度;腎活檢的侵入性操作和無法連續(xù)監(jiān)測特點,限制了其臨床的應(yīng)用。
3、機(jī)器學(xué)習(xí)(machine?learning,ml)作為一種強(qiáng)有力的數(shù)據(jù)分析工具,在醫(yī)學(xué)預(yù)測模型構(gòu)建中取得了顯著的成果。機(jī)器學(xué)習(xí)結(jié)合轉(zhuǎn)錄組學(xué)分析,允許我們在全基因組水平上考察疾病相關(guān)基因的表達(dá)模式,為深入理解腎臟的反應(yīng)機(jī)理提供了新的視角。通過對患者的多種臨床參數(shù)的分析,機(jī)器學(xué)習(xí)能夠準(zhǔn)確地捕捉到腎臟損傷的早期信號,揭示新的治療靶點,促進(jìn)新型治療方法的開發(fā)和應(yīng)用。
4、支持向量機(jī)遞歸特征消除(support?vector?machine-recursive?feature,elimination,svm-rfe)和最小絕對收縮和選擇算子(least?absolute?shrinkage?andselection?operator,lasso)算法是兩種廣泛應(yīng)用于特征基因篩選的數(shù)據(jù)挖掘方法。svm-rfe通過反復(fù)訓(xùn)練支持向量機(jī)(svm)模型,剔除不重要的特征,篩選出最佳變量的特征數(shù)量;lasso回歸可同時進(jìn)行變量選擇和正則化,通過增加懲罰項,將不必要變量的回歸系數(shù)壓縮為零進(jìn)而從模型中剔除,達(dá)到變量篩選的目的。
5、本發(fā)明旨在結(jié)合生物信息學(xué)和機(jī)器學(xué)習(xí)的優(yōu)勢,應(yīng)用差異表達(dá)分析和加權(quán)基因共表達(dá)網(wǎng)絡(luò),結(jié)合svm-rfe和lasso兩種機(jī)器學(xué)習(xí)算法,篩選與慢性腎病相關(guān)的關(guān)鍵腎損傷標(biāo)志基因,為慢性腎病的診斷與治療提供新的重要的見解。
技術(shù)實現(xiàn)思路
1、本發(fā)明旨在提供了一種慢性腎病腎損傷基因鑒定的方法,為慢性腎病的早期診斷提供分子層面新的理論參考。
2、該一種基于轉(zhuǎn)錄組學(xué)的機(jī)器學(xué)習(xí)模型在慢性腎病腎損傷基因鑒定中的應(yīng)用,基于轉(zhuǎn)錄組學(xué)的機(jī)器學(xué)習(xí)模型的構(gòu)建包括以下步驟:
3、s1,機(jī)器學(xué)習(xí)訓(xùn)練基因識別:
4、(1)鑒定多種不同病理類型慢性腎病腎組織樣本與對照樣本之間的共性差異基因;
5、(2)識別與多種不同病理類型慢性腎病腎損傷臨床性狀最相關(guān)的共性模塊以及模塊內(nèi)的核心基因;
6、(3)取(1)和(2)共同基因作為機(jī)器學(xué)習(xí)訓(xùn)練基因;
7、s2,機(jī)器學(xué)習(xí)訓(xùn)練基因調(diào)控網(wǎng)絡(luò):根據(jù)s1中(3)所述的基因構(gòu)建基因調(diào)控網(wǎng)絡(luò);
8、s3,特征篩選:機(jī)器學(xué)習(xí)算法lasso和svm-rfe對s1中(3)所述基因進(jìn)行特征篩選;
9、s4,特征基因驗證:使用驗證數(shù)據(jù)集,對特征基因的可靠性進(jìn)行驗證,最終得到腎損傷特征基因dusp1、gadd45a、tsc22d3和zfand5;
10、s5,特征基因因果推斷:使用貝葉斯網(wǎng)絡(luò)推斷,判斷腎損傷特征基因與腎損傷結(jié)果的因果關(guān)系;
11、s6,特征基因的表達(dá)量與gfr和scr相關(guān)性分析結(jié)果顯示其腎臟損傷診斷和監(jiān)測價值。
12、進(jìn)一步地,所述步驟s1(1)中,鑒定數(shù)據(jù)集gse180394中不同病理類型慢性腎病樣本和對照樣本之間的差異基因,根據(jù)p小于0.05和|log2fc|0.5-1.5篩選不同病理類型慢性腎病共性差異基因。
13、進(jìn)一步地,所述步驟s1(2)中,識別與數(shù)據(jù)集gse180394中不同病理類型慢性腎病腎損傷臨床性狀最相關(guān)的共性模塊以及模塊內(nèi)核心基因的步驟包括:
14、a.根據(jù)加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析,選擇表達(dá)模式差異最大的前35%-65%基因構(gòu)建網(wǎng)絡(luò);
15、b.根據(jù)無標(biāo)度拓?fù)錅?zhǔn)則,選擇擬合指數(shù)r2(r2等于0.8-0.9)的軟閾值,設(shè)置最小模塊大小為50-100,并計算模塊與慢性腎病的關(guān)聯(lián)性;
16、c.選擇與慢性腎病的相關(guān)性最高模塊,設(shè)定過濾閾值(基因顯著性|gs|大于0.45-0.7和基因與模塊相關(guān)性|mm|大于0.45-0.7)確定模塊中核心基因。
17、進(jìn)一步地,所述步驟s2中分別使用基因互作網(wǎng)絡(luò)與貝葉斯基因調(diào)控網(wǎng)絡(luò)構(gòu)建基于腎損傷的基因型和表型關(guān)系的基因調(diào)控網(wǎng)絡(luò)。
18、進(jìn)一步地,所述步驟s3中,訓(xùn)練數(shù)據(jù)集為整合的gse180394和gse47184。
19、進(jìn)一步地,所述步驟s4中,通過驗證數(shù)據(jù)集gse37455,驗證特征基因的可靠性。
20、進(jìn)一步地,所述步驟s5中,使用希爾-克萊姆算法學(xué)習(xí)貝葉斯網(wǎng)絡(luò)模型。
21、進(jìn)一步地,所述步驟s6中,從nephroseq數(shù)據(jù)庫收集慢性腎病和正常樣本的gfr和scr含量,將特征基因的表達(dá)量與gfr和scr之間的相關(guān)性進(jìn)行分析,評價慢性腎病腎損傷特征基因與腎功能指標(biāo)的相關(guān)性。
22、進(jìn)一步地,構(gòu)建腎損傷特征基因的表達(dá)列線圖預(yù)測模型,并運(yùn)用校準(zhǔn)曲線和決策曲線評估模型的診斷能力與臨床價值。
23、有益效果:
24、1、數(shù)據(jù)處理方法:
25、(1)將人工智能技術(shù)應(yīng)用于龐大復(fù)雜的腎臟轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行無偏差分析,建立基于腎臟rna-seq的特征基因模塊,發(fā)現(xiàn)了傳統(tǒng)方法難以檢測到的rna水平的腎損傷關(guān)鍵基因;同時,賦予機(jī)器學(xué)習(xí)以腎臟網(wǎng)絡(luò)生物學(xué)交叉發(fā)展方向的潛力。
26、(2)整合差異基因和基因共表達(dá)網(wǎng)絡(luò)各自分析優(yōu)勢,選擇機(jī)器學(xué)習(xí)進(jìn)行基因訓(xùn)練和特征篩選,節(jié)省時間運(yùn)算成本的同時,提高用于診斷和監(jiān)測腎臟損傷特征基因的臨床價值。
27、2、新的生物學(xué)發(fā)現(xiàn):
28、(1)傳統(tǒng)慢性腎病生物標(biāo)志物通常是蛋白質(zhì)水平,轉(zhuǎn)錄水平新的特征基因和生物標(biāo)志物的發(fā)現(xiàn)不僅拓展了對慢性腎病基因表達(dá)調(diào)控機(jī)制的理解,還為ckd的診治提供了新的方向和方法。
29、(2)免疫浸潤研究結(jié)果揭示了免疫系統(tǒng)復(fù)雜性,ckd的特異性基因表達(dá)模式,為理解免疫反應(yīng)和開發(fā)免疫療法提供了新的視角。
30、3、本發(fā)明所構(gòu)建的基于特征基因表達(dá)的列線圖模型,克服現(xiàn)有技術(shù)偏見,整合特征基因進(jìn)行打分,具有較高的準(zhǔn)確性,為腎臟損傷風(fēng)險預(yù)測、輔助臨床早期診斷與病情評估提供理論基礎(chǔ)。
1.一種基于轉(zhuǎn)錄組學(xué)的機(jī)器學(xué)習(xí)模型在慢性腎病腎損傷基因鑒定中的應(yīng)用,其特征在于,基于轉(zhuǎn)錄組學(xué)的機(jī)器學(xué)習(xí)模型的構(gòu)建包括以下步驟:
2.根據(jù)權(quán)利要求1所述的應(yīng)用,其特征在于,所述步驟s(1)中,鑒定數(shù)據(jù)集gse180394中不同病理類型慢性腎病樣本和對照樣本之間的差異基因,根據(jù)p小于0.05和|log2fc|0.5-1.5篩選不同病理類型慢性腎病共性差異基因。
3.根據(jù)權(quán)利要求1所述的應(yīng)用,其特征在于,所述步驟s(2)中,識別與數(shù)據(jù)集gse180394中不同病理類型慢性腎病腎損傷臨床性狀最相關(guān)的共性模塊以及模塊內(nèi)核心基因的步驟包括:
4.根據(jù)權(quán)利要求1所述的應(yīng)用,其特征在于,所述步驟s2中分別使用基因互作網(wǎng)絡(luò)與貝葉斯基因調(diào)控網(wǎng)絡(luò)構(gòu)建基于腎損傷的基因型和表型關(guān)系的基因調(diào)控網(wǎng)絡(luò)。
5.根據(jù)權(quán)利要求1所述的應(yīng)用,其特征在于,所述步驟s3中,訓(xùn)練數(shù)據(jù)集為整合的gse180394和gse47184。
6.根據(jù)權(quán)利要求1所述的應(yīng)用,其特征在于,所述步驟s4中,通過驗證數(shù)據(jù)集gse37455,驗證特征基因的可靠性。
7.根據(jù)權(quán)利要求1所述的應(yīng)用,其特征在于,所述步驟s5中,使用希爾-克萊姆算法學(xué)習(xí)貝葉斯網(wǎng)絡(luò)模型。
8.根據(jù)權(quán)利要求1所述的應(yīng)用,其特征在于,所述步驟s6中,從nephroseq數(shù)據(jù)庫收集慢性腎病和正常樣本的gfr和scr含量,將特征基因的表達(dá)量與gfr和scr之間的相關(guān)性進(jìn)行分析,評價慢性腎病腎損傷特征基因與腎功能指標(biāo)的相關(guān)性。
9.根據(jù)權(quán)利要求1所述的應(yīng)用,其特征在于,構(gòu)建腎損傷特征基因的表達(dá)列線圖預(yù)測模型,并運(yùn)用校準(zhǔn)曲線和決策曲線評估模型的診斷能力與臨床價值。