本發(fā)明涉及基于深度學(xué)習(xí)的生物信息處理,具體涉及一種疾病風(fēng)險(xiǎn)表征預(yù)測系統(tǒng)及方法。
背景技術(shù):
1、基因并不是獨(dú)立作用來產(chǎn)生或維持大腦功能的,而是存在共同調(diào)控的轉(zhuǎn)錄譜,并且在神經(jīng)發(fā)育和神經(jīng)元活動(dòng)中發(fā)揮重要作用。因此,對于識別遺傳相互作用并闡明其對疾病風(fēng)險(xiǎn)的影響,基于轉(zhuǎn)錄組數(shù)據(jù)的基因共表達(dá)分析是一種很有前景的方法。因此,加權(quán)基因共表達(dá)網(wǎng)絡(luò)分析(wgcna)被用來分分析疾病共表達(dá)基因的潛在特征網(wǎng)絡(luò)。例如,radulescu等人基于wgcna,使用精神分裂癥(scz)患者大腦的轉(zhuǎn)錄組數(shù)據(jù)構(gòu)建共表達(dá)網(wǎng)絡(luò),鑒定了一個(gè)含有許多參與突觸信號傳導(dǎo)和神經(jīng)可塑性基因的信號模塊,這也與scz的診斷和多基因風(fēng)險(xiǎn)評分高度相關(guān)。
2、目前,人工智能已經(jīng)廣泛應(yīng)用于疾病的研究和診斷中。機(jī)器學(xué)習(xí)是人工智能的一個(gè)重要分支,主要研究計(jì)算機(jī)如何通過不同的算法或模型從數(shù)據(jù)中獲得有用的預(yù)測特征。機(jī)器學(xué)習(xí)(ml)模型被用于臨床數(shù)據(jù)收集以建立可靠的疾病風(fēng)險(xiǎn)或分層模型,但現(xiàn)有研究分析大多基于功能或結(jié)構(gòu)磁共振成像數(shù)據(jù),高維數(shù)據(jù)約簡是這些圖像處理方法的組成部分,ml方法可能會(huì)改變原始數(shù)據(jù)矩陣的結(jié)構(gòu),不足以提取有效的可復(fù)制和可解釋特征用于疾病風(fēng)險(xiǎn)表征和評估;而基于生物信息學(xué)的方法研究,其從數(shù)據(jù)中提取的特征信息不足,對疾病生物標(biāo)志物的分析效率低,沒有產(chǎn)生有效結(jié)果。此外,將機(jī)器學(xué)習(xí)與rna測序(rna-seq)數(shù)據(jù)相結(jié)合可進(jìn)行疾病風(fēng)險(xiǎn)表征,但基于深度學(xué)習(xí)的可靠機(jī)器學(xué)習(xí)模型的開發(fā)以表征和評估疾病風(fēng)險(xiǎn)仍是一個(gè)持續(xù)的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于提供一種疾病風(fēng)險(xiǎn)表征預(yù)測方法及系統(tǒng),以解決上述背景技術(shù)中存在的至少一項(xiàng)技術(shù)問題。
2、為了實(shí)現(xiàn)上述目的,本發(fā)明采取了如下技術(shù)方案:
3、第一方面,本發(fā)明提供一種疾病風(fēng)險(xiǎn)表征預(yù)測系統(tǒng),包括:
4、獲取模塊,用于獲取待檢測目標(biāo)對象的生物標(biāo)志物指標(biāo);
5、處理模塊,用于利用預(yù)先訓(xùn)練好的疾病風(fēng)險(xiǎn)評估模型對獲取的待檢測目標(biāo)對象的生物標(biāo)志物指標(biāo)進(jìn)行處理,得到目標(biāo)對象患病風(fēng)險(xiǎn)表征結(jié)果;其中,訓(xùn)練所述疾病風(fēng)險(xiǎn)評估模型包括:所述疾病風(fēng)險(xiǎn)評估模型包括基礎(chǔ)學(xué)習(xí)器和元學(xué)習(xí)器,將目標(biāo)對象的生物標(biāo)志物指標(biāo)輸入所述基礎(chǔ)學(xué)習(xí)器,所述元學(xué)習(xí)器輸出患病風(fēng)險(xiǎn)表征結(jié)果;訓(xùn)練所述疾病風(fēng)險(xiǎn)評估模型中,所述基礎(chǔ)學(xué)習(xí)器用于使用訓(xùn)練數(shù)據(jù)集作為輸入特征,每個(gè)基礎(chǔ)學(xué)習(xí)器對生物標(biāo)志物的預(yù)測結(jié)果及其參數(shù)作為輸出;所述元學(xué)習(xí)器用于將每個(gè)基礎(chǔ)學(xué)習(xí)器的輸出作為輸入,通過優(yōu)化算法選擇最優(yōu)的基礎(chǔ)學(xué)習(xí)器組合,將選中的基礎(chǔ)學(xué)習(xí)器的結(jié)果進(jìn)行集成學(xué)習(xí),輸出最終的患病風(fēng)險(xiǎn)的概率預(yù)測結(jié)果。
6、作為第一方面的進(jìn)一步限定,獲取所述訓(xùn)練數(shù)據(jù)集包括:基于疾病相關(guān)rna-seq數(shù)據(jù)集,獲得與待表征疾病相關(guān)潛在途徑的差異表達(dá)蛋白編碼生物標(biāo)志物,定義為重要生物標(biāo)志物;使用互信息法評估各個(gè)重要生物標(biāo)志物與待表征疾病狀態(tài)之間的相關(guān)性,使用遞歸特征消除模型來捕獲風(fēng)險(xiǎn)必需生物標(biāo)志物,即根據(jù)各個(gè)重要生物標(biāo)志物的重要性對其進(jìn)行排序;對風(fēng)險(xiǎn)必需生物標(biāo)志物應(yīng)用多項(xiàng)式特征推導(dǎo)和互信息過濾識別其它與待表征疾病相關(guān)的基本生物標(biāo)志物,得到所述訓(xùn)練數(shù)據(jù)集。
7、作為第一方面的進(jìn)一步限定,使用互信息法評估各個(gè)重要生物標(biāo)志物與待表征疾病狀態(tài)之間的相關(guān)性,使用遞歸特征消除模型來捕獲風(fēng)險(xiǎn)必需生物標(biāo)志物,即根據(jù)各個(gè)重要生物標(biāo)志物的重要性對其進(jìn)行排序,包括:使用互信息法評估每個(gè)生物標(biāo)志物與疾病狀態(tài)的相關(guān)性,保留互信息值在0-0.052之間的生物標(biāo)志物,利用預(yù)先訓(xùn)練好的遞歸特征消除模型遍歷所有的重要生物標(biāo)志物,根據(jù)遞歸特征消除模型的排名記錄每個(gè)重要生物標(biāo)志物的重要性,當(dāng)k-fold交叉驗(yàn)證中的曲線下面積值不再隨著生物標(biāo)志物數(shù)量的減少而增加時(shí),保留此時(shí)的生物標(biāo)志物數(shù)量;其中,將預(yù)先訓(xùn)練好的遞歸特征消除模帶入遞歸特征消除搜索過程,設(shè)置遞歸特征消除參數(shù),即一次只消除一個(gè)重要生物標(biāo)志物,遞歸特征消除過程將每次從當(dāng)前數(shù)據(jù)集中移除重要性最低的重要生物標(biāo)志物。
8、作為第一方面的進(jìn)一步限定,預(yù)先訓(xùn)練好的遞歸特征消除模型的訓(xùn)練包括:采用基于tree-structured?parzen?estimator方法的貝葉斯優(yōu)化算法,引入5倍k-fold交叉驗(yàn)證的數(shù)據(jù),對梯度提升樹算法模型的超參數(shù)進(jìn)行優(yōu)化微調(diào),得到所述遞歸特征消除模型。
9、作為第一方面的進(jìn)一步限定,對風(fēng)險(xiǎn)必需生物標(biāo)志物應(yīng)用多項(xiàng)式特征推導(dǎo)和互信息過濾識別其它與待表征疾病相關(guān)的基本生物標(biāo)志物,包括:將風(fēng)險(xiǎn)必需生物標(biāo)志物經(jīng)過多次多項(xiàng)式特征推導(dǎo),將推導(dǎo)出的生物標(biāo)志物與多項(xiàng)式推導(dǎo)之前的風(fēng)險(xiǎn)必需生物標(biāo)志物結(jié)合,再通過互信息分析過濾相對無用的信息,得到其它與待表征疾病相關(guān)的基本生物標(biāo)志物。
10、第二方面,本發(fā)明提供一種疾病風(fēng)險(xiǎn)表征預(yù)測方法,包括:
11、獲取待檢測目標(biāo)對象的生物標(biāo)志物指標(biāo);
12、利用預(yù)先訓(xùn)練好的疾病風(fēng)險(xiǎn)評估模型對獲取的待檢測目標(biāo)對象的生物標(biāo)志物指標(biāo)進(jìn)行處理,得到目標(biāo)對象患病風(fēng)險(xiǎn)表征結(jié)果;其中,訓(xùn)練所述疾病風(fēng)險(xiǎn)評估模型包括:所述疾病風(fēng)險(xiǎn)評估模型包括基礎(chǔ)學(xué)習(xí)器和元學(xué)習(xí)器,將目標(biāo)對象的生物標(biāo)志物指標(biāo)輸入所述基礎(chǔ)學(xué)習(xí)器,所述元學(xué)習(xí)器輸出患病風(fēng)險(xiǎn)表征結(jié)果;訓(xùn)練所述疾病風(fēng)險(xiǎn)評估模型中,所述基礎(chǔ)學(xué)習(xí)器用于使用訓(xùn)練數(shù)據(jù)集作為輸入特征,每個(gè)基礎(chǔ)學(xué)習(xí)器對生物標(biāo)志物的預(yù)測結(jié)果及其參數(shù)作為輸出;所述元學(xué)習(xí)器用于將每個(gè)基礎(chǔ)學(xué)習(xí)器的輸出作為輸入,通過優(yōu)化算法選擇最優(yōu)的基礎(chǔ)學(xué)習(xí)器組合,將選中的基礎(chǔ)學(xué)習(xí)器的結(jié)果進(jìn)行集成學(xué)習(xí),輸出最終的患病風(fēng)險(xiǎn)的概率預(yù)測結(jié)果。
13、作為第二方面的進(jìn)一步限定,獲取所述訓(xùn)練數(shù)據(jù)集包括:基于疾病相關(guān)rna-seq數(shù)據(jù)集,獲得與待表征疾病相關(guān)潛在途徑的差異表達(dá)蛋白編碼生物標(biāo)志物,定義為重要生物標(biāo)志物;使用互信息法評估各個(gè)重要生物標(biāo)志物與待表征疾病狀態(tài)之間的相關(guān)性,使用遞歸特征消除模型來捕獲風(fēng)險(xiǎn)必需生物標(biāo)志物,即根據(jù)各個(gè)重要生物標(biāo)志物的重要性對其進(jìn)行排序;對風(fēng)險(xiǎn)必需生物標(biāo)志物應(yīng)用多項(xiàng)式特征推導(dǎo)和互信息過濾識別其它與待表征疾病相關(guān)的基本生物標(biāo)志物,得到所述訓(xùn)練數(shù)據(jù)集。
14、作為第二方面的進(jìn)一步限定,使用互信息法評估各個(gè)重要生物標(biāo)志物與待表征疾病狀態(tài)之間的相關(guān)性,使用遞歸特征消除模型來捕獲風(fēng)險(xiǎn)必需生物標(biāo)志物,即根據(jù)各個(gè)重要生物標(biāo)志物的重要性對其進(jìn)行排序,包括:使用互信息法評估每個(gè)生物標(biāo)志物與疾病狀態(tài)的相關(guān)性,保留互信息值在0-0.052之間的生物標(biāo)志物,利用預(yù)先訓(xùn)練好的遞歸特征消除模型遍歷所有的重要生物標(biāo)志物,根據(jù)遞歸特征消除模型的排名記錄每個(gè)重要生物標(biāo)志物的重要性,當(dāng)k-fold交叉驗(yàn)證中的曲線下面積值不再隨著生物標(biāo)志物數(shù)量的減少而增加時(shí),保留此時(shí)的生物標(biāo)志物數(shù)量;其中,將預(yù)先訓(xùn)練好的遞歸特征消除模帶入遞歸特征消除搜索過程,設(shè)置遞歸特征消除參數(shù),即一次只消除一個(gè)重要生物標(biāo)志物,遞歸特征消除過程將每次從當(dāng)前數(shù)據(jù)集中移除重要性最低的重要生物標(biāo)志物。
15、作為第二方面的進(jìn)一步限定,預(yù)先訓(xùn)練好的遞歸特征消除模型的訓(xùn)練包括:采用基于tree-structured?parzen?estimator方法的貝葉斯優(yōu)化算法,引入5倍k-fold交叉驗(yàn)證的數(shù)據(jù),對梯度提升樹算法模型的超參數(shù)進(jìn)行優(yōu)化微調(diào),得到遞歸特征消除模型。
16、作為第二方面的進(jìn)一步限定,對風(fēng)險(xiǎn)必需生物標(biāo)志物應(yīng)用多項(xiàng)式特征推導(dǎo)和互信息過濾識別其它與待表征疾病相關(guān)的基本生物標(biāo)志物,包括:將風(fēng)險(xiǎn)必需生物標(biāo)志物經(jīng)過多次多項(xiàng)式特征推導(dǎo),將推導(dǎo)出的生物標(biāo)志物與多項(xiàng)式推導(dǎo)之前的風(fēng)險(xiǎn)必需生物標(biāo)志物結(jié)合,再通過互信息分析過濾相對無用的信息,得到其它與待表征疾病相關(guān)的基本生物標(biāo)志物。
17、本發(fā)明有益效果:將生物標(biāo)志物的選擇納入融合模型的構(gòu)建過程中,融合模型使用盡可能少的reb來表征與疾病本身相關(guān)的大多數(shù)特征信息;通過特征推導(dǎo)獲取了不同生物標(biāo)記物之間的潛在調(diào)節(jié)作用,使模型獲得更有效的表征信息;融合模型平衡了多個(gè)基本學(xué)習(xí)器的優(yōu)缺點(diǎn),可以從多個(gè)基本學(xué)習(xí)器中相互學(xué)習(xí)到不一致的信息,具有更好的信息提取能力、更強(qiáng)的穩(wěn)健性。