本發(fā)明涉及胰腺癌早期診斷,尤其是結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)方法。
背景技術(shù):
1、胰腺導(dǎo)管腺癌(pdac)是最常見的胰腺癌,約占胰腺癌的90%,多在侵襲性不可治愈期被發(fā)現(xiàn)。由于胰腺癌預(yù)后差、侵襲性強(qiáng)、治療耐藥和診斷晚期,其發(fā)病率幾乎等于胰腺癌患者的死亡率。因此,實(shí)現(xiàn)胰腺癌的早期診斷,是胰腺癌診治的重要熱點(diǎn)課題之一。目前,胰腺癌的篩查手段主要集中在內(nèi)鏡超聲(eus)、磁共振成像(mri)等醫(yī)學(xué)影像手段。近年來,胰腺癌生物標(biāo)志物鑒定和胰腺癌患者內(nèi)源化合物變化分析,也為胰腺癌的早期診斷和治療提供新的思路。
2、胰腺癌腫瘤的生物標(biāo)志物和胰腺癌患者內(nèi)源性化合物的變化,可以通過對(duì)體液,如血液、尿液的代謝組學(xué)研究來獲取。已有研究通過ms和nmr技術(shù)分析胰腺癌患者的血清和尿液代謝譜,發(fā)現(xiàn)了一些潛在的生物標(biāo)志物。然而,目前相關(guān)研究主要集中在胰腺癌患者與健康人群之間的分類,胰腺癌具體分期的研究仍然面臨挑戰(zhàn)?,F(xiàn)有的代謝組學(xué)方法難以在不同期pdac的代謝譜上獲得顯著的組間差異,這限制了通過代謝組學(xué)促進(jìn)胰腺癌疾病診斷的進(jìn)展。代謝組學(xué)數(shù)據(jù)特征變量多,有著高維稀疏的特點(diǎn)。機(jī)器學(xué)習(xí)能夠處理多變量數(shù)據(jù),通過訓(xùn)練從數(shù)據(jù)中提取知識(shí),選取變量特征促進(jìn)決策。盡管已有不少研究使用機(jī)器學(xué)習(xí)算法從代謝譜數(shù)據(jù)進(jìn)行學(xué)習(xí)并實(shí)現(xiàn)了相應(yīng)疾病的預(yù)測(cè),但對(duì)于難以區(qū)分的數(shù)據(jù),機(jī)器學(xué)習(xí)表現(xiàn)并不佳。深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)技術(shù)的延伸,具有強(qiáng)大的學(xué)習(xí)能力和自動(dòng)化訓(xùn)練性能,能夠?qū)ふ易兞恐g的非線性關(guān)系,實(shí)現(xiàn)更準(zhǔn)確的分類預(yù)測(cè),已被廣泛運(yùn)用于各種預(yù)測(cè)問題。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于解決現(xiàn)有技術(shù)中的問題。
2、本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:提供一種結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)方法,包括以下步驟:
3、采集血清樣本并獲取血清代謝譜數(shù)據(jù),構(gòu)成數(shù)據(jù)集;
4、構(gòu)建由深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)任意組成的不同組合模型,用于對(duì)血清代謝譜數(shù)據(jù)進(jìn)行特征提??;
5、構(gòu)建基于不同組合模型的不同混合模型,所述混合模型包括特征提取部分和分類部分,特征提取部分采用組合模型實(shí)現(xiàn)對(duì)血清代謝譜數(shù)據(jù)的特征提取,分類部分采用機(jī)器學(xué)習(xí)算法根據(jù)提取的特征進(jìn)行分類;
6、基于數(shù)據(jù)集對(duì)不同混合模型進(jìn)行訓(xùn)練,獲得訓(xùn)練好的不同混合模型并比較不同混合模型的性能,選擇性能最好的混合模型作為預(yù)測(cè)模型;
7、利用預(yù)測(cè)模型實(shí)現(xiàn)對(duì)pdac的分期預(yù)測(cè)。
8、優(yōu)選的,采用adasyn算法對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。
9、優(yōu)選的,所述不同組合模型包括:
10、結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)構(gòu)建包括cnn層和lstm層的cnn-lstm模型,利用cnn層提取血清代謝譜的局部特征,利用lstm層處理序列數(shù)據(jù);
11、結(jié)合深度神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建包括dnn層和cnn層的dnn-cnn模型,利用dnn層提取全局特征,再由cnn層提取局部特征;
12、結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和雙向長短期記憶網(wǎng)絡(luò)構(gòu)建包括cnn層和雙向lstm層的cnn-bilstm模型,結(jié)合cnn層和雙向lstm層處理局部特征和前后文信息;
13、結(jié)合深度神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)構(gòu)建包括dnn層和lstm層的dnn-lstm模型,結(jié)合dnn層和lstm層處理高維特征和時(shí)間依賴信息。
14、優(yōu)選的,所述機(jī)器學(xué)習(xí)分類算法包括支持向量機(jī)、隨機(jī)森林、梯度提升決策樹和極限梯度提升。
15、優(yōu)選的,所述基于數(shù)據(jù)集對(duì)不同混合模型進(jìn)行訓(xùn)練,具體為:通過網(wǎng)格搜索算法優(yōu)化cnn-lstm模型、dnn-cnn模型、cnn-bilstm模型和dnn-lstm模型及機(jī)器學(xué)習(xí)算法的超參數(shù),包括學(xué)習(xí)率、訓(xùn)練迭代次數(shù)、批處理大小、卷積核大小、池化核大小、正則化系數(shù)和lstm層神經(jīng)元數(shù)量,獲得訓(xùn)練好的不同混合模型。
16、優(yōu)選的,所述比較不同混合模型的性能,包括:
17、比較基于cnn-lstm模型的混合模型、基于dnn-cnn模型的混合模型、基于cnn-bilstm模型的混合模型和基于dnn-lstm模型的混合模型的roc曲線預(yù)測(cè),獲得各混合模型的真陽性率和假陽性率;
18、比較基于cnn-lstm模型的混合模型、基于dnn-cnn模型的混合模型、基于cnn-bilstm模型的混合模型和基于dnn-lstm模型的混合模型的混淆矩陣,獲得各混合模型的分類準(zhǔn)確率。
19、優(yōu)選的,所述預(yù)測(cè)模型采用cnn-lstm模型,利用cnn層提取血清代謝譜的局部特征,利用lstm層處理序列數(shù)據(jù),最后結(jié)合全連接層和relu激活函數(shù)進(jìn)行特征展開;模型的輸出再作為機(jī)器學(xué)習(xí)分類算法的輸入,由機(jī)器學(xué)習(xí)分類算法進(jìn)行pdac分期預(yù)測(cè)。
20、優(yōu)選的,所述cnn-lstm模型的cnn層包括多個(gè)卷積層和池化層,其中,卷積層包括tanh激活函數(shù);所述cnn-lstm模型的包括多層lstm層。
21、本發(fā)明還提供一種結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)裝置,包括:
22、數(shù)據(jù)采集模塊,采集血清樣本并獲取血清代謝譜數(shù)據(jù),構(gòu)成數(shù)據(jù)集;
23、組合模型構(gòu)建模塊,構(gòu)建由深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)任意組成的不同組合模型,用于對(duì)血清代謝譜數(shù)據(jù)進(jìn)行特征提?。?/p>
24、混合模型構(gòu)建模塊,構(gòu)建基于不同組合模型的不同混合模型,所述混合模型包括特征提取部分和分類部分,特征提取部分采用組合模型實(shí)現(xiàn)對(duì)血清代謝譜數(shù)據(jù)的特征提取,分類部分采用機(jī)器學(xué)習(xí)算法根據(jù)提取的特征進(jìn)行分類;
25、預(yù)測(cè)模型選擇模塊,基于數(shù)據(jù)集對(duì)不同混合模型進(jìn)行訓(xùn)練,獲得訓(xùn)練好的不同混合模型并比較不同混合模型的性能,選擇性能最好的混合模型作為預(yù)測(cè)模型;
26、預(yù)測(cè)模型應(yīng)用模塊,利用預(yù)測(cè)模型實(shí)現(xiàn)對(duì)pdac的分期預(yù)測(cè)。
27、本發(fā)明具有如下有益效果:
28、(1)本發(fā)明的檢查數(shù)據(jù)采用血清代謝譜數(shù)據(jù),其獲取過程簡(jiǎn)單且侵入性低,患者易于接受,同時(shí)提供豐富的生物化學(xué)信息,有助于更準(zhǔn)確地判斷疾病狀態(tài);并且,血清代謝譜數(shù)據(jù)的高維特性和復(fù)雜性非常適合用于cnn-lstm-ml混合模型,從而充分發(fā)揮深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法的優(yōu)勢(shì)。
29、(2)本發(fā)明創(chuàng)新性地結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)(cnn)和長短期記憶網(wǎng)絡(luò)(lstm),分別用于提取血清代謝譜數(shù)據(jù)的局部特征和捕捉時(shí)間序列信息,從而全面挖掘數(shù)據(jù)的復(fù)雜特征;該模型能夠處理多維度的血清代謝譜數(shù)據(jù),且由于cnn-lstm模塊能夠高效提取和表示復(fù)雜特征,這些特征可以無縫兼容多種機(jī)器學(xué)習(xí)算法設(shè)計(jì)允許其結(jié)合多種機(jī)器學(xué)習(xí)分類算法,通過這種設(shè)計(jì),模型的泛化能力和預(yù)測(cè)準(zhǔn)確性顯著提升,有效增強(qiáng)了對(duì)復(fù)雜代謝譜數(shù)據(jù)的分類與預(yù)測(cè)效果。
30、以下結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明,但本發(fā)明不局限于實(shí)施例。
1.一種結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)方法,其特征在于,采用adasyn算法對(duì)數(shù)據(jù)集進(jìn)行擴(kuò)充。
3.根據(jù)權(quán)利要求1所述的結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)方法,其特征在于,所述不同組合模型包括:
4.根據(jù)權(quán)利要求3所述的結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)方法,其特征在于,所述機(jī)器學(xué)習(xí)分類算法包括支持向量機(jī)、隨機(jī)森林、梯度提升決策樹和極限梯度提升。
5.根據(jù)權(quán)利要求4所述的結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)方法,其特征在于,所述基于數(shù)據(jù)集對(duì)不同混合模型進(jìn)行訓(xùn)練,具體為:通過網(wǎng)格搜索算法優(yōu)化cnn-lstm模型、dnn-cnn模型、cnn-bilstm模型和dnn-lstm模型及機(jī)器學(xué)習(xí)算法的超參數(shù),包括學(xué)習(xí)率、訓(xùn)練迭代次數(shù)、批處理大小、卷積核大小、池化核大小、正則化系數(shù)和lstm層神經(jīng)元數(shù)量,獲得訓(xùn)練好的不同混合模型。
6.根據(jù)權(quán)利要求5所述的結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)方法,其特征在于,所述比較不同混合模型的性能,包括:
7.根據(jù)權(quán)利要求6所述的結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)方法,其特征在于,所述預(yù)測(cè)模型采用cnn-lstm模型,利用cnn層提取血清代謝譜的局部特征,利用lstm層處理序列數(shù)據(jù),最后結(jié)合全連接層和relu激活函數(shù)進(jìn)行特征展開;模型的輸出再作為機(jī)器學(xué)習(xí)分類算法的輸入,由機(jī)器學(xué)習(xí)分類算法進(jìn)行pdac分期預(yù)測(cè)。
8.根據(jù)權(quán)利要求7所述的結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)方法,其特征在于,所述cnn-lstm模型的cnn層包括多個(gè)卷積層和池化層,其中,卷積層包括tanh激活函數(shù);所述cnn-lstm模型的包括多層lstm層。
9.一種結(jié)合深度學(xué)習(xí)與機(jī)器學(xué)習(xí)的pdac分期預(yù)測(cè)裝置,其特征在于,包括: