本發(fā)明涉及抑郁風(fēng)險預(yù)測領(lǐng)域,具體為一種老年慢性病患者抑郁風(fēng)險預(yù)測方法。
背景技術(shù):
1、老年抑郁癥(late-life?depression,lld)是發(fā)生在60歲或以上的人群中,一種常見的、反復(fù)發(fā)作的長期精神障礙。lld的患病率在住院患者中可能高達(dá)40%,在療養(yǎng)院患者中為30%,在社區(qū)環(huán)境中為8-15%。老年人的抑郁癥往往導(dǎo)致其他不良后果。許多先進(jìn)的治療方法已被用于治療抑郁癥,如抗抑郁藥物、經(jīng)顱磁刺激和心理治療。然而,抑郁癥在老年人中經(jīng)常被忽視,許多患者沒有得到及時和定期的治療。
2、一項關(guān)于全球衰老和成人健康的研究(study?on?globalageingandadulthealth,sage)發(fā)現(xiàn),在2508名抑郁癥患者中,2098名(84%)沒有報告被診斷為抑郁癥或接受抑郁癥治療。此外,一旦老年人遇到抑郁癥的易感因素,抑郁癥可能會在一生中復(fù)發(fā)。lld的易感因素包括300多種,例如年齡、身體健康、認(rèn)知功能、性別、和教育水平。因此,開發(fā)模型來預(yù)測抑郁癥的風(fēng)險并確定老年人抑郁癥的重要預(yù)測因素至關(guān)重要。
3、有研究根據(jù)相關(guān)風(fēng)險因素開發(fā)了風(fēng)險預(yù)測模型(risk?prediction?models,rpms)來估計患有l(wèi)ld的風(fēng)險。但是,當(dāng)前研究仍然存在以下局限性。
4、第一,大多數(shù)研究人員使用有限的風(fēng)險因素和小樣本量來開發(fā)預(yù)測抑郁癥的rpm。第二,雖然部分rpm在預(yù)測老年人抑郁方面表現(xiàn)出色,但是對這些模型的性能以及導(dǎo)致慢性病老年人抑郁的重要風(fēng)險因素知之甚少。并且lld不僅涉及情感癥狀,還涉及身體癥狀。第三,目前的大多數(shù)研究都沒有考慮性別的影響。有研究表明,女性比男性更頻繁地出現(xiàn)抑郁癥狀,目前尚不清楚這些風(fēng)險因素是否會在患有慢性病老年人的性別特異性分類模型中發(fā)生變化。這種差異可能是因為女性的情緒健康受到與其生殖器官、社會角色和歷史文化因素相關(guān)的生物變化的強(qiáng)烈影響。因此,在建模過程中,應(yīng)分別考慮性別和慢性病的不同作用。
技術(shù)實現(xiàn)思路
1、本發(fā)明旨在開發(fā)用于預(yù)測抑郁癥的rpm,并探索慢性病老年人抑郁癥的風(fēng)險因素。此外,本發(fā)明通過性別構(gòu)建模型來識別男性和女性在重要預(yù)測因素上的差異。
2、為此,本發(fā)明采用的技術(shù)方案如下:
3、一種老年慢性病患者抑郁風(fēng)險預(yù)測方法,包括以下步驟,
4、步驟1,建立老年慢性病患者的初始數(shù)據(jù)集,該數(shù)據(jù)集七種類型的變量,分別為人口統(tǒng)計變量、健康狀況變量、生活方式變量、心理變量、藥物變量、家庭狀況變量和社會經(jīng)濟(jì)變量;
5、步驟2,對初始數(shù)據(jù)集進(jìn)行數(shù)據(jù)預(yù)處理,包括特征選擇、數(shù)據(jù)標(biāo)準(zhǔn)化、預(yù)測任務(wù)劃分和數(shù)據(jù)劃分,
6、所述的特征選擇用以去除冗余和不相關(guān)的特征變量,去除標(biāo)準(zhǔn)如下:
7、(1)超過20%的患者缺失的變量;
8、(2)方差等于0的變量;
9、(3)根據(jù)單變量分析無統(tǒng)計學(xué)意義,即p值≥0.05;
10、p值是一個統(tǒng)計學(xué)概念,若變量的p值≥0.05表示該變量無統(tǒng)計學(xué)意義。
11、所述的預(yù)測任務(wù)劃分是將標(biāo)準(zhǔn)化后的數(shù)據(jù)集分為三組,用于不同的預(yù)測任務(wù),包括整個數(shù)據(jù)集中的所有研究樣本(老年組)、所有研究樣本中的男性患者(男性組)和所有研究樣本中的女性患者(女性組);
12、步驟3,搭建老年慢性病患者抑郁風(fēng)險預(yù)測模型,該模型由五種機(jī)器學(xué)習(xí)算法與三種重采樣技術(shù)組成,重采樣技術(shù)用于數(shù)據(jù)平衡;
13、步驟4,將未平衡數(shù)據(jù)集和重采樣技術(shù)處理后的平衡數(shù)據(jù)分別在五種機(jī)器學(xué)習(xí)算法訓(xùn)練,并使用10倍交叉驗證和網(wǎng)格搜索來評價基于不平衡和平衡數(shù)據(jù)集訓(xùn)練時的模型性能,基于不同機(jī)器學(xué)習(xí)模型的評價指標(biāo)來選擇最佳風(fēng)險預(yù)測模型。
14、進(jìn)一步的,所述步驟2的數(shù)據(jù)標(biāo)準(zhǔn)化之前,還使用多重插補(bǔ)法對缺失數(shù)據(jù)進(jìn)行插補(bǔ)。
15、更進(jìn)一步的,使用z-score算法來標(biāo)準(zhǔn)化特征變量,用以平衡不同特征變量對模型的影響。
16、更進(jìn)一步的,所述數(shù)據(jù)劃分是將三組預(yù)測任務(wù)的研究樣本隨機(jī)分為訓(xùn)練集和測試集,劃分比例為7:3。
17、進(jìn)一步的,所述步驟3使用三種重采樣技術(shù)用于解決數(shù)據(jù)不平衡問題,包括tomeklinks、合成少數(shù)過采樣技術(shù)(synthetic?minority?oversamplingtechnique,smote)以及smote與tomek?links相結(jié)合的方法smoteomek。
18、更進(jìn)一步的,所述步驟3使用五種機(jī)器學(xué)習(xí)算法用于構(gòu)建風(fēng)險預(yù)測模型五種機(jī)器學(xué)習(xí)(ml)算法與上述三種重采樣技術(shù)相結(jié)合,五種ml算法分別是:邏輯回歸(logisticregression,lr)、adaboost、隨機(jī)森林(random?forest,rf)、k近鄰(k-nearest?neighbor,knn)和支持向量機(jī)(support?vectormachine,svm)。
19、進(jìn)一步的,所述評價指標(biāo)包括準(zhǔn)確率(accuracy)、特異度(pecificity)、敏感度(sensitivity)、陽性預(yù)測值(positive?predictive?value,ppv)、陰性預(yù)測值(negativepredictive?value,npv)、auroc、auprc和平衡準(zhǔn)確率。
20、與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:
21、(1)本發(fā)明是一種面向老年慢性病患者抑郁癥預(yù)測的方法,使用五種ml算法和三種數(shù)據(jù)平衡方法構(gòu)建模型,可以根據(jù)不同模型的預(yù)測性能評價指標(biāo)選擇最佳模型。
22、(2)本發(fā)明提出的數(shù)據(jù)平衡技術(shù)有效地抵消數(shù)據(jù)不平衡的影響,根據(jù)不同ml模型性能比較表明,所提數(shù)據(jù)平衡方法可以提升老年慢性病抑郁癥預(yù)測的準(zhǔn)確率。
23、(3)本發(fā)明提出的特征選擇去除了與抑郁癥不相關(guān)的特征變量,并且考慮性別對抑郁癥預(yù)測的影響,建立了性別相關(guān)的機(jī)器學(xué)習(xí)預(yù)測模型。
1.一種老年慢性病患者抑郁風(fēng)險預(yù)測方法,其特征在于,包括以下步驟,
2.根據(jù)權(quán)利要求1所述老年慢性病患者抑郁風(fēng)險預(yù)測方法,其特征在于,所述步驟2的數(shù)據(jù)標(biāo)準(zhǔn)化之前,還使用多重插補(bǔ)法對缺失數(shù)據(jù)進(jìn)行插補(bǔ)。
3.根據(jù)權(quán)利要求2所述老年慢性病患者抑郁風(fēng)險預(yù)測方法,其特征在于,使用z-score算法來標(biāo)準(zhǔn)化特征變量,用以平衡不同特征變量對模型的影響。
4.根據(jù)權(quán)利要求3所述老年慢性病患者抑郁風(fēng)險預(yù)測方法,其特征在于,所述數(shù)據(jù)劃分是將三組預(yù)測任務(wù)的研究樣本隨機(jī)分為訓(xùn)練集和測試集,劃分比例為7:3。
5.根據(jù)權(quán)利要求1所述老年慢性病患者抑郁風(fēng)險預(yù)測方法,其特征在于,所述步驟3使用三種重采樣技術(shù)用于解決數(shù)據(jù)不平衡問題,包括tomek?links、合成少數(shù)過采樣技術(shù)(synthetic?minority?oversampling?technique,smote)以及smote與tomeklinks相結(jié)合的方法smoteomek。
6.根據(jù)權(quán)利要求5所述老年慢性病患者抑郁風(fēng)險預(yù)測方法,其特征在于,所述步驟3使用五種機(jī)器學(xué)習(xí)算法用于構(gòu)建風(fēng)險預(yù)測模型五種機(jī)器學(xué)習(xí)(ml)算法與上述三種重采樣技術(shù)相結(jié)合,五種ml算法分別是:邏輯回歸(logistic?regression,lr)、adaboost、隨機(jī)森林(random?forest,rf)、k近鄰(k-nearestneighbor,knn)和支持向量機(jī)(supportvectormachine,svm)。
7.根據(jù)權(quán)利要求6所述老年慢性病患者抑郁風(fēng)險預(yù)測方法,其特征在于,所述評價指標(biāo)包括準(zhǔn)確率(accuracy)、特異度(pecificity)、敏感度(sensitivity)、陽性預(yù)測值(positivepredictive?value,ppv)、陰性預(yù)測值(negative?predictive?value,npv)、auroc、auprc和平衡準(zhǔn)確率,其中auroc是roc(receiver?operating?characteristic)曲線下面積,auprc是精確召回曲線(precision-recall?curve,prc)下面積。