本發(fā)明涉及一種基于決策樹結(jié)構(gòu)對比學習的抑郁癥診斷分析方法,屬于影像基因組學。
背景技術(shù):
1、抑郁癥是一種常見的情感性精神障礙疾病,由于抑郁癥患者的疾病意識不足以及早期篩查方法的缺乏,大多數(shù)患者在診斷時已經(jīng)發(fā)展至重癥,利用患者信息構(gòu)建抑郁癥診斷模型能夠很大程度上幫助從業(yè)者進行抑郁癥診斷。
2、在神經(jīng)影像學領(lǐng)域,磁共振成像(mri)被廣泛應用于精神疾病和神經(jīng)系統(tǒng)疾病的預測和診斷中。例如利用mri信息訓練多種機器學習與深度學習方案(xgboost、svm、vit、transformer等),它們從mri中提取樣本腦部的特征信息用于訓練mdd診斷模型,并不斷對模型進行改進,使其在診斷時擁有更高的準確率和可解釋性。但這些方法僅利用了影像數(shù)據(jù)來訓練模型,相關(guān)研究表明,使用單一的生物指標無法完全解釋mdd,其病因包含遺傳、環(huán)境、心理和生物因素。為了使診斷模型能夠?qū)W習到更多類別的樣本特征,近期的不少研究開始采用深度學習模型來進行疾病診斷,它們利用多種模態(tài)的影像信息來訓練相關(guān)模型,例如多連接表征學習網(wǎng)絡、多模態(tài)交叉transformer等,在診斷效率和準確率上實現(xiàn)了不錯的結(jié)果。但由于深度學習的黑盒特性,研究者難以對這些模型進行歸因分析,其他在臨床過程中能夠獲得的數(shù)據(jù),例如基因信息、年齡、家族病史等均無法加以利用。
3、目前,神經(jīng)系統(tǒng)疾病診斷模型在機器學習與深度學習領(lǐng)域都有著較好的進展,機器學習方法在診斷精度上較深度學習模型差,而深度學習模型的可解釋性不夠完善,無法確定與疾病相關(guān)的腦區(qū)或者功能連接邊。此外,由于基因數(shù)據(jù)的高維度和復雜關(guān)聯(lián),現(xiàn)有關(guān)于精神疾病診斷的模型很少關(guān)注影像和基因的多模態(tài)數(shù)據(jù)。
技術(shù)實現(xiàn)思路
1、本發(fā)明目的在于針對上述現(xiàn)有技術(shù)的缺陷和不足,提出了一種基于決策樹結(jié)構(gòu)對比學習的抑郁癥診斷分析方法,通過利用mdd診斷中常見的腦部磁共振成像(magneticresonance?imaging,mri)與單核苷酸多態(tài)性(single?nucleotide?polymorphisms,snp)信息來訓練分類網(wǎng)絡,在實現(xiàn)疾病診斷的同時對疾病相關(guān)的特征進行分析,mmsc同時利用了兩種mri(結(jié)構(gòu)磁共振成像與靜息態(tài)功能磁共振成像)、snp、臨床評估指標這四種模態(tài)的數(shù)據(jù)來進行多模態(tài)數(shù)據(jù)融合以挖掘樣本特征,并將學習到的特征用于mdd的診斷中,模型有效提升了mdd的診斷精度。
2、本發(fā)明為解決其技術(shù)問題所采用的技術(shù)方案是:一種基于決策樹結(jié)構(gòu)對比學習的抑郁癥診斷分析方法,所述該方法包括如下步驟:
3、步驟1:首先對擁有的數(shù)據(jù)進行預處理;
4、步驟2:選取其中一個模態(tài)的特征來描述模型的編碼過程;
5、步驟3:將選擇后的特征輸入編碼器;
6、步驟4:將編碼所得到的yi輸入投影編碼器之中進行特征降維;
7、步驟5:計算分類損失;
8、步驟6:根據(jù)表征構(gòu)建對比學習損失;
9、步驟7:重復所述步驟2至6,得到四種模態(tài)數(shù)據(jù)各自的編碼器與表征y與z;
10、步驟8:根據(jù)lall的梯度方向,對上述各編碼器中能夠調(diào)整的權(quán)重按梯度下降方向進行迭代更新,從而完成模型的學習過程。
11、進一步地,所述步驟1包括:對于mri數(shù)據(jù),使用靜息狀態(tài)功能數(shù)據(jù)處理助手(dparsf?2.3)mri工具包進行預處理并分配到標準mni(montreal?neurologicalinstitute)空間中,通過aal(automated?anatomical?labeling)模板獲得116*116的功能連接矩陣,再通過該矩陣計算其聚類系數(shù)(clustering?coefficient,cc)和平均灰質(zhì)體積(mean?gray?matter?volum,gmv)分別作為rs-fmri和smri的特征,針對snp信息,采用最小等位基因的個數(shù)進行0、1、2的加性編碼,對于其他臨床信息,將其中離散的數(shù)據(jù)作獨熱編碼,所有數(shù)據(jù)均進行標準化處理,即均值為0,標準差為1。
12、進一步地,所述步驟2包括:假設模型輸入中的第i個模態(tài)特征為xi,將該特征輸入模型中的第一個編碼器以進行特征選擇,其中pi代表特征選擇矩陣,由0、1組成,并且每一行僅有一個值為1,以這種方式,對輸入的特征進行了篩選,在保證特征稀疏的同時,選擇其中重要的特征作為后續(xù)模型的輸入。
13、進一步地,所述步驟3包括:首先對進行編碼,為了使決策樹能夠進行迭代更新,利用sigmoid,即σ函數(shù)與relu激活函數(shù)構(gòu)建了公式:
14、f(x;θ)=w2(relu(w1x+b1))+b2
15、其中,x代表需要決策樹進行判斷的某一變量,w與b代表決策樹節(jié)點中能夠進行迭代更新的權(quán)重,θ代表輸入該公式的w與b權(quán)重值。
16、得到如下可微分的決策樹函數(shù):
17、t(xi)=f(σ(xi1-s1),σ(xi2-s2),...,σ(xin-sn);θ)
18、其中,s用于對決策樹節(jié)點的輸出進行約束,以防止x值的大小對函數(shù)造成影響。
19、編碼層的輸出結(jié)果為:
20、
21、進一步地,所述步驟4包括:投影編碼器為常見的mlp網(wǎng)絡,即:
22、zi=σ(w2·g(w1·yi+b1)+b2)。
23、進一步地,所述步驟5包括:利用樣本標簽lj與步驟3中得到的樣本表征yi預測分類結(jié)果該過程同樣利用mlp實現(xiàn),并與樣本真實標簽計算交叉熵損失:
24、
25、進一步地,所述步驟6包括:將步驟4中得到的表征zi作為對比學習損失的輸入:
26、
27、由于不同模態(tài)的特征編碼過程是并行的,該處假設其他模態(tài)的特征已經(jīng)過編碼處理,其中n代表樣本個數(shù),m代表特征模態(tài)個數(shù),a(j)代表去除第j個樣本的n個樣本,p(j)代表與樣本j有著相同分類標簽的其他樣本,有監(jiān)督對比學習損失利用指數(shù)函數(shù)來計算兩個表征之間的相關(guān)程度,其中分子代表特征zij與其他類別相同的正例樣本特征之間的相關(guān)程度,分母代表特征zij與其余特征之間的相關(guān)程度,分子與分母中的·代表矩陣內(nèi)積。
28、進一步地,所述步驟7包括:通過計算各個表征y的分類損失與表征z的對比學習損失,能夠得到模型的最終損失:
29、
30、進一步地,所述步驟8包括:在迭代過程中使lall的值接近最小值,從而使正例特征組之間的歐氏距離縮小,負例組之間的歐式距離增大。
31、有益效果:
32、1、本發(fā)明提出一種新的mdd診斷方法,稱為多模態(tài)有監(jiān)督對比學習(mmsc),它旨在利用多種模態(tài)的數(shù)據(jù)對mdd進行診斷,并結(jié)合擁有白盒特性的決策樹結(jié)構(gòu)來對mdd相關(guān)的風險基因與腦區(qū)進行分析,mmsc同時利用了兩種mri(結(jié)構(gòu)磁共振成像與靜息態(tài)功能磁共振成像)、snp、臨床評估指標這四種模態(tài)的數(shù)據(jù)來進行多模態(tài)數(shù)據(jù)融合以挖掘樣本特征,并將學習到的特征用于mdd的診斷中,模型有效提升了mdd的診斷精度。
33、2、本發(fā)明該方法利用mdd診斷中常見的腦部磁共振成像(magnetic?resonanceimaging,mri)與單核苷酸多態(tài)性(single?nucleotide?polymorphisms,snp)信息來訓練分類網(wǎng)絡,在實現(xiàn)疾病診斷的同時對疾病相關(guān)的特征進行分析。