一種基于深度學(xué)習(xí)的代謝質(zhì)譜篩查方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及代謝質(zhì)譜篩查領(lǐng)域,尤其設(shè)及一種基于深度學(xué)習(xí)的代謝質(zhì)譜篩查方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 代謝物是生物體內(nèi)完成代謝過程的小分子有機(jī)化合物總稱,包含了豐富的生理狀 態(tài)信息。代謝組學(xué)基于對代謝物的整體系統(tǒng)性研究,可有效掲示生理現(xiàn)象背后的真實(shí)機(jī)理, 并更為全面地展示生命體的動態(tài)狀態(tài)。因此獲得了越來越多的重視,被廣泛應(yīng)用于諸多科 研與實(shí)用領(lǐng)域中。質(zhì)譜分析(Mass Spectromet巧,MS)是代謝組學(xué)最為重要的研究工具之 一,可有效鑒別不同的代謝物質(zhì),并準(zhǔn)確衡量其相對濃度,數(shù)據(jù)形式如圖1和圖2所示。疾病 檢測是代謝質(zhì)譜主要的應(yīng)用范疇之一。通過定量測定目標(biāo)代謝物的存在與豐度變化,可獲 得較傳統(tǒng)方法更為豐富、完整的生理數(shù)據(jù),對疾病的存在與發(fā)展?fàn)顟B(tài)進(jìn)行有效判定,并協(xié)助 醫(yī)生擬定針對性的治療方案。
[0003] 現(xiàn)有基于代謝質(zhì)譜的檢測算法(例如應(yīng)用于疾病檢測或預(yù)測),其流程包含=個主 要步驟:1).峰值檢測,將原始質(zhì)譜經(jīng)預(yù)處理消除噪聲干擾,獲取有效峰值。常用的預(yù)處理算 法包括正規(guī)化(Standardization)、PCA白化、ZCA白化等;2).峰值注釋(Annotation),判定 目標(biāo)峰值(群)所對應(yīng)的具體代謝物質(zhì)種類。運(yùn)一過程往往由實(shí)驗(yàn)人員人工完成,但近年來 也出現(xiàn)了基于機(jī)器學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)的自動注釋算法,獲得了較好的效果;3).疾病判 定,W生物標(biāo)志物數(shù)據(jù)庫為基礎(chǔ),通過分析特定代謝物的出現(xiàn)、消失或濃度變化,預(yù)測可能 發(fā)生的疾病類型與發(fā)展?fàn)顟B(tài)。常用的生物標(biāo)志物數(shù)據(jù)庫包括小分子代謝途徑數(shù)據(jù)庫 (SMPDB )、人類代謝物數(shù)據(jù)庫(HMDB)等,而常用的判定算法包括支持向量機(jī)分類器(Suppod Vector Machine Classifier)等。
[0004] 深度學(xué)習(xí)網(wǎng)絡(luò)是目前機(jī)器學(xué)習(xí)與人工神經(jīng)網(wǎng)絡(luò)領(lǐng)域最前沿、性能最佳的分析方法 之一。在復(fù)雜認(rèn)知問題上具有遠(yuǎn)優(yōu)于傳統(tǒng)算法的預(yù)測能力,泛化性能良好,并可同時對多個 目標(biāo)狀態(tài)進(jìn)行判定。獲得了學(xué)術(shù)與工業(yè)界的高度重視,已被成功應(yīng)用于計算機(jī)視覺、音頻識 別等重要領(lǐng)域中。
[0005] 現(xiàn)有基于代謝質(zhì)譜的檢測方法,其缺點(diǎn)在于:
[0006] 第一,現(xiàn)有方法需對質(zhì)譜峰值進(jìn)行判定與注釋,W確定其對應(yīng)的代謝物種類。運(yùn)一 過程往往要求專業(yè)人員的深度參與,即使利用了機(jī)器學(xué)習(xí)等自動化算法,仍需要人工對注 釋結(jié)果進(jìn)行最終判定與調(diào)整。從而增加了應(yīng)用成本與難度。此外,由于當(dāng)前代謝組學(xué)知識仍 有著大量缺失,通常在質(zhì)譜中僅有不到一半的峰值可被成功注釋,其平均置信度也較低。從 而對于許多狀態(tài)并不能進(jìn)行有效預(yù)測。
[0007] 第二,現(xiàn)有方法需針對每種特定類別,分析與其關(guān)聯(lián)的各代謝標(biāo)志物變化情況,才 能對狀態(tài)作出大致判斷。運(yùn)一過程較為復(fù)雜,需大量人工干預(yù)。且若部分標(biāo)志物未能被成功 注釋,或其注釋的置信度較低,或噪聲信號被錯誤注釋為代謝標(biāo)志物,都將嚴(yán)重影響預(yù)測準(zhǔn) 確度。
[0008] 第=,現(xiàn)有方法在每次進(jìn)行分析時,僅能判定單一的狀態(tài)。而在實(shí)際應(yīng)用中,往往 需檢測多種不同的狀態(tài)。若對其進(jìn)行逐一分析,所需時間及成本都較高。如何設(shè)計并行化算 法,在單次運(yùn)行中同時篩查多個狀態(tài),是當(dāng)前亟需解決的重要問題。
[0009] 因此,現(xiàn)有技術(shù)還有待于改進(jìn)和發(fā)展。
【發(fā)明內(nèi)容】
[0010] 鑒于上述現(xiàn)有技術(shù)的不足,本發(fā)明的目的在于提供一種基于深度學(xué)習(xí)的代謝質(zhì)譜 篩查方法及系統(tǒng),旨在解決現(xiàn)有的代謝質(zhì)譜檢測方法其過程復(fù)雜、準(zhǔn)確度低、時間及成本高 等問題。
[0011] 本發(fā)明的技術(shù)方案如下:
[0012] -種基于深度學(xué)習(xí)的代謝質(zhì)譜篩查方法,其中,包括步驟:
[0013] A、獲得訓(xùn)練樣本數(shù)據(jù)集S={Sl,S2,…Sn,…,SN},其中任意質(zhì)譜Sn=[(ml,il),(m2, i2),…(md,id),…],Hid和id分別為第d條譜線的質(zhì)核比與強(qiáng)度值;所述訓(xùn)練樣本數(shù)據(jù)集S對應(yīng) 的類標(biāo)矢量為。=山1,。2,,,',。山
[0014] B、對S中的每個質(zhì)譜進(jìn)行預(yù)處理得到代謝質(zhì)譜特征數(shù)據(jù)集T=ITi,T2,…,Tn};
[001引C、構(gòu)造類標(biāo)集合為C=[Ci,C2,...,Cn],設(shè)若原類標(biāo)矢量C中的任意樣本類標(biāo)Cn = k, 則對應(yīng)的Cn構(gòu)造為除第k維數(shù)值為1外,其余數(shù)值均為0的K維矢量;
[0016] D、將預(yù)處理后的代謝質(zhì)譜特征數(shù)據(jù)集T= {Ti,T2,…,Tn}與類標(biāo)集合C用于深度學(xué) 習(xí)網(wǎng)絡(luò)的訓(xùn)練;
[0017] E、構(gòu)造包含1個輸入層,1個輸出層,W及L個隱含層的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),其中輸 入層具有2D個節(jié)點(diǎn),輸出層具有K個節(jié)點(diǎn),對于任意第IEL個隱含層,設(shè)其節(jié)點(diǎn)數(shù)為Pi,且具 有遞減關(guān)系Pi-i〉Pi,D為從Sn中選擇強(qiáng)度值最高的譜線數(shù)量;
[0018] F、使用找式自編碼器分別訓(xùn)練各隱含層;
[0019] G、使用邏輯回歸作為輸出層節(jié)點(diǎn)的激活函數(shù),逐一訓(xùn)練輸出層的節(jié)點(diǎn);
[0020] H、在對各層分別進(jìn)行訓(xùn)練后,依次找式疊加,構(gòu)成代謝質(zhì)譜篩查深度學(xué)習(xí)網(wǎng)絡(luò);
[0021] I、使用BP算法對代謝質(zhì)譜篩查深度學(xué)習(xí)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)進(jìn)行整體微調(diào);
[0022] J、在訓(xùn)練完成后,將代謝質(zhì)譜篩查深度學(xué)習(xí)網(wǎng)絡(luò)用于代謝質(zhì)譜樣本的并行檢測與 篩查。
[0023] 所述的基于深度學(xué)習(xí)的代謝質(zhì)譜篩查方法,其中,在步驟J中,對于新輸入的代謝 質(zhì)譜樣本S,先進(jìn)行預(yù)處理,獲得特征矢量T,而后送入代謝質(zhì)譜篩查深度學(xué)習(xí)網(wǎng)絡(luò)進(jìn)行并行 預(yù)測,獲得對應(yīng)的輸出狀態(tài)矢量為0。
[0024] 所述的基于深度學(xué)習(xí)的代謝質(zhì)譜篩查方法,其中,所述步驟B具體包括:
[0025] B1、從Sn中選擇強(qiáng)度值最高的D條譜線,形成具有相同維度的質(zhì)譜矢量S\=[(mi, 11),(1112 42)^。,細(xì)山)],若5。原長度小于0,則添加(0,0)譜線補(bǔ)齊;
[0026] 62、提取5^^的強(qiáng)度矢量為1。=山42,一4〇],對其進(jìn)行正規(guī)化,使其在每個維度上 的數(shù)值都具有0均值及單位方差:
[0027]
[002引其中iin、Sn分別為In的均值與方差;
[0029] 63、提取5^^的質(zhì)核比矢量為啦=[1111,1112,''',皿],將其與預(yù)處理后的1。拼接,構(gòu)造質(zhì) 譜特征矢量為Tn= [mi,m2,? ? ?,皿,i*i,i*2,? ? ?,i*D],其包含2D個特征值。
[0030] 所述的基于深度學(xué)習(xí)的代謝質(zhì)譜篩查方法,其中,所述步驟F具體包括:
[0031] F1、設(shè)若當(dāng)前訓(xùn)練的為第1個隱含層,構(gòu)造3層自編碼訓(xùn)練網(wǎng)絡(luò);
[0032] F2、使用雙曲正切函數(shù)作為隱含層與自編碼訓(xùn)練網(wǎng)絡(luò)輸出層的激活函數(shù),則當(dāng)前 隱含層節(jié)點(diǎn)輸出為:
[0033]
[0034] 其中Whi為隱含層權(quán)值矩陣,Bhi為隱含層偏置矢量,出-1為第1-1層的隱含節(jié)點(diǎn)輸 出,Hl-I= [ Iu-1,1, Iu-I, 2,... , Iu-I, Pl-I ];
[0035] F3、自編碼訓(xùn)練網(wǎng)絡(luò)輸出層的節(jié)點(diǎn)輸出為:
[0036]
[0037] 其中Cl為輸出層權(quán)值矩陣,B°i為輸出層偏置矢量。輸出矢量化=[01,1,01,2,…, 01, Pl-I ]同樣包含Pl-I個數(shù)值;
[0038] F4、定義差異代價函數(shù)為:
[0039]
[0040] 其中Il . Ik表示矢量差值的2范數(shù),此外,基于h正則化定義稀疏因子為:
[0041] 化=I化111
[0042] F5、定義完整的代價函數(shù)為:
[0043] Ji= Wi+Api
[0044] 其中A為拉格朗日乘數(shù);
[0045] F6、基于此完整的代價函數(shù),使用反向傳播算法訓(xùn)練A心1、胖°1及趴的數(shù)值,獲得 最佳的隱含層訓(xùn)練結(jié)果;
[0046] F7、更新1 = 1+1,若KL則轉(zhuǎn)至步驟F1。
[0047] 所述的基于深度學(xué)習(xí)的代謝質(zhì)譜篩查方法,其中,所述步驟G具體包括:
[0048] G1、設(shè)當(dāng)前訓(xùn)練的為輸出層第k個節(jié)點(diǎn),定義其差異代價函數(shù)為:
[0049]
[0050] 其中0Sk為輸出層節(jié)點(diǎn)k的參數(shù)矩陣0k在第seS行的行矢量;S = 2為該節(jié)點(diǎn)所表示 的狀態(tài)總個數(shù);bk為偏置值;函數(shù)IsO為示性函數(shù),其中0\為輸出層節(jié)點(diǎn)k在輸入為化"時的 輸出,其值計算方法如下:
[0化1 ]
[0052] 其中化n為最后的隱含層在使用樣本Tn訓(xùn)練時的輸出;
[0053] G2、定義稀疏因子為參數(shù)矩陣的1范數(shù):
[0化4]
[0055] G3、定義完整的代價函數(shù)為:
[0化6] Jk= Wk+入Pk
[0057]其中A為拉格朗日乘數(shù);
[0化引 G4、更新更新k = k+l,若k<K則轉(zhuǎn)至步驟G1。
[0059] -種基于深度學(xué)習(xí)的代謝質(zhì)譜篩查系統(tǒng),其中,包括:
[0060] 數(shù)據(jù)獲取模塊,用于獲得訓(xùn)練樣本數(shù)據(jù)集5=陽誠,一5。,一向},其中任意質(zhì)譜5。 = [(mi,ii), (m2,i2) ,'''(!!!(!,id) ,???],md和id分別為第d條譜線的質(zhì)核比與強(qiáng)度值;所述訓(xùn)練 樣本數(shù)據(jù)集S對應(yīng)的類標(biāo)矢量為C=レ1,C2,???,CN};
[0061] 預(yù)處理模塊,用于對S中的每個質(zhì)譜進(jìn)行預(yù)處理得到代謝質(zhì)譜特征數(shù)據(jù)集T= {Ti, T2,-" ,Tn};
[0062] 類標(biāo)集合構(gòu)造模塊,用于構(gòu)造類標(biāo)集合為C= [Cl,C2,…,CnL設(shè)若原類標(biāo)矢量C中 的任意樣本類標(biāo)Cn=k,則對應(yīng)的Cn構(gòu)造為除第k維數(shù)值為1外,其余數(shù)值均為0的K維矢量;
[0063] 學(xué)習(xí)模塊,用于將預(yù)處理后的代謝質(zhì)譜特征數(shù)據(jù)集T= {Ti,T2,…,Tn}與類標(biāo)集合C 用于深度學(xué)習(xí)網(wǎng)絡(luò)的訓(xùn)練;
[0064] 深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)造模塊,用于構(gòu)造包含1個輸入層,1個輸出層,W及L個隱含 層的深度學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu),其中輸入