,用于更新k = k+l,若k<K則轉至第二差異代價函數(shù)定義單元。
[0213] 關于上述模塊單元的技術細節(jié)在前面的方法中已有詳述,故不再寶述。
[0214] 應當理解的是,本發(fā)明的應用不限于上述的舉例,對本領域普通技術人員來說,可 W根據(jù)上述說明加 W改進或變換,所有運些改進和變換都應屬于本發(fā)明所附權利要求的保 護范圍。
【主權項】
1. 一種基于深度學習的代謝質譜篩查方法,其特征在于,包括步驟: A、 獲得訓練樣本數(shù)據(jù)集S= {Si,S2,'"Sn,…,SN},其中任意質譜Sn=[ i2),…(md,id),…],md和id分別為第d條譜線的質核比與強度值;所述訓練樣本數(shù)據(jù)集S對應 的類標矢量為〇={(31,02,···'^; B、 對S中的每個質譜進行預處理得到代謝質譜特征數(shù)據(jù)集T= {Ti,T2,…,TN}; C、 構造類標集合為0=[&,&,一,&],設若原類標矢量(:中的任意樣本類標(^ = 1^則對 應的Cn構造為除第k維數(shù)值為1外,其余數(shù)值均為0的K維矢量; D、 將預處理后的代謝質譜特征數(shù)據(jù)集了={1'1,1'2,一,1^}與類標集合(:用于深度學習網(wǎng) 絡的訓練; E、 構造包含1個輸入層,1個輸出層,以及L個隱含層的深度學習網(wǎng)絡結構,其中輸入層 具有2D個節(jié)點,輸出層具有K個節(jié)點,對于任意第1EL個隱含層,設其節(jié)點數(shù)SPi,且具有遞 減關系Pi-i>Pi,D為從S n中選擇強度值最高的譜線數(shù)量; F、 使用棧式自編碼器分別訓練各隱含層; G、 使用邏輯回歸作為輸出層節(jié)點的激活函數(shù),逐一訓練輸出層的節(jié)點; H、 在對各層分別進行訓練后,依次棧式疊加,構成代謝質譜篩查深度學習網(wǎng)絡; I、 使用BP算法對代謝質譜篩查深度學習網(wǎng)絡的網(wǎng)絡參數(shù)進行整體微調; J、 在訓練完成后,將代謝質譜篩查深度學習網(wǎng)絡用于代謝質譜樣本的并行檢測與篩 查。2. 根據(jù)權利要求1所述的基于深度學習的代謝質譜篩查方法,其特征在于,在步驟J中, 對于新輸入的代謝質譜樣本S,先進行預處理,獲得特征矢量T,而后送入代謝質譜篩查深度 學習網(wǎng)絡進行并行預測,獲得對應的輸出狀態(tài)矢量為0。3. 根據(jù)權利要求1所述的基于深度學習的代謝質譜篩查方法,其特征在于,所述步驟B 具體包括: B1、WSn中選擇強度值最高的D條譜線,形成具有相同維度的質譜矢量S\= [ (nu,h), (111242),~,(1^4〇],若511原長度小于0,則添加(0,0)譜線補齊; B2、提取的強度矢量為^二以^丨:^^"^對其進行正規(guī)化^吏其在每個維度上的數(shù) 值都具有〇均值及單位方差:其中μη、δη分別為In的均值與方差; B3、提取S\的質核比矢量為1=[!111,1112,"_, 1^],將其與預處理后的111拼接,構造質譜特 征矢量為?η= [mi,m2,…,mD,Λ,i*2,…,Λ],其包含2D個特征值。4. 根據(jù)權利要求1所述的基于深度學習的代謝質譜篩查方法,其特征在于,所述步驟F 具體包括: F1、設若當前訓練的為第1個隱含層,構造3層自編碼訓練網(wǎng)絡; F2、使用雙曲正切函數(shù)作為隱含層與自編碼訓練網(wǎng)絡輸出層的激活函數(shù),則當前隱含 層節(jié)點輸出為:其中Λ為隱含層權值矩陣,為隱含層偏置矢量,Hh為第1-1層的隱含節(jié)點輸出, =[hi-i,i,hi-1,2,…,hi-i,pi-1]; F3、自編碼訓練網(wǎng)絡輸出層的節(jié)點輸出為:其中W°1為輸出層權值矩陣,Β°1為輸出層偏置矢量。輸出矢量〇1= [01,1,01,2,…,01,P1-1] 同樣包含Pi-1個數(shù)值; F4、定義差異代價函數(shù)為:其中II · 1|2表示矢量差值的2范數(shù),此外,基于ΙαΗ則化定義稀疏因子為: Pi = llHi||i F5、定義完整的代價函數(shù)為: Ji= Ψι+λρι 其中λ為拉格朗日乘數(shù); F6、基于此完整的代價函數(shù),使用反向傳播算法訓練叭^叱^^及叭的數(shù)值廉得最佳 的隱含層訓練結果; ?7、更新1 = 1+1,若1〈1^則轉至步驟?1。5. 根據(jù)權利要求1所述的基于深度學習的代謝質譜篩查方法,其特征在于,所述步驟G 具體包括: G1、設當前訓練的為輸出層第k個節(jié)點,定義其差異代價函數(shù)為:其中θ\為輸出層節(jié)點k的參數(shù)矩陣0k在第Ses行的行矢量;S = 2為該節(jié)點所表示的狀 態(tài)總個數(shù);bk為偏置值;函數(shù)ls()為示性函數(shù),其中0\為輸出層節(jié)點k在輸入為HJ時的輸 出,其值計算方法如下:其中HJ1為最后的隱含層在使用樣本Tn訓練時的輸出; G2、定義稀疏因子為參數(shù)矩陣的1范數(shù):G3、定義完整的代價函數(shù)為: Jk 一 Ψ k+λρ?? 其中λ為拉格朗日乘數(shù); G4、更新更新k = k+l,若k〈K則轉至步驟G1。6. -種基于深度學習的代謝質譜篩查系統(tǒng),其特征在于,包括: 數(shù)據(jù)獲取模塊,用于獲得訓練樣本數(shù)據(jù)集3={51,52,"_5"廣_,5〃},其中任意質譜5 11 = [(111141),(111242),~( 111(14(1),'"],111(1和丨(1分別為第(1條譜線的質核比與強度值;所述訓練樣 本數(shù)據(jù)集S對應的類標矢量為c={ci,C2,…,cn}; 預處理模塊,用于對s中的每個質譜進行預處理得到代謝質譜特征數(shù)據(jù)集TiUi, T2,··· ,Τν}; 類標集合構造模塊,用于構造類標集合為c= [Ci,C2,…,CN],設若原類標矢量c中的任 意樣本類標cn=k,則對應的(^構造為除第k維數(shù)值為1外,其余數(shù)值均為0的K維矢量; 學習模塊,用于將預處理后的代謝質譜特征數(shù)據(jù)集1={1'1,1'2,一,1^}與類標集合(:用于 深度學習網(wǎng)絡的訓練; 深度學習網(wǎng)絡結構構造模塊,用于構造包含1個輸入層,1個輸出層,以及L個隱含層的 深度學習網(wǎng)絡結構,其中輸入層具有2D個節(jié)點,輸出層具有K個節(jié)點,對于任意第1EL個隱 含層,設其節(jié)點數(shù)SPi,且具有遞減關系為從S n中選擇強度值最高的譜線數(shù)量; 隱含層訓練模塊,用于使用棧式自編碼器分別訓練各隱含層; 輸出層訓練模塊,用于使用邏輯回歸作為輸出層節(jié)點的激活函數(shù),逐一訓練輸出層的 節(jié)點; 代謝質譜篩查深度學習網(wǎng)絡構造模塊,用于在對各層分別進行訓練后,依次棧式疊加, 構成代謝質譜篩查深度學習網(wǎng)絡; 微調模塊,用于使用BP算法對代謝質譜篩查深度學習網(wǎng)絡的網(wǎng)絡參數(shù)進行整體微調; 檢測模塊,用于在訓練完成后,將代謝質譜篩查深度學習網(wǎng)絡用于代謝質譜樣本的并 行檢測與篩查。7. 根據(jù)權利要求6所述的基于深度學習的代謝質譜篩查系統(tǒng),其特征在于,在檢測模塊 中,對于新輸入的代謝質譜樣本S,先進行預處理,獲得特征矢量T,而后送入代謝質譜篩查 深度學習網(wǎng)絡進行并行預測,獲得對應的輸出狀態(tài)矢量為0。8. 根據(jù)權利要求6所述的基于深度學習的代謝質譜篩查系統(tǒng),其特征在于,所述預處理 模塊具體包括: 選擇單元,用于WSn中選擇強度值最高的D條譜線,形成具有相同維度的質譜矢量S\ = [(mi,ii),(m2,i2),···,(mD,iD)],若Sn原長度小于D,貝lj添加(0,0)譜線補齊; 正規(guī)化單元,用于提取的強度矢量為In= [h,i2,…,iD],對其進行正規(guī)化,使其在每 個維度上的數(shù)值都具有0均值及單戶·其中μη、δη分別為In的均值與方差; 拼接單元,用于提取S\的質核比矢量為1=[!111,1112,一, 1^],將其與預處理后的111拼接, 構造質譜特征矢量為Tn= [im,m2,…,mD,i',i*2,…,Λ],其包含2D個特征值。9. 根據(jù)權利要求6所述的基于深度學習的代謝質譜篩查系統(tǒng),其特征在于,所述隱含層 訓練模塊具體包括: 訓練網(wǎng)絡構造單元,用于設若當前訓練的為第1個隱含層,構造3層自編碼訓練網(wǎng)絡; 隱含層節(jié)點輸出單元,用于使用雙曲正切函數(shù)作為隱含層與自編碼訓練網(wǎng)絡輸出層的 激活函數(shù),則當前隱含層節(jié)點輸出為:其中Λ為隱含層權值矩陣,為隱含層偏置矢量,Hh為第1-1層的隱含節(jié)點輸出, =[hi-i,i,hi-1,2,···,hi-i,pi-l]; 輸出層節(jié)點輸出單元,用于自編碼訓練網(wǎng)絡輸出層的節(jié)點輸出為:其中W°1為輸出層權值矩陣,Β°1為輸出層偏置矢量。輸出矢量〇1= [01,1,01,2,…,01,P1-1] 同樣包含Pi-1個數(shù)值; 第一差異代價函數(shù)定義單元,用于定義差異代價函數(shù)為:其中II · 1|2表示矢量差值的2范數(shù),此外,基于ΙαΗ則化定義稀疏因子為: Pi = llHi||i 第一完整代價函數(shù)定義單元,用于定義完整的代價函數(shù)為: Jl= Ψ?+λρι 其中λ為拉格朗日乘數(shù); 隱含層訓練單元,用于基于此完整的代價函數(shù),使用反向傳播算法訓練Λ 的數(shù)值,獲得最佳的隱含層訓練結果; 第一更新單元,用于更新1 = 1+1,若1〈L則轉至訓練網(wǎng)絡構造單元。10.根據(jù)權利要求6所述的基于深度學習的代謝質譜篩查系統(tǒng),其特征在于,所述輸出 層訓練模塊具體包括: 第二差異代價函數(shù)定義單元,用于設當前訓練的為輸出層第k個節(jié)點,定義其差異代價 函數(shù)為:其中θ\為輸出層節(jié)點k的參數(shù)矩陣0k在第Ses行的行矢量;S = 2為該節(jié)點所表示的狀 態(tài)總個數(shù);bk為偏置值;函數(shù)ls()為示性函數(shù),其中0\為輸出層節(jié)點k在輸入為HJ時的輸 出,其值計算方法如下:? _ 丄 i 、 Λ Li ^ 其中Hf為最后的隱含層在使用樣本In訓練時的輸出; 范數(shù)定義單元,用于定義稀疏因子為參數(shù)矩陣的1范數(shù):第二完整代價函數(shù)定義單元,用于定義完整的代價函數(shù)為: Jk- Ψ λ-Pk 其中λ為拉格朗日乘數(shù); 第二更新單元,用于更新k=k+l,若k〈K則轉至第二差異代價函數(shù)定義單元。
【專利摘要】本發(fā)明公開一種基于深度學習的代謝質譜篩查方法及系統(tǒng)。本發(fā)明以現(xiàn)有的代謝質譜數(shù)據(jù)庫為基礎,通過提取并整合特定種類(如疾病)的代謝質譜樣本,用于訓練深度學習網(wǎng)絡,使其可同時判定多種類別狀態(tài)。而后將此網(wǎng)絡用于實際輸入代謝質譜的篩查。
【IPC分類】G06F19/00, G06N3/08
【公開號】CN105718744
【申請?zhí)枴緾N201610049879
【發(fā)明人】紀震, 周家銳, 殷夫, 朱澤軒
【申請人】深圳大學, 紀震, 周家銳, 殷夫, 朱澤軒
【公開日】2016年6月29日
【申請日】2016年1月25日