所有的蛋白質(zhì)序列進(jìn)行不同視角的特征表 示,形成五個(gè)不同視角的訓(xùn)練樣本集合,然后使用兩層SVM預(yù)測(cè)算法2L-SVM在五個(gè)不同視 角的訓(xùn)練樣本集合上訓(xùn)練成一個(gè)蛋白質(zhì)結(jié)晶2L-SVM預(yù)測(cè)模型;
[0010] 步驟3 :對(duì)于每個(gè)待預(yù)測(cè)結(jié)晶能力的蛋白質(zhì)序列,通過步驟1得到此蛋白質(zhì)序列五 個(gè)不同視角的特征,使用步驟2中訓(xùn)練的蛋白質(zhì)結(jié)晶2L-SVM預(yù)測(cè)模型進(jìn)行蛋白質(zhì)結(jié)晶概率 預(yù)測(cè),最終輸出預(yù)測(cè)概率;以及
[0011] 步驟4 :對(duì)于步驟3中待預(yù)測(cè)的蛋白質(zhì)序列,根據(jù)步驟3中的輸出概率使用閾值分 割方法,最終輸出該蛋白質(zhì)序列是否可結(jié)晶的決策。
[0012] 進(jìn)一步的實(shí)施例中,在所述的步驟1中,按照下述步驟進(jìn)行不同視角特征的抽?。?br>[0013] A.抽取AAC視角特征
[0014] 對(duì)于任意一個(gè)長(zhǎng)度為1的蛋白質(zhì)序列P,其蛋白質(zhì)序列中所有氨基酸種類出現(xiàn)的 次數(shù),記作:
[0015] CountM= (n A, nc, ···, nY)T (I)
[0016] 其中A、C、…、Y分別表示20種常見氨基酸殘基,nA、n#P n Y分別表示蛋白質(zhì)序列 P中氨基酸A、C以及Y的個(gè)數(shù);
[0017] 表示蛋白質(zhì)氨基酸組成成分的AAC視角特征可以表示為:
[0018]
【主權(quán)項(xiàng)】
1. 一種基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法,其特征在于,包括以下步驟: 步驟1 :特征提取,使用PSI-BLAST提取蛋白質(zhì)的進(jìn)化信息,并結(jié)合蛋白質(zhì)序列信息與 氨基酸的物理化學(xué)屬性信息,通過抽取AAC、DiAAC、TriAAC、PseAAC、PsePSSM五個(gè)視角特 征,將蛋白質(zhì)序列轉(zhuǎn)換為數(shù)值形式表示; 步驟2 :根據(jù)步驟1將訓(xùn)練數(shù)據(jù)集合中所有的蛋白質(zhì)序列進(jìn)行不同視角的特征表示,形 成五個(gè)不同視角的訓(xùn)練樣本集合,然后使用兩層SVM預(yù)測(cè)算法2L-SVM在五個(gè)不同視角的訓(xùn) 練樣本集合上訓(xùn)練成一個(gè)蛋白質(zhì)結(jié)晶2L-SVM預(yù)測(cè)模型; 步驟3 :對(duì)于每個(gè)待預(yù)測(cè)結(jié)晶能力的蛋白質(zhì)序列,通過步驟1得到此蛋白質(zhì)序列五個(gè)不 同視角的特征,使用步驟2中訓(xùn)練的蛋白質(zhì)結(jié)晶2L-SVM預(yù)測(cè)模型進(jìn)行蛋白質(zhì)結(jié)晶概率預(yù) 測(cè),最終輸出預(yù)測(cè)概率;以及 步驟4 :對(duì)于步驟3中待預(yù)測(cè)的蛋白質(zhì)序列,根據(jù)步驟3中的輸出概率使用閾值分割方 法,最終輸出該蛋白質(zhì)序列是否可結(jié)晶的決策。
2. 根據(jù)權(quán)利要求1所述的基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法,其特征在于, 在所述的步驟1中,按照下述步驟進(jìn)行不同視角特征的抽?。?A.抽取AAC視角特征 對(duì)于任意一個(gè)長(zhǎng)度為1的蛋白質(zhì)序列P,其蛋白質(zhì)序列中所有氨基酸種類出現(xiàn)的次數(shù), 記作: CountAA= (nA, nc, ···, nY)T (I) 其中A、C、…、Y分別表示20種常見氨基酸殘基,ηΑ、η#Ρ η γ分別表示蛋白質(zhì)序列P中 氨基酸A、C以及Y的個(gè)數(shù); 為Δα ^ ^ / \ A/-I Λ Λ " ΛΓΠ 紅 4·-ΚΛ:τ TTr I、r 士 ~·. Aj_
Β.抽取DiAAC視角特征 對(duì)于任意長(zhǎng)度為1的蛋白質(zhì)序列Ρ,誦討如下等式表示蛋白質(zhì)的DiAAC視角的特征:
其中A, A、A, C、…、Υ, Y分別表不20種氨基酸的兩兩組合,nA,A、nA>c;和η γ,γ分別表不蛋 白質(zhì)序列中存在氨基酸對(duì)A,A、A,C以及Y,Y的數(shù)目; C. 抽取TriAAC視角特征 對(duì)于任意含有1個(gè)氨基酸殘基的蛋白質(zhì)序列Ρ,通過如下等式表示TriAAC視角特征:
其中A,A,A、A,A,C、…、Y,Y,Y分別表示20種氨基酸的三肽組合,nA,A, A、nA,A,c和η γ,γ,γ 分別表示蛋白質(zhì)序列中存在氨基酸對(duì)4^^、4^,(:以及¥,¥,¥的數(shù)目; D. 抽取PseAAC視角特征 每一種氨基酸都有固有的物理化學(xué)屬性,從這些物理化學(xué)屬性中抽取PseAAC視角的 特征,具體步驟如下: (1)使用步驟A中計(jì)算AAC的方法,計(jì)算蛋白質(zhì)的氨基酸組成成分,記作:
(2) 計(jì)算蛋白質(zhì)序列中每個(gè)不同的物理化學(xué)屬性所對(duì)應(yīng)的協(xié)相關(guān)信息,具體步驟如下: 首先計(jì)算蛋白質(zhì)在第k個(gè)物理化學(xué)屬性上的第λ層次的協(xié)相關(guān)信息:
其中Cor^+i = PCf ICh.表示蛋白質(zhì)中第i個(gè)氨基酸與第i+ λ個(gè)氨基酸在第k個(gè)物 理化學(xué)屬性上的第λ層次的協(xié)相關(guān)信息;PCf表示蛋白質(zhì)中第i個(gè)氨基酸在第k個(gè)物理化 學(xué)屬性上的得分?jǐn)?shù)值; 然后計(jì)算蛋白質(zhì)在第k個(gè)物理化學(xué)屬性上的所有層次的協(xié)相關(guān)信息,記作: Tk={Tkx,rk2,-,TkA) (7) 其中Λ為最大層次; 最后計(jì)算蛋白質(zhì)在所有物理化學(xué)屬性上的協(xié)相關(guān)信息,記作: τ = ( τ \ τ 2,…,τ κ) ⑶ 其中K表示AAIndex中物理化學(xué)屬性的數(shù)目; (3) 結(jié)合AAC信息與協(xié)相關(guān)信息,最終形成PseAAC視角特征,記作: PseAAC = (X1,…,Xll,…,χκ. Λ,χ1+κ. Λ,…,χ20+κ. Λ)τ (9) 其中
上取整運(yùn)算,w表示PseAAC的權(quán)重; Ε.抽取PsePSSM視角特征 對(duì)于一個(gè)含有1個(gè)氨基酸殘基的蛋白質(zhì)序列Ρ,首先通過PSI-BLAST算法計(jì)算獲取其位 置特異性得分矩陣PSSM,該P(yáng)SSM矩陣是一個(gè)1行20列的矩陣,從而將蛋白質(zhì)的一級(jí)結(jié)構(gòu)信 息轉(zhuǎn)換為P;ZBU/矩陣形式,表達(dá)如下:
其中A、C、…、Y表示20種氨基酸殘基,表示蛋白質(zhì)第i個(gè)氨基酸殘基在進(jìn)化過程 中突變成20種氨基酸殘基中的第j種氨基酸殘基的可能性; 然后對(duì)進(jìn)行歸一化處理,使用下述函數(shù)對(duì)Pp°=Ml中的每一個(gè)值進(jìn)行標(biāo)準(zhǔn)化處 理:
標(biāo)準(zhǔn)化后的PSSM,表達(dá)如下:
再次,對(duì)于標(biāo)準(zhǔn)化后的PSSM,使用PsePSSM算法將不等長(zhǎng)的進(jìn)化信息矩陣轉(zhuǎn)化為等長(zhǎng) 特征向量,具體方法如下: α)在匕^中挖掘蛋白質(zhì)進(jìn)化信息中不同層次的氨基酸位置關(guān)系信息λ k,表達(dá)如下: λ、#,4,.··,4,.··,4) (Η) 其中4 (凡廠,1彡j彡20,1彡 k彡K ;Κ表示可以挖掘氨基酸位置關(guān) 系信息的最大層次,至此可以獲得κ個(gè)不同層次的氨基酸位置關(guān)系信息; (2) 對(duì)4_的每一列求均值,得到一個(gè)20維的特征向量: CpssM - (P 1,P2,…,Pj,…,P20) (15) 其中 a=(ZL1L)"; (3) 最后將K個(gè)不同層次的氨基酸位置關(guān)系信息與Cpssm串行組合起來,得到蛋白質(zhì)序 列的PsePSSM特征信息: PsePSSMK= (λ \ 入2,…,Ak,Cpssm)t (16)。
3.根據(jù)權(quán)利要求1所述的基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法,其特征在于, 在所述步驟2,根據(jù)步驟1中得到的五種視角特征信息,組成五個(gè)不同視角的訓(xùn)練樣本集 合,并結(jié)合五個(gè)訓(xùn)練樣本集合的正負(fù)樣本分布情況,訓(xùn)練一個(gè)2L-SVM預(yù)測(cè)模型,具體步驟 如下: A.對(duì)于任意第V個(gè)視角的訓(xùn)練樣本集合Dv = {(X)',只)}:,其中X丨表示第i個(gè)樣本的第 V個(gè)視角的特征向量,yi表示第i個(gè)樣本的類別,N表示樣本數(shù)目,使用標(biāo)準(zhǔn)的SVM程序算 法求解如下有關(guān)SVM最優(yōu)化問題:
ξ;>ο, ? = ι,···,τν 其中wv是最優(yōu)分割超平面的法向量、γ ν> O是SVM正則化參數(shù)、f表示訓(xùn)練數(shù)據(jù)集 合化中第i個(gè)樣本的懲罰項(xiàng)、Φ ν( ·)是可以將X丨特征向量映射到高維Hilbert空間的映 射函數(shù),最終得到第V個(gè)視角的SVM預(yù)測(cè)模型,記作SVMv; B. 為了訓(xùn)練2L-SVM預(yù)測(cè)模型的第二層模型SVMEn,在五個(gè)視角下的訓(xùn)練樣本集合上分 別使用交叉驗(yàn)證策略得到五個(gè)視角下的概率輸出,然后這五個(gè)概率輸出與訓(xùn)練集合類別組 成了新的訓(xùn)練數(shù)據(jù)集合,記作:Dfi, ={(〇),〇,2,〇,3A45Ofji Hi1,其中 < 表示第i個(gè)樣本在第V 個(gè)視角上交叉驗(yàn)證得到的概率輸出,再次使用標(biāo)準(zhǔn)的SVM程序在DEn數(shù)據(jù)集合上訓(xùn)練一個(gè)最 優(yōu)的分類超平面,從而構(gòu)成2L-SVM預(yù)測(cè)模型中的第二層模型SVMEn; C. 將步驟A中得到的五個(gè)預(yù)測(cè)模型PVMv^1的五個(gè)輸出概率作為步驟B中得到的預(yù) 測(cè)模型SVMEn的輸入,從而構(gòu)成了 2L-SVM預(yù)測(cè)模型。
4. 根據(jù)權(quán)利要求1所述的基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法,其特征在于, 在所述步驟3中,對(duì)于每個(gè)待預(yù)測(cè)結(jié)晶能力的蛋白質(zhì)序列,通過步驟1得到此蛋白質(zhì)序列五 個(gè)不同視角的特征,分別輸入到步驟2中訓(xùn)練的2L-SVM預(yù)測(cè)模型進(jìn)行蛋白質(zhì)結(jié)晶概率預(yù) 測(cè),最終輸出預(yù)測(cè)概率。
5. 根據(jù)權(quán)利要求1所述的基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法,其特征在于, 在所述步驟4中,針對(duì)步驟3中得到的輸出概率,使用閾值分割方法進(jìn)行蛋白質(zhì)是否結(jié)晶的 最終決策,閾值取值范圍為〇~1,且前述閾值取值滿足以下條件:使得預(yù)測(cè)結(jié)果的馬氏相 關(guān)系數(shù)最大化。
【專利摘要】本發(fā)明提供一種基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法。首先,利用PSI-BLAST從蛋白質(zhì)序列信息中獲取蛋白質(zhì)的進(jìn)化信息;再?gòu)男蛄行畔?、蛋白質(zhì)進(jìn)化信息、氨基酸物理化學(xué)屬性等信息中抽取AAC、DiAAC、TriAAC、PseAAC、PsePSSM五種視角特征;然后,使用五種視角特征訓(xùn)練一個(gè)兩層SVM預(yù)測(cè)模型(2L-SVM);然后,再使用2L-SVM模型進(jìn)行預(yù)測(cè):(1)將得到的五種視角特征分別輸入到2L-SVM中所對(duì)應(yīng)的第一層模型中,將得到五個(gè)概率輸出輸入2L-SVM的第二層預(yù)測(cè)模型中得到預(yù)測(cè)概率;最后,使用閾值分割技術(shù)得到最終決策。該方法的優(yōu)點(diǎn)在于:使用五種不同視角的特征,增加有效鑒別信息,提升模型的預(yù)測(cè)能力;而且使用2L-SVM預(yù)測(cè)模型,有效的避免不同視角之間相互干擾導(dǎo)致的信息丟失,提高模型的預(yù)測(cè)精度。
【IPC分類】G06F19-24, G06F19-16
【公開號(hào)】CN104636635
【申請(qǐng)?zhí)枴緾N201510047426
【發(fā)明人】胡俊, 於東軍, 何雪, 李陽, 沈紅斌, 楊靜宇
【申請(qǐng)人】南京理工大學(xué)
【公開日】2015年5月20日
【申請(qǐng)日】2015年1月29日