基于兩層svm學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法_2

文檔序號(hào)：8319447閱讀：來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>基于兩層svm學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法

所有的蛋白質(zhì)序列進(jìn)行不同視角的特征表示，形成五個(gè)不同視角的訓(xùn)練樣本集合，然后使用兩層SVM預(yù)測(cè)算法2L-SVM在五個(gè)不同視角的訓(xùn)練樣本集合上訓(xùn)練成一個(gè)蛋白質(zhì)結(jié)晶2L-SVM預(yù)測(cè)模型；
[0010] 步驟3 :對(duì)于每個(gè)待預(yù)測(cè)結(jié)晶能力的蛋白質(zhì)序列，通過步驟1得到此蛋白質(zhì)序列五個(gè)不同視角的特征，使用步驟2中訓(xùn)練的蛋白質(zhì)結(jié)晶2L-SVM預(yù)測(cè)模型進(jìn)行蛋白質(zhì)結(jié)晶概率預(yù)測(cè)，最終輸出預(yù)測(cè)概率；以及
[0011] 步驟4 :對(duì)于步驟3中待預(yù)測(cè)的蛋白質(zhì)序列，根據(jù)步驟3中的輸出概率使用閾值分割方法，最終輸出該蛋白質(zhì)序列是否可結(jié)晶的決策。
[0012] 進(jìn)一步的實(shí)施例中，在所述的步驟1中，按照下述步驟進(jìn)行不同視角特征的抽?。?br>[0013] A.抽取AAC視角特征
[0014] 對(duì)于任意一個(gè)長(zhǎng)度為1的蛋白質(zhì)序列P，其蛋白質(zhì)序列中所有氨基酸種類出現(xiàn)的次數(shù)，記作：
[0015] CountM= (n A, nc, ···, nY)T (I)
[0016] 其中A、C、…、Y分別表示20種常見氨基酸殘基，nA、n#P n Y分別表示蛋白質(zhì)序列 P中氨基酸A、C以及Y的個(gè)數(shù)；
[0017] 表示蛋白質(zhì)氨基酸組成成分的AAC視角特征可以表示為：
[0018]
【主權(quán)項(xiàng)】
1. 一種基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法，其特征在于，包括以下步驟：步驟1 :特征提取，使用PSI-BLAST提取蛋白質(zhì)的進(jìn)化信息，并結(jié)合蛋白質(zhì)序列信息與氨基酸的物理化學(xué)屬性信息，通過抽取AAC、DiAAC、TriAAC、PseAAC、PsePSSM五個(gè)視角特征，將蛋白質(zhì)序列轉(zhuǎn)換為數(shù)值形式表示；步驟2 :根據(jù)步驟1將訓(xùn)練數(shù)據(jù)集合中所有的蛋白質(zhì)序列進(jìn)行不同視角的特征表示，形成五個(gè)不同視角的訓(xùn)練樣本集合，然后使用兩層SVM預(yù)測(cè)算法2L-SVM在五個(gè)不同視角的訓(xùn) 練樣本集合上訓(xùn)練成一個(gè)蛋白質(zhì)結(jié)晶2L-SVM預(yù)測(cè)模型；步驟3 :對(duì)于每個(gè)待預(yù)測(cè)結(jié)晶能力的蛋白質(zhì)序列，通過步驟1得到此蛋白質(zhì)序列五個(gè)不同視角的特征，使用步驟2中訓(xùn)練的蛋白質(zhì)結(jié)晶2L-SVM預(yù)測(cè)模型進(jìn)行蛋白質(zhì)結(jié)晶概率預(yù) 測(cè)，最終輸出預(yù)測(cè)概率；以及步驟4 :對(duì)于步驟3中待預(yù)測(cè)的蛋白質(zhì)序列，根據(jù)步驟3中的輸出概率使用閾值分割方法，最終輸出該蛋白質(zhì)序列是否可結(jié)晶的決策。
2. 根據(jù)權(quán)利要求1所述的基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法，其特征在于，在所述的步驟1中，按照下述步驟進(jìn)行不同視角特征的抽?。?A.抽取AAC視角特征對(duì)于任意一個(gè)長(zhǎng)度為1的蛋白質(zhì)序列P，其蛋白質(zhì)序列中所有氨基酸種類出現(xiàn)的次數(shù)，記作： CountAA= (nA, nc, ···, nY)T (I) 其中A、C、…、Y分別表示20種常見氨基酸殘基，ηΑ、η#Ρ η γ分別表示蛋白質(zhì)序列P中氨基酸A、C以及Y的個(gè)數(shù)；為Δα ^ ^ / \ A/-I Λ Λ " ΛΓΠ 紅 4·-ΚΛ：τ TTr I、r 士 ~·. Aj_
Β.抽取DiAAC視角特征對(duì)于任意長(zhǎng)度為1的蛋白質(zhì)序列Ρ，誦討如下等式表示蛋白質(zhì)的DiAAC視角的特征：
其中A, A、A, C、…、Υ, Y分別表不20種氨基酸的兩兩組合，nA，A、nA>c；和η γ，γ分別表不蛋白質(zhì)序列中存在氨基酸對(duì)A，A、A，C以及Y，Y的數(shù)目； C. 抽取TriAAC視角特征對(duì)于任意含有1個(gè)氨基酸殘基的蛋白質(zhì)序列Ρ，通過如下等式表示TriAAC視角特征：
其中A，A，A、A，A，C、…、Y，Y，Y分別表示20種氨基酸的三肽組合，nA，A， A、nA，A，c和η γ，γ，γ 分別表示蛋白質(zhì)序列中存在氨基酸對(duì)4^^、4^，(：以及￥，￥，￥的數(shù)目； D. 抽取PseAAC視角特征每一種氨基酸都有固有的物理化學(xué)屬性，從這些物理化學(xué)屬性中抽取PseAAC視角的特征，具體步驟如下： (1)使用步驟A中計(jì)算AAC的方法，計(jì)算蛋白質(zhì)的氨基酸組成成分，記作：
(2) 計(jì)算蛋白質(zhì)序列中每個(gè)不同的物理化學(xué)屬性所對(duì)應(yīng)的協(xié)相關(guān)信息，具體步驟如下：首先計(jì)算蛋白質(zhì)在第k個(gè)物理化學(xué)屬性上的第λ層次的協(xié)相關(guān)信息：
其中Cor^+i = PCf ICh.表示蛋白質(zhì)中第i個(gè)氨基酸與第i+ λ個(gè)氨基酸在第k個(gè)物理化學(xué)屬性上的第λ層次的協(xié)相關(guān)信息；PCf表示蛋白質(zhì)中第i個(gè)氨基酸在第k個(gè)物理化學(xué)屬性上的得分?jǐn)?shù)值；然后計(jì)算蛋白質(zhì)在第k個(gè)物理化學(xué)屬性上的所有層次的協(xié)相關(guān)信息，記作： Tk={Tkx,rk2,-,TkA) (7) 其中Λ為最大層次；最后計(jì)算蛋白質(zhì)在所有物理化學(xué)屬性上的協(xié)相關(guān)信息，記作： τ = ( τ \ τ 2,…，τ κ) ⑶ 其中K表示AAIndex中物理化學(xué)屬性的數(shù)目； (3) 結(jié)合AAC信息與協(xié)相關(guān)信息，最終形成PseAAC視角特征，記作： PseAAC = (X1，…，Xll，…，χκ. Λ，χ1+κ. Λ，…，χ20+κ. Λ)τ (9) 其中
上取整運(yùn)算，w表示PseAAC的權(quán)重； Ε.抽取PsePSSM視角特征對(duì)于一個(gè)含有1個(gè)氨基酸殘基的蛋白質(zhì)序列Ρ，首先通過PSI-BLAST算法計(jì)算獲取其位置特異性得分矩陣PSSM，該P(yáng)SSM矩陣是一個(gè)1行20列的矩陣，從而將蛋白質(zhì)的一級(jí)結(jié)構(gòu)信息轉(zhuǎn)換為P；ZBU/矩陣形式，表達(dá)如下：
其中A、C、…、Y表示20種氨基酸殘基，表示蛋白質(zhì)第i個(gè)氨基酸殘基在進(jìn)化過程中突變成20種氨基酸殘基中的第j種氨基酸殘基的可能性；然后對(duì)進(jìn)行歸一化處理，使用下述函數(shù)對(duì)Pp°=Ml中的每一個(gè)值進(jìn)行標(biāo)準(zhǔn)化處理：
標(biāo)準(zhǔn)化后的PSSM，表達(dá)如下：
再次，對(duì)于標(biāo)準(zhǔn)化后的PSSM，使用PsePSSM算法將不等長(zhǎng)的進(jìn)化信息矩陣轉(zhuǎn)化為等長(zhǎng) 特征向量，具體方法如下： α)在匕^中挖掘蛋白質(zhì)進(jìn)化信息中不同層次的氨基酸位置關(guān)系信息λ k，表達(dá)如下： λ、#，4，.··，4，.··，4) (Η) 其中4 (凡廠，1彡j彡20,1彡 k彡K ;Κ表示可以挖掘氨基酸位置關(guān) 系信息的最大層次，至此可以獲得κ個(gè)不同層次的氨基酸位置關(guān)系信息； (2) 對(duì)4_的每一列求均值，得到一個(gè)20維的特征向量： CpssM - (P 1，P2，…，Pj，…，P20) (15) 其中 a=(ZL1L)"; (3) 最后將K個(gè)不同層次的氨基酸位置關(guān)系信息與Cpssm串行組合起來，得到蛋白質(zhì)序列的PsePSSM特征信息： PsePSSMK= (λ \ 入2,…，Ak，Cpssm)t (16)。
3.根據(jù)權(quán)利要求1所述的基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法，其特征在于，在所述步驟2,根據(jù)步驟1中得到的五種視角特征信息，組成五個(gè)不同視角的訓(xùn)練樣本集合，并結(jié)合五個(gè)訓(xùn)練樣本集合的正負(fù)樣本分布情況，訓(xùn)練一個(gè)2L-SVM預(yù)測(cè)模型，具體步驟如下： A.對(duì)于任意第V個(gè)視角的訓(xùn)練樣本集合Dv = {(X)'，只)}:，其中X丨表示第i個(gè)樣本的第 V個(gè)視角的特征向量，yi表示第i個(gè)樣本的類別，N表示樣本數(shù)目，使用標(biāo)準(zhǔn)的SVM程序算法求解如下有關(guān)SVM最優(yōu)化問題：
ξ；>ο, ? = ι,···,τν 其中wv是最優(yōu)分割超平面的法向量、γ ν> O是SVM正則化參數(shù)、f表示訓(xùn)練數(shù)據(jù)集合化中第i個(gè)樣本的懲罰項(xiàng)、Φ ν( ·)是可以將X丨特征向量映射到高維Hilbert空間的映射函數(shù)，最終得到第V個(gè)視角的SVM預(yù)測(cè)模型，記作SVMv; B. 為了訓(xùn)練2L-SVM預(yù)測(cè)模型的第二層模型SVMEn，在五個(gè)視角下的訓(xùn)練樣本集合上分別使用交叉驗(yàn)證策略得到五個(gè)視角下的概率輸出，然后這五個(gè)概率輸出與訓(xùn)練集合類別組成了新的訓(xùn)練數(shù)據(jù)集合，記作：Dfi, ={(〇),〇,2,〇,3A45Ofji Hi1，其中 < 表示第i個(gè)樣本在第V 個(gè)視角上交叉驗(yàn)證得到的概率輸出，再次使用標(biāo)準(zhǔn)的SVM程序在DEn數(shù)據(jù)集合上訓(xùn)練一個(gè)最優(yōu)的分類超平面，從而構(gòu)成2L-SVM預(yù)測(cè)模型中的第二層模型SVMEn; C. 將步驟A中得到的五個(gè)預(yù)測(cè)模型PVMv^1的五個(gè)輸出概率作為步驟B中得到的預(yù) 測(cè)模型SVMEn的輸入，從而構(gòu)成了 2L-SVM預(yù)測(cè)模型。
4. 根據(jù)權(quán)利要求1所述的基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法，其特征在于，在所述步驟3中，對(duì)于每個(gè)待預(yù)測(cè)結(jié)晶能力的蛋白質(zhì)序列，通過步驟1得到此蛋白質(zhì)序列五個(gè)不同視角的特征，分別輸入到步驟2中訓(xùn)練的2L-SVM預(yù)測(cè)模型進(jìn)行蛋白質(zhì)結(jié)晶概率預(yù) 測(cè)，最終輸出預(yù)測(cè)概率。
5. 根據(jù)權(quán)利要求1所述的基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法，其特征在于，在所述步驟4中，針對(duì)步驟3中得到的輸出概率，使用閾值分割方法進(jìn)行蛋白質(zhì)是否結(jié)晶的最終決策，閾值取值范圍為〇~1，且前述閾值取值滿足以下條件：使得預(yù)測(cè)結(jié)果的馬氏相關(guān)系數(shù)最大化。
【專利摘要】本發(fā)明提供一種基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法。首先，利用PSI-BLAST從蛋白質(zhì)序列信息中獲取蛋白質(zhì)的進(jìn)化信息；再?gòu)男蛄行畔?、蛋白質(zhì)進(jìn)化信息、氨基酸物理化學(xué)屬性等信息中抽取AAC、DiAAC、TriAAC、PseAAC、PsePSSM五種視角特征；然后，使用五種視角特征訓(xùn)練一個(gè)兩層SVM預(yù)測(cè)模型(2L-SVM)；然后，再使用2L-SVM模型進(jìn)行預(yù)測(cè)：(1)將得到的五種視角特征分別輸入到2L-SVM中所對(duì)應(yīng)的第一層模型中，將得到五個(gè)概率輸出輸入2L-SVM的第二層預(yù)測(cè)模型中得到預(yù)測(cè)概率；最后，使用閾值分割技術(shù)得到最終決策。該方法的優(yōu)點(diǎn)在于：使用五種不同視角的特征，增加有效鑒別信息，提升模型的預(yù)測(cè)能力；而且使用2L-SVM預(yù)測(cè)模型，有效的避免不同視角之間相互干擾導(dǎo)致的信息丟失，提高模型的預(yù)測(cè)精度。
【IPC分類】G06F19-24, G06F19-16
【公開號(hào)】CN104636635
【申請(qǐng)?zhí)枴緾N201510047426
【發(fā)明人】胡俊, 於東軍, 何雪, 李陽, 沈紅斌, 楊靜宇
【申請(qǐng)人】南京理工大學(xué)
【公開日】2015年5月20日
【申請(qǐng)日】2015年1月29日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于兩層svm學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法_2