基于兩層svm學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物信息學(xué)預(yù)測(cè)蛋白質(zhì)結(jié)晶能力領(lǐng)域,具體而言涉及一種基于兩層 SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法。
【背景技術(shù)】
[0002] 在蛋白質(zhì)組學(xué)中一致認(rèn)為蛋白質(zhì)結(jié)構(gòu)決定蛋白質(zhì)功能、精確的蛋白質(zhì)三維結(jié)構(gòu)信 息有助于發(fā)現(xiàn)蛋白質(zhì)所具有的特定功能,所以蛋白質(zhì)結(jié)構(gòu)在蛋白質(zhì)組學(xué)中的重要地位不 言而喻。隨著測(cè)序技術(shù)的飛速發(fā)展和人類結(jié)構(gòu)基因組的推進(jìn),蛋白質(zhì)組學(xué)中已經(jīng)累積了 大量結(jié)構(gòu)未知的蛋白質(zhì)序列;雖然結(jié)構(gòu)基因組學(xué)(A. E. Todd, R. L. Marsden, J. M. Thornton et al. , "Progress of structural genomics initiatives:an analysis of solved target structures, "J Mol Biol,vol.348,no· 5, pp. 1235-60, May 20,2005.)可以通 過(guò) 身寸線衍身寸(M. J. Mizianty, X. Fan, J. Yan et al. , "Covering complete proteomes with X-ray structures:a current snapshot,,'Biological Crystallography,vol ? 70, no. 11,2014.)、磁共振成像(L. Jackman, Dynamic nuclear magnetic resonance spectroscopy:Elsevier,2〇l2·)、電鏡觀察(N.I.Bradshaw,D. C. Soares, J. Zou et al., "15:30STRUCTURAL ELUCIDATION OF DISC1PATHWAY PROTEINS USING ELECTRON MICROS ⑶ PY, CHEMICAL CROSS-LINKING AND MASS SPECTROSCOPY," Schizophrenia Research, vol. 136, pp. S74, 2012.)等結(jié)晶技術(shù)測(cè)量出蛋白質(zhì)的三維結(jié)構(gòu),但是結(jié)構(gòu)基因組 學(xué)的方法是昂貴、耗時(shí)的,而且并不是所有的蛋白質(zhì)序列都可以通過(guò)已有的測(cè)量技術(shù)得到 蛋白質(zhì)三維結(jié)構(gòu),所以事先預(yù)測(cè)結(jié)構(gòu)未知的蛋白質(zhì)序列的結(jié)晶能力可以為測(cè)量蛋白質(zhì)三維 結(jié)構(gòu)工程縮短周期、節(jié)約成本、提高成功率,為蛋白質(zhì)功能的發(fā)現(xiàn)工程加快了步伐。因此應(yīng) 用生物信息學(xué)的相關(guān)知識(shí),研發(fā)能夠直接從蛋白質(zhì)序列出發(fā)進(jìn)行蛋白質(zhì)結(jié)晶能力快速且準(zhǔn) 確的智能預(yù)測(cè)方法有著迫切需求,對(duì)于發(fā)現(xiàn)和認(rèn)識(shí)蛋白質(zhì)功能有著重要的生物意義。
[0003] 目前,針對(duì)蛋白質(zhì)結(jié)晶能力預(yù)測(cè)問(wèn)題的模型的可解釋性、預(yù)測(cè)精度還有待提 高。查閱文獻(xiàn)可以發(fā)現(xiàn),用來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)晶的預(yù)測(cè)模型有SECRET (P. Smialowski,T. Schmidt, J. Cox et al. , "Will my protein crystallize ? A sequence-based predict or, ^Proteins, vol. 62, no. 2, pp. 343-55, Feb I, 2006.) > CRYSTALP(K. Chen, L. Kurgan, and M. Rahbari, "Prediction of protein crystallization using collocation of amino acid pairs,''Biochemical and Biophysical Research Communications, vol. 355, no. 3, pp. 764-769, Apr 13, 2007.) > MetaCrys (M. J. Mizianty, and L. Kurgan, iiMeta prediction of protein crystallization propensity,,'Biochemical and Biophysical Research Communications, vol. 390, no. I, pp. 10-15, Dec 4, 2009. ) > PCCpred (M. J. Mizianty, and L. Kurgan, "Sequence-based prediction of protein crystallization, purification and production propensity, Bioinformatics, vol. 27, no. 13, pp. ?24-33, Jul I, 2011. ) > CRYSpred(M. J. Mizianty, and L. A. Kurgan, iiCRYSprediAccurate Sequence-Based Protein Crystallization Propensity Prediction Using Sequence-Derived Structural Characteristics, ,?Protein Pept Lett,vol. 19, no. 1,pp. 40-9, Jan 1,2012. )、ParCrys (I. M. Overton,G. Padovani,M. A. Girolami et al. , iiParCrys: a Parzen window density estimation approach to protein crystallization propensity prediction, Bioinformatics, vol. 24, no. 7, p p. 901-907, Apr 1,2008. )、SVMCRYS (K. K. Kandaswamy,G. Pugalenthi,P. N. Suganthan et al., uSVMCRYS:An SVM Approach for the Prediction of Protein Crystallization Propensity from Protein Sequence,,'Protein and Peptide Letters, vol. 17, no. 4, pp ? 423-430, Apr,2010·)、RFCRYS (S.Jahandideh,and A. Mahdavi,"RFCRYS: sequence-based protein crystallization propensity prediction by means ofrandom forest, Theor Biol, vol. 306, pp. 115-9, Aug 7, 2012. ) Λ SCMCRYS (P. Charoenkwanj W. Shoombuatongj H. C. Lee et al., "SCMCRYS:Predicting Protein Crystallization Using an Ensemble Scoring Card Method with Estimating Propensity Scores of P-Collocated Amino Acid Pairs," PloS one,vol. 8, no. 9, Sep,2013.)等,這些預(yù)測(cè)模型使用的特征視角 有:物理化學(xué)屬性(Physicochemical properties)、氨基酸組成成分(Amino acid composition)、二膚組成成分(Dipeptide composition)、三膚組成成分(Tripeptide Composition)、二級(jí)結(jié)構(gòu)(Secondary Structure)、序列長(zhǎng)度(Sequence Length)、偽氨基 酸組成成分(Pseudo amino acid composition)、蛋白質(zhì)與蛋白質(zhì)交互信息等,使用的預(yù) 測(cè)算法有樸素貝葉斯算法(Naive BayesAlgorithm)、支持向量機(jī)算法(Support Vector Machine,SVM)、隨機(jī)森林算法(Random Forest)、計(jì)分卡算法(Scoring Card Method)、徑向 基神經(jīng)網(wǎng)絡(luò)算法等;這些預(yù)測(cè)模型都將多視角特征串聯(lián)后輸入預(yù)測(cè)算法中,且取得了一定 的預(yù)測(cè)精度。
[0004] 然而,上面所述的蛋白質(zhì)結(jié)晶預(yù)測(cè)模型都沒(méi)有使用蛋白質(zhì)的進(jìn)化信息特征、沒(méi)有 充分考慮不同視角特征之間存在相互干擾的關(guān)系、沒(méi)有深度挖掘特征中存在的信息,從而 導(dǎo)致蛋白質(zhì)結(jié)晶預(yù)測(cè)模型的可解釋性較差的問(wèn)題有待克服;且可以發(fā)現(xiàn)預(yù)測(cè)精度距離實(shí)際 應(yīng)用還有較大差距,迫切需要進(jìn)一步提高。
【發(fā)明內(nèi)容】
[0005] 為了解決上述蛋白質(zhì)結(jié)晶預(yù)測(cè)問(wèn)題中潛在的特征視角鑒別性不強(qiáng)、不同視角特征 之間存在的相互干擾、預(yù)測(cè)算法深度挖掘信息能力不強(qiáng)而導(dǎo)致預(yù)測(cè)精度距離實(shí)際應(yīng)用差距 較大且可解釋性較差的缺點(diǎn),本發(fā)明的目的在于提出一種結(jié)合蛋白質(zhì)進(jìn)化信息視角特征、 蛋白質(zhì)序列視角特征、氨基酸物理化學(xué)屬性視角特征以及使用可以避免不同視角特征相互 干擾的2L-SVM預(yù)測(cè)算法的具有預(yù)測(cè)精度高、模型可解釋性強(qiáng)的基于兩層SVM學(xué)習(xí)機(jī)制的蛋 白質(zhì)結(jié)晶預(yù)測(cè)方法。
[0006] 為達(dá)成上述目的,本發(fā)明所采用的技術(shù)方案如下:
[0007] -種基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法,包括以下步驟:
[0008] 步驟1 :特征提取,使用PSI-BLAST提取蛋白質(zhì)的進(jìn)化信息,并結(jié)合蛋白質(zhì) 序列信息與氨基酸的物理化學(xué)屬性信息,通過(guò)抽取AminoAcid Composition (AAC)、 Dipeptide Composition (DiAAC)、Tripeptide Composition (TriAAC)、PseudoAminoAcid Composition(PseAAC)和Pseudo Position Specific Scoring Matrix(PsePSSM)五個(gè)視角 特征,將蛋白質(zhì)序列轉(zhuǎn)換為數(shù)值形式表示
[0009] 步驟2 :根據(jù)步驟1將訓(xùn)練數(shù)據(jù)集合中