基于兩層svm學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法

文檔序號(hào)：8319447閱讀：680來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于兩層svm學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及生物信息學(xué)預(yù)測(cè)蛋白質(zhì)結(jié)晶能力領(lǐng)域，具體而言涉及一種基于兩層 SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法。
【背景技術(shù)】
[0002] 在蛋白質(zhì)組學(xué)中一致認(rèn)為蛋白質(zhì)結(jié)構(gòu)決定蛋白質(zhì)功能、精確的蛋白質(zhì)三維結(jié)構(gòu)信息有助于發(fā)現(xiàn)蛋白質(zhì)所具有的特定功能，所以蛋白質(zhì)結(jié)構(gòu)在蛋白質(zhì)組學(xué)中的重要地位不言而喻。隨著測(cè)序技術(shù)的飛速發(fā)展和人類結(jié)構(gòu)基因組的推進(jìn)，蛋白質(zhì)組學(xué)中已經(jīng)累積了大量結(jié)構(gòu)未知的蛋白質(zhì)序列；雖然結(jié)構(gòu)基因組學(xué)（A. E. Todd, R. L. Marsden, J. M. Thornton et al. , "Progress of structural genomics initiatives:an analysis of solved target structures, "J Mol Biol,vol.348,no· 5, pp. 1235-60, May 20,2005.)可以通過(guò) 身寸線衍身寸（M. J. Mizianty, X. Fan, J. Yan et al. , "Covering complete proteomes with X-ray structures:a current snapshot,，'Biological Crystallography,vol ? 70, no. 11，2014.)、磁共振成像(L. Jackman, Dynamic nuclear magnetic resonance spectroscopy:Elsevier，2〇l2·)、電鏡觀察（N.I.Bradshaw，D. C. Soares, J. Zou et al.， "15:30STRUCTURAL ELUCIDATION OF DISC1PATHWAY PROTEINS USING ELECTRON MICROS ⑶ PY, CHEMICAL CROSS-LINKING AND MASS SPECTROSCOPY," Schizophrenia Research, vol. 136, pp. S74, 2012.)等結(jié)晶技術(shù)測(cè)量出蛋白質(zhì)的三維結(jié)構(gòu),但是結(jié)構(gòu)基因組學(xué)的方法是昂貴、耗時(shí)的，而且并不是所有的蛋白質(zhì)序列都可以通過(guò)已有的測(cè)量技術(shù)得到蛋白質(zhì)三維結(jié)構(gòu)，所以事先預(yù)測(cè)結(jié)構(gòu)未知的蛋白質(zhì)序列的結(jié)晶能力可以為測(cè)量蛋白質(zhì)三維結(jié)構(gòu)工程縮短周期、節(jié)約成本、提高成功率，為蛋白質(zhì)功能的發(fā)現(xiàn)工程加快了步伐。因此應(yīng) 用生物信息學(xué)的相關(guān)知識(shí)，研發(fā)能夠直接從蛋白質(zhì)序列出發(fā)進(jìn)行蛋白質(zhì)結(jié)晶能力快速且準(zhǔn) 確的智能預(yù)測(cè)方法有著迫切需求，對(duì)于發(fā)現(xiàn)和認(rèn)識(shí)蛋白質(zhì)功能有著重要的生物意義。
[0003] 目前，針對(duì)蛋白質(zhì)結(jié)晶能力預(yù)測(cè)問(wèn)題的模型的可解釋性、預(yù)測(cè)精度還有待提高。查閱文獻(xiàn)可以發(fā)現(xiàn)，用來(lái)預(yù)測(cè)蛋白質(zhì)結(jié)晶的預(yù)測(cè)模型有SECRET (P. Smialowski，T. Schmidt, J. Cox et al. , "Will my protein crystallize ? A sequence-based predict or, ^Proteins, vol. 62, no. 2, pp. 343-55, Feb I, 2006.) > CRYSTALP(K. Chen, L. Kurgan, and M. Rahbari, "Prediction of protein crystallization using collocation of amino acid pairs,''Biochemical and Biophysical Research Communications, vol. 355, no. 3, pp. 764-769, Apr 13, 2007.) > MetaCrys (M. J. Mizianty, and L. Kurgan, iiMeta prediction of protein crystallization propensity,，'Biochemical and Biophysical Research Communications, vol. 390, no. I, pp. 10-15, Dec 4, 2009. ) > PCCpred (M. J. Mizianty, and L. Kurgan, "Sequence-based prediction of protein crystallization, purification and production propensity, Bioinformatics, vol. 27, no. 13, pp. ?24-33, Jul I, 2011. ) > CRYSpred(M. J. Mizianty, and L. A. Kurgan, iiCRYSprediAccurate Sequence-Based Protein Crystallization Propensity Prediction Using Sequence-Derived Structural Characteristics, ,?Protein Pept Lett，vol. 19, no. 1，pp. 40-9, Jan 1，2012. )、ParCrys (I. M. Overton，G. Padovani，M. A. Girolami et al. , iiParCrys: a Parzen window density estimation approach to protein crystallization propensity prediction, Bioinformatics, vol. 24, no. 7, p p. 901-907, Apr 1，2008. )、SVMCRYS (K. K. Kandaswamy，G. Pugalenthi，P. N. Suganthan et al., uSVMCRYS:An SVM Approach for the Prediction of Protein Crystallization Propensity from Protein Sequence，，'Protein and Peptide Letters, vol. 17, no. 4, pp ? 423-430, Apr，2010·)、RFCRYS (S.Jahandideh，and A. Mahdavi，"RFCRYS: sequence-based protein crystallization propensity prediction by means ofrandom forest, Theor Biol, vol. 306, pp. 115-9, Aug 7, 2012. ) Λ SCMCRYS (P. Charoenkwanj W. Shoombuatongj H. C. Lee et al., "SCMCRYS:Predicting Protein Crystallization Using an Ensemble Scoring Card Method with Estimating Propensity Scores of P-Collocated Amino Acid Pairs，" PloS one，vol. 8, no. 9, Sep，2013.)等，這些預(yù)測(cè)模型使用的特征視角有：物理化學(xué)屬性（Physicochemical properties)、氨基酸組成成分（Amino acid composition)、二膚組成成分（Dipeptide composition)、三膚組成成分（Tripeptide Composition)、二級(jí)結(jié)構(gòu)（Secondary Structure)、序列長(zhǎng)度（Sequence Length)、偽氨基酸組成成分（Pseudo amino acid composition)、蛋白質(zhì)與蛋白質(zhì)交互信息等，使用的預(yù) 測(cè)算法有樸素貝葉斯算法（Naive BayesAlgorithm)、支持向量機(jī)算法（Support Vector Machine，SVM)、隨機(jī)森林算法（Random Forest)、計(jì)分卡算法（Scoring Card Method)、徑向基神經(jīng)網(wǎng)絡(luò)算法等；這些預(yù)測(cè)模型都將多視角特征串聯(lián)后輸入預(yù)測(cè)算法中，且取得了一定的預(yù)測(cè)精度。
[0004] 然而，上面所述的蛋白質(zhì)結(jié)晶預(yù)測(cè)模型都沒(méi)有使用蛋白質(zhì)的進(jìn)化信息特征、沒(méi)有充分考慮不同視角特征之間存在相互干擾的關(guān)系、沒(méi)有深度挖掘特征中存在的信息，從而導(dǎo)致蛋白質(zhì)結(jié)晶預(yù)測(cè)模型的可解釋性較差的問(wèn)題有待克服；且可以發(fā)現(xiàn)預(yù)測(cè)精度距離實(shí)際應(yīng)用還有較大差距，迫切需要進(jìn)一步提高。

【發(fā)明內(nèi)容】

[0005] 為了解決上述蛋白質(zhì)結(jié)晶預(yù)測(cè)問(wèn)題中潛在的特征視角鑒別性不強(qiáng)、不同視角特征之間存在的相互干擾、預(yù)測(cè)算法深度挖掘信息能力不強(qiáng)而導(dǎo)致預(yù)測(cè)精度距離實(shí)際應(yīng)用差距較大且可解釋性較差的缺點(diǎn)，本發(fā)明的目的在于提出一種結(jié)合蛋白質(zhì)進(jìn)化信息視角特征、蛋白質(zhì)序列視角特征、氨基酸物理化學(xué)屬性視角特征以及使用可以避免不同視角特征相互干擾的2L-SVM預(yù)測(cè)算法的具有預(yù)測(cè)精度高、模型可解釋性強(qiáng)的基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法。
[0006] 為達(dá)成上述目的，本發(fā)明所采用的技術(shù)方案如下：
[0007] -種基于兩層SVM學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法，包括以下步驟：
[0008] 步驟1 :特征提取，使用PSI-BLAST提取蛋白質(zhì)的進(jìn)化信息，并結(jié)合蛋白質(zhì) 序列信息與氨基酸的物理化學(xué)屬性信息，通過(guò)抽取AminoAcid Composition (AAC)、 Dipeptide Composition (DiAAC)、Tripeptide Composition (TriAAC)、PseudoAminoAcid Composition(PseAAC)和Pseudo Position Specific Scoring Matrix(PsePSSM)五個(gè)視角特征，將蛋白質(zhì)序列轉(zhuǎn)換為數(shù)值形式表示
[0009] 步驟2 :根據(jù)步驟1將訓(xùn)練數(shù)據(jù)集合中

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：胡俊;於東軍;何雪;李陽(yáng);沈紅斌;楊靜宇;
技術(shù)所有人：南京理工大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于兩層svm學(xué)習(xí)機(jī)制的蛋白質(zhì)結(jié)晶預(yù)測(cè)方法