亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種可解釋性的膜蛋白跨膜螺旋預測方法

文檔序號:6571573閱讀:384來源:國知局
專利名稱:一種可解釋性的膜蛋白跨膜螺旋預測方法
技術(shù)領(lǐng)域
本發(fā)明涉及膜蛋白質(zhì)序列跨膜螺旋預測技術(shù),特別是一種具有高可解釋性的跨膜螺旋預測方法。
背景技術(shù)
膜蛋白(Transmembrane Protein)在生物體中是一類非常重要的蛋白質(zhì),它對于細胞的營養(yǎng)物質(zhì)運輸、細胞間信號傳遞以及能量交換都起著非常重要的作用。同時,膜蛋白也是很多藥物作用的靶點,最典型的為G蛋白家族。有研究表明,藥物研發(fā)中609Γ70%的目標蛋白是G蛋白家族成員。在基因組數(shù)據(jù)中,有209Γ 30%的基因產(chǎn)物被預測為膜蛋白,然而遺憾的是,在H)B( Protein Data Bank)數(shù)據(jù)庫中只有1%左右的跨膜蛋白結(jié)構(gòu)被精確測定。由于膜蛋白的疏水特性,使得其結(jié)構(gòu)的生物測定非常困難它需要與生物膜結(jié)合才能形成穩(wěn)定的天然構(gòu)象,難以得到晶體結(jié)構(gòu),而測定蛋白質(zhì)三維結(jié)構(gòu)最常用的是使用X射線進行晶體衍射和使用核磁共振技術(shù)進行測定。膜蛋白的特殊結(jié)構(gòu)使得這兩種方法實現(xiàn)起來都非常不利。因此應用生物信息學的相關(guān)知識,使用計算機預測技術(shù)來研究膜蛋白的跨膜結(jié)構(gòu)就顯得尤為重要,對于發(fā)現(xiàn)和認識新的跨膜蛋白以及研究其結(jié)構(gòu)和生理功能有著重要的意義。目前已經(jīng)有很多膜蛋白跨膜螺旋預測模型出現(xiàn),跨膜螺旋的預測精度正日益提高。目前,已經(jīng)出現(xiàn)了若干膜蛋白跨膜螺旋預測方法,典型的有TMHMM (A. Krogh, B.Larsson, G. von Heijne, and E. L. Sonnhammer, "Predicting transmembrane proteintopology with a hidden Markov model: application to complete genomes, 〃 J. MoI.Biol. , vol. 305,pp. 567-580,2001.)和 PH0BIUS (L. Kail, A. Krogh, and E. L.Sonnhammer, 〃A combined transmembrane topology and signal peptide predictionmethod, " J. Mol. Biol. , vol. 338,pp. 1027-36,2004.),這兩種方法均使用隱馬爾可夫模型(Hidden Markov Model, HMM)來進行跨膜螺旋的預測;基于神經(jīng)網(wǎng)絡和動態(tài)規(guī)劃的方法,如 MEMSAT3 (Improving the accuracy of transmembrane protein topologyprediction using evolutionary information. Bioinformatics, 23 (5):538-544,2007);基于支持向量基的方法,如 SVMtm (Z. Yuan, J. S. Mattick, and R. D.Teasdale, uSVMtm: Support vector machines to predict transmembrane segments, ”J. Comput. Chem. , vol. 25, pp. 632 - 636, 2004)。然而,綜合分析這些預測模型,可以發(fā)現(xiàn),它們更多關(guān)注的是追求模型的精確度和泛化能力,而沒有很好地考慮計算模型對領(lǐng)域知識的包容和解釋能力,忽略了模型的可解釋性。計算模型在工作時更像是一個“黑盒”,缺少對計算結(jié)果的內(nèi)在機理的有效解釋,使用者很難理解預測模型輸入和輸出之間存在的內(nèi)在聯(lián)系,也妨礙與生物學家之間的溝通與交流。因此,在保證預測模型的精度和泛化能力的前提下,如何有效增強其可解釋性,是廣大生物實驗學研究者提出的迫切要求。本發(fā)明提出的方法基于膜蛋白質(zhì)的進化信息,采用模糊規(guī)則集推理技術(shù)來設計膜蛋白跨膜螺旋的預測,具有較佳的模型可解釋性。使用了 PSI-BLAST程序(A. A. Schafferet al. , “Improving the accuracy of PSI-BLAST protein database searches withcomposition-based statistics and other refinements, ” Nucleic Acids Res. , vol.29,pp. 2994 - 3005,2001)來提取膜蛋白質(zhì)的進化信息;在模式特征分布規(guī)律學習階段,使用了自組織映射神經(jīng)網(wǎng)絡(T. Kohonen, Self-Organization and Associative Memory,3rd ed. New York: Springer-Verlag, 1989.);在規(guī)則提取階段,使用了 Wang-Mendel 提出的 Learning-from-example 技術(shù)(L. X. Wang and J. M. Mendel, “Generating fuzzyrules by learning from examples, ” IEEE Trans. System. , Man, Cybernetics, vol.22,no. 6,pp. 1414 - 1427,1992.)。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種具有高可解釋性的膜蛋白跨膜螺旋預測方法。本發(fā)明的技術(shù)方案是一種可解釋性的膜蛋白跨膜螺旋預測方法,它包括以下步驟 第一步特征提取,將蛋白質(zhì)序列中的氨基酸殘基轉(zhuǎn)換為向量形式表示。對于一個由《個氨基酸組成的蛋白質(zhì),通過PSI-BLAST算法可得到其特定位置得分祀陣(Position Specific Scoring Matrix, PSSM),該矩陣為行20列,先對該PSSM進行逐行標準化,然后使用滑動窗口技術(shù)得到每個氨基酸殘基的特征矩陣;特征矩陣按列求均值,得到該殘基的2 O維特征向量
權(quán)利要求
1.一種可解釋性的膜蛋白跨膜螺旋預測方法,其特征在于包括以下步驟 第一步特征提取,將蛋白質(zhì)序列中的氨基酸殘基轉(zhuǎn)換為向量形式表示;對于一個由η個氨基酸組成的蛋白質(zhì),通過PSI-BLAST算法得到其特定位置得分矩陣(PositionSpecific Scoring Matrix, PSSM),該矩陣為行20列,先對該PSSM進行逐行標準化,然后使用滑動窗口技術(shù)得到每個氨基酸殘基的特征矩陣,特征矩陣按列求均值,得到該殘基的2O維特征向量Y=(沁4---^4),其中表示第幾個殘基; 第二步模式特征分布規(guī)律學習,使用自組織映射神經(jīng)網(wǎng)絡(Self-organizing Map,SOM),在特征空間中學習樣本的分布規(guī)律,并消除原始訓練樣本噪聲,對于給定的訓練樣本集,其中O表示非跨膜,I表示跨膜,使用批量學習算法來訓練S0M,直到SOM收斂或是達到預先設定的學習步數(shù); 第三步模糊規(guī)則提取,從訓練好的SOM的權(quán)值向量(codebook vectors)提取模糊規(guī)貝U,使用Wang-Mendel規(guī)則提取算法從SOM的權(quán)值向量集中提取模糊規(guī)則集; 第四步蛋白質(zhì)跨膜螺旋預測,對于給定的待預測蛋白質(zhì),使用上述步驟三中所提取的模糊規(guī)則集,應用模糊推理方法,對其中的氨基酸殘基的跨膜螺旋性進行逐個預測,得到預測曲線,然后使用閾值分割的方法,確定每個殘基是否屬于跨膜螺旋片段。
2.根據(jù)權(quán)利要求I所述的膜蛋白跨膜螺旋預測方法,其特征在于所述的步驟三中不同變量的論域上定義不同數(shù)目的模糊子集。
3.根據(jù)權(quán)利要求I所述的膜蛋白跨膜螺旋預測方法,其特征在于所述的步驟四中采用乘積推理計算每條規(guī)則的激活度。
全文摘要
本發(fā)明公開了一種可解釋性的膜蛋白跨膜螺旋預測方法。首先利用PSI-BLAST程序獲取蛋白質(zhì)的進化信息,并使用滑動窗口技術(shù)抽取每個氨基酸殘基的特征;然后,利用自組織神經(jīng)網(wǎng)絡(SOM)學習跨膜螺旋在特征空間中的分布規(guī)律,將分布規(guī)律知識編碼在SOM的權(quán)值向量中;最后,使用Wang-Mendel方法提取可解釋性的模糊規(guī)則集;對于給定的待預測蛋白質(zhì)的每個氨基酸殘基使用模糊推理技術(shù)進行預測,得到預測曲線后,使用動態(tài)閾值分割技術(shù)確定每個氨基酸殘基是否屬于跨膜螺旋片段。優(yōu)點在于一是使用SOM學習,挖掘跨膜螺旋分布規(guī)律知識并降低原始數(shù)據(jù)的噪聲;二是使用模糊規(guī)則提取技術(shù)獲取的跨膜螺旋預測模型具有很高的可解釋性。
文檔編號G06F19/18GK102831332SQ20121026161
公開日2012年12月19日 申請日期2012年7月27日 優(yōu)先權(quán)日2012年4月16日
發(fā)明者於東軍, 沈紅斌, 唐振民, 楊靜宇 申請人:南京理工大學常熟研究院有限公司, 南京理工大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1