亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種蛋白激酶磷酸化特異位點計算識別方法

文檔序號:6581536閱讀:619來源:國知局

專利名稱::一種蛋白激酶磷酸化特異位點計算識別方法
技術(shù)領(lǐng)域
:本發(fā)明涉及一種蛋白質(zhì)修飾化位點識別方法,特別是一種蛋白激酶磷酸化特異位點計算識別方法。
背景技術(shù)
:蛋白質(zhì)磷酸化和去磷酸化過程調(diào)節(jié)著細胞信號轉(zhuǎn)導、細胞分化、細胞生長、細胞凋亡等幾乎所有生命活動。蛋白質(zhì)磷酸化位點主要發(fā)生于酪氨酸(Y)、絲氨酸(S)與蘇氨酸(T)殘基(Wuetal.,JProteomeRes,2007,6(5):1812)。蛋白質(zhì)磷酸化的異常往往導致細胞生命活動的異常,甚至產(chǎn)生細胞損傷或細胞癌變(Yangetal.,JProteomeRes,2006,5(5):252)。因此,探索生理和病理狀態(tài)下蛋白質(zhì)磷酸化規(guī)律對于闡述生命本質(zhì)和疾病發(fā)生機制及研發(fā)新藥至關(guān)重要。實驗手段鑒定激酶特異性磷酸化位點是了解磷酸化機制以及藥物設(shè)計的基礎(chǔ)。目前已發(fā)展多種實驗鑒定蛋白質(zhì)磷酸化位點方法,傳統(tǒng)鑒定方法如P32標記法和埃德曼降解法常用于磷酸化位點測定(Campbelletal.,JBiomolTech,2002,13:119),但其費時、費力、靈敏度低以及需要大量提純蛋白質(zhì)。基于質(zhì)譜高通量磷酸化位點鑒定方法是最近涌現(xiàn)出的檢測蛋白磷酸化強有力手段(Philipetal.,CellCo匪nAdhes,2006,13:249)。但該類方法大多仍處于實驗室研究階段未得到廣泛應(yīng)用。隨著高通量鑒定蛋白質(zhì)磷酸化技術(shù)發(fā)展,特別是質(zhì)譜技術(shù)在蛋白組學上應(yīng)用,磷酸化位點的數(shù)據(jù)不斷積累,已有多種計算機預(yù)測方法預(yù)測磷酸化位點,如遺傳算法-神經(jīng)網(wǎng)絡(luò)(Tangetal.,ProteinEngineering.Design&Selection,2007,20(8):405),支持向量機(Kimetal.,Bioinformatics,2004,20:3179),隱Markov模型(Huangetal.,NucleicAcidsRes,2005,33:W226)及貝葉斯決策理論(Xueetal.,BMCBioinformatics,2006,7:163)等。但現(xiàn)有的磷酸化位點預(yù)測方法都存在無法同時獲得較高靈敏度和特異性的問題,并且預(yù)測正確率仍然不高(Tangetal.,ProteinEngineering.Design&Selection,2007,20(8):405),因此有必要開發(fā)具有高靈敏度、特異度和預(yù)測正確率的蛋白激酶磷酸化特異位點識別方法。
發(fā)明內(nèi)容有鑒于此,為了解決上述問題,本發(fā)明提供了一種蛋白激酶磷酸化特異位點計算識別方法,可用于蛋白激酶磷酸化特異位點識別。本發(fā)明的目的是這樣實現(xiàn)的一種蛋白激酶磷酸化特異位點計算識別方法,包括如下步驟a)具體包括al)精選20種天然氨基酸的629種三維性質(zhì)參數(shù);a2)對629種性質(zhì)參數(shù)做主成分分析,得到12個主成分;a3)計算各主成分得分,建立氨基酸三維性質(zhì)得分;b)用氨基酸三維性質(zhì)得分表征蛋白激酶磷酸化特異位點的結(jié)構(gòu)特征,其中的每個氨基酸用12個氨基酸三維性質(zhì)得分表征;c)用費歇爾準則得分方法挑選與蛋白激酶磷酸化特異位點特征密切相關(guān)的性質(zhì)參數(shù),并作為模型的輸入變量;d)應(yīng)用徑向基核支持向量機建立蛋白激酶磷酸化特異位點識別模型,以自取代檢驗,留1/10法交互檢驗以及外部檢驗驗證模型的預(yù)測能力,將每個樣本的輸入變量帶入模型并識別蛋白激酶磷酸化特異位點。本發(fā)明的一種蛋白激酶磷酸化特異位點計算識別方法,其中選取的氨基酸三維性質(zhì)得分所含信息量大、表征能力強、拓展性能好及操作簡便;費歇爾準則得分可以很好地挑選與蛋白激酶磷酸化特異位點特征密切相關(guān)的性質(zhì)參數(shù);徑向基核支持向量機通過核函數(shù)技術(shù),可以有效的防止模型的過擬合,并具有良好的泛化性能;同時,采用的自取代檢驗,留1/10法交互檢驗及外部檢驗驗證方法可以較大程度地保證方法的預(yù)測能力。本發(fā)明的其它優(yōu)點、目標和特征在某種程度上將在隨后的說明書中進行闡述,并且在某種程度上,基于對下文的考察研究對本領(lǐng)域技術(shù)人員而言將是顯而易見的,或者可以從本發(fā)明的實踐中得到教導。本發(fā)明的目標和其他優(yōu)點可以通過下面的說明書,權(quán)利要求書,以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲得。具體實施例方式以下將對采用本發(fā)明的方法用于蛋白激酶磷酸化特異位點識別為例進行詳細的描述,包括以下步驟a)精選20種天然氨基酸的629種三維性質(zhì)參數(shù),包括Randic分子剖面參數(shù),幾何特征參數(shù),基于不同原子間距的徑向基函數(shù)描述子(RDF),基于電衍射法的分子結(jié)構(gòu)表征(MoRSE)得到的描述子,加權(quán)整體不變分子的(WHIM)描述子及幾何、拓撲與原子重量的集合(GETAWAY)參數(shù)。采用主成分分析處理629種性質(zhì)參數(shù),得到12個主成分,其累計解釋原始數(shù)據(jù)矩陣(20X629)95.82%的方差,各主成分得分見表1,因此,可用此12個主成分得分矩陣(20X12)代替原始變量矩陣(20X629)。為方便,稱此12個主成分得分為氨基酸三維性質(zhì)得分,因為此12個得分矢量綜合了629種三維性質(zhì)參數(shù)的大部分信息,因此,可將其用于肽或蛋白質(zhì)結(jié)構(gòu)表征。表120種天然氨基酸的629種三維性質(zhì)參數(shù)的12個主成分得分<table>tableseeoriginaldocumentpage5</column></row><table>a20種天然氨基酸用常規(guī)的單個英文字母表示。b)用氨基酸三維性質(zhì)得分表征蛋白激酶磷酸化特異位點的結(jié)構(gòu)特征,其中的每個氨基酸用12個氨基酸三維性質(zhì)得分表征;所選數(shù)據(jù)來自Tang等(Tangetal.,Design&Selection,2007,20(8):405)的研究報道,該數(shù)據(jù)首先從Phospho.ELM(Version5.0)數(shù)據(jù)庫提取已知磷酸化位點,并過濾掉不含激酶蛋白信息的位點,然后,將所得到磷酸化位點按激酶家族進行分類后去除冗余位點。這些磷酸化位點是經(jīng)實驗充分驗證,將其作為正樣本集。晶體結(jié)構(gòu)研究表明激酶與磷酸化位點(S,T或Y)旁側(cè)712氨基酸殘基發(fā)生相互作用(Songyangetal.,CurrBiol,1994,4:973)。所選擇的每個樣本是由位點和旁側(cè)序列組成25肽序列。由于數(shù)據(jù)集的負樣本過多不利于磷酸化預(yù)測,這里采用1:1比例選取正負樣本。為了驗證預(yù)測性能,將樣本劃分訓練集和外部驗證測試集,其中訓練集樣本與測試集樣本的比例為l:1。25-肽序列中的每個氨基酸殘基用12個氨基酸三維性質(zhì)得分表征。每個25-肽序列以25X12個二300個變量表征。c)用費歇爾準則得分方法挑選與蛋白激酶磷酸化特異位點特征密切相關(guān)的性質(zhì)參數(shù),并作為模型的輸入變量;經(jīng)比較,以300個原始自變量作為支持向量機的輸入,無論建模還是外部預(yù)測效果都較差,故用費歇爾準則得分(Webb-Robertsonetal.,Bioinformatics,2008,24:1503)選擇與蛋白激酶磷酸化特異位點特征密切相關(guān)的變量,共得到68個費歇爾準則得分大于等于2.0的變量變量,作為模型的輸入變量。d)應(yīng)用徑向基核支持向量機建立蛋白激酶磷酸化特異位點識別模型,以自取代檢驗,留1/10法交互檢驗以及外部檢驗驗證模型的預(yù)測能力,將每個樣本的輸入變量帶入模型并識別蛋白激酶磷酸化特異位點。分別定義A。。為計算識別正確樣本數(shù)目所占總樣本數(shù)目百分比,Sp為識別正確的蛋白激酶磷酸化特異位點樣本數(shù)目的百分比,Sn為識別正確的非蛋白激酶磷酸化特異位點樣本數(shù)目的百分比,MCC為馬休斯相關(guān)系數(shù)。用格點搜索法確定支持向量機的參數(shù)C,e和Y,經(jīng)自取代檢驗,留1/10法交互檢驗,外部檢驗驗證模型的預(yù)測能力,將每個樣本的自變量帶入模型并計算,識別結(jié)果如表2所示,可以看出,所得模型對于S、T和Y磷酸化位點識別都產(chǎn)生較高的預(yù)測正確率、靈敏度、特異度和MCC。特別地,外部驗證識別的MCC都大于0.600,這表明,所建模型具有較高的蛋白激酶磷酸化特異位點識別能力。經(jīng)比較,本方法對于S、T和Y磷酸化位點識別結(jié)果明顯優(yōu)于Tang等(ProteinEngineering.Design&Selection,2007,20(8):405)報道的結(jié)果。有四個原因可解釋為什么本方法具有較高的識別正確率,一是氨基酸三維性質(zhì)得分具有良好的蛋白質(zhì)信息表達能力;二是費歇爾準則得分可以很好的選擇與蛋白激酶磷酸化特異位點特征密切相關(guān)的結(jié)構(gòu)參數(shù);三是支持向量機具有良好的擬合和泛化能力;四是所采用的三種檢驗方法可以最大限度地保證方法的預(yù)測識別能力。表2蛋白激酶磷酸化特異位點識別結(jié)果位點支持向量機參數(shù)自取代檢驗留1/10法交互檢驗外部檢驗C£YAccSnSpMCCAccSnSpMCCAccsspMCCs640.03O扁89.986.588.20.80083.784.186.30.72]82.583.785.90.612T80.020.00589.679.383.50.75287.377.582.90.68983.676.8訓0.631Y1280.03O扁86.974.389.80.70883.377.187.00.67980.876,785.80.632以上所述僅為本發(fā)明的優(yōu)選實施例,并不用于限制本發(fā)明,顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。權(quán)利要求一種蛋白激酶磷酸化特異位點計算識別方法,其特征在于包括如下步驟a)具體包括a1)精選20種天然氨基酸的629種三維性質(zhì)參數(shù);a2)對629種性質(zhì)參數(shù)做主成分分析,得到12個主成分;a3)計算各主成分得分,建立氨基酸三維性質(zhì)得分;b)用氨基酸三維性質(zhì)得分表征蛋白激酶磷酸化特異位點的結(jié)構(gòu)特征,其中的每個氨基酸用12個氨基酸三維性質(zhì)得分表征;c)用費歇爾準則得分方法挑選與蛋白激酶磷酸化特異位點特征密切相關(guān)的性質(zhì)參數(shù),并作為模型的輸入變量;d)用徑向基核支持向量機建立蛋白激酶磷酸化特異位點識別模型,以自取代檢驗,留1/10法交互檢驗以及外部檢驗驗證模型的預(yù)測能力,將每個樣本的輸入變量帶入模型并識別蛋白激酶磷酸化特異位點。全文摘要本發(fā)明公開了一種蛋白激酶磷酸化特異位點計算識別方法,其特征是a)基于主成分分析方法,建立一種新的蛋白質(zhì)序列結(jié)構(gòu)表征方法-氨基酸三維性質(zhì)得分;b)用氨基酸三維性質(zhì)得分表征蛋白激酶磷酸化特異位點的結(jié)構(gòu)特征;c)用費歇爾準則得分方法挑選與蛋白激酶磷酸化特異位點特征密切相關(guān)的參數(shù);d)以徑向基核支持向量機建立蛋白激酶磷酸化特異位點識別模型,分別以自取代檢驗,留1/10法交互檢驗以及外部檢驗驗證方法的預(yù)測能力。該發(fā)明方法可用于蛋白激酶磷酸化特異位點識別,可為探索生理和病理狀態(tài)下蛋白質(zhì)磷酸化規(guī)律,進一步闡述生命本質(zhì)和疾病發(fā)生機制及研發(fā)新藥提供重要支持。文檔編號G06F19/00GK101710365SQ200910191888公開日2010年5月19日申請日期2009年12月14日優(yōu)先權(quán)日2009年12月14日發(fā)明者楊力,梁桂兆,梅虎,趙巍,馬秀巖申請人:重慶大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1