本發(fā)明涉及一種基于分層混合模型的信號肽及其切割位點的預測方法,是利用已知的蛋白質序列來預測該蛋白質是否包含n端信號肽,并預測其切割位點,特別是一種融合氨基酸殘基和功能結構域,融合統(tǒng)計性信任分數和序列相似性分數,并自頂而下分層預測信號肽及其切割位點的算法。
背景技術:
1979年,g.blobel和d.sabatini基于實驗觀察首次提出了信號假說(signalhypothesis)。g.blobel和d.sabatini認為在分泌蛋白質序列的n端有一段起信號引導作用的氨基酸片段,該片段可以引導蛋白質在各個膜間進行轉移,并將蛋白質運輸到目的位置。他們把這段起信號引導作用的氨基酸片段稱為信號肽。在1999年,g.blobel憑借這項成就獲得了諾貝爾生理學或醫(yī)學獎。
經過多年的研究對信號肽的研究,人們對信號肽的認識進一步加深。信號肽是一段出現在蛋白質序列n端的氨基酸短序列,它在真核生物和原核生物中引導蛋白質在細胞中的轉移和分泌。幾乎所有的分泌蛋白質和許多跨膜蛋白質氨基酸序列的n端都包含信號肽。作為一個“郵編”,信號肽引導新生蛋白質運輸到細胞內外的正確位置。如果改變了新生蛋白n端的信號肽,那么蛋白質可能會被運輸到錯誤的細胞位置,這將導致各種奇怪的疾病。因此,信號肽的知識對揭示了一些復雜遺傳性疾病的機制是非常有用的。此外根據信號肽的知識,科學家可以自己期望的方式對氨基酸序列進行重新編程,這可以用于未來的細胞和基因治療中,并同時為開發(fā)新藥物提供了思路。事實上,藥物科學家通過基因修飾蛋白質對應信號肽,例如,科學家可以通過向所需蛋白質添加特異性標簽(信號肽),可以標記并引導它們的排泄,使得它們更容易被獲取?,F在,信號肽已成為尋找新藥物,對細胞進行重新編程和進行基因治療的關鍵工具。此外,信號肽預測還可以為其他相關領域的預測提供重要的參考信息,如在亞細胞定位研究中,信號肽的信息可以直接提供蛋白質的亞細胞位置信息。
在過去的二十年里,科學一直在信號肽預測及其位點分析領域孜孜不倦的努力,并取得了出色的研究成果。到目前為止,領域內不僅發(fā)布了多種信號肽分析的方法,而且也有許多信號肽分析軟件發(fā)布并被廣泛使用。領域內的信號肽分析方法逐步提升了信號肽分析的精度,并嘗試從不同的角度分析認識信號肽。統(tǒng)計常用的信號肽分析軟件,根據其進行信號肽分析時應用的預測模型,我們可以將它們大致分成三類:基于生成模型的信號肽預測方法,基于判別模型的信號肽預測方法和基于序列比對的信號肽預測方法?;谂袆e模型的信號肽分析方法通常是應用統(tǒng)計分析分類器(如神將網絡,支持向量機等等)進行信號肽分析。這種方法的優(yōu)點是比較靈活,適合處理任意長度的蛋白質序列,缺點是由于每個氨基酸殘基被獨立地編碼表示,各氨基酸殘基間的相互關聯(lián)就被忽略。此外,在基于判別模型的信號肽分析方法進行切割位點判定時,容易在真實切割位點左右兩邊陷入局部最優(yōu)陷阱?;谏赡P偷男盘栯姆治龇椒紤]了信號肽結構上的三個功能區(qū)(n區(qū),h區(qū),c區(qū))信息,此類方法通過統(tǒng)計信號肽各區(qū)域間的相關性,并通過隱馬爾可夫模型(hiddenmarkovmodel,hmm)等算法進行建模?;谏赡P偷男盘栯姆治龇椒▋?yōu)點是在生物學和化學等層面上有更加直觀的可解釋性,并且探索信號肽功能域間相關性,這將有助于更深刻的認識這三個功能區(qū)域的功能和結構;缺點是不擅長處理信號肽具有較長氨基酸序列的情況?;谛蛄斜葘Φ男盘栯姆治龇椒ㄊ腔谛盘栯牡倪M化保守性和知識遷移等思想構建的,在這類信號肽分析方法中,首先需要從公共數據庫中提取信號肽序列組成包含注釋信息的數據集,然后將查詢序列與數據集中的信號肽序列進行序列比對。這類信號肽分析方法的優(yōu)點是在生物學和物理學上有較強的可解釋性,該類模型相比其他兩類模型更為靈活,可以通過動態(tài)的更新模型使用的數據集來更新發(fā)布的信號肽分析模型,不需要在新的數據集上重新訓練模型。
對信號肽預測來說,基于氨基酸殘基特征分類器能很好地區(qū)分信號肽和非分泌蛋白質。但是信號肽和n端跨膜螺旋片段在結構上都有一段呈疏水性的氨基酸片段,所以它們氨基酸殘基特征有較高的相似性。因此僅憑氨基酸殘基特征,分類器難以正確識別信號肽和跨膜螺旋,以至于信號肽預測的假陽性過高。信號肽切割位點預測一直以來都是一個難點,原因可能是信號肽切割位點具有復雜的模式,信號肽長度分布較為分散。
技術實現要素:
本發(fā)明的目的在于針對現有技術中的不足,提供本發(fā)明提出一種基于分層混合模型的信號肽及其切割位點預測算法,該算法在信號肽預測領域第一次引入功能性結構域信息來降低n端跨膜螺旋的假陽性比率,融合氨基酸殘基和功能性結構域信息后信號肽預測性能顯著提高。在信號肽切割位點預測方面,該算法通過統(tǒng)計規(guī)則篩選高質量切割位點候選集,然后通過序列比對計算候選切割位點的序列相似性分數,通過融合統(tǒng)計性信任分數和序列相似性分數預測最終的信號肽切割位點。本發(fā)明在信號肽預測方面有較低的假陽性,在信號肽切割位點預測方面有較高的靈敏度。
本發(fā)明所解決的技術問題可以采用以下技術方案來實現:
首先在第一層應用基于氨基酸殘基特征的svm分類器識別蛋白質序列是否含有n端疏水性片段;然后在第二層應用基于氨基酸殘基特征和功能性結構域特征對應的樸素貝葉斯和svm分類器識別疏水性片段是信號肽還是n端跨膜螺旋;最后在第三層,先根據統(tǒng)計學習規(guī)則篩選候選切割位點并計算統(tǒng)計性信任分數,然后再通過needleman-wunsch序列比對算法計算候選信號肽序列的相似性分數,對統(tǒng)計性信任分數和序列相似性分數積分確定預測的信號肽切割位點。
其具體步驟是:
第一步:利用蛋白質氨基酸序列提取pssm矩陣信息,二級結構信息,可溶性信息和氨基酸物理化學信息,使用mrmr進行特征提取,生成氨基酸序列特征。
第二步:從cdd(conserveddomaindatabase)數據庫中提取蛋白質序列的功能性結構域信息,并根據cdd提供的聚類信息將功能結構信息映射成超家族,并根據超家族出現的頻率生成頻繁功能結構特征。
第三步:根據蛋白質序列的兩類特征分別訓練svm分類器和樸素貝葉斯分類器用于信號肽預測。
第四步:對于預測為信號肽的蛋白質序列,使用不對稱滑動窗口[-13,+2]在蛋白質序列上生成氨基酸序列片段。
第五步:根據信號肽的{-3,-1,+1}規(guī)則,在生成的氨基酸序列片段中篩選候選的信號肽切割位點,并計算每個候選切割位點對應的統(tǒng)計性信任分數。
第六步:由候選的信號肽切割位點生成對應的信號肽候選序列,并將該序列和含有注釋信息的信號肽序列應用needleman-wunsch算法做序列比對,并計算每條信號肽候選序列對應的序列相似性分數和比通過序列對得到的信號肽切割位點。
第七步:對于每個候選切割位點對應的統(tǒng)計性信任分數和序列相似性分數進行積分,計算最終預測的信號肽切割位點。
與現有技術相比,本發(fā)明的有益效果如下:
(1)模型融合氨基酸殘基和序列功能結構域信息,顯著降低信號肽預測的假陽性;
(2)模型融合統(tǒng)計性分數和序列相似性分數,顯著提高了信號肽切割位點預測的靈敏度;
(3)自頂而下分層預測信號肽及其切割位點的模型,顯著提高了信號肽及其切割位點預測的性能。
附圖說明
圖1是本發(fā)明所述的基于分層混合模型的信號肽及其切割位點預測方法的示意圖。
圖2是本發(fā)明所述的基于分層混合模型的信號肽及其切割位點預測方法的輸出結果示意圖。
具體實施方式
為使本發(fā)明實現的技術手段、創(chuàng)作特征、達成目的與功效易于明白了解,下面結合具體實施方式,進一步闡述本發(fā)明。
參見圖1,本發(fā)明所述的基于分層混合模型的信號肽及其切割位點預測方法,首先在第一層應用基于氨基酸殘基特征的svm分類器識別蛋白質序列是否含有n端疏水性片段;然后在第二層應用基于氨基酸殘基特征和功能性結構域特征對應的樸素貝葉斯和svm分類器識別疏水性片段是信號肽還是n端跨膜螺旋;最后在第三層,先根據統(tǒng)計學習規(guī)則篩選候選切割位點并計算統(tǒng)計性信任分數,然后再通過needleman-wunsch序列比對算法計算候選信號肽序列的相似性分數,對統(tǒng)計性信任分數和序列相似性分數積分確定預測的信號肽切割位點。
下面具體進行闡述:
第一步:根據蛋白質序列信息提取氨基酸殘基對應的進化信息(pssm),結構信息(ss)和物理化學信息(pi),這樣蛋白質序列中的每個殘基可以對應的一個30維向量表示:
rf=[pssm(20),ss(5),pi(5)](1)
第二步:取蛋白質序列n端l個氨基酸對應的特征,然后應用mrmr算法進行特征選擇生成優(yōu)化后的特征記為srf;
第三步:應用基于srf的svm分類器判斷蛋白質序列是否包含疏水性片段(信號肽和n端跨膜螺旋),若不含有分析結束;
第四步:使用rps-blast軟件檢索cdd數據庫獲取蛋白質序列的功能性結構域信息,并根據結構域id和結構域超家族的映射關系生成能性結構域特征(fdf);
fdfcdd=[δ1δ2…δi…δm](2)
第五步:應用基于fdf的樸素貝葉斯分類器判斷疏水性氨基酸片段是信號肽還是n端跨膜螺旋,對沒有fdf的蛋白質采用基于srf特征的svm分類器進行預測;
第六步:對預測為包含信號肽的蛋白質序列進行切割位點預測,使用[-13,+2]滑動窗口生成氨基酸片段,并根于{-3,-1,+1}規(guī)則和統(tǒng)計學習算法篩選候選的切割位點集;
γ={rk},ifθk>φt(5)
第七步:根據篩選出的候選切割位點生成假設的序列片段,并將片段和含有注釋信息的蛋白質序列做序列比對,計算相似性分數;
第八步:對每個候選切割位點對應的統(tǒng)計性信任分數和序列相似性分數進行積分,選取最大值對應的候選切割位點為最后預測的信號肽切割位點。
實施例
現有一個輸入序列,數據如下:
>querysequence|signal125
miksnritacalaalfagasfsasawwggpgygnglwdnmgdmfgdgygdfnmsm
ggggrgygrgygrgngygygapygygapygygapygygapygygapygampyga
mppqmpaapaqpqaapsr
此為一個待測序列,使用本發(fā)明方法的軟件輸出結果如圖2所示:
accordingtosignal-3l2.0engine,thepredictedsignalpeptideis:1-25
miksnritacalaalfagasfsasawwggpgygnglwdnmgdmfgdgygdfnmsm
ggggrgygrgygrgn
theprotentialcleavagesitesandthecreditscores
從結果可以看出,本方法精確并且直觀的預測了信號肽及其切割位點。
以上顯示和描述了本發(fā)明的基本原理和主要特征和本發(fā)明的優(yōu)點。本行業(yè)的技術人員應該了解,本發(fā)明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本發(fā)明的原理,在不脫離本發(fā)明精神和范圍的前提下,本發(fā)明還會有各種變化和改進,這些變化和改進都落入要求保護的本發(fā)明范圍內。本發(fā)明要求保護范圍由所附的權利要求書及其等效物界定。