專利名稱:G蛋白偶聯(lián)受體超類的識別方法及其Web服務(wù)系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬蛋白質(zhì)分類技術(shù)領(lǐng)域,特別是涉及一種G蛋白偶聯(lián)受體超類的識別方法及其Web服務(wù)系統(tǒng)。
背景技術(shù):
G蛋白偶聯(lián)受體(G-protein-coupled receptors,GPCRs)稱為7螺旋跨膜蛋白受體(seven α-helices transmembrane segment receptor,7TM receptor),是人體內(nèi)最大的蛋白質(zhì)家族。GPCRs因能結(jié)合和調(diào)節(jié)G蛋白活性而得名,根據(jù)其蛋白質(zhì)序列的相似性及與配基的結(jié)合情況,GPCRs一共分為5個超家族A族——類視紫紅質(zhì)(rhodopsinlike)受體、B族——類分泌素(secretinlike)受體、C族——親代謝性谷氨酸鹽和信息素(metabotrophic/glutamate/pheromone)受體、D族——真菌信息素(fungal pheromone)受體和E族——cAMP受體。人類基因組測序表明,目前約有720個基因參與了GPCRs的合成,而且GPCRs的功能失調(diào)會導(dǎo)致許多疾病的產(chǎn)生,如阿爾茨海默氏癥、侏儒癥、帕金森癥、色盲癥以及哮喘等。因此,很多藥物方面的研究瞄準(zhǔn)它們的結(jié)構(gòu)與功能的關(guān)系,目前GPCRs已經(jīng)成為了近70%藥物的標(biāo)靶。隨著基因組學(xué)和蛋白質(zhì)組學(xué)的蓬勃發(fā)展,大量的氨基酸序列數(shù)據(jù)已經(jīng)可以獲得。然而,由于膜蛋白不易結(jié)晶,故大多數(shù)GPCRs的三級結(jié)構(gòu)不易得知;而利用傳統(tǒng)的實驗方法和分子生物學(xué)方法來測定GPCRs的類型已經(jīng)無法滿足迅速增長的GPCRs的需求。因此,利用計算方法來預(yù)測GPCRs的結(jié)構(gòu)便成為生物信息學(xué)的研究熱點之一。
然而,近年來用于G蛋白偶聯(lián)受體分類的方法在技術(shù)上存在以下幾點不足 (1)序列的數(shù)字化方法無法充分表示G蛋白偶聯(lián)受體的序列特征。
(2)分類系統(tǒng)過于簡單影響了蛋白質(zhì)的識別效果。
(3)沒有將算法做成在線可實現(xiàn)系統(tǒng),以至于方法缺乏實用性。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于G蛋白偶聯(lián)受體的序列特征進行G蛋白偶聯(lián)受體超類的識別方法及其Web服務(wù)系統(tǒng)。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是提供本發(fā)明的目的是提供一種G蛋白偶聯(lián)受體超類的識別方法。
為了實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案是 一種G蛋白偶聯(lián)受體超類的識別方法,包括樣本采集、樣本序列數(shù)字化、樣本序列特征提取和樣本分類,其特征在于,它采用G蛋白偶聯(lián)受體樣本的一階簽名模型來表示G蛋白偶聯(lián)受體樣本;采用離散二進制粒子群算法來提取G蛋白偶聯(lián)受體樣本的有效特征;采用基于模糊神經(jīng)網(wǎng)絡(luò)的集成分類器模型來完成G蛋白偶聯(lián)受體樣本的分類;它依次包括以下步驟 (1)基于權(quán)威的G蛋白偶聯(lián)受體的數(shù)據(jù)庫(GPCRDB),通過計算機程序提取G蛋白偶聯(lián)受體的序列作為訓(xùn)練樣本,預(yù)測目標(biāo)是未知的蛋白質(zhì)序列; (2)采用G蛋白偶聯(lián)受體序列中出現(xiàn)二肽的頻率的一階簽名編碼方法,記為 其中,pi和fi分別表示蛋白質(zhì)一階簽名出現(xiàn)的頻率和頻數(shù),L表示蛋白質(zhì)序列的長度;用一個4200維的向量表示一個蛋白質(zhì)序列; (3)在一個L維空間中,初始化生成m個粒子的群體,每一個粒子都有自己的位置和速度,定義粒子Xi的飛行速度為Vi=(vi1,vi2,…,viL),i=1,2,…,m,也是L維的向量; (4)設(shè)計目標(biāo)函數(shù),計算每一個粒子的適應(yīng)度值,其中在每一次迭代中,粒子通過兩個“極值”來更新自己的位置,一個是粒子本身的最好解,稱為個體極值點(pbest),另一個是整個種群目前的最好解,稱為全局最優(yōu)解(gbest),在得到兩個“極值”后,粒子的速度更新方程為 其中,C1、C2是加速因子,分別調(diào)節(jié)向全局最優(yōu)粒子和個體最好粒子方向飛行的步長,C1=C2=2,將L維空間中粒子位置的每一維限制為1或者0,而速度沒有限制,所有表示蛋白質(zhì)序列的特征組成一個特征空間。在這個空間中,如果粒子的第i維xi=1,則該特征空間中的第i特征被選中;如果xi=0,則該特征不被選中,特征選擇算法中的適應(yīng)度函數(shù)設(shè)計為 fitness=Ac-k*nNewFeature/nAllFeature 其中,Ac是訓(xùn)練集合在分類算法上的Jackknife測試準(zhǔn)確率,nNewFeature是被選中的特征數(shù),nAllFeature是全體特征數(shù),k是表示被選擇的特征數(shù)在全體特征中所占比例的參數(shù),本發(fā)明選擇為0.1; (5)根據(jù)粒子的速度來更新粒子的位置 其中,a是表示粒子更新的參數(shù),本發(fā)明選擇a=1; (6)采用以下集成分類器 C=C1{DiAAS(p=1)}⊕C2{DiAAS(p=2)}⊕…⊕Cn{DiAAS(p=n)} 其中,C表示集成分類器,Ci{DiAAS(p=i)},i=1,2,…,p表示基本分類器,輸入數(shù)據(jù)是具有不同距離的氨基酸對組成,符號⊕是結(jié)合操作符,框架中基本分類算法是模糊神經(jīng)網(wǎng)絡(luò)分類器,每一個基本分類的輸出產(chǎn)生k個類別的模糊隸屬度,k是G蛋白偶聯(lián)受體的分類數(shù)目,因此,可以得到模糊隸屬度矩陣 多個基本分類器的輸出通過融合算法可以得到集成分類器的結(jié)果,G蛋白偶聯(lián)受體的分類表示為 其中,“comb”表示融合的規(guī)則,本發(fā)明中融合算法選擇算數(shù)平均算法,最終預(yù)測結(jié)果即為fi的最大值, 本發(fā)明的另一個目的是提供一種G蛋白偶聯(lián)受體識別的Web服務(wù)系統(tǒng),其特征在于,它采用了面向G蛋白偶聯(lián)受體超類識別方法,當(dāng)Web客戶端輸入待測蛋白質(zhì)序列,服務(wù)器端Tomcat獲取請求并調(diào)用Servlet組件,Servlet響應(yīng)Tomcat請求并驗證數(shù)據(jù)正確后,調(diào)用預(yù)測器組件,預(yù)測器組件通過matlab引擎Matlab for java調(diào)用分類器函數(shù)進行預(yù)測,結(jié)果返回到Web客戶端。有益效果 (1)基于G蛋白偶聯(lián)受體的序列特征,提出了基于智能算法的序列特征提取方法; (2)基于訓(xùn)練樣本多的特點提出了分類精度高的集成分類器的算法; (3)實現(xiàn)了在線預(yù)測功能。
本發(fā)明能夠基于普通的Web用戶預(yù)測G蛋白偶聯(lián)受體的類別,預(yù)測模型分類精度高,采用Jacknife測試方法,預(yù)測精度可達95%以上。
圖1為G蛋白偶聯(lián)受體的分類模型。
圖2為集成分類器的原理圖。
圖3為G蛋白偶聯(lián)受體在線預(yù)測的流程。
具體實施例方式 下面結(jié)合具體實施例,進一步闡述本發(fā)明。應(yīng)理解,這些實施例僅用于說明本發(fā)明而不用于限制本發(fā)明的范圍。此外應(yīng)理解,在閱讀了本發(fā)明講授的內(nèi)容之后,本領(lǐng)域技術(shù)人員可以對本發(fā)明作各種改動或修改,這些等價形式同樣落于本申請所附權(quán)利要求書所限定的范圍。
圖1所述的是基于智能計算的G蛋白偶聯(lián)受體的分類模型。具體步驟如下 (1)圖1中的測試樣本,采集于權(quán)威的G蛋白偶聯(lián)受體的數(shù)據(jù)庫(GPCRDB),通過計算機程序提取G蛋白偶聯(lián)受體的序列,目標(biāo)是未知的蛋白質(zhì)序列。
(2)圖1中的是蛋白質(zhì)序列的一階簽名是一種蛋白質(zhì)序列編碼模型。它由氨基酸及其近鄰的氨基酸連接的二肽組成。例如對于序列MAVMMV,含有的一階簽名為A(MV)、V(AM)、M(MV)共3個。值得注意的是M(MV)和M(VM)表示同一個一階簽名。由1階簽名的定義可知,蛋白質(zhì)序列的1階簽名有20×(20×21×2)=4 200個,簽名編碼就是把蛋白質(zhì)中的簽名出現(xiàn)的頻率作為特征進行編碼的方法。因此,我們可以用一個4200維的向量表示一個蛋白質(zhì)序列,記為 其中,pi和fi分別表示蛋白質(zhì)一階簽名出現(xiàn)的頻率和頻數(shù),L表示蛋白質(zhì)序列的長度。這種基于二肽在蛋白質(zhì)序列中出現(xiàn)的頻率的編碼方法,可以反映蛋白質(zhì)序列的細節(jié)特征。但是維數(shù)較高,因此需要利用智能算法對其進行特征提取。
(3)圖1中的離散二進制粒子群算法(BPSO)是一種基于群體的智能算法,來源于對鳥群飛行和覓食的行為研究。該算法在粒子群智能算法的基礎(chǔ)上提出了離散二進制的思想,主要是用來解決組合優(yōu)化問題。具有適于個體數(shù)目多,計算速度快,適用于離散二進制數(shù)據(jù)等優(yōu)點。其基本原理如下 假設(shè)在一個L維空間中,初始化生成m個粒子的群體,每一個粒子都有自己的位置和速度。定義粒子Xi的飛行速度為Vi=(vi1,vi2,…,viL),i=1,2,…,m,也是L維的向量。設(shè)計一個目標(biāo)函數(shù),計算每一個粒子的適應(yīng)度值。根據(jù)適應(yīng)度值來判斷粒子的優(yōu)劣。每個粒子記憶,最終當(dāng)前的最優(yōu)粒子。在解空間中搜索。
在每一次迭代中,粒子通過兩個“極值”來更新自己的位置。一個是粒子本身的最好解,稱為個體極值點(pbest);另一個是整個種群目前的最好解,稱為全局最優(yōu)解(gbest)。在得到兩個“極值”后,粒子的速度更新方程為 其中,C1,C2是加速因子,分別調(diào)節(jié)向全局最優(yōu)粒子和個體最好粒子方向飛行的步長,C1=C2=2。將L維空間中粒子位置的每一維限制為1或者0,而速度沒有限制。所有表示蛋白質(zhì)序列的特征組成一個特征空間,在這個空間中,如果粒子的第i維xi=1,則該特征空間中的第i特征被選中;如果xi=0,則該特征不被選中。
特征選擇算法中的適應(yīng)度函數(shù)設(shè)計為; fitness=Ac-k*nNewFeature/nAllFeature 其中,Ac是訓(xùn)練集合在分類算法上的Jackknife測試準(zhǔn)確率,nNewFeature是被選中的特征數(shù),nAllFeature是全體特征數(shù),k是表示被選擇的特征數(shù)在全體特征中所占比例的參數(shù),本發(fā)明選擇為0.1。
根據(jù)粒子的速度來更新粒子的位置 其中,a是表示粒子更新的參數(shù),本發(fā)明選擇a=1。
(4)圖1中的集成分類器是指集成了模式識別算法優(yōu)勢的一種分類器,可以大大提高基本分類器的分類精度。在本發(fā)明中,在蛋白質(zhì)特征被提取后,將采用此方法進行分類。詳細分見圖2。
圖2是所述的是集成分類器的詳析圖。如圖3所示,每個基本分類器的輸入數(shù)據(jù)是經(jīng)過離散二進制粒子群算法(BPSO)的特征選擇的蛋白質(zhì)一階簽名向量。集成分類器可以用下式表示 C=C1{DiAAS(p=1)}⊕C2{DiAAS(p=2)}⊕…⊕Cn{DiAAS(p=n)} 其中,C表示集成分類器,Ci{DiAAS(p=i)},i=1,2,…,p表示基本分類器,輸入數(shù)據(jù)是具有不同距離的氨基酸對組成。符號⊕是結(jié)合操作符??蚣苤谢痉诸愃惴ㄊ悄:窠?jīng)網(wǎng)絡(luò)分類法(FNN)。每一個基本分類器的輸出產(chǎn)生k個類別的模糊隸屬度,k是G蛋白偶聯(lián)受體的分類數(shù)目。因此,可以得到模糊隸屬度矩陣 多個基本分類器的輸出通過融合算法可以得到集成分類器的結(jié)果。G蛋白偶聯(lián)受體的分類表示為 其中,“comb”表示融合的規(guī)則。本發(fā)明中融合算法選擇算數(shù)平均算法。最終預(yù)測結(jié)果即為fi的最大值。
圖3所述的是本發(fā)明中G蛋白偶聯(lián)受體預(yù)測的工作流程,具體步驟如下 (1)圖3中的Web客戶端用于用戶輸入待測蛋白質(zhì)序列及其類別分類結(jié)果的返回顯示。
(2)圖3中的Servlet組件,采用J2EE規(guī)范編寫。當(dāng)Web客戶端提交了G蛋白偶聯(lián)受體序列數(shù)據(jù)后,在服務(wù)器端,Tomcat獲取請求,調(diào)用了Servlet組件。先驗證輸入數(shù)據(jù)是否為有效數(shù)據(jù)。如是,輸入預(yù)測組件進行預(yù)測。
(3)圖3中的預(yù)測器組件同圖1中的G蛋白偶聯(lián)受體預(yù)測模型協(xié)同工作。當(dāng)Servlet響應(yīng)Tomcat請求并驗證數(shù)據(jù)正確后,調(diào)用預(yù)測器組件。預(yù)測器組件通過matlab引擎Matlabfor java調(diào)用核心函數(shù)進行預(yù)測。
(4)圖1中的G蛋白偶聯(lián)受體預(yù)測模型核心代碼為Matlab語言編碼。運行結(jié)果通過預(yù)測組件和Servlet組件返回到Web客戶端。
用戶在客戶端輸入待測蛋白質(zhì)序列; 在服務(wù)器端,Tomcat獲取請求,調(diào)用Servlet組件; 當(dāng)Servlet響應(yīng)Tomcat請求并驗證數(shù)據(jù)正確后,調(diào)用預(yù)測器組件; 預(yù)測器組件通過matlab引擎Matlab for java調(diào)用分類器函數(shù)進行預(yù)測;結(jié)果返回到Web客戶端。
權(quán)利要求
1.一種G蛋白偶聯(lián)受體超類的識別方法,包括樣本采集、樣本序列數(shù)字化、樣本序列特征提取和樣本分類,其特征在于所述的識別方法采用G蛋白偶聯(lián)受體樣本的一階簽名模型來表示所述G蛋白偶聯(lián)受體樣本;采用離散二進制粒子群算法來提取所述G蛋白偶聯(lián)受體樣本的有效特征;采用基于模糊神經(jīng)網(wǎng)絡(luò)的集成分類器模型來完成所述G蛋白偶聯(lián)受體樣本的分類;并包括以下步驟
(1)基于權(quán)威的所述G蛋白偶聯(lián)受體的數(shù)據(jù)庫,通過計算機提取所述G蛋白偶聯(lián)受體的序列作為訓(xùn)練樣本;
(2)采用所述G蛋白偶聯(lián)受體序列中出現(xiàn)二肽的頻率的一階簽名編碼方法,記為
其中,pi和fi分別表示蛋白質(zhì)一階簽名出現(xiàn)的頻率和頻數(shù),L表示蛋白質(zhì)序列的長度;用一個4200維的向量表示一個蛋白質(zhì)序列;
(3)在一個L維空間中,初始化生成m個粒子的群體,每一個粒子都有自己的位置和速度,定義粒子Xi的飛行速度為Vi=(vi1,vi2,...,viL),i=1,2,...,m,也是L維的向量;
(4)得到每一個粒子的適應(yīng)度值
fitness=Ac-k*nNewFeature/nAllFeature
其中,Ac是訓(xùn)練集合在分類算法上的Jackknife測試準(zhǔn)確率,nNewFeature是被選中的特征數(shù),nAllFeature是全體特征數(shù),k是表示被選擇的特征數(shù)在全體特征中所占比例的參數(shù);
(5)每一次迭代中,粒子通過兩個“極值”來更新自己的位置,粒子的速度更新方程為
其中pbest是個體極值點,gbest是全局最優(yōu)解;C1、C2是加速因子,分別調(diào)節(jié)向全局最優(yōu)粒子和個體最好粒子方向飛行的步長;將L維空間中粒子位置的每一維限制為1或者0;所有表示蛋白質(zhì)序列的特征組成一個特征空間,在這個空間中,如果粒子的第i維xi=1,則該特征空間中的第i特征被選中;如果xi=0,則該特征不被選中;
(6)根據(jù)粒子的速度來更新粒子的位置
其中,a是表示粒子更新的參數(shù);
(7)采用以下集成分類器
其中,C表示集成分類器,Gi{DiAAS(p=i)},i=1,2,…,p表示基本分類器,輸入數(shù)據(jù)是具有不同距離的氨基酸對組成,符號
是結(jié)合操作符;
(8)框架中基本分類算法是模糊神經(jīng)網(wǎng)絡(luò)分類器,每一個基本分類器的輸出產(chǎn)生k個類別的模糊隸屬度,k是G蛋白偶聯(lián)受體的分類數(shù)目,因此,可以得到模糊隸屬度矩陣
基本分類器的輸出通過融合算法可以得到集成分類器的結(jié)果,G蛋白偶聯(lián)受體的分類表示為
其中,i=1,2,…,k,“comb”表示融合的規(guī)則。
2.根據(jù)權(quán)利要求1所述的一種G蛋白偶聯(lián)受體超類的識別方法,其特征在于所述步驟(4)中的k是0.1;所述步驟(5)中的C1、C2是加速因子,其值為2;所述步驟(6)中的a=1;所述步驟(8)中的融合算法選擇算數(shù)平均算法,最終預(yù)測結(jié)果即為fi的最大值,
3.一種G蛋白偶聯(lián)受體超類的識別方法的Web服務(wù)系統(tǒng),其特征在于所述的服務(wù)系統(tǒng)采用根據(jù)權(quán)利要求1所述的G蛋白偶聯(lián)受體超類識別方法,當(dāng)Web客戶端輸入待測蛋白質(zhì)序列,服務(wù)器端Tomcat獲取請求并調(diào)用Servlet組件,所述Servlet響應(yīng)Tomcat請求并驗證數(shù)據(jù)正確后,調(diào)用預(yù)測器組件,所述預(yù)測器組件通過matlab引擎Matlab for java調(diào)用分類器函數(shù)進行預(yù)測,結(jié)果返回到所述Web客戶端。
全文摘要
本發(fā)明涉及一種G蛋白偶聯(lián)受體超類的識別方法及其Web服務(wù)系統(tǒng),所述的方法采用G蛋白偶聯(lián)受體樣本的一階簽名模型來表示G蛋白偶聯(lián)受體樣本;采用離散二進制粒子群算法來提取G蛋白偶聯(lián)受體樣本的有效特征;采用基于模糊神經(jīng)網(wǎng)絡(luò)的集成分類器模型來完成G蛋白偶聯(lián)受體樣本的分類。該方法具有分類精度高、速度快等特點。由預(yù)報器載入該識別模型,輸入數(shù)據(jù)傳輸器將Web客戶端提交的G蛋白偶聯(lián)受體序列,輸出G蛋白偶聯(lián)受體分類的預(yù)測結(jié)果,通過Servlet組件返回到Web客戶端。本發(fā)明能夠基于普通的Web用戶預(yù)測G蛋白偶聯(lián)受體的類別。
文檔編號G06F19/00GK101609486SQ20091005513
公開日2009年12月23日 申請日期2009年7月21日 優(yōu)先權(quán)日2009年7月21日
發(fā)明者丁永生, 全 顧 申請人:東華大學(xué)