1.一種人類蛋白質(zhì)亞細胞位置預測方法,基于人類蛋白質(zhì)序列預測蛋白質(zhì)亞細胞位置,其特征在于,包括以下步驟:
第一步:利用人類蛋白質(zhì)序列信息分別提取序列全長,序列N端,C端多個蛋白質(zhì)序列片段的殘基統(tǒng)計特征,其中包括氨基酸組成成分特征和利用蛋白質(zhì)同源信息所獲得的特異性打分矩陣特征并對該特征進行歸一化處理,在綜合這兩個特征之后使用Correlation-based Feature Selection這種有監(jiān)督的特征選擇算法進行降維;
第二步:通過提取蛋白質(zhì)數(shù)據(jù)庫中所有人類蛋白質(zhì)的GO特征,利用GOSSTO獲取GO(BP,MF,CC)特征空間三個相似度矩陣;
第三步:通過blast方法在Swiss-Prot數(shù)據(jù)庫中搜索同源蛋白,提取所述同源蛋白的GO特征,同時用相同的方法獲取訓練集中蛋白質(zhì)的GO特征;
第四步:將蛋白質(zhì)GO特征的三個部分(BP,MF,CC)通過一元組,二元組,三元組劃分為7個部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);
第五步:通過蛋白質(zhì)GO特征的相關(guān)性,分成七個部分來計算兩個蛋白質(zhì)的相關(guān)性,并通過參數(shù)優(yōu)化,提取訓練集中十個相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個亞細胞位置上的概率值;
第六步:通過rps-blast來獲得Swiss-Prot數(shù)據(jù)庫中所有人類蛋白質(zhì)的保守域特征,并通過信息差計算特征之間的相關(guān)性,得到保守域特征相似度矩陣,然后通過rps-blast來獲得目標蛋白質(zhì)的保守域特征來計算兩個蛋白質(zhì)的相關(guān)性,并通過參數(shù)優(yōu)化,提取訓練集中十個相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個亞細胞位置上的概率值;
第七步:融合所獲得的序列特征,GO七個部分的概率特征,保守域概率特征,使用Binary Relevance策略搭建可以預測中心體,細胞質(zhì),細胞骨架,內(nèi)質(zhì)網(wǎng),內(nèi)體,分泌途徑,高爾基體,溶酶體,線粒體,細胞核,過氧化物酶體和細胞膜這12個亞細胞位置的SVM分類器。
2.一種人類蛋白質(zhì)亞細胞位置預測方法,基于人類蛋白質(zhì)序列預測蛋白質(zhì)亞細胞位置,其特征在于,包括以下步驟:
S101,利用人類蛋白質(zhì)序列信息分別提取序列全長,N端前10到60,C端前10到100長度蛋白質(zhì)序列片段的氨基酸組成成分特征,歸一化后的PSSM矩陣特征,并使用CFS降維,其中PSSM矩陣歸一化并在每部分轉(zhuǎn)化為20維特征的公式為:
其中Si,j表示出現(xiàn)在序列的第i個(1≤i≤L)位置上的氨基酸在進化過程中演變成第j種(1≤j≤20)氨基酸的概率評分,L表示蛋白質(zhì)序列的長度,
S0i,j表示了歸一化后這個特異性打分矩陣的分數(shù),N表示了氨基酸的數(shù)目,在公式(2)中N=20,
其中表示的是對每列分數(shù)進行相加并求取平均后的值;
就是經(jīng)過歸一化處理后的PSSM矩陣特征;
S102,通過提取Swiss-Prot數(shù)據(jù)庫中所有人類蛋白質(zhì)的GO特征,利用GOSSTO獲取GO(BP,MF,CC)特征空間三個相似度矩陣;
S103,通過blast方法在Swiss-Prot數(shù)據(jù)庫中搜索同源蛋白,提取他們的GO特征,同時用相同的方法獲取訓練集中蛋白質(zhì)的GO特征;
S104,將蛋白質(zhì)GO特征的三個部分(BP,MF,CC)通過一元組,二元組,三元組劃分為7個部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);
S105,通過蛋白質(zhì)GO特征的相關(guān)性,分成七個部分來計算兩個蛋白質(zhì)的相關(guān)性:
其中Cor(xi,K)代表了xi所代表的GO注釋特征與第K個蛋白質(zhì)在這個部分下的相關(guān)性,
其中Simk表示訓練集中第K個蛋白質(zhì)與我們所預測的蛋白質(zhì)之間的相關(guān)性,
在得到所有訓練集中蛋白質(zhì)與所預測的蛋白質(zhì)之間的相關(guān)性之后,提取訓練集中十個相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個亞細胞位置上的概率值:
其中numa和num分別表示在訓練集中,蛋白質(zhì)處于第a個亞細胞位置的個數(shù)和訓練集中蛋白質(zhì)的總個數(shù)。而proa則表示所預測的蛋白質(zhì)處在第a個亞細胞位置的概率。
S106,通過rps-blast來獲得Swiss-Prot數(shù)據(jù)庫中所有人類蛋白質(zhì)的保守域特征,并通過信息差計算特征之間的相關(guān)性:
其中H(ficdd)表示第i個CDD特征的熵,p(ficdd=1)表示第i個CDD特征存在于蛋白質(zhì)訓練集中的概率。H(fjcdd,ficdd)表示第i個特征和第j個特征他們的微分熵,Si,jcdd代表了第i個CDD特征與第j個CDD特征之間的相關(guān)性,
得到保守域特征相似度矩陣,然后通過rps-blast來獲得目標蛋白質(zhì)的保守域特征來計算兩個蛋白質(zhì)的相關(guān)性,并提取訓練集中十個相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個亞細胞位置上的概率值;
S107,融合所獲得的序列特征,GO七個部分的概率特征,保守域概率特征,使用Binary Relevance策略搭建12個SVM分類器預測蛋白質(zhì)的亞細胞位置,和在每個亞細胞位置上的概率。