本發(fā)明屬于生物信息技術(shù)領(lǐng)域,特別涉及一種人類蛋白質(zhì)亞細(xì)胞位置預(yù)測(cè)的方法。
背景技術(shù):
了解蛋白質(zhì)的亞細(xì)胞位置對(duì)于理解蛋白質(zhì)的功能、蛋白質(zhì)間的相互作用,以及藥物的靶向治療具有重要的意義。然而目前利用實(shí)驗(yàn)檢驗(yàn)的方法來(lái)獲取蛋白質(zhì)的亞細(xì)胞位置需要很大的時(shí)間和成本。因此利用蛋白質(zhì)亞細(xì)胞位置預(yù)測(cè)工具來(lái)對(duì)大量的蛋白質(zhì)進(jìn)行預(yù)測(cè)具有重要意義。根據(jù)我們的統(tǒng)計(jì),在2016年二月份發(fā)布的SWISS-PROT蛋白質(zhì)數(shù)據(jù)庫(kù)上一共有550552條蛋白質(zhì),其中只有10.4%的蛋白質(zhì)具有實(shí)驗(yàn)驗(yàn)證的亞細(xì)胞位置,剩下的未知亞細(xì)胞位置的蛋白質(zhì)急需通過(guò)一種可靠的預(yù)測(cè)方法來(lái)預(yù)測(cè)。
到目前為止,已經(jīng)有很多能夠預(yù)測(cè)蛋白質(zhì)亞細(xì)胞位置的工具,常見(jiàn)的網(wǎng)絡(luò)服務(wù)器包括BaCeLlo,YLoc,MultiLoc,GOASVM,WoLF PSORT,CellPLoc,HSLPred等等。這些預(yù)測(cè)工具給相關(guān)領(lǐng)域的生物學(xué)家?guī)?lái)了極大的便利。
蛋白質(zhì)的亞細(xì)胞位置信息經(jīng)常被用在疾病的基因治療,藥物靶向治療上。例如通過(guò)檢查在腫瘤中蛋白質(zhì)YAP的表達(dá)和亞細(xì)胞定位來(lái)研究Hippo/YAP途徑在小兒肝細(xì)胞癌演變中的作用。所以,一個(gè)易于使用的高精度預(yù)測(cè)工具將非常有助于這些實(shí)驗(yàn)室進(jìn)行臨床研究。我們以前發(fā)布的網(wǎng)絡(luò)服務(wù)器Hum-mPLoc2.0是專門(mén)為預(yù)測(cè)人類蛋白質(zhì)定位而設(shè)計(jì)的。每年使用的次數(shù)已從2010年的2萬(wàn)次增加到2015年的8萬(wàn)多次。這表明為了提供更好的預(yù)測(cè)服務(wù),基于新技術(shù)和更全面精準(zhǔn)的注釋數(shù)據(jù)庫(kù)來(lái)進(jìn)一步增強(qiáng)預(yù)測(cè)能力具有重要意義。
通常,用于預(yù)測(cè)蛋白質(zhì)亞細(xì)胞定位的計(jì)算方法可以分為兩類,即基于同源性搜索的方法和基于機(jī)器學(xué)習(xí)的方法?;谕葱运阉鞯姆椒梢员徽J(rèn)為是利用最近鄰方法來(lái)進(jìn)行預(yù)測(cè),在該方法中兩個(gè)蛋白質(zhì)之間的距離通常通過(guò)它們的序列同源性來(lái)衡量。通過(guò)計(jì)算查詢蛋白質(zhì)與大量已有亞細(xì)胞位置注釋信息的序列的同源性,該方法找到前K個(gè)最相似的蛋白質(zhì),并將它們的注釋信息傳遞給所要預(yù)測(cè)的蛋白質(zhì)作為分類結(jié)果?;谕葱运阉鞯姆椒ㄊ且环N比較直接的預(yù)測(cè)方法,但是它的性能顯著取決于是否能夠找到相似度高已有亞細(xì)胞位置信息注釋的同源序列,此外,有些時(shí)候兩個(gè)蛋白質(zhì)序列之間的相似度高但是他們可具有非常不同的結(jié)構(gòu)或功能,這會(huì)導(dǎo)致該方法的失效。
基于機(jī)器學(xué)習(xí)的預(yù)測(cè)器是蛋白質(zhì)亞細(xì)胞位置預(yù)測(cè)中的一類較為靈活模型。它們需要所謂的訓(xùn)練數(shù)據(jù)集,然后通過(guò)基于統(tǒng)計(jì)學(xué)習(xí)的算法來(lái)學(xué)習(xí)分類規(guī)則。因此,訓(xùn)練數(shù)據(jù)的質(zhì)量與所學(xué)習(xí)的統(tǒng)計(jì)規(guī)則的質(zhì)量密切相關(guān)。受益于蛋白質(zhì)數(shù)據(jù)庫(kù)中關(guān)于亞細(xì)胞位置信息越來(lái)越多并且越來(lái)越可靠的注釋,我們可以通過(guò)收集大規(guī)模訓(xùn)練數(shù)據(jù)以便于更充分地訓(xùn)練分類模型。在機(jī)器學(xué)習(xí)模型中的另一個(gè)重要問(wèn)題是如何編碼蛋白質(zhì)序列,因?yàn)榇蠖鄶?shù)算法需要提取特征向量作為輸入,如何從原始蛋白質(zhì)序列以及相關(guān)聯(lián)的現(xiàn)有知識(shí)中提取特征對(duì)于分類器的最終性能是至關(guān)重要的。用于預(yù)測(cè)亞細(xì)胞位置的現(xiàn)有機(jī)器學(xué)習(xí)工具使用各種特征如下:
(1)基于殘基的統(tǒng)計(jì)特征,偽氨基酸組成和位置特異性評(píng)分矩陣。
(2)基于信號(hào)肽,功能域的特征。
(3)基于數(shù)據(jù)庫(kù)注釋的特征,例如基因本體論(GO)特征。
由于GO特征是對(duì)領(lǐng)域知識(shí)的高級(jí)抽象,當(dāng)擁有足夠的注釋時(shí),它們通常比基于序列所提取的特征具有更高的準(zhǔn)確性。然而,大量的注釋數(shù)據(jù)帶來(lái)新的算法挑戰(zhàn)。例如,通過(guò)對(duì)每個(gè)GO特征使用伯努利事件模型,即對(duì)于該GO特征是否存在進(jìn)行二進(jìn)制編碼,常常導(dǎo)致極高維的特征空間。隨著GO數(shù)據(jù)庫(kù)的定期擴(kuò)展和更新,維度將隨著我們關(guān)于蛋白質(zhì)的知識(shí)拓展而不斷增加。高維特征向量增加了機(jī)器學(xué)習(xí)過(guò)程的復(fù)雜性,并且我們還考慮到注釋數(shù)據(jù)庫(kù)中的潛在噪聲的影響。雖然整個(gè)GO數(shù)據(jù)庫(kù)是巨大的,但每個(gè)蛋白質(zhì)實(shí)際上只包含幾個(gè)GO特征。根據(jù)我們的統(tǒng)計(jì),在SWISS-PROT數(shù)據(jù)庫(kù)中那些至少具有一個(gè)GO特征的蛋白質(zhì),他們平均擁有6個(gè)GO注釋。也就是說(shuō)一個(gè)蛋白質(zhì)的GO特征是一個(gè)稀疏特征向量,它有數(shù)千個(gè)維度,但只有大約6個(gè)GO注釋。目前領(lǐng)域內(nèi)已經(jīng)針對(duì)這個(gè)問(wèn)題提出了不同的方法來(lái)處理。例如,YLoc僅選擇對(duì)于特定亞細(xì)胞位置具有明顯相關(guān)性的GO注釋和PROSITE模式。因此,它減少了不必要的特征,并使得結(jié)果更易于理解,但是這樣也會(huì)導(dǎo)致信息丟失。WegoLoc為每個(gè)GO特征分配權(quán)重來(lái)突出有用的GO特征。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種人類蛋白質(zhì)亞細(xì)胞位置預(yù)測(cè)方法,目的在于通過(guò)利用注釋特征之間潛在相關(guān)性信息來(lái)提高人類蛋白質(zhì)亞細(xì)胞分類器的預(yù)測(cè)精度。
一種人類蛋白質(zhì)亞細(xì)胞位置預(yù)測(cè)方法,基于人類蛋白質(zhì)序列預(yù)測(cè)蛋白質(zhì)亞細(xì)胞位置,包括以下步驟:
第一步:利用人類蛋白質(zhì)序列信息分別提取序列全長(zhǎng),序列N端,C端多個(gè)蛋白質(zhì)序列片段的殘基統(tǒng)計(jì)特征,其中包括氨基酸組成成分特征和利用蛋白質(zhì)同源信息所獲得的特異性打分矩陣特征并對(duì)該特征進(jìn)行歸一化處理,在綜合這兩個(gè)特征之后使用Correlation-based Feature Selection這種有監(jiān)督的特征選擇算法進(jìn)行降維;
第二步:通過(guò)提取蛋白質(zhì)數(shù)據(jù)庫(kù)中所有人類蛋白質(zhì)的GO特征,利用GOSSTO獲取GO(BP,MF,CC)特征空間三個(gè)相似度矩陣;
第三步:通過(guò)blast方法在Swiss-Prot數(shù)據(jù)庫(kù)中搜索同源蛋白,提取所述同源蛋白的GO特征,同時(shí)用相同的方法獲取訓(xùn)練集中蛋白質(zhì)的GO特征;
第四步:將蛋白質(zhì)GO特征的三個(gè)部分(BP,MF,CC)通過(guò)一元組,二元組,三元組劃分為7個(gè)部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);
第五步:通過(guò)蛋白質(zhì)GO特征的相關(guān)性,分成七個(gè)部分來(lái)計(jì)算兩個(gè)蛋白質(zhì)的相關(guān)性,并通過(guò)參數(shù)優(yōu)化,提取訓(xùn)練集中十個(gè)相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個(gè)亞細(xì)胞位置上的概率值;
第六步:通過(guò)rps-blast來(lái)獲得Swiss-Prot數(shù)據(jù)庫(kù)中所有人類蛋白質(zhì)的保守域特征,并通過(guò)信息差計(jì)算特征之間的相關(guān)性,得到保守域特征相似度矩陣,然后通過(guò)rps-blast來(lái)獲得目標(biāo)蛋白質(zhì)的保守域特征來(lái)計(jì)算兩個(gè)蛋白質(zhì)的相關(guān)性,并通過(guò)參數(shù)優(yōu)化,提取訓(xùn)練集中十個(gè)相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個(gè)亞細(xì)胞位置上的概率值;
第七步:融合所獲得的序列特征,GO七個(gè)部分的概率特征,保守域概率特征,使用Binary Relevance策略搭建可以預(yù)測(cè)中心體,細(xì)胞質(zhì),細(xì)胞骨架,內(nèi)質(zhì)網(wǎng),內(nèi)體,分泌途徑,高爾基體,溶酶體,線粒體,細(xì)胞核,過(guò)氧化物酶體和細(xì)胞膜這12個(gè)亞細(xì)胞位置的SVM分類器。
一種人類蛋白質(zhì)亞細(xì)胞位置預(yù)測(cè)方法,基于人類蛋白質(zhì)序列預(yù)測(cè)蛋白質(zhì)亞細(xì)胞位置,包括以下步驟:
S101,利用人類蛋白質(zhì)序列信息分別提取序列全長(zhǎng),N端前10到60,C端前10到100長(zhǎng)度蛋白質(zhì)序列片段的氨基酸組成成分特征,歸一化后的PSSM矩陣特征,并使用CFS降維,其中PSSM矩陣歸一化并在每部分轉(zhuǎn)化為20維特征的公式為:
其中Si,j表示出現(xiàn)在序列的第i個(gè)(1≤i≤L)位置上的氨基酸在進(jìn)化過(guò)程中演變成第j種(1≤j≤20)氨基酸的概率評(píng)分,L表示蛋白質(zhì)序列的長(zhǎng)度。
表示了歸一化后這個(gè)特異性打分矩陣的分?jǐn)?shù),這個(gè)的N表示了氨基酸的數(shù)目,所以在公式2中N等于20。
其中表示的是對(duì)每列分?jǐn)?shù)進(jìn)行相加并求取平均后的值;
就是我們所得到的經(jīng)過(guò)歸一化處理后的PSSM矩陣特征。
S102,通過(guò)提取Swiss-Prot數(shù)據(jù)庫(kù)中所有人類蛋白質(zhì)的GO特征,利用GOSSTO獲取GO(BP,MF,CC)特征空間三個(gè)相似度矩陣;
S103,通過(guò)blast方法在Swiss-Prot數(shù)據(jù)庫(kù)中搜索同源蛋白,提取他們的GO特征,同時(shí)用相同的方法獲取訓(xùn)練集中蛋白質(zhì)的GO特征;
S104,將蛋白質(zhì)GO特征的三個(gè)部分(BP,MF,CC)通過(guò)一元組,二元組,三元組劃分為7個(gè)部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);
S105,通過(guò)蛋白質(zhì)GO特征的相關(guān)性,分成七個(gè)部分來(lái)計(jì)算兩個(gè)蛋白質(zhì)的相關(guān)性:
其中Cor(xi,K)代表了xi所代表的GO注釋特征與第K個(gè)蛋白質(zhì)在這個(gè)部分下的相關(guān)性。
其中Simk表示訓(xùn)練集中第K個(gè)蛋白質(zhì)與我們所預(yù)測(cè)的蛋白質(zhì)之間的相關(guān)性。
在得到所有訓(xùn)練集中蛋白質(zhì)與所預(yù)測(cè)的蛋白質(zhì)之間的相關(guān)性之后,我們提取訓(xùn)練集中十個(gè)相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個(gè)亞細(xì)胞位置上的概率值:
其中numa和num分別表示在訓(xùn)練集中,蛋白質(zhì)處于第a個(gè)亞細(xì)胞位置的個(gè)數(shù)和訓(xùn)練集中蛋白質(zhì)的總個(gè)數(shù)。而proa則表示所預(yù)測(cè)的蛋白質(zhì)處在第a個(gè)亞細(xì)胞位置的概率。
S106,通過(guò)rps-blast來(lái)獲得Swiss-Prot數(shù)據(jù)庫(kù)中所有人類蛋白質(zhì)的保守域特征,并通過(guò)信息差計(jì)算特征之間的相關(guān)性:
其中表示第i個(gè)CDD特征的熵,表示第i個(gè)CDD特征存在于蛋白質(zhì)訓(xùn)練集中的概率。表示第i個(gè)特征和第j個(gè)特征他們的微分熵,代表了第i個(gè)CDD特征與第j個(gè)CDD特征之間的相關(guān)性。
得到保守域特征相似度矩陣,然后通過(guò)rps-blast來(lái)獲得目標(biāo)蛋白質(zhì)的保守域特征來(lái)計(jì)算兩個(gè)蛋白質(zhì)的相關(guān)性,并提取訓(xùn)練集中十個(gè)相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個(gè)亞細(xì)胞位置上的概率值;
S107,融合所獲得的序列特征,GO七個(gè)部分的概率特征,保守域概率特征,使用Binary Relevance策略搭建12個(gè)SVM分類器預(yù)測(cè)蛋白質(zhì)的亞細(xì)胞位置,和在每個(gè)亞細(xì)胞位置上的概率。
在本發(fā)明中,通過(guò)GO相關(guān)信息而不是使用GO在注釋中的頻率來(lái)對(duì)特征向量進(jìn)行編碼。眾所周知,GO特征大體可分為三塊,即生物過(guò)程(BP),分子功能(MF)和細(xì)胞組成(CC)。這三部分特征都是具有層次結(jié)構(gòu)。根據(jù)該層次結(jié)構(gòu),領(lǐng)域內(nèi)提出了定義GO特征之間的語(yǔ)義相似性的許多方法,例如基于信息熵的方法和基于圖論的方法。然而,據(jù)我們所知,目前很少的蛋白質(zhì)亞細(xì)胞位置的預(yù)測(cè)算法考慮了這些GO特征之間的相關(guān)性。這促使我們通過(guò)GO特征之間的隱藏相關(guān)性,以在兩個(gè)高維但稀疏的GO特征向量之間獲得更好的相似性度量。我們提出了一種新的方法,以利用蛋白質(zhì)的注釋特征之間的隱藏相關(guān)性。為了處理由于GO數(shù)據(jù)庫(kù)的不完整性而對(duì)一些需要預(yù)測(cè)的蛋白質(zhì)缺乏GO注釋,我們還結(jié)合統(tǒng)計(jì)蛋白質(zhì)序列殘基特征以及從保守結(jié)構(gòu)域數(shù)據(jù)庫(kù)(CDD)提取的基于肽的功能結(jié)構(gòu)域特征,構(gòu)建了一個(gè)新的預(yù)測(cè)器,稱為Hum-mPLoc3.0,它是以我們以前開(kāi)發(fā)的人類蛋白質(zhì)定位預(yù)測(cè)的預(yù)測(cè)器命名,但賦予了一個(gè)全新的特征表示。
本發(fā)明與現(xiàn)有領(lǐng)域內(nèi)的方法相比,其顯著優(yōu)點(diǎn):
(1)在模型中利用了注釋特征之間潛在的相關(guān)性,有效提高了人類蛋白質(zhì)亞細(xì)胞位置預(yù)測(cè)精度;
(2)整合了序列殘基統(tǒng)計(jì)特征,保守域特征和GO特征,有效提高了人類蛋白質(zhì)亞細(xì)胞位置預(yù)測(cè)精度。
附圖說(shuō)明
圖1是本發(fā)明的人類蛋白質(zhì)序列預(yù)測(cè)方法系統(tǒng)結(jié)構(gòu)圖:
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步的說(shuō)明。
圖1給出了本發(fā)明的人類蛋白質(zhì)序列預(yù)測(cè)方法系統(tǒng)結(jié)構(gòu)圖:
首先通過(guò)蛋白質(zhì)的序列獲得該蛋白質(zhì)的序列殘基統(tǒng)計(jì)特征,保守域特征和GO特征;其次,對(duì)序列殘基統(tǒng)計(jì)特征使用CFS特征選擇方法提取特征子集,對(duì)保守域特征和GO特征通過(guò)計(jì)算分別得到這些特征的相似性度量,使用帶權(quán)值的KNN方法計(jì)算出概率信息,然后將獲得的特征進(jìn)行整合運(yùn)用SVM分類器進(jìn)行分類。下面具體進(jìn)行闡述:
S101,利用人類蛋白質(zhì)序列信息分別提取序列全長(zhǎng),N端前10到60,C端前10到100長(zhǎng)度蛋白質(zhì)序列片段的氨基酸組成成分特征,歸一化后的PSSM矩陣特征,并使用CFS降維,其中PSSM矩陣歸一化并在每部分轉(zhuǎn)化為20維特征的公式為:
其中Si,j表示出現(xiàn)在序列的第i個(gè)(1≤i≤L)位置上的氨基酸在進(jìn)化過(guò)程中演變成第j種(1≤j≤20)氨基酸的概率評(píng)分,L表示蛋白質(zhì)序列的長(zhǎng)度。
表示了歸一化后這個(gè)特異性打分矩陣的分?jǐn)?shù),這個(gè)的N表示了氨基酸的數(shù)目,所以在公式2中N等于20。
其中表示的是對(duì)每列分?jǐn)?shù)進(jìn)行相加并求取平均后的值;
就是我們所得到的經(jīng)過(guò)歸一化處理后的PSSM矩陣特征。
S102,通過(guò)提取Swiss-Prot數(shù)據(jù)庫(kù)中所有人類蛋白質(zhì)的GO特征,利用GOSSTO獲取GO(BP,MF,CC)特征空間三個(gè)相似度矩陣;
S103,通過(guò)blast方法在Swiss-Prot數(shù)據(jù)庫(kù)中搜索同源蛋白,提取他們的GO特征,同時(shí)用相同的方法獲取訓(xùn)練集中蛋白質(zhì)的GO特征;
S104,將蛋白質(zhì)GO特征的三個(gè)部分(BP,MF,CC)通過(guò)一元組,二元組,三元組劃分為7個(gè)部分(BP,MF,CC),(BP&MF,BP&CC,MF&CC),(BP&MF&CC);
S105,通過(guò)蛋白質(zhì)GO特征的相關(guān)性,分成七個(gè)部分來(lái)計(jì)算兩個(gè)蛋白質(zhì)的相關(guān)性:
其中Cor(xi,K)代表了xi所代表的GO注釋特征與第K個(gè)蛋白質(zhì)在這個(gè)部分下的相關(guān)性。
其中Simk表示訓(xùn)練集中第K個(gè)蛋白質(zhì)與我們所預(yù)測(cè)的蛋白質(zhì)之間的相關(guān)性。
在得到所有訓(xùn)練集中蛋白質(zhì)與所預(yù)測(cè)的蛋白質(zhì)之間的相關(guān)性之后,我們提取訓(xùn)練集中十個(gè)相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個(gè)亞細(xì)胞位置上的概率值:
其中numa和num分別表示在訓(xùn)練集中,蛋白質(zhì)處于第a個(gè)亞細(xì)胞位置的個(gè)數(shù)和訓(xùn)練集中蛋白質(zhì)的總個(gè)數(shù)。而proa則表示所預(yù)測(cè)的蛋白質(zhì)處在第a個(gè)亞細(xì)胞位置的概率。
S106,通過(guò)rps-blast來(lái)獲得Swiss-Prot數(shù)據(jù)庫(kù)中所有人類蛋白質(zhì)的保守域特征,并通過(guò)信息差計(jì)算特征之間的相關(guān)性:
其中表示第i個(gè)CDD特征的熵,表示第i個(gè)CDD特征存在于蛋白質(zhì)訓(xùn)練集中的概率。表示第i個(gè)特征和第j個(gè)特征他們的微分熵,代表了第i個(gè)CDD特征與第j個(gè)CDD特征之間的相關(guān)性。
得到保守域特征相似度矩陣,然后通過(guò)rps-blast來(lái)獲得目標(biāo)蛋白質(zhì)的保守域特征來(lái)計(jì)算兩個(gè)蛋白質(zhì)的相關(guān)性,并提取訓(xùn)練集中十個(gè)相關(guān)性高的蛋白質(zhì)做有權(quán)值的KNN方法,獲得該蛋白質(zhì)在每個(gè)亞細(xì)胞位置上的概率值;
S107,融合所獲得的序列特征,GO七個(gè)部分的概率特征,保守域概率特征,使用Binary Relevance策略搭建12個(gè)SVM分類器預(yù)測(cè)蛋白質(zhì)的亞細(xì)胞位置,和在每個(gè)亞細(xì)胞位置上的概率。
實(shí)例:
現(xiàn)有一個(gè)輸入序列,數(shù)據(jù)如下:
>query protein 1;example of multiple subcellular locationsMSAVGAATPYLHHPGDSHSGRVSFLGAQLPPEVAAMARLLGDLDRSTFRKLLKFVVSSLQGEDCREAVQRLGVSANLPEEQLGALLAGMHTLLQQALRLPPTSLKPDTFRDQLQELCIPQDLVGDLASVVFGSQRPLLDSVAQQQGAWLPHVADFRWRVDVAISTSALARSLQPSVLMQLKLSDGSAYRFEVPTAKFQELRYSVALVLKEMADLEKRCERRLQD
此為一個(gè)待測(cè)序列,使用本發(fā)明方法的軟件輸出結(jié)果如下:
從結(jié)果可以看出,本方法有效并且精確的預(yù)測(cè)除了人類這個(gè)蛋白質(zhì)的亞細(xì)胞位置。
上述實(shí)施例不以任何方式限制本發(fā)明,凡是采用等同替換或等效變換的方式獲得的技術(shù)方案均落在本發(fā)明的保護(hù)范圍內(nèi)。