本發(fā)明涉及生物信息學、蛋白質(zhì)偽氨基酸成分和傳統(tǒng)的蛋白質(zhì)序列分析技術領域,尤其涉及一種新的基于基因本體信息的蛋白質(zhì)序列表示方法。
背景技術:
隨著近二十年來測序技術的進步,生物信息學進入到后基因組時代。如何分析數(shù)以億計的基因組序列,如蛋白質(zhì)工作于哪些亞細胞、具有何種功能、具有什么樣的二級結(jié)構(gòu)、三級結(jié)構(gòu)和四級結(jié)構(gòu),這些基因又是如何使生命體具有活性,哪些蛋白質(zhì)可能是潛在的藥物靶標等一系列的問題的答案,是當前研究的熱點。
由于上述問題采用生物實驗技術存在費時費力的原因,生物信息學近年得到了極大發(fā)展,一系列在線預測器面世。雖然這些預測器所預測的結(jié)果還需要生物實驗進行驗證,但預測的結(jié)果對生物學家還是具有很大的幫助,如縮小實驗的范圍,對基因藥物設計進行輔助作用等。
這些預測器有些是基于序列信息的,有些是基于結(jié)構(gòu)信息,還有些是基于最新的測序信息。基于序列信息的預測器的預測效果一般比基于結(jié)構(gòu)信息的低,但其所需信息大都存在所以得到極大的發(fā)展。在基于序列信息的預測器中大都采用偽氨基酸成分來描述蛋白質(zhì)序列,這些偽氨基酸成分如:二聯(lián)體成分、三聯(lián)體成分、灰色理論因子、復雜度因子等有的能很好的描述蛋白質(zhì)序列局部氨基酸順序信息,有的能很好的描述蛋白質(zhì)序列的全局氨基酸順序信息,對基于序列的蛋白質(zhì)結(jié)構(gòu)和功能分類預測都起到了積極作用。
近年隨著基因本體論的出現(xiàn),它已經(jīng)成為生物信息領域中一個極為重要的方法和工具,極大的加深了我們對生物數(shù)據(jù)的整合和利用。采用基因本體(Go Ontology)信息對蛋白質(zhì)結(jié)構(gòu)和功能進行預測比其它方法如功能域和偽氨基酸成分預測效果都要好?;虮倔w涉及的基因和基因產(chǎn)物詞匯分為三大類,涵蓋生物學的三個方面:1)細胞組分;2)分子功能;3)生物過程?;虮倔w庫中所含有的術語也從幾千增加到5萬多?;虮倔w是一個有向無環(huán)圖型的本體,目前GO中使用了is_a、part_of和regulates三種關系?;诨虮倔w信息進行相關預測的方法中常用的是采用0-1離散向量法,蛋白質(zhì)序列如果含有每個基因本體則這個向量對應的元素為1,如果沒有則為0。這種方法僅僅是簡單的計算了有無信息,有些學者對此進行了改進,計算出某個蛋白質(zhì)中具體基因本體出現(xiàn)的次數(shù),這樣就將0-1離散向量改為整數(shù)向量,增加了頻次信息。上述這些方法由于基因本體庫中的詞匯的增加,會造成維數(shù)災難。為此有些學者針對所預測問題與基因本體的相關性,并不采用所有基因本體所有的詞庫,而是采用部分,這樣就減少了離散向量的維度,去掉了些無關信息。
除了采用離散向量方法,還有基于基因本體的語義相似度算法,主要包括基因本體同一分支中的術語相似度計算法和基因本體跨分支術語相似度算法,這些對基因功能分析、比較和預測等生物學研究熱門領域具有非常重要的意義。但由于基因本體術語的急劇增加,這些算法的復雜度和計算時間也增加。
上述方法都是基于對基因本體進行簡單的求和統(tǒng)計或者進行相似性計算,但由于并不是所有的蛋白質(zhì)在GO數(shù)據(jù)庫中都有相關的信息,這是基于GO信息方法的缺陷,為此本發(fā)明將GO信息與其他相似蛋白質(zhì)GO信息相融合,并針對所預測問題的分類數(shù)量,降低GO描述向量方法的維度,設計出一種新的基于GO信息的蛋白質(zhì)序列描述方法對基于序列信息的蛋白質(zhì)功能和結(jié)構(gòu)類型預測等提供幫助。
技術實現(xiàn)要素:
本發(fā)明要解決的技術問題是提供一種新的基于基因本體信息的蛋白質(zhì)序列表示方法,旨在通過其他蛋白質(zhì)GO信息,融合成新的蛋白質(zhì)P的向量描述,以解決蛋白質(zhì)亞細胞對標簽定位預測率較低的問題。
為解決以上技術問題,本發(fā)明的技術方案是:一種新的基于基因本體信息的蛋白質(zhì)序列表示方法,其特征在于包括以下步驟:
(1)使用BLAST程序搜索Swiss-Prot數(shù)據(jù)庫找到蛋白質(zhì)序列P所有的相似蛋白質(zhì)序列;
(2)將訓練數(shù)據(jù)集中所有蛋白質(zhì)輸入到GO數(shù)據(jù)庫中,搜尋每個蛋白質(zhì)所具有的GO本體信息,GO數(shù)據(jù)庫網(wǎng)站為http://www.geneontology.org/;
(3)在基因本體庫中搜尋P蛋白質(zhì)所具有的標注基因本體信息,如果P蛋白質(zhì)沒有相關信息,則按照與P蛋白質(zhì)相似度的高低,依次搜尋相似蛋白質(zhì)序列的GO信息,直到找到至少一個GO本體信息作為P蛋白質(zhì)的GO信息,表示為;
(4)假設P蛋白質(zhì)功能或者其它預測問題具有M個標簽,分別表示為A1,A2,…,AM,將P蛋白質(zhì)定義為M個元素的離散向量,如下式所示:
δ1表示P蛋白質(zhì)屬于第一個標簽的概率,δ2表示P蛋白質(zhì)屬于第二個標簽的概率,依次類推,δM表示P蛋白質(zhì)屬于第M個標簽的概率,它們初始值都為0;
δi(i=1,2,…,M)的計算方法如下:
依次對P蛋白質(zhì)所含有GO信息在訓練數(shù)據(jù)集中找到對應的蛋白質(zhì),如在訓練集中有n個蛋白質(zhì)含有信息的蛋白質(zhì),分別為P1、P2、…、Pn,假設P1所屬的標簽為Ai和Aj,則δi和δj分別加1,P2具有標簽為Ar、At、Ay,則δr、δt、δy分別加1,直至將P蛋白質(zhì)所具有的GO信息按照上述方法計算完畢,這樣就得到了含有GO信息的蛋白質(zhì)描述新方法。
所述方法用于蛋白質(zhì)亞細胞多標簽定位預測中,相關預測器預測絕對成功率提高5~10%。
本發(fā)明提出的方法與現(xiàn)有GO信息方法相比,具有維數(shù)大大降低,現(xiàn)有方法維數(shù)達到上萬,而采用本方法,維數(shù)與所預測的標簽數(shù)一樣,一般也就幾十維,如果所預測的蛋白質(zhì)沒有GO信息,則采用其最相似的蛋白質(zhì)GO信息,擴大了GO信息方法使用的范圍。本方法用于蛋白質(zhì)亞細胞多標簽定位預測和抗菌肽功能多標簽預測中,能明顯提高相關預測器的預測成功率,具有廣闊的運用前景。
具體實施方式
為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結(jié)合實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限定本發(fā)明,此處例子為預測動物蛋白質(zhì)亞細胞多標簽預測算法。
采用本發(fā)明新的基于基因本體信息的蛋白質(zhì)序列表示方法,具體步驟如下:
1)使用BLAST程序搜索Swiss-Prot數(shù)據(jù)庫找到蛋白質(zhì)序列P所有的相似蛋白質(zhì)序列。
可以將蛋白質(zhì)P直接輸入到Swiss-Prot數(shù)據(jù)庫BLAST工具網(wǎng)頁上,其網(wǎng)址為http://www.uniprot.org/blast/,BLAST運行參數(shù)為默認,也可以在NCBI上下載BLAST進行本地配置,本機配置版本:blast-2.2.28+,在蛋白質(zhì)數(shù)據(jù)庫Swiss-Prot中下載所有蛋白質(zhì)序列;如輸入蛋白質(zhì)Q63564,可以得到按照相似度高低排列的一系列相似蛋白質(zhì)Q8BG39、A0A091DVS5、HOVBF0…。
2)將訓練數(shù)據(jù)集中所有蛋白質(zhì)輸入到GO數(shù)據(jù)庫中,搜尋每個蛋白質(zhì)所具有的GO本體信息,GO數(shù)據(jù)庫網(wǎng)站為http://www.geneontology.org/;
如蛋白質(zhì)Q63564具有的GO信息為(GO: 0001669, GO: 0016021,GO:0022857,GO:0030054,GO:0030672,GO:0043195,GO:0055085)。
(3)在基因本體庫中搜尋P蛋白質(zhì)所具有的標注基因本體信息,如果P蛋白質(zhì)沒有相關信息,則按照與P蛋白質(zhì)相似度的高低,依次搜尋相似蛋白質(zhì)序列的GO信息,直到找到至少一個GO本體信息作為P蛋白質(zhì)的GO信息,表示為。
由于Q63564在數(shù)據(jù)庫中已經(jīng)有其基因本體信息,如果其沒有可以按照第一步得到的相似度高的序列順序,依次尋找Q8BG39、A0A091DVS5、HOVBF0…這些序列的基因本體信息作為Q63564序列的本體信息。
(4)現(xiàn)有數(shù)據(jù)庫中動物蛋白質(zhì)亞細胞多標簽預測中,亞細胞為20種,P蛋白質(zhì)亞細胞定位具有20個標簽,分別表示為A1,A2,…,A20,將P蛋白質(zhì)定義為20個元素的離散向量,如下式所示:
δ1表示P蛋白質(zhì)屬于第一個標簽的概率,δ2表示P蛋白質(zhì)屬于第二個標簽的概率,依次類推,δ20表示P蛋白質(zhì)屬于第20個標簽的概率,它們初始值都為0;
δi(i=1,2,…,20)的計算方法如下:
依次對P蛋白質(zhì)Q63564所含有GO信息(GO: 0001669, GO: 0016021,GO:0022857,GO:0030054,GO:0030672,GO:0043195,GO:0055085 )在訓練數(shù)據(jù)集中找到含有這些GO信息的蛋白質(zhì),如在訓練集中含有基因本體GO:0001669的蛋白質(zhì)為Q29108、Q32PB3、Q6AXZ6、Q29016、Q63053、A0JN61、P79136、Q63053、P79136、Q29016、Q6AXZ6、Q32PB3、Q29108、Q63053,分別為P1、P2、…、P14,P1Q29108所屬的標簽為1,則δ1加1,P2Q32PB3具有的標簽為1、2和18,所以δ1、δ2和δ18分別加1,P3Q6AXZ6具有標簽為1,則δ1加1,P4Q29016具有標簽1,則δ1加1,P5Q63053具有標簽2、5、6、7、9、18、20,則,δ2、δ5、δ6、δ7、δ9、δ18、δ20分別加1,P6A0JN61具有的標簽為2和18,則δ2和δ18加1,直至將P蛋白質(zhì)Q63564所具有的GO信息按照上述方法計算完畢,這樣就得到了含有GO信息的蛋白質(zhì)Q63564描述新方法。
所述方法用于蛋白質(zhì)亞細胞多標簽定位預測中,相關預測器預測絕對成功率提高8%。
以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應包含在本發(fā)明的保護范圍之內(nèi)。