技術(shù)總結(jié)
本發(fā)明涉及一種新的基于基因本體信息的蛋白質(zhì)序列表示方法,首先使用BLAST程序搜索Swiss?Prot數(shù)據(jù)庫找到蛋白質(zhì)序列P所有的相似蛋白質(zhì)序列,將訓(xùn)練數(shù)據(jù)集中所有蛋白質(zhì)輸入到GO數(shù)據(jù)庫中,搜尋每個(gè)蛋白質(zhì)所具有的GO本體信息;然后在基因本體庫中搜尋P蛋白質(zhì)所具有的標(biāo)注基因本體信息;根據(jù)預(yù)測問題具有的M個(gè)標(biāo)簽,將P蛋白質(zhì)定義為M個(gè)元素的離散向量。本方法通過將序列集中的蛋白質(zhì)GO信息,融合成新的蛋白質(zhì)P的向量描述,使得采用GO方法維度大大降低,用于蛋白質(zhì)亞細(xì)胞多標(biāo)簽定位預(yù)測和抗菌肽功能多標(biāo)簽預(yù)測中,能明顯提高相關(guān)預(yù)測器的預(yù)測成功率,具有廣闊的運(yùn)用前景。
技術(shù)研發(fā)人員:肖絢;程翔
受保護(hù)的技術(shù)使用者:景德鎮(zhèn)陶瓷大學(xué)
文檔號(hào)碼:201710071092
技術(shù)研發(fā)日:2017.02.09
技術(shù)公布日:2017.06.13