一種新的融合遺傳信息的蛋白質(zhì)訓練集非平衡問題的解決方法
【技術領域】
[0001] 本發(fā)明涉及生物信息學、蛋白質(zhì)偽氨基酸成分和傳統(tǒng)的蛋白質(zhì)序列分析技術領 域,尤其涉及一種新的融合遺傳信息的蛋白質(zhì)訓練集非平衡問題的解決方法。
【背景技術】
[0002] 隨著人類基因組的測序完成,生物信息學進入了一個新的發(fā)展階段一一后基因組 時代?;蚪M計劃已產(chǎn)生數(shù)以億計的基因組序列,如何從這些序列中找尋生命是如何起源 的、又是如何進化、這些基因又是如何使生命體具有活性等一系列的問題的答案,是當前研 宄的熱點。分析這些基因序列可以從多個層次,如堿基序列、蛋白質(zhì)、基因組等,由于許多生 物表型性質(zhì)以及基因調(diào)控都是由蛋白質(zhì)的氨基酸序列所決定,分析氨基酸序列有一定的優(yōu) 勢。
[0003] 蛋白質(zhì)序列是由20種氨基酸組成的一維字符序列,要得出更多的隱含在其中的 生物特性非常困難,為此人們設計了許多種偽氨基酸成分采用向量方式來描述蛋白質(zhì)序 列,這些偽氨基酸成分如:二聯(lián)體成分、三聯(lián)體成分、灰色理論因子、復雜度因子等有的能很 好的描述蛋白質(zhì)序列局部氨基酸順序信息,有的能很好的描述蛋白質(zhì)序列的全局氨基酸順 序信息,對基于序列的蛋白質(zhì)結構和功能分類預測都起到了積極作用。
[0004] 在基于蛋白質(zhì)序列信息研宄蛋白質(zhì)功能和結構類型預測中,第一步要做的就是建 立可靠的訓練集,由于相關生物實驗所得到的訓練集大多都是非平衡的,某些類的樣本數(shù) 目遠遠少于其他類的樣本數(shù)目?,F(xiàn)有解決非平衡問題方法主要包括數(shù)據(jù)層方法和算法層方 法:數(shù)據(jù)層方法是指直接對訓練集進行操作,將處理后的訓練樣本用來訓練分類器;算法 層方法是對分類算法進行操作,也就是修改已有的分類算法或提出新算法。
[0005] 對數(shù)據(jù)層進行處理主要采用數(shù)據(jù)抽取方法,比如隨機欠抽樣、隨機過抽樣、壓 縮最近鄰(CondensedNearestNeighbor,CNN)、托梅克聯(lián)系對(TomekLinks)、單邊選 擇(One-SidedSelection,OSS)、可選擇最近鄰法(EditedNearestNeighbor,ENN)、鄰 域清理規(guī)則(NeighborhoodCleaningRule,NCR)、基于聚類的過抽樣(Cluster-Based Oversampling,CB0S)、基于錯分樣本的過抽樣(OversamplingBasedonMisclassified Samples, 0BMS)、合成少數(shù)類過抽樣方法(SyntheticMinorityOversampling Technology,SMOTE)、邊緣SMOTE法(Borderline_SM0TE,BSM)等等。隨機過抽樣是通過隨機 復制少樣本類別的樣本來增加少樣本類別樣本的規(guī)模,而隨機欠抽樣是隨機地刪除某些多 樣本類別來減少多樣本類別樣本的數(shù)目。一般對多數(shù)樣本集采用隨機欠抽樣,或對少數(shù)樣 本集采用隨機過抽樣技術來達到非平衡數(shù)據(jù)集中各個子類集的樣本數(shù)量平衡是比較常見 的抽樣方法。然而,進行單純的隨機過抽樣和欠抽樣也會帶來不利的影響:隨機過抽樣保留 甚至增加了少樣本類別中樣本的分布信息,會使樣本數(shù)極少的類別中部分小類過度擬合, 而隨機欠抽樣會使得原始樣本數(shù)本來就比較少的情況下,卻丟失一些重要的樣本,總之,影 響模型分類效果。此外,隨機欠抽樣方法可能會丟失訓練樣本中多樣本類別某些樣本的一 些隱含信息,所以隨機過抽樣方法相對而言應用的比較廣泛。
[0006]Chawla等提出SMOTE方法是通過在一些距離相近的少數(shù)類樣本中插入新的樣本 產(chǎn)生人工樣本來達到數(shù)據(jù)集的平衡。其主要方法是:依次遍歷訓練集中少數(shù)類的每個樣本 S,在少數(shù)類樣本中找到其K個最近鄰樣本,然后根據(jù)過抽樣的倍率N,從K個最近鄰樣本中 隨機選擇N個樣本,逐次將N個樣本中的每一條樣本與樣本S之間進行隨機性插值生成人 工樣本。SMOTE方法的特點是與過抽樣方法不同,它不是簡單隨機的復制少樣本類別的樣 本,而是增加新的并不存在的樣本,因此可以在一定程度上避免分類器過度擬合。
[0007] 上述這些方法都可以用于蛋白質(zhì)序列結構和功能預測解決訓練集非平衡問題,但 這些方法都是基于蛋白質(zhì)序列離散模型,也就是先將蛋白質(zhì)序列通過偽氨基酸成分,用離 散向量描述蛋白質(zhì)后,對這些離散向量集來進行非平衡處理,雖然偽氨基酸成分能很好的 描述蛋白質(zhì)序列信息,但通過偽氨基酸成分還是有許多序列信息被丟失,而且上述操作沒 有對應的生物學意義?,F(xiàn)有物種都是從有限的遠古物種進化而來,同樣現(xiàn)有蛋白質(zhì)也是從 一些簡單的蛋白質(zhì)進化而來。進化過程中包含了堿基插入或刪除、突變、復制或與其它基因 融合等,隨著進化過程的深入,序列間的相似度越來越少,但所對應的蛋白質(zhì)大多還保留同 樣的特性,如相同的生物功能、三維結構和亞細胞定位等。為此抽取這些序列進化信息來構 成虛擬蛋白質(zhì)擴充訓練集中樣本少的子集是本發(fā)明的創(chuàng)新點。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明要解決的技術問題是提供一種新的融合遺傳信息的蛋白質(zhì)訓練集非平衡 問題的解決方法,旨在通過融合蛋白質(zhì)進化信息,直接從序列上進行擴展,解決蛋白質(zhì)訓練 集非平衡的問題。
[0009] 為解決以上技術問題,本發(fā)明的技術方案是:一種新的融合遺傳信息的蛋白質(zhì)訓 練集非平衡問題的解決方法,其特征在于包括以下步驟: (1) 使用PSI-BLAST程序搜索Swiss-Prot數(shù)據(jù)庫生成蛋白質(zhì)序列P的位置特異打分矩 陣PSSM; (2) 將P蛋白基因與NCBI數(shù)據(jù)庫中蛋白質(zhì)序列進行比對,找到蛋白基因P的保守序列; (3) 根據(jù)PSSM矩陣可以知道蛋白質(zhì)序列P中某個位置上的氨基酸突變?yōu)槠渌被岬?概率,將此蛋白保守序列位置上的氨基酸不變,非保守區(qū)域氨基酸按照其突變?yōu)槠渌被?酸概率的大小依次轉換成其它氨基酸,這樣就可以得到20條含有蛋白質(zhì)P遺傳信息的虛擬 蛋白質(zhì); (4) 取這20個虛擬蛋白質(zhì)中的前n個蛋白質(zhì)序列作為訓練集中的序列,通過對非平衡 的數(shù)據(jù)集中數(shù)量少的子集進行擴大,使得非平衡數(shù)據(jù)集變?yōu)槠胶鈹?shù)據(jù)集,有利于訓練相關 預測器,可提高預測器的預測成功率。
[0010] 所述蛋白質(zhì)序列P的位置特異打分矩陣PSSM的表達公式為:
其中
丨表示蛋白質(zhì)進化過程中蛋白質(zhì)序列第i個位置的氨基酸 突變?yōu)榈趈類氨基酸的可能性大小,其值越大表示轉成的可能性越大,j從1到20分別表 示氨基酸A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V。
[0011] 所述預測器預測成功率可提高5~10%。
[0012] 本發(fā)明與現(xiàn)有解決非平衡數(shù)據(jù)方法不同,能融合蛋白質(zhì)進化信息,直接從序列上 進行擴展,而不是在描述序列信息的離散數(shù)字模型中進行插值,具有明顯的生物學意義,所 以能明顯提高相關預測器的預測成功率,具有廣闊的運用前景。
【具體實施方式】
[0013] 為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,以下結合實施例,對本發(fā)明 進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不用于限 定本發(fā)明。
[0014] 采用本發(fā)明融合遺傳信息的蛋白質(zhì)訓練集非平衡解決方法,具體步驟如下: 1)使用PSI-BLAST程序搜索Swiss-Prot數(shù)據(jù)庫生成蛋白質(zhì)序列P的位置特異打分矩 陣(PositionSpecificScoringMatrix,PSSM) 給定人類基因蛋白: >AAA61157 MVPSAGQLALFALGIVLAACQALENSTSPLSADPPVAAAVVSHFNDCPDSHTQFCFHATCRFLVHEDKPAC VCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSIVALAVLIITCVLIHC