一種新的融合遺傳信息的蛋白質(zhì)訓練集非平衡問題的解決方法

文檔序號：8922845閱讀：323來源：國知局

一種新的融合遺傳信息的蛋白質(zhì)訓練集非平衡問題的解決方法
【技術領域】
[0001] 本發(fā)明涉及生物信息學、蛋白質(zhì)偽氨基酸成分和傳統(tǒng)的蛋白質(zhì)序列分析技術領域，尤其涉及一種新的融合遺傳信息的蛋白質(zhì)訓練集非平衡問題的解決方法。
【背景技術】
[0002] 隨著人類基因組的測序完成，生物信息學進入了一個新的發(fā)展階段一一后基因組時代?；蚪M計劃已產(chǎn)生數(shù)以億計的基因組序列，如何從這些序列中找尋生命是如何起源的、又是如何進化、這些基因又是如何使生命體具有活性等一系列的問題的答案，是當前研宄的熱點。分析這些基因序列可以從多個層次，如堿基序列、蛋白質(zhì)、基因組等，由于許多生物表型性質(zhì)以及基因調(diào)控都是由蛋白質(zhì)的氨基酸序列所決定，分析氨基酸序列有一定的優(yōu) 勢。
[0003] 蛋白質(zhì)序列是由20種氨基酸組成的一維字符序列，要得出更多的隱含在其中的生物特性非常困難，為此人們設計了許多種偽氨基酸成分采用向量方式來描述蛋白質(zhì)序列，這些偽氨基酸成分如：二聯(lián)體成分、三聯(lián)體成分、灰色理論因子、復雜度因子等有的能很好的描述蛋白質(zhì)序列局部氨基酸順序信息，有的能很好的描述蛋白質(zhì)序列的全局氨基酸順序信息，對基于序列的蛋白質(zhì)結構和功能分類預測都起到了積極作用。
[0004] 在基于蛋白質(zhì)序列信息研宄蛋白質(zhì)功能和結構類型預測中，第一步要做的就是建立可靠的訓練集，由于相關生物實驗所得到的訓練集大多都是非平衡的，某些類的樣本數(shù) 目遠遠少于其他類的樣本數(shù)目?，F(xiàn)有解決非平衡問題方法主要包括數(shù)據(jù)層方法和算法層方法：數(shù)據(jù)層方法是指直接對訓練集進行操作，將處理后的訓練樣本用來訓練分類器；算法層方法是對分類算法進行操作，也就是修改已有的分類算法或提出新算法。
[0005] 對數(shù)據(jù)層進行處理主要采用數(shù)據(jù)抽取方法，比如隨機欠抽樣、隨機過抽樣、壓縮最近鄰（CondensedNearestNeighbor,CNN)、托梅克聯(lián)系對（TomekLinks)、單邊選擇（One-SidedSelection，OSS)、可選擇最近鄰法（EditedNearestNeighbor，ENN)、鄰域清理規(guī)則（NeighborhoodCleaningRule，NCR)、基于聚類的過抽樣（Cluster-Based Oversampling，CB0S)、基于錯分樣本的過抽樣（OversamplingBasedonMisclassified Samples， 0BMS)、合成少數(shù)類過抽樣方法（SyntheticMinorityOversampling Technology，SMOTE)、邊緣SMOTE法（Borderline_SM0TE，BSM)等等。隨機過抽樣是通過隨機復制少樣本類別的樣本來增加少樣本類別樣本的規(guī)模，而隨機欠抽樣是隨機地刪除某些多樣本類別來減少多樣本類別樣本的數(shù)目。一般對多數(shù)樣本集采用隨機欠抽樣，或對少數(shù)樣本集采用隨機過抽樣技術來達到非平衡數(shù)據(jù)集中各個子類集的樣本數(shù)量平衡是比較常見的抽樣方法。然而，進行單純的隨機過抽樣和欠抽樣也會帶來不利的影響：隨機過抽樣保留甚至增加了少樣本類別中樣本的分布信息，會使樣本數(shù)極少的類別中部分小類過度擬合，而隨機欠抽樣會使得原始樣本數(shù)本來就比較少的情況下，卻丟失一些重要的樣本，總之，影響模型分類效果。此外，隨機欠抽樣方法可能會丟失訓練樣本中多樣本類別某些樣本的一些隱含信息，所以隨機過抽樣方法相對而言應用的比較廣泛。
[0006]Chawla等提出SMOTE方法是通過在一些距離相近的少數(shù)類樣本中插入新的樣本產(chǎn)生人工樣本來達到數(shù)據(jù)集的平衡。其主要方法是：依次遍歷訓練集中少數(shù)類的每個樣本 S，在少數(shù)類樣本中找到其K個最近鄰樣本，然后根據(jù)過抽樣的倍率N，從K個最近鄰樣本中隨機選擇N個樣本，逐次將N個樣本中的每一條樣本與樣本S之間進行隨機性插值生成人工樣本。SMOTE方法的特點是與過抽樣方法不同，它不是簡單隨機的復制少樣本類別的樣本，而是增加新的并不存在的樣本，因此可以在一定程度上避免分類器過度擬合。
[0007] 上述這些方法都可以用于蛋白質(zhì)序列結構和功能預測解決訓練集非平衡問題，但這些方法都是基于蛋白質(zhì)序列離散模型，也就是先將蛋白質(zhì)序列通過偽氨基酸成分，用離散向量描述蛋白質(zhì)后，對這些離散向量集來進行非平衡處理，雖然偽氨基酸成分能很好的描述蛋白質(zhì)序列信息，但通過偽氨基酸成分還是有許多序列信息被丟失，而且上述操作沒有對應的生物學意義?，F(xiàn)有物種都是從有限的遠古物種進化而來，同樣現(xiàn)有蛋白質(zhì)也是從一些簡單的蛋白質(zhì)進化而來。進化過程中包含了堿基插入或刪除、突變、復制或與其它基因融合等，隨著進化過程的深入，序列間的相似度越來越少，但所對應的蛋白質(zhì)大多還保留同樣的特性，如相同的生物功能、三維結構和亞細胞定位等。為此抽取這些序列進化信息來構成虛擬蛋白質(zhì)擴充訓練集中樣本少的子集是本發(fā)明的創(chuàng)新點。

【發(fā)明內(nèi)容】

[0008] 本發(fā)明要解決的技術問題是提供一種新的融合遺傳信息的蛋白質(zhì)訓練集非平衡問題的解決方法，旨在通過融合蛋白質(zhì)進化信息，直接從序列上進行擴展，解決蛋白質(zhì)訓練集非平衡的問題。
[0009] 為解決以上技術問題，本發(fā)明的技術方案是：一種新的融合遺傳信息的蛋白質(zhì)訓練集非平衡問題的解決方法，其特征在于包括以下步驟： (1) 使用PSI-BLAST程序搜索Swiss-Prot數(shù)據(jù)庫生成蛋白質(zhì)序列P的位置特異打分矩陣PSSM; (2) 將P蛋白基因與NCBI數(shù)據(jù)庫中蛋白質(zhì)序列進行比對，找到蛋白基因P的保守序列； (3) 根據(jù)PSSM矩陣可以知道蛋白質(zhì)序列P中某個位置上的氨基酸突變?yōu)槠渌被岬?概率，將此蛋白保守序列位置上的氨基酸不變，非保守區(qū)域氨基酸按照其突變?yōu)槠渌被?酸概率的大小依次轉換成其它氨基酸，這樣就可以得到20條含有蛋白質(zhì)P遺傳信息的虛擬蛋白質(zhì)； (4) 取這20個虛擬蛋白質(zhì)中的前n個蛋白質(zhì)序列作為訓練集中的序列，通過對非平衡的數(shù)據(jù)集中數(shù)量少的子集進行擴大，使得非平衡數(shù)據(jù)集變?yōu)槠胶鈹?shù)據(jù)集，有利于訓練相關預測器，可提高預測器的預測成功率。
[0010] 所述蛋白質(zhì)序列P的位置特異打分矩陣PSSM的表達公式為：
其中
丨表示蛋白質(zhì)進化過程中蛋白質(zhì)序列第i個位置的氨基酸突變?yōu)榈趈類氨基酸的可能性大小，其值越大表示轉成的可能性越大，j從1到20分別表示氨基酸A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V。
[0011] 所述預測器預測成功率可提高5~10%。
[0012] 本發(fā)明與現(xiàn)有解決非平衡數(shù)據(jù)方法不同，能融合蛋白質(zhì)進化信息，直接從序列上進行擴展，而不是在描述序列信息的離散數(shù)字模型中進行插值，具有明顯的生物學意義，所以能明顯提高相關預測器的預測成功率，具有廣闊的運用前景。
【具體實施方式】
[0013] 為了使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白，以下結合實施例，對本發(fā)明進行進一步詳細說明。應當理解，此處所描述的具體實施例僅用以解釋本發(fā)明，并不用于限定本發(fā)明。
[0014] 采用本發(fā)明融合遺傳信息的蛋白質(zhì)訓練集非平衡解決方法，具體步驟如下： 1)使用PSI-BLAST程序搜索Swiss-Prot數(shù)據(jù)庫生成蛋白質(zhì)序列P的位置特異打分矩陣（PositionSpecificScoringMatrix,PSSM) 給定人類基因蛋白： >AAA61157 MVPSAGQLALFALGIVLAACQALENSTSPLSADPPVAAAVVSHFNDCPDSHTQFCFHATCRFLVHEDKPAC VCHSGYVGARCEHADLLAVVAASQKKQAITALVVVSIVALAVLIITCVLIHC

完整全部詳細技術資料下載

當前第1頁1 2

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯(lián)系技術所有人。
技術研發(fā)人員：肖絢;劉子;
技術所有人：景德鎮(zhèn)陶瓷學院;
我是此專利的發(fā)明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡安全 2.計算機仿真技術
5、王老師：1.網(wǎng)絡安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

蛋白質(zhì)是遺傳物質(zhì)相關技術

蛋白質(zhì)平衡相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種新的融合遺傳信息的蛋白質(zhì)訓練集非平衡問題的解決方法