一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法及裝置的制造方法

文檔序號(hào)：10489415閱讀：401來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法及裝置的制造方法
【專利摘要】本發(fā)明涉及一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法及裝置，步驟如下：步驟1)：將給定的樣本數(shù)據(jù)劃分為k個(gè)相互獨(dú)立的子訓(xùn)練集合，根據(jù)每個(gè)訓(xùn)練子集選擇不同的決策樹(shù)，各決策樹(shù)選擇不同的決策屬性構(gòu)成基分類(lèi)器，進(jìn)而各基分類(lèi)器形成隨機(jī)森林；步驟2)：在每個(gè)基分類(lèi)器中，每一個(gè)元組分配設(shè)定的權(quán)重，然后將待分類(lèi)數(shù)據(jù)送入到步驟1)構(gòu)建的隨機(jī)森林中進(jìn)行分類(lèi)，根據(jù)分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果比較調(diào)節(jié)權(quán)重：如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符，則加大該元組的權(quán)值；如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果相符，則減小該元組的權(quán)值；步驟3)：根據(jù)調(diào)整后的各元組的權(quán)重，重新對(duì)待分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)，直到分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果相一致。
【專利說(shuō)明】
一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法及裝置。
【背景技術(shù)】
[0002] 2001年，Leo Breima基于決策樹(shù)理論提出了一種分類(lèi)模型：隨機(jī)森林（Random Forests，簡(jiǎn)稱RF)算法。隨機(jī)森林算法是一種由多個(gè)決策樹(shù)組合而成的組合分類(lèi)器，比單棵決策樹(shù)顯著提高了分類(lèi)精度。隨機(jī)森林分類(lèi)算法可以看成由許多樹(shù)組成的森林，所有的樹(shù) 均參與投票，決定最終的分類(lèi)結(jié)果，每棵樹(shù)的成長(zhǎng)由引入的隨機(jī)變量決定，即隨機(jī)選取分裂屬性和隨機(jī)選取訓(xùn)練樣本，生成決策樹(shù)，所有的樹(shù)均參與投票，再匯總分類(lèi)的結(jié)果。隨機(jī)森林在運(yùn)算量沒(méi)有顯著提高的前提下，提高了預(yù)測(cè)精度。隨機(jī)森林對(duì)高度相關(guān)的變量相互不干擾，簡(jiǎn)化了分類(lèi)算法的設(shè)計(jì)和分類(lèi)系統(tǒng)的泛化誤差。在與SVM支持向量機(jī)的比較后可知，隨機(jī)森林的參數(shù)很少，與Adaboost非常相似。隨機(jī)森林算法其具有較高的分類(lèi)效率，不存在過(guò)擬合的問(wèn)題，并且對(duì)于大數(shù)據(jù)的樣本能夠輕松處理，同時(shí)具有很強(qiáng)的對(duì)抗噪聲的能力，根據(jù)分類(lèi)過(guò)程可以評(píng)估分類(lèi)特征的顯著性;隨機(jī)森林算法以其獨(dú)特的分類(lèi)優(yōu)勢(shì)很快收到廣泛的青睞，在生物信息領(lǐng)域獲得了廣泛的應(yīng)用。
[0003] 然而，由于隨機(jī)森林是由多個(gè)決策樹(shù)組成的集成分類(lèi)器，傳統(tǒng)的隨機(jī)森林中每棵決策樹(shù)的默認(rèn)權(quán)重是相同的，因此傳統(tǒng)隨機(jī)森林算法缺乏對(duì)不平衡性數(shù)據(jù)的分類(lèi)優(yōu)化，造成不平衡數(shù)據(jù)的分類(lèi)性能的精度下降。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是提供基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法，用以解決傳統(tǒng)的隨機(jī)森林分類(lèi)方法中不平衡數(shù)據(jù)的分類(lèi)性能精度不高的計(jì)算問(wèn)題。
[0005] 為實(shí)現(xiàn)上述目的，本發(fā)明的方案包括：
[0006] -種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法，步驟如下：
[0007] 步驟1):將給定的樣本數(shù)據(jù)劃分為K個(gè)相互獨(dú)立的子訓(xùn)練集合，根據(jù)每個(gè)訓(xùn)練子集選擇不同的決策樹(shù)，各決策樹(shù)選擇不同的決策屬性構(gòu)成基分類(lèi)器，進(jìn)而各基分類(lèi)器形成隨機(jī)森林；
[0008] 步驟2):在每個(gè)基分類(lèi)器中，每一個(gè)元組分配設(shè)定的權(quán)重，然后將待分類(lèi)數(shù)據(jù)送入到步驟1)構(gòu)建的隨機(jī)森林中進(jìn)行分類(lèi)，根據(jù)分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果比較調(diào)節(jié)權(quán)重:如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符，則加大該元組的權(quán)值;如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果相符，則減小該元組的權(quán)值；
[0009] 步驟3):根據(jù)調(diào)整后的各元組的權(quán)重，重新對(duì)待分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)，直到分類(lèi)結(jié) 果與預(yù)測(cè)結(jié)果相一致，獲得最優(yōu)的分類(lèi)器，開(kāi)始對(duì)待分類(lèi)數(shù)據(jù)進(jìn)行分類(lèi)。
[0010] 進(jìn)一步的，所述步驟2)中進(jìn)行權(quán)重調(diào)整時(shí)，首先在一個(gè)訓(xùn)練樣本集i中輸出分類(lèi)器 M1，再用訓(xùn)練集D1計(jì)算分類(lèi)器M1的檢驗(yàn)集誤差系數(shù)。
[0011] 進(jìn)一步的，所述分類(lèi)器1的錯(cuò)誤率通過(guò)下述公式(1)得到：
[0012] (I)
[0013]其中err(Xj)表示在元組Xj中發(fā)生分類(lèi)錯(cuò)誤的值，Xj分類(lèi)錯(cuò)誤時(shí) err(Xj)置為I，如果^沒(méi)有分類(lèi)錯(cuò)誤則err(Xj)置為0，Wl表示權(quán)重值，初始值Ι/d。如果分類(lèi)器M 1的錯(cuò)誤率大于 0.5，則放棄該分類(lèi)器，重新選擇訓(xùn)練集D1，然后輸出新的分類(lèi)器。所述權(quán)重值W 1通過(guò)下述公式⑵
[0014； (2)
[0015；
[0016] 進(jìn)一步的，所述決策樹(shù)生成過(guò)程如下:從原始訓(xùn)練樣本中選擇有放回的抽樣方法，采用隨機(jī)的方式選擇K個(gè)樣本子集，重復(fù)選擇K次，每個(gè)樣本子集生成決策樹(shù);具體過(guò)程如下：
[0017] 步驟a):設(shè)有N個(gè)訓(xùn)練樣本，M個(gè)特征，輸入m個(gè)用于確定決策樹(shù)上一個(gè)節(jié)點(diǎn)決策結(jié) 構(gòu)的特征，并根據(jù)所述m個(gè)特征計(jì)算該特征的最佳分裂式;其中m遠(yuǎn)小于M;
[0018] 步驟b):從N個(gè)訓(xùn)練樣本中以有放回抽樣的方式，取樣N次，形成一個(gè)訓(xùn)練集，并用未抽到的樣本作為預(yù)測(cè)，評(píng)估其誤差；
[0019] 步驟c):對(duì)每棵樹(shù)都任其成長(zhǎng)，不進(jìn)行剪枝，最終形成決策樹(shù)。
[0020] 進(jìn)一步的，所述分類(lèi)方法用于生物學(xué)中單鏈DNA結(jié)合蛋白和雙鏈DNA結(jié)合蛋白的分類(lèi)，所述分類(lèi)依據(jù)是單鏈DNA和雙鏈DNA本身的生物屬性差異特征。
[0021] -種基于隨機(jī)森林算法的分類(lèi)裝置，具有如下模塊：
[0022]模塊1):用于將給定的樣本數(shù)據(jù)劃分為k個(gè)相互獨(dú)立的子訓(xùn)練集合，根據(jù)每個(gè)訓(xùn)練子集選擇不同的決策樹(shù)，各決策樹(shù)選擇不同的決策屬性構(gòu)成基分類(lèi)器，進(jìn)而各基分類(lèi)器形成隨機(jī)森林；
[0023] 模塊2):用于在每個(gè)基分類(lèi)器中，每一個(gè)元組分配設(shè)定的權(quán)重，然后將待分類(lèi)數(shù)據(jù) 送入到步驟1)構(gòu)建的隨機(jī)森林中進(jìn)行分類(lèi)，根據(jù)分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果比較調(diào)節(jié)權(quán)重:如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符，則加大該元組的權(quán)值;如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果相符，則減小該元組的權(quán)值；
[0024] 模塊3):用于根據(jù)調(diào)整后的各元組的權(quán)重，重新對(duì)待分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)，直到分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果相一致。
[0025] 進(jìn)一步的，所述模塊2)中進(jìn)行權(quán)重調(diào)整時(shí)，首先在一個(gè)訓(xùn)練樣本集i中輸出分類(lèi)器 M1，再用訓(xùn)練集D1計(jì)算分類(lèi)的姐的檢驗(yàn)集的誤差系數(shù)。
[0026] 進(jìn)一步的，所述分類(lèi)器1的錯(cuò)誤率通過(guò)下述公式(3)得到：
[0027]
(3)
[0028]其中err (Xj)表示在元組Xj中發(fā)生分類(lèi)錯(cuò)誤的值，Xj分類(lèi)錯(cuò)誤時(shí)err (Xj)置為1，如果^沒(méi)有分類(lèi)錯(cuò)誤則err(Xj)置為0，Wl表示權(quán)重值，初始值Ι/d。如果分類(lèi)器M 1的錯(cuò)誤率大于 0.5，則放棄該分類(lèi)器，重新選擇訓(xùn)練集D1，然后輸出新的分類(lèi)器。所述權(quán)重值W 1通過(guò)下述公式(4)得至丨丨·
[0029]
(4)
[0030]其中，W1是為分類(lèi)器設(shè)置的權(quán)重值。
[0031] 進(jìn)一步的，所述決策樹(shù)生成過(guò)程如下:從原始訓(xùn)練樣本中選擇有放回的抽樣方法，采用隨機(jī)的方式選擇K個(gè)樣本子集，重復(fù)選擇K次，每個(gè)樣本子集生成決策樹(shù);具體過(guò)程如下：
[0032] 子模塊a):設(shè)有N個(gè)訓(xùn)練樣本，M個(gè)特征，輸入m個(gè)用于確定決策樹(shù)上一個(gè)節(jié)點(diǎn)決策結(jié)構(gòu)的特征，并根據(jù)所述m個(gè)特征計(jì)算該特征的最佳分裂式;其中m遠(yuǎn)小于M;
[0033] 子模塊b):從N個(gè)訓(xùn)練樣本中以有放回抽樣的方式，取樣N次，形成一個(gè)訓(xùn)練集，并用未抽到的樣本作為預(yù)測(cè)，評(píng)估其誤差；
[0034] 子模塊c):對(duì)每棵樹(shù)都任其成長(zhǎng)，不進(jìn)行剪枝，最終形成決策樹(shù)。
[0035]進(jìn)一步的，所述分類(lèi)方法用于生物學(xué)中單鏈DNA結(jié)合蛋白和雙鏈DNA結(jié)合蛋白的分類(lèi)，所述分類(lèi)依據(jù)是單鏈DNA和雙鏈DNA本身的差異特征。
[0036] 本發(fā)明通過(guò)在傳統(tǒng)的隨機(jī)森林算法中引入權(quán)重的概念，并根據(jù)分類(lèi)結(jié)果調(diào)整權(quán) 重，而每個(gè)元組的權(quán)值反映了決策樹(shù)分類(lèi)能力的強(qiáng)弱程度，權(quán)值越大表示分類(lèi)錯(cuò)誤的概率越高，需要進(jìn)一步訓(xùn)練，從而使得魯棒性更好。
[0037] 同時(shí)，在構(gòu)建分類(lèi)器時(shí)，分類(lèi)器會(huì)增加錯(cuò)誤預(yù)測(cè)的元組的權(quán)重，增大分類(lèi)錯(cuò)誤元組的訓(xùn)練幾率，使錯(cuò)誤分類(lèi)的元組獲得更多的訓(xùn)練機(jī)會(huì)，從而錯(cuò)誤分類(lèi)的數(shù)據(jù)在分類(lèi)器上獲得更好的分類(lèi)效果，最終使隨機(jī)森林分類(lèi)器的分類(lèi)預(yù)測(cè)能力得以提升。
【附圖說(shuō)明】
[0038] 圖1是本發(fā)明加權(quán)隨機(jī)森林算法的流程圖。
【具體實(shí)施方式】
[0039]下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)的說(shuō)明。
[0040] 本發(fā)明中通過(guò)在傳統(tǒng)隨機(jī)森林算法中引入權(quán)重的概念，從而對(duì)隨機(jī)森林算法的訓(xùn) 練過(guò)程進(jìn)行改進(jìn)，根據(jù)分類(lèi)結(jié)果調(diào)整權(quán)重，如果某一元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符，那么加大它的權(quán)值，從而增加該元組的訓(xùn)練次數(shù);如果某一元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié) 果相符，那么減小它的權(quán)值，從而減少該元組的訓(xùn)練次數(shù)。下面結(jié)合附圖1對(duì)本發(fā)明的構(gòu)思詳細(xì)做以說(shuō)明。
[0041] 隨機(jī)森林是一種由多個(gè)決策樹(shù)組成的集成分類(lèi)器，因此在進(jìn)行隨機(jī)森林算法時(shí)首先是對(duì)決策樹(shù)的構(gòu)建。使用有放回的bootsrtapping抽樣方法，采用隨機(jī)的方法選擇樣本子集，形成每棵樹(shù)的訓(xùn)練集;假設(shè)一個(gè)訓(xùn)練子集中共有M個(gè)屬性，從這M個(gè)屬性中隨機(jī)抽取m個(gè) 屬性構(gòu)成分裂屬性集，從這m個(gè)屬性中挑取一個(gè)特征作為決策樹(shù)的每個(gè)節(jié)點(diǎn)的特征，以最好的分裂方式對(duì)該節(jié)點(diǎn)進(jìn)行分裂，而且對(duì)決策樹(shù)的生長(zhǎng)不進(jìn)行修枝，最終形成需要的決策樹(shù)： H(x，&)，其中X是輸入向量，&是獨(dú)立同分布的隨機(jī)向量。這些生成的決策樹(shù)稱為分類(lèi)回歸樹(shù)，作為隨機(jī)森林的元分類(lèi)器，從而隨機(jī)森林也可以看成是一種樹(shù)型分類(lèi)器{h(x，&)，k = 1......η}的集合，其中h(x，ft〇表不森林的一棵子樹(shù)。
[0042] 在上述實(shí)施例中，生成決策樹(shù)的算法是CART算法，作為其他實(shí)施方式，還可以是 ID3算法或者C4.5算法。上述實(shí)施例中，所采用算法具有不同的屬性篩選標(biāo)準(zhǔn):Gini指數(shù)、信息增益比和信息增益等。再節(jié)點(diǎn)處選擇的特征，其不純度達(dá)到最小，充分達(dá)到高差別性和低偏差性。
[0043] 在分類(lèi)過(guò)程中，通常要求分類(lèi)樣本的數(shù)量分布越均勻越好，但實(shí)驗(yàn)數(shù)據(jù)中常常出現(xiàn)樣本不平衡問(wèn)題，解決方法主要分為兩種:數(shù)據(jù)集角度(重構(gòu)數(shù)據(jù)集)和分類(lèi)算法角度(改進(jìn)分類(lèi)算法）。其中重構(gòu)數(shù)據(jù)集方法包括:下采樣方法和過(guò)采樣方法。過(guò)采樣方法用重復(fù)采樣少數(shù)樣本的方式增加小樣本數(shù)量，并沒(méi)有增加新的數(shù)據(jù)源，缺乏訓(xùn)練樣本的代表性從而造成過(guò)學(xué)習(xí)的問(wèn)題。下采樣方法對(duì)多數(shù)樣本集僅選取少數(shù)樣本數(shù)量的方式，減少多數(shù)樣本數(shù)據(jù)的方法平衡樣本集，造成多數(shù)樣本數(shù)據(jù)的訓(xùn)練不充分問(wèn)題。
[0044] 上述過(guò)程是比較常規(guī)的技術(shù)手段，除上述實(shí)施方式外，還可以通過(guò)其他手段來(lái)實(shí) 現(xiàn)。下面詳細(xì)介紹本發(fā)明的改進(jìn)之處，隨機(jī)森林的決策加權(quán)策略。首先向由k個(gè)基分類(lèi)器構(gòu) 建的隨機(jī)森林樹(shù)型分類(lèi)器中輸入d個(gè)樣本訓(xùn)練元組，并為每個(gè)訓(xùn)練元組分配相應(yīng)的權(quán)重值，權(quán)重值為Ι/d。然后在第i個(gè)訓(xùn)練樣本集中輸出分類(lèi)器M 1，按照各元組的權(quán)重值隨機(jī)抽樣獲得訓(xùn)練樣本集D1，然后再訓(xùn)練樣本集D1中輸出分類(lèi)器M 1，根據(jù)下述公式（1)計(jì)算分類(lèi)器1的錯(cuò)誤率：
[0045] ⑴
[0046] 其中err(Xj)表不在兀組Xj中友生分類(lèi)銪誤的值，Xj分類(lèi)錯(cuò)誤時(shí)err(xj)置為1，如果^沒(méi)有分類(lèi)錯(cuò)誤則err(Xj)置為0，Wl表示權(quán)重值，初始值Ι/d。如果分類(lèi)器M 1的錯(cuò)誤率大于 0.5,則放棄該分類(lèi)器，重新選擇訓(xùn)練集D1，然后輸出新的分類(lèi)器。如果分類(lèi)器的錯(cuò)誤率小于等于0.5,則修改權(quán)重值:如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符，那么加大它的權(quán)值;如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果相符，那么減小它的權(quán)值。具體的權(quán)值的分配，可以通過(guò) 下述公式來(lái)實(shí)現(xiàn)：
[0047]
(2)
[0048]其中，W1是為分類(lèi)器設(shè)置的權(quán)重值。
[0049]完成對(duì)第i個(gè)訓(xùn)練集的權(quán)重分配后，繼續(xù)對(duì)下一個(gè)訓(xùn)練集進(jìn)行權(quán)重分配，直到完成 k個(gè)訓(xùn)練集的權(quán)重分配。
[0050] 也就是說(shuō)，在訓(xùn)練過(guò)程后，每個(gè)元組最終獲得分類(lèi)結(jié)果，根據(jù)元組分類(lèi)結(jié)果的準(zhǔn)確性，修正訓(xùn)練元組的權(quán)值。改進(jìn)的分類(lèi)器將增加錯(cuò)誤預(yù)測(cè)的元組權(quán)重，增大分類(lèi)錯(cuò)誤元組的訓(xùn)練機(jī)率，使錯(cuò)誤分類(lèi)的元組獲得更多的訓(xùn)練機(jī)會(huì)，使錯(cuò)誤分類(lèi)的數(shù)據(jù)在分類(lèi)器上獲得更好的分類(lèi)效果，最終使隨機(jī)森林分類(lèi)器的分類(lèi)預(yù)測(cè)能力得以提升。
[0051] 在分類(lèi)過(guò)程中，對(duì)數(shù)據(jù)進(jìn)行K次隨機(jī)分組，并對(duì)每組進(jìn)行N次分類(lèi)，并查看最終分類(lèi) 結(jié)果與實(shí)際結(jié)果是否一致，如果一致則表示分類(lèi)器預(yù)測(cè)錯(cuò)誤，如果一致則表示分類(lèi)正確，在訓(xùn)練過(guò)程中不斷修正分類(lèi)器參數(shù)，獲得最優(yōu)的分類(lèi)器，然后應(yīng)用訓(xùn)練好的分類(lèi)器對(duì)未知蛋白的數(shù)據(jù)進(jìn)行分類(lèi)。
[0052]上述實(shí)施例給出了基于改進(jìn)隨機(jī)森林算法的分類(lèi)方法的具體過(guò)程，為了加深對(duì)本發(fā)明核心思想的理解，下面結(jié)合基于改進(jìn)隨機(jī)森林算法的分類(lèi)方法在生物信息學(xué)中蛋白質(zhì) 分類(lèi)的應(yīng)用，做出詳細(xì)說(shuō)明，以驗(yàn)證改進(jìn)隨機(jī)森林算法的分類(lèi)方法的效果。
[0053]本發(fā)明中實(shí)驗(yàn)數(shù)據(jù)從Protein Data Bank(TOB)數(shù)據(jù)庫(kù)收集到的DNA結(jié)合蛋白共有 3390個(gè)，其中標(biāo)注為DSBs的共1039個(gè)，包括DSBs與dsDNA復(fù)合物蛋白有890個(gè)，DSBs單體蛋白有149個(gè);標(biāo)注為SSBs的共158個(gè)，其中SSBs與ssDNA蛋白復(fù)合物有70個(gè)，SSBs單體蛋白有88 個(gè);其中未標(biāo)注的DNA結(jié)合蛋白共2193個(gè)。在實(shí)驗(yàn)中為了消除序列相似的冗余同源蛋白，利用在線工具 PISCES (http: //dunbrack. f ccc · edu/Guol i/PI SCES · php)對(duì)數(shù)據(jù)進(jìn)行消除冗余的預(yù)處理，主要的篩選條件為序列相似度〈30%的非同源DNA結(jié)合蛋白。為獲得精度較高的數(shù)據(jù)，選擇的數(shù)據(jù)要求分辨率>3 A的X-ray和NMR結(jié)構(gòu)數(shù)據(jù)，若分辨率<3 A則原子坐標(biāo)位置誤差較大，同時(shí)要求蛋白序列長(zhǎng)度MO個(gè)氨基酸殘基，最后獲得一組非冗余的且具有代表性的分類(lèi)數(shù)據(jù)集。按照蛋白-DNA的復(fù)合物、單體蛋白和結(jié)合DNA鏈的類(lèi)型，數(shù)據(jù)集被分為四類(lèi):SSBs蛋白-DNA復(fù)合物37個(gè)，SSBs單體蛋白38個(gè)，獲得DSBs蛋白-DNA復(fù)合物154個(gè)，DSBs單體蛋白50個(gè)，此外還構(gòu)建了未知功能的DNA結(jié)合蛋白非冗余數(shù)據(jù)集共727個(gè)。
[0054]實(shí)驗(yàn)數(shù)據(jù)采用蛋白-DNA接口數(shù)據(jù)，篩選AAindex數(shù)據(jù)庫(kù)中的6種氨基酸理化屬性作為接口特征，其中負(fù)樣本類(lèi)標(biāo)簽為SSBs，正樣本標(biāo)簽為DSBs。為了探究這六個(gè)特征屬性對(duì)建立SSBs與DSBs的分類(lèi)性能，首先對(duì)單一特征屬性進(jìn)行分類(lèi)檢測(cè)，其中二級(jí)結(jié)構(gòu)屬性表示蛋白質(zhì)-DNA接口中a-Helix，0-Strand和Coil的分布概率。單一特征的預(yù)測(cè)結(jié)果如下表1所示：
[0055] 在單一特征分類(lèi)預(yù)測(cè)過(guò)程中，經(jīng)過(guò)不斷的修正權(quán)重值來(lái)獲得最優(yōu)的分類(lèi)模型，其中氨基酸理化屬性中疏水性的分類(lèi)性能最好，其敏感度SN和特異度SP達(dá)到了75%。并且二級(jí)結(jié)構(gòu)的分類(lèi)效果最優(yōu)，準(zhǔn)確度(ACC)78%，敏感性(SN)78%和特異性(SP)30 %。從表1中可以發(fā)現(xiàn)，特異性的數(shù)值偏低均〈30%，意味著SSBs的分類(lèi)準(zhǔn)確率較低，其主要原因在于數(shù)據(jù) 的不均衡，其中DSBs的數(shù)據(jù)量大于SSBs的數(shù)據(jù)量，造成訓(xùn)練分類(lèi)器對(duì)多數(shù)的類(lèi)具有更準(zhǔn)確的分類(lèi)能力。
[0056] 表1單分類(lèi)特征下的預(yù)測(cè)結(jié)果
[0058]為了建立區(qū)分效果更佳的DSBs與SSBs區(qū)分模型，本發(fā)明中將上述的六種分類(lèi)特征組合起來(lái)，共同作為區(qū)分模型的特征屬性。這是因?yàn)閺?fù)合分類(lèi)特征的某一個(gè)分類(lèi)特征可能會(huì)在DSBs和SSBs的某一方面起到一定的作用，從而可以更加準(zhǔn)確地預(yù)測(cè)單體蛋白結(jié)合 dsDNA或ssDNA。為了比較傳統(tǒng)的隨機(jī)森林算法與改進(jìn)的隨機(jī)森林算法的分類(lèi)效果，我們通過(guò)兩種算法分別訓(xùn)練原始數(shù)據(jù)集，并且不斷改變分裂節(jié)點(diǎn)的屬性個(gè)數(shù)以及樹(shù)分類(lèi)器的個(gè) 數(shù)，建立多個(gè)分類(lèi)模型。最后采用10交叉方法檢驗(yàn)所建立的分類(lèi)模型，得到最終結(jié)果。從所建立的多個(gè)分類(lèi)模型中，選擇有代表的參數(shù)輸入和預(yù)測(cè)結(jié)果進(jìn)行展示，如表2所示：
[0059]表2基于傳統(tǒng)與改進(jìn)的加權(quán)隨機(jī)算法的組合特征預(yù)測(cè)結(jié)果
LUUb'i j 通]敉紐/日、狩祉和早一狩祉的t貝測(cè)铦呆，USBs與SSBs分類(lèi)模型中組合特征的分類(lèi)效果顯著好于單一特征的分類(lèi)性能。其中特異性顯著提升10%以上，特異性SP反映了樣本中負(fù)樣本的分類(lèi)效果，也就是SSBs的分類(lèi)結(jié)果，由于SSBs的樣本數(shù)量小于DSBs，往往造成 SSBs樣本的訓(xùn)練不充分，造成分類(lèi)性能的下降。改進(jìn)后的隨機(jī)森林算法，對(duì)容易分類(lèi)錯(cuò)誤或不充分的SSBs樣本，給予了更多的機(jī)會(huì)參與訓(xùn)練，因此改進(jìn)后的隨機(jī)森林分類(lèi)算法顯著提升了 SSBs的分類(lèi)性能。
[0062] 為分析改進(jìn)后的加權(quán)隨機(jī)森林算法對(duì)SSBs的分類(lèi)性能提高原因，我們抽取一組中間結(jié)果數(shù)據(jù)來(lái)進(jìn)行分析：（4 · 71812，0 · 3225，-0 · 3844，1 · 036，5 · 423058，0 · 4，0 · 25，0 · 35， SSB)為SSBs的原始特征值。在改進(jìn)的隨機(jī)森林算法中預(yù)測(cè)結(jié)果得到了修正，如表3所示，列出了在訓(xùn)練過(guò)程中，預(yù)測(cè)正確的樣本的權(quán)重變化，舉例樣本的權(quán)重變化情況和相應(yīng)的樹(shù)權(quán) 重的變化情況。
[0063] 表3實(shí)驗(yàn)樣本的中間數(shù)據(jù)
機(jī)森林算法中，對(duì)樣本元組的抽樣次數(shù)可以重復(fù)多次，通常平均被抽中的次數(shù)小于3次。改進(jìn)后的算法對(duì)采樣的樣本隨機(jī)樹(shù)的分類(lèi)結(jié)果是錯(cuò)誤時(shí)，按照改進(jìn)算法對(duì)該樣本增加抽樣的權(quán)重，使其增加被抽樣的次數(shù)。隨后這組樣本被抽取了 9次，而預(yù)測(cè)正確的樣本在首次預(yù)測(cè) 時(shí)預(yù)測(cè)結(jié)果正確，隨后該樣本僅被重復(fù)抽樣2次，因此改進(jìn)算法對(duì)錯(cuò)誤樣本顯著增加了抽樣次數(shù)。舉例樣本在第二次訓(xùn)練過(guò)程中預(yù)測(cè)正確，隨后則其權(quán)重一直在調(diào)低，直到第7棵樹(shù)其權(quán)值均在降低，但在第8棵樹(shù)時(shí)分類(lèi)錯(cuò)誤，其權(quán)值則調(diào)高。由于隨機(jī)森林為組合分類(lèi)器的預(yù) 測(cè)結(jié)果是根據(jù)投票結(jié)果進(jìn)行打分，因此舉例的樣本依然得到了正確的分類(lèi)結(jié)果。與原來(lái)的隨機(jī)森林算法相比較，原來(lái)的樣本權(quán)值均看作相等，特別在DSBs和SSBs樣本不均衡的數(shù)據(jù) 集中，隨機(jī)森林對(duì)DSBs的訓(xùn)練次數(shù)遠(yuǎn)高于SSBs，從而造成訓(xùn)練的分類(lèi)器更傾向于DSBs數(shù)據(jù)，從而造成小樣本集的訓(xùn)練不充分而造成實(shí)驗(yàn)結(jié)果中特異性的結(jié)果偏低。通過(guò)設(shè)定權(quán)重改善了小樣本的抽樣次數(shù)，增加了訓(xùn)練機(jī)會(huì)。同時(shí)對(duì)錯(cuò)誤樣本的訓(xùn)練機(jī)會(huì)也進(jìn)一步增加，有利于對(duì)邊緣的錯(cuò)誤樣本的分類(lèi)結(jié)果修正，因此，改進(jìn)后的隨機(jī)森林算法提高了錯(cuò)誤樣本和小樣本的訓(xùn)練機(jī)會(huì)，從而提高了分類(lèi)精度。
[0066]以上給出了本發(fā)明具體的實(shí)施方式，但本發(fā)明不局限于所描述的實(shí)施方式。在本發(fā)明給出的思路下，采用對(duì)本領(lǐng)域技術(shù)人員而言容易想到的方式對(duì)上述實(shí)施例中的技術(shù)手段進(jìn)行變換、替換、修改，并且起到的作用與本發(fā)明中的相應(yīng)技術(shù)手段基本相同、實(shí)現(xiàn)的發(fā) 明目的也基本相同，這樣形成的技術(shù)方案是對(duì)上述實(shí)施例進(jìn)行微調(diào)形成的，這種技術(shù)方案仍落入本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法，其特征在于，步驟如下：步驟1):將給定的樣本數(shù)據(jù)劃分為k個(gè)相互獨(dú)立的子訓(xùn)練集合，根據(jù)每個(gè)訓(xùn)練子集選擇不同的決策樹(shù)，各決策樹(shù)選擇不同的決策屬性構(gòu)成基分類(lèi)器，進(jìn)而各基分類(lèi)器形成隨機(jī)森林；步驟2):在每個(gè)基分類(lèi)器中，每一個(gè)元組分配設(shè)定的權(quán)重，然后將待分類(lèi)數(shù)據(jù)送入到步驟1)構(gòu)建的隨機(jī)森林中進(jìn)行分類(lèi)，根據(jù)分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果比較調(diào)節(jié)權(quán)重:如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符，貝陽(yáng)日大該元組的權(quán)值;如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果相符，則減小該元組的權(quán)值；步驟3):根據(jù)調(diào)整后的各元組的權(quán)重，重新選擇分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)，直到分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果相一致，獲得最優(yōu)的分類(lèi)器，最終實(shí)現(xiàn)對(duì)待分類(lèi)數(shù)據(jù)的分類(lèi)。2. 根據(jù)權(quán)利要求1所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法，其特征在于，所述步驟 2)中進(jìn)行權(quán)重調(diào)整時(shí)，首先在一個(gè)訓(xùn)練樣本集i中輸出分類(lèi)器Ml,再用訓(xùn)練集Di計(jì)算分類(lèi)器 Ml的檢驗(yàn)集誤差系數(shù)。3. 根據(jù)權(quán)利要求2所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法，其特征在于，所述分類(lèi) 器Ml的錯(cuò)誤率通過(guò)下述公式(1)得到：(1) 其中err (xj)表示在元組xj中發(fā)生分類(lèi)錯(cuò)誤的值，xj分類(lèi)錯(cuò)誤時(shí)err (xj)置為1，如果xj沒(méi) 有分類(lèi)錯(cuò)誤則err (xj)置為0，wi表示權(quán)重值，初始值1/d;如果分類(lèi)器Ml的錯(cuò)誤率大于0.5，則放棄該分類(lèi)器，重新選擇訓(xùn)練集化，然后輸出新的分類(lèi)器;所述權(quán)重值wi通過(guò)下述公式(2)得到：(2) 其中，Wi是為分類(lèi)器設(shè)置的權(quán)重值。4. 根據(jù)權(quán)利要求1所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法，其特征在于，所述決策樹(shù)生成過(guò)程如下:從原始訓(xùn)練樣本中選擇有放回的抽樣方法，采用隨機(jī)的方式選擇K個(gè)樣本子集，重復(fù)選擇K次，每個(gè)樣本子集生成決策樹(shù);具體過(guò)程如下：步驟a):設(shè)有N個(gè)訓(xùn)練樣本，Μ個(gè)特征，輸入m個(gè)用于確定決策樹(shù)上一個(gè)節(jié)點(diǎn)決策結(jié)構(gòu)的特征，并根據(jù)所述m個(gè)特征計(jì)算該特征的最佳分裂式;其中m遠(yuǎn)小于M; 步驟b):從N個(gè)訓(xùn)練樣本中W有放回抽樣的方式，取樣N次，形成一個(gè)訓(xùn)練集，并用未抽到的樣本作為預(yù)測(cè)，評(píng)估其誤差；步驟C ):對(duì)每棵樹(shù)都任其成長(zhǎng)，不進(jìn)行剪枝，最終形成決策樹(shù)。5. 根據(jù)權(quán)利要求1-4中任一項(xiàng)所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法，其特征在于，所述分類(lèi)方法用于生物學(xué)中單鏈DNA結(jié)合蛋白和雙鏈DNA結(jié)合蛋白的分類(lèi)，所述分類(lèi)依據(jù)是單鏈DNA和雙鏈DNA本身的差異特征。6. -種基于隨機(jī)森林算法的優(yōu)化分類(lèi)裝置，其特征在于，具有如下模塊：模塊1):用于將給定的樣本數(shù)據(jù)劃分為k個(gè)相互獨(dú)立的子訓(xùn)練集合，根據(jù)每個(gè)訓(xùn)練子集選擇不同的決策樹(shù)，各決策樹(shù)選擇不同的決策屬性構(gòu)成基分類(lèi)器，進(jìn)而各基分類(lèi)器形成隨機(jī)森林；模塊2):用于在每個(gè)基分類(lèi)器中，每一個(gè)元組分配設(shè)定的權(quán)重，然后將待分類(lèi)數(shù)據(jù)送入到步驟1)構(gòu)建的隨機(jī)森林中進(jìn)行分類(lèi)，根據(jù)分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果比較調(diào)節(jié)權(quán)重:如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符，貝陽(yáng)日大該元組的權(quán)值;如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果相符，則減小該元組的權(quán)值；模塊3):用于根據(jù)調(diào)整后的各元組的權(quán)重，重新對(duì)待分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi)，直到分類(lèi)結(jié) 果與預(yù)測(cè)結(jié)果相一致。7. 根據(jù)權(quán)利要求6所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)裝置，其特征在于，所述模塊 2)中進(jìn)行權(quán)重調(diào)整時(shí)，首先在一個(gè)訓(xùn)練樣本集i中輸出分類(lèi)器Ml,再用訓(xùn)練集Di計(jì)算分類(lèi)器 Ml的檢驗(yàn)集誤差系數(shù)。8. 根據(jù)權(quán)利要求7所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)裝置，其特征在于，所述分類(lèi) 器Ml的錯(cuò)誤率通過(guò)下述公式(3)得到：(3) 其中err (xj)表示在元組xj中發(fā)生分類(lèi)錯(cuò)誤的值，xj分類(lèi)錯(cuò)誤時(shí)err (xj)置為1，如果xj沒(méi) 有分類(lèi)錯(cuò)誤則err (xj)置為0，wi表示權(quán)重值，初始值1/d;如果分類(lèi)器Ml的錯(cuò)誤率大于0.5，則放棄該分類(lèi)器，重新選擇訓(xùn)練集化，然后輸出新的分類(lèi)器;所述權(quán)重值wi通過(guò)下述公式(4)得到：(4) 其中，Wi是為分類(lèi)器設(shè)置的權(quán)重值。9. 根據(jù)權(quán)利要求6所述的一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)裝置，其特征在于，所述決策樹(shù)生成過(guò)程如下:從原始訓(xùn)練樣本中選擇有放回的抽樣方法，采用隨機(jī)的方式選擇K個(gè)樣本子集，重復(fù)選擇K次，每個(gè)樣本子集生成決策樹(shù);具體過(guò)程如下：子模塊a):設(shè)有N個(gè)訓(xùn)練樣本，Μ個(gè)特征，輸入m個(gè)用于確定決策樹(shù)上一個(gè)節(jié)點(diǎn)決策結(jié)構(gòu) 的特征，并根據(jù)所述m個(gè)特征計(jì)算該特征的最佳分裂式;其中m遠(yuǎn)小于M; 子模塊b):從N個(gè)訓(xùn)練樣本中W有放回抽樣的方式，取樣N次，形成一個(gè)訓(xùn)練集，并用未抽到的樣本作為預(yù)測(cè)，評(píng)估其誤差；子模塊C):對(duì)每棵樹(shù)都任其成長(zhǎng)，不進(jìn)行剪枝，最終形成決策樹(shù)。10. 根據(jù)權(quán)利要求6-9中任一項(xiàng)所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)裝置，其特征在于，所述分類(lèi)方法用于生物學(xué)中單鏈DNA結(jié)合蛋白和雙鏈DNA結(jié)合蛋白的分類(lèi)，所述分類(lèi)依據(jù)是單鏈DNA和雙鏈DNA本身的差異特征。
【文檔編號(hào)】G06K9/62GK105844300SQ201610173483
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年3月24日
【發(fā)明人】王偉, 孫林, 李名, 常寶方
【申請(qǐng)人】河南師范大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王偉;孫林;李名;常寶方;
技術(shù)所有人：河南師范大學(xué);
我是此專利的發(fā)明人

上一篇：基于貝葉斯源識(shí)別的土壤中重金屬污染源解析方法
上一篇：一種基于詞袋模型的圖像分類(lèi)方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

隨機(jī)森林算法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法及裝置的制造方法