一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法及裝置的制造方法
【專利摘要】本發(fā)明涉及一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法及裝置,步驟如下:步驟1):將給定的樣本數(shù)據(jù)劃分為k個(gè)相互獨(dú)立的子訓(xùn)練集合,根據(jù)每個(gè)訓(xùn)練子集選擇不同的決策樹(shù),各決策樹(shù)選擇不同的決策屬性構(gòu)成基分類(lèi)器,進(jìn)而各基分類(lèi)器形成隨機(jī)森林;步驟2):在每個(gè)基分類(lèi)器中,每一個(gè)元組分配設(shè)定的權(quán)重,然后將待分類(lèi)數(shù)據(jù)送入到步驟1)構(gòu)建的隨機(jī)森林中進(jìn)行分類(lèi),根據(jù)分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果比較調(diào)節(jié)權(quán)重:如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符,則加大該元組的權(quán)值;如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果相符,則減小該元組的權(quán)值;步驟3):根據(jù)調(diào)整后的各元組的權(quán)重,重新對(duì)待分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi),直到分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果相一致。
【專利說(shuō)明】
一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法及裝置
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法及裝置。
【背景技術(shù)】
[0002] 2001年,Leo Breima基于決策樹(shù)理論提出了一種分類(lèi)模型:隨機(jī)森林(Random Forests,簡(jiǎn)稱RF)算法。隨機(jī)森林算法是一種由多個(gè)決策樹(shù)組合而成的組合分類(lèi)器,比單棵 決策樹(shù)顯著提高了分類(lèi)精度。隨機(jī)森林分類(lèi)算法可以看成由許多樹(shù)組成的森林,所有的樹(shù) 均參與投票,決定最終的分類(lèi)結(jié)果,每棵樹(shù)的成長(zhǎng)由引入的隨機(jī)變量決定,即隨機(jī)選取分裂 屬性和隨機(jī)選取訓(xùn)練樣本,生成決策樹(shù),所有的樹(shù)均參與投票,再匯總分類(lèi)的結(jié)果。隨機(jī)森 林在運(yùn)算量沒(méi)有顯著提高的前提下,提高了預(yù)測(cè)精度。隨機(jī)森林對(duì)高度相關(guān)的變量相互不 干擾,簡(jiǎn)化了分類(lèi)算法的設(shè)計(jì)和分類(lèi)系統(tǒng)的泛化誤差。在與SVM支持向量機(jī)的比較后可知, 隨機(jī)森林的參數(shù)很少,與Adaboost非常相似。隨機(jī)森林算法其具有較高的分類(lèi)效率,不存在 過(guò)擬合的問(wèn)題,并且對(duì)于大數(shù)據(jù)的樣本能夠輕松處理,同時(shí)具有很強(qiáng)的對(duì)抗噪聲的能力,根 據(jù)分類(lèi)過(guò)程可以評(píng)估分類(lèi)特征的顯著性;隨機(jī)森林算法以其獨(dú)特的分類(lèi)優(yōu)勢(shì)很快收到廣泛 的青睞,在生物信息領(lǐng)域獲得了廣泛的應(yīng)用。
[0003] 然而,由于隨機(jī)森林是由多個(gè)決策樹(shù)組成的集成分類(lèi)器,傳統(tǒng)的隨機(jī)森林中每棵 決策樹(shù)的默認(rèn)權(quán)重是相同的,因此傳統(tǒng)隨機(jī)森林算法缺乏對(duì)不平衡性數(shù)據(jù)的分類(lèi)優(yōu)化,造 成不平衡數(shù)據(jù)的分類(lèi)性能的精度下降。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法,用以解決傳統(tǒng)的隨機(jī)森 林分類(lèi)方法中不平衡數(shù)據(jù)的分類(lèi)性能精度不高的計(jì)算問(wèn)題。
[0005] 為實(shí)現(xiàn)上述目的,本發(fā)明的方案包括:
[0006] -種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法,步驟如下:
[0007] 步驟1):將給定的樣本數(shù)據(jù)劃分為K個(gè)相互獨(dú)立的子訓(xùn)練集合,根據(jù)每個(gè)訓(xùn)練子集 選擇不同的決策樹(shù),各決策樹(shù)選擇不同的決策屬性構(gòu)成基分類(lèi)器,進(jìn)而各基分類(lèi)器形成隨 機(jī)森林;
[0008] 步驟2):在每個(gè)基分類(lèi)器中,每一個(gè)元組分配設(shè)定的權(quán)重,然后將待分類(lèi)數(shù)據(jù)送入 到步驟1)構(gòu)建的隨機(jī)森林中進(jìn)行分類(lèi),根據(jù)分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果比較調(diào)節(jié)權(quán)重:如果元組 的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符,則加大該元組的權(quán)值;如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際 結(jié)果相符,則減小該元組的權(quán)值;
[0009] 步驟3):根據(jù)調(diào)整后的各元組的權(quán)重,重新對(duì)待分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi),直到分類(lèi)結(jié) 果與預(yù)測(cè)結(jié)果相一致,獲得最優(yōu)的分類(lèi)器,開(kāi)始對(duì)待分類(lèi)數(shù)據(jù)進(jìn)行分類(lèi)。
[0010] 進(jìn)一步的,所述步驟2)中進(jìn)行權(quán)重調(diào)整時(shí),首先在一個(gè)訓(xùn)練樣本集i中輸出分類(lèi)器 M1,再用訓(xùn)練集D1計(jì)算分類(lèi)器M1的檢驗(yàn)集誤差系數(shù)。
[0011] 進(jìn)一步的,所述分類(lèi)器1的錯(cuò)誤率通過(guò)下述公式(1)得到:
[0012] (I)
[0013]其中err(Xj)表示在元組Xj中發(fā)生分類(lèi)錯(cuò)誤的值,Xj分類(lèi)錯(cuò)誤時(shí) err(Xj)置為I,如 果^沒(méi)有分類(lèi)錯(cuò)誤則err(Xj)置為0,Wl表示權(quán)重值,初始值Ι/d。如果分類(lèi)器M 1的錯(cuò)誤率大于 0.5,則放棄該分類(lèi)器,重新選擇訓(xùn)練集D1,然后輸出新的分類(lèi)器。所述權(quán)重值W 1通過(guò)下述公 式⑵
[0014; (2)
[0015;
[0016] 進(jìn)一步的,所述決策樹(shù)生成過(guò)程如下:從原始訓(xùn)練樣本中選擇有放回的抽樣方法, 采用隨機(jī)的方式選擇K個(gè)樣本子集,重復(fù)選擇K次,每個(gè)樣本子集生成決策樹(shù);具體過(guò)程如 下:
[0017] 步驟a):設(shè)有N個(gè)訓(xùn)練樣本,M個(gè)特征,輸入m個(gè)用于確定決策樹(shù)上一個(gè)節(jié)點(diǎn)決策結(jié) 構(gòu)的特征,并根據(jù)所述m個(gè)特征計(jì)算該特征的最佳分裂式;其中m遠(yuǎn)小于M;
[0018] 步驟b):從N個(gè)訓(xùn)練樣本中以有放回抽樣的方式,取樣N次,形成一個(gè)訓(xùn)練集,并用 未抽到的樣本作為預(yù)測(cè),評(píng)估其誤差;
[0019] 步驟c):對(duì)每棵樹(shù)都任其成長(zhǎng),不進(jìn)行剪枝,最終形成決策樹(shù)。
[0020] 進(jìn)一步的,所述分類(lèi)方法用于生物學(xué)中單鏈DNA結(jié)合蛋白和雙鏈DNA結(jié)合蛋白的分 類(lèi),所述分類(lèi)依據(jù)是單鏈DNA和雙鏈DNA本身的生物屬性差異特征。
[0021] -種基于隨機(jī)森林算法的分類(lèi)裝置,具有如下模塊:
[0022]模塊1):用于將給定的樣本數(shù)據(jù)劃分為k個(gè)相互獨(dú)立的子訓(xùn)練集合,根據(jù)每個(gè)訓(xùn)練 子集選擇不同的決策樹(shù),各決策樹(shù)選擇不同的決策屬性構(gòu)成基分類(lèi)器,進(jìn)而各基分類(lèi)器形 成隨機(jī)森林;
[0023] 模塊2):用于在每個(gè)基分類(lèi)器中,每一個(gè)元組分配設(shè)定的權(quán)重,然后將待分類(lèi)數(shù)據(jù) 送入到步驟1)構(gòu)建的隨機(jī)森林中進(jìn)行分類(lèi),根據(jù)分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果比較調(diào)節(jié)權(quán)重:如果 元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符,則加大該元組的權(quán)值;如果元組的分類(lèi)預(yù)測(cè)結(jié)果與 實(shí)際結(jié)果相符,則減小該元組的權(quán)值;
[0024] 模塊3):用于根據(jù)調(diào)整后的各元組的權(quán)重,重新對(duì)待分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi),直到分 類(lèi)結(jié)果與預(yù)測(cè)結(jié)果相一致。
[0025] 進(jìn)一步的,所述模塊2)中進(jìn)行權(quán)重調(diào)整時(shí),首先在一個(gè)訓(xùn)練樣本集i中輸出分類(lèi)器 M1,再用訓(xùn)練集D1計(jì)算分類(lèi)的姐的檢驗(yàn)集的誤差系數(shù)。
[0026] 進(jìn)一步的,所述分類(lèi)器1的錯(cuò)誤率通過(guò)下述公式(3)得到:
[0027]
(3)
[0028]其中err (Xj)表示在元組Xj中發(fā)生分類(lèi)錯(cuò)誤的值,Xj分類(lèi)錯(cuò)誤時(shí)err (Xj)置為1,如 果^沒(méi)有分類(lèi)錯(cuò)誤則err(Xj)置為0,Wl表示權(quán)重值,初始值Ι/d。如果分類(lèi)器M 1的錯(cuò)誤率大于 0.5,則放棄該分類(lèi)器,重新選擇訓(xùn)練集D1,然后輸出新的分類(lèi)器。所述權(quán)重值W 1通過(guò)下述公 式(4)得至丨丨·
[0029]
(4)
[0030]其中,W1是為分類(lèi)器設(shè)置的權(quán)重值。
[0031] 進(jìn)一步的,所述決策樹(shù)生成過(guò)程如下:從原始訓(xùn)練樣本中選擇有放回的抽樣方法, 采用隨機(jī)的方式選擇K個(gè)樣本子集,重復(fù)選擇K次,每個(gè)樣本子集生成決策樹(shù);具體過(guò)程如 下:
[0032] 子模塊a):設(shè)有N個(gè)訓(xùn)練樣本,M個(gè)特征,輸入m個(gè)用于確定決策樹(shù)上一個(gè)節(jié)點(diǎn)決策 結(jié)構(gòu)的特征,并根據(jù)所述m個(gè)特征計(jì)算該特征的最佳分裂式;其中m遠(yuǎn)小于M;
[0033] 子模塊b):從N個(gè)訓(xùn)練樣本中以有放回抽樣的方式,取樣N次,形成一個(gè)訓(xùn)練集,并 用未抽到的樣本作為預(yù)測(cè),評(píng)估其誤差;
[0034] 子模塊c):對(duì)每棵樹(shù)都任其成長(zhǎng),不進(jìn)行剪枝,最終形成決策樹(shù)。
[0035]進(jìn)一步的,所述分類(lèi)方法用于生物學(xué)中單鏈DNA結(jié)合蛋白和雙鏈DNA結(jié)合蛋白的分 類(lèi),所述分類(lèi)依據(jù)是單鏈DNA和雙鏈DNA本身的差異特征。
[0036] 本發(fā)明通過(guò)在傳統(tǒng)的隨機(jī)森林算法中引入權(quán)重的概念,并根據(jù)分類(lèi)結(jié)果調(diào)整權(quán) 重,而每個(gè)元組的權(quán)值反映了決策樹(shù)分類(lèi)能力的強(qiáng)弱程度,權(quán)值越大表示分類(lèi)錯(cuò)誤的概率 越高,需要進(jìn)一步訓(xùn)練,從而使得魯棒性更好。
[0037] 同時(shí),在構(gòu)建分類(lèi)器時(shí),分類(lèi)器會(huì)增加錯(cuò)誤預(yù)測(cè)的元組的權(quán)重,增大分類(lèi)錯(cuò)誤元組 的訓(xùn)練幾率,使錯(cuò)誤分類(lèi)的元組獲得更多的訓(xùn)練機(jī)會(huì),從而錯(cuò)誤分類(lèi)的數(shù)據(jù)在分類(lèi)器上獲 得更好的分類(lèi)效果,最終使隨機(jī)森林分類(lèi)器的分類(lèi)預(yù)測(cè)能力得以提升。
【附圖說(shuō)明】
[0038] 圖1是本發(fā)明加權(quán)隨機(jī)森林算法的流程圖。
【具體實(shí)施方式】
[0039]下面結(jié)合附圖對(duì)本發(fā)明做進(jìn)一步詳細(xì)的說(shuō)明。
[0040] 本發(fā)明中通過(guò)在傳統(tǒng)隨機(jī)森林算法中引入權(quán)重的概念,從而對(duì)隨機(jī)森林算法的訓(xùn) 練過(guò)程進(jìn)行改進(jìn),根據(jù)分類(lèi)結(jié)果調(diào)整權(quán)重,如果某一元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符, 那么加大它的權(quán)值,從而增加該元組的訓(xùn)練次數(shù);如果某一元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié) 果相符,那么減小它的權(quán)值,從而減少該元組的訓(xùn)練次數(shù)。下面結(jié)合附圖1對(duì)本發(fā)明的構(gòu)思 詳細(xì)做以說(shuō)明。
[0041] 隨機(jī)森林是一種由多個(gè)決策樹(shù)組成的集成分類(lèi)器,因此在進(jìn)行隨機(jī)森林算法時(shí)首 先是對(duì)決策樹(shù)的構(gòu)建。使用有放回的bootsrtapping抽樣方法,采用隨機(jī)的方法選擇樣本子 集,形成每棵樹(shù)的訓(xùn)練集;假設(shè)一個(gè)訓(xùn)練子集中共有M個(gè)屬性,從這M個(gè)屬性中隨機(jī)抽取m個(gè) 屬性構(gòu)成分裂屬性集,從這m個(gè)屬性中挑取一個(gè)特征作為決策樹(shù)的每個(gè)節(jié)點(diǎn)的特征,以最好 的分裂方式對(duì)該節(jié)點(diǎn)進(jìn)行分裂,而且對(duì)決策樹(shù)的生長(zhǎng)不進(jìn)行修枝,最終形成需要的決策樹(shù): H(x,&),其中X是輸入向量,&是獨(dú)立同分布的隨機(jī)向量。這些生成的決策樹(shù)稱為分類(lèi)回歸 樹(shù),作為隨機(jī)森林的元分類(lèi)器,從而隨機(jī)森林也可以看成是一種樹(shù)型分類(lèi)器{h(x,&),k = 1......η}的集合,其中h(x,ft〇表不森林的一棵子樹(shù)。
[0042] 在上述實(shí)施例中,生成決策樹(shù)的算法是CART算法,作為其他實(shí)施方式,還可以是 ID3算法或者C4.5算法。上述實(shí)施例中,所采用算法具有不同的屬性篩選標(biāo)準(zhǔn):Gini指數(shù)、信 息增益比和信息增益等。再節(jié)點(diǎn)處選擇的特征,其不純度達(dá)到最小,充分達(dá)到高差別性和低 偏差性。
[0043] 在分類(lèi)過(guò)程中,通常要求分類(lèi)樣本的數(shù)量分布越均勻越好,但實(shí)驗(yàn)數(shù)據(jù)中常常出 現(xiàn)樣本不平衡問(wèn)題,解決方法主要分為兩種:數(shù)據(jù)集角度(重構(gòu)數(shù)據(jù)集)和分類(lèi)算法角度(改 進(jìn)分類(lèi)算法)。其中重構(gòu)數(shù)據(jù)集方法包括:下采樣方法和過(guò)采樣方法。過(guò)采樣方法用重復(fù)采 樣少數(shù)樣本的方式增加小樣本數(shù)量,并沒(méi)有增加新的數(shù)據(jù)源,缺乏訓(xùn)練樣本的代表性從而 造成過(guò)學(xué)習(xí)的問(wèn)題。下采樣方法對(duì)多數(shù)樣本集僅選取少數(shù)樣本數(shù)量的方式,減少多數(shù)樣本 數(shù)據(jù)的方法平衡樣本集,造成多數(shù)樣本數(shù)據(jù)的訓(xùn)練不充分問(wèn)題。
[0044] 上述過(guò)程是比較常規(guī)的技術(shù)手段,除上述實(shí)施方式外,還可以通過(guò)其他手段來(lái)實(shí) 現(xiàn)。下面詳細(xì)介紹本發(fā)明的改進(jìn)之處,隨機(jī)森林的決策加權(quán)策略。首先向由k個(gè)基分類(lèi)器構(gòu) 建的隨機(jī)森林樹(shù)型分類(lèi)器中輸入d個(gè)樣本訓(xùn)練元組,并為每個(gè)訓(xùn)練元組分配相應(yīng)的權(quán)重值, 權(quán)重值為Ι/d。然后在第i個(gè)訓(xùn)練樣本集中輸出分類(lèi)器M 1,按照各元組的權(quán)重值隨機(jī)抽樣獲 得訓(xùn)練樣本集D1,然后再訓(xùn)練樣本集D1中輸出分類(lèi)器M 1,根據(jù)下述公式(1)計(jì)算分類(lèi)器1的 錯(cuò)誤率:
[0045] ⑴
[0046] 其中err(Xj)表不在兀組Xj中友生分類(lèi)銪誤的值,Xj分類(lèi)錯(cuò)誤時(shí)err(xj)置為1,如 果^沒(méi)有分類(lèi)錯(cuò)誤則err(Xj)置為0,Wl表示權(quán)重值,初始值Ι/d。如果分類(lèi)器M 1的錯(cuò)誤率大于 0.5,則放棄該分類(lèi)器,重新選擇訓(xùn)練集D1,然后輸出新的分類(lèi)器。如果分類(lèi)器的錯(cuò)誤率小于 等于0.5,則修改權(quán)重值:如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符,那么加大它的權(quán)值;如 果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果相符,那么減小它的權(quán)值。具體的權(quán)值的分配,可以通過(guò) 下述公式來(lái)實(shí)現(xiàn):
[0047]
(2)
[0048]其中,W1是為分類(lèi)器設(shè)置的權(quán)重值。
[0049]完成對(duì)第i個(gè)訓(xùn)練集的權(quán)重分配后,繼續(xù)對(duì)下一個(gè)訓(xùn)練集進(jìn)行權(quán)重分配,直到完成 k個(gè)訓(xùn)練集的權(quán)重分配。
[0050] 也就是說(shuō),在訓(xùn)練過(guò)程后,每個(gè)元組最終獲得分類(lèi)結(jié)果,根據(jù)元組分類(lèi)結(jié)果的準(zhǔn)確 性,修正訓(xùn)練元組的權(quán)值。改進(jìn)的分類(lèi)器將增加錯(cuò)誤預(yù)測(cè)的元組權(quán)重,增大分類(lèi)錯(cuò)誤元組的 訓(xùn)練機(jī)率,使錯(cuò)誤分類(lèi)的元組獲得更多的訓(xùn)練機(jī)會(huì),使錯(cuò)誤分類(lèi)的數(shù)據(jù)在分類(lèi)器上獲得更 好的分類(lèi)效果,最終使隨機(jī)森林分類(lèi)器的分類(lèi)預(yù)測(cè)能力得以提升。
[0051] 在分類(lèi)過(guò)程中,對(duì)數(shù)據(jù)進(jìn)行K次隨機(jī)分組,并對(duì)每組進(jìn)行N次分類(lèi),并查看最終分類(lèi) 結(jié)果與實(shí)際結(jié)果是否一致,如果一致則表示分類(lèi)器預(yù)測(cè)錯(cuò)誤,如果一致則表示分類(lèi)正確,在 訓(xùn)練過(guò)程中不斷修正分類(lèi)器參數(shù),獲得最優(yōu)的分類(lèi)器,然后應(yīng)用訓(xùn)練好的分類(lèi)器對(duì)未知蛋 白的數(shù)據(jù)進(jìn)行分類(lèi)。
[0052]上述實(shí)施例給出了基于改進(jìn)隨機(jī)森林算法的分類(lèi)方法的具體過(guò)程,為了加深對(duì)本 發(fā)明核心思想的理解,下面結(jié)合基于改進(jìn)隨機(jī)森林算法的分類(lèi)方法在生物信息學(xué)中蛋白質(zhì) 分類(lèi)的應(yīng)用,做出詳細(xì)說(shuō)明,以驗(yàn)證改進(jìn)隨機(jī)森林算法的分類(lèi)方法的效果。
[0053]本發(fā)明中實(shí)驗(yàn)數(shù)據(jù)從Protein Data Bank(TOB)數(shù)據(jù)庫(kù)收集到的DNA結(jié)合蛋白共有 3390個(gè),其中標(biāo)注為DSBs的共1039個(gè),包括DSBs與dsDNA復(fù)合物蛋白有890個(gè),DSBs單體蛋白 有149個(gè);標(biāo)注為SSBs的共158個(gè),其中SSBs與ssDNA蛋白復(fù)合物有70個(gè),SSBs單體蛋白有88 個(gè);其中未標(biāo)注的DNA結(jié)合蛋白共2193個(gè)。在實(shí)驗(yàn)中為了消除序列相似的冗余同源蛋白,利 用在線工具 PISCES (http: //dunbrack. f ccc · edu/Guol i/PI SCES · php)對(duì)數(shù)據(jù)進(jìn)行消除冗余 的預(yù)處理,主要的篩選條件為序列相似度〈30%的非同源DNA結(jié)合蛋白。為獲得精度較高的 數(shù)據(jù),選擇的數(shù)據(jù)要求分辨率>3 A的X-ray和NMR結(jié)構(gòu)數(shù)據(jù),若分辨率<3 A則原子坐標(biāo)位 置誤差較大,同時(shí)要求蛋白序列長(zhǎng)度MO個(gè)氨基酸殘基,最后獲得一組非冗余的且具有代表 性的分類(lèi)數(shù)據(jù)集。按照蛋白-DNA的復(fù)合物、單體蛋白和結(jié)合DNA鏈的類(lèi)型,數(shù)據(jù)集被分為四 類(lèi):SSBs蛋白-DNA復(fù)合物37個(gè),SSBs單體蛋白38個(gè),獲得DSBs蛋白-DNA復(fù)合物154個(gè),DSBs單 體蛋白50個(gè),此外還構(gòu)建了未知功能的DNA結(jié)合蛋白非冗余數(shù)據(jù)集共727個(gè)。
[0054]實(shí)驗(yàn)數(shù)據(jù)采用蛋白-DNA接口數(shù)據(jù),篩選AAindex數(shù)據(jù)庫(kù)中的6種氨基酸理化屬性作 為接口特征,其中負(fù)樣本類(lèi)標(biāo)簽為SSBs,正樣本標(biāo)簽為DSBs。為了探究這六個(gè)特征屬性對(duì)建 立SSBs與DSBs的分類(lèi)性能,首先對(duì)單一特征屬性進(jìn)行分類(lèi)檢測(cè),其中二級(jí)結(jié)構(gòu)屬性表示蛋 白質(zhì)-DNA接口中a-Helix,0-Strand和Coil的分布概率。單一特征的預(yù)測(cè)結(jié)果如下表1所示:
[0055] 在單一特征分類(lèi)預(yù)測(cè)過(guò)程中,經(jīng)過(guò)不斷的修正權(quán)重值來(lái)獲得最優(yōu)的分類(lèi)模型,其 中氨基酸理化屬性中疏水性的分類(lèi)性能最好,其敏感度SN和特異度SP達(dá)到了75%。并且二 級(jí)結(jié)構(gòu)的分類(lèi)效果最優(yōu),準(zhǔn)確度(ACC)78%,敏感性(SN)78%和特異性(SP)30 %。從表1中可 以發(fā)現(xiàn),特異性的數(shù)值偏低均〈30%,意味著SSBs的分類(lèi)準(zhǔn)確率較低,其主要原因在于數(shù)據(jù) 的不均衡,其中DSBs的數(shù)據(jù)量大于SSBs的數(shù)據(jù)量,造成訓(xùn)練分類(lèi)器對(duì)多數(shù)的類(lèi)具有更準(zhǔn)確 的分類(lèi)能力。
[0056] 表1單分類(lèi)特征下的預(yù)測(cè)結(jié)果
[0058]為了建立區(qū)分效果更佳的DSBs與SSBs區(qū)分模型,本發(fā)明中將上述的六種分類(lèi)特征 組合起來(lái),共同作為區(qū)分模型的特征屬性。這是因?yàn)閺?fù)合分類(lèi)特征的某一個(gè)分類(lèi)特征可能 會(huì)在DSBs和SSBs的某一方面起到一定的作用,從而可以更加準(zhǔn)確地預(yù)測(cè)單體蛋白結(jié)合 dsDNA或ssDNA。為了比較傳統(tǒng)的隨機(jī)森林算法與改進(jìn)的隨機(jī)森林算法的分類(lèi)效果,我們通 過(guò)兩種算法分別訓(xùn)練原始數(shù)據(jù)集,并且不斷改變分裂節(jié)點(diǎn)的屬性個(gè)數(shù)以及樹(shù)分類(lèi)器的個(gè) 數(shù),建立多個(gè)分類(lèi)模型。最后采用10交叉方法檢驗(yàn)所建立的分類(lèi)模型,得到最終結(jié)果。從所 建立的多個(gè)分類(lèi)模型中,選擇有代表的參數(shù)輸入和預(yù)測(cè)結(jié)果進(jìn)行展示,如表2所示:
[0059]表2基于傳統(tǒng)與改進(jìn)的加權(quán)隨機(jī)算法的組合特征預(yù)測(cè)結(jié)果
LUUb'i j 通]敉紐/日、狩祉和早一狩祉的t貝測(cè)铦呆,USBs與SSBs分類(lèi)模型中組合特征的分 類(lèi)效果顯著好于單一特征的分類(lèi)性能。其中特異性顯著提升10%以上,特異性SP反映了樣 本中負(fù)樣本的分類(lèi)效果,也就是SSBs的分類(lèi)結(jié)果,由于SSBs的樣本數(shù)量小于DSBs,往往造成 SSBs樣本的訓(xùn)練不充分,造成分類(lèi)性能的下降。改進(jìn)后的隨機(jī)森林算法,對(duì)容易分類(lèi)錯(cuò)誤或 不充分的SSBs樣本,給予了更多的機(jī)會(huì)參與訓(xùn)練,因此改進(jìn)后的隨機(jī)森林分類(lèi)算法顯著提 升了 SSBs的分類(lèi)性能。
[0062] 為分析改進(jìn)后的加權(quán)隨機(jī)森林算法對(duì)SSBs的分類(lèi)性能提高原因,我們抽取一組中 間結(jié)果數(shù)據(jù)來(lái)進(jìn)行分析:(4 · 71812,0 · 3225,-0 · 3844,1 · 036,5 · 423058,0 · 4,0 · 25,0 · 35, SSB)為SSBs的原始特征值。在改進(jìn)的隨機(jī)森林算法中預(yù)測(cè)結(jié)果得到了修正,如表3所示,列 出了在訓(xùn)練過(guò)程中,預(yù)測(cè)正確的樣本的權(quán)重變化,舉例樣本的權(quán)重變化情況和相應(yīng)的樹(shù)權(quán) 重的變化情況。
[0063] 表3實(shí)驗(yàn)樣本的中間數(shù)據(jù)
機(jī)森林算法中,對(duì)樣本元組的抽樣次數(shù)可以重復(fù)多次,通常平均被抽中的次數(shù)小于3次。改 進(jìn)后的算法對(duì)采樣的樣本隨機(jī)樹(shù)的分類(lèi)結(jié)果是錯(cuò)誤時(shí),按照改進(jìn)算法對(duì)該樣本增加抽樣的 權(quán)重,使其增加被抽樣的次數(shù)。隨后這組樣本被抽取了 9次,而預(yù)測(cè)正確的樣本在首次預(yù)測(cè) 時(shí)預(yù)測(cè)結(jié)果正確,隨后該樣本僅被重復(fù)抽樣2次,因此改進(jìn)算法對(duì)錯(cuò)誤樣本顯著增加了抽樣 次數(shù)。舉例樣本在第二次訓(xùn)練過(guò)程中預(yù)測(cè)正確,隨后則其權(quán)重一直在調(diào)低,直到第7棵樹(shù)其 權(quán)值均在降低,但在第8棵樹(shù)時(shí)分類(lèi)錯(cuò)誤,其權(quán)值則調(diào)高。由于隨機(jī)森林為組合分類(lèi)器的預(yù) 測(cè)結(jié)果是根據(jù)投票結(jié)果進(jìn)行打分,因此舉例的樣本依然得到了正確的分類(lèi)結(jié)果。與原來(lái)的 隨機(jī)森林算法相比較,原來(lái)的樣本權(quán)值均看作相等,特別在DSBs和SSBs樣本不均衡的數(shù)據(jù) 集中,隨機(jī)森林對(duì)DSBs的訓(xùn)練次數(shù)遠(yuǎn)高于SSBs,從而造成訓(xùn)練的分類(lèi)器更傾向于DSBs數(shù)據(jù), 從而造成小樣本集的訓(xùn)練不充分而造成實(shí)驗(yàn)結(jié)果中特異性的結(jié)果偏低。通過(guò)設(shè)定權(quán)重改善 了小樣本的抽樣次數(shù),增加了訓(xùn)練機(jī)會(huì)。同時(shí)對(duì)錯(cuò)誤樣本的訓(xùn)練機(jī)會(huì)也進(jìn)一步增加,有利于 對(duì)邊緣的錯(cuò)誤樣本的分類(lèi)結(jié)果修正,因此,改進(jìn)后的隨機(jī)森林算法提高了錯(cuò)誤樣本和小樣 本的訓(xùn)練機(jī)會(huì),從而提高了分類(lèi)精度。
[0066]以上給出了本發(fā)明具體的實(shí)施方式,但本發(fā)明不局限于所描述的實(shí)施方式。在本 發(fā)明給出的思路下,采用對(duì)本領(lǐng)域技術(shù)人員而言容易想到的方式對(duì)上述實(shí)施例中的技術(shù)手 段進(jìn)行變換、替換、修改,并且起到的作用與本發(fā)明中的相應(yīng)技術(shù)手段基本相同、實(shí)現(xiàn)的發(fā) 明目的也基本相同,這樣形成的技術(shù)方案是對(duì)上述實(shí)施例進(jìn)行微調(diào)形成的,這種技術(shù)方案 仍落入本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法,其特征在于,步驟如下: 步驟1):將給定的樣本數(shù)據(jù)劃分為k個(gè)相互獨(dú)立的子訓(xùn)練集合,根據(jù)每個(gè)訓(xùn)練子集選擇 不同的決策樹(shù),各決策樹(shù)選擇不同的決策屬性構(gòu)成基分類(lèi)器,進(jìn)而各基分類(lèi)器形成隨機(jī)森 林; 步驟2):在每個(gè)基分類(lèi)器中,每一個(gè)元組分配設(shè)定的權(quán)重,然后將待分類(lèi)數(shù)據(jù)送入到步 驟1)構(gòu)建的隨機(jī)森林中進(jìn)行分類(lèi),根據(jù)分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果比較調(diào)節(jié)權(quán)重:如果元組的分 類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符,貝陽(yáng)日大該元組的權(quán)值;如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果 相符,則減小該元組的權(quán)值; 步驟3):根據(jù)調(diào)整后的各元組的權(quán)重,重新選擇分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi),直到分類(lèi)結(jié)果與 預(yù)測(cè)結(jié)果相一致,獲得最優(yōu)的分類(lèi)器,最終實(shí)現(xiàn)對(duì)待分類(lèi)數(shù)據(jù)的分類(lèi)。2. 根據(jù)權(quán)利要求1所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法,其特征在于,所述步驟 2)中進(jìn)行權(quán)重調(diào)整時(shí),首先在一個(gè)訓(xùn)練樣本集i中輸出分類(lèi)器Ml,再用訓(xùn)練集Di計(jì)算分類(lèi)器 Ml的檢驗(yàn)集誤差系數(shù)。3. 根據(jù)權(quán)利要求2所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法,其特征在于,所述分類(lèi) 器Ml的錯(cuò)誤率通過(guò)下述公式(1)得到:(1) 其中err (xj)表示在元組xj中發(fā)生分類(lèi)錯(cuò)誤的值,xj分類(lèi)錯(cuò)誤時(shí)err (xj)置為1,如果xj沒(méi) 有分類(lèi)錯(cuò)誤則err (xj)置為0,wi表示權(quán)重值,初始值1/d;如果分類(lèi)器Ml的錯(cuò)誤率大于0.5,則 放棄該分類(lèi)器,重新選擇訓(xùn)練集化,然后輸出新的分類(lèi)器;所述權(quán)重值wi通過(guò)下述公式(2)得 到:(2) 其中,Wi是為分類(lèi)器設(shè)置的權(quán)重值。4. 根據(jù)權(quán)利要求1所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法,其特征在于,所述決策 樹(shù)生成過(guò)程如下:從原始訓(xùn)練樣本中選擇有放回的抽樣方法,采用隨機(jī)的方式選擇K個(gè)樣本 子集,重復(fù)選擇K次,每個(gè)樣本子集生成決策樹(shù);具體過(guò)程如下: 步驟a):設(shè)有N個(gè)訓(xùn)練樣本,Μ個(gè)特征,輸入m個(gè)用于確定決策樹(shù)上一個(gè)節(jié)點(diǎn)決策結(jié)構(gòu)的 特征,并根據(jù)所述m個(gè)特征計(jì)算該特征的最佳分裂式;其中m遠(yuǎn)小于M; 步驟b):從N個(gè)訓(xùn)練樣本中W有放回抽樣的方式,取樣N次,形成一個(gè)訓(xùn)練集,并用未抽 到的樣本作為預(yù)測(cè),評(píng)估其誤差; 步驟C ):對(duì)每棵樹(shù)都任其成長(zhǎng),不進(jìn)行剪枝,最終形成決策樹(shù)。5. 根據(jù)權(quán)利要求1-4中任一項(xiàng)所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)方法,其特征在 于,所述分類(lèi)方法用于生物學(xué)中單鏈DNA結(jié)合蛋白和雙鏈DNA結(jié)合蛋白的分類(lèi),所述分類(lèi)依 據(jù)是單鏈DNA和雙鏈DNA本身的差異特征。6. -種基于隨機(jī)森林算法的優(yōu)化分類(lèi)裝置,其特征在于,具有如下模塊: 模塊1):用于將給定的樣本數(shù)據(jù)劃分為k個(gè)相互獨(dú)立的子訓(xùn)練集合,根據(jù)每個(gè)訓(xùn)練子集 選擇不同的決策樹(shù),各決策樹(shù)選擇不同的決策屬性構(gòu)成基分類(lèi)器,進(jìn)而各基分類(lèi)器形成隨 機(jī)森林; 模塊2):用于在每個(gè)基分類(lèi)器中,每一個(gè)元組分配設(shè)定的權(quán)重,然后將待分類(lèi)數(shù)據(jù)送入 到步驟1)構(gòu)建的隨機(jī)森林中進(jìn)行分類(lèi),根據(jù)分類(lèi)結(jié)果與預(yù)測(cè)結(jié)果比較調(diào)節(jié)權(quán)重:如果元組 的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際結(jié)果不符,貝陽(yáng)日大該元組的權(quán)值;如果元組的分類(lèi)預(yù)測(cè)結(jié)果與實(shí)際 結(jié)果相符,則減小該元組的權(quán)值; 模塊3):用于根據(jù)調(diào)整后的各元組的權(quán)重,重新對(duì)待分類(lèi)的數(shù)據(jù)進(jìn)行分類(lèi),直到分類(lèi)結(jié) 果與預(yù)測(cè)結(jié)果相一致。7. 根據(jù)權(quán)利要求6所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)裝置,其特征在于,所述模塊 2)中進(jìn)行權(quán)重調(diào)整時(shí),首先在一個(gè)訓(xùn)練樣本集i中輸出分類(lèi)器Ml,再用訓(xùn)練集Di計(jì)算分類(lèi)器 Ml的檢驗(yàn)集誤差系數(shù)。8. 根據(jù)權(quán)利要求7所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)裝置,其特征在于,所述分類(lèi) 器Ml的錯(cuò)誤率通過(guò)下述公式(3)得到:(3) 其中err (xj)表示在元組xj中發(fā)生分類(lèi)錯(cuò)誤的值,xj分類(lèi)錯(cuò)誤時(shí)err (xj)置為1,如果xj沒(méi) 有分類(lèi)錯(cuò)誤則err (xj)置為0,wi表示權(quán)重值,初始值1/d;如果分類(lèi)器Ml的錯(cuò)誤率大于0.5,則 放棄該分類(lèi)器,重新選擇訓(xùn)練集化,然后輸出新的分類(lèi)器;所述權(quán)重值wi通過(guò)下述公式(4)得 到:(4) 其中,Wi是為分類(lèi)器設(shè)置的權(quán)重值。9. 根據(jù)權(quán)利要求6所述的一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)裝置,其特征在于,所述決 策樹(shù)生成過(guò)程如下:從原始訓(xùn)練樣本中選擇有放回的抽樣方法,采用隨機(jī)的方式選擇K個(gè)樣 本子集,重復(fù)選擇K次,每個(gè)樣本子集生成決策樹(shù);具體過(guò)程如下: 子模塊a):設(shè)有N個(gè)訓(xùn)練樣本,Μ個(gè)特征,輸入m個(gè)用于確定決策樹(shù)上一個(gè)節(jié)點(diǎn)決策結(jié)構(gòu) 的特征,并根據(jù)所述m個(gè)特征計(jì)算該特征的最佳分裂式;其中m遠(yuǎn)小于M; 子模塊b):從N個(gè)訓(xùn)練樣本中W有放回抽樣的方式,取樣N次,形成一個(gè)訓(xùn)練集,并用未 抽到的樣本作為預(yù)測(cè),評(píng)估其誤差; 子模塊C):對(duì)每棵樹(shù)都任其成長(zhǎng),不進(jìn)行剪枝,最終形成決策樹(shù)。10. 根據(jù)權(quán)利要求6-9中任一項(xiàng)所述一種基于隨機(jī)森林算法的優(yōu)化分類(lèi)裝置,其特征在 于,所述分類(lèi)方法用于生物學(xué)中單鏈DNA結(jié)合蛋白和雙鏈DNA結(jié)合蛋白的分類(lèi),所述分類(lèi)依 據(jù)是單鏈DNA和雙鏈DNA本身的差異特征。
【文檔編號(hào)】G06K9/62GK105844300SQ201610173483
【公開(kāi)日】2016年8月10日
【申請(qǐng)日】2016年3月24日
【發(fā)明人】王偉, 孫林, 李名, 常寶方
【申請(qǐng)人】河南師范大學(xué)