亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種暫態(tài)評估特征選擇方法及裝置與流程

文檔序號:12735142閱讀:227來源:國知局
一種暫態(tài)評估特征選擇方法及裝置與流程

本發(fā)明屬于地理系統(tǒng)安全穩(wěn)定分析技術領域,具體講涉及一種暫態(tài)評估特征選擇方法及裝置。



背景技術:

電力系統(tǒng)暫態(tài)穩(wěn)定評估(transient stability assessment,TSA)是保證電力系統(tǒng)安全穩(wěn)定運行的重要手段之一。隨著特高壓交直流混聯(lián)大電網格局的逐步形成,電力系統(tǒng)安全穩(wěn)定特性與機理日趨復雜,電網的運行控制難度不斷加大,對電力系統(tǒng)暫態(tài)穩(wěn)定評估的精準提出了新的要求。近年來隨著計算機技術的快速發(fā)展,基于機器學習技術的暫態(tài)穩(wěn)定評估方法具有在線評估速度快、挖掘潛在信息等優(yōu)勢,在暫態(tài)穩(wěn)定評估中具有很好的發(fā)展前景。然而,由于電力系統(tǒng)穩(wěn)定狀態(tài)樣本數(shù)量巨大、特征量差別非常小,形成大量的相近特征。對于大多數(shù)機器學習預測和分類算法,如果輸入特征集中包含大量與輸出目標無關或關聯(lián)不大的特征,會降低預測的效率和精度,且輸入特征維數(shù)越高,穩(wěn)定評估算法的設計和訓練越困難,因此為了避免過度擬合,改進預測性能及提高效率,進行特征選擇、刪除不相關的冗余特征是數(shù)據(jù)處理過程中必不可少的步驟。

針對電力系統(tǒng)暫態(tài)穩(wěn)定評估的特征選擇問題,已有國內外學者做了相關研究。目前已有文獻利用隨機森林算法對初始確定的特征量進行重要性排序計算,刪除部分重要性低的特征。隨機森林是(random forest,RF)是加州伯克利分校的Breiman Leo提出的一種集成的統(tǒng)計學習方法,具有準確率高、不容易出現(xiàn)過擬合等優(yōu)點,是目前最流行的機器學習算法之一。現(xiàn)有技術雖然可以利用隨機森林對特征重要性排序但未考慮實際電力系統(tǒng)在線歷史數(shù)據(jù)中穩(wěn)定樣本多而失穩(wěn)樣本極少的特點,并且未給出選擇閥值確定的標準。

因此,需要提供一種基于隨機森林和遞歸特征消除策略相結合的組合式特征選擇算法用于暫態(tài)穩(wěn)定評估過程中的特征選擇,克服原算法的不足。



技術實現(xiàn)要素:

針對現(xiàn)有技術的不足,本發(fā)明提出了一種暫態(tài)評估特征選擇方法及裝置。

一種暫態(tài)評估特征選擇方法,所述方法包括:

I、構建加權隨機森林模型,得到特征重要性和袋外數(shù)據(jù)OOB錯誤率;

II、從計算的特征重要性中刪除重要性最低的特征;

III、對刪除后保留的特征進行最終特征排序;

IV、根據(jù)袋外數(shù)據(jù)OOB錯誤率曲線變化情況,保留最終特征排序排名靠前的特征。

進一步的,所述步驟II的所述特征重要性的計算包括:

用Gini系數(shù)衡量分裂過程中節(jié)點n的樣本不純度;

計算分裂后節(jié)點n的樣本不純度的下降量;

根據(jù)樣本不純度的下降量,確定特征變量Xi的特征重要性。

進一步的,所述節(jié)點n的樣本不純度i如下式所示:

其中,p(j)為節(jié)點n中屬于類別j的樣本所占的比例。

進一步的,所述節(jié)點n分裂為左子節(jié)點和右子節(jié)點,所述分裂后節(jié)點n的樣本不純度的下降量Δi如下式所示:

Δi=i-(pleft·ileft+pright·iright)

其中,i為節(jié)點n的樣本不純度;pleft為左子節(jié)點樣本所占的比例;ileft為左子節(jié)點的樣本不純度;pright在右子節(jié)點樣本所占的比例;iright為右子節(jié)點的樣本不純度。

進一步的,特征變量Xi的特征重要性ΔI如下式所示:

其中,Δik為第k個節(jié)點的不純度的下降量。

進一步的,所述步驟III包括:按隨機森林生成決策樹中用加權的線性集成方式,賦予不同類別樣本數(shù)不同的權重,根據(jù)計算子節(jié)點最佳分離值和確定終節(jié)點的類標簽,確定特征排序。

進一步的,按下式計算未分裂的節(jié)點N的最佳分離值i(N):

Δi=i(N)-i(NL)-i(NR)

其中,ni為節(jié)點內i類樣本的數(shù)量;Wi為第i類樣本的類權重;Δi為不純度的下降量;NL為分裂后的左子節(jié)點;NR為分裂后的右子節(jié)點。

進一步的,所述終節(jié)點的類標簽nodeclass如下式所示:

其中,ni為節(jié)點內i類樣本的數(shù)量;Wi為第i類樣本的類權重。

一種暫態(tài)評估特征選擇裝置,所述裝置包括:

模型建立模塊,用于構建加權隨機森林模型,得到特征重要性和袋外數(shù)據(jù)OOB錯誤率;

計算模塊,用于從計算的特征重要性中刪除重要性最低的特征;

確定模塊,用于對刪除后保留的特征進行最終特征排序;;

執(zhí)行模塊,用于根據(jù)袋外數(shù)據(jù)OOB錯誤率曲線變化情況,保留最終特征排序排名靠前的特征。

進一步的,所述計算模塊,用于計算特征重要性,包括:

用Gini系數(shù)衡量分裂過程中節(jié)點n的樣本不純度;

計算分裂后節(jié)點n的樣本不純度的下降量;

根據(jù)樣本不純度的下降量,確定特征變量Xi的特征重要性。

進一步的,所述計算模塊,計算的所述節(jié)點n的樣本不純度i如下式所示:

其中,p(j)為節(jié)點n中屬于類別j的樣本所占的比例。

進一步的,所述節(jié)點n分裂為左子節(jié)點和右子節(jié)點,所述計算模塊,計算的所述分裂后節(jié)點n的樣本不純度的下降量Δi如下式所示:

Δi=i-(pleft·ileft+pright·iright)

其中,i為節(jié)點n的樣本不純度;pleft為左子節(jié)點樣本所占的比例;ileft為左子節(jié)點的樣本不純度;pright在右子節(jié)點樣本所占的比例;iright為右子節(jié)點的樣本不純度。

進一步的,所述計算模塊,計算的特征變量Xi的特征重要性ΔI如下式所示:

其中,Δik為第k個節(jié)點的不純度的下降量。

進一步的,所述確定模塊,具體用于按隨機森林生成決策樹中用加權的線性集成方式,賦予不同類別樣本數(shù)不同的權重,根據(jù)計算子節(jié)點最佳分離值和確定終節(jié)點的類標簽,確定特征排序。

進一步的,所述確定模塊,具體用于,

按下式計算未分裂的節(jié)點N的最佳分離值i(N):

Δi=i(N)-i(NL)-i(NR)

其中,ni為節(jié)點內i類樣本的數(shù)量;Wi為第i類樣本的類權重;Δi為不純度的下降量;NL為分裂后的左子節(jié)點;NR為分裂后的右子節(jié)點。

進一步的,所述確定模塊,確定所述終節(jié)點的類標簽nodeclass如下式所示:

其中,ni為節(jié)點內i類樣本的數(shù)量;Wi為第i類樣本的類權重。

與最接近的現(xiàn)有技術比,本發(fā)明提供的技術方案具有以下有益效果:

1、本發(fā)明提供的技術方案的加權隨機森林通過引入少數(shù)失穩(wěn)樣本數(shù)據(jù)權重因子即可有效減少不平衡數(shù)據(jù)對特征選擇的影響,能選擇出比普通隨機森林算法性能更優(yōu)的特征子集。

2、本發(fā)明提供的技術方案結合遞歸特征消除策略后能根據(jù)數(shù)據(jù)自身特點確定最終閥值的大小,無需人工設定閥值大小,確保了選取特征子集的合理性。

附圖說明

圖1為本發(fā)明的流程圖;

圖2為本發(fā)明最佳實施例中新英格蘭39節(jié)點系統(tǒng)示意圖;

圖3為本發(fā)明最佳實施例中不同特征數(shù)對錯誤率的影響示意圖;

圖4為本發(fā)明最佳實施例中原始特征集映射示意圖;

圖5為本發(fā)明最佳實施例中WRF-RFE提取的特征子集映射示意圖;

圖6為本發(fā)明最佳實施例中RF-RFE提取的特征子集映射圖示意圖。

具體實施方式

下面結合附圖對本發(fā)明做進一步詳細說明。為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。

基于加權隨機森林的特征排序

隨機森林算法不僅是一個集成分類算法,而且另外一個重要作用是在分類過程中可以度量特征重要性(Variable Importance,VI),計算特征重要性得分以實現(xiàn)特征選擇。隨機森林中計算變量重要性的方法有兩種:一是基于袋外數(shù)據(jù)OOB(Out-of-bag)平均下降準確率的方法,即計算Permutation importance值,二是基于決策點特征分裂時GINI指數(shù)下降量的方法即計算Gini importance值。本發(fā)明選取的是基于Gini importance值來計算特征重要性得分,即在生長決策樹的過程中,分類數(shù)充分生長,無需剪枝操作,從而使每個節(jié)點的不純度到達最小。隨機森林采用的決策樹均為二叉樹,生長過程中遵循自上而下的遞歸分裂原則,節(jié)點根據(jù)不純度最小原則分裂為兩個子節(jié)點,這兩個子節(jié)點分別命名為左子節(jié)點和右子節(jié)點,左子節(jié)點和右子節(jié)點均為該節(jié)點的下一級。所有節(jié)點遵循同樣的規(guī)則,從根節(jié)點開始依次分裂下去直到滿足停止規(guī)則。每次分裂都是基于使節(jié)點不純度下降最多的特征,因此到達該節(jié)點的所有特征中,該特征對類別分類影響最大。

節(jié)點n分裂在分裂的過程中,用Gini系數(shù)來衡量該節(jié)點的樣本不純度是,Gini系數(shù)定義為:

式中:i——節(jié)點n的不純度;

p(j)——節(jié)點n中屬于類別j的樣本所占的比例。

當節(jié)點n上的所有樣本均屬于同一類別時,則該節(jié)點的不純度i=0。選擇最佳特征分裂節(jié)點后,子節(jié)點的樣本純度比父節(jié)點更高,則分裂后樣本不純度的下降量為:

Δi=iparent-(pleft·ileft+pright·iright) (2)

式中:pleft——左子節(jié)點中樣本所占的比例;

pright——右子節(jié)點中樣本所占的比例;

iparent——父節(jié)點的Gini系數(shù);

ileft——左子節(jié)點的Gini系數(shù);

iright——右子節(jié)點的Gini系數(shù)。

對于任意一個特征變量Xi,計算該隨機森林模型訓練過程中所有選擇該特征為分裂特征時節(jié)點的不純度降低量總和,可獲得Xi的Gini importance,即:

該值的大小可以衡量每個特征的重要性程度,其值越大說明該特征越重要。

隨機森林算法應用于分類以及回歸問題,已經發(fā)展很成熟了,相比較而言利用隨機森林對特征重要性進行重要性度量仍然有很多地方值得進行深入研究。隨機森林模型訓練時采用的訓練集是bootstrapping放回的抽樣技術,每次生成樣本集都是均勻取樣。然而在電力系統(tǒng)運行樣本數(shù)據(jù)中穩(wěn)定樣本多而失穩(wěn)樣本少,樣本比例不平衡,這樣失穩(wěn)樣本被抽中的概率就很小。然而隨機森林在處理不平衡數(shù)據(jù)時存在偏向,選擇的特征不能真正區(qū)分穩(wěn)定樣本與失穩(wěn)樣本的分類。因此,本發(fā)明在隨機森林生成決策樹的過程中采用加權的線性集成方式,即數(shù)量少的失穩(wěn)樣本被賦予較大的權重而數(shù)量多的穩(wěn)定樣本被賦予相對小的權重。賦予不同類別樣本數(shù)不同大小的權重后,將會在兩個地方對隨機森林算法產生影響:一個是決策樹的生長過程,因為在生長過程中,類權重會參與到尋找每個子節(jié)點(非終節(jié)點)最佳分離值的計算中;另一個是對終節(jié)點的投票結果的影響,在每個終節(jié)點確定類標簽時,也會涉及到類權重。計算過程如下:

在決策樹的生長過程中,將選擇加權Gini不純度來尋找分裂點,如下式所示:

Δi=i(N)-i(NL)-i(NR) (5)

式中,N——未分裂的節(jié)點;

NL——分裂后的左子節(jié)點;

NR——分裂后的右子節(jié)點;

Wi——第i類樣本的類權重;

ni——節(jié)點內i類樣本的數(shù)量;

Δi——不純度的減少量。

在終節(jié)點的投票過程中,類權重將會參與決定其類標簽最終屬于哪個類別的計算,如下式所示:

從隨機森林算法的原理分析,盡管權重設置不能在抽樣過程中提高選中失穩(wěn)樣本的概率,但是一旦選中數(shù)量少的失穩(wěn)樣本,權重會直接參與特征選擇與OOB誤差估計過程中,減少由于樣本不均衡而影響特征選擇結果。

基于遞歸消除策略的特征選擇閥值的確定

隨機森林算法可以計算特征重要性得分,給出特征排序表,但是無法給出劃分特征是否為重要特征的閥值。閥值選擇過大或者過小都會影響到最終選取特征的有效性。在應用于不同數(shù)據(jù)集時,閥值的大小是不同的,而該閥值的選取一般由人工選取,并沒有一定的標準。因此,為了盡可能地降低人為因素的干擾,本專利在隨機森林特征選擇算法的基礎上引入遞歸特征消除方法,解決特征重要性閥值選取問題。

遞歸特征消除(Recursive Feature Elimination,RFE)是一種處理問題的策略,它可以分為兩種前向和后向。本發(fā)明將后向遞歸特征消除思想引入隨機森林特征選擇過程,形成組合算法(random forest-recursive features elimination,RF-RFE)。開始時利用全部的特征構建隨機森林模型,并用隨機森林的OOB錯誤率評價該特征集合的分類能力,然后刪除本次特征評價得分最低的特征。下一次迭代的時候,用剩余的特征集合建模,并重新計算剩余特征的得分,刪除這次得分最低特征,直到當前剩余特征集合為空為止。最終根據(jù)特征消除的順序來確定特征集的排序。在確定特征集的排序順序后,根據(jù)特征數(shù)與OOB錯誤率變化曲線圖來確定特征是否重要的閥值大小。這樣閥值大小是由結合數(shù)據(jù)自身特點來確定,保證特征子集的質量。RF-RFE算法的偽代碼為:

根據(jù)特征減少過程中,OOB錯誤率曲線變化情況,保留排名靠前的特征

實施例一、樣本集的構造

本專利采用新英格蘭39節(jié)點系統(tǒng)作為測試系統(tǒng),系統(tǒng)結構如圖2所示,包含10臺發(fā)電機、39個節(jié)點、46條支路、19個負荷點。發(fā)電機模型采用4階模型,負荷模型為恒阻抗模型。

在電力系統(tǒng)運行過程中,隨機電網潮流狀態(tài)應滿足潮流方程,而該方程為f(A,p,D,u,x)=0。其中A是關聯(lián)矩陣,表示網絡的結構變量,由電網拓撲決定;p是網絡元件參數(shù),例如輸電線參數(shù)、變壓器參數(shù)等;D是不可控變量,例如一般意義上的系統(tǒng)負荷;u是控制變量,例如發(fā)電機的有功功率和機端電壓、電容電抗器投切等;x是依從變量。

變量確定后,系統(tǒng)的運行狀態(tài)隨之確定,這些被確定的量為依從變量。所以通過上述潮流方程發(fā)現(xiàn),通過波動A,p,D,u均可以得到隨即電網潮流方式,而本發(fā)明采用在不同負荷水平下波動控制變量中的發(fā)電機出力變量,來獲取的隨機電網潮流狀態(tài):

1)選擇一個運行方式作為潮流基準,各負荷水平是以基準負荷85%-105%之間,以5%為步長得到5組負荷數(shù)據(jù)。

2)發(fā)電機在線的有功出力,其波動范圍是85%-115%,隨機生成該分范圍內均勻隨機數(shù),每種負荷水平下隨機生成400種潮流方案,共有2000種隨機潮流方式。

3)每種潮流方案下,在母線3和母線4之間的線路中間設三相短路,1s后切除線路和故障。用PSD-BPA進行時域仿真計算,按在仿真結束時,任意兩臺發(fā)電機的最大相對功角差是否大于360°來判定系統(tǒng)是否失穩(wěn)。仿真共得2000個樣本,其中穩(wěn)定樣本1790個,失穩(wěn)樣本210個。

實施例二、原始輸入特征的構造

基于機器學習技術實現(xiàn)暫態(tài)穩(wěn)定評估一個關鍵步驟就是選擇合理的狀態(tài)量作為分類器的輸入特征。對于某一具體的電力系統(tǒng),當系統(tǒng)的發(fā)電機分布、發(fā)電機出力水平、負荷水平、負荷分布以及故障條件等因素確定之后,系統(tǒng)的穩(wěn)定水平就是確定的了。因此,本發(fā)明采用故障前的穩(wěn)態(tài)運行信息作為原始特征集的候選輸入特征集。穩(wěn)態(tài)運行變量作為原始特征集時評估速度快、在線評估不需要數(shù)值仿真;一般通過特征選擇識別出的關鍵特征即是運行人員應重點監(jiān)控的運行變量。并且,利用穩(wěn)態(tài)運行變量作為輸入特征,后期提取出的運行規(guī)則,能提供有效的運行方式調整和預防控制對策信息。本發(fā)明在已有研究的基礎上,為客觀評價各穩(wěn)態(tài)狀態(tài)變量對電網安全評估的貢獻程度,選擇的候選輸入特征幾乎涵蓋了所有的電網穩(wěn)態(tài)狀態(tài)量,選擇的穩(wěn)態(tài)狀態(tài)變量共263維,如表1所示。

表1原始輸入特征集

實施例三、特征選擇結果

隨機森林算法的需要設定的參數(shù)主要有兩個:隨機森林中樹的個數(shù)和樹節(jié)點中預選特征的個數(shù)。其中樹節(jié)點中預選特征的個數(shù)取默認值(p為訓練集中特征的個數(shù)),決策樹個數(shù)的設定為300。

本發(fā)明對比了結合遞歸特征消除策略過程中,采用加權隨機森林形成的WRF-RFE方法與采用普通隨機森林形成RF-RFE方法(Random Forest-Recursive Feature Elimination)特征選擇的效果。對于樣本數(shù)少的類設置較大的權重,合理設置權重能提高特征選擇的效果,發(fā)明中穩(wěn)定樣本與失穩(wěn)樣本的權重值設置為1:3。

根據(jù)在遞歸消除特征過程中,記錄特征數(shù)與OOB錯誤率的變化關系可得圖3。由圖3可知,隨著特征的逐漸剔除,OOB錯誤率開始保持不變,說明刪除的特征對分類結果影響無趕緊要。當特征數(shù)減少到某一數(shù)量后,錯誤率開始突增,說明有重要特征被刪除。因此,最優(yōu)特征子集應該取錯誤率突變前的特征集。

為了驗證所提方法的有效性,將所得特征子集與原始特征集A及應用常用的Boruta算法所得特征子集進行了對比測試。測試的分類器模型采用臺灣大學林智仁教授等研究人員開發(fā)的一個用于支持向量機程序包。訓練暫態(tài)穩(wěn)定評估模型時,SVM的核函數(shù)選用徑向基核函數(shù),并且通過交叉驗證最佳參數(shù)C(懲罰參數(shù))與g(核函數(shù)中的gamma函數(shù)設置)。測試時隨機選擇2/3的樣本作為訓練集訓練SVM模型,剩下的1/3作為測試集??紤]到樣本集選取時存在一定的偶然性,每組實驗運行五次取平均值,結果見表2。其中,將穩(wěn)定樣本判定為失穩(wěn)為誤分,將失穩(wěn)判穩(wěn)穩(wěn)定為漏分。

表2特征選擇結果

由表2可以看出,通過加權隨機森林算法選擇的特征子集比沒有引入權重因子的隨機森林選擇的特征子集更能區(qū)分系統(tǒng)的穩(wěn)定狀態(tài),并且選擇出的特征子集規(guī)模更小。與原始特征相比,所提方法選出的特征子集的分類能力基本保持不變甚至是準確率更高,這是因為減少了無關冗余特征的干擾。

為了從可視化的角度分析提取子特征集與原始特征集的關系,本發(fā)明還引入了一種叫做Sammon映射的數(shù)據(jù)結構分析算法。Sammon映射算法通過非線性變換,將高維空間的樣本數(shù)據(jù)映射到低維空間中,并盡量使低維空間中樣本之間的距離和高維空間中樣本之間的距離保持不變。因此,能夠在低維空間上直觀、形象地展現(xiàn)原數(shù)據(jù)間的結構信息。

圖4至圖6分別是新格蘭10機39節(jié)點系統(tǒng)的原始特征集以及分布利用WRF-RFE、RF-RFE算法提取的特征子集的樣本數(shù)據(jù)映射到二維空間后的映射分布圖。圖4和5中穩(wěn)定樣本與失穩(wěn)樣本映射點重疊點較少,說明原始特征集和WRF-RFE法選擇的特征子集是具有分類能力的,能將穩(wěn)定樣本與失穩(wěn)樣本區(qū)分開。而圖6中穩(wěn)定樣本與失穩(wěn)樣本映射點混雜較多,說明RF-RFE方法選擇特征子集的效果不理想,很難通過機器學習模型判斷系統(tǒng)狀態(tài)。另一方面,對比圖4和圖5可知,WRF-RFE選擇的特征子集的映射分布和原始特征集的映射分布基本能保持一致,說明所選取的特征子集基本能保持原始特征的數(shù)據(jù)結構特性,從另外一個方面證明了所提方法的有效性。

一種暫態(tài)評估特征選擇裝置,所述裝置包括:

模型建立模塊,用于構建加權隨機森林模型,得到特征重要性和袋外數(shù)據(jù)OOB錯誤率;

計算模塊,用于從計算的特征重要性中刪除重要性最低的特征;

確定模塊,用于對刪除后保留的特征進行最終特征排序;;

執(zhí)行模塊,用于根據(jù)袋外數(shù)據(jù)OOB錯誤率曲線變化情況,保留最終特征排序排名靠前的特征。

所述計算模塊,用于計算特征重要性,包括:

用Gini系數(shù)衡量分裂過程中節(jié)點n的樣本不純度;

計算分裂后節(jié)點n的樣本不純度的下降量;

根據(jù)樣本不純度的下降量,確定特征變量Xi的特征重要性。

所述計算模塊,計算的所述節(jié)點n的樣本不純度i如下式所示:

其中,p(j)為節(jié)點n中屬于類別j的樣本所占的比例。

所述節(jié)點n分裂為左子節(jié)點和右子節(jié)點,所述計算模塊,計算的所述分裂后節(jié)點n的樣本不純度的下降量Δi如下式所示:

Δi=i-(pleft·ileft+pright·iright)

其中,i為節(jié)點n的樣本不純度;pleft為左子節(jié)點樣本所占的比例;ileft為左子節(jié)點的樣本不純度;pright在右子節(jié)點樣本所占的比例;iright為右子節(jié)點的樣本不純度。

所述計算模塊,計算的特征變量Xi的特征重要性ΔI如下式所示:

其中,Δik為第k個節(jié)點的不純度的下降量。

所述確定模塊,具體用于按隨機森林生成決策樹中用加權的線性集成方式,賦予不同類別樣本數(shù)不同的權重,根據(jù)計算子節(jié)點最佳分離值和確定終節(jié)點的類標簽,確定特征排序。

所述確定模塊,具體用于,

按下式計算未分裂的節(jié)點N的最佳分離值i(N):

Δi=i(N)-i(NL)-i(NR)

其中,ni為節(jié)點內i類樣本的數(shù)量;Wi為第i類樣本的類權重;Δi為不純度的下降量;NL為分裂后的左子節(jié)點;NR為分裂后的右子節(jié)點。

所述確定模塊,確定所述終節(jié)點的類標簽nodeclass如下式所示:

其中,ni為節(jié)點內i類樣本的數(shù)量;Wi為第i類樣本的類權重。

本領域內的技術人員應明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。

本申請是參照根據(jù)本申請實施例的方法、設備(系統(tǒng))、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

最后應當說明的是:以上實施例僅用以說明本發(fā)明的技術方案而非對其限制,盡管參照上述實施例對本發(fā)明進行了詳細的說明,所屬領域的普通技術人員應當理解:依然可以對本發(fā)明的具體實施方式進行修改或者等同替換,而未脫離本發(fā)明精神和范圍的任何修改或者等同替換,其均應涵蓋在本發(fā)明的權利要求范圍當中。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1