本發(fā)明涉及一種基于改進(jìn)決策樹的配用電通信網(wǎng)告警關(guān)聯(lián)分析方法,屬于計算機(jī)
技術(shù)領(lǐng)域:
。
背景技術(shù):
:隨著智能電網(wǎng)的快速發(fā)展,電力系統(tǒng)間的信息交互日趨頻繁,配用電通信網(wǎng)將承載越來越多的控制、自動化等業(yè)務(wù),呈現(xiàn)出多制式、結(jié)構(gòu)復(fù)雜、設(shè)備數(shù)量眾多、運行數(shù)據(jù)多元化的特點,導(dǎo)致配用電通信故障預(yù)警與態(tài)勢分析變得更加困難。配用電通信網(wǎng)中的設(shè)備運行故障與告警相對應(yīng),在傳統(tǒng)的通信網(wǎng)絡(luò)中,是在個別故障案例發(fā)生時,對此設(shè)備發(fā)生故障時可能觀察到的告警進(jìn)行關(guān)系挖掘,由此得出反映物理網(wǎng)絡(luò)及業(yè)務(wù)應(yīng)用中所有可能的故障和告警及其之間的關(guān)聯(lián)關(guān)系的故障分析方法。由于這些關(guān)聯(lián)關(guān)系僅通過經(jīng)驗?zāi)J将@取,缺乏足夠的科學(xué)依據(jù),所得到的結(jié)論并不能普遍適用于配用電通信網(wǎng)中的故障預(yù)警與態(tài)勢分析。因此,如何面向未來大數(shù)據(jù)環(huán)境下的運行態(tài)勢展開配用電通信網(wǎng)故障和告警之間關(guān)系的深度挖掘,以明確配用電通信網(wǎng)運行的安全隱患,對配用電通信網(wǎng)的可靠運行具有重要的意義。然而,數(shù)據(jù)挖掘的方法有多種,每一種數(shù)據(jù)挖掘方法都有各自的特點和應(yīng)用領(lǐng)域。目前,決策樹是應(yīng)用最廣泛的數(shù)據(jù)挖掘方法之一,如何將決策樹引入到配用電通信網(wǎng)告警關(guān)聯(lián)分析過程,并有效控制此類算法的多值偏向性問題,成為技術(shù)研究難點。為了解現(xiàn)有技術(shù)的發(fā)展?fàn)顩r,對已有的專利和文獻(xiàn)進(jìn)行了檢索、比較和分析,篩選出如下與本發(fā)明相關(guān)度比較高的技術(shù)信息:專利方案1:200910236747一種數(shù)據(jù)挖掘系統(tǒng)中決策樹的生成方法及裝置本發(fā)明公開了一種數(shù)據(jù)挖掘系統(tǒng)中決策樹的生成方法及裝置,主要技術(shù)方案包括:A、遍歷設(shè)定數(shù)據(jù)集合,確定決策樹當(dāng)前層每個候選節(jié)點分別對應(yīng)的未分類數(shù)據(jù)集;B、根據(jù)確定的未分類數(shù)據(jù)屬性,確定每個候選節(jié)點分別對應(yīng)的數(shù)據(jù)屬性的屬性值;C、根據(jù)確定的屬性值,分別生成每個節(jié)點的決策樹分支;D、分別判斷每個決策樹分支下節(jié)點對應(yīng)的未分類數(shù)據(jù)集中的數(shù)據(jù)是否為預(yù)先確定的設(shè)定數(shù)據(jù)屬性的同一屬性值,將判斷結(jié)果為否的節(jié)點確定為當(dāng)前層的下一層的候選節(jié)點,并將下一層作為當(dāng)前層返回步驟A,將判斷結(jié)果為是的節(jié)點分別確定為其所在分支的最后一個節(jié)點。專利方案2:201110111344一種層疊決策樹構(gòu)建方法本發(fā)明涉及一種層疊決策樹構(gòu)建方法,包括以下步驟:1)計算非類別屬性與類別屬性的相關(guān)系數(shù);2)取出相關(guān)系數(shù)小于閾值的屬性,放入待選分層屬性簇中;3)取出一個屬性,按照其屬性值拆分?jǐn)?shù)據(jù)集;4)在數(shù)據(jù)子集中,重新計算各屬性相關(guān)系數(shù),根據(jù)各屬性相關(guān)系數(shù)提升情況判斷是否為真正的分層屬性;5)重復(fù)第三步和第四步,得到真正的分層屬性簇;6)在分層屬性簇中,依據(jù)貢獻(xiàn)度從大到小排序;7)依次取出分層屬性,進(jìn)行數(shù)據(jù)集的拆分,形成層級決策樹;8)在數(shù)據(jù)子集中嵌套應(yīng)用已有的挖掘方法,得到完整的層疊決策樹。專利方案3:201010181023基于概率粗糙集的決策樹生成方法一種基于概率粗糙集的決策樹生成方法,步驟為:1)計算決策屬性對于條件屬性的依賴度;2)對數(shù)據(jù)進(jìn)行相對屬性約簡,獲取決策樹節(jié)點集;3)通過決策樹的節(jié)點集構(gòu)造決策樹,建立決策樹的方式是,讓依賴度最大的節(jié)點作為根節(jié)點,然后對于分支,重新計算剩余節(jié)點的依賴度信息,同時選擇依賴度最大的節(jié)點。本發(fā)明最核心的思想就是首先通過相對約簡消除沒有用的屬性,這樣就可以得到用于生成決策樹的節(jié)點。然后始終選擇依賴度最大的節(jié)點來擴(kuò)展生成樹,最終就生成了我們需要的決策樹。上述專利方案1的缺陷:該方案利用了信息增益的思路,偏向選擇屬性取值較多的屬性來進(jìn)行信息決策,但是取值較多的屬性在某些情況下未必最優(yōu),反而小數(shù)據(jù)量的屬性在某些情況下更為重要。上述專利方案2的缺陷;該方案對相關(guān)系數(shù)進(jìn)行排序時,取出相關(guān)系數(shù)小于閾值的m個屬性。在此,閾值是對相關(guān)系數(shù)的控制,設(shè)置太低可能丟失具有隱蔽性的條件屬性,而設(shè)置太高則會將過多的非條件屬性放入待選分層屬性簇,影響決策方法的效率。因此,閾值的設(shè)定對方案的影響較大,人工主觀設(shè)定閾值容易降低分類結(jié)果的準(zhǔn)確度。上述專利方案3的缺陷:該方案建立決策樹的方式是讓依賴度最大的節(jié)點作為根節(jié)點,然后對于分支重新計算剩余節(jié)點的依賴度信息,同時選擇依賴度最大的節(jié)點。該方法重復(fù)計算,將增加計算復(fù)雜度,降低算法性能。技術(shù)實現(xiàn)要素:本發(fā)明要解決技術(shù)問題是:克服上述技術(shù)的缺點。提供一種通過信息增益率建立決策樹,利用決策樹的分類確定參數(shù)值,并二次建立決策樹的配用電通信網(wǎng)告警關(guān)聯(lián)分析方法。為了解決上述技術(shù)問題,本發(fā)明提出的技術(shù)方案是:一種基于改進(jìn)決策樹的配用電通信網(wǎng)告警關(guān)聯(lián)分析方法,包括如下步驟:S1、從告警數(shù)據(jù)庫讀入報警信息;S2、計算報警信息的信息期望量和每個屬性的信息熵;報警信息的集大小為m,集合S=A1*A2*…*An是j維有窮向量空間,且每個向量空間又有子空間分別為j1,j2,…jj維;設(shè)s1,s2,…sr是向量空間S的子集,其大小分別為m1,m2,…mr,且有m=m1+m2+…+mr;則信息期望量為:以屬性Ak為根所需要的信息熵為:S3、集合S,有n個屬性,屬性偏向閾r取值為所有屬性信息熵的平均值,即:S4、以屬性Ak為根的信息增益是:Gain(Ak)=I(S,m)-E(I(Ak,m));S5、將每個屬性的信息熵與屬性偏向閾r進(jìn)行比較,若比屬性偏向閾r低,則通過信息增益率標(biāo)準(zhǔn)選擇節(jié)點;若比屬性偏向閾r高,則通過信息增益標(biāo)準(zhǔn)選擇節(jié)點;其中,信息增益率的計算公式為S6、循環(huán)執(zhí)行步驟S2至S5,直至所有屬性均選取完畢,生成一次決策樹;S7、引入重要度參數(shù)α,將以屬性Ak為根所需要的信息熵的計算公式改為:S8、將S7中的以屬性Ak為根所需要的信息熵公式替換S2中的以屬性Ak為根所需要的信息熵的計算公式,并重新循環(huán)執(zhí)行S2至S5直至所有屬性均選取完畢,生成二次決策樹;所述二次決策樹的葉節(jié)點即為判斷結(jié)果;S9、根據(jù)報警信息在二次決策樹中的經(jīng)歷路徑和葉節(jié)點,即可判斷該報警信息是否為根原因。上述方案進(jìn)一步的改進(jìn)在于:步驟S6中,若節(jié)點具有一次決策樹的根結(jié)點屬性,α取值為一次決策樹的分類結(jié)果中"是"和"否"的比例;若節(jié)點不具有根結(jié)點的屬性,α取值為0。上述方案進(jìn)一步的改進(jìn)在于:步驟S9之后還包括:S10、根據(jù)根原因生產(chǎn)工單,指派人員進(jìn)行維護(hù)。本發(fā)明提供的基于改進(jìn)決策樹的配用電通信網(wǎng)告警關(guān)聯(lián)分析方法,使用信息增益率代替信息增益作為分枝時屬性的選擇標(biāo)準(zhǔn),信息增益率將過濾有關(guān)屬性類別的信息,只考慮訓(xùn)練數(shù)據(jù)集按照某屬性分裂后產(chǎn)生分支的數(shù)量和規(guī)模,從而有效解決了屬性多值偏向性的問題。不同的屬性對于分類有著不同的重要程度,引入?yún)?shù)α,通過生成的決策樹確定參數(shù)值,并通過兩次生成決策樹提高重要屬性的重要程度。通過二者結(jié)合的方法,彌補(bǔ)傳統(tǒng)ID3算法的不足,提升了故障根原因分析的準(zhǔn)確性,從而提高運維效率。附圖說明下面結(jié)合附圖對本發(fā)明作進(jìn)一步說明。圖1是本發(fā)明實施例的一個優(yōu)選的實施例中一次決策樹示意圖。圖2是本發(fā)明實施例的一個優(yōu)選的實施例中二次決策樹示意圖。具體實施方式實施例本實施例的基于改進(jìn)決策樹的配用電通信網(wǎng)告警關(guān)聯(lián)分析方法,采用以表1為例的告警數(shù)據(jù)庫進(jìn)行說明。編號類型持續(xù)時間上報間隔結(jié)果1設(shè)備長短是2設(shè)備長長是3業(yè)務(wù)長短否4鏈路長短否5鏈路中短否6鏈路中長是7業(yè)務(wù)中長否8設(shè)備長短是9設(shè)備中短否10鏈路中短否11設(shè)備中長否12業(yè)務(wù)長長否13業(yè)務(wù)中短否14鏈路長長是表1步驟如下:S1、根據(jù)讀取到的如表1的報警數(shù)據(jù);S2、計算信息期望量和每個屬性的信息熵;集合S=A1*A2*…*An是j維有窮向量空間,且每個向量空間又有子空間分別為j1,j2,…jj維;設(shè)s1,s2,…sr是向量空間S的子集,其大小分別為m1,m2,…mr,且有m=m1+m2+…+mr;報警信息的集大小為m=14;則信息期望量為:-5/14log(5/14)-9/14log(9/14)=0.94;當(dāng)類型為設(shè)備時,設(shè)備的信息熵是:-3/5log(3/5)-2/5log(2/5)=0.971;同理可以計算類型屬性取其他值時候的信息熵,例如:類型為業(yè)務(wù)時的信息熵為0;類型為鏈路時的信息熵為0.971等等,不再贅述;由此,可以計算屬性類型的信息熵是:E(類型)=5/14*0.971+4/14*0+5/14*0.971=0.694;同樣的方法可以計算其他屬性的信息熵是:E(持續(xù)時間)=0.789;E(上報間隔)=0.892;S3、集合S,有n個屬性,n=3;屬性偏向閾r取值為所有屬性信息熵的平均值,即:由此可以計算得到r=1/4*(0.694+0.911+0.789+0.892)=0.821;S4、以屬性Ak為根的信息增益是:Gain(Ak)=I(S,m)-E(I(Ak,m));由此可以計算得到Gain(類型)=0.94–0.694=0.246;Gain(持續(xù)時間)=0.94-0.789=0.151;Gain(上報間隔)=0.94-0.892=0.048;S5、將每個屬性的信息熵與屬性偏向閾r進(jìn)行比較,若比屬性偏向閾r低,則通過信息增益率標(biāo)準(zhǔn)選擇節(jié)點;若比屬性偏向閾r高,則通過信息增益標(biāo)準(zhǔn)選擇節(jié)點;其中,信息增益率的計算公式為由以上可以得到,E(類型)<r,E(持續(xù)時間)<r,E(上報間隔)>r,因此,屬性類型和持續(xù)時間使用信息增益率標(biāo)準(zhǔn)選取節(jié)點,上報間隔選擇信息增益標(biāo)準(zhǔn)選取節(jié)點;并計算:S6、根據(jù)以上計算,屬性類型信息增益或信息增益率最大,選取類型屬性,創(chuàng)建結(jié)點;并循環(huán)執(zhí)行步驟S2至S5,直至所有屬性均選取完畢,生成如圖1所示的一次決策樹;S7、引入重要度參數(shù)α,將以屬性Ak為根所需要的信息熵的計算公式改為:根據(jù)一次決策樹的根節(jié)點中“是”和“否”的比例,可以計算得到α=5/14=0.35;如果是非跟節(jié)點,則α=0,這種情況下,改進(jìn)公式等于原始公式;S8、將S7中的信息熵公式替換S2中的信息熵的計算公式,并重新循環(huán)執(zhí)行S2至S5直至所有屬性均選取完畢,生成二次決策樹;該計算過程與一次決策樹一致,不再贅述,二次決策樹如圖2所示,其中葉節(jié)點即為判斷結(jié)果;S9、根據(jù)報警信息在二次決策樹中的經(jīng)歷路徑和葉節(jié)點,即可判斷該報警信息是否為根原因;如圖2中,表1中的1,2,6,8和14的告警信息所經(jīng)歷路徑均經(jīng)過“是”的葉節(jié)點;表示該5條路徑即為報警信息的根原因;S10、根據(jù)S9中判斷的根原因,生產(chǎn)工單,指派運維人員進(jìn)行維修維護(hù)工作。如圖1和圖2所示的差別可以看出,二次決策樹相較于一次決策樹,顯然能夠更準(zhǔn)確的判定報警信息的根原因。本發(fā)明不局限于上述實施例所述的具體技術(shù)方案,除上述實施例外,本發(fā)明還可以有其他實施方式。凡采用等同替換形成的技術(shù)方案,均為本發(fā)明要求的保護(hù)范圍。當(dāng)前第1頁1 2 3