本發(fā)明涉及故障診斷領(lǐng)域,具體涉及一種基于數(shù)據(jù)挖掘的故障診斷裝置。
背景技術(shù):
數(shù)據(jù)就是數(shù)值,也就是我們通過觀察、實驗或計算得出的結(jié)果。數(shù)據(jù)有很多種,最簡單的就是數(shù)字。數(shù)據(jù)也可以是文字、圖像、聲音等。數(shù)據(jù)可以用于科學(xué)研究、設(shè)計、查證等。數(shù)據(jù)背景是接收者針對特定數(shù)據(jù)的信息準(zhǔn)備,即當(dāng)接收者了解物理符號序列的規(guī)律,并知道每個符號和符號組合的指向性目標(biāo)或含義時,便可以獲得一組數(shù)據(jù)所載荷的信息。數(shù)據(jù)作為信息的載體,當(dāng)然要分析數(shù)據(jù)中包含的主要信息,及分析數(shù)據(jù)的主要特征。數(shù)據(jù)是載荷或記錄信息的按一定規(guī)則排列組合的物理符號。
在現(xiàn)在使用的數(shù)據(jù)信息中,有很大一部分的數(shù)據(jù)是由管理者來進(jìn)行發(fā)布,并且根據(jù)用戶的建議或者管理者自身的需求由管理者來進(jìn)行修改的,對于這部分的海量信息,如何能夠更好地進(jìn)行質(zhì)量管理和挖掘,快速有效地從中找到有用的信息,是一個亟需解決的問題。
利用各種檢查和測試方法,發(fā)現(xiàn)系統(tǒng)和設(shè)備是否存在故障的過程是故障檢測;而進(jìn)一步確定故障所在大致部位的過程是故障定位。故障檢測和故障定位同屬網(wǎng)絡(luò)生存性范疇。要求把故障定位到實施修理時可更換的產(chǎn)品層次的過程稱為故障隔離。故障診斷就是指故障檢測和故障隔離的過程。
技術(shù)實現(xiàn)要素:
針對上述問題,本發(fā)明提供一種基于數(shù)據(jù)挖掘的故障診斷裝置。
本發(fā)明的目的采用以下技術(shù)方案來實現(xiàn):
一種基于數(shù)據(jù)挖掘的故障診斷裝置,其特征是,包括數(shù)據(jù)質(zhì)量管理模塊和有用數(shù)據(jù)挖掘模塊,其中質(zhì)量管理模塊包括初步處理子模塊、數(shù)據(jù)描述子模塊、數(shù)據(jù)質(zhì)量評價子模塊和數(shù)據(jù)質(zhì)量分級管理子模塊,有用數(shù)據(jù)挖掘模塊包括數(shù)據(jù)預(yù)處理子模塊、有用數(shù)據(jù)構(gòu)建子模塊、有用數(shù)據(jù)修正子模塊和有用數(shù)據(jù)分層挖掘子模塊;
初步處理子模塊,其特征是,包括:
故障診斷發(fā)起單元:用于發(fā)送診斷請求,和將查詢結(jié)果展示給用戶,所述故障診斷發(fā)起模塊內(nèi)安裝有客戶端狀態(tài)查詢包,所述故障診斷發(fā)起模塊通過該客戶端狀態(tài)查詢包發(fā)送診斷請求;
故障診斷服務(wù)端:包括頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端和其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端,其中頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端與故障診斷發(fā)起模塊、頂級監(jiān)控系統(tǒng)以及下一級的監(jiān)控系統(tǒng)的故障診斷服務(wù)端分別連接,其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端與其對應(yīng)的監(jiān)控系統(tǒng)連接,且各個監(jiān)控系統(tǒng)的故障診斷服務(wù)端順次級聯(lián),負(fù)責(zé)故障診斷系統(tǒng)的級聯(lián)組網(wǎng);當(dāng)所述故障診斷服務(wù)端收到診斷請求后,對其連接的監(jiān)控系統(tǒng)進(jìn)行狀態(tài)查詢,且當(dāng)監(jiān)控系統(tǒng)有多個下級監(jiān)控系統(tǒng)時,決定把診斷請求發(fā)送給哪一個下級監(jiān)控系統(tǒng)的故障診斷服務(wù)端。
優(yōu)選地,其特征是,初步處理子模塊還包括服務(wù)端狀態(tài)查詢包:安裝于監(jiān)控系統(tǒng)內(nèi),與所述故障診斷服務(wù)端連接,所述故障診斷服務(wù)端通過該服務(wù)端狀態(tài)查詢包向監(jiān)控系統(tǒng)查詢狀態(tài)。
優(yōu)選地,其特征在于,初步處理子模塊還包括狀態(tài)存儲數(shù)據(jù)庫:與故障診斷發(fā)起模塊連接,存儲狀態(tài)查詢結(jié)果。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊
通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對于每一個數(shù)據(jù)而言,影響者包括多個用戶和一個管理者,其每個影響者都代表一個節(jié)點,用戶可以瀏覽數(shù)據(jù),也可以對數(shù)據(jù)提出修改的建議,而管理者既可以自行對數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:
式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對數(shù)據(jù)的修改越頻繁;
(2)數(shù)據(jù)質(zhì)量評價子模塊
采用“三級評價模型”對數(shù)據(jù)質(zhì)量進(jìn)行評價,首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對其數(shù)據(jù)質(zhì)量進(jìn)行評價,具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級,選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計算每個等級的各個數(shù)據(jù)屬性的均值,為每個等級建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個等級的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個數(shù),兩個向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個數(shù)據(jù)分別計算與不同等級的均值向量的相似度,從而確認(rèn)其質(zhì)量等級;
(3)數(shù)據(jù)質(zhì)量分級管理子模塊
數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評價子模塊后被劃分為不同質(zhì)量等級,根據(jù)數(shù)據(jù)等級不同對數(shù)據(jù)進(jìn)行分級管理;
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級評價模型對領(lǐng)域中的高質(zhì)量高等級數(shù)據(jù)進(jìn)行篩選,組成一個新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過預(yù)處理的數(shù)據(jù),每個數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:
式中,Zs表示新數(shù)據(jù)表K一個分類中數(shù)據(jù)雙向指向的數(shù)量,即對于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個分類中的相關(guān)數(shù)據(jù)量,其中N表示一個分類中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過程中,會受到人為破壞和用戶投票兩個方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時,依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時自動對管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個非重疊區(qū)域,并行挖掘出局部頻繁項集,其中int為取整函數(shù);然后利用先驗性質(zhì),連接局部頻繁項集得全局候選項集;再次掃描K統(tǒng)計出每個候選項集的實際支持度以確定全局頻繁項集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。
有益效果為:引入網(wǎng)絡(luò)聚類系數(shù)對數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實現(xiàn)了高效檢測數(shù)據(jù)質(zhì)量的目標(biāo);采用三級評價模型,節(jié)約了存儲空間,提高了計算效率;采用全新的相似度函數(shù),放大了較大相對誤差的作用,使得質(zhì)量等級更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對數(shù)據(jù)的影響;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級分類后的一個數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時,才會在下一個數(shù)據(jù)表中進(jìn)行挖掘,計算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強。
附圖說明
利用附圖對本發(fā)明作進(jìn)一步說明,但附圖中的實施例不構(gòu)成對本發(fā)明的任何限制,對于本領(lǐng)域的普通技術(shù)人員,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)以下附圖獲得其它的附圖。
圖1是一種基于數(shù)據(jù)挖掘的故障診斷裝置的結(jié)構(gòu)框圖。
附圖標(biāo)記:質(zhì)量管理模塊-1;有用數(shù)據(jù)挖掘模塊-2;初步處理子模塊-11;數(shù)據(jù)描述子模塊-12;數(shù)據(jù)質(zhì)量評價子模塊-13;數(shù)據(jù)質(zhì)量分級管理子模塊-14;數(shù)據(jù)預(yù)處理子模塊-21;有用數(shù)據(jù)構(gòu)建子模塊-22;有用數(shù)據(jù)修正子模塊-23;有用數(shù)據(jù)分層挖掘子模塊-24。
具體實施方式
結(jié)合以下實施例對本發(fā)明作進(jìn)一步描述。
實施例1:
如圖1所示的一種基于數(shù)據(jù)挖掘的故障診斷裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評價子模塊13和數(shù)據(jù)質(zhì)量評價子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
初步處理子模塊11,其特征是,包括:
故障診斷發(fā)起單元:用于發(fā)送診斷請求,和將查詢結(jié)果展示給用戶,所述故障診斷發(fā)起模塊內(nèi)安裝有客戶端狀態(tài)查詢包,所述故障診斷發(fā)起模塊通過該客戶端狀態(tài)查詢包發(fā)送診斷請求;
故障診斷服務(wù)端:包括頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端和其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端,其中頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端與故障診斷發(fā)起模塊、頂級監(jiān)控系統(tǒng)以及下一級的監(jiān)控系統(tǒng)的故障診斷服務(wù)端分別連接,其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端與其對應(yīng)的監(jiān)控系統(tǒng)連接,且各個監(jiān)控系統(tǒng)的故障診斷服務(wù)端順次級聯(lián),負(fù)責(zé)故障診斷系統(tǒng)的級聯(lián)組網(wǎng);當(dāng)所述故障診斷服務(wù)端收到診斷請求后,對其連接的監(jiān)控系統(tǒng)進(jìn)行狀態(tài)查詢,且當(dāng)監(jiān)控系統(tǒng)有多個下級監(jiān)控系統(tǒng)時,決定把診斷請求發(fā)送給哪一個下級監(jiān)控系統(tǒng)的故障診斷服務(wù)端。
優(yōu)選地,其特征是,初步處理子模塊還包括服務(wù)端狀態(tài)查詢包:安裝于監(jiān)控系統(tǒng)內(nèi),與所述故障診斷服務(wù)端連接,所述故障診斷服務(wù)端通過該服務(wù)端狀態(tài)查詢包向監(jiān)控系統(tǒng)查詢狀態(tài)。
優(yōu)選地,其特征在于,初步處理子模塊還包括狀態(tài)存儲數(shù)據(jù)庫:與故障診斷發(fā)起模塊連接,存儲狀態(tài)查詢結(jié)果。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊12:
通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對于每一個數(shù)據(jù)而言,影響者包括多個用戶和一個管理者,其每個影響者都代表一個節(jié)點,用戶可以瀏覽數(shù)據(jù),也可以對數(shù)據(jù)提出修改的建議,而管理者既可以自行對數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:
式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對數(shù)據(jù)的修改越頻繁。
(2)數(shù)據(jù)質(zhì)量評價子模塊13:
采用“三級評價模型”對數(shù)據(jù)質(zhì)量進(jìn)行評價,首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對其數(shù)據(jù)質(zhì)量進(jìn)行評價,具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級,選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計算每個等級的各個數(shù)據(jù)屬性的均值,為每個等級建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個等級的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個數(shù),兩個向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個數(shù)據(jù)分別計算與不同等級的均值向量的相似度,從而確認(rèn)其質(zhì)量等級。
(3)數(shù)據(jù)質(zhì)量評價子模塊14:
數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評價子模塊后被劃分為不同質(zhì)量等級,根據(jù)數(shù)據(jù)等級不同對數(shù)據(jù)進(jìn)行分級管理。
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級評價模型對領(lǐng)域中的高質(zhì)量高等級數(shù)據(jù)進(jìn)行篩選,組成一個新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過預(yù)處理的數(shù)據(jù),每個數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:
式中,Zs表示新數(shù)據(jù)表K一個分類中數(shù)據(jù)雙向指向的數(shù)量,即對于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個分類中的相關(guān)數(shù)據(jù)量,其中N表示一個分類中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過程中,會受到人為破壞和用戶投票兩個方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時,依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時自動對管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個非重疊區(qū)域,并行挖掘出局部頻繁項集,其中int為取整函數(shù);然后利用先驗性質(zhì),連接局部頻繁項集得全局候選項集;再次掃描K統(tǒng)計出每個候選項集的實際支持度以確定全局頻繁項集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。
本實施例中,引入網(wǎng)絡(luò)聚類系數(shù)對數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實現(xiàn)了高效檢測數(shù)據(jù)質(zhì)量的目標(biāo);采用三級評價模型,節(jié)約了存儲空間,提高了計算效率;采用全新的相似度函數(shù),放大了較大相對誤差的作用,使得質(zhì)量等級更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對數(shù)據(jù)的影響,取C=T/5,提示數(shù)據(jù)范圍增加5%,但是計算量增加了3.7%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級分類后的一個數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時,才會在下一個數(shù)據(jù)表中進(jìn)行挖掘,計算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強。
實施例2:
如圖1所示的一種基于數(shù)據(jù)挖掘的故障診斷裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評價子模塊13和數(shù)據(jù)質(zhì)量評價子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
初步處理子模塊11,其特征是,包括:
故障診斷發(fā)起單元:用于發(fā)送診斷請求,和將查詢結(jié)果展示給用戶,所述故障診斷發(fā)起模塊內(nèi)安裝有客戶端狀態(tài)查詢包,所述故障診斷發(fā)起模塊通過該客戶端狀態(tài)查詢包發(fā)送診斷請求;
故障診斷服務(wù)端:包括頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端和其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端,其中頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端與故障診斷發(fā)起模塊、頂級監(jiān)控系統(tǒng)以及下一級的監(jiān)控系統(tǒng)的故障診斷服務(wù)端分別連接,其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端與其對應(yīng)的監(jiān)控系統(tǒng)連接,且各個監(jiān)控系統(tǒng)的故障診斷服務(wù)端順次級聯(lián),負(fù)責(zé)故障診斷系統(tǒng)的級聯(lián)組網(wǎng);當(dāng)所述故障診斷服務(wù)端收到診斷請求后,對其連接的監(jiān)控系統(tǒng)進(jìn)行狀態(tài)查詢,且當(dāng)監(jiān)控系統(tǒng)有多個下級監(jiān)控系統(tǒng)時,決定把診斷請求發(fā)送給哪一個下級監(jiān)控系統(tǒng)的故障診斷服務(wù)端。
優(yōu)選地,其特征是,初步處理子模塊還包括服務(wù)端狀態(tài)查詢包:安裝于監(jiān)控系統(tǒng)內(nèi),與所述故障診斷服務(wù)端連接,所述故障診斷服務(wù)端通過該服務(wù)端狀態(tài)查詢包向監(jiān)控系統(tǒng)查詢狀態(tài)。
優(yōu)選地,其特征在于,初步處理子模塊還包括狀態(tài)存儲數(shù)據(jù)庫:與故障診斷發(fā)起模塊連接,存儲狀態(tài)查詢結(jié)果。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊12:
通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對于每一個數(shù)據(jù)而言,影響者包括多個用戶和一個管理者,其每個影響者都代表一個節(jié)點,用戶可以瀏覽數(shù)據(jù),也可以對數(shù)據(jù)提出修改的建議,而管理者既可以自行對數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:
式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對數(shù)據(jù)的修改越頻繁。
(2)數(shù)據(jù)質(zhì)量評價子模塊13:
采用“三級評價模型”對數(shù)據(jù)質(zhì)量進(jìn)行評價,首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對其數(shù)據(jù)質(zhì)量進(jìn)行評價,具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級,選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計算每個等級的各個數(shù)據(jù)屬性的均值,為每個等級建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個等級的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個數(shù),兩個向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個數(shù)據(jù)分別計算與不同等級的均值向量的相似度,從而確認(rèn)其質(zhì)量等級。
(3)數(shù)據(jù)質(zhì)量評價子模塊14:
數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評價子模塊后被劃分為不同質(zhì)量等級,根據(jù)數(shù)據(jù)等級不同對數(shù)據(jù)進(jìn)行分級管理。
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級評價模型對領(lǐng)域中的高質(zhì)量高等級數(shù)據(jù)進(jìn)行篩選,組成一個新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過預(yù)處理的數(shù)據(jù),每個數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:
式中,Zs表示新數(shù)據(jù)表K一個分類中數(shù)據(jù)雙向指向的數(shù)量,即對于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個分類中的相關(guān)數(shù)據(jù)量,其中N表示一個分類中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過程中,會受到人為破壞和用戶投票兩個方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時,依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時自動對管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個非重疊區(qū)域,并行挖掘出局部頻繁項集,其中int為取整函數(shù);然后利用先驗性質(zhì),連接局部頻繁項集得全局候選項集;再次掃描K統(tǒng)計出每個候選項集的實際支持度以確定全局頻繁項集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。
本實施例中,引入網(wǎng)絡(luò)聚類系數(shù)對數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實現(xiàn)了高效檢測數(shù)據(jù)質(zhì)量的目標(biāo);采用三級評價模型,節(jié)約了存儲空間,提高了計算效率;采用全新的相似度函數(shù),放大了較大相對誤差的作用,使得質(zhì)量等級更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對數(shù)據(jù)的影響,取C=T/6,提示數(shù)據(jù)范圍增加4%,但是計算量增加了3.3%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級分類后的一個數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時,才會在下一個數(shù)據(jù)表中進(jìn)行挖掘,計算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強。
實施例3:
如圖1所示的一種基于數(shù)據(jù)挖掘的故障診斷裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評價子模塊13和數(shù)據(jù)質(zhì)量評價子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
初步處理子模塊11,其特征是,包括:
故障診斷發(fā)起單元:用于發(fā)送診斷請求,和將查詢結(jié)果展示給用戶,所述故障診斷發(fā)起模塊內(nèi)安裝有客戶端狀態(tài)查詢包,所述故障診斷發(fā)起模塊通過該客戶端狀態(tài)查詢包發(fā)送診斷請求;
故障診斷服務(wù)端:包括頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端和其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端,其中頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端與故障診斷發(fā)起模塊、頂級監(jiān)控系統(tǒng)以及下一級的監(jiān)控系統(tǒng)的故障診斷服務(wù)端分別連接,其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端與其對應(yīng)的監(jiān)控系統(tǒng)連接,且各個監(jiān)控系統(tǒng)的故障診斷服務(wù)端順次級聯(lián),負(fù)責(zé)故障診斷系統(tǒng)的級聯(lián)組網(wǎng);當(dāng)所述故障診斷服務(wù)端收到診斷請求后,對其連接的監(jiān)控系統(tǒng)進(jìn)行狀態(tài)查詢,且當(dāng)監(jiān)控系統(tǒng)有多個下級監(jiān)控系統(tǒng)時,決定把診斷請求發(fā)送給哪一個下級監(jiān)控系統(tǒng)的故障診斷服務(wù)端。
優(yōu)選地,其特征是,初步處理子模塊還包括服務(wù)端狀態(tài)查詢包:安裝于監(jiān)控系統(tǒng)內(nèi),與所述故障診斷服務(wù)端連接,所述故障診斷服務(wù)端通過該服務(wù)端狀態(tài)查詢包向監(jiān)控系統(tǒng)查詢狀態(tài)。
優(yōu)選地,其特征在于,初步處理子模塊還包括狀態(tài)存儲數(shù)據(jù)庫:與故障診斷發(fā)起模塊連接,存儲狀態(tài)查詢結(jié)果。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊12:
通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對于每一個數(shù)據(jù)而言,影響者包括多個用戶和一個管理者,其每個影響者都代表一個節(jié)點,用戶可以瀏覽數(shù)據(jù),也可以對數(shù)據(jù)提出修改的建議,而管理者既可以自行對數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:
式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對數(shù)據(jù)的修改越頻繁。
(2)數(shù)據(jù)質(zhì)量評價子模塊13:
采用“三級評價模型”對數(shù)據(jù)質(zhì)量進(jìn)行評價,首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對其數(shù)據(jù)質(zhì)量進(jìn)行評價,具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級,選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計算每個等級的各個數(shù)據(jù)屬性的均值,為每個等級建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個等級的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個數(shù),兩個向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個數(shù)據(jù)分別計算與不同等級的均值向量的相似度,從而確認(rèn)其質(zhì)量等級。
(3)數(shù)據(jù)質(zhì)量評價子模塊14:
數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評價子模塊后被劃分為不同質(zhì)量等級,根據(jù)數(shù)據(jù)等級不同對數(shù)據(jù)進(jìn)行分級管理。
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級評價模型對領(lǐng)域中的高質(zhì)量高等級數(shù)據(jù)進(jìn)行篩選,組成一個新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過預(yù)處理的數(shù)據(jù),每個數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:
式中,Zs表示新數(shù)據(jù)表K一個分類中數(shù)據(jù)雙向指向的數(shù)量,即對于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個分類中的相關(guān)數(shù)據(jù)量,其中N表示一個分類中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過程中,會受到人為破壞和用戶投票兩個方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時,依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時自動對管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個非重疊區(qū)域,并行挖掘出局部頻繁項集,其中int為取整函數(shù);然后利用先驗性質(zhì),連接局部頻繁項集得全局候選項集;再次掃描K統(tǒng)計出每個候選項集的實際支持度以確定全局頻繁項集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。
本實施例中,引入網(wǎng)絡(luò)聚類系數(shù)對數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實現(xiàn)了高效檢測數(shù)據(jù)質(zhì)量的目標(biāo);采用三級評價模型,節(jié)約了存儲空間,提高了計算效率;采用全新的相似度函數(shù),放大了較大相對誤差的作用,使得質(zhì)量等級更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對數(shù)據(jù)的影響,取C=T/7,提示數(shù)據(jù)范圍增加3.5%,但是計算量增加了3%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級分類后的一個數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時,才會在下一個數(shù)據(jù)表中進(jìn)行挖掘,計算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強。
實施例4:
如圖1所示的一種基于數(shù)據(jù)挖掘的故障診斷裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評價子模塊13和數(shù)據(jù)質(zhì)量評價子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
初步處理子模塊11,其特征是,包括:
故障診斷發(fā)起單元:用于發(fā)送診斷請求,和將查詢結(jié)果展示給用戶,所述故障診斷發(fā)起模塊內(nèi)安裝有客戶端狀態(tài)查詢包,所述故障診斷發(fā)起模塊通過該客戶端狀態(tài)查詢包發(fā)送診斷請求;
故障診斷服務(wù)端:包括頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端和其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端,其中頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端與故障診斷發(fā)起模塊、頂級監(jiān)控系統(tǒng)以及下一級的監(jiān)控系統(tǒng)的故障診斷服務(wù)端分別連接,其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端與其對應(yīng)的監(jiān)控系統(tǒng)連接,且各個監(jiān)控系統(tǒng)的故障診斷服務(wù)端順次級聯(lián),負(fù)責(zé)故障診斷系統(tǒng)的級聯(lián)組網(wǎng);當(dāng)所述故障診斷服務(wù)端收到診斷請求后,對其連接的監(jiān)控系統(tǒng)進(jìn)行狀態(tài)查詢,且當(dāng)監(jiān)控系統(tǒng)有多個下級監(jiān)控系統(tǒng)時,決定把診斷請求發(fā)送給哪一個下級監(jiān)控系統(tǒng)的故障診斷服務(wù)端。
優(yōu)選地,其特征是,初步處理子模塊還包括服務(wù)端狀態(tài)查詢包:安裝于監(jiān)控系統(tǒng)內(nèi),與所述故障診斷服務(wù)端連接,所述故障診斷服務(wù)端通過該服務(wù)端狀態(tài)查詢包向監(jiān)控系統(tǒng)查詢狀態(tài)。
優(yōu)選地,其特征在于,初步處理子模塊還包括狀態(tài)存儲數(shù)據(jù)庫:與故障診斷發(fā)起模塊連接,存儲狀態(tài)查詢結(jié)果。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊12:
通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對于每一個數(shù)據(jù)而言,影響者包括多個用戶和一個管理者,其每個影響者都代表一個節(jié)點,用戶可以瀏覽數(shù)據(jù),也可以對數(shù)據(jù)提出修改的建議,而管理者既可以自行對數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:
式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對數(shù)據(jù)的修改越頻繁。
(2)數(shù)據(jù)質(zhì)量評價子模塊13:
采用“三級評價模型”對數(shù)據(jù)質(zhì)量進(jìn)行評價,首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對其數(shù)據(jù)質(zhì)量進(jìn)行評價,具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級,選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計算每個等級的各個數(shù)據(jù)屬性的均值,為每個等級建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個等級的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個數(shù),兩個向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個數(shù)據(jù)分別計算與不同等級的均值向量的相似度,從而確認(rèn)其質(zhì)量等級。
(3)數(shù)據(jù)質(zhì)量評價子模塊14:
數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評價子模塊后被劃分為不同質(zhì)量等級,根據(jù)數(shù)據(jù)等級不同對數(shù)據(jù)進(jìn)行分級管理。
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級評價模型對領(lǐng)域中的高質(zhì)量高等級數(shù)據(jù)進(jìn)行篩選,組成一個新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過預(yù)處理的數(shù)據(jù),每個數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:
式中,Zs表示新數(shù)據(jù)表K一個分類中數(shù)據(jù)雙向指向的數(shù)量,即對于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個分類中的相關(guān)數(shù)據(jù)量,其中N表示一個分類中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過程中,會受到人為破壞和用戶投票兩個方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時,依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時自動對管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個非重疊區(qū)域,并行挖掘出局部頻繁項集,其中int為取整函數(shù);然后利用先驗性質(zhì),連接局部頻繁項集得全局候選項集;再次掃描K統(tǒng)計出每個候選項集的實際支持度以確定全局頻繁項集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。
本實施例中,引入網(wǎng)絡(luò)聚類系數(shù)對數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實現(xiàn)了高效檢測數(shù)據(jù)質(zhì)量的目標(biāo);采用三級評價模型,節(jié)約了存儲空間,提高了計算效率;采用全新的相似度函數(shù),放大了較大相對誤差的作用,使得質(zhì)量等級更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對數(shù)據(jù)的影響,取C=T/8,提示數(shù)據(jù)范圍增加3%,但是計算量增加了2.7%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級分類后的一個數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時,才會在下一個數(shù)據(jù)表中進(jìn)行挖掘,計算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強。
實施例5:
如圖1所示的一種基于數(shù)據(jù)挖掘的故障診斷裝置,包括數(shù)據(jù)質(zhì)量管理模塊1和有用數(shù)據(jù)挖掘模塊2,其中質(zhì)量管理模塊1包括初步處理子模塊11、數(shù)據(jù)描述子模塊12、數(shù)據(jù)質(zhì)量評價子模塊13和數(shù)據(jù)質(zhì)量評價子模塊14,有用數(shù)據(jù)挖掘模塊2包括數(shù)據(jù)預(yù)處理子模塊21、有用數(shù)據(jù)構(gòu)建子模塊22、有用數(shù)據(jù)修正子模塊23和有用數(shù)據(jù)分層挖掘子模塊24。
初步處理子模塊11,其特征是,包括:
故障診斷發(fā)起單元:用于發(fā)送診斷請求,和將查詢結(jié)果展示給用戶,所述故障診斷發(fā)起模塊內(nèi)安裝有客戶端狀態(tài)查詢包,所述故障診斷發(fā)起模塊通過該客戶端狀態(tài)查詢包發(fā)送診斷請求;
故障診斷服務(wù)端:包括頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端和其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端,其中頂級監(jiān)控系統(tǒng)故障診斷服務(wù)端與故障診斷發(fā)起模塊、頂級監(jiān)控系統(tǒng)以及下一級的監(jiān)控系統(tǒng)的故障診斷服務(wù)端分別連接,其余監(jiān)控系統(tǒng)的故障診斷服務(wù)端與其對應(yīng)的監(jiān)控系統(tǒng)連接,且各個監(jiān)控系統(tǒng)的故障診斷服務(wù)端順次級聯(lián),負(fù)責(zé)故障診斷系統(tǒng)的級聯(lián)組網(wǎng);當(dāng)所述故障診斷服務(wù)端收到診斷請求后,對其連接的監(jiān)控系統(tǒng)進(jìn)行狀態(tài)查詢,且當(dāng)監(jiān)控系統(tǒng)有多個下級監(jiān)控系統(tǒng)時,決定把診斷請求發(fā)送給哪一個下級監(jiān)控系統(tǒng)的故障診斷服務(wù)端。
優(yōu)選地,其特征是,初步處理子模塊還包括服務(wù)端狀態(tài)查詢包:安裝于監(jiān)控系統(tǒng)內(nèi),與所述故障診斷服務(wù)端連接,所述故障診斷服務(wù)端通過該服務(wù)端狀態(tài)查詢包向監(jiān)控系統(tǒng)查詢狀態(tài)。
優(yōu)選地,其特征在于,初步處理子模塊還包括狀態(tài)存儲數(shù)據(jù)庫:與故障診斷發(fā)起模塊連接,存儲狀態(tài)查詢結(jié)果。
優(yōu)選地,
(1)數(shù)據(jù)描述子模塊12:
通過引入數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性來描述數(shù)據(jù),數(shù)據(jù)本身的屬性用數(shù)據(jù)大小、創(chuàng)建日期、包含圖片數(shù)、相關(guān)數(shù)據(jù)量表示,其中,相關(guān)數(shù)據(jù)量為當(dāng)前數(shù)據(jù)指向的其它數(shù)據(jù)和指向當(dāng)前數(shù)據(jù)的其它數(shù)據(jù)的總和;數(shù)據(jù)影響者的屬性用影響者網(wǎng)絡(luò)聚類系數(shù)來表示,由以下方法得到:
構(gòu)建數(shù)據(jù)影響者描述網(wǎng)絡(luò),對于每一個數(shù)據(jù)而言,影響者包括多個用戶和一個管理者,其每個影響者都代表一個節(jié)點,用戶可以瀏覽數(shù)據(jù),也可以對數(shù)據(jù)提出修改的建議,而管理者既可以自行對數(shù)據(jù)進(jìn)行修改,也可以根據(jù)用戶建議進(jìn)行修改,
則影響者網(wǎng)絡(luò)聚類系數(shù)定義為:
式中,σ1表示用戶每瀏覽一次數(shù)據(jù)施加的影響因子,m表示用戶瀏覽總次數(shù);σ2表示用戶每提出一次修改意見施加的影響因子,l表示用戶提出建議總次數(shù);σ3表示管理者每自行修改一次數(shù)據(jù)施加的影響因子,σ4表示管理者每根據(jù)用戶建議修改一次數(shù)據(jù)施加的影響因子,δ1和δ2分別為σ3和σ4權(quán)值,n表示管理者修改總次數(shù);為用戶修改頻率系數(shù),用于表示用戶對數(shù)據(jù)的滿意程度,該系數(shù)越大表明用戶對數(shù)據(jù)的修改越頻繁。
(2)數(shù)據(jù)質(zhì)量評價子模塊13:
采用“三級評價模型”對數(shù)據(jù)質(zhì)量進(jìn)行評價,首先根據(jù)數(shù)據(jù)大小將數(shù)據(jù)分為三類,然后綜合數(shù)據(jù)的除數(shù)據(jù)大小外的其它全部屬性對其數(shù)據(jù)質(zhì)量進(jìn)行評價,具體方法如下:
將樣本數(shù)據(jù)劃分為高質(zhì)量數(shù)據(jù)、中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閾值T1,則該數(shù)據(jù)屬于高質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小大于閥值T2但是小于閥值T1,則該數(shù)據(jù)屬于中質(zhì)量數(shù)據(jù),若數(shù)據(jù)大小小于閥值T2,則該數(shù)據(jù)屬于低質(zhì)量數(shù)據(jù),T1>T2且T1、T2的取值范圍是[1KB,1MB];進(jìn)一步將高質(zhì)量數(shù)據(jù)和低質(zhì)量劃分為不同等級,選取數(shù)據(jù)的其它全部屬性組成向量,并根據(jù)樣本數(shù)據(jù)計算每個等級的各個數(shù)據(jù)屬性的均值,為每個等級建立相應(yīng)的均值向量,新數(shù)據(jù)向量用X=(x1,…,xN)表示,某個等級的均值向量用Y=(y1,…,yN)表示,N表示除數(shù)據(jù)大小外數(shù)據(jù)的其它全部屬性個數(shù),兩個向量的相似度用相似度函數(shù)R(X,Y)表示:
R(X,Y)值越小,則表明相似度越大,反之,則相似度越小,每個數(shù)據(jù)分別計算與不同等級的均值向量的相似度,從而確認(rèn)其質(zhì)量等級。
(3)數(shù)據(jù)質(zhì)量評價子模塊14:
數(shù)據(jù)通過數(shù)據(jù)質(zhì)量評價子模塊后被劃分為不同質(zhì)量等級,根據(jù)數(shù)據(jù)等級不同對數(shù)據(jù)進(jìn)行分級管理。
優(yōu)選地,
(1)數(shù)據(jù)預(yù)處理子模塊
將數(shù)據(jù)劃分為不同領(lǐng)域,根據(jù)用戶需求確定客戶所需數(shù)據(jù)領(lǐng)域,使用上述的三級評價模型對領(lǐng)域中的高質(zhì)量高等級數(shù)據(jù)進(jìn)行篩選,組成一個新的數(shù)據(jù)表K;
(2)有用數(shù)據(jù)構(gòu)建子模塊
經(jīng)過預(yù)處理的數(shù)據(jù),每個數(shù)據(jù)領(lǐng)域包含了不同的分類,引入相關(guān)系數(shù)P篩選有用數(shù)據(jù)分類:
式中,Zs表示新數(shù)據(jù)表K一個分類中數(shù)據(jù)雙向指向的數(shù)量,即對于數(shù)據(jù)A和B,既能從A指向B,也能從B指向A,Z表示數(shù)據(jù)表K一個分類中的相關(guān)數(shù)據(jù)量,其中N表示一個分類中數(shù)據(jù)的總數(shù);
(3)有用數(shù)據(jù)修正子模塊
有用數(shù)據(jù)在使用過程中,會受到人為破壞和用戶投票兩個方面的影響,根據(jù)這兩方面修正后的相關(guān)系數(shù)為P′;同時設(shè)定閾值T,T∈(0,0.1],若P′>T,則表明這個分類是有用數(shù)據(jù);當(dāng)從高質(zhì)量數(shù)據(jù)無法得到符合條件的有用數(shù)據(jù)時,依次在中質(zhì)量數(shù)據(jù)和低質(zhì)量數(shù)據(jù)中進(jìn)行查找符合條件的有用數(shù)據(jù),并且當(dāng)所有數(shù)據(jù)查找完畢后,如果最終得到的P′最大值小于T,或者雖然P′的最大值大于T但是其與閥值T的差值的絕對值小于設(shè)定值C,表明無法找到有用數(shù)據(jù)或者雖然可以找到有用數(shù)據(jù)但是得到的有用數(shù)據(jù)相關(guān)度已經(jīng)低于預(yù)期,則此時自動對管理者發(fā)出提示,修改或者增加相關(guān)數(shù)據(jù);取C=T/5;
(4)有用數(shù)據(jù)分層挖掘模塊
首先掃描數(shù)據(jù)表K,假設(shè)P′的最大值和最小值分別為P′max和P′min,將數(shù)據(jù)表K分割成個非重疊區(qū)域,并行挖掘出局部頻繁項集,其中int為取整函數(shù);然后利用先驗性質(zhì),連接局部頻繁項集得全局候選項集;再次掃描K統(tǒng)計出每個候選項集的實際支持度以確定全局頻繁項集。
有用數(shù)據(jù)修正子模塊中根據(jù)人為破壞和用戶投票進(jìn)行修正的具體修正公式為:
P′=P×(1-Y)×(1+H)
式中,Y表示數(shù)據(jù)受到人為破壞的概率,H表示投票用戶占總?cè)藬?shù)的比例。
本實施例中,引入網(wǎng)絡(luò)聚類系數(shù)對數(shù)據(jù)進(jìn)行描述,綜合考慮了數(shù)據(jù)本身的屬性和數(shù)據(jù)影響者的屬性,提高了分類的準(zhǔn)確率,同時通過用戶修改頻率系數(shù)的引入來減小人工干預(yù),實現(xiàn)了高效檢測數(shù)據(jù)質(zhì)量的目標(biāo);采用三級評價模型,節(jié)約了存儲空間,提高了計算效率;采用全新的相似度函數(shù),放大了較大相對誤差的作用,使得質(zhì)量等級更為科學(xué)精確;引入數(shù)據(jù)修正子模塊對相關(guān)系數(shù)進(jìn)行修正,能夠充分克服人為破壞和用戶投票對數(shù)據(jù)的影響,取C=T/9,提示數(shù)據(jù)范圍增加2.7%,但是計算量增加了2.5%;將基于區(qū)域劃分的關(guān)聯(lián)規(guī)則挖掘應(yīng)用與有用數(shù)據(jù)的分類相結(jié)合,只需要在三級分類后的一個數(shù)據(jù)表中進(jìn)行分層挖掘,只有在當(dāng)前數(shù)據(jù)表沒有符合要求的數(shù)據(jù)時,才會在下一個數(shù)據(jù)表中進(jìn)行挖掘,計算量大幅下降,且該數(shù)據(jù)的挖掘能關(guān)聯(lián)有用數(shù)據(jù)分類,挖掘目的性更強。
最后應(yīng)當(dāng)說明的是,以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對本發(fā)明保護范圍的限制,盡管參照較佳實施例對本發(fā)明作了詳細(xì)地說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解,可以對本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明技術(shù)方案的實質(zhì)和范圍。