基于聚類的大數(shù)據(jù)屬性重要性和辨識度的預警方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于聚類的大數(shù)據(jù)屬性重要性和辨識度的預警方法及系統(tǒng)。本方法為:首先根據(jù)時間段劃分樣本,其次使用抽樣->聚類->計算降維指標進行大數(shù)據(jù)降維,將聚類獲得的簇作為已知的標簽,再次針對降維后的數(shù)據(jù),使用聚類算法對樣本聚類,將聚類結果作為分類標簽,使用屬性重要性和辨識度提取方法,提取由數(shù)據(jù)本身決定的屬性對分類的影響力”標,包括:屬性值辨識度、屬性辨識度、屬性值重要性、屬性重要性;最后,將各個時間段的四項指標分別形成時間序列,使用拐點分析方法進行時間序列的研究,可以做出不同層面的異常值預警,預警效果好。
【專利說明】基于聚類的大數(shù)據(jù)屬性重要性和辨識度的預警方法及系統(tǒng)
【技術領域】
[0001] 本發(fā)明涉及一種時間序列預警方法,尤其涉及一種基于聚類的大數(shù)據(jù)屬性重要性 和辨識度的時間序列預警系統(tǒng)。
【背景技術】
[0002] 在現(xiàn)實生活中,我們經(jīng)常會面對具有一定周期性的復雜時間序列數(shù)據(jù),在每個時 間點對應的截面上,都對應一組樣本數(shù)據(jù),各個時間點之間的樣本數(shù)據(jù)沒有必然的聯(lián)系,從 而不是公知的面板數(shù)據(jù),甚至各時間點的樣本數(shù)量都不具有相等關系。我們希望在對這些 數(shù)據(jù)缺乏足夠了解的情況下,確定每個截面上數(shù)據(jù)之間的相似性,判斷不同屬性對這種相 似性的影響程度,以及這些蘊含在數(shù)據(jù)中的關系在時間序列上如何傳遞和變化,并由此作 出異常情況的預警。
[0003] 這樣的周期時間序列數(shù)據(jù)十分復雜,但在現(xiàn)實生活中卻非常常見。案例1 :某超市 在近一年的時間里,持續(xù)記錄了每天中每個消費者的購物籃數(shù)據(jù),每天的消費者數(shù)量顯然 不固定。但由于會員卡數(shù)據(jù)缺失,我們不能針對每個消費者建立時間序列模型,再分析其消 費習慣的時間序列性質并作出異常預警,我們只能并希望從整體上獲知消費習慣的變化, 特別是購物籃中產(chǎn)品對超市營利能力的重要程度的變化,并對產(chǎn)品采購等經(jīng)營活動作出異 常預警和管理建議。案例2 :某城市統(tǒng)計了近五年來所有高三學生參加高考的各科成績,顯 然每年參加高考的學生人數(shù)不固定,且絕大部分學生只參加一次高考,我們不能針對每個 學生建立時間序列模型,再分析其各科成績的時間序列性質并作出異常預警,我們只能并 希望從整體上獲知學生高考情況的變化,提供預警并對高考改革提供參考意見,這里不存 在明顯的周期,我們可以按照歷史數(shù)據(jù)的數(shù)量確定一個合適的周期,或者以一為周期做拐 點分析。
[0004] 由于我們對數(shù)據(jù)的了解非常缺乏,我們常常需要依據(jù)經(jīng)驗、主觀地將屬性進行分 類,一般進行后續(xù)的研究。例如,在案例1中,我們將消費者按照消費金額分為高、中、低三 類,或者按照消費者年齡分為老、中、青三類,再比較各個分類的眾多數(shù)據(jù)的均值、方差等指 標隨時間序列的變化,由此作出預警。這種分類方法存在兩大缺陷:其一,嚴重依賴于主觀 的分類,使分析結果喪失客觀性;其二,將眾多數(shù)據(jù)壓縮成均值、方差等指標,喪失了大量的 信息,使分析結果不能充分反映情況,預警效果差強人意。
[0005] 對具有一定周期性的復雜時間序列數(shù)據(jù)做出預警時,還會遇到"大數(shù)據(jù)"的問題。 隨著信息技術的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,如何從海量的數(shù)據(jù)中提取有用的 知識成為當務之急。經(jīng)過清洗的已知標簽樣本數(shù)據(jù)匯總到中央數(shù)據(jù)庫。由于樣本量巨大, 形成了維數(shù)大、規(guī)模大、復雜性大的大數(shù)據(jù)形態(tài),要挖掘其中有意義的知識和內容以指導實 際生產(chǎn)和具體應用,需要首先進行降維處理,即維數(shù)約簡,它一方面可以解決"維數(shù)災難", 緩解大數(shù)據(jù)中"信息豐富但知識貧乏"的問題,降低計算的復雜度;另一方面可以引導人們 更好地認識和理解數(shù)據(jù)。數(shù)據(jù)降維的方法很多,例如:根據(jù)數(shù)據(jù)本身的特性,可以分為線性 降維和非線性降維兩種;根據(jù)是否考慮和利用數(shù)據(jù)的監(jiān)督信息,可以分為無監(jiān)督降維、有監(jiān) 督降維和半監(jiān)督降維三種;根據(jù)是否需要保持數(shù)據(jù)的結構,可以分為全局保持降維、局部保 持降維和全局與局部保持一致降維等。
【發(fā)明內容】
[0006] 針對現(xiàn)有技術中存在的技術問題,本發(fā)明的目的在于提供一種基于聚類的大數(shù)據(jù) 屬性重要性和辨識度的時間序列預警方法和系統(tǒng)。
[0007] 我們首先根據(jù)實際需要選擇時間段,根據(jù)時間段劃分樣本,以便進行比較。其次使 用"抽樣_>聚類_>計算降維指標"的流程進行大數(shù)據(jù)降維,將聚類獲得的簇作為已知的標 簽,采用完全客觀的算法來選擇對樣本的已知標簽具有較大影響力的維度。也就是說,這些 在降維中被保留下來的維度不是主觀確定的,不依賴于經(jīng)驗模型。再次針對降維后的數(shù)據(jù), 使用聚類分析(clustering)算法將樣本進行聚類,獲得數(shù)據(jù)客觀蘊含的相似性,再將聚類 結果(簇,cluster)作為分類標簽,使用屬性重要性和辨識度提取方法,提取由數(shù)據(jù)本身決 定的"屬性對分類的影響力"指標,這些指標包括:屬性值辨識度、屬性辨識度、屬性值重要 性、屬性重要性。相比而言,在數(shù)據(jù)挖掘(Data Mining)的決策樹(Decision Tree)算法中, 我們主要使用信息增益、增益率、Gini指標來衡量屬性對分類的影響力,它們分別應用于三 種最常見的決策樹算法:ID3、C4. 5、CART。本發(fā)明可以獲得比上述傳統(tǒng)算法更加全面的屬 性重要程度信息。最后,將各個時間段的四項指標分別形成時間序列,使用拐點分析方法進 行時間序列的研究,可以做出不同層面的異常值預警,預警效果好。
[0008] 本發(fā)明的技術方案為:
[0009] -種基于聚類的大數(shù)據(jù)屬性重要性和辨識度的預警方法,其步驟為:
[0010] 1)中央服務器從各終端服務器采集樣本數(shù)據(jù),并按照時間段對樣本數(shù)據(jù)進行劃 分,每個時間段對應一樣本數(shù)據(jù)集;
[0011] 2)對于每一時間段的樣本數(shù)據(jù)集,從中抽取若干樣本構建一抽樣樣本集合,并對 其進行聚類分析,得到若干簇;將聚類得到的簇作為樣本的標簽,對樣本進行標注,然后根 據(jù)選取的屬性降維指標計算所述抽樣樣本集合中已標注樣本每一屬性的屬性值辨識度、屬 性辨識度和或屬性值重要性、屬性重要性;
[0012] 3)分別根據(jù)屬性值辨識度、屬性辨識度和或屬性值重要性、屬性重要性對屬性進 行排序,選取若干屬性作為大數(shù)據(jù)降維后保留的屬性;
[0013] 4)對屬性降維后的全體樣本數(shù)據(jù)進行聚類,將聚類得到的簇作為樣本的標簽,對 樣本進行標注;
[0014] 5)計算步驟4)中已標注樣本每一屬性i的設定監(jiān)控指標,然后根據(jù)屬性i的每一 所選監(jiān)控指標在各個時間段的取值構建該屬性i的各監(jiān)控指標常態(tài)區(qū)域;所述設定監(jiān)控指 標為屬性值辨識度、和或屬性辨識度、和或屬性值重要性、和或屬性重要性;
[0015] 6)計算該屬性i當前時刻的設定監(jiān)控指標的指標值,如果某一項設定指標值超出 相應的常態(tài)區(qū)域,則對其進行監(jiān)控并計算該項監(jiān)控指標下一時刻的指標值,如果繼續(xù)超出 相應的常態(tài)區(qū)域,則對該屬性i的該項指監(jiān)控標進行預警;
[0016] 其中,屬性值辨識度的計算方法為:選取樣本一屬性i的一屬性值a,計算具有該 屬性值a的樣本屬于標簽j的條件概率值,以及未增加該屬性值條件時樣本屬于該標簽j 的概率值;將所述條件概率值與所述概率值的差值作為該屬性值a對于該標簽j的屬性值 辨識度;將該屬性值a對于所有標簽的屬性值辨識度的平方平均數(shù)作為該屬性值a的屬性 值辨識度;
[0017] 屬性辨識度的計算方法為:根據(jù)屬性i所有屬性值辨識度計算該屬性i的屬性辨 識度;
[0018] 屬性值重要性的計算方法為:將樣本屬性i取屬性值a時屬于標簽j的樣本量乘 以該屬性值a對于該標簽j的屬性辨識度,得到該屬性值a對于該標簽j的屬性值重要性; 將該屬性值a對于所有標簽的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要 性;
[0019] 屬性重要性的計算方法為:根據(jù)屬性i所有屬性值重要性計算該屬性i的屬性重 要性。進一步的,對該屬性i所有屬性值的屬性值辨識度的平方平均數(shù)作為該屬性i的屬 性辨識度。
[0020] 進一步的,對該屬性i所有屬性值的屬性值重要性的平方平均數(shù)作為該屬性i的 屬性重要性。
[0021] 進一步的,采用基于條件概率和貝葉斯算法計算所述辨識度。
[0022] 本發(fā)明的系統(tǒng)如圖2所示,其包括:
[0023] 1.數(shù)據(jù)降維模塊
[0024] 對采集的樣本進行抽樣和聚類分析,得到若干簇,將聚類得到的簇作為樣本的標 簽,對樣本進行標注。計算標注樣本每一屬性的屬性值辨識度、屬性辨識度以及屬性值重要 性、屬性重要性,提取由數(shù)據(jù)本身決定的"屬性對相似性的影響力"指標;然后根據(jù)指標計算 結果對屬性排序;選取排序靠前的屬性對樣本數(shù)據(jù)進行降維。
[0025] 本發(fā)明定義了四個相互關聯(lián)但又互不相同的影響力指標:屬性值辨識度、屬性辨 識度、屬性值重要性、屬性重要性,從而更加全面準確的刻畫"屬性對分類的影響力"大小。 下面簡要介紹這四個指標的概念,具體計算方法詳見下文"【具體實施方式】"部分。
[0026] (1)屬性值辨識度和屬性辨識度
[0027] 我們常說的"辨識度"有兩種理解:第一,擁有該屬性的樣本是被辨認出來的能力, 一個歌聲辨識度高的歌手只需要演唱一句就可以讓大家認出他是誰,一個相貌辨識度高的 演員即使穿著平常走在人群中也可以被大家發(fā)現(xiàn)。第二,是擁有該屬性的樣本被準確分類 的能力,例如,某影視基地同時開拍一部清宮劇和一部現(xiàn)代劇,面對一個腦后垂著長辮子的 男演員,即使他沒有說明自己屬于哪個劇組,也基本可以斷定他屬于清宮劇劇組,可見"性 別=男、發(fā)型=長辮子"的屬性值對"劇組"這一分類的辨識度很高。本專利定義的屬性值 辨識度和屬性辨識度采用的是后一種概念。
[0028] (2)屬性值重要性和屬性重要性
[0029] 屬性辨識度概念沒有考慮具有該屬性的樣本量,為了進一步平衡屬性值的辨別能 力和對應的樣本量,在"辨識度"概念的基礎上定義"重要性"概念。粗略的說,重要性等于 辨識度乘以樣本量。
[0030] (3) "辨識度"和"重要性"
[0031] 我們選擇"辨識度"和"重要性"兩個指標作為"屬性對分類的影響力"的判斷指 標,是因為這兩個指標在實際操作中具有完全不同的意義。
[0032] 考慮青少年犯罪影響因素案例,如果通過聚類分析獲得兩個簇,分別代表"暴力犯 罪"和"非暴力犯罪"。其中,青少年"是否吸毒=是"的屬性值對"暴力犯罪"的簇具有極 高的辨識度,也就是吸毒的青少年如果參與犯罪,這主要是暴力犯罪,可見應該注意重點排 查、干預這部分青少年的行為,采取針對其個人的預防監(jiān)控措施。然而,由于一萬個青少年 中吸毒的樣本非常少,這個屬性值的重要性并不大,重要性較高的屬性值可能是"是否打 架斗毆=是",該的屬性值涉及的樣本較多,更適合采用大面積宣傳教育的方式進行預防干 預,從而提1?干預效率。
[0033] 本發(fā)明可以建立在任何一種公知的聚類分析算法結果之上,提取由數(shù)據(jù)本身決定 的"屬性對相似性的影響力"指標,這些指標包括:屬性值辨識度、屬性辨識度、屬性值重要 性、屬性重要性。本發(fā)明將聚類分析獲得的簇作為已知的分類標簽,由此,"屬性對相似性的 影響力"指標等價于"屬性對已知標簽的影響力"指標。
[0034] 這是因為,使用聚類分析方法讓數(shù)據(jù)通過無監(jiān)督學習生成若干"簇",這些簇是基 于距離或相似度來確定的,滿足簇中的對象彼此相似,而與其他簇中的對象相異。粗略的 看,聚類的結果與屬性和屬性值沒有直接關聯(lián),即不是由某些屬性來劃分的。但是,考慮到 距離或相似度的定義基于屬性和屬性值,因此屬性和屬性值對簇的形成具有實際的影響, 而且不同的屬性和屬性值的影響力并不相同。因此,將聚類分析獲得的簇作為已知的分類 標簽,進而提取屬性對分類的影響力的四項指標具有實際意義。
[0035] 2.指標計算模塊。
[0036] 計算已標注樣本每一屬性的所選監(jiān)控指標,所選監(jiān)控指標可以是屬性值辨識度、 屬性辨識度以及屬性值重要性、屬性重要性的一項或多項。
[0037] 3.預警分析模塊
[0038] 使用的全新的拐點分析技術,通過歷史數(shù)據(jù)定義常態(tài)區(qū)域,并通過數(shù)據(jù)點及其發(fā) 展趨勢與常態(tài)區(qū)域的關系,將數(shù)據(jù)分為三種狀態(tài):可控狀態(tài)、監(jiān)控狀態(tài)、預警狀態(tài)。將拐點分 析技術分別應用于屬性值辨識度、屬性辨識度、屬性值重要性、屬性重要性等四項指標,得 出層次豐富的預警結論。
[0039] 與現(xiàn)有技術相比,本發(fā)明的積極效果為:
[0040] 本發(fā)明公開的基于屬性重要性和辨識度的時間序列預警方法可以獲得更加全面 的屬性重要程度信息。本發(fā)明將各個時間段的四項指標分別形成時間序列,使用拐點分析 方法進行時間序列的研究,可以做出不同層面的異常值預警,預警效果好。
[0041] 本發(fā)明可應用于公安情報數(shù)據(jù)分析、反腐敗數(shù)據(jù)分析、居民家庭用電情況分析、交 通出行模式分析、疾病特征數(shù)據(jù)分析、醫(yī)療數(shù)據(jù)分析、客戶市場細分等多種領域,提取"屬性 對相似性的影響力"指標,具有較強的普適性。
【專利附圖】
【附圖說明】
[0042] 圖1為基于聚類的大數(shù)據(jù)屬性重要性和辨識度的時間序列預警系統(tǒng)流程圖;
[0043] 圖2為基于聚類的大數(shù)據(jù)屬性重要性和辨識度的時間序列預警系統(tǒng)結構圖;
[0044] 圖3為根據(jù)案例數(shù)據(jù)繪制的常態(tài)區(qū)域圖;
[0045] 圖4為根據(jù)案例數(shù)據(jù)判斷數(shù)值點的狀態(tài)圖;
[0046] 圖5為應用實例的模型形態(tài)圖;
[0047] 圖6為應用實例異態(tài)計算和分析的相關結果圖。
【具體實施方式】
[0048] 本發(fā)明公開了一種基于聚類的大數(shù)據(jù)屬性重要性和辨識度的時間序列預警方法 和系統(tǒng),可以得到多層次的預警結果,如圖1所示,本發(fā)明的具體操作步驟如下。
[0049] 步驟1 :數(shù)據(jù)采集。
[0050] 數(shù)據(jù)采集模塊是本系統(tǒng)的硬件基礎。該模塊將待分析的樣本數(shù)據(jù)從分布在各地的 終端數(shù)據(jù)庫中傳輸匯總到中央數(shù)據(jù)庫。
[0051] 步驟2:數(shù)據(jù)清洗。
[0052] 通過數(shù)據(jù)采集終端匯總得到的數(shù)據(jù),難免存在不完整、錯誤、重復等現(xiàn)象。數(shù)據(jù)清 洗步驟用于過濾這些不符合要求的數(shù)據(jù),過濾的結果將提交給相關主管部門,確認是直接 過濾掉還是作為異常值提取出來做進一步分析。
[0053] 步驟3 :時間段選擇及劃分。
[0054] 根據(jù)客戶實際需求,將樣本數(shù)據(jù)劃分為若干時間段,針對每個時間段重復步驟4 和步驟5。本系統(tǒng)提供客戶時間段劃分的選擇功能。
[0055] 步驟4:數(shù)據(jù)降維。
[0056] 經(jīng)過清洗和時間段劃分的的樣本數(shù)據(jù)匯總到中央數(shù)據(jù)庫。由于樣本量(N1)巨大, 形成了維數(shù)大、規(guī)模大、復雜性大的大數(shù)據(jù)形態(tài),要挖掘其中有意義的知識和內容以指導實 際生產(chǎn)和具體應用,需要首先進行降維處理,即維數(shù)約簡,它一方面可以解決"維數(shù)災難", 緩解大數(shù)據(jù)中"信息豐富但知識貧乏"的問題,降低計算的復雜度;另一方面可以引導人們 更好地認識和理解數(shù)據(jù)。數(shù)據(jù)降維步驟包括以下子步驟:
[0057] 步驟4.1:數(shù)據(jù)抽樣。
[0058] 對全體樣本進行系統(tǒng)抽樣(systematicsampling)。系統(tǒng)抽樣,又稱機械抽樣、等距 抽樣。具體而言:
[0059] (1)由系統(tǒng)硬件運轉能力確定適合的抽樣樣本量(N2),定義壓縮比(M)為:
[0060] M = N1+N2;
[0061] (2)將全體樣本數(shù)據(jù)按某一順序排列起來,標注唯一的序號;
[0062] (3)從前Μ個樣本中隨機的選出一個樣本作為抽樣樣本,記其序號為k ;
[0063] (4)將序號為k、k+M、k+2*M、...、k+(N2-l)*M的N2個樣本作為抽樣結果。
[0064] 步驟4. 2 :數(shù)據(jù)聚類。
[0065] 本步驟可以建立在任何一種公知的聚類分析算法結果之上,通過對抽樣后的樣本 數(shù)據(jù)進行聚類分析,得到若干簇。
[0066] 步驟4. 3 :降維指標選擇。
[0067] 針對抽樣得到的N2個樣本以及聚類獲得的若干簇,可以通過后續(xù)的步驟計算降 維指標(即"屬性對相似性的影響力"),并根據(jù)"影響力"的排序來確定降維后保留的屬性。 本系統(tǒng)提供降維指標的選擇,可選擇的降維指標有:
[0068] 降維指標1 :屬性辨識度指標;
[0069] 降維指標2 :屬性重要性指標。
[0070] 降維指標選擇主要看待分析的問題中"樣本量"因素是否重要,建議如下:
[0071] (1)如果"樣本量"因素不重要,應選擇屬性辨識度指標給出影響力排序;
[0072] (2)如果"樣本量"因素重要,應選擇屬性重要性指標給出影響力排序;
[0073] (3)如果想綜合考慮上述兩種情況,應結合這兩個指標給出綜合性的排序。
[0074] 步驟4. 4 :降維指標計算。
[0075] 計算降維指標,也就是計算每個屬性"對相似性的影響力",具體包括:屬性辨識度 和屬性重要性,同時還需要計算兩個過渡性的指標:屬性值辨識度和屬性值重要性。我們以 案例為基礎,說明這四項指標的主要計算步驟。系統(tǒng)將根據(jù)用戶在步驟3. 2中的選擇情況 計算相應的指標。
[0076] 四項指標計算案例:
[0077] -個包含100人的研究樣本,其中包含50名女性和50名男性,其中20人有前科。 通過聚類分析獲得了兩個"簇",其中"簇1"包含10個樣本,絕大部分是犯有盜竊罪的人, 而"簇2"包含90個樣本,絕大部分是未犯有盜竊罪的人。其他數(shù)據(jù)如表1。
[0078] 表1 :四項指標計算案例
[0079]
【權利要求】
1. 一種基于聚類的大數(shù)據(jù)屬性重要性和辨識度的預警方法,其步驟為: 1) 中央服務器從各終端服務器采集樣本數(shù)據(jù),并按照時間段對樣本數(shù)據(jù)進行劃分,每 個時間段對應一樣本數(shù)據(jù)集; 2) 對于每一時間段的樣本數(shù)據(jù)集,從中抽取若干樣本構建一抽樣樣本集合,并對其進 行聚類分析,得到若干簇;將聚類得到的簇作為樣本的標簽,對樣本進行標注,然后根據(jù)選 取的屬性降維指標計算所述抽樣樣本集合中已標注樣本每一屬性的屬性值辨識度、屬性辨 識度和或屬性值重要性、屬性重要性; 3) 分別根據(jù)屬性值辨識度、屬性辨識度和或屬性值重要性、屬性重要性對屬性進行排 序,選取若干屬性作為大數(shù)據(jù)降維后保留的屬性; 4) 對屬性降維后的全體樣本數(shù)據(jù)進行聚類,將聚類得到的簇作為樣本的標簽,對樣本 進行標注; 5) 計算步驟4)中已標注樣本每一屬性i的設定監(jiān)控指標,然后根據(jù)屬性i的每一所選 監(jiān)控指標在各個時間段的取值構建該屬性i的各監(jiān)控指標常態(tài)區(qū)域;所述設定監(jiān)控指標為 屬性值辨識度、和或屬性辨識度、和或屬性值重要性、和或屬性重要性; 6) 計算該屬性i當前時刻的設定監(jiān)控指標的指標值,如果某一項設定指標值超出相應 的常態(tài)區(qū)域,則對其進行監(jiān)控并計算該項監(jiān)控指標下一時刻的指標值,如果繼續(xù)超出相應 的常態(tài)區(qū)域,則對該屬性i的該項指監(jiān)控標進行預警; 其中,屬性值辨識度的計算方法為:選取樣本一屬性i的一屬性值a,計算具有該屬性 值a的樣本屬于標簽j的條件概率值,以及未增加該屬性值條件時樣本屬于該標簽j的概 率值;將所述條件概率值與所述概率值的差值作為該屬性值a對于該標簽j的屬性值辨識 度;將該屬性值a對于所有標簽的屬性值辨識度的平方平均數(shù)作為該屬性值a的屬性值辨 識度; 屬性辨識度的計算方法為:根據(jù)屬性i所有屬性值辨識度計算該屬性i的屬性辨識 度; 屬性值重要性的計算方法為:將樣本屬性i取屬性值a時屬于標簽j的樣本量乘以該 屬性值a對于該標簽j的屬性辨識度,得到該屬性值a對于該標簽j的屬性值重要性;將該 屬性值a對于所有標簽的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要性; 屬性重要性的計算方法為:根據(jù)屬性i所有屬性值重要性計算該屬性i的屬性重要性。
2. 如權利要求1所述的方法,其特征在于對該屬性i所有屬性值的屬性值辨識度的平 方平均數(shù)作為該屬性i的屬性辨識度。
3. 如權利要求1所述的方法,其特征在于對該屬性i所有屬性值的屬性值重要性的平 方平均數(shù)作為該屬性i的屬性重要性。
4. 如權利要求1或2或3所述的方法,其特征在于采用基于條件概率和貝葉斯算法計 算所述辨識度。
5. -種基于聚類的大數(shù)據(jù)屬性重要性和辨識度的預警系統(tǒng),其特征在于包括多個終端 服務器和一中央服務器,所述終端服務器通過網(wǎng)絡與所述中央服務器連接;其中,所述中央 服務器包括數(shù)據(jù)采集模塊、數(shù)據(jù)降維模塊、指標計算模塊和預警分析模塊; 所述數(shù)據(jù)采集模塊,用于從各終端服務器采集樣本數(shù)據(jù),并按照時間段對樣本數(shù)據(jù)進 行劃分,每個時間段對應一樣本數(shù)據(jù)集; 所述數(shù)據(jù)降維模塊,用于從每一時間段的樣本數(shù)據(jù)集中抽取若干樣本構建一抽樣樣本 集合并對其進行聚類分析,得到若干簇;將聚類得到的簇作為樣本的標簽,對樣本進行標 注,然后根據(jù)選取的屬性降維指標計算所述抽樣樣本集合中已標注樣本每一屬性的屬性值 辨識度、屬性辨識度和或屬性值重要性、屬性重要性,并根據(jù)計算結果對屬性進行排序,選 取若干屬性作為大數(shù)據(jù)降維后保留的屬性; 所述指標計算模塊,用于計算標注樣本每一屬性i的每一所選監(jiān)控指標在各個時間段 的取值;所述設定監(jiān)控指標為屬性值辨識度、和或屬性辨識度、和或屬性值重要性、和或屬 性重要性; 所述預警分析模塊,用于根據(jù)屬性i的每一所選監(jiān)控指標在各個時間段的取值構建該 屬性i的各監(jiān)控指標常態(tài)區(qū)域構建該屬性i的各監(jiān)控指標常態(tài)區(qū)域;如果屬性i當前時刻 的某一設定監(jiān)控指標的指標值超出相應的常態(tài)區(qū)域,則對其進行監(jiān)控并計算該項監(jiān)控指標 下一時刻的指標值,如果繼續(xù)超出相應的常態(tài)區(qū)域,則對該屬性i的該項指監(jiān)控標進行預 警; 其中,屬性值辨識度的計算方法為:選取樣本一屬性i的一屬性值a,計算具有該屬性 值a的樣本屬于標簽j的條件概率值,以及未增加該屬性值條件時樣本屬于該標簽j的概 率值;將所述條件概率值與所述概率值的差值作為該屬性值a對于該標簽j的屬性值辨識 度;將該屬性值a對于所有標簽的屬性值辨識度的平方平均數(shù)作為該屬性值a的屬性值辨 識度; 屬性辨識度的計算方法為:根據(jù)屬性i所有屬性值辨識度計算該屬性i的屬性辨識 度; 屬性值重要性的計算方法為:將樣本屬性i取屬性值a時屬于標簽j的樣本量乘以該 屬性值a對于該標簽j的屬性辨識度,得到該屬性值a對于該標簽j的屬性值重要性;將該 屬性值a對于所有標簽的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要性; 屬性重要性的計算方法為:根據(jù)屬性i所有屬性值重要性計算該屬性i的屬性重要性。
6. 如權利要求5所述的系統(tǒng),其特征在于對該屬性i所有屬性值的屬性值辨識度的平 方平均數(shù)作為該屬性i的屬性辨識度;對該屬性i所有屬性值的屬性值重要性的平方平均 數(shù)作為該屬性i的屬性重要性。
7. 如權利要求5或6所述的系統(tǒng),其特征在于采用基于條件概率和貝葉斯算法計算所 述辨識度。
【文檔編號】G06F17/30GK104123368SQ201410356010
【公開日】2014年10月29日 申請日期:2014年7月24日 優(yōu)先權日:2014年7月24日
【發(fā)明者】王電, 陳慶彬, 黃煜可 申請人:中國軟件與技術服務股份有限公司