一種基于聚類的大數(shù)據(jù)態(tài)勢分析預警方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種基于聚類的大數(shù)據(jù)態(tài)勢分析預警方法及系統(tǒng)。本方法為:1)服務器從各終端采集樣本,并按照時間段對樣本劃分;2)對于每一時間段的樣本數(shù)據(jù)集聚類,得到的簇作為樣本的標簽進行標注,然后根據(jù)選取的屬性降維指標計算已標注樣本每一屬性的屬性值辨識度、屬性辨識度和或?qū)傩灾抵匾?、屬性重要性,對屬性進行排序,選取若干屬性作為大數(shù)據(jù)降維后保留的屬性;3)對每一屬性降維后的樣本數(shù)據(jù)集聚類,將得到的簇作為樣本數(shù)據(jù)集的態(tài)勢指數(shù),建一態(tài)勢指數(shù)時間序列,確定一常態(tài)區(qū)域;4)計算當前時刻所采集樣本數(shù)據(jù)的態(tài)勢指數(shù),如果超出常態(tài)區(qū)域,則對其監(jiān)控,并計算下一時刻所采集樣本數(shù)據(jù)的態(tài)勢指數(shù),如果仍超出常態(tài)區(qū)域,則預警。
【專利說明】一種基于聚類的大數(shù)據(jù)態(tài)勢分析預警方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種預警方法,尤其涉及一種基于聚類的大數(shù)據(jù)態(tài)勢分析預警方法及 系統(tǒng)。
【背景技術(shù)】
[0002] 在現(xiàn)實生活中,我們經(jīng)常會面對具有一定周期性的復雜時間序列數(shù)據(jù),在每個時 間點對應的截面上,都對應一組樣本數(shù)據(jù),各個時間點之間的樣本數(shù)據(jù)沒有必然的聯(lián)系,從 而不是公知的面板數(shù)據(jù),甚至各時間點的樣本數(shù)量都不具有相等關(guān)系。我們希望在對這些 數(shù)據(jù)缺乏足夠了解的情況下,確定每個截面上數(shù)據(jù)之間的相似性,判斷不同屬性對這種相 似性的影響程度,以及這些蘊含在數(shù)據(jù)中的關(guān)系在時間序列上如何傳遞和變化,并由此作 出異常情況的預警。
[0003] 由于我們對數(shù)據(jù)的了解非常缺乏,我們常常需要依據(jù)經(jīng)驗、主觀地將屬性進行分 類,一般進行后續(xù)的研究。例如,對于消費者的購物籃數(shù)據(jù),我們將消費者按照消費金額分 為高、中、低三類,或者按照消費者年齡分為老、中、青三類,再比較各個分類的眾多數(shù)據(jù)的 均值、方差等指標隨時間序列的變化,由此作出預警。這種分類方法存在兩大缺陷:其一,嚴 重依賴于主觀的分類,使分析結(jié)果喪失客觀性;其二,將眾多數(shù)據(jù)壓縮成均值、方差等指標, 喪失了大量的信息,使分析結(jié)果不能充分反映情況,預警效果差強人意。
[0004] 對具有一定周期性的復雜時間序列數(shù)據(jù)做出預警時,還會遇到"大數(shù)據(jù)"的問題。 隨著信息技術(shù)的高速發(fā)展,人們積累的數(shù)據(jù)量急劇增長,如何從海量的數(shù)據(jù)中提取有用的 知識成為當務之急。經(jīng)過清洗的已知標簽樣本數(shù)據(jù)匯總到中央數(shù)據(jù)庫。由于樣本量巨大, 形成了維數(shù)大、規(guī)模大、復雜性大的大數(shù)據(jù)形態(tài),要挖掘其中有意義的知識和內(nèi)容以指導實 際生產(chǎn)和具體應用,需要首先進行降維處理,即維數(shù)約簡,它一方面可以解決"維數(shù)災難", 緩解大數(shù)據(jù)中"信息豐富但知識貧乏"的問題,降低計算的復雜度;另一方面可以引導人們 更好地認識和理解數(shù)據(jù)。數(shù)據(jù)降維的方法很多,例如:根據(jù)數(shù)據(jù)本身的特性,可以分為線性 降維和非線性降維兩種;根據(jù)是否考慮和利用數(shù)據(jù)的監(jiān)督信息,可以分為無監(jiān)督降維、有監(jiān) 督降維和半監(jiān)督降維三種;根據(jù)是否需要保持數(shù)據(jù)的結(jié)構(gòu),可以分為全局保持降維、局部保 持降維和全局與局部保持一致降維等。
【發(fā)明內(nèi)容】
[0005] 針對現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明的目的在于提供一種基于聚類的大數(shù)據(jù) 態(tài)勢分析預警方法和系統(tǒng)。
[0006] 我們首先根據(jù)實際需要選擇時間段,根據(jù)時間段劃分樣本,以便進行比較。其次使 用"抽樣-> 聚類-> 計算降維指標"的流程進行大數(shù)據(jù)降維,將聚類獲得的簇作為已知的標 簽,采用完全客觀的算法來選擇對樣本的已知標簽具有較大影響力的維度。也就是說,這些 在降維中被保留下來的維度不是主觀確定的,不依賴于經(jīng)驗模型。再次針對降維后的數(shù)據(jù), 使用聚類分析(clustering)算法將樣本進行聚類,獲得數(shù)據(jù)客觀蘊含的相似性,再將聚類 結(jié)果(簇,cluster)的個數(shù)定義為態(tài)勢指數(shù)。最后,將各個時間段的態(tài)勢指數(shù)形成時間序 列,使用拐點分析方法進行異常值預警,預警方法簡便、效果較好。
[0007] 本發(fā)明公開的基于聚類的態(tài)勢分析預警方法,其創(chuàng)新點在于定義了一種全新的宏 觀指標"態(tài)勢指數(shù)",即截面數(shù)據(jù)中聚類獲得的簇的數(shù)量,它反映了數(shù)據(jù)內(nèi)部蘊含的子結(jié)構(gòu) 的數(shù)量,由此可以對每個時間點的截面數(shù)據(jù)中蘊含的子結(jié)構(gòu)的數(shù)量變化進行預警,是常用 的截面數(shù)據(jù)樣本量指標的有力補充。
[0008] 本發(fā)明的技術(shù)方案為:
[0009] -種基于聚類的大數(shù)據(jù)態(tài)勢分析預警方法,其步驟為:
[0010] 1)中央服務器從各終端服務器采集樣本數(shù)據(jù),并按照時間段對樣本數(shù)據(jù)進行劃 分,每個時間段對應一樣本數(shù)據(jù)集;
[0011] 2)對于每一時間段的樣本數(shù)據(jù)集,從中抽取若干樣本構(gòu)建一抽樣樣本集合,并對 其進行聚類分析,得到若干簇;將聚類得到的簇作為樣本的標簽,對樣本進行標注,然后根 據(jù)選取的屬性降維指標計算所述抽樣樣本集合中已標注樣本每一屬性的屬性值辨識度、屬 性辨識度和或?qū)傩灾抵匾?、屬性重要性?br>
[0012] 3)分別根據(jù)屬性值辨識度、屬性辨識度和或?qū)傩灾抵匾?、屬性重要性對屬性進 行排序,選取若干屬性作為大數(shù)據(jù)降維后保留的屬性;
[0013] 4)對每一屬性降維后的所述樣本數(shù)據(jù)集進行聚類,將聚類得到的簇作為所述樣本 數(shù)據(jù)集的態(tài)勢指數(shù);
[0014] 5)根據(jù)各個時間段的態(tài)勢指數(shù)構(gòu)建一態(tài)勢指數(shù)時間序列;然后根據(jù)該態(tài)勢指數(shù) 時間序列確定一常態(tài)區(qū)域;
[0015] 6)計算當前時刻所采集樣本數(shù)據(jù)的態(tài)勢指數(shù),如果超出所述常態(tài)區(qū)域,則對其進 行監(jiān)控,并計算下一時刻所采集樣本數(shù)據(jù)的態(tài)勢指數(shù),如果仍超出所述常態(tài)區(qū)域,則進行預 警;
[0016] 其中,屬性值辨識度的計算方法為:選取樣本一屬性i的一屬性值a,計算具有該 屬性值a的樣本屬于標簽j的條件概率值,以及未增加該屬性值條件時樣本屬于該標簽j 的概率值;將所述條件概率值與所述概率值的差值作為該屬性值a對于該標簽j的屬性值 辨識度;將該屬性值a對于所有標簽的屬性值辨識度的平方平均數(shù)作為該屬性值a的屬性 值辨識度;
[0017] 屬性辨識度的計算方法為:根據(jù)屬性i所有屬性值辨識度計算該屬性i的屬性辨 識度;
[0018] 屬性值重要性的計算方法為:將樣本屬性i取屬性值a時屬于標簽j的樣本量乘 以該屬性值a對于該標簽j的屬性辨識度,得到該屬性值a對于該標簽j的屬性值重要性; 將該屬性值a對于所有標簽的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要 性;
[0019] 屬性重要性的計算方法為:根據(jù)屬性i所有屬性值重要性計算該屬性i的屬性重 要性。
[0020] 進一步的,對該屬性i所有屬性值的屬性值辨識度平方平均數(shù)作為該屬性i的屬 性辨識度。
[0021] 進一步的,采用基于條件概率和貝葉斯算法計算所述辨識度。
[0022] 進一步的,將屬性i所有屬性值的屬性重要性的平方平均數(shù)作為該屬性的屬性重 要性。
[0023] 進一步的,對每一時間段的樣本數(shù)據(jù)進行系統(tǒng)抽樣得到所述抽樣樣本集合。
[0024] 本發(fā)明的系統(tǒng)如圖3所示,其主要包括:
[0025] 1、數(shù)據(jù)降維模塊
[0026] 對采集的樣本進行抽樣和聚類分析,得到若干簇,將聚類得到的簇作為樣本的標 簽,對樣本進行標注。計算標注樣本每一屬性的屬性值辨識度、屬性辨識度以及屬性值重要 性、屬性重要性,提取由數(shù)據(jù)本身決定的"屬性對相似性的影響力"指標;然后根據(jù)指標計算 結(jié)果對屬性排序;選取排序靠前的屬性對樣本數(shù)據(jù)進行降維。本發(fā)明定義了四個相互關(guān)聯(lián) 但又互不相同的影響力指標:屬性值辨識度、屬性辨識度、屬性值重要性、屬性重要性,從而 更加全面準確的刻畫"屬性對分類的影響力"大小。下面簡要介紹這四個指標的概念,具體 計算方法詳見下文"【具體實施方式】"部分。
[0027] (1)屬性值辨識度和屬性辨識度
[0028] 我們常說的"辨識度"有兩種理解:第一,擁有該屬性的樣本是被辨認出來的能力, 一個歌聲辨識度高的歌手只需要演唱一句就可以讓大家認出他是誰,一個相貌辨識度高的 演員即使穿著平常走在人群中也可以被大家發(fā)現(xiàn)。第二,是擁有該屬性的樣本被準確分類 的能力,例如,某影視基地同時開拍一部清宮劇和一部現(xiàn)代劇,面對一個腦后垂著長辮子的 男演員,即使他沒有說明自己屬于哪個劇組,也基本可以斷定他屬于清宮劇劇組,可見"性 別=男、發(fā)型=長辮子"的屬性值對"劇組"這一分類的辨識度很高。本專利定義的屬性值 辨識度和屬性辨識度采用的是后一種概念。
[0029] (2)屬性值重要性和屬性重要性
[0030] 屬性辨識度概念沒有考慮具有該屬性的樣本量,為了進一步平衡屬性值的辨別能 力和對應的樣本量,在"辨識度"概念的基礎(chǔ)上定義"重要性"概念。粗略的說,重要性等于 辨識度乘以樣本量。
[0031] (3) "辨識度"和"重要性"
[0032] 我們選擇"辨識度"和"重要性"兩個指標作為"屬性對分類的影響力"的判斷指 標,是因為這兩個指標在實際操作中具有完全不同的意義。
[0033] 考慮青少年犯罪影響因素案例,如果通過聚類分析獲得兩個簇,分別代表"暴力犯 罪"和"非暴力犯罪"。其中,青少年"是否吸毒=是"的屬性值對"暴力犯罪"的簇具有極 高的辨識度,也就是吸毒的青少年如果參與犯罪,這主要是暴力犯罪,可見應該注意重點排 查、干預這部分青少年的行為,采取針對其個人的預防監(jiān)控措施。然而,由于一萬個青少年 中吸毒的樣本非常少,這個屬性值的重要性并不大,重要性較高的屬性值可能是"是否打 架斗毆=是",該的屬性值涉及的樣本較多,更適合采用大面積宣傳教育的方式進行預防干 預,從而提1?干預效率。
[0034] 2.態(tài)勢指數(shù)計算模塊
[0035] 本方法通過對屬性降維后的樣本數(shù)據(jù)集進行聚類,將聚類得到的簇作為對應樣本 數(shù)據(jù)集的態(tài)勢指數(shù)。數(shù)據(jù)采集模塊按照時間段對對采集的樣本數(shù)據(jù)進行劃分,每個時間段 對應一樣本數(shù)據(jù)集。
[0036] 3、拐點分析模塊
[0037] 本發(fā)明使用全新的拐點分析技術(shù),通過歷史數(shù)據(jù)計算態(tài)勢指數(shù)確定出一常態(tài)區(qū) 域,并通過數(shù)據(jù)點及其發(fā)展趨勢與常態(tài)區(qū)域的關(guān)系,將數(shù)據(jù)分為三種狀態(tài):可控狀態(tài)、監(jiān)控 狀態(tài)、預警狀態(tài)。
[0038] 如圖1所示,以周期為18的時間序列數(shù)據(jù)為例。我們首先使用三個周期的數(shù)據(jù)圍 成常態(tài)區(qū)域,即圖中的灰色區(qū)域,接下來根據(jù)常態(tài)區(qū)域?qū)π碌囊粋€周期的數(shù)據(jù)(黑色實線) 進行拐點分析和預警。
[0039] 可以發(fā)現(xiàn),黑線上的大多數(shù)數(shù)據(jù)點落在常態(tài)區(qū)域中,屬于可控狀態(tài)。圖中A點和B 點落在常態(tài)區(qū)域之外,且都是曲線從常態(tài)區(qū)域中突破出來的第一個點,進入監(jiān)控狀態(tài)。如果 數(shù)據(jù)點進入監(jiān)控狀態(tài),相關(guān)人員應該保持密切監(jiān)控,并對接下來的數(shù)據(jù)點進行拐點分析,也 就是用拐點分析技術(shù)判斷數(shù)據(jù)的發(fā)展趨勢是"進一步突破"還是"反轉(zhuǎn)回歸"。具體而言:
[0040] ①案例中,A點的下一時刻,曲線斜率符號轉(zhuǎn)變(由正變成零或負),即向正常狀態(tài) 回歸,因此該數(shù)據(jù)值仍然屬于監(jiān)控狀態(tài),直到數(shù)據(jù)點回歸到常態(tài)區(qū)域內(nèi),監(jiān)控解除,或者曲 線斜率符號再度轉(zhuǎn)變,遠離常態(tài)區(qū)域,變成預警狀態(tài)。
[0041] ②案例中,B點的下一時刻,曲線斜率并未發(fā)生符號轉(zhuǎn)變,認為進一步偏離常態(tài)區(qū) 域,因此該數(shù)據(jù)值變成預警狀態(tài),做出預警。相關(guān)人員應該集中精力分析這些預警的"異常" 數(shù)據(jù)點。
[0042] 本發(fā)明的主要原理
[0043] 本部分說明本發(fā)明采用的主要原理,也就是為什么聚類獲得的簇可以反映截面數(shù) 據(jù)內(nèi)部組成結(jié)構(gòu),為什么態(tài)勢指數(shù)(簇的個數(shù),數(shù)據(jù)內(nèi)部蘊含的子結(jié)構(gòu)的數(shù)量)可以作為宏 觀指標,成為截面數(shù)據(jù)樣本量指標的有力補充。
[0044] 1.相關(guān)概念
[0045] 本專利涉及兩個概念:基于已知分類的屬性辨識度和重要性提取方法、常態(tài)模式。
[0046] (1)基于已知分類的屬性辨識度和重要性提取方法。
[0047] 該方法基于數(shù)據(jù)中已知的分類情況,可以提取由數(shù)據(jù)本身決定的"屬性對相似性 的影響力"指標,這些指標包括:屬性值辨識度、屬性辨識度、屬性值重要性、屬性重要性。本 專利將聚類分析獲得的簇作為該專利的已知分類,由此提取基于聚類分析獲得的簇的四項 影響力指標。
[0048] 使用聚類分析方法讓數(shù)據(jù)通過無監(jiān)督學習生成若干"簇",這些簇是基于距離或相 似度來確定的,滿足簇中的對象彼此相似,而與其他簇中的對象相異。粗略的看,聚類的結(jié) 果與屬性和屬性值沒有直接關(guān)聯(lián),即不是由某些屬性來劃分的。但是,考慮到距離或相似度 的定義基于屬性和屬性值,因此屬性和屬性值對簇的形成具有實際的影響,而且不同的屬 性和屬性值的影響力并不相同。因此,將聚類分析獲得的簇作為已知的分類,進而提取屬性 對分類的影響力的四項指標具有實際意義。
[0049] (2)常態(tài)模式。
[0050] 常態(tài)模式,可以理解為樣本數(shù)據(jù)中的常見類型,每個常態(tài)模式都是一組屬性值的 集合,常態(tài)模式集合是對全體樣本的一種劃分。
[0051] 例如,圖4中的一個常態(tài)模式可能是{顏色=黑,形狀=方,尺寸=小},該類型 包括了所有小的黑方塊,它對應屬性值{顏色=黑}、{形狀=方}和{尺寸=小},是這三 個屬性值的集合。當然,某一個確實的常態(tài)模式中的屬性值不一定是唯一的,因此,{:顏色= 黑或灰,形狀=方,尺寸=小}也可能是一個常態(tài)模式。另一方面,由于{顏色=黑,形 狀=方或圓,尺寸=小}可以化簡為{顏色=黑,尺寸=小},因此,常態(tài)模式對應的屬性 值不一定包含所有的屬性,也就是說,有的屬性在常態(tài)模式的劃分中并不重要。常態(tài)模式的 另一個重要特點是"劃分"性,也就是"不重不漏"。兩個常態(tài)模式不能擁有共同的樣本,即 不相交;同時,絕大部分樣本都屬于某一個常態(tài)模式,只有少部分"異常值"、"離群值"。
[0052] 直觀的講,一個樣本總體全體常態(tài)模式的集合對應一個分類樹,如圖5所示,就是 一個可能的常態(tài)模式集合。
[0053] 常態(tài)模式覆蓋了絕大部分樣本,除了左下角灰底白點的大圓,這是異常值。
[0054] -個需要區(qū)別的概念是正常類型。事實上,常態(tài)模式并不等價于正常類型,常態(tài)模 式只是從出現(xiàn)的頻率上給出了出現(xiàn)頻率高的分類方案,并不意味著它一定是正常的、正確 的。例如,在道路上暫時沒有機動車通過時行人闖紅燈過馬路,這是一種常見的行為,但卻 不是正確、合法的行為。當然,一般來說,常態(tài)模式是正常類型,不屬于常態(tài)模式的異常值是 不正常的樣本。
[0055] 2.常態(tài)模式的個數(shù)可以作為宏觀指標
[0056] 我們首先說明,前文定義的常態(tài)模式的個數(shù),反映了數(shù)據(jù)內(nèi)部蘊含的子結(jié)構(gòu)的數(shù) 量,可以作為宏觀指標,而且是截面數(shù)據(jù)樣本量指標的有力補充。
[0057] 首先,使用聚類分析方法讓數(shù)據(jù)通過無監(jiān)督學習生成若干"簇",這些簇是基于距 離或相似度來確定的,滿足簇中的對象彼此相似,而與其他簇中的對象相異。粗略的看,聚 類的結(jié)果與屬性和屬性值沒有直接關(guān)聯(lián),即不是由某些屬性來劃分的。但是,考慮到距離或 相似度的定義基于屬性和屬性值,因此屬性和屬性值對簇的形成具有實際的影響,而且不 同的屬性和屬性值的影響力并不相同。
[0058] 其次,根據(jù)聚類分析的結(jié)果,也就是各個"簇"的區(qū)別聯(lián)系,確定屬性和屬性值在形 成"簇"時的影響力,也就是屬性的重要程度。這里使用了類似決策樹理論的思想,我們把 "簇"作為訓練的"類標記",也就是將各屬性分類與"簇"的契合程度作為屬性重要程度的判 斷標準,我們希望選出將樣本分類的結(jié)果最接近"簇"的那些屬性和屬性值。
[0059] 再次,屬性的辨識度和重要性都是基于聚類結(jié)果提取出來的,均可以用于分類步 驟,針對不同領(lǐng)域和數(shù)據(jù)結(jié)構(gòu)具有不同分類效果,需要針對實際情況選擇。也就是將屬性和 屬性值按照重要性和辨識度排序,靈活選擇"重要性"或"辨識度"最高的屬性和屬性值,旨 在使分類結(jié)果最好的逼近聚類分析得到的"簇",可能合并或劃分部分簇。這樣得到的分類, 稱為常見類型。常見類型覆蓋了絕大部分樣本,基本做到"不重不漏",具有很強的客觀性。
[0060] 因此,如果常態(tài)模式的個數(shù)發(fā)生變化,可以歸結(jié)為以下幾種情況:
[0061] (1)常態(tài)模式分類時,選擇了不同的屬性或?qū)傩灾?,也就是屬性或?qū)傩灾档闹匾?度發(fā)生了變化。直觀的講,隨著時間的推移,某些屬性變得相對更重要或不重要了。由于每 個屬性對應的屬性值切分數(shù)量通常不同,因此屬性重要程度的變化改變了"切割"的方式, 從而改變了切割的份數(shù)(常見類型的個數(shù))。
[0062] (2)某些重要屬性增加或減少了屬性值,這包括單個屬性值的增加或減少,也包括 屬性值組合的合并或分拆,例如:{顏色=灰或白}拆分成{顏色=灰}和{顏色=白},這 通常是因為兩個屬性對應的樣本量(支持數(shù))增加,從而增加了屬性值的重要程度,當然也 可能是因為兩者對應的樣本開始表現(xiàn)出不同的特性,不應該再合并處理。
[0063] (3)增加或減少了某些重要屬性,這種情況比較罕見,例如樣本數(shù)據(jù)過去沒有考慮 某屬性,現(xiàn)在考慮了,而且它有較高的重要程度。
[0064] 可見,當常態(tài)模式的個數(shù)發(fā)生變化,無論是上述哪一種原因,都是非常值得關(guān)注 的。因此,常態(tài)模式的個數(shù),反映了數(shù)據(jù)內(nèi)部蘊含的子結(jié)構(gòu)的數(shù)量,可以作為整體態(tài)勢的指 標。
[0065] 3.聚類獲得的簇的個數(shù)可以作為宏觀指標
[0066] 從前文中常態(tài)模式的挖掘方法可以看出,常態(tài)模式非常接近聚類獲得的簇,盡管 可能會出現(xiàn)常態(tài)模式與簇多對一或一對多的情況,但非常少見,常態(tài)模式的數(shù)量與簇的數(shù) 量基本一致、差異很小。所以,既然上一小節(jié)已經(jīng)論證了"常態(tài)模式的個數(shù),反映了數(shù)據(jù)內(nèi)部 蘊含的子結(jié)構(gòu)的數(shù)量,可以作為宏觀指標",那么聚類獲得的簇的個數(shù)也應該具有類似的功 能。
[0067] 與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:
[0068] 本發(fā)明直接使用聚類獲得的簇的個數(shù)作為宏觀指標,其優(yōu)點在于操作簡單、計算 復雜性低,有利于在實際操作中使用和推廣。其缺點在于傳統(tǒng)的聚類分析算法基于隨機的 初始值進行迭代,因此獲得的簇的個數(shù)存在一定隨機性,為了克服這一缺點,可以使用若干 次聚類獲得的簇的個數(shù)的平均值作為宏觀指標。
[0069] 本發(fā)明公開的態(tài)勢分析預警方法,可應用于公安情報數(shù)據(jù)分析、反腐敗數(shù)據(jù)分析、 居民家庭用電情況分析、交通出行模式分析、疾病特征數(shù)據(jù)分析、醫(yī)療數(shù)據(jù)分析、客戶市場 細分等多種領(lǐng)域,提取"屬性對相似性的影響力"指標,具有較強的普適性。
【專利附圖】
【附圖說明】
[0070] 圖1為拐點分析和預警的簡單實例圖;
[0071] 圖2為基于聚類的大數(shù)據(jù)屬性重要性和辨識度的時間序列預警系統(tǒng)流程圖;
[0072] 圖3為基于聚類的大數(shù)據(jù)屬性重要性和辨識度的時間序列預警系統(tǒng)結(jié)構(gòu)圖; [0073] 圖4為常態(tài)模式的概念圖;
[0074] 圖5為常態(tài)模式實例圖;
[0075] 圖6為根據(jù)態(tài)勢指數(shù)歷史數(shù)據(jù)繪制的常態(tài)區(qū)域圖;
[0076] 圖7為根據(jù)新周期中態(tài)勢指數(shù)的狀態(tài)圖;
[0077] 圖8為實例分析計算效果圖;
[0078] 圖9為"簇的合并"環(huán)節(jié)的分類關(guān)聯(lián)差異矩陣。
【具體實施方式】
[0079] 本發(fā)明公開了一種基于聚類的大數(shù)據(jù)態(tài)勢分析預警方法和系統(tǒng),可以得到多層次 的預警結(jié)果,方法流程如圖2所示,具體操作步驟如下。
[0080] 步驟1 :數(shù)據(jù)采集。
[0081] 數(shù)據(jù)采集模塊是本系統(tǒng)的硬件基礎(chǔ)。該模塊將待分析的無標簽樣本數(shù)據(jù)從分布在 各地的終端數(shù)據(jù)庫中傳輸匯總到中央數(shù)據(jù)庫。
[0082] 步驟2:數(shù)據(jù)清洗。
[0083] 通過數(shù)據(jù)采集終端匯總得到的數(shù)據(jù),難免存在不完整、錯誤、重復等現(xiàn)象。數(shù)據(jù)清 洗步驟用于過濾這些不符合要求的數(shù)據(jù),過濾的結(jié)果將提交給相關(guān)主管部門,確認是直接 過濾掉還是作為異常值提取出來做進一步分析。
[0084] 步驟3 :時間段選擇及劃分。
[0085] 根據(jù)客戶實際需求,將樣本數(shù)據(jù)劃分為若干時間段,針對每個時間段重復步驟4 和步驟5。本系統(tǒng)提供客戶時間段劃分的選擇功能。
[0086] 步驟4:數(shù)據(jù)降維。
[0087] 經(jīng)過清洗和時間段劃分的的樣本數(shù)據(jù)匯總到中央數(shù)據(jù)庫。由于樣本量(N1)巨大, 形成了維數(shù)大、規(guī)模大、復雜性大的大數(shù)據(jù)形態(tài),要挖掘其中有意義的知識和內(nèi)容以指導實 際生產(chǎn)和具體應用,需要首先進行降維處理,即維數(shù)約簡,它一方面可以解決"維數(shù)災難", 緩解大數(shù)據(jù)中"信息豐富但知識貧乏"的問題,降低計算的復雜度;另一方面可以引導人們 更好地認識和理解數(shù)據(jù)。
[0088] 數(shù)據(jù)降維步驟包括以下子步驟:
[0089] 步驟4.1:數(shù)據(jù)抽樣。
[0090] 對全體樣本進行系統(tǒng)抽樣(systematic sampling)。系統(tǒng)抽樣,又稱機械抽樣、等 距抽樣。具體而言:
[0091] (1)由系統(tǒng)硬件運轉(zhuǎn)能力確定適合的抽樣樣本量(N2),定義壓縮比(M)為:
[0092] M = N1+N2;
[0093] (2)將全體樣本數(shù)據(jù)按某一順序排列起來,標注唯一的序號;
[0094] (3)從前Μ個樣本中隨機的選出一個樣本作為抽樣樣本,記其序號為k ;
[0095] (4)將序號為k、k+M、k+2*M、...、k+(N2-l)*M的N2個樣本作為抽樣結(jié)果。
[0096] 步驟4. 2 :數(shù)據(jù)聚類。
[0097] 本步驟可以建立在任何一種公知的聚類分析算法結(jié)果之上,通過對抽樣后的樣本 數(shù)據(jù)進行聚類分析,得到若干簇。
[0098] 步驟4. 3 :降維指標選擇。
[0099] 針對抽樣得到的N2個樣本以及聚類獲得的若干簇,可以通過后續(xù)的步驟計算降 維指標(即"屬性對相似性的影響力"),并根據(jù)"影響力"的排序來確定降維后保留的屬性。 本系統(tǒng)提供降維指標的選擇,可選擇的降維指標有:
[0100] 降維指標1 :屬性辨識度指標;
[0101] 降維指標2 :屬性重要性指標。
[0102] 降維指標選擇主要看待分析的問題中"樣本量"因素是否重要,建議如下:
[0103] (1)如果"樣本量"因素不重要,應選擇屬性辨識度指標給出影響力排序;
[0104] ⑵如果"樣本量"因素重要,應選擇屬性重要性指標給出影響力排序;
[0105] (3)如果想綜合考慮上述兩種情況,應結(jié)合這兩個指標給出綜合性的排序。
[0106] 步驟4. 4 :降維指標計算。
[0107] 計算降維指標,也就是計算每個屬性"對相似性的影響力",具體包括:屬性辨識度 和屬性重要性,同時還需要計算兩個過渡性的指標:屬性值辨識度和屬性值重要性。我們以 案例為基礎(chǔ),說明這四項指標的主要計算步驟。系統(tǒng)將根據(jù)用戶在步驟3. 2中的選擇情況 計算相應的指標。
[0108] 四項指標計算案例:
[0109] 一個包含100人的研究樣本,其中包含50名女性和50名男性,其中20人有前科。 通過聚類分析獲得了兩個"簇",其中"簇1"包含10個樣本,絕大部分是犯有盜竊罪的人, 而"簇2"包含90個樣本,絕大部分是未犯有盜竊罪的人。其他數(shù)據(jù)如表1。
[0110] 表1 :四項指標計算案例
[0111]
【權(quán)利要求】
1. 一種基于聚類的大數(shù)據(jù)態(tài)勢分析預警方法,其步驟為: 1) 中央服務器從各終端服務器采集樣本數(shù)據(jù),并按照時間段對樣本數(shù)據(jù)進行劃分,每 個時間段對應一樣本數(shù)據(jù)集; 2) 對于每一時間段的樣本數(shù)據(jù)集,從中抽取若干樣本構(gòu)建一抽樣樣本集合,并對其進 行聚類分析,得到若干簇;將聚類得到的簇作為樣本的標簽,對樣本進行標注,然后根據(jù)選 取的屬性降維指標計算所述抽樣樣本集合中已標注樣本每一屬性的屬性值辨識度、屬性辨 識度和或?qū)傩灾抵匾?、屬性重要性? 3) 分別根據(jù)屬性值辨識度、屬性辨識度和或?qū)傩灾抵匾?、屬性重要性對屬性進行排 序,選取若干屬性作為大數(shù)據(jù)降維后保留的屬性; 4) 對每一屬性降維后的所述樣本數(shù)據(jù)集進行聚類,將聚類得到的簇作為所述樣本數(shù)據(jù) 集的態(tài)勢指數(shù); 5) 根據(jù)各個時間段的態(tài)勢指數(shù)構(gòu)建一態(tài)勢指數(shù)時間序列;然后根據(jù)該態(tài)勢指數(shù)時間 序列確定一常態(tài)區(qū)域; 6) 計算當前時刻所采集樣本數(shù)據(jù)的態(tài)勢指數(shù),如果超出所述常態(tài)區(qū)域,則對其進行監(jiān) 控,并計算下一時刻所采集樣本數(shù)據(jù)的態(tài)勢指數(shù),如果仍超出所述常態(tài)區(qū)域,則進行預警; 其中,屬性值辨識度的計算方法為:選取樣本一屬性i的一屬性值a,計算具有該屬性 值a的樣本屬于標簽j的條件概率值,以及未增加該屬性值條件時樣本屬于該標簽j的概 率值;將所述條件概率值與所述概率值的差值作為該屬性值a對于該標簽j的屬性值辨識 度;將該屬性值a對于所有標簽的屬性值辨識度的平方平均數(shù)作為該屬性值a的屬性值辨 識度; 屬性辨識度的計算方法為:根據(jù)屬性i所有屬性值辨識度計算該屬性i的屬性辨識 度; 屬性值重要性的計算方法為:將樣本屬性i取屬性值a時屬于標簽j的樣本量乘以該 屬性值a對于該標簽j的屬性辨識度,得到該屬性值a對于該標簽j的屬性值重要性;將該 屬性值a對于所有標簽的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要性; 屬性重要性的計算方法為:根據(jù)屬性i所有屬性值重要性計算該屬性i的屬性重要性。
2. 如權(quán)利要求1所述的方法,其特征在于對該屬性i所有屬性值的屬性值辨識度平方 平均數(shù)作為該屬性i的屬性辨識度。
3. 如權(quán)利要求1或2所述的方法,其特征在于采用基于條件概率和貝葉斯算法計算所 述辨識度。
4. 如權(quán)利要求1所述的方法,其特征在于將屬性i所有屬性值的屬性重要性的平方平 均數(shù)作為該屬性的屬性重要性。
5. 如權(quán)利要求1所述的方法,其特征在于對每一時間段的樣本數(shù)據(jù)進行系統(tǒng)抽樣得到 所述抽樣樣本集合。
6. -種基于聚類的大數(shù)據(jù)態(tài)勢分析預警系統(tǒng),其特征在于包括多個終端服務器和一中 央服務器,所述終端服務器通過網(wǎng)絡(luò)與所述中央服務器連接;其中,所述中央服務器包括數(shù) 據(jù)采集模塊、數(shù)據(jù)降維模塊、態(tài)勢指數(shù)計算模塊和拐點分析模塊; 所述數(shù)據(jù)采集模塊,用于從各終端服務器采集樣本數(shù)據(jù),并按照時間段對樣本數(shù)據(jù)進 行劃分,每個時間段對應一樣本數(shù)據(jù)集; 所述數(shù)據(jù)降維模塊,用于從每一時間段的樣本數(shù)據(jù)集中抽取若干樣本構(gòu)建一抽樣樣本 集合,并對其進行聚類分析,得到若干簇;將聚類得到的簇作為樣本的標簽,對樣本進行標 注,然后根據(jù)選取的屬性降維指標計算所述抽樣樣本集合中已標注樣本每一屬性的屬性值 辨識度、屬性辨識度和或?qū)傩灾抵匾?、屬性重要性,并根?jù)計算結(jié)果對屬性進行排序,選 取若干屬性作為大數(shù)據(jù)降維后保留的屬性; 所述態(tài)勢指數(shù)計算模塊,用于對每一屬性降維后的所述樣本數(shù)據(jù)集進行聚類,將聚類 得到的簇作為所述樣本數(shù)據(jù)集的態(tài)勢指數(shù); 所述拐點分析模塊,用于根據(jù)各個時間段的態(tài)勢指數(shù)構(gòu)建一態(tài)勢指數(shù)時間序列;然后 根據(jù)該態(tài)勢指數(shù)時間序列確定一常態(tài)區(qū)域;以及計算當前時刻所采集樣本數(shù)據(jù)的態(tài)勢指 數(shù),如果超出所述常態(tài)區(qū)域,則對其進行監(jiān)控,并計算下一時刻所采集樣本數(shù)據(jù)的態(tài)勢指 數(shù),如果仍超出所述常態(tài)區(qū)域,則進行預警; 其中,屬性值辨識度的計算方法為:選取樣本一屬性i的一屬性值a,計算具有該屬性 值a的樣本屬于標簽j的條件概率值,以及未增加該屬性值條件時樣本屬于該標簽j的概 率值;將所述條件概率值與所述概率值的差值作為該屬性值a對于該標簽j的屬性值辨識 度;將該屬性值a對于所有標簽的屬性值辨識度的平方平均數(shù)作為該屬性值a的屬性值辨 識度; 屬性辨識度的計算方法為:根據(jù)屬性i所有屬性值辨識度計算該屬性i的屬性辨識 度; 屬性值重要性的計算方法為:將樣本屬性i取屬性值a時屬于標簽j的樣本量乘以該 屬性值a對于該標簽j的屬性辨識度,得到該屬性值a對于該標簽j的屬性值重要性;將該 屬性值a對于所有標簽的屬性值重要性的平方平均數(shù)作為該屬性值a的屬性值重要性; 屬性重要性的計算方法為:根據(jù)屬性i所有屬性值重要性計算該屬性i的屬性重要性。
7. 如權(quán)利要求6所述的系統(tǒng),其特征在于對該屬性i所有屬性值的屬性值辨識度的平 方平均數(shù)作為該屬性i的屬性辨識度;對該屬性i所有屬性值的屬性值重要性的平方平均 數(shù)作為該屬性i的屬性重要性。
8. 如權(quán)利要求6或7所述的系統(tǒng),其特征在于采用基于條件概率和貝葉斯算法計算所 述辨識度。
9. 如權(quán)利要求6或7所述的系統(tǒng),其特征在于所述中央服務器通過一預警信息發(fā)布器 發(fā)布預警信息。
10. 如權(quán)利要求6所述的系統(tǒng),其特征在于對每一時間段的樣本數(shù)據(jù)進行系統(tǒng)抽樣得 到所述抽樣樣本集合。
【文檔編號】G06F17/30GK104142986SQ201410356031
【公開日】2014年11月12日 申請日期:2014年7月24日 優(yōu)先權(quán)日:2014年7月24日
【發(fā)明者】王電, 魏毅, 黃煜可 申請人:中國軟件與技術(shù)服務股份有限公司