一種基于子模優(yōu)化的并行異常子圖檢測方法與系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及計算機技術領域,尤其涉及一種基于子模優(yōu)化的并行異常子圖檢測方 法與系統(tǒng)。
【背景技術】
[0002] 目前,隨著互聯(lián)網技術的高速發(fā)展,人類進入了信息爆炸時代,但在人們享受到巨 大方便的同時,也不得不面對信息安全問題的嚴峻考驗。因此,在處理擁有海量、多維度數(shù) 據(jù)的數(shù)據(jù)集合時,異常檢測成為至關重要的過程。
[0003] 異常檢測(anomalydetection)或者異常值檢測(outlierdetection)被定義為 在數(shù)據(jù)集中檢測識別不符合被廣泛驗證的數(shù)據(jù)模式的記錄、實體或事件的過程。一般來說, 異常檢測可以應用到很多類實際問題的解決過程中,例如銀行詐騙檢測、結構評估、藥物作 用分析,以及文本糾錯處理等等。而在這些應用場景中,異常項可以被靈活地定義為異常數(shù) 據(jù)值、噪聲數(shù)據(jù)、異常誤差或者異常期望等不同形式。
[0004] 現(xiàn)有技術中,通常采用串行的方法實現(xiàn)異常檢測,但是隨著數(shù)據(jù)的飛速增長,現(xiàn)有 的方法已不再適用。因此,對于擁有海量數(shù)據(jù)的數(shù)據(jù)集合,如何實現(xiàn)快速準確的異常檢測, 是本領域技術人員亟需解決的問題。
【發(fā)明內容】
[0005] 本發(fā)明提供一種基于子模優(yōu)化的并行異常子圖檢測方法與系統(tǒng),以實現(xiàn)快速準確 的求解異常子圖。
[0006] 第一方面,本發(fā)明提供一種基于子模優(yōu)化的并行異常子圖檢測方法,包括:
[0007] 對需要異常子圖檢測的圖建立非參數(shù)化的異常子圖檢測模型;
[0008] 將所述異常子圖檢測模型轉換為具有子模性質的異常子圖檢測模型;
[0009] 對所述具有子模性質的異常子圖檢測模型進行并行迭代,確定所述圖中的異常子 圖。
[0010] 第二方面,本發(fā)明提供一種基于子模優(yōu)化的并行異常子圖檢測系統(tǒng),包括:
[0011] 模型建立模塊,用于對需要異常子圖檢測的圖建立非參數(shù)化的異常子圖檢測模 型;
[0012] 轉換模塊,用于將所述異常子圖檢測模型轉換為具有子模性質的異常子圖檢測模 型;
[0013] 處理模塊,用于對所述具有子模性質的異常子圖檢測模型進行并行迭代,確定所 述圖中的異常子圖。
[0014] 本發(fā)明一種基于子模優(yōu)化的并行異常子圖檢測方法與系統(tǒng),通過對需要異常子圖 檢測的圖建立非參數(shù)化的異常子圖檢測模型,并將所述異常子圖檢測模型轉換為具有子模 性質的異常子圖檢測模型,最終對所述具有子模性質的異常子圖檢測模型進行并行迭代, 確定所述圖中的異常子圖,由于采用了具有子模性質的異常子圖檢測模型,而且采用并行 迭代方式,因此針對包含大量節(jié)點的需要檢測的圖來說,可以快速準確的得到其中的異常 子圖。
【附圖說明】
[0015] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖是本發(fā) 明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以 根據(jù)這些附圖獲得其他的附圖。
[0016] 圖1為本發(fā)明基于子模優(yōu)化的并行異常子圖檢測方法一實施例的流程示意圖;
[0017] 圖2為本發(fā)明基于子模優(yōu)化的并行異常子圖檢測系統(tǒng)一實施例的結構示意圖。
【具體實施方式】
[0018] 為使本發(fā)明實施例的目的、技術方案和優(yōu)點更加清楚,下面將結合本發(fā)明實施例 中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例是 本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員 在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0019] 圖1為本發(fā)明基于子模優(yōu)化的并行異常子圖檢測方法一實施例的流程示意圖。如 圖1所示,本實施例的基于子模優(yōu)化的并行異常子圖檢測方法,包括:
[0020] 步驟101、對需要異常子圖檢測的圖建立非參數(shù)化的異常子圖檢測模型;
[0021] 步驟102、將所述異常子圖檢測模型轉換為具有子模性質的異常子圖檢測模型;
[0022] 步驟103、對所述具有子模性質的異常子圖檢測模型進行并行迭代,確定所述圖中 的異常子圖。
[0023] 具體來說,對于異常子圖檢測問題來說,首先需要建立異常子圖檢測模型,而實際 應用中,異常子圖檢測問題可以用于多種應用中,根據(jù)是否對數(shù)據(jù)進行前提的分布假設,其 方法可以分為參數(shù)化模型方法和非參數(shù)化模型方法。由于在現(xiàn)實中,對數(shù)據(jù)進行參數(shù)的估 計很難,并且不恰當?shù)膮?shù)會直接影響到問題求解的準確度,因此在本發(fā)明中采取非參數(shù) 化的異常子圖檢測模型進行求解。
[0024] 其次,由于子模優(yōu)化算法對于很多NP問題,可以給出可接受時間內的近似解,求 解能力強,并且子模優(yōu)化算法可以給出最壞情形下的近似度,而且非參數(shù)化的異常子圖檢 測模型的函數(shù)可能并不具有子模函數(shù)的性質。因此,我們需要將所述異常子圖檢測模型轉 換為近似的子模優(yōu)化模型,即具有子模性質的異常子圖檢測模型。
[0025] 本發(fā)明中可以將該非參數(shù)化的異常子圖檢測模型的函數(shù)轉換成兩個子模函數(shù)之 差,并進行近似從而得到該函數(shù)的一個具有子模性質的下界函數(shù)。
[0026] 對大規(guī)模數(shù)據(jù)的并行算法的設計
[0027] 子模優(yōu)化算法通過將機器學習的問題轉化成子模優(yōu)化問題,應用子模最大化算法 來進行求解時,可以為該問題提供一種理論上最差情況可保證的解決方案。盡管很多算法 都能夠在理論上達到最后的效果,但是在實際中,這些算法并不能應用到大規(guī)模的數(shù)據(jù)處 理中。因此,本發(fā)明中采用并行化的方法對具有子模性質的異常子圖檢測模型進行求解。
[0028] 在實際應用中,可選地,作為一種可實施的方式,步驟101具體可以通過如下方式 實現(xiàn):
[0029] 根據(jù)BJ統(tǒng)計模型對所述需要異常子圖檢測的圖建立所述異常子圖檢測模型 FJS),如公式⑴所示:
[0030] Fbj(S) = r(S)-g(S) (1)
[0031]其中,r⑶=-N⑶l〇gN⑶;
[0032]
[0033] 其中,Να⑶=|Vl,Vies,p(vJ彡a|,N(S) = |S| ;sy,s表示異常子圖 G(S,Es,p)的節(jié)點集合,示所述G(S,Es,p)中邊的集合,p表示節(jié)點與[0, 1]之間的值 的映射函數(shù),V表示所述需要異常子圖檢測的圖的節(jié)點集合;α表示預設的臨界值;|S|表 示所述S中節(jié)點的總數(shù);p(Vi)表示節(jié)點¥;在所述映射函數(shù)P下的映射值。
[0034] 具體來說,假設存在圖G= {V,E,p},其中V= {VdV2, . . .,Vk}代表著圖中的節(jié)點 集合,k= |V|代表著節(jié)點的總數(shù),E代表著邊的集合,p代表著一個映射函數(shù),該函數(shù)將節(jié) 點v與[0, 1]之間的值映射起來。異常子圖檢測的目的是找到圖的一個子集S,使得SeP, 且S為一個連通的子圖,并且整個子集S的異常值最高。在本發(fā)明中利用非參數(shù)化的異常 子圖檢測模型對異常子圖檢測問題進行求解。其中非參數(shù)化的異常子圖檢測模型可以形式 化的定義為:
[0035]
[0036] 其中Να⑶=|Vl,VlEhpWJ冬α|,N⑶=|S| ;公瓦⑶f甲的α代表了指 定的臨界值;公式(a)中的函數(shù)辦為一個非參數(shù)化的模型函數(shù),在假設ρ值分布服從于 [0,1]之間的均勻分布下,它比較在檢驗水平為α時可觀測到的ρ值與期望的ρ值個數(shù)。
[0037] 非參數(shù)的統(tǒng)計模型可以有多重定義形式,例如Berk-Jones(BJ)統(tǒng)計形式,Higher Criticism(HC)統(tǒng)計形式,Kolmogorov-Smirnov(KS)統(tǒng)計形式等。在本發(fā)明中我們利用BJ 統(tǒng)計模型。BJ統(tǒng)計模型被定義為:
[0038]
[0039]其中KL代表了KL散度(Killback-Lieblerdivergence):
[0040]
[0041] 通過公式(b)和公式(c)得到異常子圖檢測問題模型FB;(S),如公式⑴所示:
[0042] Fbj(S) = r(S)-g(S) (1)
[0043]其中,r⑶=-N⑶logN⑶;
[0044]
[0045] 在買際應用中,口」選地,作為一柙口」買施的萬式,步驟102具體π」以通過如下方式 實現(xiàn):
[0046]將連通分量作為懲罰因子生成所述異常子圖檢測模型的目標函數(shù),如公式(2)所 示:
[0047] FASD (S) =r(S)-g(S) +λφ⑶(2)
[0048] 將所述目標函數(shù)中的g(S)用子模函數(shù)代替,生成具有子模性質的目標函數(shù),將所 述目標函數(shù)作為所述異常子圖檢測模型,如公式(3)所示:
[0049]
[0050]其中,Φ(S) =-[c(S)-(|V|-|S|)-l]表示懲罰因子,c(S)表示所述G(V,Es,p)中 的連通分量的數(shù)目,以|-|3|表示子圖6(>\33