一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法

文檔序號：6629932閱讀：357來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法
【專利摘要】本發(fā)明提供一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，包括以下步驟：對樣本數(shù)據(jù)集進(jìn)行橫向抽樣，得到子樣本數(shù)據(jù)集；對子樣本數(shù)據(jù)集進(jìn)行屬性抽樣，得到條帶數(shù)據(jù)集；對條帶數(shù)據(jù)集進(jìn)行異常程度打分；重復(fù)執(zhí)行上述步驟；組合異常程度分?jǐn)?shù)，并計算異常程度分?jǐn)?shù)的期望值。本發(fā)明通過雙向抽樣方法，既解決了樣本量大時間復(fù)雜度高，又解決了維災(zāi)難的問題；利用抽樣方法將數(shù)據(jù)集進(jìn)行切分，提高了本發(fā)明方法的擴(kuò)展性。
【專利說明】一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種異常識別方法，具體涉及一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法。

【背景技術(shù)】
[0002] 異常識別（Outlier Detection)，是一種針對數(shù)據(jù)集中離群樣本點的檢測方法。異常的內(nèi)涵豐富，可能是噪音、誤差、或是稀有值。在數(shù)據(jù)挖掘領(lǐng)域，其普遍認(rèn)可的定義是，一種由其它機(jī)制產(chǎn)生，且與大多數(shù)觀測值（Observation)相偏離的點。在本文中，與"異常點 (Outlier) "相對的點稱為"正常點（Inlier) "。
[0003] 異常識別作為一種重要的研究方向，已經(jīng)廣泛在信用卡欺詐識別、疾病診斷和預(yù) 防、網(wǎng)絡(luò)入侵檢測、測量誤差檢驗、稀有價值識別等現(xiàn)實應(yīng)用中。
[0004] (1)基于統(tǒng)計的異常識別方法
[0005] 從20世紀(jì)80年代起，異常識別問題就在統(tǒng)計學(xué)領(lǐng)域里得到廣泛研究，通常用戶用某個統(tǒng)計分布對數(shù)據(jù)點進(jìn)行建模，再以假定的模型，根據(jù)點的分布來確定是否異常。許許多多針對不同分布的異常測試（Discordancy Test)方法發(fā)展起來，它們分別適用于不同的情形：①數(shù)據(jù)分布狀況；②數(shù)據(jù)分布參數(shù)是否已知；③異常數(shù)據(jù)數(shù)量；④異常數(shù)據(jù)類型 (高于或低于一般抽樣值）。這方面比較有代表性的有1967年Mikey，Dunn&Clark提出的基于"均數(shù)漂移"模型的單點診斷量，1970年Gentleman&Wilk提出的群組診斷量，1972年 Tiet jen&Moore提出的單樣本k個離群點的統(tǒng)計量Ek, 1985年Marasinghe提出的改進(jìn)的 Ek統(tǒng)計量Fk, 1989年Rosner提出的單樣本多個離群檢測方法ESD (Generalized Extreme Studentized Deviate)方法，1991年P(guān)aul&Fung改進(jìn)了 ESD方法參數(shù)k選擇的主觀性，提出了回歸分析的 GESR(Generalized Extreme Studentized DeviateResi2dual)方法。近年來，多樣本的離群檢測方法也得到了一定的發(fā)展，總的思路是先盡量得到一個不含離群點的"干凈集"，然后在此基礎(chǔ)上對剩余的其他數(shù)據(jù)點進(jìn)行逐步離群檢測。
[0006] 目前利用統(tǒng)計學(xué)研究異常點數(shù)據(jù)有了一些新的方法，如通過分析統(tǒng)計數(shù)據(jù)的散度情況，即數(shù)據(jù)變異指標(biāo)，來對數(shù)據(jù)的總體特征有更進(jìn)一步的了解，對數(shù)據(jù)的分布情況有所了解，進(jìn)而通過數(shù)據(jù)變異指標(biāo)來發(fā)現(xiàn)數(shù)據(jù)中的異常點數(shù)據(jù)。常用的數(shù)據(jù)變異指標(biāo)有極差、四分位數(shù)間距、均差、標(biāo)準(zhǔn)差、變異系數(shù)等等，變異指標(biāo)的值大表示變異大、散布廣；值小表示離差小，較密集。
[0007] 基于統(tǒng)計的方法識別出來的離群點很可能被不同的分布模型檢測出來，可以說產(chǎn) 生這些離群點的機(jī)制可能不唯一，解釋離群點的意義時經(jīng)常發(fā)生多義性，這是基于統(tǒng)計方法的一個缺陷。其次，基于統(tǒng)計的方法在很大程度上依賴于待挖掘的數(shù)據(jù)集是否滿足某種概率分布模型，模型的參數(shù)、離群點的數(shù)目等對基于統(tǒng)計的方法都有非常重要的意義，而確定這些參數(shù)通常都比較困難。為克服這一問題，一些人提出對數(shù)據(jù)集進(jìn)行分布擬合，但分布擬合存在兩個問題：①給出的分布可能不適合任一標(biāo)準(zhǔn)分布。②即使存在一個標(biāo)準(zhǔn)分布，分布擬合的過程耗時太長。此外，基于統(tǒng)計的離群識別方法大多只適合于挖掘單變量的數(shù)值型數(shù)據(jù)，目前幾乎沒有多元的不一致檢驗，對于大多數(shù)的應(yīng)用來說，例如圖像和地理數(shù)據(jù)，數(shù)據(jù)集的維數(shù)卻可能是高維的。實際生活中，以上缺陷都大大限制了基于統(tǒng)計的方法的應(yīng) 用，使得它主要局限于科研計算，方法的可移植性較差。
[0008] (2)基于距離的異常識別方法
[0009] 用什么標(biāo)準(zhǔn)判定一個數(shù)據(jù)對象是孤立點呢？即便是對給定的距離量度函數(shù)，對孤立點也有不同的定義，以下是使用較多的幾個：
[0010] 1)基于距離的離群點最早是由Knorr和Ng提出的，他們把記錄看作高維空間中的點，離群點被定義為數(shù)據(jù)集中與大多數(shù)點之間的距離都大于某個閾值的點，通常被描述為 DB (pet, (Jmin)，數(shù)據(jù)集T中一個記錄0稱為離群點，當(dāng)且僅當(dāng)數(shù)據(jù)集T中至少有pet部分的數(shù)據(jù)與〇的距離大于d min。換一種角度考慮，記M = NX (Ι-pet)，離群檢測即判斷與點0距離小于dmin的點是否多于M。若是，則0不是離群點，否則0是離群點。
[0011] 2)孤立點是數(shù)據(jù)集中到第k個最近鄰居的距離最大的η個對象；
[0012] 3)孤立點是數(shù)據(jù)集中與其k個最近鄰居的平均距離最大的η個對象。
[0013] 基于距離的離群點定義包含并拓展了基于統(tǒng)計的思想，即使數(shù)據(jù)集不滿足任何特定分布模型，它仍能有效地發(fā)現(xiàn)離群點，特別是當(dāng)空間維數(shù)比較離時，方法的效率比基于密度的方法要高得多。方法具體實現(xiàn)時，首先給出記錄間距離的度量，常用的是絕對距離（曼哈頓距離）、歐氏距離和馬氏距離。在給出了距離的度量并對數(shù)據(jù)進(jìn)行一定的預(yù)處理以后，任意給定參數(shù)pet和d min就可以根據(jù)離群的定義來識別離群點。Rastogi和Ramaswamy在上面基于距離的離群點定義的基礎(chǔ)上，提出改進(jìn)的基于距離的k最近鄰（k-NN)離群檢測方法。
[0014] 基于距離的離群檢測方法中，方法需要事先確定參數(shù)PCt和Clniin，對于不同的數(shù)據(jù) 集這往往是一件比較困難的事情，特別是d min，不同聚類密度的數(shù)據(jù)集dmin會有很大的差異，而這一般沒有規(guī)律可循，因此，對于給定的不同d min，異常識別結(jié)果通常具有很大的不穩(wěn)定性。另一方面，基于距離的方法理論上能處理任意維任意類型的數(shù)據(jù)，當(dāng)屬性數(shù)據(jù)為區(qū)間標(biāo) 度等非數(shù)值屬性時，記錄之間的距離不能直接確定，通常需要把屬性轉(zhuǎn)換為數(shù)值型，再按定義計算記錄之間的距離。當(dāng)空間的維數(shù)大于三維時，由于空間的稀疏性，距離不再具有常規(guī) 意義，因此很難為異常給出合理的解釋。針對這個問題，一些人通過將高維空間映射轉(zhuǎn)換到子空間的辦法來解決數(shù)據(jù)稀疏的問題，此方法在聚類方法中用得比較多，Agarwal R等人曾試著用這種投影變換的方法來挖掘離群。總的來說，基于距離的離群檢測方法具有比較直觀的意義，方法比較容易理解，因此在實際中應(yīng)用得比較多。
[0015] 目前比較成熟的基于距離的異常識別的方法有：
[0016] 1).基于索引的方法（Index-based):給定一個數(shù)據(jù)集合，基于索引的方法采用多維索引結(jié)構(gòu)R-樹，k-d樹等，來查找每個對象在半徑d范圍內(nèi)的鄰居。假設(shè)M為異常點數(shù) 據(jù)的d領(lǐng)域內(nèi)的最大對象數(shù)目。如果對象0的M+1個鄰居被發(fā)現(xiàn)，則對象0就不是異常點。這個方法在最壞情況下的復(fù)雜度為0 (k*n2)，k為維數(shù)，η為數(shù)據(jù)集合中對象的數(shù)目。當(dāng)k增加時，基于索引的方法具有良好的擴(kuò)展性。
[0017] 2).嵌套循環(huán)方法（Nested-loop):嵌套一循環(huán)方法和基于索引的方法有相同的計算復(fù)雜度，但是它避免了索引結(jié)構(gòu)的構(gòu)建，試圖最小化I/O的次數(shù)。它把內(nèi)存的緩沖空間分為兩半，把數(shù)據(jù)集合分為若干個邏輯塊。通過精心選擇邏輯塊裝入每個緩沖區(qū)域的順序， I/O效率能夠改善。
[0018] 3).基于單元的方法（cell-based):在該方法中，數(shù)據(jù)空間被劃為邊長等于d/ (2*k 1/2)的單元。每個單元有兩個層圍繞著它。第一層的厚度是一個單元，而第二層的厚度是[2*k1/2-l]。該方法逐個單元地對異常點計數(shù)，而不是逐個對象地進(jìn)行計數(shù)。對于一個給定的單元，它累計三個計數(shù)：單元中對象的數(shù)目（cell_count)、單元和第一層中對象的數(shù) 目（cell_+_l_layer_count)單元和兩個層次中的對象的數(shù)目（cell_+_2_layers_count)。該方法將對數(shù)據(jù)集的每一個元素進(jìn)行異常點數(shù)據(jù)的檢測改為對每一個單元進(jìn)行異常點數(shù) 據(jù)的檢測，它提高了方法的效率。它的方法復(fù)雜度是〇(c k+n)，這里的c是依賴于單元數(shù)目的常數(shù)，k是維數(shù)。它是這樣進(jìn)行異常檢識別的：
[0019] 若cell_+_l_layer_count > M，單元中的所有對象都不是異常；若cell_+_2_ layers_count <= M，單元中的所有對象都是異常；否則，單元中的某一些數(shù)據(jù)可能是異常。為了識別這些異常點，需要逐個對象加入處理?；诰嚯x的異常識別方法要求用戶設(shè) 置參數(shù)P和d，而尋找這些參數(shù)的合活設(shè)置可能涉及多次試探和錯誤。
[0020] 基于距離的方法與基于統(tǒng)計的方法相比，不需要用戶擁有任何領(lǐng)域知識，與序列異常相比，在概念上更加直觀。更重要的是，距離異常接近Hawkins的異常本質(zhì)定義。然而，三種類型的基于距離的離群檢測方法中，基于索引的方法和循環(huán)--嵌套方法需要〇(k*n 2)的時間開銷，因此在大數(shù)據(jù)集中還有待于改進(jìn)；而基于單元的方法，雖然與η具有線性的時間關(guān)系，但是它與k成指數(shù)關(guān)系，這限制了它在高維空間中的應(yīng)用，此外，基于單元的方法還需要事先確定參數(shù)pct，Cl min以及單元的大小，這使得方法的可行性比較差；高維空間中，基于索引的方法由于需要事先建立數(shù)據(jù)集的索引，建立與維護(hù)索引也要花大量的時間。因此三種方法對于高維空間中的大數(shù)據(jù)集，方法的效率都不高。
[0021] (3)基于密度的異常識別方法
[0022] 基于密度的離群檢測方法一般都建立在距離的基礎(chǔ)上，某種意義上可以說基于密度的方法是基于距離的方法中的一種，但基于密度的異常觀點比基于距離的異常觀點更貼近Hawkins的異常定義，因此能夠檢測出基于距離的異常方法所不能識別的一類異常數(shù) 據(jù)--局部異常?；诿芏鹊姆椒ㄖ饕枷胧菍⒂涗浿g的距離和某一給定范圍內(nèi)記錄數(shù) 這兩個參數(shù)結(jié)合起來，從而得到"密度"的概念，然后根據(jù)密度判定記錄是否為離群點。
[0023] Breunig等人提出的基于局部離群因子的異常識別方法LOF是基于密度方法的一個典型例子。它首先產(chǎn)生所有點的MinPts鄰域及MinPts距離，并計算到其中每個點的距離；對低維數(shù)據(jù)，利用網(wǎng)格進(jìn)行k-NN查詢，計算時間為0(n);對中維或中高維數(shù)據(jù)，采用如 X2樹等索引結(jié)構(gòu)，使得進(jìn)行k2NN查詢的時間為O(Iogn)，整個計算時間為O(nlogn);對特高維數(shù)據(jù)，索引結(jié)構(gòu)不再有效，時間復(fù)雜度提高到〇(n 2)。然后計算每個點的局部異常因子，最后根據(jù)局部異常因子來挖掘離群。LOF方法中，離群點被定義為相對于全局的局部離群點，這與傳統(tǒng)離群的定義不同，離群不再是一個二值屬性（要么是離群點，要么是正常點），它擯棄了以前所有的異常定義中非此即彼的絕對異常觀念，更加符合現(xiàn)實生活中的應(yīng)用。 LOF方法中充分體現(xiàn)了"局部"的概念，每個點都給出了一個離群程度，離群程度最強(qiáng)的那幾個點被標(biāo)記為離群點。此外，Aggarwal也提出了一個結(jié)合子空間投影變換的基于密度的高維離群檢測方法。
[0024] 然而，隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)樣本量呈現(xiàn)爆炸式增長，數(shù)據(jù)的維度也不斷增大，諸如，銀行每天產(chǎn)生的信用記錄數(shù)量積在TB規(guī)模，且與信用卡記錄相關(guān)聯(lián)的屬性就超過100個。有些視頻、文本數(shù)據(jù)的維度更高，可以達(dá)到十萬以上。因此，在如此大規(guī)模的數(shù) 據(jù)中進(jìn)行異常識別，往往面臨巨大的挑戰(zhàn)。
[0025] 首先，樣本量的增大增加了計算的時間開銷。傳統(tǒng)的異常識別方法針對小樣本數(shù) 據(jù)集，時間復(fù)雜度多在〇 (η2)或0 (η3)。而大規(guī)模數(shù)據(jù)下，這種時間開銷可能難以接受；其次，維度的增大也帶來了"維災(zāi)難"(Curse of Dimension)問題，即數(shù)據(jù)在其所占據(jù)的空間中越來越稀疏，樣本點之間的距離幾乎相等，導(dǎo)致很多基于距離和基于密度的計算指標(biāo)失去了意義；第三，大規(guī)模數(shù)據(jù)產(chǎn)生的速度往往比較快，在數(shù)據(jù)的采集過程中存在"缺失數(shù)據(jù)"，有些正常點可能因此被誤判為異常點。

【發(fā)明內(nèi)容】

[0026] 為了克服上述現(xiàn)有技術(shù)的不足，本發(fā)明提供一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù) 異常識別方法，通過雙向抽樣方法，既解決了樣本量大時間復(fù)雜度高，又解決了維災(zāi)難的問題；利用抽樣方法將數(shù)據(jù)集進(jìn)行切分，提高了方法的擴(kuò)展性。
[0027] 為了實現(xiàn)上述發(fā)明目的，本發(fā)明采取如下技術(shù)方案：
[0028] 本發(fā)明提供一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，設(shè)樣本數(shù)據(jù)集D 中樣本點數(shù)量為n，屬性個數(shù)為m，所述方法包括以下步驟：
[0029] 步驟1 :對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣，得到子樣本數(shù)據(jù)集比；
[0030] 步驟2 :對子樣本數(shù)據(jù)集比進(jìn)行縱向抽樣，得到條帶數(shù)據(jù)集比。；
[0031] 步驟3 :對條帶數(shù)據(jù)集。進(jìn)行異常程度打分；
[0032] 步驟4 :重復(fù)執(zhí)行上述步驟1-3 ;
[0033] 步驟5 :組合異常程度分?jǐn)?shù)值，并計算異常程度分?jǐn)?shù)的平均值。
[0034] 所述步驟1中，從樣本數(shù)據(jù)集D的η個樣本點中，以橫向抽樣率λ，按照隨機(jī)方式抽取η λ個樣本點，得到子樣本數(shù)據(jù)集隊，即可完成對樣本數(shù)據(jù)集D的橫向抽樣。
[0035] 對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣時，橫向抽樣率λ取〇. 1。
[0036] 所述步驟2中，從子樣本數(shù)據(jù)集的m個屬性中，以縱向抽樣率A按照隨機(jī)方式抽取個屬性，得到條帶數(shù)據(jù)集，即可完成對子樣本數(shù)據(jù)集&的縱向抽樣。
[0037] 對子樣本數(shù)據(jù)集比進(jìn)行縱向抽樣時，縱向抽樣率P取0. 1。
[0038] 所述步驟2中，經(jīng)過縱向抽樣所得到的條帶數(shù)據(jù)集Drc的樣本點數(shù)量為ηλ，即 0. In,屬性個數(shù)為/?供，即0. lm。
[0039] 所述步驟3中，利用基于密度的異常識別方法對條帶數(shù)據(jù)集。進(jìn)行異常程度打分，打分得到的異常程度分?jǐn)?shù)值按照異常程度降低而遞減。
[0040] 基于密度的異常識別方法為基于密度的LOF方法。
[0041] 所述步驟4中，重復(fù)執(zhí)行上述步驟1-3共t次，滿足即t彡100,保證覆蓋完整的樣本數(shù)據(jù)集D。
[0042] 所述步驟5中，針對每個樣本點，取t次的異常程度分?jǐn)?shù)值，計算其平均值作為該樣本點最終的異常程度得分值。
[0043] 與現(xiàn)有技術(shù)相比，本發(fā)明的有益效果在于：
[0044] 1.本發(fā)明先通過雙向抽樣策略生成不同的基礎(chǔ)識別結(jié)果，后再經(jīng)過組合方法加以融合；
[0045] 2.在面向大規(guī)模數(shù)據(jù)的異常識別問題時，可以利用基于密度方法的優(yōu)勢，通過抽樣組合來提高數(shù)據(jù)處理的效率和準(zhǔn)確性；
[0046] 3.通過抽樣的方法不僅可以減小數(shù)據(jù)的規(guī)模，加速并行計算的時間，還能降低數(shù) 據(jù)的維度，克服維災(zāi)難問題；
[0047] 4.組合方法能夠增加識別結(jié)果的多樣性，降低噪音的影響，提高異常識別的效果；
[0048] 5.利用抽樣方法將數(shù)據(jù)集進(jìn)行切分，提高了本發(fā)明方法的擴(kuò)展性。

【專利附圖】

【附圖說明】
[0049] 圖1是基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法示意圖；
[0050] 圖2是本發(fā)明實施例中樣本數(shù)據(jù)集中樣本點數(shù)量η = 1000時AUC與屬性個數(shù)關(guān) 系不意圖；
[0051] 圖3是本發(fā)明實施例中樣本數(shù)據(jù)集中樣本點數(shù)量η = 10000時AUC與屬性個數(shù)關(guān) 系不意圖；
[0052] 圖4是本發(fā)明實施例中樣本數(shù)據(jù)集中樣本點數(shù)量η = 50000時AUC與屬性個數(shù)關(guān) 系不意圖；
[0053] 圖5是本發(fā)明實施例中屬性個數(shù)m = 20時AUC與樣本點個數(shù)關(guān)系示意圖；
[0054] 圖6是本發(fā)明實施例中屬性個數(shù)m = 200時AUC與樣本點個數(shù)關(guān)系示意圖；
[0055] 圖7是本發(fā)明實施例中屬性個數(shù)m = 2000時AUC與樣本點個數(shù)關(guān)系示意圖；
[0056] 圖8是本發(fā)明實施例中真實數(shù)據(jù)集AUC變化情況示意圖；
[0057] 圖9是本發(fā)明實施例中covertype數(shù)據(jù)集穩(wěn)定性分析示意圖；
[0058] 圖10是本發(fā)明實施例中susy數(shù)據(jù)集穩(wěn)定性分析示意圖。

【具體實施方式】
[0059] 下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)說明。
[0060] 異常識別具有重要的研究價值，并廣泛應(yīng)用在諸多領(lǐng)域。隨著大數(shù)據(jù)時代的到來，數(shù)據(jù)樣本量和維度呈現(xiàn)爆炸式增長趨勢，傳統(tǒng)的異常識別方法已不足以應(yīng)對如此大規(guī)模數(shù) 據(jù)的異常識別問題。本文以基于密度的異常識別方法為基礎(chǔ)，利用無監(jiān)督式的雙向抽樣組合策略，將大規(guī)模數(shù)據(jù)集異常識別問題轉(zhuǎn)化為任務(wù)獨立的若干小數(shù)據(jù)集的異常識別問題，本發(fā)明提出的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法能解決大規(guī)模數(shù)據(jù)樣本量大和維度高的問題，不僅擴(kuò)展性強(qiáng)，還具有重要的理論依據(jù)。通過與其他異常識別方法，分別在仿真數(shù)據(jù)集和真實數(shù)據(jù)集上進(jìn)行對比，驗證了雙向抽樣組合方法高效性和準(zhǔn)確性。
[0061] 本發(fā)明提供一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，設(shè)樣本數(shù)據(jù)集D 中樣本點數(shù)量為n，屬性個數(shù)為m，所述方法包括以下步驟：
[0062] 步驟1 :對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣，得到子樣本數(shù)據(jù)集比；
[0063] 步驟2 :對子樣本數(shù)據(jù)集比進(jìn)行縱向抽樣，得到條帶數(shù)據(jù)集比。；
[0064] 步驟3 :對條帶數(shù)據(jù)集&。進(jìn)行異常程度打分；
[0065] 步驟4 :重復(fù)執(zhí)行上述步驟1-3 ;
[0066] 步驟5 :組合異常程度分?jǐn)?shù)值，并計算異常程度分?jǐn)?shù)的平均值。
[0067] 所述步驟1中，從樣本數(shù)據(jù)集D的η個樣本點中，以橫向抽樣率λ，按照隨機(jī)方式抽取η λ個樣本點，得到子樣本數(shù)據(jù)集隊，即可完成對樣本數(shù)據(jù)集D的橫向抽樣。
[0068] 對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣時，橫向抽樣率λ取〇. 1。
[0069] 所述步驟2中，從子樣本數(shù)據(jù)集的m個屬性中，以縱向抽樣率P，按照隨機(jī)方式抽取個屬性，得到條帶數(shù)據(jù)集Dm，即可完成對子樣本數(shù)據(jù)集&的縱向抽樣。
[0070] 對子樣本數(shù)據(jù)集比進(jìn)行縱向抽樣時，縱向抽樣率P取0. 1。
[0071] 所述步驟2中，經(jīng)過縱向抽樣所得到的條帶數(shù)據(jù)集Drc的樣本點數(shù)量為ηλ，即 0. In,屬性個數(shù)為叫》，即0. lm。
[0072] 所述步驟3中，利用基于密度的異常識別方法對條帶數(shù)據(jù)集。進(jìn)行異常程度打分，打分得到的異常程度分?jǐn)?shù)值按照異常程度降低而遞減。
[0073] 基于密度的異常識別方法為基于密度的LOF方法（local outlier factor，L0F，記載于 Μ· M. Breunig, Η· -P. Kriegel, R. Ng, and J. Sander. LOF :Identifying density-based local outliers//In Proc. ofthe SIGM0D, 2000 :93-104.)〇
[0074] 所述步驟4中，重復(fù)執(zhí)行上述步驟1-3共t次，滿足if hi，即t > 100,保證覆蓋完整的樣本數(shù)據(jù)集D。
[0075] 所述步驟5中，針對每個樣本點，取t次的異常程度分?jǐn)?shù)值，計算其平均值作為該樣本點最終的異常程度得分值。
[0076] 實施例1
[0077] 下面以由多元高斯分布模擬生成的仿真數(shù)據(jù)集為例，說明本發(fā)明方法的效果：
[0078] 首先通過多元高斯分布模擬生成仿真數(shù)據(jù)集，每個樣本數(shù)據(jù)集的樣本點數(shù)量η分別為 1000, 2000, 5000,10000, 50000,100000,樣本的維度 m 分別為 20,100, 200, 500,1000， 2000,共計42個仿真數(shù)據(jù)集。每個樣本數(shù)據(jù)集D由c個聚類組成，聚類的個數(shù)c取值范圍為5到10之間。假設(shè)在仿真數(shù)據(jù)集中，每個聚類的樣本點D。均服從m-元的高斯分布，即 a ： A =(?·.·，/<")，[..=(<廠，且高斯分布中的參數(shù)是由均勻分布隨機(jī)生成，即A:: "(-10，10)，"(0.U)。那么，每個樣本點D。到其聚類中心點的馬氏距離W =yj(D -μ f Σ,~' (Z) - Ji),同時也服從自由度為m的卡方分布，即Zf : x2(m)。因此，標(biāo)記每個聚類中馬氏距離在0. 975分位點之后的樣本為異常點。
[0079] 在該實施例中，參數(shù)設(shè)定為抽樣率λ =〇. 1，￠7=0.1, t = 100。為了與其它方法進(jìn)行性能對比分析，這里將本發(fā)明方法簡記為"BI-L0F"。特別地，當(dāng)樣本抽樣率λ = 1，ρ = 0·1 時，相當(dāng)于只對屬性進(jìn)行抽樣，該方法可記為"FB-L0F";同理，當(dāng)屬性抽樣率λ =〇. 1，<^ = 1 時，相對對于只對樣本進(jìn)行抽樣，該方法可記為"SUB-L0F";當(dāng)雙向抽樣率λ =1且P = I時，相當(dāng)于沒有進(jìn)行抽樣，該方法等同于"L0F"。
[0080] 該實施例利用ROC曲線下方的面積（AUC)來評價不同本發(fā)明方法的效果。
[0081] 圖2-圖4描述了在樣本點數(shù)量不變的條件下，仿真數(shù)據(jù)集的AUC隨屬性數(shù)量的變化情況。當(dāng)樣本點數(shù)量η固定時，隨著屬性個數(shù)m的增加，F(xiàn)B-LOF方法性能逐漸增加，其它方法則相對穩(wěn)定，這是由屬性抽樣的性質(zhì)所決定的。當(dāng)屬性個數(shù)達(dá)到最大值2000時，四種方法的AUC均略有下降，若屬性個數(shù)再有增加，將出現(xiàn)維災(zāi)難現(xiàn)象。圖5-圖7描述了在屬性數(shù)量不變的條件性，仿真數(shù)據(jù)集的AUC隨樣本點數(shù)量的變化情況。當(dāng)屬性數(shù)量η固定時，四種方法幾乎不受樣本點數(shù)量變化的影響，相對較為穩(wěn)定。
[0082] 綜合圖2-圖7可以得出，在仿真數(shù)據(jù)集上，雙向抽樣方法BI-LOF和樣本抽樣方法 SUB-LOF效果最優(yōu)，LOF次之，屬性抽樣方法FB-LOF效果最差。但由于本發(fā)明方法BI-LOF 可以進(jìn)一步通過屬性抽樣降低數(shù)據(jù)集的計算開銷，因此，更適合于大規(guī)模數(shù)據(jù)的異常識別。
[0083] 實施例2
[0084] 下面以真實數(shù)據(jù)集為例，說明本發(fā)明方法的效果：
[0085] 真實數(shù)據(jù)集全部選自UCI數(shù)據(jù)庫，表1給出了關(guān)于實驗中所涉及全部數(shù)據(jù)集的特征描述。為了模擬數(shù)據(jù)集中的異常情況，文中隨機(jī)從每個數(shù)據(jù)集的最小類中選取s e [10， 100]個點標(biāo)記為該數(shù)據(jù)集的異常點，其余點則標(biāo)記為正常點。由于本發(fā)明方法不適用于離散屬性的分析，因此需剔除部分真實數(shù)據(jù)集中的離散屬性。與實施例1相同，該實施例利用 ROC曲線下方的面積（AUC)來評價不同本發(fā)明方法的效果。
[0086] 表 1
[0087]

【權(quán)利要求】
1. 一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，其特征在于：設(shè)樣本數(shù)據(jù)集D 中樣本點數(shù)量為n，屬性個數(shù)為m，所述方法包括以下步驟：步驟1 :對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣，得到子樣本數(shù)據(jù)集; 步驟2 :對子樣本數(shù)據(jù)集&進(jìn)行縱向抽樣，得到條帶數(shù)據(jù)集比。；步驟3 :對條帶數(shù)據(jù)集Drc進(jìn)行異常程度打分；步驟4 :重復(fù)執(zhí)行上述步驟1-3 ; 步驟5 :組合異常程度分?jǐn)?shù)值，并計算異常程度分?jǐn)?shù)的平均值。
2. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，其特征在于：所述步驟1中，從樣本數(shù)據(jù)集D的η個樣本點中，以橫向抽樣率λ，按照隨機(jī)方式抽取 ηλ個樣本點，得到子樣本數(shù)據(jù)集，即可完成對樣本數(shù)據(jù)集D的橫向抽樣。
3. 根據(jù)權(quán)利要求1或2所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，其特征在于：對樣本數(shù)據(jù)集D進(jìn)行橫向抽樣時，橫向抽樣率λ取〇. 1。
4. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，其特征在于：所述步驟2中，從子樣本數(shù)據(jù)集的!11個屬性中，以縱向抽樣率Ρ，按照隨機(jī)方式抽取個屬性，得到條帶數(shù)據(jù)集Dm，即可完成對子樣本數(shù)據(jù)集1\，的縱向抽樣。
5. 根據(jù)權(quán)利要求1或4所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，其特征在于：對子樣本數(shù)據(jù)集比進(jìn)行縱向抽樣時，縱向抽樣率P取0. 1。
6. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，其特征在于：所述步驟2中，經(jīng)過縱向抽樣所得到的條帶數(shù)據(jù)集。的樣本點數(shù)量為ηλ，即〇.In,屬性個數(shù)為叫9，即0.lm。
7. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，其特征在于：所述步驟3中，利用基于密度的異常識別方法對條帶數(shù)據(jù)集。進(jìn)行異常程度打分，打分得到的異常程度分?jǐn)?shù)值按照異常程度降低而遞減。
8. 根據(jù)權(quán)利要求7所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，其特征在于：基于密度的異常識別方法為基于密度的LOF方法。
9. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，其特征在于：所述步驟4中，重復(fù)執(zhí)行上述步驟1-3共t次，滿足?·fA^，即t> 100,保證覆蓋完整的樣本數(shù)據(jù)集D。
10. 根據(jù)權(quán)利要求1所述的基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法，其特征在于：所述步驟5中，針對每個樣本點，取t次的異常程度分?jǐn)?shù)值，計算其平均值作為該樣本點最終的異常程度得分值。
【文檔編號】G06F17/30GK104462184SQ201410535911
【公開日】2015年3月25日申請日期:2014年10月13日優(yōu)先權(quán)日:2014年10月13日
【發(fā)明者】張玉超, 鄧波, 彭甫陽, 李海龍申請人:北京系統(tǒng)工程研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：張玉超;鄧波;彭甫陽;李海龍;
技術(shù)所有人：北京系統(tǒng)工程研究所;
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于雙向抽樣組合的大規(guī)模數(shù)據(jù)異常識別方法