亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于并行計算的離群數(shù)據(jù)挖掘方法

文檔序號:10512364閱讀:424來源:國知局
一種基于并行計算的離群數(shù)據(jù)挖掘方法
【專利摘要】本發(fā)明公開了一種基于并行計算的離群數(shù)據(jù)挖掘方法,利用屬性維上的局部稀疏程度,重新定義了相關(guān)子空間,從而能夠有效地刻畫各種局部數(shù)據(jù)集上的分布特征;其次,利用局部數(shù)據(jù)集的概率密度,給出了局部離群因子計算公式,有效地體現(xiàn)了數(shù)據(jù)對象不服從局部數(shù)據(jù)集分布特征的程度,并選取離群程度最大的N個數(shù)據(jù)對象定義為局部離群數(shù)據(jù)。本發(fā)明公開的一種基于并行計算的離群數(shù)據(jù)挖掘方法,在計算稀疏度因子和離群因子Factor時由Map來實現(xiàn);在按Factor大小進行全排序時,使用一個Map對Factor進行取樣,進而實現(xiàn)決定各個(K2,V2)分配到哪個結(jié)點的函數(shù),從而有效地解決了數(shù)據(jù)分配不均勻問題和局部有序但全局無序問題。
【專利說明】
一種基于并行計算的離群數(shù)據(jù)挖掘方法
技術(shù)領(lǐng)域
[0001 ]本發(fā)明涉及一種基于并行計算的離群數(shù)據(jù)挖掘方法。
【背景技術(shù)】
[0002] 離群數(shù)據(jù)(outlier)就是明顯偏離其他數(shù)據(jù)、不滿足數(shù)據(jù)的一般模式或行為、與存 在的其他數(shù)據(jù)不一致的數(shù)據(jù),蘊含著大量的不易被人類發(fā)現(xiàn)卻很有價值的信息.離群挖掘 作為數(shù)據(jù)挖掘的一個重要分支,已廣泛的應用在天文光譜數(shù)據(jù)分析、信用卡詐騙、網(wǎng)絡入侵 挖掘、數(shù)據(jù)清洗等領(lǐng)域.
[0003] 在高維海量數(shù)據(jù)中,由于數(shù)據(jù)量大和維度高,嚴重地影響了離群數(shù)據(jù)挖掘效果和 效率,可能無法發(fā)現(xiàn)隱藏在子空間中的一些離群數(shù)據(jù).在大多數(shù)情況下,離群數(shù)據(jù)是與局部 數(shù)據(jù)集的分布特征明顯不一致的數(shù)據(jù)對象.但在有些屬性維上,可以提供不一致的有價值 信息,而在其他屬性維上,無法提供有價值的信息。

【發(fā)明內(nèi)容】

[0004] 本發(fā)明的目的是針對高維海量數(shù)據(jù),在MapReduce編程模型下,提出了一種基于并 行計算的離群數(shù)據(jù)挖掘方法,該算法利用屬性維上的局部稀疏程度,重新定義了相關(guān)子空 間,從而能夠有效地刻畫各種局部數(shù)據(jù)集上的分布特征;其次,利用局部數(shù)據(jù)集的概率密 度,給出了局部離群因子計算公式,有效地體現(xiàn)了數(shù)據(jù)對象不服從局部數(shù)據(jù)集分布特征的 程度,并選取離群程度最大的N個數(shù)據(jù)對象定義為局部離群數(shù)據(jù)。
[0005] 本發(fā)明所采用的技術(shù)方案是:
[0006] -種基于并行計算的離群數(shù)據(jù)挖掘方法,包括以下步驟:
[0007] S1、執(zhí)行LSH中的MapReduce任務,生成{(obj,LDS(obj) )},并行計算數(shù)據(jù)對象obj 的LDS(obj);
[0008] S2、以{(obj,LDS(obj))}作為輸入,執(zhí)行MapReduce任務,生成{(obj, λ)},確定DS 中每個數(shù)據(jù)對象obj對應的稀疏度因子;
[0009] S3、以{(obj,久)}作為輸入,執(zhí)行LSH中的MapReduce任務,生成{(obj,( [ZLk]kxd (ο) (o e LDS(ob j i))))},確定DS中每個數(shù)據(jù)對象ob j的LDS(ob j)對應的局部稀疏因子矩陣 [ZLk]kxd(o) (o^LDS(obji));
[0010] S4、以{(obj,([ZLk]kxd(o)(〇ELDS(obji))))}作為輸入,執(zhí)行MapReduce任務,生 成{(obj,F(xiàn)actor(obj))},確定DS中每個數(shù)據(jù)對象obj對應的離群因子Factor(obj);
[0011] S5、以{(obj,F(xiàn)actor (obj ))}作為輸入,執(zhí)行MapReduce 任務,對{(obj,F(xiàn)actor (obj))}按Factor大小進行全排序,確定DS中每個數(shù)據(jù)對象obj按對應的離群因子Factor (obj)的大小進彳丁全排序;
[0012] S6、在步驟5的輸出中找離群程度最大的η個數(shù)據(jù)對象,選取Top(N)作為離群數(shù)據(jù)。
[0013] 其中,離群因子計算過程為:
[0014] (1)采用分布式策略,確定各個數(shù)據(jù)對象的LDS(obji);
[0015] (2)采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的稀疏度因子久;
[0016] (3)采用分布式策略,確定LDS(o)(〇eLDS(obji))對應的局部稀疏因子矩陣: [ZLk]kxd(o) (o^LDS(obji));;
[0017] (4)采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的子空間定義向量vi,結(jié)合[ZLk] kxd(o)(〇eLDS(obji))計算對應的離群因子Factor;
[0018] (5)采用一個Map函數(shù)和一個Reduce函數(shù),將各個數(shù)據(jù)對象按對應的離群因子 Factor進行全排序并輸出結(jié)果。
[0019] 本發(fā)明的有益效果是,
[0020] 本發(fā)明公開的一種基于并行計算的離群數(shù)據(jù)挖掘方法,在計算稀疏度因子和離群 因子Factor時由Map來實現(xiàn),在按Factor大小進行全排序時,使用一個Map對Factor進行取 樣,進而實現(xiàn)決定各個(K2,V2)分配到哪個結(jié)點的函數(shù),從而有效地解決了數(shù)據(jù)分配不均勻 問題和局部有序但全局無序問題;同時,設計一個Reduce來對分配到各個結(jié)點的(K2,V2)進 行排序。
[0021] 下面結(jié)合附圖對本發(fā)明作進一步詳細描述。
【附圖說明】
[0022] 圖1為傳統(tǒng)算法的離群因子的計算過程示意圖。
[0023]圖2為本發(fā)明基于并行計算的離群數(shù)據(jù)挖掘方法的MapReduce程序?qū)崿F(xiàn)示意圖。
【具體實施方式】
[0024] 為了加深對本發(fā)明的理解,下面結(jié)合附圖和實施例對本發(fā)明作進一步詳細的說 明。以下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,而不能以此來限制本發(fā)明的保 護范圍。
[0025] 傳統(tǒng)算法:
[0026] 設DS是任意一個d維數(shù)據(jù)集,屬性集FS= {A1,A2, '"Ad},xi j(i = l,2,…,n; j = 1, 2,···,d)表示第i個數(shù)據(jù)對象obji在第j個屬性上的取值。如果第i個對象obj的子空間定義 向量v各維值都是〇,表明〇bj與局部分布特征一致;如果第i個對象obj存在著相關(guān)子空間, 表明obj與局部分布特征不一致。通常我們用Fact 〇r(〇bj)來描述離群程度:
[0028]其中,LDS(obj)是obj局部數(shù)據(jù)集,PL0F是局部異常因子:
[0030]由公式可知,數(shù)據(jù)集DS中的任意數(shù)據(jù)對象obji(i = l,2, · · .,n;n = |DS| )的離群因 子Factor (obj i)的計算步驟是:
[0031]首先,確定obji的LDS(obji),并利用公式計算obji對應的稀疏度因子λ?,從而生成 DS的稀疏因子矩陣[Zk]nXd;其次,根據(jù)[Zk]nXd,參照LDS(o)(LDS(obji)),生成對應的局 部稀疏因子矩陣[21^]1^(1(〇)(〇61^(〇1^)),然后生成 〇1^對應的子空間定義向量仏 最后,確定obji對應的離群因數(shù)Factor(obji)。
[0032]因此在DS中,任意數(shù)據(jù)對象的離群因子計算過程可由圖1所示。
[0033] 圖1刻畫和描述了離群因子的計算過程,當數(shù)據(jù)集DS較小時,表A與表B都較小,可 以首先生成表A,并將其保存在內(nèi)存中;然后由表A通過生成表B,并將其也保存在內(nèi)存中。由 于表A與表B中都在內(nèi)存,可采用索引技術(shù),從表B中的對應項對應到表A的相應項來生成表 C。當數(shù)據(jù)集DS大到一定程度時,表A與表哺卩相當大。在生成表C時,需將表A中的每一個數(shù)據(jù) 對象和對應局部數(shù)據(jù)集LDS(obji)逐項輸入,以及在表B中查找LDS(obji)對應的稀疏度因 子,因此,表B必須被保留在各計算結(jié)點上的內(nèi)存中。當B表太大時,會耗盡各個計算結(jié)點的 內(nèi)存資源。
[0034] 因此,為了生成表C,不再采用索引策略對應生成,而是從表B中查找LDS(ob j i)對 應的局部稀疏因子,采用類似于表A中生成LDS(obji)的操作。
[0035]由圖1可以看出:生成表A時,需要遍歷DS中的全部數(shù)據(jù)對象;生成表C時,需要遍歷 表A中的全部數(shù)據(jù)對象。因此,生成表A和表C是全局相關(guān)的,其他過程都與全局無關(guān),各數(shù)據(jù) 對象對應操作彼此之間不存在通信。
[0036] 在MapReduce編程模型中,離群因子計算過程為:
[0037] 1.采用分布式策略,確定各個數(shù)據(jù)對象的LDS(obji);
[0038] 2.采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的稀疏度因子久;
[0039] 3.采用分布式策略,確定〇^(0)(06〇^( 01^1))對應的局部稀疏因子矩陣:[21^] kxd(o) (o^LDS(obji));
[0040] 4.采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的子空間定義向量vi,結(jié)合[ZLk]kxd (〇)(〇eLDS(obji))計算對應的離群因子Factor;
[00411 5.采用一個Map函數(shù)和一個Reduce函數(shù),將各個數(shù)據(jù)對象按對應的離群因子 Factor進行全排序并輸出結(jié)果。
[0042]輸入:數(shù)據(jù)集DS(屬性個數(shù)為d)、近鄰數(shù)K、稀疏度差異因子閾值;
[0043]輸出:η個離群數(shù)據(jù)。
[0044] 1、執(zhí)行LSH中的MapReduce任務,生成{(obj,LDS(obj))},并行計算數(shù)據(jù)對象obj的 LDS(obj);
[0045] 2、以{(ob j,LDS(ob j))}作為輸入,執(zhí)行MapReduce任務,生成{(obj,λ)},確定DS中 每個數(shù)據(jù)對象obj對應的稀疏度因子;
[0046] 3、以{(obj,叉)}作為輸入,執(zhí)行LSH中的MapReduce任務,生成{(obj,([ZLk]kxd(o) (o e LDS (obj i )))) },確定DS中每個數(shù)據(jù)對象obj的LDS (ob j)對應的局部稀疏因子矩陣 [ZLk]kxd(o) (o^LDS(obji));
[0047] 4、以{(obj,([ZLk]kxd(o)(〇ELDS(obji))))}作為輸入,執(zhí)行MapReduce任務,生 成{(obj,F(xiàn)actor(obj))},確定DS中每個數(shù)據(jù)對象obj對應的離群因子Factor(obj);
[0048] 5、以{(〇13」,卩&(31:〇1'(〇13」))}作為輸入,執(zhí)行]\^卩1^(111〇6任務,對{(〇13」,卩&(31:〇『 (obj))}按Factor大小進行全排序,確定DS中每個數(shù)據(jù)對象obj按對應的離群因子Factor (obj)的大小進彳丁全排序;
[0049] 6、在步驟5的輸出中找離群程度最大的η個數(shù)據(jù)對象,選取Top(N)作為離群數(shù)據(jù)。 [0050]要說明的是,以上所述實施例是對本發(fā)明技術(shù)方案的說明而非限制,所屬技術(shù)領(lǐng) 域普通技術(shù)人員的等同替換或者根據(jù)現(xiàn)有技術(shù)而做的其他修改,只要沒超出本發(fā)明技術(shù)方 案的思路和范圍,均應包含在本發(fā)明所要求的權(quán)利范圍之內(nèi)。
【主權(quán)項】
1. 一種基于并行計算的離群數(shù)據(jù)挖掘方法,其特征在于:包括以下步驟: 51、 執(zhí)行LSH中的MapReduce任務,生成{(ob j,LDS(ob j))},并行計算數(shù)據(jù)對象ob j的LDS (〇bj); 52、 以{(ob j,LDS (ob j))}作為輸入,執(zhí)行MapReduce任務,生成{(ob j,λ)},確定DS中每 個數(shù)據(jù)對象obj對應的稀疏度因子; 53、 以{(obj,X)}作為輸入,執(zhí)行 LSH 中的 MapReduce 任務,生成{(obj,([ZLk]kxd(o)(〇e LDS(obj i))))},確定DS中每個數(shù)據(jù)對象obj的LDS(obj)對應的局部稀疏因子矩陣[ZLk] kxd(o) (o^LDS(obji)); 54、 以{(obj,( [ZLk]kxd(o) (oeLDS(obji))))}作為輸入,執(zhí)行MapReduce任務,生成 {(obj,F(xiàn)actor(obj))},確定DS中每個數(shù)據(jù)對象obj對應的離群因子Factor(obj); 55、 以{(obj,F(xiàn)actor(ob j))}作為輸入,執(zhí)行MapReduce任務,對{(ob j,F(xiàn)actor(ob j))} 按Factor大小進行全排序,確定DS中每個數(shù)據(jù)對象obj按對應的離群因子Factor (obj)的大 小進彳丁全排序; 56、 在步驟5的輸出中找離群程度最大的η個數(shù)據(jù)對象,選取Top(N)作為離群數(shù)據(jù)。2. 根據(jù)權(quán)利要求1所述的一種基于并行計算的離群數(shù)據(jù)挖掘方法,其特征在于:其中, 離群因子計算過程為: (1) 采用分布式策略,確定各個數(shù)據(jù)對象的LDS(ob ji); (2) 采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的稀疏度因子λ; (3) 采用分布式策略,確定1^5(〇)(〇6〇^(〇1^1))對應的局部稀疏因子矩陣:[21^]1?(1 (o)(〇eLDS(obji)); (4) 采用一個Map函數(shù),計算各個數(shù)據(jù)對象對應的子空間定義向量vi,結(jié)合[ZLk]kxd(〇) (o eLDS(obji))計算對應的離群因子Factor; (5) 采用一個Map函數(shù)和一個Reduce函數(shù),將各個數(shù)據(jù)對象按對應的離群因子Factor進 行全排序并輸出結(jié)果。3. 根據(jù)權(quán)利要求1所述的一種基于并行計算的離群數(shù)據(jù)挖掘方法,其特征在于:所述數(shù) 據(jù)集DS的屬性個數(shù)為d。
【文檔編號】G06F17/30GK105868387SQ201610227845
【公開日】2016年8月17日
【申請日】2016年4月14日
【發(fā)明人】陳勇, 胡中驥, 賈昱
【申請人】江蘇馬上游科技股份有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1