,可運(yùn)用現(xiàn)有挖掘工具進(jìn)行挖掘。因此,步驟S3在實(shí)際操作上容易建立。
[0090] 當(dāng)k〉l,在重建Ak支持度時需用到Ak的各種長度子項(xiàng)目集的支持度之和。在實(shí)際 操作中,每一個k-項(xiàng)目集Ak有k個計數(shù)器,分別累計長度為1,2,...,化-1)的所有子項(xiàng)目 集的支持度之和。在步驟S33中重建Ak的支持度后,可將Ak的支持度累加到關(guān)聯(lián)集合F中 所有Ak的superset用來累計k-項(xiàng)目子集支持度的計數(shù)器中。
[0091] 本實(shí)施例所述的保護(hù)原交易數(shù)據(jù)集關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法獲取的支持度可W 通過兩個指標(biāo)來評估該支持度。一個是supporterror,-個是identityerror。在本實(shí)施 例中,使用IBMAlma化nResearchCenter所開發(fā)的人工數(shù)據(jù)集生成器,產(chǎn)生交易數(shù)100k的 數(shù)據(jù)集,每組數(shù)據(jù)集包括300個不同的項(xiàng)目,交易的最大長度為30。參數(shù)設(shè)定方面,minsup 采用0.5%或0.25%。添加的干擾交易量為100K或500k。
[0092] (l)suppo;rterror
[009引 Wf表示重建的頻繁項(xiàng)目集里真正的頻繁項(xiàng)目集所構(gòu)成的集合,fk表示F中k-項(xiàng) 目集的集合。SupportError計算fk中的項(xiàng)目集其重建后的支持度與真正的支持度的平均 差距,定義如下:
[0094]
公式做
[0095] (2)identityerror
[0096] WR代表重建的頻繁項(xiàng)目集所構(gòu)成的集合,F(xiàn)代表真正的頻繁項(xiàng)目集所構(gòu)成的集 合,Rk、Fk分別表示R、F中k-項(xiàng)目集的集合。IdentityError衡量R的錯誤率,包含0^/與 兩分布,定義如下:
[0099] 運(yùn)兩個指標(biāo)將對各個長度的項(xiàng)目集分別計算。
[0100] 表 1:N= 100K,L= 100K,minsup= 0. 25% 的執(zhí)行結(jié)果
[0101]
[0105] 表1與表1為在不同的minsup下的執(zhí)行結(jié)果,可w看出minsup較大時的p較小。 運(yùn)種影響在項(xiàng)目數(shù)較少的項(xiàng)目集中,比較明顯。而當(dāng)項(xiàng)目數(shù)為5W上時,運(yùn)種變化較小。同 時,從表1. 1和1. 2可W看出,方案對項(xiàng)目數(shù)較少的項(xiàng)目集影響較大。
[0106] 表3:N=100K,L= 500K,minsup= 0.25%的執(zhí)行結(jié)果
[0107]
[010引表1. 1與表1. 3表示添加不同的干擾交易數(shù)的結(jié)果。理論上,添加的干擾交易越 多,干擾數(shù)據(jù)集中的k-項(xiàng)目集的支持度越趨近7^對支持度重建的影響越小。實(shí)驗(yàn)結(jié)果表 明,1、2-項(xiàng)目集的變化并不明顯,3、4、5-項(xiàng)目集有一定影響。因?yàn)楸?中添加的干擾交易 數(shù)針對1-項(xiàng)目集、2-項(xiàng)目集已足夠多。而當(dāng)項(xiàng)目數(shù)較多時,運(yùn)種影響又會弱化。
[0109] 本實(shí)施例所述的保護(hù)原交易數(shù)據(jù)集關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法通過添加干擾項(xiàng)目 和干擾交易,既具有良好的隱私保護(hù)效果,同時也能挖掘出真正有用的數(shù)據(jù)關(guān)聯(lián)規(guī)則,給商 業(yè)應(yīng)用帶來積極效果。
[0110] 實(shí)施例二
[0111] 本實(shí)施例提供一種保護(hù)原交易數(shù)據(jù)集關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘系統(tǒng)1,請參閱圖5,顯 示為保護(hù)原交易數(shù)據(jù)集關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘系統(tǒng)的原理結(jié)構(gòu)示意圖。如圖5所示,所述保 護(hù)原交易數(shù)據(jù)集關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘系統(tǒng)1包括:數(shù)據(jù)集轉(zhuǎn)換模塊11、推導(dǎo)模塊12、及挖掘 模塊13。
[0112] 所述數(shù)據(jù)集轉(zhuǎn)換模塊用于根據(jù)預(yù)制加入干擾策略將所述原交易數(shù)據(jù)集D轉(zhuǎn)換 為授權(quán)數(shù)據(jù)集D'。在本實(shí)施例中,設(shè)交易項(xiàng)目集合I是由交易項(xiàng)ik構(gòu)成的集合,1 = (ii,i2,is,…,im},k大于等于1,小于等于m;設(shè)原交易數(shù)據(jù)集為D是由n筆交易化構(gòu)成的 集合,D=化,〇2, …,D。}中包括n個交易項(xiàng)目,交易數(shù)為N,交易的最大長度為m,i表示 交易化中交易項(xiàng)目數(shù),i小于等于m。請參閱圖6,顯示為數(shù)據(jù)轉(zhuǎn)換模塊的原理結(jié)構(gòu)示意圖。 在本實(shí)施例中所述數(shù)據(jù)集轉(zhuǎn)換模塊11包括:干擾項(xiàng)目添加單元111、干擾交易單元112、及 轉(zhuǎn)換單元113。
[0113] 所述干擾項(xiàng)目添加單元111用于添加干擾項(xiàng)目,從集合I-Dk中隨機(jī)選取m-i個交 易項(xiàng)添加至每一筆交易化中,使所述每一交易Dk的交易長度達(dá)到mW形成加入干擾項(xiàng)目后 的交易數(shù)據(jù)集Ti。
[0114] 與所述干擾項(xiàng)目添加單元111的所述干擾交易單元112用于執(zhí)行干擾交易,從交 易項(xiàng)目集合I選取m個交易項(xiàng)ik作為干擾交易的項(xiàng)目W形成加入的干擾交易數(shù)據(jù)集T2。
[0115] 與所述干擾項(xiàng)目添加單元111和干擾交易單元112連接的轉(zhuǎn)換單元113用于將 加入干擾項(xiàng)目后的交易數(shù)據(jù)集Ti和加入的干擾交易數(shù)據(jù)集T2形成所述授權(quán)數(shù)據(jù)集DS即 D'=TiUT2,所述授權(quán)數(shù)據(jù)集D'的交易數(shù)為N+L。所述授權(quán)數(shù)據(jù)集D'中所有交易項(xiàng)的 交易長度均為m,且所述授權(quán)數(shù)據(jù)集D'既包括干擾項(xiàng)目,又包括干擾交易,具有較好的隱私 保護(hù)效果。
[0116] 與所述數(shù)據(jù)集轉(zhuǎn)換模塊11連接的推導(dǎo)模塊12用于推導(dǎo)所述原交易數(shù)據(jù)集D中各 項(xiàng)目集在原交易數(shù)據(jù)集D的支持度S。將干擾加入數(shù)據(jù)集后,接下來便是如何從運(yùn)些已加入 干擾的數(shù)據(jù)集中求出各項(xiàng)目集,即k個交易項(xiàng)組成的各項(xiàng)目集或子交易數(shù)據(jù)集Ak在原交易 數(shù)據(jù)集D中的支持度S。請參閱圖7,顯示為推導(dǎo)模塊的原理結(jié)構(gòu)示意圖。如圖7所示,所 述推導(dǎo)模塊包括:提取單元121、第一計算單元122、推導(dǎo)單元123。
[0117] 所述提取單元121用于從所述原交易數(shù)據(jù)集D中提取由k個交易項(xiàng)組成的項(xiàng)目集 或子交易數(shù)據(jù)集Ak,Ak在所述原交易數(shù)據(jù)集D中的支持度記為S,Ak在所述授權(quán)數(shù)據(jù)集D'中 的支持度記為S'。
[0118] 與所述提取單元121連接的第一計算單元122用于計算加入干擾項(xiàng)目后的交易數(shù) 據(jù)集Ti中Ak的支持度S1。在本實(shí)施例中,所述第一計算單元122計算支持度Si的具體計 算過程如下:
[0119] 在所述加入干擾項(xiàng)目后的交易數(shù)據(jù)集Ti中,對于加入干擾項(xiàng)目的個數(shù)不小于k的 交易,其由原來完全不支持Ak變成完全支持Ak的概率Pk按照公式1. 1來計算。在本實(shí)施 例中,該交易完全不支持項(xiàng)目集Ak是指該項(xiàng)目集Ak內(nèi)的所有項(xiàng)目均未出現(xiàn)在該交易中,該 交易完全支持項(xiàng)目集Ak是指該項(xiàng)目集Ak內(nèi)的所有項(xiàng)目均出現(xiàn)在該交易中。
[0120]
公式(1)
[0121] 其中,
Ni為所述原交易數(shù)據(jù)集D中交易長度為i的交易數(shù)。公式(1) 假設(shè)加入干擾項(xiàng)目個數(shù)不小于k的所有交易和加入干擾項(xiàng)目個數(shù)不小于k且原本不支持Ak的所有交易,其原交易在各長度的分布比相同。在本步驟中,加入干擾項(xiàng)目后的交易數(shù)據(jù)集 T沖Ak的支持度Si,其中,Si與S關(guān)系可由公式似表示:
[0122]
公式似
[012引其中,i是從0到k-1,0 ,表示項(xiàng)目集或子交易數(shù)據(jù)集Ak的所有j項(xiàng)子項(xiàng)目集或 子交易數(shù)據(jù)集支持度總和。
[0124] 所述第一計算單元122還用于計算加入的干擾交易數(shù)據(jù)集T2中Ak的支持度S2。 在本實(shí)施例中,所述第一計算單元122計算支持度S2的具體計算過程如下:
[01巧]由于加入的干擾交易數(shù)據(jù)集T2中交易的生成方式為從n個項(xiàng)目中隨機(jī)選取m個 項(xiàng)目,加入的干擾交易數(shù)據(jù)集T2中Ak的支持度S2由公式做估算出。
[0126]
公式(3)
[0127] 與所述提取單元121和第一計算單元122連接的所述推導(dǎo)單元123用于根據(jù)預(yù)制 計算方式推導(dǎo)出各項(xiàng)目集在所述原交易數(shù)據(jù)集D中的支持度S。由于所述授權(quán)數(shù)據(jù)集D'由 加入干擾項(xiàng)目后的交易數(shù)據(jù)集Ti和加入的干擾交易數(shù)據(jù)集T2組成,S'為Ak在所述授權(quán)數(shù) 據(jù)集D'中的支持度,S'與Si、S2的關(guān)系由公式(4)表示
[012引(N+L)XS' =NXSi+LXSz 公式(4)
[0129]將公式(2)和公式(3)代入公式(4),得到通過預(yù)制計算公式(5)獲取到各項(xiàng)目集 或子交易數(shù)據(jù)集Ak在所述原交易數(shù)據(jù)集D中的支持度。
[0130]
公式巧)
[0131] 與所述數(shù)據(jù)集轉(zhuǎn)換模塊11和推導(dǎo)模塊12連接的挖掘模塊13用于根據(jù)各項(xiàng)目集 或子交易數(shù)據(jù)集在所述原交易數(shù)據(jù)集中的支持度挖掘出所述授權(quán)數(shù)據(jù)集中的頻繁項(xiàng)目集 W挖掘所述原交易數(shù)據(jù)集中數(shù)據(jù)關(guān)聯(lián)規(guī)則。請參閱圖8,顯示為挖掘模塊的原理結(jié)構(gòu)示意 圖。如圖8所示,所述步驟挖掘模塊13包括:第二計算單元131、查找單元132、循環(huán)處理單 元133、判斷單元134、剔除單元135、及輸出單元136。
[0132] 所述第二計算單元131用于根據(jù)所述原交易數(shù)據(jù)集D中頻繁項(xiàng)目集的第一最小支 持度計算所述授權(quán)數(shù)據(jù)集D'中的第二最小支持度;在本實(shí)施例中具體描述了所述挖掘模塊 13如何從加入干擾后的授權(quán)數(shù)據(jù)集D'中挖掘出存在于原交易數(shù)據(jù)集D中的頻繁項(xiàng)目集。 由于所述授權(quán)數(shù)據(jù)集D'中存在干擾交易,所述原交易數(shù)據(jù)集D中真正的頻繁項(xiàng)目集在授 權(quán)數(shù)據(jù)集中的第二最小支持度minsup'已不再試真正的頻繁項(xiàng)目集在所述原交易數(shù)據(jù)集D 中的第一最小支持度minsup,對于任意的k項(xiàng)