[00對 13 挖掘模塊
[0034] 121 提取單元
[0035] 122 第一計算單元
[0036] 123 推導(dǎo)單元
[0037] 131 第二計算單元
[0038] 132 查找單元
[0039] 133 循環(huán)處理單元
[0040] 134 判斷單元
[00川 135 剔除單元
[004引 136 輸出單元
[0043] S1 ~S3 步驟
[0044] S21 ~S24 步驟
[0045] S31 ~S35 步驟
【具體實施方式】
[0046] W下通過特定的具體實例說明本發(fā)明的實施方式,本領(lǐng)域技術(shù)人員可由本說明書 所掲露的內(nèi)容輕易地了解本發(fā)明的其他優(yōu)點與功效。本發(fā)明還可W通過另外不同的具體實 施方式加W實施或應(yīng)用,本說明書中的各項細(xì)節(jié)也可W基于不同觀點與應(yīng)用,在沒有背離 本發(fā)明的精神下進(jìn)行各種修飾或改變。需說明的是,在不沖突的情況下,W下實施例及實施 例中的特征可W相互組合。
[0047] 需要說明的是,W下實施例中所提供的圖示僅W示意方式說明本發(fā)明的基本構(gòu) 想,遂圖式中僅顯示與本發(fā)明中有關(guān)的組件而非按照實際實施時的組件數(shù)目、形狀及尺寸 繪制,其實際實施時各組件的型態(tài)、數(shù)量及比例可為一種隨意的改變,且其組件布局型態(tài)也 可能更為復(fù)雜。
[0048] 本發(fā)明所述的保護(hù)原交易數(shù)據(jù)集關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法及系統(tǒng)的技術(shù)原理如 下:
[0049] 過預(yù)定義的變換來改變原數(shù)據(jù)集,將變換后的數(shù)據(jù)集提供給挖掘者進(jìn)行數(shù)據(jù)挖 掘,對變換技術(shù)方法有下列3個方面的基本要求:
[0050] 1)變換方法只改變某些屬性值,不改變數(shù)據(jù)整天的變換趨勢,從而確實挖掘出的 關(guān)聯(lián)規(guī)則的正確性;
[0051] 2)從變換后的數(shù)據(jù)中不能推算出原始數(shù)據(jù),即保證隱私度;
[0052] 3)從變換后的數(shù)據(jù)中應(yīng)盡可能挖掘出原始數(shù)據(jù)中存在的規(guī)則,理想情況下,變換 前后挖掘出的規(guī)則完全相同。
[0053] 由此,保護(hù)原始數(shù)據(jù)的關(guān)聯(lián)規(guī)則挖掘方法分為W下=個步驟:
[0054] 1)根據(jù)某種策略變換原始數(shù)據(jù);
[0055] 2)重建項目集的支持度;
[0056] 3)使用關(guān)聯(lián)規(guī)則挖掘方法挖掘規(guī)則。
[0057] 實施例一
[0058] 本實施例所述的保護(hù)原交易數(shù)據(jù)集關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法,應(yīng)用于如下實施例 中,若有合作的雙方分別為A和B。A擁有一個原交易數(shù)據(jù)集D,B想從中挖掘關(guān)聯(lián)規(guī)則。A 處于信息隱私的考慮,不想直接將原交易數(shù)據(jù)集提供給B。此時,A必須使用某種技術(shù)方法 變換原交易數(shù)據(jù)集D為授權(quán)數(shù)據(jù)集DS并開放給B。B可從授權(quán)數(shù)據(jù)集D'中挖掘數(shù)據(jù)關(guān) 聯(lián)規(guī)則,同時應(yīng)保證在原交易數(shù)據(jù)集D中能挖掘到的規(guī)則,在授權(quán)數(shù)據(jù)集D'中盡量能被挖 掘出。
[0059] 請參閱圖1,顯示為保護(hù)原交易數(shù)據(jù)集關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法流程示意圖。如圖 1所示,所述保護(hù)原交易數(shù)據(jù)集關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘方法包括W下幾個步驟:
[0060] S1,根據(jù)預(yù)制加入干擾策略將所述原交易數(shù)據(jù)集D轉(zhuǎn)換為授權(quán)數(shù)據(jù)集D'。在本步 驟中,設(shè)交易項目集合I是由交易項ik構(gòu)成的集合,I=a1,i2, is,…,,k大于等于1, 小于等于m;設(shè)原交易數(shù)據(jù)集為D是由n筆交易化構(gòu)成的集合,D=化1,〇2,〇3,…,D。}中包 括n個交易項目,交易數(shù)為N,交易的最大長度為m,i表示交易化中交易項目數(shù),i小于等 于m。請參閱圖2,顯示為步驟S1的具體流程示意圖。如圖2所示,所述步驟S1具體包括 W下幾個步驟:
[006。S11,添加干擾項目,從集合I-Dk中隨機選取m-i個交易項添加至每一筆交易Dk 中,使所述每一交易化的交易長度達(dá)到mW形成加入干擾項目后的交易數(shù)據(jù)集T1。
[0062] S12,干擾交易,從交易項目集合I選取m個交易項ik作為干擾交易的項目W形成 加入的干擾交易數(shù)據(jù)集T2。
[0063]S13,將加入干擾項目后的交易數(shù)據(jù)集Ti和加入的干擾交易數(shù)據(jù)集T2形成所述授 權(quán)數(shù)據(jù)集D'。在本步驟中就是將原交易數(shù)據(jù)集轉(zhuǎn)換成授權(quán)數(shù)據(jù)集,即D'=TiUT2,所述 授權(quán)數(shù)據(jù)集D'的交易數(shù)為N+L。所述授權(quán)數(shù)據(jù)集D'中所有交易項的交易長度均為m,且 所述授權(quán)數(shù)據(jù)集D'既包括干擾項目,又包括干擾交易,具有較好的隱私保護(hù)效果。
[0064] S2,推導(dǎo)所述原交易數(shù)據(jù)集D中各項目集或子交易數(shù)據(jù)集在原交易數(shù)據(jù)集D的支 持度S。將干擾加入數(shù)據(jù)集后,接下來便是如何從運些已加入干擾的數(shù)據(jù)集中求出各項目 集,即k個交易項組成的各項目集或子交易數(shù)據(jù)集Ak在原交易數(shù)據(jù)集D中的支持度S。請 參閱圖3,顯示為步驟S2的具體流程示意圖。如圖3所示,所述步驟S2具體包括W下幾個 步驟:
[0065] S21,從所述原交易數(shù)據(jù)集D中提取由k個交易項組成的項目集或子交易數(shù)據(jù)集 Ak,Ak在所述原交易數(shù)據(jù)集D中的支持度記為S,Ak在所述授權(quán)數(shù)據(jù)集D'中的支持度記為 S'。
[0066]S22,計算加入干擾項目后的交易數(shù)據(jù)集Ti中Ak的支持度S1。在本步驟中,具體計 算過程如下:
[0067] 在所述加入干擾項目后的交易數(shù)據(jù)集T沖,對于加入干擾項目的個數(shù)不小于k的 交易,其由原來完全不支持Ak變成完全支持Ak的概率Pk按照公式1. 1來計算。在本實施 例中,該交易完全不支持項目集Ak是指該項目集Ak內(nèi)的所有項目均未出現(xiàn)在該交易中,該 交易完全支持項目集Ak是指該項目集Ak內(nèi)的所有項目均出現(xiàn)在該交易中。
[0068]
公式(1)
[0069] 其中,巧=^,Ni為所述原交易數(shù)據(jù)集D中交易長度為i的交易數(shù)。公式(1) 假設(shè)加入干擾項目個數(shù)不小于k的所有交易和加入干擾項目個數(shù)不小于k且原本不支持Ak 的所有交易,其原交易在各長度的分布比相同。在本步驟中,加入干擾項目后的交易數(shù)據(jù)集T沖Ak的支持度Si,其中,Si與S關(guān)系可由公式似表示:
[0070]
公式似
[007。 其中,i是從0到k-1,0 ,表示項目集或子交易數(shù)據(jù)集Ak的所有j項子項目集或 子交易數(shù)據(jù)集支持度總和。
[0072]S23,計算加入的干擾交易數(shù)據(jù)集Tz中Ak的支持度S2。在本步驟中,由于加入的干 擾交易數(shù)據(jù)集T2中交易的生成方式為從n個項目中隨機選取m個項目,加入的干擾交易數(shù) 據(jù)集T2中Ak的支持度S2由公式做估算出。
[0073]
公式(3)
[0074]S24,根據(jù)預(yù)制計算方式推導(dǎo)出各項目集在所述原交易數(shù)據(jù)集D中的支持度S。由 于所述授權(quán)數(shù)據(jù)集D'由加入干擾項目后的交易數(shù)據(jù)集Ti和加入的干擾交易數(shù)據(jù)集T2組 成,S'為Ak在所述授權(quán)數(shù)據(jù)集D'中的支持度,S'與Si、S2的關(guān)系由公式(4)表示
[00巧](N+L)XS' =NXSi+LXSz 公式(4)
[007引將公式似和公式做代入公式(4),得到通過預(yù)制計算公式妨獲取到各項目集 或子交易數(shù)據(jù)集Ak在所述原交易數(shù)據(jù)集D中的支持度。
[0077]
公式巧)
[0078] S3,根據(jù)各項目集或子交易數(shù)據(jù)集在所述原交易數(shù)據(jù)集中的支持度挖掘出所述授 權(quán)數(shù)據(jù)集中的頻繁項目集W挖掘所述原交易數(shù)據(jù)集中數(shù)據(jù)關(guān)聯(lián)規(guī)則。請參閱圖4,顯示為步 驟S3的具體流程示意圖。如圖4所示,所述步驟S3具體包括W下步驟:
[0079] S31,根據(jù)所述原交易數(shù)據(jù)集D中頻繁項目集的第一最小支持度計算所述授權(quán)數(shù) 據(jù)集D'中的第二最小支持度;在本步驟中具體描述了如何從加入干擾后的授權(quán)數(shù)據(jù)集D' 中挖掘出存在于原交易數(shù)據(jù)集D中的頻繁項目集。由于所述授權(quán)數(shù)據(jù)集D'中存在干擾交 易,所述原交易數(shù)據(jù)集D中真正的頻繁項目集在授權(quán)數(shù)據(jù)集中的第二最小支持度minsup' 已不再試真正的頻繁項目集在所述原交易數(shù)據(jù)集D中的第一最小支持度minsup,對于任意 的k項項目集或子交易數(shù)據(jù)集Ak,第一最小支持度minsup與第二最小支持度minsup'的關(guān) 系如公式(6)所示:
[0083] S32,使用現(xiàn)有的數(shù)據(jù)關(guān)聯(lián)挖掘技術(shù)根據(jù)所述第二最小支持度minsup'查找所述 授權(quán)數(shù)據(jù)集D'中的頻繁項目集,并將其存放在關(guān)聯(lián)集合F中。
[0084] S33,循環(huán)m次W便執(zhí)行循環(huán)處理,重建關(guān)聯(lián)集合F中的項目集或子交易數(shù)據(jù)集Ak 的支持度。本步驟具體包括W下幾個步驟:
[0085] 首先,根據(jù)公式似求出
[0086] 接著,根據(jù)公式(1)求出Pk。
[0087] 最后,使用公式(7)對關(guān)聯(lián)集合F中每一個項目集或子交易數(shù)據(jù)集Ak重建支持度。
[0088] S34,判斷Ak重建的支持度是否小于第一最小支持度minsup,若是,執(zhí)行步驟S35, 即將小于第一最小支持度的Ak從所述關(guān)聯(lián)集合F中剔除,輸出剔除Ak后的關(guān)聯(lián)集合F中所 有項目集;若否,則返回循環(huán)步驟S33。
[0089] 該方案W第二最小支持度minsup'作為真正的頻繁項目集在D'中的支持度的下 界