本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)挖掘隱私保護(hù)方法及系統(tǒng)。
背景技術(shù):
當(dāng)前,隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)挖掘技術(shù)得到了快速的發(fā)展,應(yīng)用范圍也越來(lái)越廣。而數(shù)據(jù)挖掘技術(shù)本身就像是一把雙刃劍,在企業(yè)和個(gè)人合理使用數(shù)據(jù)挖掘技術(shù)的情況下,能夠?yàn)槿粘5纳虡I(yè)活動(dòng)以及工作生活帶來(lái)積極作用。然而,如果用戶(hù)將挖掘目標(biāo)瞄準(zhǔn)個(gè)人隱私或商業(yè)機(jī)密的情況下,則很可能會(huì)導(dǎo)致隱私信息遭受泄露。
為了避免在數(shù)據(jù)挖掘過(guò)程中隱私信息遭到泄露,人們提出了基于決策樹(shù)來(lái)對(duì)數(shù)據(jù)挖掘展開(kāi)隱私保護(hù),然而,現(xiàn)有用于對(duì)數(shù)據(jù)挖掘進(jìn)行隱私保護(hù)的決策樹(shù)在創(chuàng)建過(guò)程中需要消耗較多的隱私預(yù)算,并且容易導(dǎo)致最終的隱私保護(hù)效果較差。
綜上所述可以看出,如何在創(chuàng)建決策樹(shù)的過(guò)程中避免消耗過(guò)多的隱私預(yù)算并提高最終的隱私保護(hù)效果是目前有待解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種數(shù)據(jù)挖掘隱私保護(hù)方法及系統(tǒng),能夠在創(chuàng)建決策樹(shù)的過(guò)程中避免消耗過(guò)多的隱私預(yù)算并提高了最終的隱私保護(hù)效果。其具體方案如下:
一種數(shù)據(jù)挖掘隱私保護(hù)方法,包括:
獲取原始數(shù)據(jù)集;
對(duì)所述原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化,得到第一處理后數(shù)據(jù)集;
對(duì)所述第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理,得到第二處理后數(shù)據(jù)集;
對(duì)所述第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理,得到相應(yīng)的細(xì)分方案集;
對(duì)所述細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作,得到相應(yīng)的目標(biāo)決策樹(shù);
利用所述目標(biāo)決策樹(shù),對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。
可選的,所述對(duì)所述原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化的過(guò)程,包括:
利用斷點(diǎn)法,對(duì)所述原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理,得到所述第一處理后數(shù)據(jù)集。
可選的,所述對(duì)所述第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理的過(guò)程,包括:
創(chuàng)建與所述第一處理后數(shù)據(jù)集對(duì)應(yīng)的可辨識(shí)矩陣;
基于所述可辨識(shí)矩陣,對(duì)所述第一處理后數(shù)據(jù)集中的屬性展開(kāi)約簡(jiǎn)處理,得到所述第二處理后數(shù)據(jù)集。
可選的,所述對(duì)所述第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理的過(guò)程,包括:
對(duì)所述第二處理后數(shù)據(jù)集中數(shù)值型的離散屬性進(jìn)行直接泛化,并對(duì)所述第二處理后數(shù)據(jù)集中非數(shù)值型的離散屬性進(jìn)行逐級(jí)泛化,得到所述細(xì)分方案集。
可選的,所述對(duì)所述細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作的過(guò)程,包括:
利用差分隱私的指數(shù)機(jī)制,對(duì)所述細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作,得到所述目標(biāo)決策樹(shù)。
本發(fā)明還公開(kāi)了一種數(shù)據(jù)挖掘隱私保護(hù)系統(tǒng),包括:
數(shù)據(jù)集獲取模塊,用于獲取原始數(shù)據(jù)集;
屬性離散化模塊,用于對(duì)所述原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化,得到第一處理后數(shù)據(jù)集;
屬性約簡(jiǎn)模塊,用于對(duì)所述第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理,得到第二處理后數(shù)據(jù)集;
屬性泛化模塊,用于對(duì)所述第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理,得到相應(yīng)的細(xì)分方案集;
決策樹(shù)構(gòu)建模塊,用于對(duì)所述細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作,得到相應(yīng)的目標(biāo)決策樹(shù);
隱私保護(hù)模塊,用于利用所述目標(biāo)決策樹(shù),對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。
可選的,所述屬性離散化模塊,具體用于利用斷點(diǎn)法,對(duì)所述原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理,得到所述第一處理后數(shù)據(jù)集。
可選的,所述屬性約簡(jiǎn)模塊,具體用于創(chuàng)建與所述第一處理后數(shù)據(jù)集對(duì)應(yīng)的可辨識(shí)矩陣,然后基于所述可辨識(shí)矩陣,對(duì)所述第一處理后數(shù)據(jù)集中的屬性展開(kāi)約簡(jiǎn)處理,得到所述第二處理后數(shù)據(jù)集。
可選的,所述屬性泛化模塊,具體用于對(duì)所述第二處理后數(shù)據(jù)集中數(shù)值型的離散屬性進(jìn)行直接泛化,并對(duì)所述第二處理后數(shù)據(jù)集中非數(shù)值型的離散屬性進(jìn)行逐級(jí)泛化,得到所述細(xì)分方案集。
可選的,所述決策樹(shù)構(gòu)建模塊,具體用于利用差分隱私的指數(shù)機(jī)制,對(duì)所述細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作,得到所述目標(biāo)決策樹(shù)。
本發(fā)明中,數(shù)據(jù)挖掘隱私保護(hù)方法,包括:獲取原始數(shù)據(jù)集;對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化,得到第一處理后數(shù)據(jù)集;對(duì)第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理,得到第二處理后數(shù)據(jù)集;對(duì)第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理,得到相應(yīng)的細(xì)分方案集;對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作,得到相應(yīng)的目標(biāo)決策樹(shù);利用目標(biāo)決策樹(shù),對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。
可見(jiàn),本發(fā)明獲取到原始數(shù)據(jù)集之后,先對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理,從而為后續(xù)對(duì)數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)提供基礎(chǔ),在對(duì)數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)之后,將可以去除數(shù)據(jù)集中的冗余屬性,這樣可以避免在創(chuàng)建決策樹(shù)的過(guò)程中消耗過(guò)多的隱私預(yù)算,并且能夠消除冗余屬性對(duì)分類(lèi)準(zhǔn)確度的影響,從而提高了最終的隱私保護(hù)效果。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例公開(kāi)的一種數(shù)據(jù)挖掘隱私保護(hù)方法流程圖;
圖2為本發(fā)明實(shí)施例公開(kāi)的一種具體的數(shù)據(jù)挖掘隱私保護(hù)方法流程圖;
圖3為本發(fā)明實(shí)施例公開(kāi)的一種數(shù)據(jù)挖掘隱私保護(hù)系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例公開(kāi)了一種數(shù)據(jù)挖掘隱私保護(hù)方法,參見(jiàn)圖1所示,該方法包括:
步驟S11:獲取原始數(shù)據(jù)集。
步驟S12:對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化,得到第一處理后數(shù)據(jù)集。
步驟S13:對(duì)第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理,得到第二處理后數(shù)據(jù)集。
步驟S14:對(duì)第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理,得到相應(yīng)的細(xì)分方案集。
步驟S15:對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作,得到相應(yīng)的目標(biāo)決策樹(shù)。
步驟S16:利用目標(biāo)決策樹(shù),對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。
可見(jiàn),本發(fā)明實(shí)施例獲取到原始數(shù)據(jù)集之后,先對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理,從而為后續(xù)對(duì)數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)提供基礎(chǔ),在對(duì)數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)之后,將可以去除數(shù)據(jù)集中的冗余屬性,這樣可以避免在創(chuàng)建決策樹(shù)的過(guò)程中消耗過(guò)多的隱私預(yù)算,并且能夠消除冗余屬性對(duì)分類(lèi)準(zhǔn)確度的影響,從而提高了最終的隱私保護(hù)效果。
參見(jiàn)圖2所示,本發(fā)明實(shí)施例公開(kāi)了一種具體的數(shù)據(jù)挖掘隱私保護(hù)方法,包括如下步驟:
步驟S21:獲取原始數(shù)據(jù)集。
步驟S22:利用斷點(diǎn)法,對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理,得到第一處理后數(shù)據(jù)集。
其中,利用斷點(diǎn)法對(duì)連續(xù)屬性進(jìn)行離散化的過(guò)程具體包括:將連續(xù)屬性的屬性值按照從小到大的順序進(jìn)行排序,接著取相鄰值的均值作為候選斷點(diǎn)來(lái)劃分等價(jià)子集,然后計(jì)算各等價(jià)子集的信息熵,選取熵最小的斷點(diǎn)作為分裂點(diǎn),重復(fù)選取,直到等價(jià)子集的實(shí)例的決策屬性相同,此時(shí)分裂點(diǎn)與原屬性值的區(qū)間即為離散后的屬性值。
步驟S23:創(chuàng)建與第一處理后數(shù)據(jù)集對(duì)應(yīng)的可辨識(shí)矩陣;
步驟S24:基于可辨識(shí)矩陣,對(duì)第一處理后數(shù)據(jù)集中的屬性展開(kāi)約簡(jiǎn)處理,得到第二處理后數(shù)據(jù)集。
步驟S25:對(duì)第二處理后數(shù)據(jù)集中數(shù)值型的離散屬性進(jìn)行直接泛化,并對(duì)第二處理后數(shù)據(jù)集中非數(shù)值型的離散屬性進(jìn)行逐級(jí)泛化,得到細(xì)分方案集。
需要說(shuō)明的是,本實(shí)施例中,第二處理后數(shù)據(jù)集經(jīng)過(guò)泛化處理之后,此時(shí)的每個(gè)屬性值便構(gòu)成一個(gè)方案。
步驟S26:利用差分隱私的指數(shù)機(jī)制,對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作,得到目標(biāo)決策樹(shù)。
本實(shí)施例中,在利用差分隱私的指數(shù)機(jī)制來(lái)對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作時(shí),需要經(jīng)過(guò)多輪的迭代操作。假設(shè)每一輪迭代操作所需的隱私預(yù)算為預(yù)設(shè)閾值,則在進(jìn)行每次迭代之前均判斷當(dāng)前剩余的隱私預(yù)算是否小于上述預(yù)設(shè)閾值,如果否,則可以繼續(xù)展開(kāi)迭代過(guò)程,如果是,則停止迭代過(guò)程,從而得到上述目標(biāo)決策樹(shù)。
步驟S27:利用目標(biāo)決策樹(shù),對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。
相應(yīng)的,本發(fā)明實(shí)施例公開(kāi)了一種數(shù)據(jù)挖掘隱私保護(hù)系統(tǒng),參見(jiàn)圖3所示,該系統(tǒng)包括:
數(shù)據(jù)集獲取模塊11,用于獲取原始數(shù)據(jù)集;
屬性離散化模塊12,用于對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化,得到第一處理后數(shù)據(jù)集;
屬性約簡(jiǎn)模塊13,用于對(duì)第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理,得到第二處理后數(shù)據(jù)集;
屬性泛化模塊14,用于對(duì)第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理,得到相應(yīng)的細(xì)分方案集;
決策樹(shù)構(gòu)建模塊15,用于對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作,得到相應(yīng)的目標(biāo)決策樹(shù);
隱私保護(hù)模塊16,用于利用目標(biāo)決策樹(shù),對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。
其中,上述屬性離散化模塊12,具體可以用于利用斷點(diǎn)法,對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理,得到第一處理后數(shù)據(jù)集。
另外,上述屬性約簡(jiǎn)模塊13,具體可以用于創(chuàng)建與第一處理后數(shù)據(jù)集對(duì)應(yīng)的可辨識(shí)矩陣,然后基于可辨識(shí)矩陣,對(duì)第一處理后數(shù)據(jù)集中的屬性展開(kāi)約簡(jiǎn)處理,得到第二處理后數(shù)據(jù)集。
進(jìn)一步的,上述屬性泛化模塊14,具體可以用于對(duì)第二處理后數(shù)據(jù)集中數(shù)值型的離散屬性進(jìn)行直接泛化,并對(duì)第二處理后數(shù)據(jù)集中非數(shù)值型的離散屬性進(jìn)行逐級(jí)泛化,得到細(xì)分方案集。
進(jìn)一步的,上述決策樹(shù)構(gòu)建模塊15,具體可以用于利用差分隱私的指數(shù)機(jī)制,對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作,得到目標(biāo)決策樹(shù)。
可見(jiàn),本發(fā)明實(shí)施例獲取到原始數(shù)據(jù)集之后,先對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理,從而為后續(xù)對(duì)數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)提供基礎(chǔ),在對(duì)數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)之后,將可以去除數(shù)據(jù)集中的冗余屬性,這樣可以避免在創(chuàng)建決策樹(shù)的過(guò)程中消耗過(guò)多的隱私預(yù)算,并且能夠消除冗余屬性對(duì)分類(lèi)準(zhǔn)確度的影響,從而提高了最終的隱私保護(hù)效果。
最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
以上對(duì)本發(fā)明所提供的一種數(shù)據(jù)挖掘隱私保護(hù)方法及系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。