一種數(shù)據(jù)挖掘隱私保護(hù)方法及系統(tǒng)與流程

文檔序號(hào)：12720974閱讀：249來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專(zhuān)利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域，特別涉及一種數(shù)據(jù)挖掘隱私保護(hù)方法及系統(tǒng)。

背景技術(shù)：

當(dāng)前，隨著大數(shù)據(jù)時(shí)代的到來(lái)，數(shù)據(jù)挖掘技術(shù)得到了快速的發(fā)展，應(yīng)用范圍也越來(lái)越廣。而數(shù)據(jù)挖掘技術(shù)本身就像是一把雙刃劍，在企業(yè)和個(gè)人合理使用數(shù)據(jù)挖掘技術(shù)的情況下，能夠?yàn)槿粘５纳虡I(yè)活動(dòng)以及工作生活帶來(lái)積極作用。然而，如果用戶(hù)將挖掘目標(biāo)瞄準(zhǔn)個(gè)人隱私或商業(yè)機(jī)密的情況下，則很可能會(huì)導(dǎo)致隱私信息遭受泄露。

為了避免在數(shù)據(jù)挖掘過(guò)程中隱私信息遭到泄露，人們提出了基于決策樹(shù)來(lái)對(duì)數(shù)據(jù)挖掘展開(kāi)隱私保護(hù)，然而，現(xiàn)有用于對(duì)數(shù)據(jù)挖掘進(jìn)行隱私保護(hù)的決策樹(shù)在創(chuàng)建過(guò)程中需要消耗較多的隱私預(yù)算，并且容易導(dǎo)致最終的隱私保護(hù)效果較差。

綜上所述可以看出，如何在創(chuàng)建決策樹(shù)的過(guò)程中避免消耗過(guò)多的隱私預(yù)算并提高最終的隱私保護(hù)效果是目前有待解決的問(wèn)題。

技術(shù)實(shí)現(xiàn)要素：

有鑒于此，本發(fā)明的目的在于提供一種數(shù)據(jù)挖掘隱私保護(hù)方法及系統(tǒng)，能夠在創(chuàng)建決策樹(shù)的過(guò)程中避免消耗過(guò)多的隱私預(yù)算并提高了最終的隱私保護(hù)效果。其具體方案如下：

一種數(shù)據(jù)挖掘隱私保護(hù)方法，包括：

獲取原始數(shù)據(jù)集；

對(duì)所述原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化，得到第一處理后數(shù)據(jù)集；

對(duì)所述第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理，得到第二處理后數(shù)據(jù)集；

對(duì)所述第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理，得到相應(yīng)的細(xì)分方案集；

對(duì)所述細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作，得到相應(yīng)的目標(biāo)決策樹(shù)；

利用所述目標(biāo)決策樹(shù)，對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。

可選的，所述對(duì)所述原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化的過(guò)程，包括：

利用斷點(diǎn)法，對(duì)所述原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理，得到所述第一處理后數(shù)據(jù)集。

可選的，所述對(duì)所述第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理的過(guò)程，包括：

創(chuàng)建與所述第一處理后數(shù)據(jù)集對(duì)應(yīng)的可辨識(shí)矩陣；

基于所述可辨識(shí)矩陣，對(duì)所述第一處理后數(shù)據(jù)集中的屬性展開(kāi)約簡(jiǎn)處理，得到所述第二處理后數(shù)據(jù)集。

可選的，所述對(duì)所述第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理的過(guò)程，包括：

對(duì)所述第二處理后數(shù)據(jù)集中數(shù)值型的離散屬性進(jìn)行直接泛化，并對(duì)所述第二處理后數(shù)據(jù)集中非數(shù)值型的離散屬性進(jìn)行逐級(jí)泛化，得到所述細(xì)分方案集。

可選的，所述對(duì)所述細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作的過(guò)程，包括：

利用差分隱私的指數(shù)機(jī)制，對(duì)所述細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作，得到所述目標(biāo)決策樹(shù)。

本發(fā)明還公開(kāi)了一種數(shù)據(jù)挖掘隱私保護(hù)系統(tǒng)，包括：

數(shù)據(jù)集獲取模塊，用于獲取原始數(shù)據(jù)集；

屬性離散化模塊，用于對(duì)所述原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化，得到第一處理后數(shù)據(jù)集；

屬性約簡(jiǎn)模塊，用于對(duì)所述第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理，得到第二處理后數(shù)據(jù)集；

屬性泛化模塊，用于對(duì)所述第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理，得到相應(yīng)的細(xì)分方案集；

決策樹(shù)構(gòu)建模塊，用于對(duì)所述細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作，得到相應(yīng)的目標(biāo)決策樹(shù)；

隱私保護(hù)模塊，用于利用所述目標(biāo)決策樹(shù)，對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。

可選的，所述屬性離散化模塊，具體用于利用斷點(diǎn)法，對(duì)所述原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理，得到所述第一處理后數(shù)據(jù)集。

可選的，所述屬性約簡(jiǎn)模塊，具體用于創(chuàng)建與所述第一處理后數(shù)據(jù)集對(duì)應(yīng)的可辨識(shí)矩陣，然后基于所述可辨識(shí)矩陣，對(duì)所述第一處理后數(shù)據(jù)集中的屬性展開(kāi)約簡(jiǎn)處理，得到所述第二處理后數(shù)據(jù)集。

可選的，所述屬性泛化模塊，具體用于對(duì)所述第二處理后數(shù)據(jù)集中數(shù)值型的離散屬性進(jìn)行直接泛化，并對(duì)所述第二處理后數(shù)據(jù)集中非數(shù)值型的離散屬性進(jìn)行逐級(jí)泛化，得到所述細(xì)分方案集。

可選的，所述決策樹(shù)構(gòu)建模塊，具體用于利用差分隱私的指數(shù)機(jī)制，對(duì)所述細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作，得到所述目標(biāo)決策樹(shù)。

本發(fā)明中，數(shù)據(jù)挖掘隱私保護(hù)方法，包括：獲取原始數(shù)據(jù)集；對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化，得到第一處理后數(shù)據(jù)集；對(duì)第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理，得到第二處理后數(shù)據(jù)集；對(duì)第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理，得到相應(yīng)的細(xì)分方案集；對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作，得到相應(yīng)的目標(biāo)決策樹(shù)；利用目標(biāo)決策樹(shù)，對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。

可見(jiàn)，本發(fā)明獲取到原始數(shù)據(jù)集之后，先對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理，從而為后續(xù)對(duì)數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)提供基礎(chǔ)，在對(duì)數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)之后，將可以去除數(shù)據(jù)集中的冗余屬性，這樣可以避免在創(chuàng)建決策樹(shù)的過(guò)程中消耗過(guò)多的隱私預(yù)算，并且能夠消除冗余屬性對(duì)分類(lèi)準(zhǔn)確度的影響，從而提高了最終的隱私保護(hù)效果。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹，顯而易見(jiàn)地，下面描述中的附圖僅僅是本發(fā)明的實(shí)施例，對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講，在不付出創(chuàng)造性勞動(dòng)的前提下，還可以根據(jù)提供的附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例公開(kāi)的一種數(shù)據(jù)挖掘隱私保護(hù)方法流程圖；

圖2為本發(fā)明實(shí)施例公開(kāi)的一種具體的數(shù)據(jù)挖掘隱私保護(hù)方法流程圖；

圖3為本發(fā)明實(shí)施例公開(kāi)的一種數(shù)據(jù)挖掘隱私保護(hù)系統(tǒng)結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖，對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例，而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明實(shí)施例公開(kāi)了一種數(shù)據(jù)挖掘隱私保護(hù)方法，參見(jiàn)圖1所示，該方法包括：

步驟S11：獲取原始數(shù)據(jù)集。

步驟S12：對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化，得到第一處理后數(shù)據(jù)集。

步驟S13：對(duì)第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理，得到第二處理后數(shù)據(jù)集。

步驟S14：對(duì)第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理，得到相應(yīng)的細(xì)分方案集。

步驟S15：對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作，得到相應(yīng)的目標(biāo)決策樹(shù)。

步驟S16：利用目標(biāo)決策樹(shù)，對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。

可見(jiàn)，本發(fā)明實(shí)施例獲取到原始數(shù)據(jù)集之后，先對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理，從而為后續(xù)對(duì)數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)提供基礎(chǔ)，在對(duì)數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)之后，將可以去除數(shù)據(jù)集中的冗余屬性，這樣可以避免在創(chuàng)建決策樹(shù)的過(guò)程中消耗過(guò)多的隱私預(yù)算，并且能夠消除冗余屬性對(duì)分類(lèi)準(zhǔn)確度的影響，從而提高了最終的隱私保護(hù)效果。

參見(jiàn)圖2所示，本發(fā)明實(shí)施例公開(kāi)了一種具體的數(shù)據(jù)挖掘隱私保護(hù)方法，包括如下步驟：

步驟S21：獲取原始數(shù)據(jù)集。

步驟S22：利用斷點(diǎn)法，對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理，得到第一處理后數(shù)據(jù)集。

其中，利用斷點(diǎn)法對(duì)連續(xù)屬性進(jìn)行離散化的過(guò)程具體包括：將連續(xù)屬性的屬性值按照從小到大的順序進(jìn)行排序，接著取相鄰值的均值作為候選斷點(diǎn)來(lái)劃分等價(jià)子集，然后計(jì)算各等價(jià)子集的信息熵，選取熵最小的斷點(diǎn)作為分裂點(diǎn)，重復(fù)選取，直到等價(jià)子集的實(shí)例的決策屬性相同，此時(shí)分裂點(diǎn)與原屬性值的區(qū)間即為離散后的屬性值。

步驟S23：創(chuàng)建與第一處理后數(shù)據(jù)集對(duì)應(yīng)的可辨識(shí)矩陣；

步驟S24：基于可辨識(shí)矩陣，對(duì)第一處理后數(shù)據(jù)集中的屬性展開(kāi)約簡(jiǎn)處理，得到第二處理后數(shù)據(jù)集。

步驟S25：對(duì)第二處理后數(shù)據(jù)集中數(shù)值型的離散屬性進(jìn)行直接泛化，并對(duì)第二處理后數(shù)據(jù)集中非數(shù)值型的離散屬性進(jìn)行逐級(jí)泛化，得到細(xì)分方案集。

需要說(shuō)明的是，本實(shí)施例中，第二處理后數(shù)據(jù)集經(jīng)過(guò)泛化處理之后，此時(shí)的每個(gè)屬性值便構(gòu)成一個(gè)方案。

步驟S26：利用差分隱私的指數(shù)機(jī)制，對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作，得到目標(biāo)決策樹(shù)。

本實(shí)施例中，在利用差分隱私的指數(shù)機(jī)制來(lái)對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作時(shí)，需要經(jīng)過(guò)多輪的迭代操作。假設(shè)每一輪迭代操作所需的隱私預(yù)算為預(yù)設(shè)閾值，則在進(jìn)行每次迭代之前均判斷當(dāng)前剩余的隱私預(yù)算是否小于上述預(yù)設(shè)閾值，如果否，則可以繼續(xù)展開(kāi)迭代過(guò)程，如果是，則停止迭代過(guò)程，從而得到上述目標(biāo)決策樹(shù)。

步驟S27：利用目標(biāo)決策樹(shù)，對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。

相應(yīng)的，本發(fā)明實(shí)施例公開(kāi)了一種數(shù)據(jù)挖掘隱私保護(hù)系統(tǒng)，參見(jiàn)圖3所示，該系統(tǒng)包括：

數(shù)據(jù)集獲取模塊11，用于獲取原始數(shù)據(jù)集；

屬性離散化模塊12，用于對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化，得到第一處理后數(shù)據(jù)集；

屬性約簡(jiǎn)模塊13，用于對(duì)第一處理后數(shù)據(jù)集中的屬性進(jìn)行約簡(jiǎn)處理，得到第二處理后數(shù)據(jù)集；

屬性泛化模塊14，用于對(duì)第二處理后數(shù)據(jù)集中的屬性進(jìn)行完全泛化處理，得到相應(yīng)的細(xì)分方案集；

決策樹(shù)構(gòu)建模塊15，用于對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作，得到相應(yīng)的目標(biāo)決策樹(shù)；

隱私保護(hù)模塊16，用于利用目標(biāo)決策樹(shù)，對(duì)數(shù)據(jù)挖掘過(guò)程展開(kāi)隱私保護(hù)。

其中，上述屬性離散化模塊12，具體可以用于利用斷點(diǎn)法，對(duì)原始數(shù)據(jù)集中的連續(xù)屬性進(jìn)行離散化處理，得到第一處理后數(shù)據(jù)集。

另外，上述屬性約簡(jiǎn)模塊13，具體可以用于創(chuàng)建與第一處理后數(shù)據(jù)集對(duì)應(yīng)的可辨識(shí)矩陣，然后基于可辨識(shí)矩陣，對(duì)第一處理后數(shù)據(jù)集中的屬性展開(kāi)約簡(jiǎn)處理，得到第二處理后數(shù)據(jù)集。

進(jìn)一步的，上述屬性泛化模塊14，具體可以用于對(duì)第二處理后數(shù)據(jù)集中數(shù)值型的離散屬性進(jìn)行直接泛化，并對(duì)第二處理后數(shù)據(jù)集中非數(shù)值型的離散屬性進(jìn)行逐級(jí)泛化，得到細(xì)分方案集。

進(jìn)一步的，上述決策樹(shù)構(gòu)建模塊15，具體可以用于利用差分隱私的指數(shù)機(jī)制，對(duì)細(xì)分方案集展開(kāi)相應(yīng)的決策樹(shù)構(gòu)建操作，得到目標(biāo)決策樹(shù)。

最后，還需要說(shuō)明的是，在本文中，諸如第一和第二等之類(lèi)的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái)，而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且，術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含，從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素，而且還包括沒(méi)有明確列出的其他要素，或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下，由語(yǔ)句“包括一個(gè)……”限定的要素，并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。

以上對(duì)本發(fā)明所提供的一種數(shù)據(jù)挖掘隱私保護(hù)方法及系統(tǒng)進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想；同時(shí)，對(duì)于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處，綜上所述，本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁(yè)1 2 3

該技術(shù)已申請(qǐng)專(zhuān)利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：凌捷;馬波;龔怡;柳毅;顧國(guó)生
技術(shù)所有人：廣東工業(yè)大學(xué)
我是此專(zhuān)利的發(fā)明人

該領(lǐng)域下的技術(shù)專(zhuān)家
如您需求助技術(shù)專(zhuān)家，請(qǐng)點(diǎn)此查看客服電話(huà)進(jìn)行咨詢(xún)。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線(xiàn)網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專(zhuān)家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

中國(guó)數(shù)據(jù)挖掘系統(tǒng)相關(guān)技術(shù)

數(shù)據(jù)挖掘隱私保護(hù)相關(guān)技術(shù)

紅線(xiàn)隱私保護(hù)系統(tǒng)相關(guān)技術(shù)

數(shù)據(jù)挖掘平臺(tái)相關(guān)技術(shù)

紅線(xiàn)隱私保護(hù)系統(tǒng)下載相關(guān)技術(shù)

數(shù)據(jù)挖掘系統(tǒng)包括相關(guān)技術(shù)

數(shù)據(jù)挖掘系統(tǒng)需求相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種數(shù)據(jù)挖掘隱私保護(hù)方法及系統(tǒng)與流程