亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng)的制作方法

文檔序號:6374801閱讀:257來源:國知局
專利名稱:通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及計算機技術(shù)領(lǐng)域的系統(tǒng)框架,具體是通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng)。
背景技術(shù)
隨著計算機技術(shù)的飛快發(fā)展和迅速普及,海量的數(shù)字信息正在悄無聲息地繁殖。無論是政府組織、社會機構(gòu),還是公司団體、個人都在不經(jīng)意間制造并收集著豐富的數(shù)據(jù)信息。與此同時紛繁的數(shù)字信息也給數(shù)據(jù)分析師和相關(guān)科研人員帶來了新的契機和挑戰(zhàn)??茖W(xué)家和工程師們通過利用數(shù)字信息進行各類統(tǒng)計分析、知識挖掘等活動,形成總結(jié)式的認識和規(guī)則,引導(dǎo)今后的相關(guān)活動和決定、并可做出相關(guān)預(yù)測,最終加速技術(shù)進步、提高人們的生活品質(zhì)。然而數(shù)字信息的傳遞與流通過程中,必須要慎重考慮安全與隱私問題。集合型數(shù)據(jù)作為ー類頗具價值的數(shù)據(jù)源,廣泛存在于我們的日常生活中,例如超市/網(wǎng)購購物 清単、提交搜索引擎搜索關(guān)鍵字等等。但原始集合型數(shù)據(jù)中存在數(shù)據(jù)屬主的大量隱私信息,如何匿名化集合型數(shù)據(jù)以實現(xiàn)對數(shù)據(jù)屬主隱私的保護,同時保證匿名化后數(shù)據(jù)的有效性,成為近些年來研究的熱門課題。目前,過去的研究成果中對集合型數(shù)據(jù)的匿名化方法多集中使用全局刪除和全局泛化方法° Y. Xu (#JAL Y. Xu, K. Wang, A. ff. -C. Fu, and P. S. Yu. Anonymizing transactiondatabases for publication KDD 2008)很早就研究了集合型數(shù)據(jù)匿名化問題,通過使用全局刪除非隱私條目的方法保護數(shù)據(jù)屬主的隱私;而J.Cao (參見J. Cao,P. Karras,C.Raissij and K. -L Tan. P -uncertainty: inference-proof transaction anonymizationVLDB 2010)同時使用了全局刪除和全局泛化方法消去數(shù)據(jù)集中所有危險敏感的強關(guān)聯(lián)規(guī)貝U。但由于全局刪除方法使用大量劇烈刪除操作,造成信息失真嚴重;而全局泛化方法不但改變了數(shù)據(jù)本身的模樣,并且使用了并不被數(shù)據(jù)使用者公認的泛化分類結(jié)構(gòu)。

發(fā)明內(nèi)容
本發(fā)明針對現(xiàn)有技術(shù)中存在的上述不足,提供了一種通過部分刪除某些項目達到對集合型數(shù)據(jù)進行匿名化的算法,及一整套基于該算法實現(xiàn)的集合型數(shù)據(jù)匿名化系統(tǒng)框架。在保證盡可能少地刪除條目的前提下,確保消去集合型數(shù)據(jù)中所有的危險敏感的強關(guān)聯(lián)規(guī)則。根據(jù)本發(fā)明的ー個方面,提供一種通過部分刪除某些項目達到對集合型數(shù)據(jù)進行匿名化的系統(tǒng),包括數(shù)據(jù)集預(yù)處理模塊、起到加速匿名化的分治模塊、危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊及通過部分刪除方法實現(xiàn)的關(guān)聯(lián)規(guī)則消去模塊,還包括檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否模塊和最終結(jié)果整合模塊,其中-數(shù)據(jù)集預(yù)處理模塊,用于對原始集合型數(shù)據(jù)集進行前期處理,包括對數(shù)據(jù)集的信息統(tǒng)計,對項目的標識符進行正向哈希映射,對記錄的排序及對記錄的預(yù)刪除處理;-危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊,用于從數(shù)據(jù)集中篩選出危險敏感的強關(guān)聯(lián)規(guī)則;-關(guān)聯(lián)規(guī)則消去模塊,用于對危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊篩選出的敏感的強關(guān)聯(lián)規(guī)則,利用部分刪除策略使得危險敏感的強關(guān)聯(lián)規(guī)則變?yōu)榘踩舾械娜蹶P(guān)聯(lián)規(guī)則或不再存在于數(shù)據(jù)集中;-檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否模塊,用于檢查數(shù)據(jù)集中是否仍然存在危險敏感的強關(guān)聯(lián)規(guī)則;-最終結(jié)果整合模塊,用于將各個子數(shù)據(jù)集匿名化的結(jié)果進行整合,對項目的標識符進行反向哈希映射,并對整合后結(jié)果進行信息統(tǒng)計。優(yōu)選地,所述數(shù)據(jù)集預(yù)處理模塊對數(shù)據(jù)集進行信息統(tǒng)計,通過哈希映射對項目的標識符進行簡化,再對記錄進行排序和可配置的預(yù)刪除處理,所得預(yù)處理結(jié)果傳遞給分治模塊或危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊進行下一歩操作。
優(yōu)選地,還包括分治模塊,其中,分治模塊用于對數(shù)據(jù)集進行近似平均的劃分,劃分成大小近似的若干子數(shù)據(jù)集,并對各子數(shù)據(jù)集進行単獨匿名化處理。優(yōu)選地,所述危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊通過使用固定大小的緩沖區(qū)存儲遍歷數(shù)據(jù)集過程中產(chǎn)生出的固定數(shù)目的關(guān)聯(lián)規(guī)則。優(yōu)選地,所述危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊包括以下裝置第一處理模塊,用于遍歷數(shù)據(jù)集中每ー個記錄,根據(jù)當前記錄產(chǎn)生存在于該記錄中的關(guān)聯(lián)規(guī)則,將該關(guān)聯(lián)規(guī)則存儲于所述固定大小的緩沖區(qū)中,更新記錄對應(yīng)關(guān)聯(lián)規(guī)則強弱信息的數(shù)據(jù)結(jié)構(gòu);第二處理模塊,用于當緩沖區(qū)被填滿時,不再往緩沖區(qū)増加新的關(guān)聯(lián)規(guī)則而只是更新記錄緩沖區(qū)中關(guān)聯(lián)規(guī)則強弱信息的數(shù)據(jù)結(jié)構(gòu);第三處理模塊,用于當遍歷到長度超過ー個固定閾值的記錄時,則不再通過第一處理模塊和第二處理模塊產(chǎn)生關(guān)聯(lián)規(guī)則和更新記錄關(guān)聯(lián)規(guī)則的強弱信息的數(shù)據(jù)結(jié)構(gòu),而是通過對整個數(shù)據(jù)集中包含關(guān)聯(lián)規(guī)則中具體項目的記錄編號集合直接做交集運算以確定關(guān)聯(lián)規(guī)則的強弱;第四處理模塊,用于從緩沖區(qū)中篩選出所有危險敏感的強關(guān)聯(lián)規(guī)則供關(guān)聯(lián)規(guī)則消去模塊作下一歩處理。優(yōu)選地,所述關(guān)聯(lián)規(guī)則消去模塊對危險敏感的強關(guān)聯(lián)規(guī)則進行消去。優(yōu)選地,所述關(guān)聯(lián)規(guī)則消去模塊包括以下裝置第五處理模塊,用于從緩沖區(qū)中挑選某ー危險敏感的強關(guān)聯(lián)規(guī)則進行消去,確定消去該規(guī)則應(yīng)從哪些記錄中刪除具體的哪個項目;第六處理模塊,用于在通過所述第五處理模塊選定的記錄中刪除選定的項目后,更新記錄緩沖區(qū)中關(guān)聯(lián)規(guī)則強弱信息的數(shù)據(jù)結(jié)構(gòu);第七處理模塊,用于當緩沖區(qū)中不再存在危險敏感的強關(guān)聯(lián)規(guī)則,則進入檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否模塊;否則回到所述第五處理模塊重復(fù)操作。優(yōu)選地,所述檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否模塊掃描數(shù)據(jù)集確定是否仍有危險敏感的強關(guān)聯(lián)規(guī)則存在,若存在則回到敏感的強關(guān)聯(lián)規(guī)則篩選模塊重復(fù)新的迭代的過程;否則進入結(jié)果整合模塊。優(yōu)選地,所述最終結(jié)果整合模塊將各個子數(shù)據(jù)集匿名化的結(jié)果進行整合。
優(yōu)選地,分治模塊的運行前提是保證不劇烈増加刪除項目數(shù)目。本發(fā)明工作時,先對原始數(shù)據(jù)集進行信息統(tǒng)計,通過哈希映射對項目的標識符進行簡化,再對記錄進行排序和預(yù)刪除處理(可選),所得預(yù)處理結(jié)果傳遞給分治模塊或危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊進行下一歩操作。分治模塊得到預(yù)處理的數(shù)據(jù)集后,進行近似平均的劃分,劃分成大小近似的若干子數(shù)據(jù)集,并對各子數(shù)據(jù)集單獨進行隨后的匿名化處理。危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊通過使用固定大小的緩沖區(qū)存儲遍歷數(shù)據(jù)集過程中產(chǎn)生出的固定數(shù)目的關(guān)聯(lián)規(guī)則,具體地,其通過子模塊(第一處理模塊、第二處理模塊、第三處理模塊、第四處理模塊)實現(xiàn)的篩選功能如下遍歷數(shù)據(jù)集中每ー個記錄,根據(jù)當前記錄產(chǎn)生存在于該記錄中的關(guān)聯(lián)規(guī)則,將該關(guān)聯(lián)規(guī)則存儲于如上描述的大小固定的緩沖區(qū)中,更新記錄對應(yīng)關(guān)聯(lián)規(guī)則強弱等信息的數(shù)據(jù)結(jié)構(gòu);當緩沖區(qū)被填滿時,不再往緩沖區(qū)増加新的關(guān)聯(lián)規(guī)則而只是更新記錄緩沖區(qū)中關(guān)聯(lián)規(guī)則強弱等信息的數(shù)據(jù)結(jié)構(gòu);當遍歷到長度超過ー 個固定閾值(算法的ー個輸入?yún)?shù))的記錄時,通過對整個數(shù)據(jù)集中包含關(guān)聯(lián)規(guī)則中具體項目的記錄編號集合直接做交集運算以確定關(guān)聯(lián)規(guī)則的強弱;從緩沖區(qū)中篩選出所有危險敏感的強關(guān)聯(lián)規(guī)則供關(guān)聯(lián)規(guī)則消去模塊作下一歩處理。關(guān)聯(lián)規(guī)則消去模塊對危險敏感的強關(guān)聯(lián)規(guī)則進行消去,具體地,其通過子模塊(第五處理模塊、第六處理模塊、第七處理模塊)實現(xiàn)的消去功能如下從緩沖區(qū)中挑選某ー危險敏感的強關(guān)聯(lián)規(guī)則進行消去,確定消去該規(guī)則應(yīng)從哪些記錄中刪除具體的哪個項目;在從選定的記錄中刪除選定的項目后,更新記錄緩沖區(qū)中關(guān)聯(lián)規(guī)則強弱等信息的數(shù)據(jù)結(jié)構(gòu);若緩沖區(qū)中不再存在危險敏感的強關(guān)聯(lián)規(guī)則,則進入檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否模塊;否則繼續(xù)處理緩沖區(qū)中的危險敏感的強關(guān)聯(lián)規(guī)則。檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否模塊掃描數(shù)據(jù)集確定是否仍有危險敏感的強關(guān)聯(lián)規(guī)則存在,若存在則回到敏感的強關(guān)聯(lián)規(guī)則篩選模塊重復(fù)新的迭代的過程;否則進入最終結(jié)果整合模塊。而最終結(jié)果整合模塊將各個子數(shù)據(jù)集匿名化的結(jié)果進行最終整合。與現(xiàn)有技術(shù)相比,本發(fā)明創(chuàng)造性的使用了部分刪除條目的方法對集合型數(shù)據(jù)進行匿名化,彌補了現(xiàn)有全局刪除和全局泛化的集合型數(shù)據(jù)匿名化方法的缺陷和不足。本發(fā)明引入一定大小的緩沖區(qū)來存儲數(shù)目巨大的關(guān)聯(lián)規(guī)則,使用迭代法不斷消去危險關(guān)聯(lián)規(guī)則,引入分而治之的思想通過多線程技術(shù)加速匿名化的處理過程,并將短記錄與長記錄區(qū)別處理,還提供了預(yù)刪除處理的選項,使得該算法正確高效地完成了集合型數(shù)據(jù)的匿名化,并極大程度地保持了剰余數(shù)據(jù)的使用價值。


通過閱讀參照以下附圖對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯圖I示出本發(fā)明的系統(tǒng)框架模塊框圖;圖2示出本發(fā)明的數(shù)據(jù)集預(yù)處理模塊和分治模塊的實施細節(jié);圖3示出本發(fā)明的危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊中關(guān)聯(lián)規(guī)則的生成細節(jié);圖4示出本發(fā)明的關(guān)聯(lián)規(guī)則消去模塊消去敏感規(guī)則的實施細節(jié)。
具體實施例方式下面結(jié)合附圖對本發(fā)明的實施例作詳細說明,本實施例在以發(fā)明技術(shù)方案為前提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下述的實施例。本實施例的任務(wù)是對ー簡化集合型數(shù)據(jù)集進行匿名化,該數(shù)據(jù)集為記錄一(a)、記錄ニ (a, b)、記錄三(a, d, c)、記錄四(b, c)、記錄五(d),其中項目a、C、d為隱私條目,僅項目b為非隱私條目,且要求對該數(shù)據(jù)集匿名化后的結(jié)果中所有敏感關(guān)聯(lián)規(guī)則的置信度(confidence)不高于 O. 5。如圖I所示,本實施例包括6個模塊數(shù)據(jù)集預(yù)處理模塊、起到加速匿名化的分治模塊、危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊及通過部分刪除方法實現(xiàn)的關(guān)聯(lián)規(guī)則消去模塊,還包括檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否的模塊和最終結(jié)果整合模塊。所述數(shù)據(jù)集預(yù)處理模塊,用于對原始集合型數(shù)據(jù)集進行前期處理,包括對數(shù)據(jù)集的信息統(tǒng)計,對項目的標識符進行正向哈希映射,對記錄的排序及對記錄的預(yù)刪除處理等。所述分治模塊,用于對數(shù)據(jù)集進行近似平均的劃分,劃分成大小近似的若干子數(shù)據(jù)集,并對各子數(shù)據(jù)集進行単獨匿名化處理。所述危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊,用于從數(shù)據(jù)集中篩選出危險敏感的強關(guān)聯(lián) 規(guī)則。所述關(guān)聯(lián)規(guī)則消去模塊,利用部分刪除策略使得危險敏感的強關(guān)聯(lián)規(guī)則變?yōu)椤鞍踩泵舾械娜蹶P(guān)聯(lián)規(guī)則或不再存在于數(shù)據(jù)集中。所述檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否的模塊,檢查數(shù)據(jù)集中是否仍然存在危險敏感的強關(guān)聯(lián)規(guī)則。所述最終結(jié)果整合模塊,用于將各個子數(shù)據(jù)集匿名化的結(jié)果進行整合,對項目的標識符進行反向哈希映射,并對整合后結(jié)果進行信息統(tǒng)計等。在本實施例的一個優(yōu)選例中,所述分治模塊可以被省略。如圖2所示,數(shù)據(jù)集預(yù)處理模塊首先將原始項目編號經(jīng)哈希映射后映射到簡易的整數(shù)編號,再將數(shù)據(jù)集中的記錄按照記錄長度遞增序進行排序。隨后分治模塊將數(shù)據(jù)集劃分成大小近似的兩個子數(shù)據(jù)集,等待緊接著的其它模塊分別對兩個子數(shù)據(jù)集進行處理。圖2省略了預(yù)處理模塊中對數(shù)據(jù)集進行信息統(tǒng)計的結(jié)果展示。如圖3所示,危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊分別對兩個子數(shù)據(jù)集進行處理,篩選出各子數(shù)據(jù)集中的敏感的關(guān)聯(lián)規(guī)則。具體敏感關(guān)聯(lián)規(guī)則的生成和對應(yīng)置信度的計算參照“發(fā)明內(nèi)容”部分中敏感的強關(guān)聯(lián)規(guī)則篩選模塊的描述。如圖4所示,關(guān)聯(lián)規(guī)則消去模塊不斷從緩沖區(qū)中挑選某ー危險敏感的強關(guān)聯(lián)規(guī)則進行消去,確定消去該規(guī)則應(yīng)從哪些記錄中刪除具體的哪個項目;在從選定的記錄中刪除選定的項目后,更新記錄緩沖區(qū)中關(guān)聯(lián)規(guī)則強弱等信息的數(shù)據(jù)結(jié)構(gòu);若緩沖區(qū)中不再存在危險敏感的強關(guān)聯(lián)規(guī)則,則進入檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否模塊。對各子數(shù)據(jù)集分別進行匿名化過程后,利用結(jié)果整合模塊,將各個子數(shù)據(jù)集匿名化的結(jié)果進行整合,對項目的標識符進行反向哈希映射,并對整合后結(jié)果進行信息統(tǒng)計等。這樣就完成了對原始數(shù)據(jù)集的匿名化任務(wù)。以上對本發(fā)明的具體實施例進行了描述。需要理解的是,本發(fā)明并不局限于上述特定實施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實質(zhì)內(nèi)容。
權(quán)利要求
1.一種通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng),其特征在干,包括數(shù)據(jù)集預(yù)處理模塊、起到加速匿名化的分治模塊、危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊及通過部分刪除方法實現(xiàn)的關(guān)聯(lián)規(guī)則消去模塊,還包括檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否模塊和最終結(jié)果整合模塊,其中 -數(shù)據(jù)集預(yù)處理模塊,用于對原始集合型數(shù)據(jù)集進行前期處理,包括對數(shù)據(jù)集的信息統(tǒng)計,對項目的標識符進行正向哈希映射,對記錄的排序及對記錄的預(yù)刪除處理; -危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊,用于從數(shù)據(jù)集中篩選出危險敏感的強關(guān)聯(lián)規(guī)則; -關(guān)聯(lián)規(guī)則消去模塊,用于對危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊篩選出的敏感的強關(guān)聯(lián)規(guī)則,利用部分刪除策略使得危險敏感的強關(guān)聯(lián)規(guī)則變?yōu)榘踩舾械娜蹶P(guān)聯(lián)規(guī)則或不再存在于數(shù)據(jù)集中; -檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否模塊,用于檢查數(shù)據(jù)集中是否仍然存在危險敏感的強關(guān)聯(lián)規(guī)則; -最終結(jié)果整合模塊,用于將各個子數(shù)據(jù)集匿名化的結(jié)果進行整合,對項目的標識符進行反向哈希映射,并對整合后結(jié)果進行信息統(tǒng)計。
2.根據(jù)權(quán)利要求I所述的通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng),其特征在干,所述數(shù)據(jù)集預(yù)處理模塊對數(shù)據(jù)集進行信息統(tǒng)計,通過哈希映射對項目的標識符進行簡化,再對記錄進行排序和可配置的預(yù)刪除處理,所得預(yù)處理結(jié)果傳遞給分治模塊或危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊進行下一歩操作。
3.根據(jù)權(quán)利要求I所述的通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng),其特征在于,還包括分治模塊,其中,分治模塊用于對數(shù)據(jù)集進行近似平均的劃分,劃分成大小近似的若干子數(shù)據(jù)集,并對各子數(shù)據(jù)集進行単獨匿名化處理。
4.根據(jù)權(quán)利要求I所述的通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng),其特征在于,所述危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊通過使用固定大小的緩沖區(qū)存儲遍歷數(shù)據(jù)集過程中產(chǎn)生出的固定數(shù)目的關(guān)聯(lián)規(guī)則。
5.根據(jù)權(quán)利要求4所述的通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng),其特征在于,所述危險敏感的強關(guān)聯(lián)規(guī)則篩選模塊包括以下裝置 第一處理模塊,用于遍歷數(shù)據(jù)集中每ー個記錄,根據(jù)當前記錄產(chǎn)生存在于該記錄中的關(guān)聯(lián)規(guī)則,將該關(guān)聯(lián)規(guī)則存儲于所述固定大小的緩沖區(qū)中,更新記錄對應(yīng)關(guān)聯(lián)規(guī)則強弱信息的數(shù)據(jù)結(jié)構(gòu); 第二處理模塊,用于當緩沖區(qū)被填滿時,不再往緩沖區(qū)増加新的關(guān)聯(lián)規(guī)則而只是更新記錄緩沖區(qū)中關(guān)聯(lián)規(guī)則強弱信息的數(shù)據(jù)結(jié)構(gòu); 第三處理模塊,用于當遍歷到長度超過ー個固定閾值的記錄時,則不再通過第一處理模塊和第二處理模塊產(chǎn)生關(guān)聯(lián)規(guī)則和更新記錄關(guān)聯(lián)規(guī)則的強弱信息的數(shù)據(jù)結(jié)構(gòu),而是通過對整個數(shù)據(jù)集中包含關(guān)聯(lián)規(guī)則中具體項目的記錄編號集合直接做交集運算以確定關(guān)聯(lián)規(guī)則的強弱; 第四處理模塊,用于從緩沖區(qū)中篩選出所有危險敏感的強關(guān)聯(lián)規(guī)則供關(guān)聯(lián)規(guī)則消去模塊作下一歩處理。
6.根據(jù)權(quán)利要求I所述的通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng),其特征在于,所述關(guān)聯(lián)規(guī)則消去模塊對危險敏感的強關(guān)聯(lián)規(guī)則進行消去。
7.根據(jù)權(quán)利要求6所述的通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng),其特征在于,所述關(guān)聯(lián)規(guī)則消去模塊包括以下裝置 第五處理模塊,用于從緩沖區(qū)中挑選某ー危險敏感的強關(guān)聯(lián)規(guī)則進行消去,確定消去該規(guī)則應(yīng)從哪些記錄中刪除具體的哪個項目; 第六處理模塊,用于在通過所述第五處理模塊選定的記錄中刪除選定的項目后,更新記錄緩沖區(qū)中關(guān)聯(lián)規(guī)則強弱信息的數(shù)據(jù)結(jié)構(gòu); 第七處理模塊,用于當緩沖區(qū)中不再存在危險敏感的強關(guān)聯(lián)規(guī)則,則進入檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否模塊;否則回到所述第五處理模塊重復(fù)操作。
8.根據(jù)權(quán)利要求I所述的通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng),其特征在于,所述檢測危險敏感的強關(guān)聯(lián)規(guī)則存在與否模塊掃描數(shù)據(jù)集確定是否仍有危險敏感的強關(guān)聯(lián)規(guī)則存在,若存在則回到敏感的強關(guān)聯(lián)規(guī)則篩選模塊重復(fù)新的迭代的過程;否則進入結(jié)果整合模塊。
9.根據(jù)權(quán)利要求I所述的通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng),其特征在于,所述最終結(jié)果整合模塊將各個子數(shù)據(jù)集匿名化的結(jié)果進行整合。
10.根據(jù)權(quán)利要求2所述的通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng),其特征在干,分治模塊的運行前提是保證不劇烈増加刪除項目數(shù)目。
全文摘要
本發(fā)明提供通過部分刪除某些項目達到對集合型數(shù)據(jù)匿名化的系統(tǒng),其首先對集合型數(shù)據(jù)集進行預(yù)處理;其次利用多輪迭代方法對數(shù)據(jù)集中危險敏感的強關(guān)聯(lián)規(guī)則進行消去并保證刪除掉的項目盡量少。具體迭代的實施過程為不斷從數(shù)據(jù)集中篩選出敏感的強關(guān)聯(lián)規(guī)則;從數(shù)據(jù)集中部分刪除該規(guī)則中某些項目,以使得該危險敏感的強關(guān)聯(lián)規(guī)則變?yōu)榘踩舾械娜蹶P(guān)聯(lián)規(guī)則或不再存在于數(shù)據(jù)集中,直到最終數(shù)據(jù)集中不再存在危險敏感的強關(guān)聯(lián)規(guī)則即可跳出該迭代過程。系統(tǒng)為了能讓該匿名化處理過程以更快的速度進行,該系統(tǒng)結(jié)合了分而治之的思想,使得匿名化過程可以通過多個線程并發(fā)的執(zhí)行,在保證不劇烈增加刪除項目數(shù)目的前提下,匿名化處理過程效率大大提升。
文檔編號G06F17/30GK102867022SQ201210285469
公開日2013年1月9日 申請日期2012年8月10日 優(yōu)先權(quán)日2012年8月10日
發(fā)明者朱其立, 許信輝, 賈梟, 潘超 申請人:上海交通大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1