基于一致性特征的非交互式差分隱私發(fā)布模型的優(yōu)化方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)隱私保護(hù)等領(lǐng)域。具體來講,是一種 利用數(shù)據(jù)關(guān)系間的一致性減少不必要的噪音引入,針對(duì)范圍查詢頻繁的應(yīng)用類型,提升非 交互式差分隱私框架下發(fā)布數(shù)據(jù)的可用性。
【背景技術(shù)】
[0002] 數(shù)據(jù)應(yīng)用領(lǐng)域中的數(shù)據(jù)隱私保護(hù)問題越來越引起關(guān)注。對(duì)于數(shù)據(jù)擁有者而言,數(shù) 據(jù)中所包含的隱私信息是在數(shù)據(jù)發(fā)布中特別需要注重和保護(hù)的問題。傳統(tǒng)的保護(hù)方式雖然 能保護(hù)數(shù)據(jù)的隱私信息,但是它們都是基于特殊的攻擊假設(shè)和背景知識(shí),一旦攻擊者掌握 了某些隱私數(shù)據(jù)的前景信息或者進(jìn)行組合攻擊的時(shí)候,傳統(tǒng)的隱私保護(hù)方法就變得不那么 安全可靠了。差分隱私已經(jīng)成為了新的隱私保護(hù)模型,它提供了強(qiáng)有力的隱私保障,通過在 隱私數(shù)據(jù)中添加適當(dāng)?shù)脑胍暨_(dá)到保護(hù)的目的,而不管攻擊者擁有多少的隱私數(shù)據(jù)相關(guān)的背 景知識(shí)和攻擊手段。
[0003] 很多的算法和應(yīng)用是對(duì)加噪數(shù)據(jù)的后續(xù)利用,這對(duì)于差分隱私框架在對(duì)隱私數(shù)據(jù) 的處理上提出了新的要求,僅僅為了保護(hù)隱私可能會(huì)打破數(shù)據(jù)的內(nèi)在聯(lián)系,并且對(duì)于后續(xù) 的范圍查詢類應(yīng)用而言,與查詢項(xiàng)成正比的噪音疊加現(xiàn)象會(huì)使得發(fā)布出的數(shù)據(jù)可用性大大 降低。如何提升發(fā)布數(shù)據(jù)在后續(xù)分析應(yīng)用的準(zhǔn)確度成了差分隱私框架研究的一個(gè)關(guān)鍵。
[0004] 差分隱私的形式化定義如下:
[0005] 定義1:數(shù)據(jù)集d和D',二者互相之間至多相差一條記錄,即|DAD' | S1.給定一個(gè) 隨機(jī)算法為s上任意一個(gè)可能的輸出。若算法s在數(shù)據(jù)集D和D'上的任意輸出滿足下列不 等式,則S滿足差分隱私.
[0006] Pr[5(D)=0] < eE XPr[5(D,) =0]
[0007] 其中,概率Pr[ ·]由算法δ的隨機(jī)性控制,也表示隱私被披露的風(fēng)險(xiǎn);隱私預(yù)算參 數(shù)ε表示隱私保護(hù)程度,ε越小隱私保護(hù)程度越高.從定義1可以看出差分隱私技術(shù)限制了任 意一條記錄對(duì)算法時(shí)俞出結(jié)果的影響.該定義是從理論角度確保算法S滿足ε差分隱私,而要 實(shí)現(xiàn)差分隱私保護(hù)需要噪音機(jī)制的介入。
[0008] 噪音機(jī)制是實(shí)現(xiàn)差分隱私保護(hù)的主要技術(shù),拉普拉斯機(jī)制與指數(shù)機(jī)制是被廣泛使 用的加噪機(jī)制,他們都與敏感性(Sensitive)定義密切相關(guān).敏感性表示了修改數(shù)據(jù)集中一 個(gè)條目所能發(fā)生的最大改變。
[0009] 定義2.數(shù)據(jù)集D和D',二者互相之間至多相差一條記錄,即|DAD' | < 1。對(duì)于任意 一個(gè)函數(shù):f: D-Rd,函數(shù)f的全局敏感性S (f)為:
[0010] sir) = Ituix I ! ftm - rW) I
[0011] 其中,R表示所映射的實(shí)數(shù)空間,d表示函數(shù)f的查詢維度,p表示度量S(f)使用的LP 距離,通常使用Li來度量.
[0012] 拉普拉斯機(jī)制通過產(chǎn)生滿足拉普拉斯分布的噪音來擾動(dòng)真實(shí)輸出值以實(shí)現(xiàn)差分 隱私保護(hù)。
[0013] 定理1.對(duì)于任一個(gè)函數(shù)f:D-Rd,若算法δ的輸出結(jié)果滿足下列等式,則δ滿足£差 分隱私.
[0014] 5(D)=f(D)+<Lapi(S(f)/e),---,Lapd(S(f)/e)>
[0015] 其中,LaPi(S(f)/e)(l <i<d)是相互獨(dú)立的拉普拉斯變量,噪音量大小與S(f)成 正比,與ε成反比.算法δ的全局敏感性越大,所需噪音越大.
[0016] 指數(shù)機(jī)制能處理離散屬性和連續(xù)屬性,通過設(shè)計(jì)打分函數(shù),對(duì)每個(gè)屬性進(jìn)行打分, 按照與分值成正比的概率選擇輸出屬性。
[0017] 數(shù)據(jù)擁有者在對(duì)數(shù)據(jù)進(jìn)行差分隱私處理時(shí),主要有兩種分布方式一一交互式和非 交互式框架。在交互式框架中,用戶每次通過接口向數(shù)據(jù)擁有者發(fā)送查詢請(qǐng)求,數(shù)據(jù)庫返回 相應(yīng)滿足差分隱私的請(qǐng)求應(yīng)答。在非交互式框架中,數(shù)據(jù)擁有者一次性將所有數(shù)據(jù)用滿足 差分隱私的算法進(jìn)行處理,然后全部發(fā)布給用戶查詢使用。本發(fā)明是基于后一個(gè)框架。
[0018] 對(duì)于用戶的一些范圍計(jì)數(shù)類查詢的應(yīng)用,比如查詢年齡屬性在20-50歲范圍內(nèi)的 計(jì)數(shù)情況,而此屬性粒度是為10歲,那么就要對(duì)20,30,40,50歲的條目進(jìn)行累加處理。由于 加入了噪音,顯然在這個(gè)過程中發(fā)生了噪音的疊加。隨著數(shù)據(jù)集維度和數(shù)據(jù)列聯(lián)表稀疏度 的影響,對(duì)于范圍計(jì)數(shù)類查詢來說,噪音的疊加結(jié)果可能會(huì)接近真是計(jì)數(shù)值,甚至超過真實(shí) 值。這會(huì)使得到的查詢結(jié)果可用性大大降低。
【發(fā)明內(nèi)容】
[0019] 鑒于范圍計(jì)數(shù)類查詢產(chǎn)生的噪音疊加問題,本發(fā)明提出一種基于一致性特征的非 交互式差分隱私發(fā)布模型的優(yōu)化方法,對(duì)原有的非交互式差分隱私發(fā)布模型進(jìn)行優(yōu)化,減 輕單項(xiàng)條目組合時(shí)的噪音疊加問題,減少多余的噪音,提升結(jié)果可用性。
[0020] 本發(fā)明的技術(shù)解決方案如下:
[0021 ] -種基于一致性特征的非交互式差分隱私發(fā)布模型的優(yōu)化方法,包括以下步驟:
[0022] 步驟1、為每個(gè)屬性定義具有匿名層級(jí)關(guān)系的抽象樹結(jié)構(gòu),每個(gè)父節(jié)點(diǎn)概括了其子 節(jié)點(diǎn)集,并且定義劃分迭代次數(shù)上限;
[0023] 步驟2、選取所有屬性的抽象樹的根節(jié)點(diǎn)集合作為構(gòu)造樹的根節(jié)點(diǎn),所有原數(shù)據(jù)項(xiàng) 都包含在這個(gè)節(jié)點(diǎn)中;從根節(jié)點(diǎn)開始,自頂向下地建樹,每次迭代不重復(fù)地選取一個(gè)屬性作 為劃分依據(jù),按照這個(gè)屬性的抽象樹結(jié)構(gòu)產(chǎn)生對(duì)應(yīng)的子區(qū)間作為下層的子節(jié)點(diǎn)集,同時(shí)劃 分原數(shù)據(jù)項(xiàng)到相應(yīng)的區(qū)間上;依次類推構(gòu)建下層新節(jié)點(diǎn)并劃分歸納原數(shù)據(jù)項(xiàng),直到達(dá)到迭 代次數(shù),得到構(gòu)造樹,其每個(gè)葉節(jié)點(diǎn)是同一類匿名結(jié)果的數(shù)據(jù)項(xiàng)集合。劃分屬性的選擇依據(jù) 采用符合差分隱私的指數(shù)機(jī)制。
[0024] 步驟3、用滿足差分隱私的拉普拉斯機(jī)制對(duì)構(gòu)造樹的葉節(jié)點(diǎn)的數(shù)據(jù)項(xiàng)條目計(jì)數(shù)加 噪,運(yùn)行不影響差分隱私的調(diào)整算法f,自底向上對(duì)落在葉節(jié)點(diǎn)的噪音進(jìn)行調(diào)整,使其散布 在所有節(jié)點(diǎn)上。
[0025] 步驟4、在調(diào)整算法f中,基于父子節(jié)點(diǎn)對(duì)之間的一致性特性,先通過后序遍歷再通 過先序遍歷構(gòu)造樹對(duì)噪音進(jìn)行調(diào)整;
[0026] 步驟5、用葉節(jié)點(diǎn)計(jì)數(shù)值的累加代表對(duì)父節(jié)點(diǎn)所表示區(qū)間的范圍查詢,根據(jù)葉節(jié)點(diǎn) 上的條目計(jì)數(shù)值發(fā)布新數(shù)據(jù)集,直接供用戶使用。
[0027] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果如下:
[0028] 1.有效的地降低了范圍計(jì)數(shù)類查詢中的噪音疊加,隨著計(jì)數(shù)范圍的增加,此數(shù)據(jù) 準(zhǔn)確性較為平穩(wěn),起伏細(xì)微。并且隨著屬性抽象層級(jí)的增加,在發(fā)布出的新數(shù)據(jù)集稀疏度減 小,數(shù)據(jù)計(jì)數(shù)變得稀疏的情況下,此數(shù)據(jù)受影響程度甚小,依舊保持較為平穩(wěn)的增長(zhǎng)。
[0029] 2.由于發(fā)布出的新數(shù)據(jù)集具有了一致性特性,因此可采用原先簡(jiǎn)潔的發(fā)布模 式一一僅發(fā)布落在構(gòu)造樹葉節(jié)點(diǎn)的數(shù)據(jù)條目作為發(fā)布數(shù)據(jù)集,不必發(fā)布內(nèi)部節(jié)點(diǎn)的計(jì)數(shù)值 情況。
[0030] 3.分類精度無論從理論上還是實(shí)際應(yīng)用角度都高于現(xiàn)有的非交互式數(shù)據(jù)分類方 法。
【附圖說明】
[0031] 圖1是交互式框架結(jié)構(gòu)示意圖;
[0032] 圖2是非交互式框架結(jié)構(gòu)示意圖;
[0033] 圖3是本發(fā)明基于一致性特征的非交互式差分隱私發(fā)布模型的優(yōu)化方法的流程 圖;
[0034] 圖4是屬