一種地理空間數(shù)據(jù)的用戶隱私保護(hù)方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于信息安全隱私保護(hù)領(lǐng)域,特別涉及一種地理空間數(shù)據(jù)的用戶隱私保護(hù) 方法及系統(tǒng)。
【背景技術(shù)】
[0002] 信息時(shí)代的飛速發(fā)展,使得數(shù)據(jù)的獲取變得日益容易,如用戶的移動(dòng)軌跡數(shù)據(jù)、購 物記錄數(shù)據(jù)和辦公/家庭地址數(shù)據(jù)等,所有這些由位置點(diǎn)構(gòu)成的數(shù)據(jù)稱之為地理空間數(shù) 據(jù)。通過對(duì)地理空間數(shù)據(jù)進(jìn)行分析,能夠獲取很多有用信息。對(duì)于交通部門,可以通過分析 用戶移動(dòng)軌跡數(shù)據(jù),得出當(dāng)前交通狀況,為城市交通控制提供數(shù)據(jù)支持;對(duì)于商家,可以分 析用戶購物記錄數(shù)據(jù)或車輛移動(dòng)軌跡數(shù)據(jù),得出用戶感興趣的區(qū)域或者聚集地,為商業(yè)布 局提供數(shù)據(jù)支持;對(duì)于城市規(guī)劃局,可以分析用戶家庭地址數(shù)據(jù),得出城市住宅布局信息, 為城市規(guī)劃提供數(shù)據(jù)支持。
[0003] 上述決策制定離不開對(duì)數(shù)據(jù)的分析,這些數(shù)據(jù)的發(fā)布與共享為決策制定與科研分 析提供了極大便利,然而,數(shù)據(jù)的分析不可避免地涉及到用戶隱私安全,存在隱私泄露風(fēng) 險(xiǎn)。例如,2015年,麻省理工學(xué)院研究員DeMontjoye等證明,在一個(gè)110萬人的匿名購物 記錄數(shù)據(jù)中,僅需要四條購物記錄中的日期和位置信息,便能識(shí)別出數(shù)據(jù)集中90%的用戶, 當(dāng)今,用戶隱私問題已經(jīng)成為地理空間數(shù)據(jù)應(yīng)用的阻礙,如何確保數(shù)據(jù)高可用性的同時(shí)保 證用戶隱私安全是我們需要考慮的問題。
[0004] 地理空間數(shù)據(jù)的廣泛應(yīng)用為數(shù)據(jù)的安全性提出了更高的要求,如安全可控和嚴(yán)格 地可證明安全性,傳統(tǒng)的基于匿名模型(如k-匿名、1-多樣性)的方法存在泄露用戶隱私 的風(fēng)險(xiǎn),并且不能提供安全可控的隱私保護(hù)。與此相反,差分隱私是一種嚴(yán)格證明和安全可 控的隱私保護(hù)技術(shù),在數(shù)據(jù)分析和應(yīng)用的同時(shí),能夠保護(hù)用戶隱私數(shù)據(jù)不被泄露,差分隱私 已經(jīng)成為信息安全研究領(lǐng)域隱私保護(hù)事實(shí)上的標(biāo)準(zhǔn)。差分隱私通過噪音機(jī)制實(shí)現(xiàn),即向輸 出結(jié)果中添加隨機(jī)噪聲來保護(hù)數(shù)據(jù)安全,添加的噪聲越大,數(shù)據(jù)越安全,然而,數(shù)據(jù)的可用 性越低,反之亦然,即數(shù)據(jù)安全性與數(shù)據(jù)可用性是一對(duì)矛盾關(guān)系。
[0005] 基于差分隱私的數(shù)據(jù)隱私保護(hù)為了提高數(shù)據(jù)的可用性,增強(qiáng)查詢精度,提出了基 于樹型結(jié)構(gòu)的隱私空間分解方法,它主要是將一個(gè)整體數(shù)據(jù)空間劃分成為若干個(gè)獨(dú)立單元 格,然后統(tǒng)計(jì)每個(gè)單元格中的點(diǎn)數(shù)。
[0006] Cormode等基于完全四叉樹提出一種算法,此算法主要采用等比預(yù)算分配策略為 四叉樹每層分配不同隱私預(yù)算,以提高數(shù)據(jù)查詢精度。Fan等利用四叉樹將數(shù)據(jù)空間遞歸劃 分成四等份,與kd-樹劃分相比,四叉樹遞歸劃分效率高。然而,當(dāng)數(shù)據(jù)比較稀疏時(shí),會(huì)導(dǎo)致 較大誤差。為了降低添加噪聲大小,提高數(shù)據(jù)查詢精確度,F(xiàn)an等人將相似單元格合并到一 個(gè)劃分中以克服數(shù)據(jù)的稀疏性,并向此劃分添加噪聲,降低了每個(gè)單元格中噪聲大小。針對(duì) 二維地理空間數(shù)據(jù),通過樹型結(jié)構(gòu)對(duì)數(shù)據(jù)域進(jìn)行分割以提高數(shù)據(jù)可用性時(shí),樹深是影響數(shù) 據(jù)查詢結(jié)果的關(guān)鍵因素,而上述文獻(xiàn)沒有給出具體樹深或者劃分粒度的理論支持。Qardaji 等從數(shù)據(jù)域的劃分粒度出發(fā),研究如何構(gòu)建差分隱私數(shù)據(jù)集,并提出一種基于噪聲誤差和 均勻假設(shè)誤差的粒度劃分模型,開辟了提高數(shù)據(jù)可用性的新方向,然而其模型建立時(shí)假設(shè) 數(shù)據(jù)查詢形狀為正方形,長(zhǎng)等于寬,不符合數(shù)據(jù)查詢實(shí)際情況,并且設(shè)均勻假設(shè)誤差正比于 查詢邊界單元格中總點(diǎn)數(shù),未考慮單元格面積因素。
【發(fā)明內(nèi)容】
[0007] 針對(duì)現(xiàn)有技術(shù)存在的不足,本發(fā)明結(jié)合一種新穎的數(shù)據(jù)域粒度劃分模型和均勻性 度量參數(shù),提供了一種面向地理空間數(shù)據(jù)的用戶隱私保護(hù)技術(shù)方案。
[0008] 本發(fā)明的技術(shù)方案提供一種地理空間數(shù)據(jù)的用戶隱私保護(hù)方法,包括以下步驟,
[0009] 步驟1,根據(jù)數(shù)據(jù)域粒度劃分模型對(duì)數(shù)據(jù)空間進(jìn)行分割,包括以下步驟,
[0010] 步驟1. 1,根據(jù)數(shù)據(jù)空間大小得到數(shù)據(jù)空間的長(zhǎng)度L和寬度H;
[0011] 步驟1. 2,根據(jù)以下數(shù)據(jù)域粒度劃分模型,將數(shù)據(jù)空間劃分為mXm個(gè)單元格,
[0012]
[0013] 其中,k為相對(duì)誤差與面積的比例系數(shù),e為隱私預(yù)算,
[0014] 計(jì)算橫軸上每個(gè)單元格長(zhǎng)度1,I=L/m,
[0015] 計(jì)算縱軸上每個(gè)單元格長(zhǎng)度h,h=H/m,
[0016] 根據(jù)1和h的值,依次記錄每個(gè)單元格Ci的左、上、右、下四個(gè)邊框的坐標(biāo)值,i= 1,2,? ? ?,mXm ;
[0017]步驟1. 3,從數(shù)據(jù)集中依次取出一個(gè)數(shù)據(jù)點(diǎn)point(X,y),如果point(X,y)落于單 元格C1,則C1增加一個(gè)計(jì)數(shù),否則不增加;
[0018] 步驟1.4,返回步驟1.3從數(shù)據(jù)集中依次取出下一個(gè)數(shù)據(jù)點(diǎn)進(jìn)行處理, 直到數(shù)據(jù)集中所有數(shù)據(jù)點(diǎn)都取完成為止,最后得到一個(gè)數(shù)據(jù)空間S的單元格集合 Ic1,C2,…Ci,…CmxJ,對(duì)應(yīng)的計(jì)數(shù)集合為(X1,X2,…Xi,…XmxJ,Xi為單元格Ci中的數(shù)據(jù) 點(diǎn)計(jì)數(shù);
[0019] 步驟2,基于均勻性度量參數(shù),將相似單元格合并到同一個(gè)劃分,包括以下步驟,
[0020] 步驟2. 1,從數(shù)據(jù)空間S的mXm個(gè)單元格中依次取出一個(gè)單元格Ci,計(jì)算均勾性 度量參數(shù)U(S),
[0022] 其中,X(Ci)為當(dāng)前單元格中數(shù)據(jù)點(diǎn)集計(jì)數(shù),X(Cj)為除當(dāng)前單元格的其他單元格 中數(shù)據(jù)點(diǎn)集計(jì)數(shù),Ix(Ci)-X(Cj) I不超過相應(yīng)給定閾值,Num為Ix(Ci)-X(Cj) I不超過相應(yīng)給 定閾值的單元格總個(gè)數(shù);
[0023] 步驟2. 2,若U(S)小于等于相應(yīng)給定閾值,則單元格(^與c^合并到一個(gè)劃分,若 大于相應(yīng)給定閾值,則單元格(^與c,不合并到一個(gè)劃分;
[0024] 若當(dāng)前單元格C1沒有與任何單元格進(jìn)行合并,則當(dāng)前單元格c1單獨(dú)作為一個(gè)劃 分;
[0025] 將合并的單元格從數(shù)據(jù)空間S中移除;
[0026] 步驟2. 3,返回步驟2. 1從數(shù)據(jù)空間S中依次取出下一個(gè)單元格進(jìn)行處理,直到數(shù) 據(jù)空間S為空,設(shè)得到N個(gè)劃分,最后得到一個(gè)數(shù)據(jù)空間S的劃分集合{Pl,p2,...pn,...pN}, n= 1,2,. ..,N;步驟3,向每個(gè)劃分中分別添加符合拉普拉斯分布的隨機(jī)噪聲,得到含噪數(shù) 據(jù)集,包括以下步驟,
[0027] 步驟3. 1,計(jì)算符合拉普拉斯分布的隨機(jī)噪聲noise~Lap(Af/e),相應(yīng)位置參 數(shù)為〇,尺度參數(shù)為△f/e,其中,△f為全局敏感度;
[0028] 步驟3. 2,從數(shù)據(jù)空間S的劃分集合{Pl,p2, ...pn,...pN}中依次取出一個(gè)劃分pn, 向劃分Pn中添加噪聲noise(pn);
[0029] 步驟3. 3,計(jì)算劃分pn中每個(gè)單元格噪聲的大小,設(shè)某單元格c;為劃分pn中所包 含的單元格,相應(yīng)噪聲noise(Ci) =noise(pn)/pn.size(),pn.size()為劃分pn中所包含的 單元格個(gè)數(shù);
[0030] 步驟3. 4,返回步驟3. 2從數(shù)據(jù)空間S的劃分集合{Pl,p2, ...pn,...pN}中依次取 出下一個(gè)劃分進(jìn)行處理,直到數(shù)據(jù)空間S的N個(gè)劃分都取完為止,最后得到一個(gè)含噪數(shù)據(jù)集 {無,天,....?,,...元/,,,},每個(gè)含噪計(jì)數(shù).|;對(duì)應(yīng)一個(gè)單元格 (;1;
[0031] 步驟4,基于含噪數(shù)據(jù)集對(duì)外提供數(shù)據(jù)查詢結(jié)果,包括以下步驟,
[0032] 步驟4. 1,給定一個(gè)查詢Q,指定左、上、右、下四個(gè)邊框的坐標(biāo)值,Q為正方形或矩 形;
[0033] 步驟4. 2,從數(shù)據(jù)空間S的mXm個(gè)單元格中依次取出一個(gè)單元格C1,若C1完全包 含于查詢Q,則Q得到單元格C1的噪聲計(jì)數(shù)果'=笨,若C1不完全包含于查詢Q,Q與c,的交 集為I1,通過I1的面積與c,面積的比值乘以噪聲計(jì)數(shù)尾得到交集I1中的噪聲計(jì)數(shù)足、
[0034] 步驟4. 3,返回步驟4. 2從數(shù)據(jù)空間S的mXm個(gè)單元格中依次取出下一個(gè)單元格 進(jìn)行處理,直到數(shù)據(jù)空間S的mXm個(gè)單元格都取完為止,求得查詢Q包含的單元格中噪聲 計(jì)數(shù)&'之和%
[0035] 步驟4. 4,為查詢Q返回含噪結(jié)果X6
[0036] 而且,步驟3. 1中,全局敏感度Af= 1。
[0037] 而且,步驟4. 2中,若C1不完全包含于查詢Q,Q與單元格ci交集Ii的噪聲計(jì)數(shù) X' =.yXarea(/)jarea(c),area(Ii)為Q與單元格Ci交集I;的面積,area(c;)為單元格 C1的面積。
[0038] 本發(fā)明提供一種地理空間數(shù)據(jù)的用戶隱私保護(hù)系統(tǒng),包括以下模塊,
[0039] 數(shù)據(jù)空間分割模塊,用于根據(jù)數(shù)據(jù)域粒度劃分模型對(duì)數(shù)據(jù)空間進(jìn)行分割,包括以 下子模塊,
[