本申請涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)脫敏處理方法和裝置。
背景技術(shù):
在互聯(lián)網(wǎng)大數(shù)據(jù)時代,數(shù)據(jù)的流動與合作至關(guān)重要。但同時,數(shù)據(jù)中的敏感信息一旦泄露,不但會造成用戶權(quán)益受損,也帶來公司商譽受損,引發(fā)信任危機。
現(xiàn)有技術(shù)中,有幾種數(shù)據(jù)脫敏處理算法,現(xiàn)有技術(shù)一是采用加密的方式,例如,對“年齡”進行加密,“32歲”變?yōu)椤?x01234567”?,F(xiàn)有技術(shù)二是對原始數(shù)據(jù)進行線性變換,令Y=aX+b,Y是處理后的數(shù)據(jù),X是原始數(shù)據(jù),a和b是兩個隨機數(shù)?,F(xiàn)有技術(shù)三是對原始數(shù)據(jù)進行分段處理,例如劃分為20個段,每個段的取值用這個段的平均值或者中位數(shù)替代。
但是,現(xiàn)有技術(shù)一數(shù)據(jù)加密后失去原始涵義,無法進行后續(xù)分析和利用,現(xiàn)有技術(shù)二的數(shù)據(jù)尺度發(fā)生變化,無法進行后續(xù)分析和利用,現(xiàn)有技術(shù)三根據(jù)不同場景需要修改分段邊界,且修改會引起大量的工作量。
技術(shù)實現(xiàn)要素:
本申請旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本申請的一個目的在于提出一種數(shù)據(jù)脫敏處理方法,該方法實現(xiàn)簡單,并且可以用于后續(xù)分析和利用。
本申請的另一個目的在于提出一種數(shù)據(jù)脫敏處理裝置。
為達(dá)到上述目的,本申請第一方面實施例提出的數(shù)據(jù)脫敏處理方法,包括:獲取待處理的原始數(shù)據(jù);采用預(yù)設(shè)的算法,對所述原始數(shù)據(jù)進行處理,得到脫敏處理后的數(shù)據(jù),其中,所述預(yù)設(shè)的算法能夠使得所述原始數(shù)據(jù)的統(tǒng)計量保持不變;輸出所述脫敏處理后的數(shù)據(jù)。
本申請第一方面實施例提出的數(shù)據(jù)脫敏處理方法,通過對原始數(shù)據(jù)進行預(yù)設(shè)算法的處理,可以使得脫敏處理后的數(shù)據(jù)與原始數(shù)據(jù)不同,實現(xiàn)數(shù)據(jù)脫敏,另一方面,由于預(yù)設(shè)的算法能夠使得原始數(shù)據(jù)的統(tǒng)計量保持不變,使得后續(xù)的數(shù)據(jù)分析和利用成為可能,本實施例也不需要劃分區(qū)段,實現(xiàn)相對簡單。
為達(dá)到上述目的,本申請第二方面實施例提出的數(shù)據(jù)脫敏處理裝置,包括:獲取模塊,用于獲取待處理的原始數(shù)據(jù);處理模塊,用于采用預(yù)設(shè)的算法,對所述原始數(shù)據(jù)進行處理,得到脫敏處理后的數(shù)據(jù),其中,所述預(yù)設(shè)的算法能夠使得所述原始數(shù)據(jù)的統(tǒng)計量保持不變;輸出模塊,用于輸出所述脫敏處理后的數(shù)據(jù)。
本申請第二方面實施例提出的數(shù)據(jù)脫敏處理裝置,通過對原始數(shù)據(jù)進行預(yù)設(shè)算法的處理,可以使得脫敏處理后的數(shù)據(jù)與原始數(shù)據(jù)不同,實現(xiàn)數(shù)據(jù)脫敏,另一方面,由于預(yù)設(shè)的算法能夠使得原始數(shù)據(jù)的統(tǒng)計量保持不變,使得后續(xù)的數(shù)據(jù)分析和利用成為可能,本實施例也不需要劃分區(qū)段,實現(xiàn)相對簡單。
本申請附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本申請的實踐了解到。
附圖說明
本申請上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1是本申請一實施例提出的數(shù)據(jù)脫敏處理方法的流程示意圖;
圖2是本申請實施例中原始數(shù)據(jù)與脫敏處理后的數(shù)據(jù)的示意圖;
圖3是本申請另一實施例提出的數(shù)據(jù)脫敏處理方法的流程示意圖;
圖4是本申請另一實施例提出的數(shù)據(jù)脫敏處理裝置的結(jié)構(gòu)示意圖;
圖5是本申請另一實施例提出的數(shù)據(jù)脫敏處理裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面詳細(xì)描述本申請的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本申請,而不能理解為對本申請的限制。相反,本申請的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
圖1是本申請一實施例提出的數(shù)據(jù)脫敏處理方法的流程示意圖,該方法包括:
S11:獲取待處理的原始數(shù)據(jù)。
其中,待處理的原始數(shù)據(jù)可以是敏感數(shù)據(jù),根據(jù)不同的使用場景可以選擇需要處理的敏感數(shù)據(jù),例如,將年齡確定為需要處理的敏感數(shù)據(jù)。
S12:采用預(yù)設(shè)的算法,對所述原始數(shù)據(jù)進行處理,得到脫敏處理后的數(shù)據(jù),其中,所述預(yù)設(shè)的算法能夠使得所述原始數(shù)據(jù)的統(tǒng)計量保持不變。
現(xiàn)有技術(shù)中,雖然實現(xiàn)了數(shù)據(jù)脫敏,但是數(shù)據(jù)失去原本涵義或者改變太大,無法為后 續(xù)分析提供準(zhǔn)確的數(shù)據(jù)基礎(chǔ),也就無法進行后續(xù)分析和利用。
而本實施例中,采用的脫敏算法是使得原始數(shù)據(jù)的統(tǒng)計量保持不變的算法,由于統(tǒng)計量不變,即使單個數(shù)據(jù)有所改變,但不影響整體的統(tǒng)計信息,就會保證后續(xù)的分析和利用正常進行。
可選的,所述采用預(yù)設(shè)的算法,對所述原始數(shù)據(jù)進行處理,得到脫敏處理后的數(shù)據(jù),包括:
采用如下公式,根據(jù)原始數(shù)據(jù)得到脫敏處理后的數(shù)據(jù):
Y=(1+a%)*X;
其中,X是原始數(shù)據(jù),Y是脫敏處理后的數(shù)據(jù),a是預(yù)設(shè)范圍內(nèi)的隨機數(shù)。
具體的,所述a是[-p,p]范圍內(nèi)依據(jù)統(tǒng)計分布生成的隨機數(shù),其中,p根據(jù)所需數(shù)據(jù)脫敏的程度選擇。
統(tǒng)計分布例如為均勻分布或者正態(tài)分布等。
P值越大越模糊,一般情況下p可以使用小于或等于5的正整數(shù)。
當(dāng)然,可以理解的是,上述的統(tǒng)計量保持不變不限于數(shù)學(xué)意義上所有的統(tǒng)計量都不變,可以根據(jù)實際情況,在當(dāng)前情況下預(yù)設(shè)的一種或者多種統(tǒng)計量保持不變。另外,保持不變的含義也不限于完全相同,還包括在預(yù)設(shè)誤差范圍內(nèi)的相同。統(tǒng)計量例如為均值,中位數(shù)等。
從上述公式可以看出,對應(yīng)單個數(shù)據(jù),脫敏處理后的數(shù)據(jù)是在原始數(shù)據(jù)基礎(chǔ)上增加原始值的a%的隨機擾動。單個數(shù)據(jù)的脫敏處理后的數(shù)據(jù)與原始數(shù)據(jù)不同,實現(xiàn)了數(shù)據(jù)脫敏,另一方面,由于增加的是隨機擾動,根據(jù)大數(shù)法則,整個數(shù)據(jù)的均值,中位數(shù)等統(tǒng)計量保持不變,數(shù)據(jù)尺度基本不變,可以用于后續(xù)分析和利用。
參見圖2,假設(shè)p=1,原始數(shù)據(jù)21采用上述隨機擾動算法處理后,可以得到如圖2所示的散點22。
S13:輸出所述脫敏處理后的數(shù)據(jù)。
在得到脫敏處理后的數(shù)據(jù)之后,可以輸出該數(shù)據(jù)以用于后續(xù)的數(shù)據(jù)分析和利用。
可選的,可以對脫敏處理后的數(shù)據(jù)進行樣本量限制,例如,設(shè)置樣本數(shù)量的最大值,在脫敏處理后的數(shù)據(jù)中選擇不大于該最大值的數(shù)據(jù),之后輸出數(shù)據(jù)量不大于最大值的脫敏處理后的數(shù)據(jù)。具體的,在選擇時可以采用隨機選擇或者根據(jù)預(yù)設(shè)算法選擇等。
本實施例中,通過對原始數(shù)據(jù)進行預(yù)設(shè)算法的處理,可以使得脫敏處理后的數(shù)據(jù)與原始數(shù)據(jù)不同,實現(xiàn)數(shù)據(jù)脫敏,另一方面,由于預(yù)設(shè)的算法能夠使得原始數(shù)據(jù)的統(tǒng)計量保持不變,使得后續(xù)的數(shù)據(jù)分析和利用成為可能,本實施例也不需要劃分區(qū)段,實現(xiàn)相對簡單。
圖3是本申請另一實施例提出的數(shù)據(jù)脫敏處理方法的流程示意圖,該方法包括:
S31:根據(jù)身份標(biāo)識類型數(shù)據(jù),獲取待處理的原始數(shù)據(jù)。
其中,在數(shù)據(jù)分析時可能需要獲取多種類型的數(shù)據(jù),例如,需要獲取一個用戶的年齡和賬戶金額等。
不同類型的數(shù)據(jù)可以通過身份標(biāo)識類型數(shù)據(jù)獲取,例如,對應(yīng)一個用戶,在一個平臺內(nèi),保存身份標(biāo)識類型數(shù)據(jù)與年齡的對應(yīng)關(guān)系,在另一平臺內(nèi),保存身份標(biāo)識類型數(shù)據(jù)與賬號金額的對應(yīng)關(guān)系,因此,通過身份標(biāo)識類型數(shù)據(jù)可以將其他的不同類型的數(shù)據(jù)關(guān)聯(lián),從而獲取多種類型的數(shù)據(jù)。
身份標(biāo)識類型數(shù)據(jù)例如為用戶的身份證號,或者,手機號等。
S32:采用預(yù)設(shè)的算法,對所述原始數(shù)據(jù)進行處理,得到脫敏處理后的數(shù)據(jù),其中,所述預(yù)設(shè)的算法能夠使得所述原始數(shù)據(jù)的統(tǒng)計量保持不變。
在獲取不同類型的原始數(shù)據(jù)后,可以分別采用上述實施例中的脫敏算法進行處理,例如,對于年齡采用Y=(1+a%)*X進行處理,對于賬戶金額也采用Y=(1+a%)*X,從而分別得到對應(yīng)不同類型的脫敏處理后的數(shù)據(jù)。
具體的上述公式的含義以及脫敏處理過程可以參見上一實施例,在此不再贅述。
S33:對所述身份標(biāo)識類型數(shù)據(jù)進行刪除或者加密。
例如,對年齡和賬號金額進行脫敏處理后,可以刪除或加密關(guān)聯(lián)年齡和賬號金額的身份證號等身份標(biāo)識類型數(shù)據(jù),從而避免身份標(biāo)識類型數(shù)據(jù)的泄露,保證數(shù)據(jù)安全。
S34:輸出所述脫敏處理后的數(shù)據(jù)。
在得到脫敏處理后的數(shù)據(jù)之后,可以輸出該數(shù)據(jù)以用于后續(xù)的數(shù)據(jù)分析和利用。
可選的,可以對脫敏處理后的數(shù)據(jù)進行樣本量限制,例如,設(shè)置樣本數(shù)量的最大值,在脫敏處理后的數(shù)據(jù)中選擇不大于該最大值的數(shù)據(jù),之后輸出數(shù)據(jù)量不大于最大值的脫敏處理后的數(shù)據(jù)。具體的,在選擇時可以采用隨機選擇或者根據(jù)預(yù)設(shè)算法選擇等。
本實施例中,通過對原始數(shù)據(jù)進行預(yù)設(shè)算法的處理,可以使得脫敏處理后的數(shù)據(jù)與原始數(shù)據(jù)不同,實現(xiàn)數(shù)據(jù)脫敏,另一方面,由于預(yù)設(shè)的算法能夠使得原始數(shù)據(jù)的統(tǒng)計量保持不變,使得后續(xù)的數(shù)據(jù)分析和利用成為可能,本實施例也不需要劃分區(qū)段等,實現(xiàn)相對簡單。本實施例通過對身份標(biāo)識類型數(shù)據(jù)進行刪除或加密,以及進行樣本量限制,可以進一步保證數(shù)據(jù)安全。
圖4是本申請另一實施例提出的數(shù)據(jù)脫敏處理裝置的結(jié)構(gòu)示意圖,該裝置40包括:獲取模塊41,處理模塊42和輸出模塊43。
獲取模塊41,用于獲取待處理的原始數(shù)據(jù);
其中,待處理的原始數(shù)據(jù)可以是敏感數(shù)據(jù),根據(jù)不同的使用場景可以選擇需要處理的敏感數(shù)據(jù),例如,將年齡確定為需要處理的敏感數(shù)據(jù)。
處理模塊42,用于采用預(yù)設(shè)的算法,對所述原始數(shù)據(jù)進行處理,得到脫敏處理后的數(shù)據(jù),其中,所述預(yù)設(shè)的算法能夠使得所述原始數(shù)據(jù)的統(tǒng)計量保持不變;
現(xiàn)有技術(shù)中,雖然實現(xiàn)了數(shù)據(jù)脫敏,但是數(shù)據(jù)失去原本涵義或者改變太大,無法為后續(xù)分析提供準(zhǔn)確的數(shù)據(jù)基礎(chǔ),也就無法進行后續(xù)分析和利用。
而本實施例中,采用的脫敏算法是使得原始數(shù)據(jù)的統(tǒng)計量保持不變的算法,由于統(tǒng)計量不變,即使單個數(shù)據(jù)有所改變,但不影響整體的統(tǒng)計信息,就會保證后續(xù)的分析和利用正常進行。
可選的,所述處理模塊42具體用于:
采用如下公式,根據(jù)原始數(shù)據(jù)得到脫敏處理后的數(shù)據(jù):
Y=(1+a%)*X;
其中,X是原始數(shù)據(jù),Y是脫敏處理后的數(shù)據(jù),a是預(yù)設(shè)范圍內(nèi)的隨機數(shù)。
所述a是[-p,p]范圍內(nèi)依據(jù)統(tǒng)計分布生成的隨機數(shù),其中,p根據(jù)所需數(shù)據(jù)脫敏的程度選擇。
統(tǒng)計分布例如為均勻分布或者正態(tài)分布等。
P值越大越模糊,一般情況下p可以使用小于或等于5的正整數(shù)。
當(dāng)然,可以理解的是,上述的統(tǒng)計量保持不變不限于數(shù)學(xué)意義上所有的統(tǒng)計量都不變,可以根據(jù)實際情況,在當(dāng)前情況下預(yù)設(shè)的一種或者多種統(tǒng)計量保持不變。另外,保持不變的含義也不限于完全相同,還包括在預(yù)設(shè)誤差范圍內(nèi)的相同。
從上述公式可以看出,對應(yīng)單個數(shù)據(jù),脫敏處理后的數(shù)據(jù)是在原始數(shù)據(jù)基礎(chǔ)上增加原始值的a%的隨機擾動。單個數(shù)據(jù)的脫敏處理后的數(shù)據(jù)與原始數(shù)據(jù)不同,實現(xiàn)了數(shù)據(jù)脫敏,另一方面,由于增加的是隨機擾動,根據(jù)大數(shù)法則,整個數(shù)據(jù)的均值,中位數(shù)等統(tǒng)計量保持不變,數(shù)據(jù)尺度基本不變,可以用于后續(xù)分析和利用。
參見圖2,假設(shè)p=1,原始數(shù)據(jù)21采用上述隨機擾動算法處理后,可以得到如圖2所示的散點22。
輸出模塊43,用于輸出所述脫敏處理后的數(shù)據(jù)。
在得到脫敏處理后的數(shù)據(jù)之后,可以輸出該數(shù)據(jù)以用于后續(xù)的數(shù)據(jù)分析和利用。
另一實施例中,所述獲取模塊41具體用于:根據(jù)身份標(biāo)識類型數(shù)據(jù),獲取待處理的原始數(shù)據(jù);
其中,在數(shù)據(jù)分析時可能需要獲取多種類型的數(shù)據(jù),例如,需要獲取一個用戶的年齡和賬戶金額等。
不同類型的數(shù)據(jù)可以通過身份標(biāo)識類型數(shù)據(jù)獲取,例如,對應(yīng)一個用戶,在一個平臺內(nèi),保存身份標(biāo)識類型數(shù)據(jù)與年齡的對應(yīng)關(guān)系,在另一平臺內(nèi),保存身份標(biāo)識類型數(shù)據(jù)與 賬號金額的對應(yīng)關(guān)系,因此,通過身份標(biāo)識類型數(shù)據(jù)可以將其他的不同類型的數(shù)據(jù)關(guān)聯(lián),從而獲取多種類型的數(shù)據(jù)。
身份標(biāo)識類型數(shù)據(jù)例如為用戶的身份證號,或者,手機號等。
相應(yīng)的,參見圖5,所述裝置40還包括:
刪除模塊44,用于在所述輸出模塊輸出所述脫敏處理后的數(shù)據(jù)之前,對所述身份標(biāo)識類型數(shù)據(jù)進行刪除或者加密。
例如,對年齡和賬號金額進行脫敏處理后,可以刪除或加密關(guān)聯(lián)年齡和賬號金額的身份證號等身份標(biāo)識類型數(shù)據(jù),從而避免身份標(biāo)識類型數(shù)據(jù)的泄露,保證數(shù)據(jù)安全。
可選的,參見圖5,該裝置40還包括:
限制模塊45,用于在輸出所述脫敏處理后的數(shù)據(jù)之前,對所述脫敏處理后的數(shù)據(jù),進行樣本量限制。
例如,設(shè)置樣本數(shù)量的最大值,在脫敏處理后的數(shù)據(jù)中選擇不大于該最大值的數(shù)據(jù),之后輸出數(shù)據(jù)量不大于最大值的脫敏處理后的數(shù)據(jù)。具體的,在選擇時可以采用隨機選擇或者根據(jù)預(yù)設(shè)算法選擇等。
本實施例中,通過對原始數(shù)據(jù)進行預(yù)設(shè)算法的處理,可以使得脫敏處理后的數(shù)據(jù)與原始數(shù)據(jù)不同,實現(xiàn)數(shù)據(jù)脫敏,另一方面,由于預(yù)設(shè)的算法能夠使得原始數(shù)據(jù)的統(tǒng)計量保持不變,使得后續(xù)的數(shù)據(jù)分析和利用成為可能,本實施例也不需要劃分區(qū)段等,實現(xiàn)相對簡單。本實施例通過對身份標(biāo)識類型數(shù)據(jù)進行刪除或加密,以及進行樣本量限制,可以進一步保證數(shù)據(jù)安全。
需要說明的是,在本申請的描述中,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。此外,在本申請的描述中,除非另有說明,“多個”的含義是指至少兩個。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本申請的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本申請的實施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
應(yīng)當(dāng)理解,本申請的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn) 場可編程門陣列(FPGA)等。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
此外,在本申請各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本申請的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
盡管上面已經(jīng)示出和描述了本申請的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本申請的限制,本領(lǐng)域的普通技術(shù)人員在本申請的范圍內(nèi)可以對上述實施例進行變化、修改、替換和變型。