本申請涉及數(shù)據(jù)脫敏處理,更具體地說,涉及一種數(shù)據(jù)脫敏處理方法及裝置。
背景技術(shù):
1、數(shù)據(jù)脫敏指對某些敏感信息通過脫敏規(guī)則進行數(shù)據(jù)的變形,實現(xiàn)敏感隱私數(shù)據(jù)的可靠保護。這樣就可以在開發(fā)、測試和其它非生產(chǎn)環(huán)境以及外包環(huán)境中安全地使用脫敏后的真實數(shù)據(jù)集。
2、現(xiàn)有的數(shù)據(jù)脫敏技術(shù)通常為仿真脫敏。仿真脫敏通過生成與數(shù)據(jù)項相似的合成數(shù)據(jù),實現(xiàn)隱私保護與數(shù)據(jù)可用性的平衡,是敏感數(shù)據(jù)項脫敏中的一種有效方法。
3、但是,仿真脫敏只滿足了單個數(shù)據(jù)項的脫敏后的仿真問題,沒有能力對邏輯連貫性進行保持,即沒有能力在上下文邏輯關(guān)系的存在的情況下進行脫敏。
4、因此,如何在對數(shù)據(jù)進行脫敏的過程中保留邏輯關(guān)系,是本申請亟需解決的問題。
技術(shù)實現(xiàn)思路
1、有鑒于此,本申請公開了一種數(shù)據(jù)脫敏處理方法及裝置,旨在通過預先構(gòu)建的邏輯連貫性脫敏模型,對待脫敏數(shù)據(jù)進行邏輯連貫性脫敏,實現(xiàn)在對數(shù)據(jù)進行脫敏的過程中得到保留邏輯關(guān)系的脫敏語料的目的。
2、為了實現(xiàn)上述目的,其公開的技術(shù)方案如下:
3、本申請第一方面公開了一種數(shù)據(jù)脫敏處理方法,所述方法包括:
4、獲取待脫敏數(shù)據(jù);
5、通過預先構(gòu)建的邏輯連貫性脫敏模型,對所述待脫敏數(shù)據(jù)進行邏輯連貫性脫敏,得到脫敏語料;
6、其中,所述邏輯連貫性脫敏為保留各個數(shù)據(jù)項之間邏輯關(guān)系的脫敏;所述邏輯關(guān)系至少包括計算關(guān)系、地域關(guān)系、時間關(guān)系和對比關(guān)系。
7、優(yōu)選的,所述通過預先構(gòu)建的邏輯連貫性脫敏模型,對所述待脫敏數(shù)據(jù)進行邏輯連貫性脫敏,得到脫敏語料,包括:
8、通過預先構(gòu)建的邏輯連貫性脫敏模型,獲取待脫敏數(shù)據(jù)中的敏感數(shù)據(jù)項;
9、通過邏輯連貫性脫敏模型中的提示詞要求,確定敏感數(shù)據(jù)項在上下文的待匹配邏輯關(guān)系;其中,所述提示詞要求包括脫敏要求和輸出格式要求;
10、根據(jù)所述待匹配邏輯關(guān)系與所述邏輯關(guān)系進行匹配,得到匹配結(jié)果;所述匹配結(jié)果為所述待匹配邏輯關(guān)系與所述邏輯關(guān)系一致的匹配結(jié)果;
11、根據(jù)匹配結(jié)果,對所述敏感數(shù)據(jù)項進行邏輯連貫性脫敏,得到脫敏語料。
12、優(yōu)選的,還包括:
13、在接收到輸出要求時,解析所述輸出要求的要求類型;其中,所述要求類型至少包括符合計算關(guān)系的要求類型、符合地域關(guān)系的要求類型、符合時間關(guān)系的要求類型和/或符合對比關(guān)系的要求類型;
14、根據(jù)所述邏輯連貫性脫敏模型和所述要求類型,對所述待脫敏數(shù)據(jù)進行邏輯連貫性脫敏。
15、優(yōu)選的,在通過預先構(gòu)建的邏輯連貫性脫敏模型,對所述待脫敏數(shù)據(jù)進行邏輯連貫性脫敏,得到脫敏語料之后,還包括:
16、將所述脫敏語料訓練垂域大模型,以避免出現(xiàn)垂域大模型泄露敏感數(shù)據(jù)項的情況。
17、優(yōu)選的,還包括:
18、在對所述待脫敏數(shù)據(jù)進行邏輯連貫性脫敏的過程中,當所述待脫敏數(shù)據(jù)中所有與邏輯關(guān)系相關(guān)的數(shù)據(jù)項均脫敏正確時,對脫敏正確的邏輯關(guān)系進行標記。
19、本申請第二方面公開了一種數(shù)據(jù)脫敏處理裝置,所述裝置包括:
20、獲取單元,用于獲取待脫敏數(shù)據(jù);
21、第一脫敏單元,用于通過預先構(gòu)建的邏輯連貫性脫敏模型,對所述待脫敏數(shù)據(jù)進行邏輯連貫性脫敏,得到脫敏語料;其中,所述邏輯連貫性脫敏為保留各個數(shù)據(jù)項之間邏輯關(guān)系的脫敏;所述邏輯關(guān)系至少包括計算關(guān)系、地域關(guān)系、時間關(guān)系和對比關(guān)系。
22、優(yōu)選的,所述第一脫敏單元,包括:
23、獲取模塊,用于通過預先構(gòu)建的邏輯連貫性脫敏模型,獲取待脫敏數(shù)據(jù)中的敏感數(shù)據(jù)項;
24、確定模塊,用于通過邏輯連貫性脫敏模型中的提示詞要求,確定敏感數(shù)據(jù)項在上下文的待匹配邏輯關(guān)系;其中,所述提示詞要求包括脫敏要求和輸出格式要求;
25、匹配模塊,用于根據(jù)所述待匹配邏輯關(guān)系與所述邏輯關(guān)系進行匹配,得到匹配結(jié)果;所述匹配結(jié)果為所述待匹配邏輯關(guān)系與所述邏輯關(guān)系一致的匹配結(jié)果;
26、脫敏模塊,用于根據(jù)匹配結(jié)果,對所述敏感數(shù)據(jù)項進行邏輯連貫性脫敏,得到脫敏語料。
27、優(yōu)選的,還包括:
28、解析單元,用于在接收到輸出要求時,解析所述輸出要求的要求類型;其中,所述要求類型至少包括符合計算關(guān)系的要求類型、符合地域關(guān)系的要求類型、符合時間關(guān)系的要求類型和/或符合對比關(guān)系的要求類型;
29、第二脫敏單元,用于根據(jù)所述邏輯連貫性脫敏模型和所述要求類型,對所述待脫敏數(shù)據(jù)進行邏輯連貫性脫敏。
30、優(yōu)選的,還包括:
31、訓練單元,用于將所述脫敏語料訓練垂域大模型,以避免出現(xiàn)垂域大模型泄露敏感數(shù)據(jù)項的情況。
32、優(yōu)選的,還包括:
33、標記單元,用于在對所述待脫敏數(shù)據(jù)進行邏輯連貫性脫敏的過程中,當所述待脫敏數(shù)據(jù)中所有與邏輯關(guān)系相關(guān)的數(shù)據(jù)項均脫敏正確時,對脫敏正確的邏輯關(guān)系進行標記。
34、經(jīng)由上述技術(shù)方案可知,本申請公開了一種數(shù)據(jù)脫敏處理方法及裝置,獲取待脫敏數(shù)據(jù),通過預先構(gòu)建的邏輯連貫性脫敏模型,對待脫敏數(shù)據(jù)進行邏輯連貫性脫敏,得到脫敏語料,其中,邏輯連貫性脫敏為保留各個數(shù)據(jù)項之間邏輯關(guān)系的脫敏,邏輯關(guān)系至少包括計算關(guān)系、地域關(guān)系、時間關(guān)系和對比關(guān)系。通過上述方案,由于多個數(shù)據(jù)項之間存在上下文邏輯關(guān)系,為了在脫敏的時候保持脫敏的邏輯關(guān)系,通過預先構(gòu)建的邏輯連貫性脫敏模型,對待脫敏數(shù)據(jù)進行邏輯連貫性脫敏,邏輯連貫性脫敏為保留各個數(shù)據(jù)項之間計算關(guān)系、地域關(guān)系、時間關(guān)系、對比關(guān)系等邏輯關(guān)系的脫敏,實現(xiàn)在對數(shù)據(jù)進行脫敏的過程中得到保留邏輯關(guān)系的脫敏語料的目的。
1.一種數(shù)據(jù)脫敏處理方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過預先構(gòu)建的邏輯連貫性脫敏模型,對所述待脫敏數(shù)據(jù)進行邏輯連貫性脫敏,得到脫敏語料,包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,在通過預先構(gòu)建的邏輯連貫性脫敏模型,對所述待脫敏數(shù)據(jù)進行邏輯連貫性脫敏,得到脫敏語料之后,還包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括:
6.一種數(shù)據(jù)脫敏處理裝置,其特征在于,所述裝置包括:
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述第一脫敏單元,包括:
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括:
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括:
10.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: