本申請涉及數(shù)據(jù)安全,尤其是涉及到一種基于自然語言處理的敏感數(shù)據(jù)標注方法、裝置及存儲介質(zhì)。
背景技術(shù):
1、在當今數(shù)字化時代,數(shù)據(jù)安全已成為企業(yè)和組織不可或缺的重要議題。隨著數(shù)據(jù)規(guī)模的不斷擴大和數(shù)據(jù)類型的多樣化,對敏感數(shù)據(jù)分類、貼標簽變得愈發(fā)關(guān)鍵。敏感數(shù)據(jù)的泄露可能導致嚴重的法律責任、聲譽損失以及財務(wù)損失。面對海量的數(shù)據(jù),如何快速準確地對敏感數(shù)據(jù)進行打標是當前亟待解決的技術(shù)問題。
2、目前,通常采用正則表達式匹配的方式,對敏感數(shù)據(jù)進行打標。然而,在這種方式中正則表達式的定義主要是基于人工經(jīng)驗和先驗知識制定的規(guī)則,在面對復雜多樣的數(shù)據(jù)類型和快速變化的業(yè)務(wù)場景時,該規(guī)則難以覆蓋所有情況,由此會影響敏感數(shù)據(jù)的標注精度。
技術(shù)實現(xiàn)思路
1、有鑒于此,本申請?zhí)峁┝艘环N基于自然語言處理的敏感數(shù)據(jù)標注方法、裝置及存儲介質(zhì),主要在于能夠提高敏感數(shù)據(jù)的標注精度。
2、依據(jù)本申請的第一方面,提供了一種基于自然語言處理的敏感數(shù)據(jù)標注方法,該方法包括:
3、獲取待標注的敏感數(shù)據(jù),以及所述敏感數(shù)據(jù)在數(shù)據(jù)庫中的屬性信息;
4、利用至少兩個標簽分類模型分別對所述敏感數(shù)據(jù)進行標簽分類,得到所述至少兩個標簽分類模型對應(yīng)的標簽分類結(jié)果;
5、根據(jù)所述標簽分類結(jié)果,統(tǒng)計所述敏感數(shù)據(jù)屬于目標標簽的標簽數(shù)量;
6、根據(jù)所述屬性信息和所述目標標簽的標簽數(shù)量,評估所述標簽分類結(jié)果的準確度;
7、若所述標簽分類結(jié)果的準確度達到預設(shè)標準,則根據(jù)所述目標標簽的標簽數(shù)量,確定所述敏感數(shù)據(jù)對應(yīng)的打標標簽,并對所述敏感數(shù)據(jù)進行標注。
8、依據(jù)本申請的第二方面,提供了一種基于自然語言處理的敏感數(shù)據(jù)標注裝置,該裝置包括:
9、獲取單元,用于獲取待標注的敏感數(shù)據(jù),以及所述敏感數(shù)據(jù)在數(shù)據(jù)庫中的屬性信息;
10、分類單元,用于利用至少兩個標簽分類模型分別對所述敏感數(shù)據(jù)進行標簽分類,得到所述至少兩個標簽分類模型對應(yīng)的標簽分類結(jié)果;
11、統(tǒng)計單元,用于根據(jù)所述標簽分類結(jié)果,統(tǒng)計所述敏感數(shù)據(jù)屬于目標標簽的標簽數(shù)量;
12、評估單元,用于根據(jù)所述屬性信息和所述目標標簽的標簽數(shù)量,評估所述標簽分類結(jié)果的準確度;
13、打標單元,用于若所述標簽分類結(jié)果的準確度達到預設(shè)標準,則根據(jù)所述目標標簽的標簽數(shù)量,確定所述敏感數(shù)據(jù)對應(yīng)的打標標簽,并對所述敏感數(shù)據(jù)進行標注。
14、依據(jù)本申請的第三方面,提供了一種存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)上述基于自然語言處理的敏感數(shù)據(jù)標注方法。
15、依據(jù)本申請的第四方面,提供了一種電子設(shè)備,包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述基于自然語言處理的敏感數(shù)據(jù)標注方法。
16、借由上述技術(shù)方案,本申請?zhí)峁┑囊环N基于自然語言處理的敏感數(shù)據(jù)標注方法、裝置及存儲介質(zhì),首先利用至少兩個標簽分類模型分別對所述敏感數(shù)據(jù)進行標簽分類,之后根據(jù)敏感數(shù)據(jù)在數(shù)據(jù)庫中的屬性信息,評估標簽分類結(jié)果的準確度,最終在標簽分類結(jié)果的準確度符合要求的情況下,根據(jù)標簽分類結(jié)果,自動對敏感數(shù)據(jù)進行打標。由此可知,本申請通過采用標簽分類模型進行敏感數(shù)據(jù)標注,能夠適應(yīng)復雜多樣的數(shù)據(jù)類型和快速變化的業(yè)務(wù)場景,從而能夠有效解決正則表達式難以覆蓋所有業(yè)務(wù)情況,維護成本高的問題,進而能夠保證敏感數(shù)據(jù)的標注精度。此外,本申請通過采用至少兩個標簽分類模型對敏感數(shù)據(jù)進行標簽分類,并根據(jù)敏感數(shù)據(jù)在數(shù)據(jù)庫中的屬性信息對標簽分類結(jié)果進行評估,能夠進一步提高敏感數(shù)據(jù)的標注精度。
17、上述說明僅是本申請技術(shù)方案的概述,為了能夠更清楚了解本申請的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本申請的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本申請的具體實施方式。
1.一種基于自然語言處理的敏感數(shù)據(jù)標注方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述標簽分類結(jié)果,統(tǒng)計所述敏感數(shù)據(jù)屬于目標標簽的標簽數(shù)量之后,所述方法還包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述屬性信息和所述目標標簽的標簽數(shù)量,評估所述標簽分類結(jié)果的準確度,包括:
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述屬性信息對應(yīng)的嵌入向量,以及所述各目標標簽對應(yīng)的嵌入向量,計算所述屬性信息與所述各目標標簽之間的平均距離,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述平均距離和所述平均數(shù)量差,評估所述標簽分類結(jié)果的準確度,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述若所述標簽分類結(jié)果的準確度達到預設(shè)標準,則根據(jù)所述目標標簽的的標簽數(shù)量,確定所述敏感數(shù)據(jù)對應(yīng)的打標標簽,包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:
8.一種基于自然語言處理的敏感數(shù)據(jù)標注裝置,其特征在于,包括:
9.一種存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的方法。
10.一種電子設(shè)備,包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述的方法。