亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于自然語言處理的敏感數(shù)據(jù)標注方法、裝置及存儲介質(zhì)與流程

文檔序號:40393510發(fā)布日期:2024-12-20 12:16閱讀:3來源:國知局
基于自然語言處理的敏感數(shù)據(jù)標注方法、裝置及存儲介質(zhì)與流程

本申請涉及數(shù)據(jù)安全,尤其是涉及到一種基于自然語言處理的敏感數(shù)據(jù)標注方法、裝置及存儲介質(zhì)。


背景技術(shù):

1、在當今數(shù)字化時代,數(shù)據(jù)安全已成為企業(yè)和組織不可或缺的重要議題。隨著數(shù)據(jù)規(guī)模的不斷擴大和數(shù)據(jù)類型的多樣化,對敏感數(shù)據(jù)分類、貼標簽變得愈發(fā)關(guān)鍵。敏感數(shù)據(jù)的泄露可能導致嚴重的法律責任、聲譽損失以及財務(wù)損失。面對海量的數(shù)據(jù),如何快速準確地對敏感數(shù)據(jù)進行打標是當前亟待解決的技術(shù)問題。

2、目前,通常采用正則表達式匹配的方式,對敏感數(shù)據(jù)進行打標。然而,在這種方式中正則表達式的定義主要是基于人工經(jīng)驗和先驗知識制定的規(guī)則,在面對復雜多樣的數(shù)據(jù)類型和快速變化的業(yè)務(wù)場景時,該規(guī)則難以覆蓋所有情況,由此會影響敏感數(shù)據(jù)的標注精度。


技術(shù)實現(xiàn)思路

1、有鑒于此,本申請?zhí)峁┝艘环N基于自然語言處理的敏感數(shù)據(jù)標注方法、裝置及存儲介質(zhì),主要在于能夠提高敏感數(shù)據(jù)的標注精度。

2、依據(jù)本申請的第一方面,提供了一種基于自然語言處理的敏感數(shù)據(jù)標注方法,該方法包括:

3、獲取待標注的敏感數(shù)據(jù),以及所述敏感數(shù)據(jù)在數(shù)據(jù)庫中的屬性信息;

4、利用至少兩個標簽分類模型分別對所述敏感數(shù)據(jù)進行標簽分類,得到所述至少兩個標簽分類模型對應(yīng)的標簽分類結(jié)果;

5、根據(jù)所述標簽分類結(jié)果,統(tǒng)計所述敏感數(shù)據(jù)屬于目標標簽的標簽數(shù)量;

6、根據(jù)所述屬性信息和所述目標標簽的標簽數(shù)量,評估所述標簽分類結(jié)果的準確度;

7、若所述標簽分類結(jié)果的準確度達到預設(shè)標準,則根據(jù)所述目標標簽的標簽數(shù)量,確定所述敏感數(shù)據(jù)對應(yīng)的打標標簽,并對所述敏感數(shù)據(jù)進行標注。

8、依據(jù)本申請的第二方面,提供了一種基于自然語言處理的敏感數(shù)據(jù)標注裝置,該裝置包括:

9、獲取單元,用于獲取待標注的敏感數(shù)據(jù),以及所述敏感數(shù)據(jù)在數(shù)據(jù)庫中的屬性信息;

10、分類單元,用于利用至少兩個標簽分類模型分別對所述敏感數(shù)據(jù)進行標簽分類,得到所述至少兩個標簽分類模型對應(yīng)的標簽分類結(jié)果;

11、統(tǒng)計單元,用于根據(jù)所述標簽分類結(jié)果,統(tǒng)計所述敏感數(shù)據(jù)屬于目標標簽的標簽數(shù)量;

12、評估單元,用于根據(jù)所述屬性信息和所述目標標簽的標簽數(shù)量,評估所述標簽分類結(jié)果的準確度;

13、打標單元,用于若所述標簽分類結(jié)果的準確度達到預設(shè)標準,則根據(jù)所述目標標簽的標簽數(shù)量,確定所述敏感數(shù)據(jù)對應(yīng)的打標標簽,并對所述敏感數(shù)據(jù)進行標注。

14、依據(jù)本申請的第三方面,提供了一種存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)上述基于自然語言處理的敏感數(shù)據(jù)標注方法。

15、依據(jù)本申請的第四方面,提供了一種電子設(shè)備,包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)上述基于自然語言處理的敏感數(shù)據(jù)標注方法。

16、借由上述技術(shù)方案,本申請?zhí)峁┑囊环N基于自然語言處理的敏感數(shù)據(jù)標注方法、裝置及存儲介質(zhì),首先利用至少兩個標簽分類模型分別對所述敏感數(shù)據(jù)進行標簽分類,之后根據(jù)敏感數(shù)據(jù)在數(shù)據(jù)庫中的屬性信息,評估標簽分類結(jié)果的準確度,最終在標簽分類結(jié)果的準確度符合要求的情況下,根據(jù)標簽分類結(jié)果,自動對敏感數(shù)據(jù)進行打標。由此可知,本申請通過采用標簽分類模型進行敏感數(shù)據(jù)標注,能夠適應(yīng)復雜多樣的數(shù)據(jù)類型和快速變化的業(yè)務(wù)場景,從而能夠有效解決正則表達式難以覆蓋所有業(yè)務(wù)情況,維護成本高的問題,進而能夠保證敏感數(shù)據(jù)的標注精度。此外,本申請通過采用至少兩個標簽分類模型對敏感數(shù)據(jù)進行標簽分類,并根據(jù)敏感數(shù)據(jù)在數(shù)據(jù)庫中的屬性信息對標簽分類結(jié)果進行評估,能夠進一步提高敏感數(shù)據(jù)的標注精度。

17、上述說明僅是本申請技術(shù)方案的概述,為了能夠更清楚了解本申請的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本申請的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本申請的具體實施方式。



技術(shù)特征:

1.一種基于自然語言處理的敏感數(shù)據(jù)標注方法,其特征在于,包括:

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述根據(jù)所述標簽分類結(jié)果,統(tǒng)計所述敏感數(shù)據(jù)屬于目標標簽的標簽數(shù)量之后,所述方法還包括:

3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述屬性信息和所述目標標簽的標簽數(shù)量,評估所述標簽分類結(jié)果的準確度,包括:

4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述基于所述屬性信息對應(yīng)的嵌入向量,以及所述各目標標簽對應(yīng)的嵌入向量,計算所述屬性信息與所述各目標標簽之間的平均距離,包括:

5.根據(jù)權(quán)利要求4所述的方法,其特征在于,根據(jù)所述平均距離和所述平均數(shù)量差,評估所述標簽分類結(jié)果的準確度,包括:

6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述若所述標簽分類結(jié)果的準確度達到預設(shè)標準,則根據(jù)所述目標標簽的的標簽數(shù)量,確定所述敏感數(shù)據(jù)對應(yīng)的打標標簽,包括:

7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述方法還包括:

8.一種基于自然語言處理的敏感數(shù)據(jù)標注裝置,其特征在于,包括:

9.一種存儲介質(zhì),其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至7中任一項所述的方法。

10.一種電子設(shè)備,包括存儲介質(zhì)、處理器及存儲在存儲介質(zhì)上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述計算機程序時實現(xiàn)權(quán)利要求1至7中任一項所述的方法。


技術(shù)總結(jié)
本申請公開了一種基于自然語言處理的敏感數(shù)據(jù)標注方法、裝置及存儲介質(zhì)。涉及數(shù)據(jù)安全技術(shù)領(lǐng)域,其中方法包括:獲取待標注的敏感數(shù)據(jù),以及所述敏感數(shù)據(jù)在數(shù)據(jù)庫中的屬性信息;利用至少兩個標簽分類模型分別對所述敏感數(shù)據(jù)進行標簽分類,得到所述至少兩個標簽分類模型對應(yīng)的標簽分類結(jié)果;根據(jù)所述標簽分類結(jié)果,統(tǒng)計所述敏感數(shù)據(jù)屬于目標標簽的標簽數(shù)量;根據(jù)所述屬性信息和所述目標標簽的標簽數(shù)量,評估所述標簽分類結(jié)果的準確度;若所述標簽分類結(jié)果的準確度達到預設(shè)標準,則根據(jù)所述目標標簽的標簽數(shù)量,確定所述敏感數(shù)據(jù)對應(yīng)的打標標簽,并對所述敏感數(shù)據(jù)進行標注。本申請能夠提高敏感數(shù)據(jù)的標注精度。

技術(shù)研發(fā)人員:達盼飛,任中杰,任家俊,鄧行縝,孫盟涵
受保護的技術(shù)使用者:上海觀安信息技術(shù)股份有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1