亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于差分隱私的文本脫敏方法、程序產(chǎn)品和計(jì)算設(shè)備與流程

文檔序號(hào):40394305發(fā)布日期:2024-12-20 12:17閱讀:4來(lái)源:國(guó)知局
基于差分隱私的文本脫敏方法、程序產(chǎn)品和計(jì)算設(shè)備與流程

本說(shuō)明書(shū)實(shí)施例屬于隱私計(jì)算,尤其涉及基于差分隱私的文本脫敏方法、程序產(chǎn)品和計(jì)算設(shè)備。


背景技術(shù):

1、大語(yǔ)言模型(large?language?model,以下也簡(jiǎn)稱為大模型)在近些年取得了巨大成功,被廣泛用于各個(gè)領(lǐng)域,而大語(yǔ)言模型應(yīng)用過(guò)程中的數(shù)據(jù)隱私也隨之受到關(guān)注。預(yù)訓(xùn)練的大模型通常會(huì)經(jīng)過(guò)微調(diào)(fine-tuning)后再去執(zhí)行下游具體任務(wù),執(zhí)行下游任務(wù)的過(guò)程中往往會(huì)包括基于大模型的推理(inference)過(guò)程。在微調(diào)和推理這兩個(gè)過(guò)程中,都存在著明顯的隱私泄露的隱患。

2、在微調(diào)過(guò)程中,下游任務(wù)方需要使用自己特有的數(shù)據(jù)集來(lái)微調(diào)得到一個(gè)垂直領(lǐng)域的大模型。直接使用特定領(lǐng)域數(shù)據(jù)訓(xùn)練容易使最終得到的模型受到白盒攻擊的威脅,導(dǎo)致隱私泄露。一個(gè)可選的方案是使用差分隱私技術(shù)微調(diào)模型,但這樣會(huì)帶來(lái)巨大的時(shí)間和內(nèi)存開(kāi)銷(xiāo),同時(shí)也會(huì)對(duì)模型性能造成較大的影響。并且,微調(diào)大模型對(duì)于算力有限的下游任務(wù)方來(lái)說(shuō)也是難以進(jìn)行的,這樣的下游任務(wù)方可能會(huì)選擇委托第三方機(jī)構(gòu)幫助自己微調(diào)模型,但這樣需要將數(shù)據(jù)傳遞給第三方,直接進(jìn)行數(shù)據(jù)傳輸仍然會(huì)有極大的隱私泄露的風(fēng)險(xiǎn)。

3、在推理過(guò)程中,用戶往往會(huì)使用大模型服務(wù)提供商提供的接口進(jìn)行推理,而大模型服務(wù)商在實(shí)際中往往是不可信的,用戶在輸入提示詞(prompt)進(jìn)行推理的時(shí)候,提示詞中涉及到敏感信息也會(huì)帶來(lái)隱私風(fēng)險(xiǎn)。

4、在上述場(chǎng)景中,使用文本脫敏技術(shù)可以高效保護(hù)數(shù)據(jù)隱私,并且相較于其他隱私保護(hù)技術(shù),文本脫敏更加輕量級(jí),并且具有一次脫敏,多次使用的特性。相關(guān)技術(shù)中已經(jīng)存在的一些文本脫敏方法,然而,這些方法都有各自的不足。

5、一些相關(guān)技術(shù)使用逐詞替換策略,對(duì)于固定詞表中的每個(gè)詞,計(jì)算該詞與詞表中其他詞的歐式距離,并使用類(lèi)似于指數(shù)機(jī)制(因此該技術(shù)使用的是松弛差分隱私定義)的方式挑選一個(gè)詞進(jìn)行替換。此外,它還會(huì)根據(jù)詞出現(xiàn)的頻率篩選出不敏感詞,對(duì)不敏感詞按一定概率不進(jìn)行替換。然而,該技術(shù)存在著如下的問(wèn)題:由于使用的是松弛差分隱私定義,實(shí)際的隱私預(yù)算與詞之間的最大距離有關(guān)。當(dāng)詞表過(guò)大時(shí),需要保存一個(gè)規(guī)模非常大的概率矩陣。此外,該技術(shù)對(duì)于不敏感詞的定義不準(zhǔn)確,詞表過(guò)大時(shí)容易替換成毫不相干的詞。

6、另一些技術(shù)脫敏數(shù)據(jù)并調(diào)用遠(yuǎn)端推理,再將推理結(jié)果反脫敏,由脫敏和反脫敏兩個(gè)過(guò)程組成。脫敏過(guò)程有兩個(gè)方案,一個(gè)是使用固定命名實(shí)體識(shí)別,提取敏感詞并將敏感詞替換成實(shí)體類(lèi)別標(biāo)記。然后進(jìn)行遠(yuǎn)端推理。反脫敏過(guò)程則是使用一個(gè)大語(yǔ)言模型,將被替換詞的替換關(guān)系作為提示文本輸入,將遠(yuǎn)端推理結(jié)果和提示文本一起輸入模型,從而得到還原的結(jié)果。該技術(shù)存在如下問(wèn)題:首先,整體來(lái)說(shuō),該技術(shù)需要訓(xùn)練大語(yǔ)言模型,同時(shí)需要在本地部署模型執(zhí)行推理,相對(duì)較為重量級(jí)。使用命名實(shí)體識(shí)別會(huì)將詞替換為特殊標(biāo)記,會(huì)影響句子可讀性,而特殊標(biāo)記也容易讓遠(yuǎn)端知道句子中哪些信息重要,從而結(jié)合一些其他知識(shí)進(jìn)行一些推理,存在隱私泄露的風(fēng)險(xiǎn)。

7、根據(jù)以上內(nèi)容可知,現(xiàn)有的文本脫敏技術(shù)存在隱私保障不嚴(yán)格,對(duì)文本影響大,脫敏后文本可讀性差等問(wèn)題。因此,需要一種文本脫敏方法,在提高隱私保障、防止隱私泄露的同時(shí),降低對(duì)原文本的影響程度,提高脫敏后的文本可讀性。


技術(shù)實(shí)現(xiàn)思路

1、本說(shuō)明書(shū)的目的在于提供基于差分隱私的文本脫敏方法、程序產(chǎn)品和計(jì)算設(shè)備,旨在對(duì)文本脫敏防止隱私泄露的同時(shí),提高脫敏文本的可讀性,并提高脫敏過(guò)程的速度。

2、本說(shuō)明書(shū)第一方面提供一種基于差分隱私的文本脫敏方法,包括:

3、獲取聚類(lèi)集合,任一聚類(lèi)中的任一目標(biāo)詞具有預(yù)設(shè)的替換概率分布,所述替換概率分布基于指數(shù)機(jī)制確定,用于描述將所述目標(biāo)詞替換為該聚類(lèi)中的各個(gè)詞的概率;

4、對(duì)輸入的待脫敏文本進(jìn)行命名實(shí)體識(shí)別,確定其中各個(gè)詞所歸屬的實(shí)體類(lèi)型,其中包括被預(yù)設(shè)為敏感詞類(lèi)型的實(shí)體類(lèi)型;

5、對(duì)于任一屬于敏感詞類(lèi)型的目標(biāo)敏感詞,判斷其是否存在于聚類(lèi)集合的任一聚類(lèi)中,當(dāng)所述目標(biāo)敏感詞存在于第一目標(biāo)聚類(lèi)時(shí),按照所述目標(biāo)敏感詞在所述第一目標(biāo)聚類(lèi)中的替換概率分布進(jìn)行采樣,得到目標(biāo)替換詞;

6、使用所述目標(biāo)替換詞替換所述待脫敏文本中的目標(biāo)敏感詞,得到脫敏文本。

7、本說(shuō)明書(shū)第二方面提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,當(dāng)所述計(jì)算機(jī)程序在計(jì)算機(jī)中執(zhí)行時(shí),令計(jì)算機(jī)執(zhí)行第一方面所述的方法。

8、本說(shuō)明書(shū)第三方面提供一種計(jì)算設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時(shí),實(shí)現(xiàn)第一方面所述的方法。

9、本說(shuō)明書(shū)第四方面提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)第一方面所述方法的步驟。

10、本說(shuō)明書(shū)實(shí)施例提出的于差分隱私的文本脫敏方法、程序產(chǎn)品和計(jì)算設(shè)備,方法首先基于聚類(lèi)對(duì)預(yù)設(shè)詞表(詞集合)中的各個(gè)詞進(jìn)行聚類(lèi)和劃分,使得同類(lèi)型的詞被劃分到同一個(gè)聚類(lèi)中。然后,對(duì)每個(gè)聚類(lèi)中的詞,使用指數(shù)機(jī)制確定每個(gè)詞替換成聚類(lèi)中其它詞的概率,此做法可以確保文本脫敏過(guò)程的純差分隱私(epsilon?differential?privacy,ε-dp)保障。對(duì)于沒(méi)有包含在詞集合中的詞,本說(shuō)明書(shū)提出兜底處理方法,通過(guò)將詞和聚類(lèi)的實(shí)體類(lèi)型匹配,可以確保一些未見(jiàn)詞(詞集合中沒(méi)有的詞)也能被替換為語(yǔ)義相似的詞,確保了系統(tǒng)的穩(wěn)定性。此外,本說(shuō)明書(shū)將時(shí)間開(kāi)銷(xiāo)較大的詞聚類(lèi)和差分隱私計(jì)算安排在預(yù)處理階段,生成的聚類(lèi)集合可以在后續(xù)的在線文本脫敏的過(guò)程中重復(fù)使用。使得脫敏的過(guò)程快速、高效且節(jié)約計(jì)算資源。



技術(shù)特征:

1.一種基于差分隱私的文本脫敏方法,包括:

2.根據(jù)權(quán)利要求1所述的方法,其中,所述對(duì)輸入的待脫敏文本進(jìn)行命名實(shí)體識(shí)別還包括,確定各個(gè)詞所歸屬的實(shí)體類(lèi)型的第一置信度;所述聚類(lèi)集合的任一聚類(lèi)還具有預(yù)設(shè)的聚類(lèi)實(shí)體類(lèi)型和對(duì)應(yīng)的第二置信度;所述方法還包括:

3.根據(jù)權(quán)利要求1所述的方法,獲取聚類(lèi)集合,包括:

4.根據(jù)權(quán)利要求3所述的方法,獲取聚類(lèi)集合,還包括:

5.根據(jù)權(quán)利要求3所述的方法,獲取聚類(lèi)集合,還包括:

6.根據(jù)權(quán)利要求3所述的方法,獲取詞集合中各個(gè)詞對(duì)應(yīng)的嵌入表征,包括:

7.根據(jù)權(quán)利要求3所述的方法,其中,所述距離函數(shù)經(jīng)過(guò)歸一化處理。

8.根據(jù)權(quán)利要求1所述的方法,還包括:

9.根據(jù)權(quán)利要求8所述的方法,還包括:

10.根據(jù)權(quán)利要求2所述的方法,其中,所述數(shù)值類(lèi)型至少包括以下之一:數(shù)字、日期、時(shí)間、編號(hào)。

11.一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)程序/指令,該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1-10中任一項(xiàng)所述方法的步驟。

12.一種計(jì)算設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器中存儲(chǔ)有可執(zhí)行代碼,所述處理器執(zhí)行所述可執(zhí)行代碼時(shí),實(shí)現(xiàn)權(quán)利要求1-10中任一項(xiàng)所述的方法。


技術(shù)總結(jié)
本說(shuō)明書(shū)實(shí)施例涉及基于差分隱私的文本脫敏方法、程序產(chǎn)品和計(jì)算設(shè)備,方法包括:獲取聚類(lèi)集合,任一聚類(lèi)中的任一目標(biāo)詞具有預(yù)設(shè)的替換概率分布,所述替換概率分布基于指數(shù)機(jī)制確定,用于描述將所述目標(biāo)詞替換為該聚類(lèi)中的各個(gè)詞的概率;對(duì)輸入的待脫敏文本進(jìn)行命名實(shí)體識(shí)別,確定其中各個(gè)詞所歸屬的實(shí)體類(lèi)型,其中包括被預(yù)設(shè)為敏感詞類(lèi)型的實(shí)體類(lèi)型;對(duì)于任一屬于敏感詞類(lèi)型的目標(biāo)敏感詞,判斷其是否存在于聚類(lèi)集合的任一聚類(lèi)中,當(dāng)所述目標(biāo)敏感詞存在于第一目標(biāo)聚類(lèi)時(shí),按照所述目標(biāo)敏感詞在所述第一目標(biāo)聚類(lèi)中的替換概率分布進(jìn)行采樣,得到目標(biāo)替換詞;使用所述目標(biāo)替換詞替換所述待脫敏文本中的目標(biāo)敏感詞,得到脫敏文本。

技術(shù)研發(fā)人員:劉文炎,李唯賢,馬昱肖,殷山
受保護(hù)的技術(shù)使用者:螞蟻區(qū)塊鏈科技(上海)有限公司
技術(shù)研發(fā)日:
技術(shù)公布日:2024/12/19
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1