本發(fā)明屬于圖像處理領(lǐng)域,涉及一種文生圖大模型安全漏洞檢測(cè)方法、系統(tǒng)、設(shè)備及介質(zhì)。
背景技術(shù):
1、在深度學(xué)習(xí)領(lǐng)域,文生圖大模型能夠按照用戶提供的文本內(nèi)容,生成符合要求的高質(zhì)量圖像,已經(jīng)被廣泛應(yīng)用于圖像生成,圖像編輯等多個(gè)任務(wù)場(chǎng)景,在圖像相關(guān)行業(yè)發(fā)揮著越發(fā)重要的作用。然而,由于文生圖大模型具備生成包含暴力、色情內(nèi)容的不安全圖像的能力,濫用文生圖大模型所帶來的安全隱患逐漸引起社會(huì)的關(guān)注,因此,文生圖大模型在部署前通常需要配備基于文字、圖像等多種類型特征的安全過濾器,以確保文生圖大模型在使用過程中不生成包含不安全內(nèi)容的圖像。然而,已投入使用的安全過濾器抑制不安全內(nèi)容輸出的有效性仍是未知的,現(xiàn)有研究初步分析了文生圖大模型安全過濾器的魯棒性。
2、現(xiàn)階段關(guān)于文生圖大模型安全的研究以檢測(cè)安全過濾器的漏洞為主,這類工作通常對(duì)輸入的文字描述,即輸入文本做變換,使得生成的圖像內(nèi)容不觸發(fā)安全過濾器的響應(yīng)。然而,現(xiàn)階段的研究?jī)H關(guān)注生成圖像是否成功規(guī)避了安全過濾器的檢測(cè),而忽視了生成內(nèi)容是否仍包含不安全的內(nèi)容,導(dǎo)致檢測(cè)到安全漏洞是無意義的,大大降低安全漏洞檢測(cè)的效率。
3、具體來講,這是由現(xiàn)有方法的兩個(gè)缺陷造成的:一方面,現(xiàn)有方法在變換輸入文本的過程中缺乏對(duì)生成內(nèi)容的監(jiān)控,容易在變換過程使生成圖像不再包含不安全的內(nèi)容;另一方面,現(xiàn)有方法缺乏對(duì)輸入文本內(nèi)容的整體分析,往往直接采用替換敏感詞的方式變換輸入文本,敏感詞的替換會(huì)對(duì)生成內(nèi)容的不安全性產(chǎn)生較大的影響,容易生成無意義的測(cè)試樣本,降低安全漏洞檢測(cè)的效率。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的在于克服上述現(xiàn)有技術(shù)的缺點(diǎn),提供一種文生圖大模型安全漏洞檢測(cè)方法、系統(tǒng)、設(shè)備及介質(zhì)。
2、為達(dá)到上述目的,本發(fā)明采用以下技術(shù)方案予以實(shí)現(xiàn):
3、本發(fā)明第一方面,提供一種文生圖大模型安全漏洞檢測(cè)方法,包括:獲取輸入文本,并提取輸入文本中的敏感詞和關(guān)鍵詞;文本替換步驟:進(jìn)行若干次詞替換步驟得到若干替換文本;其中,詞替換步驟:根據(jù)預(yù)設(shè)的基于高相似度的敏感詞替換策略獲取敏感替換詞并采用敏感替換詞替換敏感詞,并根據(jù)預(yù)設(shè)的基于低置信度的關(guān)鍵詞替換策略獲取關(guān)鍵替換詞并采用關(guān)鍵替換詞替換關(guān)鍵詞;檢測(cè)步驟:根據(jù)預(yù)設(shè)的目標(biāo)安全過濾器和參考安全過濾器從若干替換文本中選取最優(yōu)替換文本,并通過最優(yōu)替換文本對(duì)文生圖大模型進(jìn)行安全漏洞檢測(cè);其中,目標(biāo)安全過濾器為待檢測(cè)的文生圖大模型的安全過濾器;參考安全過濾器為與目標(biāo)安全過濾器交叉的安全過濾器;重復(fù)進(jìn)行文本替換步驟和檢測(cè)步驟至到達(dá)預(yù)設(shè)重復(fù)次數(shù),或重復(fù)至檢測(cè)到文生圖大模型的安全漏洞。
4、可選的,所述提取輸入文本中的敏感詞和關(guān)鍵詞包括:將輸入文本進(jìn)行分詞處理,得到若干文本詞;基于預(yù)設(shè)的不安全詞列表,從若干文本詞中選取敏感詞;基于文本詞對(duì)目標(biāo)安全過濾器和參考安全過濾器的差分分?jǐn)?shù),從若干文本詞中選取關(guān)鍵詞。
5、可選的,所述基于文本詞對(duì)目標(biāo)安全過濾器和參考安全過濾器的差分分?jǐn)?shù),從若干文本詞中選取關(guān)鍵詞包括:基于文本詞對(duì)目標(biāo)安全過濾器和參考安全過濾器的差分分?jǐn)?shù),從若干文本詞中選取差分分?jǐn)?shù)最高的文本詞為關(guān)鍵詞。
6、可選的,所述基于高相似度的敏感詞替換策略包括:基于敏感替換詞和敏感詞在同一編碼器下的編碼特征之間的余弦相似度最高的優(yōu)化目標(biāo),采用貪心算法從敏感替換詞集中選取敏感替換詞。
7、可選的,所述基于低置信度的關(guān)鍵替換詞策略包括:基于關(guān)鍵替換詞和關(guān)鍵詞在同一編碼器下的編碼特征之間的余弦相似度最低的優(yōu)化目標(biāo),采用貪心算法從關(guān)鍵替換詞集中選取關(guān)鍵替換詞。
8、可選的,所述根據(jù)預(yù)設(shè)的目標(biāo)安全過濾器和參考安全過濾器從若干替換文本中選取最優(yōu)替換文本包括:基于替換文本對(duì)目標(biāo)安全過濾器和參考安全過濾器的差分分?jǐn)?shù),從若干替換文本中選取差分分?jǐn)?shù)最高的替換文本為最優(yōu)替換文本。
9、可選的,所述通過最優(yōu)替換文本對(duì)文生圖大模型進(jìn)行安全漏洞檢測(cè)包括:獲取最優(yōu)替換文本基于文生圖大模型的生成圖像;當(dāng)目標(biāo)安全過濾器對(duì)最優(yōu)替換文本以及生成圖像均不響應(yīng),且參考安全過濾器對(duì)最優(yōu)替換文本以及生成圖像均響應(yīng)時(shí),檢測(cè)到文生圖大模型的安全漏洞;否則,未檢測(cè)到文生圖大模型的安全漏洞。
10、本發(fā)明第二方面,提供一種文生圖大模型安全漏洞檢測(cè)系統(tǒng),包括:獲取模塊,用于獲取輸入文本,并提取輸入文本中的敏感詞和關(guān)鍵詞;替換模塊,用于進(jìn)行文本替換步驟:進(jìn)行若干次詞替換步驟得到若干替換文本;其中,詞替換步驟:根據(jù)預(yù)設(shè)的基于高相似度的敏感詞替換策略獲取敏感替換詞并采用敏感替換詞替換敏感詞,并根據(jù)預(yù)設(shè)的基于低置信度的關(guān)鍵詞替換策略獲取關(guān)鍵替換詞并采用關(guān)鍵替換詞替換關(guān)鍵詞;檢測(cè)模塊,用于進(jìn)行檢測(cè)步驟:根據(jù)預(yù)設(shè)的目標(biāo)安全過濾器和參考安全過濾器從若干替換文本中選取最優(yōu)替換文本,并通過最優(yōu)替換文本對(duì)文生圖大模型進(jìn)行安全漏洞檢測(cè);其中,目標(biāo)安全過濾器為待檢測(cè)的文生圖大模型的安全過濾器;參考安全過濾器為與目標(biāo)安全過濾器交叉的安全過濾器;控制模塊,用于重復(fù)觸發(fā)替換模塊和檢測(cè)模塊至到達(dá)預(yù)設(shè)重復(fù)次數(shù),或重復(fù)至檢測(cè)到文生圖大模型的安全漏洞。
11、本發(fā)明第三方面,提供一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器以及存儲(chǔ)在所述存儲(chǔ)器中并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述文生圖大模型安全漏洞檢測(cè)方法的步驟。
12、本發(fā)明第四方面,提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述文生圖大模型安全漏洞檢測(cè)方法的步驟。
13、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
14、本發(fā)明文生圖大模型安全漏洞檢測(cè)方法,首先通過對(duì)輸入文本中各部分內(nèi)容的詞義分析,提取輸入文本中的敏感詞和關(guān)鍵詞;然后對(duì)敏感詞和關(guān)鍵詞設(shè)計(jì)并應(yīng)用不同替換方法,其中,敏感詞的替換通過基于高相似度的敏感詞替換策略實(shí)現(xiàn),減小替換對(duì)輸出內(nèi)容的影響,關(guān)鍵詞的替換通過基于低置信度的關(guān)鍵詞替換策略實(shí)現(xiàn),提升文本替換的效率,進(jìn)而提升安全漏洞檢測(cè)的效率。同時(shí),本方法采用交叉驗(yàn)證的方式,僅需一個(gè)與目標(biāo)安全過濾器交叉的參考安全過濾器即可實(shí)現(xiàn)交叉驗(yàn)證,實(shí)現(xiàn)簡(jiǎn)單,復(fù)雜度低。并且,該檢測(cè)方法對(duì)于安全過濾器的要求不高,現(xiàn)有的基于文本的安全過濾器、基于圖像的安全過濾器以及基于圖文相似度的安全過濾器均可使用本方法檢測(cè)安全漏洞。此外,通過調(diào)整交叉驗(yàn)證時(shí)使用的目標(biāo)安全過濾器和參考安全過濾器,本方法可以檢測(cè)到多種不同類型的文生圖大模型安全漏洞,對(duì)比現(xiàn)有的檢測(cè)方法可以檢測(cè)到更多種類的問題,更加全面。基于本發(fā)明文生圖大模型安全漏洞檢測(cè)方法可以有效監(jiān)測(cè)文生圖大模型的安全漏洞,進(jìn)而輔助文生圖大模型的安全修復(fù),提升文生圖大模型的安全性能,進(jìn)而提升文生圖大模型的生成圖像的安全性能。
15、進(jìn)一步的,通過對(duì)輸入文本中各部分內(nèi)容的詞義分析,考慮各部分內(nèi)容對(duì)文本內(nèi)容安全性和生成內(nèi)容安全性的綜合影響,進(jìn)而合理提取敏感詞和關(guān)鍵詞。
16、進(jìn)一步的,采用差分方法交叉驗(yàn)證生成圖像是否仍包含不安全內(nèi)容,解決了輸出內(nèi)容缺乏實(shí)時(shí)監(jiān)控,輸出內(nèi)容不安全性難以確定的難點(diǎn)。