專利名稱:一種基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及針對(duì)文本文檔進(jìn)行版權(quán)保護(hù)的信息安全領(lǐng)域,尤指一種基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)方法。
背景技術(shù):
數(shù)字水印技術(shù)的應(yīng)用范圍越來越廣,尤其是在版權(quán)保護(hù)和泄密追蹤方面的應(yīng)用越來越多,數(shù)字水印技術(shù)的研究不應(yīng)該只關(guān)注它的魯棒性、隱蔽性和嵌入容量,更應(yīng)該關(guān)注它的安全性。傳統(tǒng)的水印檢測(cè)檢測(cè)方法,檢測(cè)時(shí)檢測(cè)者或驗(yàn)證者必須出示密鑰才能檢測(cè)水印,這很可能導(dǎo)致與水印相關(guān)信息的泄露,欺騙的驗(yàn)證者會(huì)利用這些信息來攻擊水印。因此數(shù)字水印安全性的問題就顯得非常重要。數(shù)字水印的安全性不能完全依賴于算法本身。密碼學(xué)中的零知識(shí)證明思想可以為數(shù)字水印的安全性提供重要的技術(shù)保障。
零知識(shí)水印檢測(cè)技術(shù)是把密碼學(xué)上的零知識(shí)證明與數(shù)字水印技術(shù)結(jié)合起來,在對(duì)數(shù)字水印檢測(cè)的同時(shí)而不泄露水印的相關(guān)信息,使得攻擊者難以利用水印檢測(cè)時(shí)的信息來修改、偽造或移去水印,進(jìn)而提高水印的安全性。零知識(shí)水印檢測(cè)協(xié)議由密鑰生成、水印生成、水印嵌入、水印檢測(cè)這4種算法構(gòu)成。密鑰生成算法生成一對(duì)水印的嵌入和檢測(cè)密鑰。水印生成算法生成滿足一定性質(zhì)的水印數(shù)據(jù)。水印嵌入算法在水印嵌入密鑰的控制下,將水印嵌入隱藏到數(shù)字載體中。水印檢測(cè)算法在水印檢測(cè)密鑰的控制下,檢測(cè)水印是否存在。
本發(fā)明涉及水印生成算法,文本特征的特征詞條作為水印生成算法的輸入?yún)?shù)。文本特征提取方法,采用基于特征權(quán)值的方法提取特征詞條。傳統(tǒng)文本特征提取方法采用TFIDF文本權(quán)值衡量方法,主要用于特征權(quán)值的計(jì)算。TFIDF方法特征權(quán)值可以用詞條的頻率乘以逆文檔頻率來表示,即
Wik=TFXIDF
其中,TF表示詞頻,即該詞條在某一文本中的頻率,能夠表示某一個(gè)文檔的能力;IDF表示反文檔頻率,能夠表示某一類文檔的區(qū)分能力。然而TFIDF方法存在一定的問題,即TFIDF算法沒有有效的反映詞條t在不同類別中出現(xiàn)的頻率情況,進(jìn)而不能有效的反映該詞條的類與類的區(qū)分能力。因此必須要有一個(gè)新的權(quán)值來衡量詞條出現(xiàn)頻率最高的前兩個(gè)類別中的文檔數(shù)之差。這個(gè)差值越大,說明該詞條t越能夠代表出現(xiàn)頻率最高的類別的特征。水印信息生成后,需要借助于一定的文本數(shù)字水印方法把該水印嵌入文本中。目前文本水印嵌入方法有很多種,但嵌入的水印對(duì)魯棒性、抵抗格式攻擊和統(tǒng)計(jì)攻擊能力都有缺陷,需要一種新的水印嵌入方法,以提高水印的隱蔽性、魯棒性和嵌入容量。由于傳統(tǒng)的水印算法在檢測(cè)時(shí),檢測(cè)者或驗(yàn)證者必須出示密鑰才能檢測(cè)水印,這很可能導(dǎo)致與水印相關(guān)信息的泄露,欺騙的驗(yàn)證者會(huì)利用這些信息來攻擊水?。徊⑶椰F(xiàn)有的針對(duì)圖像的零知識(shí)水印檢測(cè)方案也會(huì)泄漏相關(guān)值,所以不是零知識(shí)的,不適合作為版權(quán)證明方案。
發(fā)明內(nèi)容
本發(fā)明提出一種基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)方法,在水印檢測(cè)時(shí)不暴露任何有關(guān)水印的信息且能夠檢測(cè)出水印信息來,解決數(shù)字水印技術(shù)一直存在的安全性較低的問題。為解決以上技術(shù)問題,本發(fā)明采用如下技術(shù)方案
一種基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)方法,所述方法包括文本特征提取算法、水印產(chǎn)生算法、水印嵌入方法和基于非對(duì)稱加密的零知識(shí)水印檢測(cè)協(xié)議四個(gè)部分,所述方法利用改進(jìn)的文本特征提取算法得到具有魯棒性的文本特征Lw ;LW與作者版權(quán)信息A —起進(jìn)行數(shù)字化表示,利用水印產(chǎn)生算法得到水印信息W ;水印嵌入算法把W嵌入到原始文本D 中;檢測(cè)、驗(yàn)證時(shí)采用基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)協(xié)議。
所述文本特征提取算法,文本特征提取算法利用改進(jìn)的特征加權(quán)方法計(jì)算特征權(quán)值,其公式為
W,ik=TFXIDFXCd ^ _ (E1-E2)
—
Il
其中,η表示包含詞條t的文檔數(shù),其中整個(gè)文檔庫中包含詞條t的文檔數(shù)最多的一類為E1,包含詞條t的文檔數(shù)第二多的一類為E2 ;
TF表示詞頻,即該詞條在某一文本中的頻率,能夠表示某一個(gè)文檔的能力;IDF表示反文檔頻率,能夠表示某一類文檔的區(qū)分能力;(E1-E2)表示包含詞條t文檔數(shù)最多的類別與包含詞條t文檔數(shù)第二多的類別之差。Cd越大,表示這個(gè)加權(quán)的結(jié)果值就大,因而該詞條就能很好的代表包含t最多的文檔數(shù)的類的特征,也就是說詞條t的類別特征表達(dá)能力越強(qiáng)。利用改進(jìn)后的公式能夠從文本中提取出更能代表文本特征詞條出來,即魯棒特征詞條Lw。
水印廣生算法
把作者版權(quán)信息A和提取的文本魯棒特征Lw進(jìn)行數(shù)字化表示,然后利用水印產(chǎn)生算法產(chǎn)生水印信息W,步驟如下
(O利用ASCII編碼對(duì)提取的魯棒特征Lw和作者版權(quán)信息A = {time, author. . . }進(jìn)行數(shù)字化,生成D=^1DyDi...);
(2)利用logistic混沛映射函數(shù)生成混沛序列S=IS1S2.. . Si. . . }, logistic混沛映射函數(shù)的初值為D= (D1D2. . . Di. . . },參數(shù)為μ ;
(3)利用定義的閾值T產(chǎn)生混沌序列SHS1S2.. . Si. . . }的二值化序列W=Iff1W2... Wi...},其中 Wi e [O, I],即水印信息。
水印嵌入算法采用聯(lián)合文本格式和同義詞替換的數(shù)字水印算法,在原始文本文檔的不同地方不同層次嵌入多重水印信息。
基于非對(duì)稱加密的零知識(shí)水印檢測(cè)協(xié)議所述檢測(cè)協(xié)議步驟如下
定義W :水印信號(hào),D :載體文本,Dw:水印載體,Lw:文本特征。
驗(yàn)證者和證明者之間執(zhí)行下面的協(xié)議
(4)證明者產(chǎn)生一個(gè)隨機(jī)數(shù)R,然后根據(jù)非對(duì)稱加密函數(shù)H計(jì)算H(R,W)和H(R,Lw),并且把H (R, W)、H (R, Lw)發(fā)送給驗(yàn)證者;(5)驗(yàn)證者根據(jù)擲硬幣規(guī)則選擇b=0或1,并把b的值發(fā)送給證明者;
(6)如果b=0,證明者公開非對(duì)稱加密函數(shù)H和隨機(jī)數(shù)R,驗(yàn)證者根據(jù)公開的非對(duì)稱加密函數(shù)H和隨機(jī)數(shù)R計(jì)算H(R,Dw),然后根據(jù)用:足之)^用足AJ是否成立來驗(yàn)證H(R,Lw)的值是否正確,如果不正確則停止協(xié)議;
如果b=l,證明者把(WXLw)發(fā)送給驗(yàn)證者;驗(yàn)證者根據(jù)非對(duì)稱加密算法對(duì)乘法具有同態(tài)性的原理,即H(R,Lw) XH(R, ff) =H(R1WXLw)來驗(yàn)證(WXLw)是否正確,如果不正確則停止
協(xié)議;如果正確,則驗(yàn)證者根據(jù)線性相關(guān)來計(jì)算Γ = -W,如果Τ> ε,ε為閾值,則說明水
η
印信息W和Lw相關(guān),即檢測(cè)出了水印信息;
(7)根據(jù)需要的置信度選擇迭代次數(shù)k,證明者和驗(yàn)證者重復(fù)k次執(zhí)行(4)到(6),如果每次的檢驗(yàn)都通過,驗(yàn)證者就相信證明者的聲明,認(rèn)為Dw中確實(shí)存在證明者的版權(quán)水印,如·果任何一次檢驗(yàn)失敗,則驗(yàn)證者不接受證明者的證明,認(rèn)為證明者是一個(gè)欺騙者。本發(fā)明的有益效果
(1)利用改進(jìn)的文本特征提取算法提取的文本特征降低了對(duì)特征維數(shù)的敏感度,能夠有效的提取出具有魯棒性的文本特征來,該特征能夠有效的區(qū)別于其他類別的文本;
(2)經(jīng)混沌映射函數(shù)產(chǎn)生的水印信息與原始文本具有很大的相關(guān)性,這便于水印信息的檢測(cè),可以有效防止偽造水印等攻擊;
(3 )采用聯(lián)合文本格式和同義詞替換的數(shù)字水印算法,在原始文本文檔的不同地方不同層次嵌入多重水印信息,嵌入的水印具有較強(qiáng)的隱蔽性、魯棒性和嵌入容量,且能夠抵抗格式攻擊、統(tǒng)計(jì)攻擊;
(4)文本零知識(shí)水印檢測(cè)方法利用非對(duì)稱加密算法對(duì)乘法具有同態(tài)性的原理,用來驗(yàn)證證明者和驗(yàn)證者之間傳遞數(shù)據(jù)的正確性,而又不用透露該數(shù)據(jù)的具體信息,保證了傳遞數(shù)據(jù)的安全,使得驗(yàn)證者在驗(yàn)證水印過程中所掌握的有關(guān)水印信息的知識(shí)為零;一個(gè)欺騙的證明者能夠欺騙成功的概率最大為1/2,如果雙方執(zhí)行協(xié)議k次,那么這個(gè)欺騙的證明者
成功欺騙的概率為y。
圖I為零知識(shí)水印檢測(cè)方案操作流程。圖2為水印信息生成過程示意圖。圖3為文本特征提取過程中兩種加權(quán)方法在KNN分類算法下的宏Fl值比較。
具體實(shí)施例方式下面結(jié)合附圖對(duì)本發(fā)明所提出的一種基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)方法進(jìn)行詳細(xì)說明。本實(shí)施例包括文本特征提取算法、水印產(chǎn)生算法、水印嵌入方法和基于非對(duì)稱加密的零知識(shí)水印檢測(cè)協(xié)議四個(gè)部分,所述方法各個(gè)部分的關(guān)系如圖I所示。文本魯棒特征Lw提取
測(cè)試使用的中文語料庫來自復(fù)旦大學(xué)計(jì)算機(jī)系國際數(shù)據(jù)庫中心,我們選取了其中10,000篇文檔,其中訓(xùn)練文集5,000篇,包括5個(gè)類別,每個(gè)類別1,000篇;測(cè)試集5,000篇,包括5個(gè)類別,每個(gè)類別1,000篇。宏Fl (maFl)值可以很好的衡量分類精度,計(jì)算方法如下
權(quán)利要求
1.一種基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)方法,所述方法包括文本特征提取算法、水印產(chǎn)生算法、水印嵌入方法和基于非對(duì)稱加密的零知識(shí)水印檢測(cè)協(xié)議四個(gè)部分,所述方法利用改進(jìn)的文本特征提取算法得到具有魯棒性的文本特征Lw ;LW與作者版權(quán)信息A —起進(jìn)行數(shù)字化表示,利用水印產(chǎn)生算法得到水印信息W ;水印嵌入算法把W嵌入到原始文本D中;檢測(cè)、驗(yàn)證時(shí)采用基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)協(xié)議。
2.如權(quán)利要求I所述一種基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)方法,所述方法包括文本特征提取算法,其特征在于,所述文本特征提取算法,利用改進(jìn)的特征加權(quán)方法計(jì)算特征權(quán)值,其公式為
3.如權(quán)利要求I所述一種基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)方法,所述方法包括水印產(chǎn)生算法,其特征在于,把作者版權(quán)信息A和提取的文本魯棒特征Lw進(jìn)行數(shù)字化表示,然后利用水印產(chǎn)生算法產(chǎn)生水印信息W,步驟如下 (O利用ASCII編碼對(duì)提取的魯棒特征Lw和作者版權(quán)信息A = {time, author. . . }進(jìn)行數(shù)字化,生成D=^1DyDi...); (2)利用logistic混沛映射函數(shù)生成混沛序列S=IS1S2.. . Si. . . }, logistic混沛映射函數(shù)的初值為D= (D1D2. . . Di. . . },參數(shù)為μ ; (3)利用定義的閾值T產(chǎn)生混沌序列SHS1S2.. . Si. . . }的二值化序列W=Iff1W2... Wi...},其中 Wi e [O, I],即水印信息。
4.如權(quán)利要求I所述一種基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)方法,所述方法包括水印嵌入算法,其特征在于,采用聯(lián)合文本格式和同義詞替換的數(shù)字水印算法,在原始文本文檔的不同地方不同層次嵌入多重水印信息。
5.如權(quán)利要求I所述一種基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)方法,所述方法包括基于非對(duì)稱加密的零知識(shí)水印檢測(cè)協(xié)議,其特征在于,所述檢測(cè)協(xié)議,其實(shí)現(xiàn)步驟如下 定義W :水印信號(hào),D :載體文本,Dw :水印載體,Lw :文本特征; 驗(yàn)證者和證明者之間執(zhí)行下面的協(xié)議 (4)證明者產(chǎn)生一個(gè)隨機(jī)數(shù)R,然后根據(jù)非對(duì)稱加密函數(shù)H計(jì)算H(R,W)和H(R,Lw),并且把H (R, W)、H (R, Lw)發(fā)送給驗(yàn)證者; (5)驗(yàn)證者根據(jù)擲硬幣規(guī)則選擇b=0或1,并把b的值發(fā)送給證明者; (6)如果b=0,證明者公開非對(duì)稱加密函數(shù)H和隨機(jī)數(shù)R,驗(yàn)證者根據(jù)公開的非對(duì)稱加密函數(shù)H和隨機(jī)數(shù)R計(jì)算H(R,Dw),然后根據(jù)//(A\ ) C= H(JU)'.')是否成立來驗(yàn)證H (R,Lw)的值是否正確,如果不正確則停止協(xié)議; 如果b=l,證明者把(WXLw)發(fā)送給驗(yàn)證者;驗(yàn)證者根據(jù)非對(duì)稱加密算法對(duì)乘法具有同態(tài)性的原理,即H(R,Lw) XH(R, ff) =H(R1WXLw)來驗(yàn)證(WXLw)是否正確,如果不正確則停止協(xié)議^卩果正確’則驗(yàn)證者根據(jù)線性相關(guān)來計(jì)算^^工&^^如果!'〉^ ε為閾值,則說明水 //印信息W和Lw相關(guān),即檢測(cè)出了水印信息; (7)根據(jù)需要的置信度選擇迭代次數(shù)k,證明者和驗(yàn)證者重復(fù)k次執(zhí)行(4)到(6),如果每次的檢驗(yàn)都通過,驗(yàn)證者就相信證明者的聲明,認(rèn)為Dw中確實(shí)存在證明者的版權(quán)水印,如 果任何一次檢驗(yàn)失敗,則驗(yàn)證者不接受證明者的證明,認(rèn)為證明者是一個(gè)欺騙者。
全文摘要
本發(fā)明提出了一種基于非對(duì)稱加密的文本零知識(shí)水印檢測(cè)方法,包括文本特征提取算法、水印產(chǎn)生算法、水印嵌入方法和零知識(shí)水印檢測(cè)協(xié)議四個(gè)部分。本發(fā)明改進(jìn)的文本特征提取算法提取的文本特征經(jīng)混沌映射函數(shù)產(chǎn)生的水印信息與原始文本具有很大的相關(guān)性,便于水印信息的檢測(cè),可以有效防止偽造水印攻擊。另外,利用非對(duì)稱加密算法對(duì)乘法具有同態(tài)性的原理,用來驗(yàn)證證明者和驗(yàn)證者之間傳遞數(shù)據(jù)的正確性,而又不用透露該數(shù)據(jù)的具體信息,保證了傳遞數(shù)據(jù)的安全,使得驗(yàn)證者在驗(yàn)證水印過程中所掌握的有關(guān)水印信息的知識(shí)為零。本發(fā)明為文本內(nèi)容認(rèn)證與版權(quán)保護(hù)提供了新的關(guān)鍵技術(shù)。
文檔編號(hào)G06F21/16GK102890760SQ20121042484
公開日2013年1月23日 申請(qǐng)日期2012年10月30日 優(yōu)先權(quán)日2012年10月30日
發(fā)明者付章杰, 孫星明 申請(qǐng)人:南京信息工程大學(xué)