專利名稱:在英文文本中嵌入和提取頻域水印的方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計(jì)算機(jī)文本保護(hù)技術(shù)領(lǐng)域,特別涉及在英文文本中嵌入和提取頻域水印 的方法。
背景技術(shù):
作為計(jì)算機(jī)文本保護(hù)的一種有效手段,數(shù)字水印日益成為人們研究的焦點(diǎn)。然而, 目前數(shù)字水印技術(shù)的研究大多集中在圖像、音頻、視頻數(shù)據(jù),對(duì)于文本水印的研究相對(duì) 較少。這主要是由于文本有其特殊性,對(duì)文本實(shí)施水印較為困難
(1) 文本是由內(nèi)容和格式構(gòu)成的,由于對(duì)文檔內(nèi)容的表現(xiàn)方式不同,因而文本文檔
的格式也不盡相同。文本文件的類型很多,文件格式也多種多樣,如WORD文檔(+doc)、 Web頁、純文本、PDF等。人們可以針對(duì)任何一種文件格式設(shè)計(jì)水印方案,但是卻很難 找出一種水印技術(shù)適合所有的文件格式。
(2) 各種格式的文件通??梢曰ハ噢D(zhuǎn)換,甚至可以直接抽取文件中的純文本內(nèi)容, 比如Word中的選擇性粘貼,只復(fù)制粘貼無格式文本,就會(huì)使基于格式的文本水印信息完 全丟失。更為極端的一點(diǎn),可以對(duì)文本進(jìn)行重新錄入,這樣原來嵌入在格式中的水印信 息便蕩然無存了。
(3) 多媒體對(duì)象由大量的位組成,并且許多都是不重要的,水印可以隱藏在里面。 而文本由字符組成,每個(gè)字符都有固定的編碼,沒有可以嵌入水印信息的多余空間。
(4) 多媒體對(duì)象某些部分在不引起知覺變化的條件可以刪除掉或者隨意的替換掉。 而對(duì)于文本,那怕是僅僅改變其中的一個(gè)字符,就可以使整篇文章變得晦澀難懂,甚至 所表達(dá)的意義完全相反。
由于上述原因,在多媒體水印技術(shù)已經(jīng)開始進(jìn)入到實(shí)際應(yīng)用階段的今天,文本水印 仍處在理論和實(shí)驗(yàn)階段。現(xiàn)有的文本水印技術(shù)大多是基于對(duì)文本格式作適量調(diào)整,通 過賦予文本特定的格式來嵌入水印信息,主要有行移編碼、字移編碼和特征編碼?;?于文件格式的文本水印從本質(zhì)上講,其保護(hù)的并不是人類智慧結(jié)晶的文本內(nèi)容,而是一 種出版格式。當(dāng)文件格式改變時(shí),水印信息也隨之消失了。
Jensen第一次提出一種基于同義詞替換的文本水印方法。Chiang等人也提出了針對(duì)中 文文本的基于同義詞替換的水印方法。Jensen和Chiang在文章中都提到,實(shí)現(xiàn)同義詞替換 的關(guān)鍵在于建立一個(gè)龐大的同義詞庫;但遺憾的是,他們都只是提出了單薄的理論框架, 并沒有給出算法的具體實(shí)現(xiàn)細(xì)節(jié),原因在于難以給出同義詞庫的具體實(shí)現(xiàn)。因此,前人的 研究?jī)H停留在理論和探索階段。
本申請(qǐng)人在向英文文本中嵌入和提取水印的方法這一方向上取得進(jìn)展,于2005年6月 24日申請(qǐng)并獲取了一項(xiàng)名為"一種在英文文本中嵌入和提取水印的方法"的中國(guó)專利(申
請(qǐng)?zhí)枮?00510077471.3)。該專利記載的方法的主要步驟是將一句英文文本濾去特殊字符和 空格,得到一個(gè)英文字符串后與該文本的版權(quán)人的私鑰做哈希運(yùn)算,得到的整數(shù)Z如果能 被預(yù)設(shè)的水印嵌入比例整除,則該句的下一句作為水印信息的嵌入句。再用Z對(duì)版權(quán)信息 的比特串取余,得到待嵌入的水印比特信息;用Z對(duì)水印信息句字符數(shù)取余,確實(shí)嵌入水 印比特信息的位置,使得位置相鄰的兩字母編碼大小關(guān)系代表的0或1與待嵌入的水印信息 相同。上述過程不斷循環(huán),直至文本結(jié)束。水印信息提取過程是嵌入過程的逆過程。該方 法的不足之處是難以抵御同語義變換的攻擊,有時(shí)向文本中增加或刪去一個(gè)詞,都有可能 使水印信息受到影響。
發(fā)明內(nèi)容
本發(fā)明的目的是提出一種在英文文本中嵌入和提取頻域水印的方法,以對(duì)文本進(jìn)行水印 信息的嵌入、提取和檢測(cè),最終達(dá)到對(duì)原始文本保護(hù)的目的。
本發(fā)明提出的在文本中嵌入和提取頻域水印的方法,包括水印嵌入和水印提取兩部 分,其特征在于,所述水印嵌入包括以下步驟
(1) 讀入英文文本r,
(2) 從左到右掃描該英文文本r、識(shí)別并獲取該英文文本r中的下一個(gè)形容詞或副
詞W;如果遇到該英文文本r的結(jié)束符號(hào),那么轉(zhuǎn)步驟(7),否則轉(zhuǎn)步驟(3);
G)利用腸WA^工具找出w在恥WiVW中的同義詞集合&,如果該^還沒有被 標(biāo)識(shí)為己處理,則標(biāo)識(shí)該^為已處理,同時(shí)將5;作為該英文文本r中的矢量w中的一
個(gè)維度,然后轉(zhuǎn)步驟(4),否則轉(zhuǎn)步驟(2);
(4) 利用代理詞匯表(woW-6oo。工具找出w的代理詞v^;
(5) 將wd與該英文文本版權(quán)人的私鑰信息A:進(jìn)行單向哈希運(yùn)算,得到一個(gè)長(zhǎng)整數(shù)i ; 用W除以預(yù)先設(shè)置的分組數(shù)目n,"為正整數(shù),得到的余數(shù)作為當(dāng)前&的分組號(hào)Z;
(6)將&中的每個(gè)單詞^與版權(quán)人的私鑰信息A進(jìn)行單向哈希運(yùn)算,得到一個(gè)長(zhǎng)整數(shù)Z, 用Z除以該分組數(shù)目m判斷得到的余數(shù)的奇偶性,若為奇數(shù),則將w,添入集合A;若
為偶數(shù),則將W,添入集合&;轉(zhuǎn)步驟(2);
(7) 計(jì)算英文文本r中屬于集合A的詞的個(gè)數(shù)Ci (含重復(fù)項(xiàng)),其中/=1,2,...,";
(8) 使用該個(gè)數(shù)C,作為該英文文本r的矢量VC^bC2, ...,c ;
(9) 設(shè)定與上述文本矢量VC對(duì)應(yīng)的水印矢量VM^VW,, vw2, ..., vw ,作為待嵌入的水 印信息(水印矢量vw是版權(quán)人根據(jù)版權(quán)信息設(shè)定的,以矢量的形式表現(xiàn)受保護(hù)的版權(quán)信
息,水印矢量vw的維數(shù)與英文文本r的矢量w的維數(shù)相等),水印矢量,的每一維vw,
是一個(gè)整數(shù),且當(dāng)nv,為負(fù)時(shí),vw,的絕對(duì)值不大于該英文文本r中屬于A的詞的個(gè)數(shù),
V^,為正時(shí),VW,的值不大于該英文文本r中屬于A的詞的個(gè)數(shù),其中/=1,2,...,";
(10) 復(fù)制文本r得到一個(gè)新文本^;
(11) 判斷水印矢量VW中的一個(gè)分量VWi的正負(fù),如果vw,為負(fù),那么在文本乙中 找到vw,的絕對(duì)值個(gè)數(shù)屬于集合A的詞,并將這些詞分別替換為集合A中的詞;如果vw, 為正,那么在文本7;中找到vw,個(gè)屬于集合A的詞,并將這些詞分別替換為集合A中的
詞,即將水印矢量分量vw,中的信息嵌入到文本rw中;
(12) 判斷水印矢量vvv中的所有分量是否都已嵌入完畢,如果不是,選中一個(gè)未嵌
入的分量,重復(fù)步驟(ii);如果是,則此時(shí)的文本r、,為嵌入了頻域水印信息的新文本, 并且新文本r、v的矢量vc'等于原文本r的矢量vc和水印矢量vw的和。
所述水印提取包括以下步驟
(13) 讀入英文文本7V;
(14) 從左到右掃描、識(shí)別并獲取7V中的下一個(gè)形容詞或副詞w;如果遇到英文文 本7V的結(jié)束符號(hào),那么轉(zhuǎn)步驟(19),否則轉(zhuǎn)步驟(15);
U5)利用附^/iV"工具找出w的同義詞集合&,,如果該&還沒有被標(biāo)識(shí)為已處理,
那么標(biāo)識(shí)該&,為已處理,同時(shí)轉(zhuǎn)步驟(16),否則轉(zhuǎn)步驟(14);
(16) 利用woW-6ooA:工具找出w的代理詞
(17) 將v^與版權(quán)人的私鑰信息yt進(jìn)行單向哈希運(yùn)算,得到一個(gè)長(zhǎng)整數(shù)i ;用i 除 以預(yù)先設(shè)置的分組數(shù)目m得到的余數(shù)作為當(dāng)前&的分組號(hào)/;
(18)將&中的每個(gè)單詞vv,與版權(quán)人的私鑰信息A:進(jìn)行單向哈希運(yùn)算,得到一個(gè)長(zhǎng)整數(shù) Z。用Z除以該分組數(shù)目",判斷其得到的余數(shù)的奇偶性。若為奇數(shù),則將w添入集合 A;若為偶數(shù),則將w,添入集合A;
(19) 計(jì)算7V中屬于集合A的詞的個(gè)數(shù)c,"(含重復(fù)項(xiàng)),其中/=1,2,...,&
(20) 使用該個(gè)數(shù)c,"作為該文本7V的矢量vc"^r',C2", ...,c "。
本發(fā)明的水印提取步驟還可包括對(duì)水印的檢測(cè),具體步驟為 -
(21) 用vc"減去英文文本r的矢量vc,得到的差vw'為提取出的水印矢量;
(22) 計(jì)算vw'與vw的余弦相似度,判斷相似度是否大于設(shè)定的閾值(閾值由所述 英文文本r的版權(quán)人給定,取值范圍在0和1之間;計(jì)算出來的相似度的值介于0和1
之間,相似度的值越大,表明所述英文文本7v與所述英文文本r越相似),如果余弦相 似度大于設(shè)定的閾值,則認(rèn)為所述英文文本r的版權(quán)人對(duì)于所述英文文本7V擁有版權(quán)。
本發(fā)明的特點(diǎn)及效果
(1) 本發(fā)明提出的文本水印方法是基于同義詞替換的,通過用同義詞或近義詞替換 文章中某些不太重要的詞,以達(dá)到隱藏信息的目的。通過這種方法嵌入的水印與文章內(nèi) 容密切相關(guān),可以完全抵御格式轉(zhuǎn)換攻擊。
(2) 本發(fā)明選擇替換的對(duì)象是對(duì)語義影響較小的形容詞與副詞,對(duì)文章的原意幾乎
沒有影響。對(duì)同義詞集合中待替換的詞語進(jìn)行篩選后,可以保證不會(huì)降低文章的閱讀性。
(3) 本發(fā)明首次在文本嵌入的水印具有頻域的特征,即將水印分散地隱藏在整個(gè)載
體中,因此,對(duì)單個(gè)水印信息的隨機(jī)破壞很難影響整個(gè)水印的表現(xiàn)效果,也增強(qiáng)了水印 的魯棒性,經(jīng)實(shí)驗(yàn)證明,使用本方法嵌入水印后的文本,經(jīng)受添加攻擊、變形攻擊等攻 擊方式后,提出的水印信息仍然能與原水印信息有較好的相似度。
圖1是本發(fā)明方法中水印嵌入過程的步驟框圖。 圖2是圖1、 4中的提取文本矢量過程的步驟框圖。 圖3是圖1中嵌入單維水印矢量過程的步驟框圖。 圖4是本發(fā)明方法中水印提取過程的步驟框圖。
具體實(shí)施例方式
本發(fā)明提出的一種在英文文本中嵌入和提取頻域水印的方法結(jié)合附圖及舉例說明如下
本發(fā)明提出的在文本中嵌入和提取頻域水印的方法,包括水印嵌入和水印提取兩部 分,其中嵌入水印的步驟如圖1、 2、 3所示,包括首先讀入英文文本7;然后對(duì)7進(jìn)行 矢量提取,該具體流程如圖2所示,第一步將文本7從左向右掃描,識(shí)別出并獲得它的 第一個(gè)形容詞或副詞w,利用/fe/^VW工具找出w的同義詞集合&。判斷&是否已經(jīng)做 過標(biāo)記,如果已經(jīng)做過標(biāo)記,則跳過這一詞,繼續(xù)向后識(shí)別,并重復(fù)這一步驟;如果Sw 還沒有做過標(biāo)記,則首先將&標(biāo)記為已處理,即說明該同義詞集合&已成為文本r中的
矢量VC中的一個(gè)維度,之后再利用 0^-^^找出W的代理詞Wrf,計(jì)算分組號(hào)(作為矢
量維度的下標(biāo))。具體計(jì)算方法是將M^與版權(quán)人的私鑰信息A:進(jìn)行單向哈希運(yùn)算,得到一 個(gè)長(zhǎng)整數(shù)Z后,再除以矢量的總維數(shù)n,得到的余數(shù)即為分組號(hào),記為i。算出分組號(hào)之 后,把&分成兩個(gè)成員個(gè)數(shù)相近的兩個(gè)集合A和^,作為水印嵌入的預(yù)處理。具體做法 是對(duì)于&中的每個(gè)單詞w,,將w與版權(quán)人的私鑰信息A進(jìn)行單向哈希運(yùn)算,得到一個(gè) 長(zhǎng)整數(shù)Z。用Z除以預(yù)先設(shè)置的分組數(shù)目仏"為正整數(shù),判斷余數(shù)的奇偶性。若為奇數(shù), 則將w,添入集合A;若為偶數(shù),則將w,添入集合S,。反復(fù)以上步驟直到文件結(jié)束,得到 所有的A和&,再依次統(tǒng)計(jì)r中屬于A的詞的個(gè)數(shù),記為矢量vc中維度Z的頻率c,,其 中/=1,2, ...,n。最后得到文本r的矢量vc^,C2, ...,c ,矢量提取流程結(jié)束。
提取文本r的矢量vc后,與設(shè)定好的水印矢量vw逐維相加,以嵌入水印信息,本 發(fā)明嵌入水印信息的步驟如圖3所示,包括水印矢量vw是版權(quán)人根據(jù)版權(quán)信息設(shè)定的 水印信息,以矢量的形式表現(xiàn)。水印矢量vw的維數(shù)與英文文本r的矢量vc的維數(shù)相等,
VW的每一維VW,是一個(gè)整數(shù),且有VWi為負(fù)時(shí),VM^的絕對(duì)值不大于r中屬于集合A的詞
的個(gè)數(shù),vw,為正時(shí),vw,的值不大于r中屬于集合&的詞的個(gè)數(shù),其中/=1, 2, ..., n。
復(fù)制文本r,得到一個(gè)新的文本7;,設(shè)新文本7;的文本矢量為vC'=Cl',C2',...,"',則初
始時(shí)有vc,-vc。判斷水印矢量vw的每個(gè)分量是否為正,如果VW,O,即c,+vw,<c,,,那么 找到文本7^中一個(gè)屬于集合A的詞,將其替換成集合5,中的詞,因此,c,'的值也就減小 了 1,反復(fù)這一替換過程,直到得到c,'-c,+vvv,;如果vw,X),即c,+vw,〉c,',那么找到文 本4中一個(gè)屬于集合5,的詞,將其替換成集合A中的詞,因此,c,'的值也就增大了l, 反復(fù)這一替換過程,直到得到= c,+vw"如果vw產(chǎn)0,則不做改變。其中,/=1,2,...,"。 通過這一過程,水印矢量分量vw,被嵌入到新文本矢量分量c,'中去。嵌入所有的水印矢量 分量后,生成的新的文本乙即成為嵌入水印后的文本,其矢量w'=vC+VW。也就是說新
的文本r、,中已經(jīng)嵌入了水印信息。
上述水印的嵌入過程結(jié)合圖1,圖2,圖3進(jìn)一步舉例說明如下;首先讀入英文文本
71,接語句行進(jìn)順序識(shí)別并獲得一個(gè)形容詞/副詞w (例tremendous),通過『oz"必W工具 找到該詞的同義詞集合&,(例wondrous, enormous等)。如果&,已做過標(biāo)記,則跳過該 詞繼續(xù)識(shí)別下一形容詞/副詞;如果&未做標(biāo)記,則先標(biāo)記&,利用woW-6oW工具找到 w的代理詞vt^,用M^和版權(quán)人的私鑰信息A—起做單向哈希,得到的整數(shù)Z除以總的矢 量維數(shù),余數(shù)(例如余數(shù)為5)即作為分組號(hào)i (即詞tremendous其同義詞集合的分組 號(hào)為5)。同時(shí)對(duì)&,中的每個(gè)詞w,分別與版權(quán)人的私鑰信息一起做單向哈希,得到的整數(shù) Z除以預(yù)先設(shè)置的分組數(shù)目/7,余數(shù)若為奇數(shù)則將詞vv,歸入集合A,否則歸入集合A(例, tremendous歸入山,而wondrous則歸入&)。重復(fù)上述過程,直到文本T中所有形容詞/ 副詞都被找到為止。之后,依次統(tǒng)計(jì)^中含有的r中詞的個(gè)數(shù)(重復(fù)的也計(jì)算在內(nèi)),計(jì) 為c,,綜合所有的c, (/=1,2,...,"),得到文本7的矢量^=。,02,...,"。
得到矢量w后,與設(shè)定好的水印矢量vw逐維相加。復(fù)制文本r,從而得到一個(gè)新的
文本rw。設(shè)新文本7;的文本矢量為VC,=cr,C2',...,C ',則一開始時(shí)有w'-w:。首先判斷 水印矢量第/維頻率vw,的值是否大于0。如果vm^0 (例,vw5 = -2),那么將文本乙中 一個(gè)屬于集合a的詞替換成集合jS,中的詞(例,將tremendous換為wondrous,則c5'=c5-l ), 借此將c,,的數(shù)值減1 ,反復(fù)這個(gè)步驟直到c,, = c,+vw,;如果vw,>0,那么將文本Tw中一個(gè) 屬于集合的詞替換成集合A中的詞(例,將wondrous換為tremendous,則c5,=c5+l ), 借此將c,'的數(shù)值加l,反復(fù)這個(gè)步驟直到c,'二c,+vw,;如果w尸0,則不做修改,最終使得 c,'=c,+,;。其中,/=1, 2, n。按照上述過程,將矢量vc的所有維度都與對(duì)應(yīng)維度的vW 相加之后,得到新的文本乙和新的文本矢量vc',即作為嵌入水印后的文本及其文本矢量。 水印嵌入過程結(jié)束。
本發(fā)明的水印提取包括讀入嵌入水印的文本7V,對(duì)7V進(jìn)行矢量提取,其過程和 嵌入水印時(shí)相同(如圖2所示),在此不再重述,得到文本7V的矢量vc'^cr',C2", ...,c "。 該步驟還可包括對(duì)水印的檢測(cè),具體步驟如圖4所示,將新的矢量w"和原先的文本r的 矢量vc進(jìn)行減法計(jì)算vc"-VC=,,,得到的vw,就是提取出來的水印矢量。計(jì)算出vw'與
原先的水印矢量,的余弦相似度2,再與給定的閾值ct進(jìn)行比較,如果2>£7,則成功 檢測(cè)出水印,則認(rèn)為所述英文文本r的版權(quán)人對(duì)于所述英文文本7V擁有版權(quán);如果2<ct ,
則認(rèn)為沒有檢測(cè)到水印,則認(rèn)為所述英文文本r的版權(quán)人對(duì)于所述英文文本r、/不擁有版 權(quán)。
本發(fā)明中提到的附 WAW工具是由美國(guó)Princetion大學(xué)認(rèn)知實(shí)驗(yàn)室Miller等人開發(fā)研 制成功的基于心理語言學(xué)原則的機(jī)器詞典,其對(duì)同義詞的定義為"如果兩種表達(dá)方式在 語言文本中相互替代而不改變其真值,則這兩種表達(dá)就是同義的"。利用『oWAW建立同 義詞庫,可以有效地降低替換同義詞時(shí)對(duì)原文文意的改變。
本發(fā)明中提到的代理詞匯表vvoW-6ooA工具是在矢量提取之前,預(yù)先定義好的,其中 每個(gè)單詞代表一個(gè)同義/近義詞集合,稱為代理詞,是將大量同義詞分組的依據(jù)。定義該 表的過程中,必須保證所有相關(guān)聯(lián)的同義/近義詞能且僅能被一個(gè)代理詞代表,由此確保 所有相關(guān)聯(lián)的同義/近義詞被分在同一組。
權(quán)利要求
1、一種在文本中嵌入和提取頻域水印的方法,其特征在于,所述水印嵌入包括以下步驟(1)讀入英文文本T,(2)從左到右掃描該英文文本T、識(shí)別并獲取該英文文本T中的下一個(gè)形容詞或副詞w;如果遇到該英文文本T的結(jié)束符號(hào),那么轉(zhuǎn)步驟(7),否則轉(zhuǎn)步驟(3);(3)利用WordNet工具找出w在WordNet中的同義詞集合Sw,如果該Sw還沒有被標(biāo)識(shí)為已處理,則標(biāo)識(shí)該Sw為已處理,同時(shí)將Sw作為該英文文本T中的矢量vc中的一個(gè)維度,然后轉(zhuǎn)步驟(4),否則轉(zhuǎn)步驟(2);(4)利用代理詞匯表word-book工具找出w的代理詞wd;(5)將wd與該英文文本版權(quán)人的私鑰信息k進(jìn)行單向哈希運(yùn)算,得到一個(gè)長(zhǎng)整數(shù)R;用R除以預(yù)先設(shè)置的分組數(shù)目n,n為正整數(shù),得到的余數(shù)作為當(dāng)前Sw的分組號(hào)i;(6)將Sw中的每個(gè)單詞ws與版權(quán)人的私鑰信息k進(jìn)行單向哈希運(yùn)算,得到一個(gè)長(zhǎng)整數(shù)Z,用Z除以該分組數(shù)目n,判斷得到的余數(shù)的奇偶性,若為奇數(shù),則將ws添入集合Ai;若為偶數(shù),則將ws添入集合Bi;轉(zhuǎn)步驟(2);(7)計(jì)算英文文本T中屬于集合Ai的詞的個(gè)數(shù)ci(含重復(fù)項(xiàng)),其中i=1,2,...,n;(8)使用該個(gè)數(shù)ci作為該英文文本T的矢量vc=c1,c2,...,cn;(9)設(shè)定與上述文本矢量vc對(duì)應(yīng)的水印矢量vw=vw1,vw2,...,vwn,作為待嵌入的水印信息,水印矢量vw的每一維vwi是一個(gè)整數(shù),且當(dāng)vwi為負(fù)時(shí),vwi的絕對(duì)值不大于該英文文本T中屬于Ai的詞的個(gè)數(shù),vwi為正時(shí),vwi的值不大于該英文文本T中屬于Bi的詞的個(gè)數(shù),其中i=1,2,...,n;(10)復(fù)制文本T得到一個(gè)新文本Tw;(11)判斷水印矢量vw中的一個(gè)分量vwi的正負(fù),如果vwi為負(fù),那么在文本Tw中找到vwi的絕對(duì)值個(gè)數(shù)屬于集合Ai的詞,并將這些詞分別替換為集合Bi中的詞;如果vwi為正,那么在文本Tw中找到vwi個(gè)屬于集合Bi的詞,并將這些詞分別替換為集合Ai中的詞,即將水印矢量分量vwi中的信息嵌入到文本Tw中;(12)判斷水印矢量vw中的所有分量是否都已嵌入完畢,如果不是,選中一個(gè)未嵌入的分量,重復(fù)步驟(11);如果是,則此時(shí)的文本Tw為嵌入了頻域水印信息的新文本,并且新文本Tw的矢量vc’等于原文本T的矢量vc和水印矢量vw的和。所述水印提取包括以下步驟(13)讀入英文文本Tw’;(14)從左到右掃描、識(shí)別并獲取Tw’中的下一個(gè)形容詞或副詞w;如果遇到英文文本Tw’的結(jié)束符號(hào),那么轉(zhuǎn)步驟(19),否則轉(zhuǎn)步驟(15);(15)利用WordNet工具找出w的同義詞集合Sw,如果該Sw還沒有被標(biāo)識(shí)為已處理,那么標(biāo)識(shí)該Sw為已處理,同時(shí)轉(zhuǎn)步驟(16),否則轉(zhuǎn)步驟(14);(16)利用word-book工具找出w的代理詞wd;(17)將wd與版權(quán)人的私鑰信息k進(jìn)行單向哈希運(yùn)算,得到一個(gè)長(zhǎng)整數(shù)R;用R除以預(yù)先設(shè)置的分組數(shù)目n,得到的余數(shù)作為當(dāng)前Sw的分組號(hào)i;(18)將Sw中的每個(gè)單詞ws與版權(quán)人的私鑰信息k進(jìn)行單向哈希運(yùn)算,得到一個(gè)長(zhǎng)整數(shù)Z。用Z除以該分組數(shù)目n,判斷其得到的余數(shù)的奇偶性。若為奇數(shù),則將ws添入集合Ai;若為偶數(shù),則將ws添入集合Bi;(19)計(jì)算Tw’中屬于集合Ai的詞的個(gè)數(shù)ci”(含重復(fù)項(xiàng)),其中i=1,2,...,n;(20)使用該個(gè)數(shù)ci”作為該文本Tw’的矢量vc”=c1”,c2”,...,cn”。
2、如權(quán)利要求1所述的方法,其特征在于,所述的水印提取步驟還包括對(duì)水印的檢測(cè),具體步驟為(21) 用VC"減去英文文本r的矢量VC,得到的差VW'為提取出的水印矢量;(22) 計(jì)算vw'與vw的余弦相似度,判斷相似度是否大于設(shè)定的閾值,如果余弦相似度大于設(shè)定的閾值,則認(rèn)為所述英文文本r的版權(quán)人對(duì)于所述英文文本7V擁有版權(quán)。
全文摘要
本發(fā)明涉及在英文文本中嵌入和提取頻域水印的方法,屬于計(jì)算機(jī)文本保護(hù)技術(shù)領(lǐng)域。包括從英文文本T中獲取下一個(gè)形容詞或副詞w;找出w中的同義詞集合S<sub>w</sub>,作為T中的矢量vc中的一個(gè)維度;找出w的代理詞w<sub>d</sub>;與該文本版權(quán)人的私鑰信息k進(jìn)行單向哈希運(yùn)算,得到一個(gè)長(zhǎng)整數(shù)R;用R除以預(yù)先設(shè)置的分組數(shù)目n,n為正整數(shù),得到當(dāng)前S<sub>w</sub>的分組號(hào)i;將S<sub>w</sub>中的每個(gè)單詞w<sub>s</sub>與k進(jìn)行單向哈希運(yùn)算,判斷得到的余數(shù)的奇偶性,分別添入集合A<sub>i</sub>和集合B<sub>i</sub>;使用A<sub>i</sub>的詞的個(gè)數(shù)c<sub>i</sub>作為該英文文本T的矢量vc;設(shè)定與上述文本矢量vc對(duì)應(yīng)的水印矢量vw,作為待嵌入(提取)的水印信息。還包括嵌入和檢測(cè)水印步驟。以對(duì)原始文本的保護(hù)。
文檔編號(hào)G06F17/28GK101169779SQ20071017842
公開日2008年4月30日 申請(qǐng)日期2007年11月30日 優(yōu)先權(quán)日2007年11月30日
發(fā)明者李德毅, 楊建龍, 王建民, 王朝坤 申請(qǐng)人:清華大學(xué)