專利名稱::利用文字形體特征攜帶水印信息的文本數(shù)字水印技術(shù)的制作方法
技術(shù)領(lǐng)域:
:本發(fā)明屬于通信與信息工程領(lǐng)域,具體涉及數(shù)據(jù)的編碼與加碼、數(shù)字水印技術(shù),聚焦于解決國(guó)內(nèi)網(wǎng)絡(luò)小說VIP章節(jié)反盜版的技術(shù)問題
背景技術(shù):
:隨著網(wǎng)絡(luò)生活的普及,電子出版的商業(yè)模式得到商家和用戶的青睞,特別是以起點(diǎn)為代表的國(guó)內(nèi)小說網(wǎng)站的興起,讀者可以通過網(wǎng)絡(luò)用低廉的價(jià)格訂閱小說中的單篇(即VIP章節(jié)),不用整本地購(gòu)買,而作者可以通過網(wǎng)絡(luò)寫作獲得,小說網(wǎng)站可以獲得分成,這是一個(gè)三贏的商業(yè)模式。不過一些小網(wǎng)站,利用已經(jīng)注冊(cè)的VIP帳號(hào),看完了VIP章節(jié)之后把截圖下來(lái),放到自己網(wǎng)站去,獲得流量賣廣告獲得收益。這種做法等于寄生在以起點(diǎn)為代表的正規(guī)大型小說網(wǎng)站,助長(zhǎng)了盜版風(fēng)氣,嚴(yán)重影響正規(guī)大型小說網(wǎng)站的營(yíng)運(yùn)。傳統(tǒng)的數(shù)字水印技術(shù)和理論面對(duì)這些一種現(xiàn)實(shí)的盜版行為,保護(hù)力度顯得蒼白無(wú)力。大體有兩大類的保護(hù)方法一是把要保護(hù)的小說文章制作成圖片,利用圖像數(shù)字水印技術(shù),如底紋加密和在圖像內(nèi)添加隱藏信息,二是在被保護(hù)文章被制作成圖片前利用文本水印技術(shù)。代表文章"二值文本數(shù)字水印技術(shù)的研究與仿真"(系統(tǒng)仿真學(xué)報(bào),作者王惠琴,李人厚)和"基于文本內(nèi)容的數(shù)字水印算法的設(shè)計(jì)與實(shí)現(xiàn)"(計(jì)算機(jī)工程與設(shè)計(jì),作者舒后,楊潮,何薇,杜娟)?,F(xiàn)在網(wǎng)絡(luò)小說網(wǎng)站基本上是綜合這兩大類保護(hù)辦法來(lái)實(shí)現(xiàn)反盜版技術(shù)。通過分析之前網(wǎng)絡(luò)小說VIP章節(jié)的防盜版技術(shù)以及相關(guān)的數(shù)字水印技術(shù),發(fā)現(xiàn)被保護(hù)的內(nèi)容和防盜版的內(nèi)容之間是"分開"的,即去除了防盜版的內(nèi)容,剩下的就是被保護(hù)的內(nèi)容。只要在網(wǎng)絡(luò)小說VIP章節(jié)的圖像上找到兩種內(nèi)容的區(qū)分條件,去除掉防盜版的內(nèi)容,盜版者可以和正版用戶一樣閱讀作品。被保護(hù)的內(nèi)容和防盜版的內(nèi)容之間的"分開"具體體現(xiàn)為兩個(gè)方面第一個(gè)方面比較直觀,就是被保護(hù)的內(nèi)容圖像和防盜版的編碼內(nèi)容圖像是分開的。比如在VIP章節(jié)圖像中添加可視的編碼底紋,或者添加肉眼識(shí)別不出的色彩編碼組合點(diǎn)等。因?yàn)楸Wo(hù)內(nèi)容——文檔文字比較簡(jiǎn)單,文檔文字與背景兩者的圖像顏色可以認(rèn)為是二值圖像,防盜版的編碼內(nèi)容圖像顏色實(shí)質(zhì)是第三值,它可以接近或等于背景顏色,但絕對(duì)不能,或者不能大面積接近和等于文檔文字顏色,不然文檔會(huì)變成不可讀,那么因?yàn)槲臋n文字顏色與編碼內(nèi)容圖像顏色之間存在距離,所以就存在分開兩者的技術(shù)手段;第二個(gè)方面比較抽象點(diǎn),就是被保護(hù)的內(nèi)容圖像的閱讀和防盜版的編碼內(nèi)容圖像的閱讀是分開的。把讀者閱讀小說抽象成一個(gè)簡(jiǎn)單模型"看到文字的形一〉識(shí)別文字意思",讀者閱讀小說簡(jiǎn)單說就是重復(fù)前面那個(gè)模型,并把識(shí)別的文字意思連貫起來(lái)形成想象。前面說的被保護(hù)的內(nèi)容圖像的閱讀就是"看到文字的形一〉識(shí)別文字意思"這個(gè)模型。傳統(tǒng)數(shù)字水印技術(shù)中有一些是利用段落間距、字間距、文字的拓?fù)浣Y(jié)構(gòu)或者空格等一些與前面模型無(wú)關(guān)文檔元素來(lái)編碼,簡(jiǎn)單抽象防盜版的編碼內(nèi)容圖像的閱讀模型是"看到非文字的形的顯示圖像》識(shí)別編碼信息"。因?yàn)閮蓚€(gè)模型存在"距離",那么也就存在分開兩者的技術(shù)手段。除了上面兩大類保護(hù)辦法外,還有一些小手段,如起點(diǎn)最近采用了在不重要段落、不顯眼段落添加有意義的字句,這個(gè)大概上可以歸入第二類保護(hù)辦法,不過這個(gè)辦法很容易被察覺,不是長(zhǎng)久的辦法。另外還有是基于內(nèi)容的文本數(shù)字水印技術(shù),不過還沒有成熟的基于內(nèi)容嵌入數(shù)字水印的解決方案,只有一些簡(jiǎn)化方案,如利用漢字的同義字或者同音字,但存在攜帶信息小和容易被識(shí)破的缺點(diǎn)。
發(fā)明內(nèi)容本發(fā)明要解決的技術(shù)問題是在不太影響閱讀習(xí)慣的前提下,保存網(wǎng)絡(luò)小說VIP章節(jié)中的編碼信息,當(dāng)被保護(hù)的網(wǎng)絡(luò)小說VIP章節(jié)被截圖后非法分享時(shí),能夠從盜版圖片中讀出編碼信息,從而識(shí)別泄露電子出版物的用戶,達(dá)到阻止盜版泛濫。針對(duì)以前技術(shù)的不足,本發(fā)明提出一個(gè)解決方案,在不太影響閱讀習(xí)慣的前提下,把被保護(hù)的內(nèi)容和防盜版的內(nèi)容緊密聯(lián)系在一起,使到盜版者很難在在網(wǎng)絡(luò)小說VIP章節(jié)的圖像上把兩者分割。這個(gè)解決方案即為利用文字形體特征攜帶水印信息的文本數(shù)字水印技術(shù)。因?yàn)楸景l(fā)明是聚焦于解決網(wǎng)絡(luò)小說VIP章節(jié)反盜版,特別是國(guó)內(nèi)的技術(shù)問題,加上本發(fā)明涉及文字形體,所以下面根據(jù)漢字的特性來(lái)設(shè)計(jì)和說明解決方案。基本原理是通過適當(dāng)?shù)剡x擇文字的幾種形體,并對(duì)文字的形體特征進(jìn)行編碼,利用文字的形體變化來(lái)攜帶數(shù)字水印信息。漢字的形體包括字體和字形兩個(gè)方面。漢字的形體變化十分豐富。同一個(gè)漢字可以書寫成隸、楷、行、草等不同字體,同一種字形有印刷體與手寫體之分印刷體有不同字號(hào),手寫體風(fēng)格又因人而異。另外,雖然漢字是方塊字,但印刷和書寫中又有長(zhǎng)體、扁體、斜體等不同風(fēng)格??梢?,漢字的形體具有一定的自由度。漢字的形體是漢字的一個(gè)方面,具體說是漢字的顯示方面,而小說中的文字(漢字)所要傳達(dá)給讀者是漢字的意思方面,讀者閱讀過程簡(jiǎn)單說就是通過看到漢字的顯示,接受到漢字的意思,連續(xù)起來(lái),從而形成整體意思。把漢字顯示的不同方式賦予特定意思,若干個(gè)漢字的顯示方式組合可以代表一個(gè)對(duì)應(yīng)用戶帳戶的序列號(hào),這樣就把序列號(hào)用漢字的形體變化編碼進(jìn)了文章內(nèi),再把文章變成圖片形式,那么被保護(hù)的內(nèi)容圖像和防盜版的編碼內(nèi)容圖像是一樣的,都是漢字的顯示方式;而且被保護(hù)的內(nèi)容圖像的閱讀和防盜版的編碼內(nèi)容圖像的閱讀也是一樣,兩者閱讀的對(duì)象都是漢字的顯示方面,不同的是前者從漢字的顯示方面獲得該漢字的意思,后者是從漢字的顯示方式組合獲得編碼信息。盜版者在沒有圖像識(shí)別出文章文字前,沒法消除掉漢字的形體變化,也等于無(wú)法去掉編碼,那么就意味著盜版者在散布出文章圖像的時(shí)候,也將暴露出自己的用戶帳戶。文字形體編碼形成的文章圖像自身對(duì)OCR(文字圖像識(shí)別技術(shù))有一定的干擾性,附圖的圖1是用TORD自帶的字體庫(kù)來(lái)文字形體編碼,用Office自帶的工具Doc咖entImaging程序OCR識(shí)別文字正確率不到70%。至于影響閱讀的程度問題,可以從附圖的圖1(示范文檔)很直觀地看到,用文字形體編碼后的文章在閱讀性方面沒有太大影響,這有賴于漢字是平面文字,漢字由一個(gè)或以上的字根以二維方式(歐語(yǔ)系是一維文字)在特定的空間、配置在一個(gè)正方塊內(nèi)而組成。漢字產(chǎn)生的這種視象重在讓讀者去做圖像感受,這樣培養(yǎng)了使用漢字的人群具備較強(qiáng)的形象感受能力。所以在文章中,漢字形體的變化對(duì)于使用漢字的人群來(lái)說,并不太影響閱讀。與類似的技術(shù)方案做比較。"基于字符拓?fù)浣Y(jié)構(gòu)的文本數(shù)字水印技術(shù)",(小型微型計(jì)算機(jī)系統(tǒng),作者和發(fā)明人劉東)已申請(qǐng)專利,專利號(hào)200410040853.4。(利用字符的字形特征攜帶水印信息的文本數(shù)字水印技術(shù))雖然上述專利,作者使用了"字形"這個(gè)名詞,但是他實(shí)質(zhì)的意思是指字符的拓?fù)浣Y(jié)構(gòu),在他后期的論文中(即"基于字符拓?fù)浣Y(jié)構(gòu)的文本數(shù)字水印技術(shù)")就用字符拓?fù)浣Y(jié)構(gòu)代替"字形"。而且在專利的權(quán)利要求文中的權(quán)利要求l提到"一種要與攜帶數(shù)字水印信息的將同以字符(串)設(shè)計(jì)成多種字形的方法,其特征是通過改變組成字符(串)的各筆劃之間的連斷關(guān)系來(lái)改變字符(串)的拓?fù)浣Y(jié)構(gòu),從而得到語(yǔ)義上相同的同一字符(串)的多種字符(串)外形。";和在專利的說明文中提到"本發(fā)明的基本原理在于變組成字符(串)的各筆劃之間的連斷關(guān)系,設(shè)計(jì)出語(yǔ)義上相同的同一字符(串)的多種字符(串)外形、、、"。兩處都可以看出,專利人的發(fā)明是基于字符拓?fù)浣Y(jié)構(gòu)的文本數(shù)字水印技術(shù)。該技術(shù)解決方案與本發(fā)明不同在于前者利用文字的拓?fù)浣Y(jié)構(gòu)編碼,后者利用文字的形體編碼;如前面說明的,前者的技術(shù)解決方案實(shí)施后,被保護(hù)的內(nèi)容圖像的閱讀和防盜版的編碼內(nèi)容圖像的閱讀是分開的,后者的技術(shù)解決方案實(shí)施后,被保護(hù)的內(nèi)容圖像的閱讀和防盜版的編碼內(nèi)容圖像的閱讀是一致的圖1為實(shí)現(xiàn)文字形體編碼的示范文檔截圖;圖2為文字形體編碼流程圖具體實(shí)施例方式用漢字的2至3種形體代表1和0,例如附圖1展示的實(shí)現(xiàn)結(jié)果,就是用漢字的宋體、正體、四號(hào)字代表0,用漢字的宋體、斜體、小三號(hào)字代表l,"一"字比較特殊,代表0的文字形體和前面一樣,不過代表1的文字形體,用漢字的華文行楷、正體、小二字。把要保護(hù)的文章的所有漢字隨機(jī)使用形體編碼中1和0對(duì)應(yīng)的形體格式,形成隨機(jī)擾亂,為序列號(hào)編碼進(jìn)文章做保護(hù)。若干個(gè)1和0組成一個(gè)序列號(hào),把序列號(hào)以若干位數(shù)為單位分成若干組,根據(jù)一組若干位數(shù)的1和0對(duì)應(yīng)的形體格式重新調(diào)整文章隨機(jī)位置上連續(xù)若干漢字,實(shí)現(xiàn)把序列號(hào)編碼到文章中。附圖1展示的實(shí)現(xiàn)結(jié)果就是以四位數(shù)為單位,分成5組,總共20位數(shù),可以識(shí)別2的20次方的用戶。根據(jù)每一組四位數(shù)的1和0對(duì)應(yīng)的形體格式重新調(diào)整文章隨機(jī)位置上連續(xù)四個(gè)漢字,每組代碼各在文章不同地方編碼三次,形成冗余保護(hù)。當(dāng)電子出版物被盜版(特指圖像截屏)的時(shí)候,可以通過從文章特定位置形體的不同,讀出序列號(hào),從而確定哪個(gè)購(gòu)買者非法泄露該電子出版物。附圖l展示的實(shí)現(xiàn)結(jié)果是一篇把序列號(hào)"D439A"用文字形體編碼的方式嵌入文章的一部分,下面表格是編碼的對(duì)應(yīng)關(guān)系。<table>tableseeoriginaldocumentpage8</column></row><table>權(quán)利要求1、一種通過文字的形體編碼來(lái)攜帶數(shù)字水印信息的方法,其特征是通過適當(dāng)?shù)剡x擇文字的幾種形體,并對(duì)文字的形體特征進(jìn)行編碼,利用文字的形體變化來(lái)攜帶數(shù)字水印信息。全文摘要一種利用文字形體特征攜帶水印信息的文本數(shù)字水印技術(shù)。本發(fā)明要解決的技術(shù)問題是在不太影響閱讀習(xí)慣的前提下,把被保護(hù)的內(nèi)容和防盜版的內(nèi)容緊密聯(lián)系在一起,使到盜版者很難在電子出版物的圖像上把兩者分割,保存電子出版物中的編碼信息,從而識(shí)別泄露電子出版物的用戶,達(dá)到阻止盜版泛濫。具體是通過利用漢字的幾種形體來(lái)代表1和0,把可以識(shí)別用戶的序列號(hào)用形體的變化編碼到文章隨機(jī)位置。文檔編號(hào)G06F21/00GK101593247SQ20081002847公開日2009年12月2日申請(qǐng)日期2008年6月1日優(yōu)先權(quán)日2008年6月1日發(fā)明者烽朱申請(qǐng)人:烽朱