技術(shù)特征:
技術(shù)總結(jié)
本發(fā)明涉及一種識別PDF文件中水印的方法。步驟1:提取PDF文字、位圖元素內(nèi)容及位置信息,根據(jù)位置計算指紋并計數(shù);指紋是從內(nèi)容中(此處即是位置)提取的關(guān)鍵信息,可以代表所指向的內(nèi)容,相同指紋可以統(tǒng)計出現(xiàn)次;步驟2:篩選(計數(shù)>頁數(shù)/2)的指紋集合,查找相應(yīng)指紋位置的元素;步驟3:遍歷備選指紋,如果指紋對應(yīng)的都是文字元素,則進行步驟4處理;對應(yīng)均為位圖元素則進入步驟5;步驟4:提取該指紋對應(yīng)的文字,如果相同或滿足遞增、遞減規(guī)律則判定為文字水?。徊襟E5:提取指紋對應(yīng)的位圖,如果相同則判定為圖片水印。在上述處理框架中,本發(fā)明還闡述了位置指紋生成方法,文字內(nèi)容規(guī)律判斷方法及相同圖片判斷方法等實施細節(jié),綜合提高PDF文檔水印的識別率,為提取、分析內(nèi)容等后續(xù)處理做準備。
技術(shù)研發(fā)人員:常誠;何黎剛;陳浩
受保護的技術(shù)使用者:常誠;何黎剛;陳浩
技術(shù)研發(fā)日:2017.04.11
技術(shù)公布日:2017.09.22