一種基于信息挖掘與信息融合的打印文件鑒別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于打印機(jī)文檔的源機(jī)認(rèn)定技術(shù)領(lǐng)域,具體涉及一種基于信息挖掘與信息 融合的打印文件鑒別方法,提出打印文件鑒別的兩因子模型,通過信息挖掘與信息融合技 術(shù)實(shí)現(xiàn)兩份打印文檔的一對(duì)一鑒別。
【背景技術(shù)】
[0002] 由于每臺(tái)打印機(jī)在生產(chǎn)時(shí)的參數(shù)配置和使用中的損耗情況都是獨(dú)一無(wú)二的,因此 打印出的文檔也都不相同,這也是打印文件可區(qū)分鑒定的客觀基礎(chǔ),所謂打印文件鑒別就 是鑒定兩份打印文檔是否來(lái)自同一打印機(jī)的技術(shù)。
[0003] 隨著計(jì)算機(jī)和打印機(jī)的普及,打印文件也逐漸取代手寫文件成為承載信息的主要 媒介,與此同時(shí),有關(guān)打印文件篡改、偽造等犯罪行為也日益增多,因此越來(lái)越多的人投入 打印文件鑒別的相關(guān)研究領(lǐng)域。但到目前為止都沒有合理的模型用于描述打印文檔的字符 特征,而且目前的打印文件鑒別主要都是在兩份打印文檔有相同字的情況下才能做到,因 為在不同字符做匹配鑒別時(shí),其形態(tài)結(jié)構(gòu)的影響會(huì)覆蓋打印機(jī)特征的影響,無(wú)法獲得正確 結(jié)論;其次,為了獲得好的正確率,相同字符重復(fù)次數(shù)不能太少,因?yàn)橹貜?fù)越多其表現(xiàn)出的 打印機(jī)特性越穩(wěn)定。而以上所說(shuō)的這兩點(diǎn)在實(shí)際應(yīng)用中很難得到滿足,尤其在中文打印文 檔鑒別中更難做到。
【發(fā)明內(nèi)容】
[0004] 為了解決上述的技術(shù)問題,本發(fā)明提出了一種基于信息挖掘與信息融合的打印文 件鑒別方法,以解決在沒有相同字符匹配并且整體字符數(shù)量很少的情況下而無(wú)法進(jìn)行鑒別 的問題。
[0005] 本發(fā)明所采用的技術(shù)方案是:一種基于信息挖掘與信息融合的打印文件鑒別方 法,其特征在于,包括以下步驟:
[0006] 步驟1 :通過可將圖像高倍放大的掃描系統(tǒng),采集得到放大150倍后的文檔圖像, 然后通過字符切割得到單個(gè)字符圖像;
[0007] 步驟2 :采用經(jīng)典的灰度共生矩陣(GLCM)算法提取每幅字符圖像特征,取水平和 垂直兩個(gè)方向,分別對(duì)應(yīng)打印機(jī)的掃描和走紙方向,步長(zhǎng)各取N步,然后計(jì)算灰度共生矩陣 (GLCM)的4個(gè)統(tǒng)計(jì)特征:對(duì)比度、一致性、自相關(guān)和熵,則每幅字符圖像的特征共2XNX4 維特征;其中5 < NS 20 ;
[0008] 步驟3 :針對(duì)已知打印機(jī)的打印文檔字符圖像特征,建立并驗(yàn)證打印文檔字符圖 像鑒別的兩因子模型,所述的兩因子為紋理因子和字符因子;所述的紋理因子是打印文件 鑒別的貢獻(xiàn)因子,字符因子是打印文件鑒別的干擾因子;
[0009] 步驟4 :針對(duì)已知打印機(jī)的打印文檔字符圖像特征,挖掘出對(duì)打印文檔字符圖像 鑒別起干擾作用的字符因子;
[0010] 步驟5 :針對(duì)待鑒別的兩份打印文檔YJP ¥2的字符圖像特征,將已挖掘出的字符 因子從字符圖像特征值中分離,只留下紋理因子,對(duì)一份打印文檔所有字符圖像的紋理因 子進(jìn)行特征融合得到打印文檔的鑒別特征;
[0011] 步驟6 :計(jì)算兩份打印文檔1和Y 2之間的特征距離,通過閾值分類方法判定兩份 打印文檔是否來(lái)自同一打印機(jī)。
[0012] 作為優(yōu)選,步驟2中所述的計(jì)算灰度共生矩陣(GLCM)P(矩陣的尺寸大小為KXK, 矩陣中每一個(gè)元素表示為P(i,j))的4個(gè)統(tǒng)計(jì)特征:對(duì)比度C0N、一致性HOMO、自相關(guān)Cor 和熵Ee,其具體公式為:
【主權(quán)項(xiàng)】
1. 一種基于信息挖掘與信息融合的打印文件鑒別方法,其特征在于,包括以下步驟: 步驟1 :通過可將圖像高倍放大的掃描系統(tǒng),采集得到放大150倍后的文檔圖像,然后 通過字符切割得到單個(gè)字符圖像; 步驟2:采用經(jīng)典的灰度共生矩陣(GLCM)算法提取每幅字符圖像特征,取水平和垂 直兩個(gè)方向,分別對(duì)應(yīng)打印機(jī)的掃描和走紙方向,步長(zhǎng)各取N步,然后計(jì)算灰度共生矩陣 (GLCM)的4個(gè)統(tǒng)計(jì)特征:對(duì)比度、一致性、自相關(guān)和熵,則每幅字符圖像的特征共2XNX4 維特征;其中5 < 20 ; 步驟3 :針對(duì)已知打印機(jī)的打印文檔字符圖像特征,建立并驗(yàn)證打印文檔字符圖像鑒 別的兩因子模型,所述的兩因子為紋理因子和字符因子;所述的紋理因子是打印文件鑒別 的貢獻(xiàn)因子,字符因子是打印文件鑒別的干擾因子; 步驟4:針對(duì)已知打印機(jī)的打印文檔字符圖像特征,挖掘出對(duì)打印文檔字符圖像鑒別 起干擾作用的字符因子; 步驟5 :針對(duì)待鑒別的兩份打印文檔YJP¥2的字符圖像特征,將已挖掘出的字符因子 從字符圖像特征值中分離,只留下紋理因子,對(duì)一份打印文檔所有字符圖像的紋理因子進(jìn) 行特征融合得到打印文檔的鑒別特征; 步驟6 :計(jì)算兩份打印文檔YJPY2之間的特征距離,通過閾值分類方法判定兩份打印 文檔是否來(lái)自同一打印機(jī)。
2. 根據(jù)權(quán)利要求1所述的基于信息挖掘與信息融合的打印文件鑒別方法,其特征在 于:步驟2中所述的計(jì)算灰度共生矩陣(GLCM)P的4個(gè)統(tǒng)計(jì)特征:對(duì)比度CON、一致性HOMO、 自相關(guān)Cor和熵Ee,其具體公式為:
其中,灰度共生矩陣P的尺寸大小為KXK,矩陣中每一個(gè)元素表示為P(i,j)。
3. 根據(jù)權(quán)利要求1所述的基于信息挖掘與信息融合的打印文件鑒別方法,其特征在 于:步驟3中所述的建立打印文檔字符圖像兩因子模型,其具體過程為:記打印文檔字符圖 像的某一維特征為Xij,其中i= 1,2,…,a代表不同打印機(jī),j= 1,2,…,b代表不同字符 形態(tài),建立兩因子方差分析模型如下:
其中,y為常數(shù);ai表示打印機(jī)紋理因子對(duì)打印文檔字符圖像特征產(chǎn)生的效應(yīng);0』表 示字符因子對(duì)打印文檔字符圖像特征產(chǎn)生的效應(yīng);eu~N(0, 〇 2)表示誤差,其誤差包括 隨機(jī)噪聲與兩個(gè)因子之間的交互效應(yīng)。
4. 根據(jù)權(quán)利要求1所述的基于信息挖掘與信息融合的打印文件鑒別方法,其特征在 于:步驟3中所述的驗(yàn)證打印文檔字符圖像兩因子模型,利用的是兩因子方差分析的F檢驗(yàn) 方法。
5. 根據(jù)權(quán)利要求1所述的基于信息挖掘與信息融合的打印文件鑒別方法,其特征在 于:步驟4中所述的挖掘出對(duì)打印文檔字符圖像鑒別起干擾作用的字符因子,其具體過程 為:記yj=y+0j是待挖掘的信息,U和0j都是未知參數(shù),不能直接獲得,但yj能用以 下方式估計(jì)得到:
稱/《為字符因子的估計(jì)值,每個(gè)字符圖像特征的字符因子估計(jì)值都能由上式得到。
6. 根據(jù)權(quán)利要求5所述的基于信息挖掘與信息融合的打印文件鑒別方法,其特征在 于,步驟5中的具體實(shí)現(xiàn)過程為:
通過信息挖掘得到字符因子后,通過因子分離將其從打印文檔字符圖像特征中消除, 因子分離后的特征值記為: 將上式中的估計(jì)值々/替換為Uj=y+p」,口」恃到: 心=x"-〇 +3』) =(u + a j+ j+ e jj) - ( u + j); =a才e卟i= 1,2,...,a;j= 1,2,...,b \」的新特征值不再包含字符因子,則對(duì)一臺(tái)打印機(jī)的特征進(jìn)行融合,融合方式為求其 所有的打印文檔字符圖像的特征均值:
上式即為來(lái)自第i臺(tái)打印機(jī)的打印文檔的鑒別特征。
7. 根據(jù)權(quán)利要求1所述的基于信息挖掘與信息融合的打印文件鑒別方法,其特征在 于:步驟6中所述的判別兩份打印文檔字符圖像是否來(lái)自同一臺(tái)打印機(jī),采用鑒別特征的 歐氏距離進(jìn)行計(jì)算兩臺(tái)打印機(jī)之間的特征距離,若距離小于分類閾值e,則判定兩份打印 文檔來(lái)自同一臺(tái)打印機(jī),否則,判定兩份打印文檔來(lái)自不同打印機(jī)。
【專利摘要】本發(fā)明公開了一種基于信息挖掘與信息融合的打印文件鑒別方法,利用整體高倍放大采集打印文檔的單個(gè)字符圖像,計(jì)算每幅圖像灰度共生矩陣的四個(gè)統(tǒng)計(jì)特征,以其作為打印文件的初始鑒別特征。建立初始鑒別特征的兩因子模型,通過對(duì)常用漢字、數(shù)字和英文字母的信息挖掘,得到各自的字符因子。分離初始鑒別特征的字符因子,得到的新特征將不再受字符形態(tài)結(jié)構(gòu)的影響,因此一份打印文檔的所有字符特征都能進(jìn)行特征融合,以其所有圖像的特征均值作為打印文檔所來(lái)自的打印機(jī)的特征描述,以兩臺(tái)打印機(jī)之間的特征距離作為匹配分類的依據(jù)。本發(fā)明不需要打印機(jī)文檔之間有相同字符且字符數(shù)量不用太多,提高了打印文件鑒別方法的適用范圍和準(zhǔn)確率。
【IPC分類】G06K9-20
【公開號(hào)】CN104700106
【申請(qǐng)?zhí)枴緾N201510143717
【發(fā)明人】陳慶虎, 熊海亞
【申請(qǐng)人】武漢珞珈博研科技有限責(zé)任公司
【公開日】2015年6月10日
【申請(qǐng)日】2015年3月30日