本發(fā)明涉及打印文件的源機(jī)認(rèn)定
技術(shù)領(lǐng)域:
,尤其涉及基于紋理特征的打印文件鑒別方法,目的是實(shí)現(xiàn)兩份打印文件的一對一鑒別。
背景技術(shù):
:由于每臺打印機(jī)在生產(chǎn)時(shí)的參數(shù)配置和使用中的損耗情況都是獨(dú)一無二的,因此打印出的文件也都不相同,這也是打印文件可區(qū)分鑒定的客觀基礎(chǔ),所謂打印文件鑒別就是鑒定兩份打印文件是否來自同一打印機(jī)的技術(shù)。隨著計(jì)算機(jī)和打印機(jī)的普及,打印文件也逐漸取代手寫文件成為承載信息的主要媒介,與此同時(shí),有關(guān)打印文件篡改、偽造等犯罪行為也日益增多,因此打印文件鑒別的相關(guān)研究領(lǐng)域成為文件檢驗(yàn)領(lǐng)域的熱點(diǎn)和難點(diǎn)。在兩份打印文件在相同字符較多的情況容易鑒別,當(dāng)打印文件內(nèi)容少、相同字符少時(shí),有效的鑒別方法不多。本發(fā)明提出了一種基于字符紋理區(qū)域分割的打印文件鑒別方法,以解決在沒有相同字符匹配或者相同字符很少的情況下打印文件的鑒別難題。技術(shù)實(shí)現(xiàn)要素:為解決兩份打印文件相同字符較少情況下鑒別難題,本發(fā)明利用字符紋理區(qū)域分割的方法,提取與字符結(jié)構(gòu)無關(guān)的紋理特征。打印文件圖像的紋理信息承載了其打印機(jī)的特性,可利用紋理特征鑒別兩份打印文件是否來自同一打印機(jī)。本發(fā)明采用如下技術(shù)方案為,基于字符紋理區(qū)域分割的打印文件鑒別方法,包括如下步驟:(1)利用圖像整體高倍放大掃描系統(tǒng)采集打印文件的單個(gè)字符紋理圖像;(2)通過聚類方法將字符紋理圖像分割為三個(gè)區(qū)域:字符內(nèi)部、字符邊緣和字符外部,具體實(shí)現(xiàn)方式如下;步驟2.1,對整體放大后的打印文件圖像進(jìn)行中值濾波;步驟2.2,將中值濾波后的圖像的每一個(gè)像素點(diǎn)的灰度值作為樣本x,進(jìn)行k‐means聚類時(shí)選擇類別數(shù)目k=3,使每個(gè)集合中的類內(nèi)平方和最小,即找到滿足下式的聚類si:其中μi是集合si中所有點(diǎn)的均值,μ1、μ2、μ3分別表示字符內(nèi)部均值、字符邊緣均值和字符外部均值;根據(jù)聚類結(jié)果對字符紋理圖像的像素點(diǎn)進(jìn)行標(biāo)識,得到字符紋理區(qū)域分割標(biāo)識圖;(3)分別對步驟(2)中不同區(qū)域計(jì)算其旋轉(zhuǎn)不變等價(jià)模式的lbp,利用歸一化處理之后的lbp直方圖作為統(tǒng)計(jì)特征,并將不同區(qū)域的特征進(jìn)行組合疊加;(4)以一份打印文件的所有字符紋理圖像的區(qū)域分割后提取的lbp直方圖特征均值作為該打印文件所屬打印機(jī)的鑒別特征;(5)根據(jù)兩份打印文件所屬打印機(jī)的鑒別特征距離,判別兩份打印文件是否來自同一臺打印機(jī)。進(jìn)一步,步驟(3)中所述旋轉(zhuǎn)不變等價(jià)模式的lbp計(jì)算方式如下,其中,riu2表示u值最大為2的旋轉(zhuǎn)不變等價(jià)模式,p表示鄰域像素點(diǎn)數(shù),r表示鄰域半徑,gi表示鄰域中第i個(gè)像素點(diǎn)的灰度值,g0表示鄰域中i=0時(shí)的像素點(diǎn)灰度值,gp-1表示鄰域中i=p-1時(shí)的像素點(diǎn)灰度值,gc表示中心點(diǎn)像素的灰度值。由于鄰域是圓形鄰域,默認(rèn)以中心點(diǎn)為坐標(biāo)原點(diǎn)構(gòu)成的極坐標(biāo)系中,0°方向上的像素點(diǎn)為i=0的像素點(diǎn)。s(x)為符號函數(shù),當(dāng)x≥0時(shí),s(x)=1;當(dāng)x<0時(shí),s(x)=0。進(jìn)一步的,步驟(5)的實(shí)現(xiàn)方式如下,首先計(jì)算兩份打印文件所屬打印機(jī)的鑒別特征距離,其中,一臺打印文件的源機(jī)特征可描述為m張圖像的特征均值feal,上式中xl為每張圖像提取的特征,由步驟(3)得到;當(dāng)距離dist小于經(jīng)驗(yàn)閾值,則判定兩份打印文件來自同一打印機(jī);否則,來自不同打印機(jī)。進(jìn)一步的,所述的經(jīng)驗(yàn)閾值采用貝葉斯估計(jì)方法獲得,具體是通過采集100臺打印機(jī)的打印文件樣本,分別計(jì)算相同打印機(jī)的打印文件間的距離分布與不同打印機(jī)的打印文件間的距離分布,以兩類錯(cuò)誤率之和最小為準(zhǔn)則,找到經(jīng)驗(yàn)閾值。與現(xiàn)有技術(shù)相比,本發(fā)明方法不需要打印文件有相同字符,提高了打印文件鑒別方法的適用范圍和準(zhǔn)確率。附圖說明圖1為本發(fā)明實(shí)施例中單個(gè)字符紋理圖像;圖2為本發(fā)明實(shí)施例中中值濾波示意圖;圖3為本發(fā)明實(shí)施例中字符紋理區(qū)域分割示意圖;圖4為本發(fā)明實(shí)施例的整體流程示意圖。具體實(shí)施方式下面結(jié)合附圖及實(shí)施例對本發(fā)明作進(jìn)一步說明。1.圖像整體高倍放大采集與字符切割。通過圖像整體高倍放大掃描系統(tǒng)得到放大150倍后的打印文件圖像,到豐富紋理信息的單個(gè)字符圖像,如圖1所示。2.字符紋理區(qū)域分割如果對單個(gè)字符圖像提取特征,那么所提取特征值必然包含了圖像的紋理和字符的形態(tài)結(jié)構(gòu)兩種信息。打印機(jī)鑒別中,圖像的紋理信息是鑒別的重要依據(jù),但由于字符形態(tài)結(jié)構(gòu)的干擾,不同的字符圖像之間的特征不能直接用于匹配分類。為消除該干擾,本發(fā)明提出利用區(qū)域分割方法,通過對不同區(qū)域提取紋理特征來消除字符的形態(tài)結(jié)構(gòu),同時(shí)保留字符圖像的紋理信息。對于基于聚類的字符紋理區(qū)域分割方法,先要對單個(gè)字符紋理圖像進(jìn)行中值濾波,以得到每一個(gè)像素點(diǎn)與其鄰域像素點(diǎn)的關(guān)系。對中值濾波后的圖像進(jìn)行聚類,采用k‐means聚類方法,設(shè)置初始均值向量為(64,128,192)t,分別對應(yīng)字符內(nèi)部、字符邊緣和字符外部。具體實(shí)現(xiàn)方式如下:1.首先,對整體放大后的打印文件圖像進(jìn)行中值濾波,中值濾波后的圖像反映了每一個(gè)像素點(diǎn)與周圍鄰域像素點(diǎn)的關(guān)系,如圖2所示;2.然后,基于k‐means方法進(jìn)行像素點(diǎn)聚類,具體為:將中值濾波后的圖像的每一個(gè)像素點(diǎn)的灰度值作為樣本x,進(jìn)行k‐means聚類時(shí)選擇類別數(shù)目k=3,使每個(gè)集合中的類內(nèi)平方和最小,即找到滿足下式的聚類si:其中μi是集合si中所有點(diǎn)的均值,μ1、μ2、μ3分別表示字符內(nèi)部均值、字符邊緣均值和字符外部均值。根據(jù)聚類結(jié)果對字符紋理圖像的像素點(diǎn)進(jìn)行標(biāo)識,得到字符紋理區(qū)域分割標(biāo)識圖,如圖3所示,其中,黑色部分標(biāo)識字符內(nèi)部,白色部分標(biāo)識字符邊緣,灰色部分標(biāo)識字符外部。最后得到一幅字符紋理區(qū)域分割標(biāo)識圖,表示原圖中的每一個(gè)像素點(diǎn)屬于哪一個(gè)區(qū)域。3.特征提取紋理特征采用計(jì)算復(fù)雜度小、具有多尺度特性和旋轉(zhuǎn)不變特性的lbp(lbp),并計(jì)算lbp的統(tǒng)計(jì)直方圖作為特征。其中l(wèi)bp的計(jì)算方式如下:其中,riu2表示u值最大為2的旋轉(zhuǎn)不變等價(jià)模式,p表示鄰域像素點(diǎn)數(shù),r表示鄰域半徑,gi表示鄰域中第i個(gè)像素點(diǎn)的灰度值,g0表示鄰域中i=0時(shí)的像素點(diǎn)灰度值,即以中心點(diǎn)為坐標(biāo)原點(diǎn)構(gòu)成的極坐標(biāo)系中0°方向上的像素點(diǎn),gp-1表示鄰域中i=p-1時(shí)的像素點(diǎn)灰度值,gc表示中心點(diǎn)像素的灰度值;s(x)為符號函數(shù),當(dāng)x≥0時(shí),s(x)=1;當(dāng)x<0時(shí),s(x)=0。最終的lbp二進(jìn)制編碼一共有p+2種模式。由于不同字符結(jié)構(gòu)的相同區(qū)域像素點(diǎn)數(shù)量不同,這會對lbp直方圖造成影響。因此,需要對lbp直方圖進(jìn)行歸一化處理,利用歸一化后的直方圖作為該區(qū)域的紋理特征。本具體實(shí)施中,每張圖像提取的特征共3×10=30個(gè),因此構(gòu)成一個(gè)30維的特征向量,每一維可記為xl,l=1,2,…,30。從區(qū)域分割到特征提取的整體流程示意圖如圖4所示。4.特征融合一臺打印文件的源機(jī)特征可描述為所有m張圖像的特征均值feal:5.分類器由公式(4)獲得打印文件的特征描述,兩份打印文件的源機(jī)之間的匹配距離定義為特征和之間的街區(qū)距離dist:采用閾值分類法對兩份打印文件的距離進(jìn)行判別,當(dāng)距離小于閾值t時(shí),判定兩份打印文件來自同一打印機(jī);否則,來自不同打印機(jī)。閾值t可采用貝葉斯估計(jì)法獲得,具體為:采集100臺打印機(jī)的打印文件樣本,分別計(jì)算相同打印機(jī)的打印文件間的距離分布以及不同打印機(jī)的打印文件間的距離分布,以兩類錯(cuò)誤率之和最小為準(zhǔn)則,找到經(jīng)驗(yàn)閾值t。6.實(shí)驗(yàn)建立10臺打印機(jī),每臺打印機(jī)400個(gè)中文字符的數(shù)據(jù)庫,其中80%字符圖像做樣本,20%字符圖像做測試。利用基于k‐means聚類的方法對字符紋理圖像進(jìn)行區(qū)域分割,然后計(jì)算它們的lbp特征。最后得到兩臺打印機(jī)之間的距離,并將其與閾值t進(jìn)行對比分類。實(shí)驗(yàn)結(jié)果用正確率、錯(cuò)誤拒絕率frr、錯(cuò)誤接受率far三個(gè)標(biāo)準(zhǔn)進(jìn)行評價(jià),如表1所示。表1一對一鑒別結(jié)果正確率錯(cuò)誤率frrfar98.89%1.11%01.11%當(dāng)前第1頁12