專利名稱:一種利用頁面文檔幾何失真檢測文檔來源的打印機(jī)取證方法
技術(shù)領(lǐng)域:
本發(fā)明屬于信號與信息處理技術(shù)領(lǐng)域,涉及到檢測打印文檔的打印機(jī)來源 取證方法。
背景技術(shù):
由于打印和掃描文檔的使用越來越廣泛,與偽造文檔相關(guān)的案件越來越多。 閑此用于檢驗(yàn)文檔來源及真實(shí)性的無損被動打印機(jī)取證技術(shù)也隨之發(fā)展起來。 下面將從2002年開始陸續(xù)發(fā)表的具有代表性的文章描述如下。
John Oliver在"Use of signature analysis to discriminate digital printing technologies"文中借助于ImageXpert專業(yè)打印質(zhì)量分析軟硬件,將提取的打印 質(zhì)量特征用于打印機(jī)來源取證,具體包括線寬度、粗糙度、飛濺度、點(diǎn)圓滿 度、周長、周圍散落點(diǎn)數(shù)等特征。Purdue大學(xué)的Edward Delp團(tuán)隊(duì)提取了打印機(jī) 的條帶特征,并且Mikkilineni A. K.在"Printer identification based on graylevel co-occurrence features for security and forensic applications"文中從打印的"e"字 符圖像中提取了共生矩陣特征。Cyril Murie在"Inkjet printing discrimination based on invariant moments"文中將不變矩特征用于打印機(jī)來源取證。沈林杰在"基于 字符圖像質(zhì)量評價的打印機(jī)取證"文中通過高斯濾波提取字符圖像的隨機(jī)噪聲, 并借助圖像質(zhì)量評價方法提取其統(tǒng)計(jì)特征。Thomas Breuel在"Evaluation of Graylevel-Features for Printing Technique Classification in High-Throughput Document Management Systems"文中提出了一些基于普通紋理和邊緣描述的灰 度級特征,并給出了較詳細(xì)的實(shí)驗(yàn)結(jié)果。Farid在"Printer Profiling for Forensics
4and Ballistics"文中使用PCA方法構(gòu)建近似的打印機(jī)失真模型,根據(jù)字符圖像與 打印機(jī)失真模型的匹配程度來判斷文檔來源。
上述方法均從文檔圖像中含有墨跡的連通區(qū)域或局部字符區(qū)域中提取特 征,而這些特征大多受打印文檔的墨跡濃淡變化影響很大。在Farid—文中實(shí)驗(yàn) 了墨跡濃淡對判決結(jié)果的影響,實(shí)驗(yàn)表明,判決結(jié)果更多地取決于墨跡濃淡程 度而不是打印機(jī)個體。上述特征對墨跡濃淡變化并不穩(wěn)定,這將影響正確判決 打印文檔的打印機(jī)來源。
發(fā)明內(nèi)容
木發(fā)明要解決的技術(shù)問題是如何從打印的文本文檔中提取不受墨跡濃淡變 化影響的特征,以彌補(bǔ)上述打印機(jī)取證方法的不足。本發(fā)明旨在實(shí)現(xiàn)在時間推 移或更換硒鼓等條件造成同一臺打印機(jī)的打印文檔出現(xiàn)墨跡濃淡變化的情況 下,仍能準(zhǔn)確判斷打印文檔打印機(jī)來源的取證方法。本發(fā)明利用貞曲文檔固有 的幾何失真現(xiàn)象,采用投影變換模型對這種幾何失真進(jìn)行建模,通過理想圖像 和文檔圖像中對應(yīng)位置字符中心點(diǎn)的提取和匹配估計(jì)出投影變換模型參數(shù),并 選擇部分模型參數(shù)作為特征,然后使用支持向量機(jī)分類器對打印文檔的打印機(jī) 來源進(jìn)行準(zhǔn)確檢測和取證。字符區(qū)域的墨跡濃淡變化不會造成上述字符中心點(diǎn) 位置的改變,也不會影響到后續(xù)投影變換模型參數(shù)的估計(jì),從而實(shí)現(xiàn)上述目的。
本發(fā)明的技術(shù)方案如下 1. 打印文檔圖像的幾何失真
理想情況下,在一頁文檔中行與行之間是嚴(yán)格平行的。但實(shí)際中行斜率有 明顯的變化規(guī)律。有些打印機(jī)中, 一頁文檔的行斜率從上到下逐漸變??;而有 些則逐漸變大。這種現(xiàn)象稱為頁面文檔幾何失真現(xiàn)象。這種幾何失真現(xiàn)象將理 想的平行線變成了實(shí)際的相交線,所以可以將其建模為投影變換模型。從而該
5模型的參數(shù)中包含了可用于打印機(jī)來源認(rèn)證的固有特征。
這種幾何失真現(xiàn)象可能是由打印機(jī)內(nèi)部走紙機(jī)械裝置存在缺陷所造成的。 比如左右走紙輪的轉(zhuǎn)速及對紙張的夾緊度存在微小差異等缺陷均可能造成上訴 幾何失真現(xiàn)象。
2. 利用頁面文檔幾何失真檢測文檔來源的打印機(jī)取證方法框圖 利用頁面文檔幾何失真檢測文檔來源的打印機(jī)取證方法框圖如圖1所示。
一方面,將一頁Word文檔轉(zhuǎn)換為PDF文件,然后另存為600dpi分辨率Tif格 式的理想圖像;另一方面,將該頁Word文檔打印成紙質(zhì)文檔,然后將其掃描成 相同分辨率Tif格式的文檔圖像。
理想圖像和文檔圖像分別通過預(yù)處理過程提取特征點(diǎn)集合,兩者對應(yīng)位置 的特征點(diǎn)相匹配,構(gòu)成特征點(diǎn)對集合。使用最小二乘法和萊茵達(dá)準(zhǔn)則從特征點(diǎn) 對集合中估計(jì)出模型參數(shù),其中部分能夠代表打印機(jī)固有特征的模型參數(shù)將用 于SVM分類,從而實(shí)現(xiàn)打印機(jī)來源認(rèn)證。
3. 預(yù)處理
預(yù)處理的目的是提取理想和文檔圖像中字符中心點(diǎn)以構(gòu)成特征點(diǎn)對集合。 首先對文本文檔圖像進(jìn)行基于閾值的二值化,得到對應(yīng)的二值圖像。文本 文檔圖像包含字符墨跡區(qū)域和均勻背景區(qū)域,其灰度直方圖呈現(xiàn)明顯的雙峰, 可以選擇兩個峰值中間的谷點(diǎn)作為二值化域值。其次對于二值圖像中面積小于 某個閾值的連通區(qū)域,認(rèn)為是墨點(diǎn)飛濺產(chǎn)生的噪聲斑點(diǎn)并將其消除。在600dpi 分辨率下,判斷某連通區(qū)域是否為噪聲斑點(diǎn)的閾值可選為50個像素。對于理想 圖像,由于本身就是二值圖像,而且不含噪聲,所以這兩步可以省略。
然后對上面得到的消除噪聲的二值圖像進(jìn)行字符分割。由于本發(fā)明處理的 是由常用漢字字符組成的文檔圖像,并且頁面文檔在掃描過程中進(jìn)行了手動矯正,傾斜角度很小。所以本發(fā)明先采用行投影方法將文檔圖像的每一行分割出 來。對二值圖像矩陣取反,并對每一行求和,得到一個列向量,即為圖像矩陣 的行投影列向量。在行投影列向量中,會出現(xiàn)文本行間隙區(qū)域值很低,而文本 行內(nèi)區(qū)域值很高的特點(diǎn)??梢砸罁?jù)這一特點(diǎn)在行投影列向量中確定行的上下起 點(diǎn),實(shí)現(xiàn)對原灰度文本文檔圖像的行分割。在行投影列向量中,用于確定行邊
界的閾值可通過實(shí)驗(yàn)觀察選取,通常選為10,即略大于0即n/。同樣的道理, 針對分割出的每一行字符圖像,再采用列投影方法將每個字符分割出來。
在字符正確分割之后,可以提取字符中心點(diǎn)。字符中心點(diǎn)為二值圖像中字 符連通區(qū)域最小外接矩形的中心點(diǎn)。實(shí)際中分割出的字符圖像如圖2所示,其 中圖2(a)為從理想圖像中分割出的字符圖像,圖2(b)為從文檔圖像相應(yīng)位置分割 出的字符圖像,字符圖像中心的黑色十字斑點(diǎn)表示檢測到的字符中心點(diǎn)。將理 想和文檔圖像對應(yīng)位置字符中心點(diǎn)均匹配為特征點(diǎn)對,從而獲得特征點(diǎn)對集合。 4. 投影變換失真模型
本節(jié)將介紹超定方程組形式的投影變換失真模型。
設(shè)像素坐標(biāo)點(diǎn)^,,,凡;)代表文檔圖像中的特征點(diǎn),(x,,,^,;)代表理想圖像中與
其匹配的特征點(diǎn),即^,,,凡;)與0^,^;)構(gòu)成一對特征點(diǎn)對。將像素坐標(biāo)點(diǎn)^,,>^映 射為像素坐標(biāo)點(diǎn)(.、,^)的二維投影變換形式為
附。x'.十肌'>v +m,
x2, = "^"2^^--^ + ,
m6xh. +肌7乂, +1
< 丄 丄 (1)
力, ,,i "
氣x" +^73^, +1
其中,w。, 分別為X和^方向縮放系數(shù),w,,m3為旋轉(zhuǎn)系數(shù),柳2,5分別 為x和^方向平移系數(shù),m6,m,分別為描述x和^方向平行線畸變?yōu)橄嘟痪€程度 的系數(shù)。^和^,為x和^方向的匹配殘差,并假設(shè)(^,sf服從高斯分布僅需要4個特征點(diǎn)對就可以得到恰定方程組,求解出附。~柳7這8個參數(shù)。 但是特征點(diǎn)對集合中包含了所有字符中心點(diǎn),其個數(shù)遠(yuǎn)大于4對,若從中選擇4 個特征點(diǎn)對求解模型參數(shù),參數(shù)精度明顯會降低。為了提高模型參數(shù)估計(jì)精度, 選取特征點(diǎn)對集合中的所有特征點(diǎn)對,從而構(gòu)建超定方程組形式的失真模型。
為了使用線性最小二乘法估計(jì)模型參數(shù),將式(l)調(diào)整如卜'
、附6^,);2, +附7A力,+=附3、 +附4凡+附5 + ^
其中,假設(shè)(《,^同樣服從高斯分布^(0"22/)。將式(2)寫成矩陣形式
000
00 01
[附u ',1 附2 w附4附5附6附7〗。
(3)
》n1000—xux21
000少n1
LLLL
A,1000s一
000A 1《—A,
假設(shè)一頁文檔圖像含有M個特征點(diǎn),則得到的超定方程組形式的失真模型可
以表示如下
(4)
將上面的方程寫成簡潔的矩陣形式
6 = JM + - (5) 其中,6的尺寸為2nxl, J的尺寸為2"x8, 0的尺寸為2wl。 公式(5)所表示的投影變換失真模型可以應(yīng)用線性最小二乘法估計(jì)出最優(yōu)的 模型參數(shù)M 。
5. 投影變換失真模型的解
本節(jié)將求解超定方程組6 = + - ,得到模型參數(shù)A ,并計(jì)算各特征點(diǎn)對
8在估計(jì)模型參數(shù)^下的匹配殘差向量,然后使用萊因達(dá)準(zhǔn)則檢測匹配殘差向量 模值集合中的壞點(diǎn),并在特征點(diǎn)對集合中剔除對應(yīng)的特征點(diǎn)對,從而使模型參 數(shù)估計(jì)得更加準(zhǔn)確。
當(dāng)特征點(diǎn)數(shù)"> 4的時候,可以在最小二乘意義下求得模型參數(shù)A 。
A = argmjn|」ikf-6|| (6)
其中,A * A2 — A4 & A6 、「。通??梢酝ㄟ^下面的方法求解 該最小二乘問題
A = (7) 但是從公式(4)可知,矩陣J最后兩列元素?cái)?shù)值要遠(yuǎn)人于前六列,造成矩陣^
前幾列近似相關(guān),即矩陣J為近似奇異矩陣,同樣n」分析,矩陣^i也是近似奇
異的。近似奇異矩陣不宜直接求逆,所以公式(7)描述的解法不合適應(yīng)用在這里。
這里采用奇異值分解方法求解該最小二乘問題。
定理1.設(shè)爿eC戸、ra^(^) = r,又設(shè)i:為^(T(或等效為^^)的本征值
按從大到小沿主對角線構(gòu)成的對角陣,其中非零本征值構(gòu)成的rxr對角陣,記
為S,為S的子矩陣。則有正交陣^7eC^和KeC^,使^可分解為
51 0
0 0
(8)
其中,S:力flg(;^,L ,^), ^A,L ,^為矩陣J的奇異值,其值不為零。
定理2.設(shè)線性方程組JM:6,其中」eC^, ra威(J)二r, 按照定理1 進(jìn)行奇異值分解,則
0 0
其中,^&ag(l/A,l/A,L ,l",.),,為矩陣J的偽逆。
t/飛
(9)
工、
t(9)給出了線性映射6 = ^Af + -在最小二乘意義下最小范數(shù)的唯一解。
9在使用式(9)求得參數(shù)a之后,利用該模型計(jì)算各特征點(diǎn)對的匹配殘差向:
其中,7'為虛數(shù)標(biāo)志,《,和^,表達(dá)式如下所示
a附nX,, +附,+附, ,=".丄 .,-A,
w6xh + w7iy1; +1
附6X!,: + ^ 7乂, +1
將特征點(diǎn)對匹配殘差向量序列g(shù)("l,2,L ,"按照特征點(diǎn)在頁面文檔中的位 置表示成矩陣形式,并將該特征點(diǎn)對匹配殘差向量構(gòu)成的矩陣稱為殘差模式。
在實(shí)驗(yàn)中,較差的打印質(zhì)量可能會導(dǎo)致字符中心點(diǎn)的檢測產(chǎn)生較大偏差, 這將會使特征點(diǎn)集合中出現(xiàn)異常值。特征點(diǎn)集合中的異常值會影響投影變換模 型參數(shù)的估計(jì)精度。本發(fā)明采用萊因達(dá)準(zhǔn)則剔除異常值,以使模型參數(shù)估計(jì)得 更加精確。萊因達(dá)準(zhǔn)則具體描述如下
對于采集數(shù)據(jù)的測量列^,^,L ,a,先求得算數(shù)平均值^-(i從)i;x,及剩
余誤差V,然后再求得均方根偏差^ = 2>,2從-l廣。判別依據(jù)如下(假 設(shè)v,服從正態(tài)分布,即測量列也服從正態(tài)分布)
若IZ,-X卜3^T,則X,為粗大誤差,應(yīng)予舍棄;
若lx,-f—3c7,則《為正常數(shù)據(jù),應(yīng)予保留。
對特征點(diǎn)對匹配誤差向量模值序列|糾(/ = 1,2山,")采用萊因達(dá)準(zhǔn)則進(jìn)行粗 差剔除。若檢測出Kl為異常值,則剔除特征點(diǎn)對集合中對應(yīng)的特征點(diǎn)對h,,jO和
fe,j2,;),然后重新計(jì)算模型參數(shù)^。在剔除壞點(diǎn)的特征點(diǎn)集合基礎(chǔ)上,重新形
成最小二乘問題。
重復(fù)上述形成、求解最小二乘問題和檢測、剔除壞點(diǎn)數(shù)據(jù)的過程,直至不
10再有壞點(diǎn)數(shù)據(jù)產(chǎn)生為止,最后得到估計(jì)的模型參數(shù)A。
6. 特征選擇和SVM分類器
模型參數(shù)M中各參數(shù)代表不同的含義??紤]到打印和掃描過程中,平移和 旋轉(zhuǎn)是不可避免的,所以對應(yīng)的參數(shù)^、 w2、 m3、 /^存在隨機(jī)性,并不代表 打印機(jī)的固有特征。本發(fā)明認(rèn)為參數(shù)附。、 、附6、附7代表了打印機(jī)的固有特 征,并用其進(jìn)行打印機(jī)的來源認(rèn)證。這4維特征是從特征點(diǎn)對集合中提取的兒 何失真參數(shù),而這些集合中的特征點(diǎn)(即字符中心點(diǎn))并不會受到墨跡濃淡程 度的影響,所以這些特征對墨跡濃淡變化是穩(wěn)定的。
由于所選擇的參數(shù)特征往往不具備線性可分性,因此,本發(fā)明中的分類器 采用了支持向量機(jī)(SVM, Support Vector Machine )。 SVM的核心思想就是對最 優(yōu)分類面的推廣,即實(shí)現(xiàn)不同類別之間分類間隔的最大化。為了解決這個問題, SVM往往采用內(nèi)積函數(shù)定義的非線性變換將輸入空間轉(zhuǎn)換到高維,使得原本低 維空間中線性不可分的問題變得高維線性可分,然后在這個高維空間中求解廣 義最優(yōu)分類面。本發(fā)明采用支持向量機(jī)作為分類器,對訓(xùn)練樣本的特征進(jìn)行訓(xùn) 練以獲得每個打印機(jī)的模型和參數(shù),然后利用該模型和參數(shù),對未知來源的打 印文檔進(jìn)行打印機(jī)來源的鑒別和取證。
綜上所述,本發(fā)明對打印文檔的打印機(jī)來源進(jìn)行檢測和取證具體步驟如下
首先,理想和文檔圖像經(jīng)過預(yù)處理得到特征點(diǎn)對集合;然后,建立超定方 程組形式的失真模型;第三步,使用奇異值分解方法和萊茵達(dá)準(zhǔn)則求解方程組, 得到估計(jì)的模型參數(shù)A;最后,應(yīng)用支持向量機(jī)對部分模型參數(shù)進(jìn)行分類,實(shí) 現(xiàn)打印機(jī)來源認(rèn)證。
本發(fā)明的效果益處是
目前的打印機(jī)取證方法均從頁面文檔中含有墨跡的局部連通區(qū)域或字符區(qū)域中提取特征,而本發(fā)明從頁面文檔整體提取幾何失真特征。這種幾何失真特 征并不會受到墨跡濃淡變化影響,從而在時間推移或更換硒鼓等條件造成同一 臺打印機(jī)的打印文檔出現(xiàn)墨跡濃淡變化的情況下,仍能準(zhǔn)確的判斷打印文檔的 打印機(jī)來源。本發(fā)明解決了打印機(jī)取證方法在實(shí)際應(yīng)用中遇到的由于同一臺打 印機(jī)打印文檔的墨跡濃淡變化產(chǎn)生的判決準(zhǔn)確度降低問題,從而為司法機(jī)關(guān)和 刑偵部門檢測文檔的打印機(jī)來源提供了更可靠的工具。
本發(fā)明適用于信息安全領(lǐng)域,可以有效地對未知打印機(jī)來源的打印文檔檢 測和取證其打印機(jī)來源。
圖1是利用頁面文檔幾何失真檢測文檔來源的打印機(jī)取證方法框圖。
圖2是從理想圖像和文檔圖像對應(yīng)位置分割出的字符圖像。
圖中圖2(a)是從理想圖像中分割出的字符圖像,圖2(b)是從文檔圖像中對
應(yīng)位置分割出的字符圖像。
圖3是10臺打印機(jī)樣本投影變換模型的附4和附7參數(shù)分布圖。
圖中橫坐標(biāo)為^參數(shù)的分布范圍,縱坐標(biāo)為附7參數(shù)的分布范圍,圖例中
01 10為10臺打印機(jī)的標(biāo)號。
圖4是分別從標(biāo)號為01和05打印機(jī)采樣文檔圖像得到的殘差模式。 圖中圖4(a)從標(biāo)號為01打印機(jī)的03號樣本頁中得到,圖4(b)從標(biāo)號為
05打印機(jī)的03號樣本頁中得到。圖中橫坐標(biāo)為列數(shù),縱坐標(biāo)為行數(shù),與一頁文
檔含有34列X44行漢字字符相對應(yīng)。圖中箭頭由理想圖像字符中心點(diǎn)指向校正
后的文檔圖像字符中心點(diǎn)。
具體實(shí)施例方式
以下結(jié)合技術(shù)方案和附圖,詳細(xì)敘述本發(fā)明的具體實(shí)施方式
。實(shí)驗(yàn)中選擇了目前市場占有率較高的5種型號10臺不同的打印機(jī)作為測試
樣本。表一中列舉出了實(shí)驗(yàn)中所有的打印機(jī)型號。實(shí)驗(yàn)中一頁頁面文檔中包含
1496個(34列X44行)常用漢字字符,即特征點(diǎn)對集合中有1496個特征點(diǎn)對。 每臺打印機(jī)采樣12頁樣本。表一中各打印機(jī)采樣的文檔圖像按照本發(fā)明方法進(jìn) 行處理,每頁文檔圖像可求得其投影變換模型參數(shù)A和殘差模式。
表一 實(shí)驗(yàn)打印機(jī)型號列表
打印機(jī)型號標(biāo)號
Hp100001,03,04,06
Hp 102005,09
Hpl320n02,10
Lenovo 2312P07
Sumsang ML151008
各打印機(jī)采樣樣本圖像投影變換模型的附4和附7參數(shù)分布如圖3所示。從圖 3中可以看出,各打印機(jī)均具有較好的聚類效果,類間具有明顯的可分性。
實(shí)驗(yàn)中的SVM工具為網(wǎng)絡(luò)上公開的LIBSVM ,其下載地址為 http:〃www.csie.ntu.edu.tw/ cjlin/libsvm。將各打印機(jī)釆樣的12頁樣本平均分成兩 部分,第一部分訓(xùn)練SVM分類器,第二部分進(jìn)行測試。實(shí)驗(yàn)結(jié)果表明,10臺打 印機(jī)采樣樣本的分類正確率均為100%。
圖4給出了上述實(shí)驗(yàn)樣本中兩幅典型的殘差模式,圖4(a)由01打印機(jī)03 號樣本頁得到,圖4(b)由05打印機(jī)03號樣本頁得到。其中箭頭表示校正后文檔 圖像字符中心點(diǎn)與匹配的理想圖像字符中心點(diǎn)之間的匹配殘差向量。從圖4(a) 中可以看到,投影變換模型產(chǎn)生的殘差模式存在明顯的縱向條帶特征。而圖4(b) 在11行和38行附近存在很明顯的橫向條帶特征。通過分析各頁面文檔圖像殘 差模式的特征,也可以幫助確定頁面文檔的打印機(jī)來源。實(shí)驗(yàn)結(jié)果證明了所選投影變換模型參數(shù)在打印機(jī)來源取證中的有效性。同 時殘差模式同樣可幫助確定文檔的打印機(jī)來源。
在實(shí)際應(yīng)用中,上述實(shí)驗(yàn)過程可以根據(jù)實(shí)際情況進(jìn)行相應(yīng)改變。例如,針 對一頁或幾頁待檢測打印文檔,通常檢測人員手中沒有該打印文檔的電子版本。 檢測人員可以手動或者使用字符識別和版面恢復(fù)軟件獲得電子版文件。得到待 檢測打印文檔電子版后,可以在所懷疑的多臺打印機(jī)上進(jìn)行打印并掃描,從而 獲得訓(xùn)練分類器的樣本圖像,然后根據(jù)其訓(xùn)練的分類器對待檢測打印文檔分類。
如果恢復(fù)待檢測打印文檔電子版本存在困難,比如需要較大人力,檢測人 員也可使用與待檢測打印文檔內(nèi)容相似的電子版文件。這里相似主要指以下兩 種情況 一頁文檔打印字符在頁面整體中的相對位置和所占比例要相似,比如 只在上半頁區(qū)域存在打印字符或者在頁面的中間位置存在打印字符;字符大小、 間距、行距等這些能夠影響字符中心點(diǎn)相對位置的因素要盡量的保證相似,而 對于某個位置上具體是什么字符,不會影響到本發(fā)明方法。如果這些還存在困 難,檢測人員可以直接打印前面實(shí)驗(yàn)中滿頁均為常用漢字的樣本,通過這些文 檔同樣能夠提取出打印機(jī)幾何失真參數(shù)。待檢測文檔中的打印字符區(qū)域在整幅 頁面中所占比例越大越有利于獲取更加精確的打印機(jī)失真模型和分類準(zhǔn)確度。
目前實(shí)際的打印文檔文件檢驗(yàn)方法通常需要提供待檢測文檔同時期的打印 樣本。在本發(fā)明中,能夠提供待檢測文檔同時期打印文檔當(dāng)然會使結(jié)果更可靠。 考慮到本發(fā)明檢測結(jié)果不受墨跡濃淡程度變換影響,待檢測打印文檔和檢測時 采樣文檔可以具有一定時間間隔。更換硒鼓或者硒鼓中墨量隨使用逐漸減少均 不會對本發(fā)明檢測準(zhǔn)確性產(chǎn)生較大影響。但是如果打印機(jī)出現(xiàn)其它的一些情況, 比如,打印機(jī)機(jī)械逐漸老化、機(jī)械修理等,本發(fā)明方法將會失去檢驗(yàn)效果。
權(quán)利要求
1.一種利用頁面文檔幾何失真檢測文檔來源的打印機(jī)取證方法,其特征在于采用投影變換模型對頁面文檔幾何失真進(jìn)行建模,通過提取和匹配理想圖像和文檔圖像中對應(yīng)位置字符中心點(diǎn)構(gòu)成特征點(diǎn)對集合,利用最小二乘法和萊因達(dá)準(zhǔn)則從特征點(diǎn)對集合中估計(jì)出模型參數(shù),并選擇能夠代表打印機(jī)固有特征的模型參數(shù)作為特征,使用支持向量機(jī)作為分類器,來對打印文檔的打印機(jī)來源進(jìn)行檢測和取證。
2. 根據(jù)權(quán)利要求1所述的一種利用頁面文檔幾何失真檢測文檔來源的打印機(jī)取證方法,其特征在于采用二維投影變換模型對頁面文檔幾何失真進(jìn)行建模, 并將分式形式的投影變換模型變換成多項(xiàng)式形式,從而形成超定方程組形式的 投影變換幾何失真模型。
3. 根據(jù)權(quán)利要求1所述的一種利用頁面文檔幾何失真檢測文檔來源的打印機(jī) 取證方法,其特征在于采用奇異值分解方法求解形成的最小二乘問題,利用求 得模型參數(shù)計(jì)算各特征點(diǎn)對匹配殘差,并釆用萊茵達(dá)準(zhǔn)則依據(jù)匹配殘差模值對 特征點(diǎn)對集合進(jìn)行壞點(diǎn)數(shù)據(jù)剔除,在剔除壞點(diǎn)的特征點(diǎn)對集合基礎(chǔ)上重復(fù)形成、 求解最小二乘問題和檢測、剔除壞點(diǎn)數(shù)據(jù)的過程,直至不再有壞點(diǎn)數(shù)據(jù)產(chǎn)生為 止,最后得到估計(jì)的模型參數(shù)。
4. 根據(jù)權(quán)利要求1所述的一種利用頁面文檔幾何失真檢測文檔來源的打印機(jī) 取證方法,其特征在于選擇模型參數(shù)中x和y方向縮放系數(shù)和描述平行線畸變 為相交線程度的系數(shù)w。、 m4、 m6、附7作為提取的打印機(jī)固有特征,采用支持 向量機(jī)SVM作為分類器,對訓(xùn)練樣本的特征進(jìn)行訓(xùn)練以獲得每個打印機(jī)的模型 和參數(shù),然后利用該模型和參數(shù),對未知來源的打印文檔進(jìn)行打印機(jī)來源的鑒別和取證。
5.根據(jù)權(quán)利要求1所述的一種利用頁面文檔幾何失真檢測文檔來源的打印機(jī) 取證方法,其特征在于將文本文檔圖像二值化,消除由墨點(diǎn)飛濺產(chǎn)生的噪聲斑 點(diǎn),采用行投影和列投影的方法分割字符以獲取字符中心點(diǎn)作為特征點(diǎn),并對 理想和文檔圖像對應(yīng)位置字符中心點(diǎn)進(jìn)行匹配,從而構(gòu)成特征點(diǎn)對集合。
全文摘要
一種利用頁面文檔幾何失真檢測文檔來源的打印機(jī)取證方法,屬于信號與信息處理技術(shù)領(lǐng)域。其特征是利用頁面文檔的幾何失真現(xiàn)象,采用投影變換模型對這種幾何失真進(jìn)行建模,通過提取和匹配理想圖像和文檔圖像中對應(yīng)位置字符中心點(diǎn)構(gòu)成特征點(diǎn)對集合,利用最小二乘法從特征點(diǎn)對集合中估計(jì)出模型參數(shù),并選擇能夠代表打印機(jī)固有特征的模型參數(shù)作為特征,通過預(yù)先訓(xùn)練好的模型和參數(shù),使用支持向量機(jī)作為分類器,對未知來源的打印文檔檢測和取證其打印機(jī)來源。本發(fā)明的效果和益處是通過已有的數(shù)據(jù)模型和待取證的打印文檔,對該文檔的打印機(jī)來源進(jìn)行準(zhǔn)確的鑒別和取證。本發(fā)明適合于信息安全領(lǐng)域。
文檔編號G06K9/00GK101587540SQ20091001119
公開日2009年11月25日 申請日期2009年4月16日 優(yōu)先權(quán)日2009年4月16日
發(fā)明者吳玉寶, 孔祥維 申請人:大連理工大學(xué)