一種碎紙機(jī)破碎英文文檔的恢復(fù)方法
【專利摘要】本發(fā)明公開(kāi)一種碎紙機(jī)破碎英文文檔的恢復(fù)方法,具體包括圖像數(shù)字化、圖像預(yù)處理和碎片拼接三個(gè)步驟,其中,圖像預(yù)處理包括對(duì)邊界點(diǎn)利用灰度變化趨勢(shì)進(jìn)行二值化處理。本發(fā)明可以短時(shí)間內(nèi)拼接出整張英文文檔,減少了人力,提高了工作效率。
【專利說(shuō)明】一種碎紙機(jī)破碎英文文檔的恢復(fù)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像處理和信息恢復(fù)【技術(shù)領(lǐng)域】,具體涉及一種基于破碎紙片的邊緣信息和破碎文字的幾何特征的碎紙機(jī)破碎英文文檔的恢復(fù)方法。
【背景技術(shù)】
[0002]碎紙機(jī)已經(jīng)成為日常辦公時(shí)重要的一部分,很多企業(yè)、科研機(jī)構(gòu)和軍隊(duì)會(huì)出于保密的需要,使用碎紙機(jī)對(duì)重要文件、資料進(jìn)行銷毀,而在實(shí)際生活中,在許多情況下,需要將已經(jīng)破碎的文檔重新恢復(fù)。然而傳統(tǒng)上,拼接復(fù)原工作需由人工完成,準(zhǔn)確率較高,但效率很低,特別是當(dāng)碎片數(shù)量巨大,人工拼接很難在短時(shí)間內(nèi)完成任務(wù),計(jì)算機(jī)具有快速處理海量數(shù)據(jù)的能力,而通過(guò)計(jì)算機(jī)算法對(duì)破碎英文文檔進(jìn)行恢復(fù)的研究還非常少,特別是恢復(fù)既被縱切又被橫切的破碎紙片,因此,急需一種能夠有效恢復(fù)破碎英文文檔的方法。
【發(fā)明內(nèi)容】
[0003]發(fā)明目的:本發(fā)明為解決現(xiàn)有技術(shù)中存在的不足,提供一種碎紙機(jī)破碎英文文檔的恢復(fù)方法。
[0004]技術(shù)方案:一種碎紙機(jī)破碎英文文檔的恢復(fù)方法,包括以下步驟:
[0005](I)圖像數(shù)字化:使用掃描儀對(duì)紙質(zhì)英文文檔碎片進(jìn)行處理,并輸出BMP格式的原始圖像f (i,j),共有這樣的圖像P X q張,其中P指每一列碎紙片的張數(shù),q指每一行碎紙片的張數(shù);
[0006](2)圖像預(yù)處理:
[0007]步驟一、對(duì)BMP格式的圖像文件進(jìn)行預(yù)處理,提取圖像的灰度,所有處理后的每張圖像都是一個(gè)mXη的灰度矩陣,其中m指灰度矩陣的行數(shù),η指灰度矩陣的列數(shù);
[0008]步驟二、分別處理左右邊界點(diǎn);對(duì)于左邊界點(diǎn),若灰度值為255,則變?yōu)镮 ;若灰度值為0,則不變;若灰度值為O~255之間的數(shù),則根據(jù)次邊界點(diǎn)的灰度值,將灰度值變?yōu)镺或1,具體步驟為:將最左列第i行的灰度值Zli與次左列同行的灰度值Z2i進(jìn)行比較,若Zli>Z2i,則Zli=O,反之則Zli=I ;對(duì)于右邊界點(diǎn),若灰度值為255,則變?yōu)镮 ;若灰度值為0,則不變;若灰度值為O~255之間的數(shù),則根據(jù)次邊界點(diǎn)的灰度值,將灰度值變?yōu)镺或1,具體步驟為:將最右列第i行的灰度值YI i與次右列同行的灰度值Y2 i進(jìn)行比較,若YI i >Y2 i,則Yli=l,反之則Yli=O ;其中,Zli是指mXn的灰度矩陣中最左列第i行的灰度值,Z2i是指mXn的灰度矩陣中次左列第i行的灰度值,Yli是指mXn的灰度矩陣中最右列第i行的灰度值,Υ2?是指mXn的灰度矩陣中次右列第i行的灰度值;
[0009]步驟三、處理中間點(diǎn):通過(guò)設(shè)定灰度閾值將左右邊界點(diǎn)之外的其他部分進(jìn)行二值化處理,若一點(diǎn)的灰度值大于該閾值,則設(shè)定為I即為白點(diǎn),反之設(shè)定為O即為黑點(diǎn),所有處理后的每張圖像都是一個(gè)mXn的二值化矩陣,其中m指二值化矩陣的行數(shù),η指二值化矩陣的列數(shù);
[0010](3)碎片拼接:[0011]I)、提取出處于同一行的破碎紙片,52個(gè)大、小英文字母中僅有7個(gè)字母會(huì)通過(guò)的四線三格紙的中、下格分界線,將四線三格紙中的第三條線作為每張碎紙片的定位線;定位線所處的行白點(diǎn)數(shù)目較少,而定位線的下一行則幾乎全是白點(diǎn);根據(jù)這一特征,將所有紙片的二值化矩陣按行求和,記為Adi,其中Adi表示第d張紙片第i行二值化矩陣在該行求和的
值;任取一張紙片Cl1,找到其定位線所處的行h,則可以得到一個(gè)值B,
【權(quán)利要求】
1.一種碎紙機(jī)破碎英文文檔的恢復(fù)方法,其特征在于包括以下步驟: (1)圖像數(shù)字化:使用掃描儀對(duì)紙質(zhì)英文文檔碎片進(jìn)行處理,并輸出BMP格式的原始圖像f (i,j),共有這樣的圖像pX q張,其中P指每一列碎紙片的張數(shù),Q指每一行碎紙片的張數(shù); (2)圖像預(yù)處理: 步驟一、對(duì)BMP格式的圖像文件進(jìn)行預(yù)處理,提取圖像的灰度,所有處理后的每張圖像都是一個(gè)mXn的灰度矩陣,其中m指灰度矩陣的行數(shù),η指灰度矩陣的列數(shù); 步驟二、分別處理左右邊界點(diǎn);對(duì)于左邊界點(diǎn),若灰度值為255,則變?yōu)镮 ;若灰度值為O,則不變;若灰度值為O~255之間的數(shù),則根據(jù)次邊界點(diǎn)的灰度值,將灰度值變?yōu)镺或1,具體步驟為:將最左列第i行的灰度值Zli與次左列同行的灰度值Z2i進(jìn)行比較,若Zli>Z2i,則Zli=O,反之則Zli=I ;對(duì)于右邊界點(diǎn),若灰度值為255,則變?yōu)镮 ;若灰度值為0,則不變;若灰度值為O~255之間的數(shù),則根據(jù)次邊界點(diǎn)的灰度值,將灰度值變?yōu)镺或1,具體步驟為:將最右列第i行的灰度值YI i與次右列同行的灰度值Y2 i進(jìn)行比較,若YI i >Y2 i,則Yli=l,反之則Yli=O ;其中,Zli是指mXn的灰度矩陣中最左列第i行的灰度值,Z2i是指mXn的灰度矩陣中次左列第i行的灰度值,Yli是指mXn的灰度矩陣中最右列第i行的灰度值,Υ2?是指mXn的灰度矩陣中次右列第i行的灰度值; 步驟三、處理中間點(diǎn):通過(guò)設(shè)定灰度閾值將左右邊界點(diǎn)之外的其他部分進(jìn)行二值化處理,若一點(diǎn)的灰度值大于該閾值,則設(shè)定為I即為白點(diǎn),反之設(shè)定為O即為黑點(diǎn),所有處理后的每張圖像都是一個(gè)mXn的二值化矩陣,其中m指二值化矩陣的行數(shù),η指二值化矩陣的列數(shù); (3)碎片拼接: 1)、提取出處于同一行的破碎紙片,52個(gè)大、小英文字母中僅有7個(gè)字母會(huì)通過(guò)的四線三格紙的中、下格分界線,將四線`三格紙中的第三條線作為每張碎紙片的定位線;定位線所處的行白點(diǎn)數(shù)目較少,而定位線的下一行則幾乎全是白點(diǎn);根據(jù)這一特征,將所有紙片的二值化矩陣按行求和,記為Adi,其中Adi表示第d張紙片第i行二值化矩陣在該行求和的值;任取一張紙片Cl1,找到其定位線所處的行h,則可以得到一個(gè)值B:
g _ Adih+x 若第d2張紙片第r+l行二值化矩陣在該行求和的值A(chǔ)d2Mi與第r行二值化矩陣在該行求和的值^d2r之比近似等于B,則第d2張紙片的定位線在r行,即: B_W<C;fi2l±iSB + W
Ad2r 其中,W為常數(shù),根據(jù)分行的效果確定,通過(guò)本步驟可找出所有紙片的定位線所處的位置,定位線位置相同的碎紙片就處于同一行,進(jìn)而可挑出處于同一行的破碎紙片; 2)、將提取出的每一行的破碎紙片進(jìn)行縱向拼接;因?yàn)榇蛴∥臋n的四周均有留白,所以在縱向拼接之前可確定出一行的首列,即Σ ih 21 k±i = to,則說(shuō)明第h張紙片排在同行碎紙片的首列;確定首列之后其他部分的碎紙片可以通過(guò)比較兩個(gè)紙片左右兩列最邊緣列的相似程度來(lái)進(jìn)行排序,即使得ZiS1Izilt21-Yikj最小,即認(rèn)為第k2張碎紙片的最左列和第ki張碎紙片的最右列最為相似應(yīng)該拼接在一起;重復(fù)上述過(guò)程,直到拼出整行圖像;其中,Zlk2i是指第k2張碎紙片mXn的二值化矩陣中最左列第i行的值,Yiv是指第ki張碎紙片mXn的二值化矩陣中最右列第i行的值,m是碎紙片的二值化矩陣的行數(shù);3)、將上述步驟2)中已經(jīng)拼接好的P張碎紙片提出,提取出每張碎紙片最上行的二值化矩陣Slj和最下行的二值化矩陣Xli ;因?yàn)榇蛴∥臋n的四周均有留白,所以可以很容 易的確定出最上一行的碎紙片,即5T=?51iU+ = FlX<?則說(shuō)明第t1張紙片為首行;確定首行之后,其他部分的碎紙片可以通過(guò)比較兩紙片最邊緣列的相似程度來(lái)進(jìn)行排序,即使得— JTiii7I最小,即認(rèn)為第h張碎紙片的最上行和第L張碎紙片的最下行最為相似應(yīng)該拼接在一起,重復(fù)上述過(guò)程,直到拼出整張圖像;其中,nXq是指按行拼接后碎紙片的總列數(shù),是指第t2張碎紙片mXnq的二值化矩陣中最上一行第j列的值,^匕』是指第h張碎紙片mXnq的二值化矩陣中最下一行第j列的值。
【文檔編號(hào)】G06T7/00GK103700081SQ201310694779
【公開(kāi)日】2014年4月2日 申請(qǐng)日期:2013年12月17日 優(yōu)先權(quán)日:2013年12月17日
【發(fā)明者】沈亞雄, 雷浩, 楊捷 申請(qǐng)人:河海大學(xué)