基于英文文字特征的碎紙機(jī)破碎文檔復(fù)原方法
【專利摘要】本發(fā)明公開了基于英文文字特征的碎紙機(jī)破碎文檔復(fù)原方法,屬于圖像處理的【技術(shù)領(lǐng)域】。文檔復(fù)原方法包括圖像數(shù)字化、圖像預(yù)處理、圖像聚類和圖像拼接四個步驟。圖像預(yù)處理是指運(yùn)用matlab軟件導(dǎo)入每張碎紙片,生成對應(yīng)于每張碎紙片的灰度矩陣以及對灰度矩陣進(jìn)行二值化處理,并生成二值序列;圖像聚類步驟是指根據(jù)英文文字特征,對二值序列進(jìn)行渲染,并根據(jù)渲染結(jié)果對原始圖像進(jìn)行聚類;圖像拼接步驟是指根據(jù)聚類結(jié)果,基于最小累積邊緣距離原則,對原始圖像進(jìn)行縱向拼接,再對縱向拼接之后的結(jié)果進(jìn)行橫向拼接。本發(fā)明解決了被碎紙機(jī)破碎后的英文文檔的復(fù)原問題,填補(bǔ)了現(xiàn)有技術(shù)的空白,同時,通過聚類,使拼接效率得以大大提高。
【專利說明】基于英文文字特征的碎紙機(jī)破碎文檔復(fù)原方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及基于英文文字特征的碎紙機(jī)破碎文檔復(fù)原方法,屬于圖像處理學(xué)中的文檔復(fù)原【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]破碎文件的拼接在司法物證復(fù)原、歷史文獻(xiàn)修復(fù)以及軍事情報獲取等領(lǐng)域都有著重要的應(yīng)用。傳統(tǒng)上,拼接復(fù)原工作需由人工完成,準(zhǔn)確率較高,但效率很低,特別是當(dāng)碎片數(shù)量巨大,人工拼接很難在短時間內(nèi)完成任務(wù)。隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們試圖開發(fā)碎紙片的自動拼接技術(shù),以提高拼接復(fù)原效率,一個優(yōu)秀的方法應(yīng)該是不需要人工干預(yù)的,并能拼接出同一類破碎紙片。它是通過掃描和圖像技術(shù)獲取相關(guān)信息,然后利用計(jì)算機(jī)進(jìn)行相應(yīng)的處理,從而實(shí)現(xiàn)對這些碎紙片的全自動或者半自動的拼接復(fù)原。
【發(fā)明內(nèi)容】
[0003]本發(fā)明針對現(xiàn)有破碎紙片拼接方法中關(guān)于英文文檔拼接效率低下的問題,提出了基于英文文字特征的碎紙機(jī)破碎文檔復(fù)原方法。
[0004]本發(fā)明為實(shí)現(xiàn)上述發(fā)明目的采用如下技術(shù)方案:
[0005]基于英文文字特征的碎紙機(jī)破碎文檔復(fù)原方法,掃描破碎文檔圖像,對每一幅圖像按照步驟I至步驟3作如下處理:
[0006]步驟I,建立灰度矩陣Ak:
【權(quán)利要求】
1.基于英文文字特征的碎紙機(jī)破碎文檔復(fù)原方法,其特征在于:掃描破碎文檔圖像,對每一幅圖像按照步驟I至步驟3作如下處理: 步驟1,建立灰度矩陣,二值化灰度矩陣后得到二值矩陣,然后分別求取二值矩陣每一行元素之和,垂直方向排列二值矩陣各行元素之和得到二值序列; 步驟2,由英文字母排版空間的上部寬度Wu、中部寬度Wm和下部寬度Wd,確立英文字母占據(jù)四線三格的空間位置,所述空間位置包括上中部、中部、中下部、上中下部: 步驟3,在二值序列中查找渲染起始點(diǎn),渲染二值序列后進(jìn)行聚類處理: 步驟3-1,由英文字母占據(jù)四線三格的空間位置,確定第一輪渲染的起始點(diǎn): 當(dāng)英文字母處于四線三格的上中部時,從中部的最下點(diǎn)開始,通過該點(diǎn)位置回退Wm+Wu得到第一輪渲染的起始點(diǎn), 當(dāng)英文字母處于四線三格的中部時,從中部的最上點(diǎn)開始,通過該點(diǎn)位置回退Wu得到第一輪渲染的起始點(diǎn), 當(dāng)英文字母處于四線三格的中下部時,從中部的最上點(diǎn)開始,通過該點(diǎn)位置回退Wu得到第一輪渲染的起始點(diǎn), 當(dāng)英文字母處于四線三格的上中下部時,從下部的最下點(diǎn)開始,通過該點(diǎn)位置回退Wu+Wm+Wd得到第一輪渲染的起始點(diǎn); 步驟3-2,從第一輪渲 染的起始點(diǎn)開始渲染二值序列得到新的二值序列,具體包括步驟a和步驟b: 步驟a,從第一輪渲染的起始點(diǎn)開始分別往上、往下掃描,當(dāng)掃描到遇O后的第一個I時,記錄I所在的行號fk,并以fk為基準(zhǔn),處于fk上方的并與fk的距離為Wb的字體空間內(nèi)都用I覆蓋;處于的fk下方的并與fk的距離為Wu+Wm+Wd+Wb的字體空間內(nèi)同樣也全部用I覆蓋,Wb為字母與字母縱向間距, 步驟b,第一輪渲染完成之后,取掃描方向上第一輪渲染起始點(diǎn)的下一個點(diǎn)作為新的渲染起始點(diǎn),重復(fù)步驟a,遍歷二值序列的所有點(diǎn)作為渲染起始點(diǎn)生成新的二值序列; 步驟4,對每一幅圖像的新二值序列進(jìn)行聚類處理; 步驟5,分別在每一類中,基于最小累積邊緣距離原則找到累積邊緣距離最小的兩個二值矩陣,對這兩個二值矩陣對應(yīng)的破碎文檔進(jìn)行橫向匹配拼接,直到該類中所有的圖像都拼接到一起為止,再根據(jù)最小累積邊緣距離對已經(jīng)完成橫向匹配的各破碎文檔進(jìn)行縱向匹配拼接。
2.根據(jù)權(quán)利要求1所述的基于英文文字特征的碎紙機(jī)破碎文檔復(fù)原方法,其特征在于,步驟2中所述的上中部、中下部根據(jù)二值序列的像素分布情況劃分: 當(dāng)二值序列的前三分之一像素和小于后三分之一像素和時,則屬于上中部, 當(dāng)二值序列的前三分之一像素和大于后三分之一像素和時,同時前三分之一像素和與后三分之一像素和之比小于3/2時,則屬于上中部, 當(dāng)二值序列的前三分之一像素和大于后三分之一像素和時,同時若前三分之一像素和與后三分之一像素和之比大于或等于3/2時,則屬于中下部。
3.根據(jù)權(quán)利要求2所述的基于英文文字特征的碎紙機(jī)破碎文檔復(fù)原方法,其特征在于步驟2的具體方法是:對二值序列從上往下掃描,在讀到第一個O后的I時,記錄I所在行號,從二值序列第行繼續(xù)掃描,讀到行之后第一個O時記錄O所在行號f2,由f2-f\的值確立英文字母占據(jù)四線三格的空間位置: 當(dāng)時:已經(jīng)掃描過的二值序列不構(gòu)成一個完整的英文字母,繼續(xù)往下掃描二值序列,當(dāng)1-1 (時:已經(jīng)掃描過的二值序列構(gòu)成一個完整的英文字母,該英文字母處于四線三格的中部, 當(dāng)( ffm+ffu+2時:已經(jīng)掃描過的二值序列構(gòu)成一個完整的英文字母,英文字母處于四線三格的上中部或者中下部, 當(dāng)Wm+Wu+Za^fi ( ffm+ffu+ffd+l時:已經(jīng)掃描過的二值序列構(gòu)成一個完整的英文字母,英文字母處于四線三格的上中下部。
4.根據(jù)權(quán)利要求3所述的基于英文文字特征的碎紙機(jī)破碎文檔復(fù)原方法,其特征在于,步驟5中基于最小累計(jì)邊緣距離原則通過表達(dá)式
【文檔編號】G06T5/50GK103996180SQ201410185991
【公開日】2014年8月20日 申請日期:2014年5月5日 優(yōu)先權(quán)日:2014年5月5日
【發(fā)明者】馮鈞, 陳煥霖, 楊艷林, 陳麗君, 唐志賢, 許瀟, 朱忠華, 盛震宇 申請人:河海大學(xué)