一種基于全幅特征提取的快速文檔類型識別方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于計算機圖像識別技術(shù)領(lǐng)域,具體涉及一種基于全幅特征提取的快速文檔類型識別方法。
【背景技術(shù)】
[0002]電子政務(wù)平臺是政府部門對外信息化辦公的前沿陣地,每天各政府部門需要接收用戶提交的大量表格及復(fù)印材料,這些材料如果用人工去識別文檔類型的話,需要花費大量的人力及拖延處理的時間,難以對用戶提交的材料進行有效的分類管理,更先進的識別技術(shù)無疑是急切需求的。
[0003]目前電子政務(wù)平臺上運行的文檔識別軟件主要是用OCR輔助進行一些文字識別工作,以減輕工作人員的文字錄入工作。但如何快速識別用戶提交的未知標識的材料是否符合文件規(guī)定的要求卻由于沒有相應(yīng)的軟件進行支撐而無法處理,這對于政府部門無紙化、一站式辦公產(chǎn)生了障礙。如果在政務(wù)平臺上不僅能實現(xiàn)對文檔的拍攝,而且能實現(xiàn)對用戶提交的文檔進行快速識別,提示用戶提交材料是否準確或遺漏,將有助于提升政府部門的辦事效率和形象。
[0004]文檔類型識別問題的數(shù)學(xué)本質(zhì)屬于模式空間到類別空間的映射問題。目前,國內(nèi)外主要采用三種識別方法:統(tǒng)計模式識別、結(jié)構(gòu)模式識別、模糊模式識別。自20世紀70年代,其研究已經(jīng)有幾十年的歷史,一直都受到人們的高度重視,至今借助于各種理論提出了數(shù)以千計的算法。
[0005]已有的這些文檔類型識別技術(shù)的一個不足就是自適應(yīng)性能差。通過電子政務(wù)平臺的攝錄設(shè)備采集到的文檔圖像常常含有光線明暗不均、噪聲干擾等情況,一旦目標文檔被較強的噪聲污染或是目標文檔有較大色差往往就得不出理想的結(jié)果甚至完全識別不出來,同時已有方法普遍存在耗時較多效率較低的問題。因此,研究快速準確適應(yīng)于多種環(huán)境下的文檔類型識別方法顯得十分重要
【發(fā)明內(nèi)容】
[0006]本發(fā)明針對要識別的文檔圖像上有噪聲、光照不均、圖像有旋轉(zhuǎn)及卷曲變形等情況時,已有的文檔類型識別方法效果變差甚至完全失效的問題,提出了一種基于全幅特征提取的快速文檔類型識別方法,其能有效解決光照、噪聲、變形等對于文檔類型識別的影響,并且對于旋轉(zhuǎn)、卷曲等現(xiàn)象具有較好的魯棒性,而且在多種光照環(huán)境中均識別精確,同時本方法運算速度較快,能夠滿足實時性要求較高的場合。
[0007]為了解決上述技術(shù)問題,本發(fā)明是通過以下技術(shù)方案實現(xiàn)的:
[0008]—種基于全幅特征提取的快速文檔類型識別方法,包括以下步驟:
[0009]1)文檔圖像預(yù)處理
[0010](1)圖像的縮放;
[0011](2)圖像的灰度化;
[0012](3)圖像亮度均衡化;
[0013](4)圖像噪聲濾波;
[0014]2)文檔圖像特征提取
[0015](l)Hessian黑森矩陣構(gòu)建;
[0016](2)尺度空間生成;
[0017](3)初步確定特征點和精確定位特征點;
[0018](4)選取特征點主方向確定;
[0019](5)構(gòu)造特征點描述算子;
[0020](6)生成特征值串;
[0021]3)文檔圖像特征值的比對
[0022](1)文檔相似度計算;
[0023](2)比對算法的優(yōu)化。
[0024]進一步,所述的文檔圖像的預(yù)處理為:對彩色圖像進行預(yù)處理,包括圖像的縮放、灰度化、亮度均衡化、噪聲濾波,使之尺寸、色度、對比度滿足文檔識別的基本條件。
[0025]由于電子政務(wù)平臺的攝錄設(shè)備采集的圖像屬于高分辨率的圖像。如果直接拿來作為特征提取的原始圖像,可能會導(dǎo)致圖像提取的特征點個數(shù)超過1000個,這將使文檔類型識別的時間大大增加而對識別的精度提高作用不大。為提高特征提取的速度,有必要對原始圖像進行縮放處理。
[0026]由于用戶擺放提交文檔的方式各異,周圍環(huán)境光照的情況不同,還可能出現(xiàn)紙張卷曲的現(xiàn)象,電子政務(wù)平臺的攝錄設(shè)備采集的圖像會出現(xiàn)光照強度不均衡、整幅圖像亮度不一的情況。圖像亮度均衡化算法要針對這些情況進行相應(yīng)的處理。
[0027]進一步,所述的文檔圖像特征提取選用SURF作為特征提取算法,所述的SURF提取算法采用尺度不變的特征。
[0028]特征提取算法有很多種,針對文檔類別識別這種應(yīng)用環(huán)境,本方法試用了SURF與SIFT算法,這兩種算法比較相似,SIFT算法比較穩(wěn)定,檢測特征點更多,但是復(fù)雜度較高,而SURF要運算簡單,效率高,運算時間短一點。由于電子政務(wù)平臺對實時性要求很高,所以選用SURF作為特征提取的主要算法。
[0029]該技術(shù)難點是SURF算法對尺度的變化比較敏感,如果特征值的提取不能解決尺度不變性,即使尺寸的很小差異也會造成大量文檔類別識別錯誤。有必要針對文檔這一特定的識別場景對SURF算法進行改進。
[0030]本方法引入尺度不變的特征來對經(jīng)典SURF算法進行改進,主要的思想是每個檢測到的特征點都伴隨著對應(yīng)的尺寸因子。當(dāng)我們想匹配不同圖像時,經(jīng)常會遇到圖像尺度不同的問題,不同圖像中特征點的距離變得不同,物體變成不同的尺寸,如果我們通過修正特征點的大小,就會造成強度不匹配。為了解決這個問題,本方法提出一個尺度不變的SURF特征檢測,在計算特征點的時候把尺度因素加入之中。
[0031]進一步,所述的文檔圖像特征值的比對為:依據(jù)文檔圖像的特征,采用歐氏距離作為文檔圖像特征值比對的基本算法,同時采用多線程及大緩存實現(xiàn)比對速度的成倍提升。
[0032]進一步,所述的初步確定特征點和精確定位特征點包括:
[0033]將經(jīng)過hessian矩陣處理過的每個像素點與其3維領(lǐng)域的26個點進行大小比較,如果它是這26個點中的最大值或者最小值,則保留下來,當(dāng)做初步的特征點,檢測過程中使用與該尺度層圖像解析度相對應(yīng)大小的濾波器進行檢測;然后采用3維線性插值法得到亞像素級的特征點,同時也去掉那些值小于一定閾值的點,增加極值使檢測到的特征點數(shù)量減少,最終只有幾個特征最強點會被檢測出來。
[0034]進一步,3X3的濾波器,該尺度層圖像中9個像素點之一檢測特征點與自身尺度層中其余8個點和在其之上及之下的兩個尺度層9個點進行比較,共26個點,像素點的特征值若大于周圍像素則可確定該點為該區(qū)域的特征點。
[0035]進一步,所述選取特征點主方向確定:
[0036]為了保證旋轉(zhuǎn)不變性,在SURF中,統(tǒng)計特征點領(lǐng)域內(nèi)的Harr小波特征,即以特征點為中心,計算半徑為6S(S為特征點所在的尺度值)的鄰域內(nèi),統(tǒng)計60度扇形內(nèi)所有點在水平和垂直方向的Haar小波響應(yīng)總和,并給這些響應(yīng)值賦高斯權(quán)重系數(shù),使得靠近特征點的響應(yīng)貢獻大,而遠離特征點的響應(yīng)貢獻小,然后60度范圍內(nèi)的響應(yīng)相加以形成新的矢量,遍歷整個圓形區(qū)域,選擇最長矢量的方向為該特征點的主方向,通過特征點逐個進行計算,得到每一個特征點的主方向。
[0037]進一步,所述構(gòu)造特征點描述算子:
[0038]在SURF中,也是在特征點周圍取一個正方形框,框的邊長為20S(S是所檢測到該特征點所在的尺度),該框帶方向就是第4步檢測出來的主方向,然后把該框分為16個子區(qū)域,每個子區(qū)域統(tǒng)計25個像素的水平方向和垂直方向的Haar小波特征,這里的水平和垂直方向都是相對主方向而言的,該Haar小波特征為水平方向值之和,水平方向絕對值之和,垂直方向之和,垂直方向絕對值之和。
[0039]進一步,所述生成特征值串為:SURF算法提取文檔圖像的特征值是一個二維的向量組,向量組的每一行代表一個特征點,向量組的列代表每個特征點的特征值。這些特征值都是用成對的浮點數(shù)構(gòu)成。
[0040]進一步,所述文檔相似度計算采用歐氏距離,將歐氏距離轉(zhuǎn)換成相似度,規(guī)定所有屬性的相似度的取值范圍均為[0,1],將檢索圖像與數(shù)據(jù)庫中標準圖像的屬性的最大距離映射為相似度為0,最小距離映射為相似度為1,而且相似度是距離的嚴格遞減函數(shù),通過逐一比對,最終在數(shù)據(jù)庫的標準圖像中找到跟檢索圖像相似度最高的那張文檔圖像即表示比對成功,用戶向電子政務(wù)平臺提供的文檔資料有效并被系統(tǒng)歸類到相應(yīng)的類型,如果在數(shù)據(jù)庫中標準圖像跟檢索圖像的相似度都很低,表示用戶提供的文檔資料有誤,系統(tǒng)提示用戶提交錯誤文