,還要將此字符串進行壓縮或加密處理。
[0080]3)文檔圖像特征值的比對
[0081](1)文檔相似度計算
[0082]歐氏距離能夠體現(xiàn)個體數(shù)值特征的絕對差異,所以更多的用于需要從維度的數(shù)值大小中體現(xiàn)差異的分析,如用戶行為指標分析用戶價值的相似度或差異;而余弦相似度更多的是從方向上區(qū)分差異,而對絕對的數(shù)值不敏感,更多的用于用戶對內(nèi)容評分來區(qū)分用戶興趣的相似度和差異,同時修正了用戶間可能存在的度量標準不統(tǒng)一的問題(因為余弦相似度對絕對數(shù)值不敏感)。由于SURF算法提取文檔圖像的特征是一個二維的向量組,歐氏距離的計算比較適用于這種向量組的運算,故本方法采用歐氏距離作為文檔特征比對的算法。
[0083]在計算出標準圖像和檢索圖像的歐氏距離之后,要將其距離轉(zhuǎn)換成相似度。規(guī)定所有屬性的相似度的取值范圍均為[0,1],將檢索圖像與數(shù)據(jù)庫中標準圖像的屬性的最大距離映射為相似度為0,最小距離映射為相似度為1,而且相似度是距離的嚴格遞減函數(shù)。通過逐一比對,最終在數(shù)據(jù)庫的標準圖像中找到跟檢索圖像相似度最高的那張文檔圖像即表示比對成功,用戶向電子政務(wù)平臺提供的文檔資料有效并被系統(tǒng)歸類到相應(yīng)的類型。如果在數(shù)據(jù)庫中標準圖像跟檢索圖像的相似度都很低,表示用戶提供的文檔資料有誤,系統(tǒng)提示用戶提交錯誤文檔。
[0084](2)比對算法的優(yōu)化
[0085]目前對這種二維的向量組形式的文檔特征值不能建立索引,在逐一比對過程中沒有很好的優(yōu)化算法能提高比對速度。在整個電子政務(wù)文檔類別識別過程中,標準圖像只需要一次性提取特征值并轉(zhuǎn)成相應(yīng)的字符串存儲在數(shù)據(jù)庫中就可以了,但由于檢索圖像需要跟每一幅標準圖像做歐氏距離運算,比對的過程是非常耗時的。本方法采取多線程技術(shù)和大緩存來解決特征值比對時產(chǎn)生的大數(shù)據(jù)量計算和大數(shù)據(jù)量存儲對電子政務(wù)平臺效率的影響。
[0086]2、實施例
[0087]【實施例1】如圖2所示。實施例1檢索文檔比標準文檔放大15%,實驗結(jié)果顯示,能準確識別。
[0088]【實施例2】如圖3所示。實施例2檢索文檔比標準文檔亮度增加15%,實驗結(jié)果顯示,能準確識別。
[0089]【實施例3】如圖4所示。實施例3檢索文檔比標準文檔傾斜角度增加15%,實驗結(jié)果顯示,能準確識別。
[0090]最后應(yīng)說明的是:以上僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,盡管參照實施例對本發(fā)明進行了詳細的說明,對于本領(lǐng)域的技術(shù)人員來說,其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分技術(shù)特征進行等同替換,但是凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1.一種基于全幅特征提取的快速文檔類型識別方法,其特征在于:包括以下步驟: 1)文檔圖像預(yù)處理 (1)圖像的縮放; (2)圖像的灰度化; (3)圖像亮度均衡化; (4)圖像噪聲濾波; 2)文檔圖像特征提取 (1)Hessian黑森矩陣構(gòu)建; (2)尺度空間生成; (3)初步確定特征點和精確定位特征點; (4)選取特征點主方向確定; (5)構(gòu)造特征點描述算子; (6)生成特征值串; 3)文檔圖像特征值的比對 (1)文檔相似度計算; (2)比對算法的優(yōu)化。2.根據(jù)權(quán)利要求1所述一種基于全幅特征提取的快速文檔類型識別方法,其特征在于,所述的文檔圖像的預(yù)處理為:對彩色圖像進行預(yù)處理,包括圖像的縮放、灰度化、亮度均衡化、噪聲濾波,使之尺寸、色度、對比度滿足文檔識別的基本條件。3.根據(jù)權(quán)利要求1所述一種基于全幅特征提取的快速文檔類型識別方法,其特征在于,所述的文檔圖像特征提取選用SURF作為特征提取算法,所述的SURF提取算法采用尺度不變的特征。4.根據(jù)權(quán)利要求1所述一種基于全幅特征提取的快速文檔類型識別方法,其特征在于,所述的文檔圖像特征值的比對為:依據(jù)文檔圖像的特征,采用歐氏距離作為文檔圖像特征值比對的基本算法,同時采用多線程及大緩存實現(xiàn)比對速度的成倍提升。5.根據(jù)權(quán)利要求1所述一種基于全幅特征提取的快速文檔類型識別方法,其特征在于,所述的初步確定特征點和精確定位特征點包括: 將經(jīng)過hessian矩陣處理過的每個像素點與其3維領(lǐng)域的26個點進行大小比較,如果它是這26個點中的最大值或者最小值,則保留下來,當做初步的特征點,檢測過程中使用與該尺度層圖像解析度相對應(yīng)大小的濾波器進行檢測; 然后采用3維線性插值法得到亞像素級的特征點,同時也去掉那些值小于一定閾值的點,增加極值使檢測到的特征點數(shù)量減少,最終只有幾個特征最強點會被檢測出來。6.根據(jù)權(quán)利要求5所述一種基于全幅特征提取的快速文檔類型識別方法,其特征在于,3 X 3的濾波器,該尺度層圖像中9個像素點之一檢測特征點與自身尺度層中其余8個點和在其之上及之下的兩個尺度層9個點進行比較,共26個點,像素點的特征值若大于周圍像素則可確定該點為該區(qū)域的特征點。7.根據(jù)權(quán)利要求1所述一種基于全幅特征提取的快速文檔類型識別方法,其特征在于,所述選取特征點主方向確定: 為了保證旋轉(zhuǎn)不變性,在SURF中,統(tǒng)計特征點領(lǐng)域內(nèi)的Harr小波特征,即以特征點為中心,計算半徑為6S(S為特征點所在的尺度值)的鄰域內(nèi),統(tǒng)計60度扇形內(nèi)所有點在水平和垂直方向的Haar小波響應(yīng)總和,并給這些響應(yīng)值賦高斯權(quán)重系數(shù),使得靠近特征點的響應(yīng)貢獻大,而遠離特征點的響應(yīng)貢獻小,然后60度范圍內(nèi)的響應(yīng)相加以形成新的矢量,遍歷整個圓形區(qū)域,選擇最長矢量的方向為該特征點的主方向,通過特征點逐個進行計算,得到每一個特征點的主方向。8.根據(jù)權(quán)利要求1所述一種基于全幅特征提取的快速文檔類型識別方法,其特征在于,所述構(gòu)造特征點描述算子: 在SURF中,也是在特征點周圍取一個正方形框,框的邊長為20S(S是所檢測到該特征點所在的尺度),該框帶方向就是第4步檢測出來的主方向,然后把該框分為16個子區(qū)域,每個子區(qū)域統(tǒng)計25個像素的水平方向和垂直方向的Haar小波特征,這里的水平和垂直方向都是相對主方向而言的,該Haar小波特征為水平方向值之和,水平方向絕對值之和,垂直方向之和,垂直方向絕對值之和。9.根據(jù)權(quán)利要求1所述一種基于全幅特征提取的快速文檔類型識別方法,其特征在于,所述生成特征值串為:SURF算法提取文檔圖像的特征值是一個二維的向量組,向量組的每一行代表一個特征點,向量組的列代表每個特征點的特征值。這些特征值都是用成對的浮點數(shù)構(gòu)成。10.根據(jù)權(quán)利要求1所述一種基于全幅特征提取的快速文檔類型識別方法,其特征在于,所述文檔相似度計算采用歐氏距離,將歐氏距離轉(zhuǎn)換成相似度,規(guī)定所有屬性的相似度的取值范圍均為[0,1],將檢索圖像與數(shù)據(jù)庫中標準圖像的屬性的最大距離映射為相似度為0,最小距離映射為相似度為1,而且相似度是距離的嚴格遞減函數(shù),通過逐一比對,最終在數(shù)據(jù)庫的標準圖像中找到跟檢索圖像相似度最高的那張文檔圖像即表示比對成功,用戶向電子政務(wù)平臺提供的文檔資料有效并被系統(tǒng)歸類到相應(yīng)的類型,如果在數(shù)據(jù)庫中標準圖像跟檢索圖像的相似度都很低,表示用戶提供的文檔資料有誤,系統(tǒng)提示用戶提交錯誤文檔。
【專利摘要】本發(fā)明提出了一種基于全幅特征提取的快速文檔類型識別方法,包括以下步驟:文檔圖像預(yù)處理,包括圖像的縮放、灰度化、噪聲濾波;文檔圖像特征提取,包括Hessian黑森矩陣構(gòu)建、尺度空間生成、初步確定特征點和精確定位特征點、選取特征點主方向確定、構(gòu)造特征點描述算子、生成特征值串;文檔圖像特征值比對,包括文檔相似度計算、比對算法的優(yōu)化。本方法通過軟件對圖像進行預(yù)處理,不需要增加額外的硬件設(shè)備。本方法創(chuàng)新性引入尺度不變特征對經(jīng)典的SURF特征提取算法進行改進,從而使SURF算法因尺度變化而放大誤差造成匹配不成功的問題得以根本解決。本方法采取多線程技術(shù)和大緩存來解決比對時產(chǎn)生的大數(shù)據(jù)量計算和用戶對電子政務(wù)平臺苛刻的時間要求。
【IPC分類】G06K9/46, G06K9/20, G06K9/62
【公開號】CN105426884
【申請?zhí)枴緾N201510761290
【發(fā)明人】王東, 陳俊健, 李曉東, 顧艷春
【申請人】佛山科學(xué)技術(shù)學(xué)院
【公開日】2016年3月23日
【申請日】2015年11月10日