基于極限學(xué)習(xí)機(jī)的掃描證書圖像識別方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像識別領(lǐng)域,尤其是一種掃描證書圖像識別方法。
【背景技術(shù)】
[0002] 最近幾年來,圖像檢索是一個(gè)非常受歡迎的話題,其檢索對象包括海里游的,在天 空中飛翔的及地上走的。圖像分類是圖像檢索的一個(gè)預(yù)處理過程,可以有效提高圖像檢索 的準(zhǔn)確性。盡管已有針對不同種類圖像數(shù)據(jù)集的眾多圖像分類檢索系統(tǒng),但是掃描證書圖 像分類檢索方面則關(guān)注較少,而這些掃描證書圖像往往是申請獎勵(lì)或公司拓展的重要輔助 材料。為了保證這類證書圖像的合法利用,避免同張證書被多次利用,在特殊的掃描證書 數(shù)據(jù)集里的掃描圖像查重對于某些檢索系統(tǒng)是非常重要的,這有點(diǎn)類似于文件的相似性檢 查。目前適用于比較流行的基于內(nèi)容的圖像分類檢索系統(tǒng)的圖像特征有顏色、紋理、形狀以 及空間位置關(guān)系,但掃描證書圖像質(zhì)量低,種類繁多,版面形式多樣,既包含具有特定意義 的圖像標(biāo)志,同時(shí)又包含對于獲獎情況的簡明扼要描述,因此,僅僅利用現(xiàn)有算法要實(shí)現(xiàn)從 海量圖像庫中查找是否存在與待測證書相似的圖像文件是有困難的。因此,我們就得具體 分析掃描圖像的特征,選取能更好地表述證書圖像特點(diǎn)的特征。如何借助計(jì)算機(jī)技術(shù)快速 準(zhǔn)確對附件證明材料一掃描圖像一進(jìn)行相似性檢測是國家科學(xué)技術(shù)獎勵(lì)評審迫切需要解 決的問題。
[0003] 人工神經(jīng)網(wǎng)絡(luò),簡稱神經(jīng)網(wǎng)絡(luò),是從動物神經(jīng)系統(tǒng)得到啟發(fā)而提出的一套數(shù)學(xué)模 型,通常被用來對輸入和輸出之間復(fù)雜的非線性關(guān)系進(jìn)行建模,具有學(xué)習(xí)和識別的能力,被 廣泛應(yīng)用到計(jì)算機(jī)科學(xué)以及相關(guān)領(lǐng)域。神經(jīng)網(wǎng)絡(luò)可以表示為一組互相連接的神經(jīng)元,神經(jīng) 元是神經(jīng)網(wǎng)絡(luò)的最小單位,大多數(shù)情況下神經(jīng)元可以根據(jù)外界信息的刺激而改變自身,使 得整個(gè)神經(jīng)系統(tǒng)具有自適應(yīng)性。神經(jīng)元的數(shù)學(xué)模型如圖1所示,X1... Xn是輸入向量X e Rn的各個(gè)分量^1... Wn是神經(jīng)元各個(gè)突觸的權(quán)值,被稱為輸入權(quán)重,所有突觸的權(quán)值向量用 W e Rn表示;b為偏置;y為神經(jīng)元輸出。
[0004] 神經(jīng)元模型的數(shù)學(xué)表達(dá)式是y = g(W ·Χ+?3),g為神經(jīng)元的激勵(lì)函數(shù)。單隱層反饋 神經(jīng)網(wǎng)絡(luò)包括獲得外界信息的輸入層、與外界信息沒有聯(lián)系的隱藏層和可以向外界反饋信 息的輸出層。在標(biāo)準(zhǔn)的單隱藏層反饋神經(jīng)網(wǎng)絡(luò)中,一般的輸入層和輸出層的激勵(lì)函數(shù)均設(shè) 為g (X) = X的線性函數(shù),因此輸出層第k個(gè)神經(jīng)元的響應(yīng)可以表示為:
[0005] y[k] = [g(Wi ?x+b1)g(w2 *x+b2). . . g(wL *x+bL)] · β k+b2[k], k = I, . . . , m (I. I), 其中W1G Rn,i = 1,. . .,L表示隱藏層第i個(gè)神經(jīng)元的輸入權(quán)重,簡稱輸入權(quán)重,β kG k =1,. . .,m表示輸出層第k個(gè)神經(jīng)元的輸入權(quán)重,簡稱輸出權(quán)重。整個(gè)單隱藏層反饋神經(jīng) 元可由如下等式緊湊表示:
[0006] y = h(x) β+b, (I. 2),y e Rm是神經(jīng)網(wǎng)絡(luò)輸出層所有神經(jīng)元的響應(yīng),簡稱輸出向 量;
[0007] h(x) = [gW · x+t^gW · x+b2). . . g(wL · x+bj]是神經(jīng)網(wǎng)絡(luò)隱藏層所有神經(jīng)元 對輸入向量X的響應(yīng),簡稱隱藏層響應(yīng)向量;/?=[允夂..AiJ1是神經(jīng)網(wǎng)絡(luò)所有輸出權(quán)重排 列而成的矩陣,簡稱輸出權(quán)重矩陣也為隱藏層第i個(gè)神經(jīng)元的偏置,bse Rm為整個(gè)輸出層 偏置所排列成的向量;T表示矩陣的轉(zhuǎn)置操作。
[0008] 從公式(1. 2)可以看出神經(jīng)網(wǎng)絡(luò)實(shí)際上是建立了一個(gè)映射函數(shù)f:x - y,把本來抽 象的映射函數(shù)f用具體的式(1. 2)表示,理論上來說,神經(jīng)網(wǎng)絡(luò)可以通過改變神經(jīng)元的輸入 權(quán)重來表示任意一個(gè)映射函數(shù)f。
[0009] 在神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)過程,我們希望根據(jù)訓(xùn)練樣本集{^匕找到在函數(shù)空間F中使 損失函數(shù)C最小的函數(shù)F,其中,X e Rn稱為樣本的特征(Feature),X e Rm稱為樣本 的標(biāo)簽(Label)。損失函數(shù)表示數(shù)學(xué)模型F(X)與真實(shí)標(biāo)簽t的測度,常用的基于歐氏距離 的損失函數(shù)(L2)可用如下等式表示:C = E[ I I f (x)-t I |2],(X,t) e D (I. 3),E表示期望, D表示樣本空間,I I · I I2表示矩陣的2范數(shù)運(yùn)算。
[0010] 在實(shí)際情況中,我們只能獲得樣本空間D的一部分樣本,因此在實(shí)際應(yīng)用中,用
公式 代替公式(1.3)。將公式(1.2)代入公式(1.4)得到公 (T.4)' 式(1. 4)的緊湊形式:+ A α_5)其中,T是訓(xùn)練樣本的標(biāo)簽t]排列 而成的矩陣,每一行表示一個(gè)訓(xùn)練樣本標(biāo)簽;H是訓(xùn)練樣本的特征在隱藏層的響應(yīng)h(X]), 0表示克羅內(nèi)克積運(yùn)算,lNe 1^表示所有元素為一的列向量;因此神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程 可用如下數(shù)學(xué)語言描述:在訓(xùn)練樣本集上,求出使損失函數(shù)C最小的w],b,,β
和1^,學(xué)習(xí)過程可用等式 , 、其中,
(1,6 :),
[0011] 反向傳播算法的提出使單隱藏層神經(jīng)網(wǎng)絡(luò)的性能和應(yīng)用都有質(zhì)的飛躍,但是誤差 反向傳播算法也存在不少缺點(diǎn),一是誤差反向傳播算法每次迭代需要更新Wplv β和bs, 需要更新的元素個(gè)數(shù)為nX (L+1)+LX (m+1),這是一筆不小的開支;二是誤差反向傳播算 法中間用到的鏈?zhǔn)角髮?dǎo)法則使得誤差往前傳遞逐層減小,僅僅適用單隱藏層神經(jīng)網(wǎng)絡(luò),當(dāng) 神經(jīng)網(wǎng)絡(luò)層數(shù)很大時(shí),很容易使整個(gè)系統(tǒng)陷入局部最優(yōu)。
【發(fā)明內(nèi)容】
[0012] 本發(fā)明提供一種基于極限學(xué)習(xí)機(jī)的掃描證書圖像識別方法,為證書的相似性檢索 提供一種快速、有效的預(yù)處理方法,顯著提高證書圖像檢索的準(zhǔn)確率。
[0013] 為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案如下:
[0014] 一種基于極限學(xué)習(xí)機(jī)的掃描證書圖像分類方法,包括如下步驟:
[0015] A :輸入掃描證書圖像數(shù)據(jù)樣本庫,進(jìn)行預(yù)處理;
[0016] B :對經(jīng)過預(yù)處理的證書圖像利用Hough變換進(jìn)行圓章定位,得到圓章外接矩形區(qū) 域,提取圓章區(qū)域的HSV顏色特征向量及圖像的長寬比向量作為特征數(shù)據(jù);
[0017] C :利用掃描證書圖像樣本庫特征數(shù)據(jù)訓(xùn)練極限學(xué)習(xí)機(jī);
[0018] D :輸入待分類圖像經(jīng)過A,B步驟處理,利用經(jīng)過訓(xùn)練的極限學(xué)習(xí)機(jī)完成圖像分 類。
[0019] 優(yōu)選地,步驟A中預(yù)處理是利用現(xiàn)有噪聲濾除和傾斜校正方法進(jìn)行預(yù)處理。
[0020] 優(yōu)選地,步驟B具體操作步驟如下:
[0021] Bl利用現(xiàn)有圓章定位的方法,對定位得到的圓章所在的外接矩形進(jìn)行分割提取, 得到圓章區(qū)域;
[0022] B2將色度H、飽和度S及亮度V三個(gè)分量分別非均勻量化為8份、4份和4份:
[0024] 這樣圓章區(qū)域的HSV空間被分成XH+Xs+Xvf區(qū)間,X H、XS、XV分別是H、S及V的量化 級數(shù),于是得到一個(gè)十六維的顏色特征向量,加上掃描圖像圖片長寬比,最終提取一個(gè)十七 維特征向量;
[0025] B3對所有特征值提取一位數(shù)的整數(shù),選取的十七維特征用Xk。,Xkl. .. Xkl6表示,取 值范圍為[0,9]之間的整數(shù)。
[0026] 優(yōu)選地,步驟C具體操作步驟如下:
[0027] Cl根據(jù)神經(jīng)網(wǎng)絡(luò)基本模型及極限學(xué)習(xí)機(jī)的特點(diǎn),隨機(jī)生成輸入權(quán)重W1與偏置b y i = 1··· L ;
[0028] C2根據(jù)公另
計(jì)算訓(xùn)練樣本的特征在隱藏層的響應(yīng)H,其中
[0029] h (X) = [g (W1 · x+bD g (W2 · x+b2)…g (?γ · x+bj) ],g 為神經(jīng)元的激勵(lì)函數(shù);
[0030] C3根據(jù)公式W = H1T計(jì)算輸出權(quán)重矩陣β,其中H+= (ΗτΗ+λΙ) 1HUSN或者 H+= H τ(ΗΗΤ+λ I) \ L彡N,H+是隱藏層響應(yīng)矩陣H的Moore-Penrose增廣逆,在H tH或HHt的對角線上添加一個(gè)小的正數(shù)λ以使得整個(gè)系統(tǒng)更加穩(wěn)定;
[0031] 當(dāng)/;/計(jì)算完畢時(shí),一個(gè)單隱藏層反饋神經(jīng)網(wǎng)絡(luò)就完成了。
[0032] 優(yōu)選地,步驟D具體操作步驟如下:
[0033] Dl待分類圖像經(jīng)過A,B步驟處理;
[0034] D2待分類圖像的特征數(shù)據(jù)作為測試數(shù)據(jù)輸入極限學(xué)習(xí)機(jī),極限學(xué)習(xí)機(jī)輸出分類結(jié) 果,對于一個(gè)類型未知的測試樣本X,通過單隱藏層反饋神經(jīng)網(wǎng)絡(luò)推測它的類型,它的類型 可以用下式推測:/,(Y) = A(X)/;?,h(x) = [G(WDbliX)-G(Wl^buX)]是神經(jīng)網(wǎng)絡(luò)隱藏層關(guān) 于X的響應(yīng)。
[0035] 本發(fā)明的有益效果是:本發(fā)明將待分類圖像的圓章 HSV特征向量作為輸入值,得 到證書圖像最可能的類別。根據(jù)圖像分類經(jīng)驗(yàn)及實(shí)踐證明,極限學(xué)習(xí)機(jī)具有速度快,泛化能 力強(qiáng),分類準(zhǔn)確率高的特點(diǎn)。
【附圖說明】
[0036] 圖1為現(xiàn)有神經(jīng)元模型圖。
[0037] 圖2為本發(fā)明實(shí)施例基于極限學(xué)習(xí)機(jī)的掃描證書圖像分類方法流程圖。
【具體實(shí)施方式】
[0038] 下面結(jié)合附圖及實(shí)例,對本發(fā)明做進(jìn)一步說明。
[0039] 極限學(xué)習(xí)機(jī)從單隱藏層的神經(jīng)網(wǎng)絡(luò)發(fā)展而