專利名稱:一種用于手寫漢字識(shí)別的圖像特征提取方法
技術(shù)領(lǐng)域:
本發(fā)明屬于模式識(shí)別與人工智能技術(shù)領(lǐng)域,特別是涉及一種手寫漢字圖像 識(shí)別處理方法。
背景技術(shù):
一個(gè)手寫漢字識(shí)別系統(tǒng)分為預(yù)處理、特征提取、分類識(shí)別和后處理四個(gè)模 塊,其中特征提取被認(rèn)為是漢字識(shí)別中一個(gè)關(guān)鍵的步驟之一,對(duì)整個(gè)系統(tǒng)的最 終性能有著重要的影響。近年來,很多學(xué)者在如何獲取有效的特征方面做了很
多研究工作,取得了很多優(yōu)秀的成果。Gabor特征是各種漢字特征中的一種較 為有效的特征,它應(yīng)用的背后有著很好的生物視覺理論支持。事實(shí)上,模式識(shí) 別與計(jì)算機(jī)視覺和生物視覺理論在一直以來都有著緊密的聯(lián)系。
隨著計(jì)算機(jī)視覺與生物視覺理論的發(fā)展,-最近有越來越多先進(jìn)的圖像特征 提取算法被提出。其中,David G. Lowe2004年發(fā)表在International Journal of Computer Vision的論文"Distinctive Image Features from Scale-Invariant Keypoints"提出的尺度不變性特征變換算法(Scale Invariant Feature Transform,簡稱SIFT)被認(rèn)為是最有代表性的特征提取算法之一,受到了計(jì) 算機(jī)視覺領(lǐng)域廣泛的關(guān)注。SIFT整套算法包括定位特征點(diǎn)與對(duì)特征區(qū)域提取特 征向量兩部分,提取出來的特征向量一般被稱為SIFT描述子(SIFT descriptor). SIFT特征已經(jīng)被廣泛應(yīng)用于圖像配準(zhǔn)、圖像檢測(cè)、目標(biāo)識(shí)別等 領(lǐng)域,并且有著出色的表現(xiàn)。但是,在漢字識(shí)別領(lǐng)域,特別是手寫漢字識(shí)別領(lǐng)域,SIFT特征卻無法成功的應(yīng)用,這是因?yàn)樽杂蓵鴮憹h字由于個(gè)人風(fēng)格的差異, 即使是同一個(gè)字的圖形也有很大差別,同時(shí)還有加上筆畫形變,噪聲點(diǎn)等問題
讓這種差異性變得更大。因此,SIFT特征點(diǎn)定位方法對(duì)脫機(jī)手寫漢字識(shí)別是不
適合的,需要尋找更合適的特征定位策略。 _
發(fā)明內(nèi)容
本發(fā)明的目的是為了克服直接應(yīng)用SIFT特征點(diǎn)定位無法提取有效的適應(yīng)
不同書寫風(fēng)格的尺度不變特征的問題,結(jié)合手寫漢字圖像的特點(diǎn),應(yīng)用彈性網(wǎng)
格技術(shù)與SIFT特征,設(shè)計(jì)出基于二次局部彈性區(qū)域的SIFT特征的手寫漢字特 征提取方法。
為了實(shí)現(xiàn)發(fā)明目的,本發(fā)明采用的技術(shù)方案為 一種用于手寫漢字識(shí)別的
圖像特征提取方法,將手寫漢字圖像切分成一系列穩(wěn)定的特征提取區(qū)域,再通 過尺度不變性特征變換算法對(duì)這些區(qū)域進(jìn)行特征提取。
具體包括如下幾個(gè)主要步驟 (1)、先水平后垂直彈性切分手寫漢字圖像成局部子圖像塊; (2 )、對(duì)子圖像塊提取SIFT描述子特征;
(3) 、先垂直后水平再次切分手寫漢字圖像成局部圖像塊,重復(fù)(2);
(4) 、拼接所有局部圖像塊SIFT特征形成最終特征向量。
所述步驟(1)彈性切分脫機(jī)手寫漢字圖像成子圖像塊的過程是通過先
對(duì)漢字圖像在水平方向上非均勻彈性劃分3個(gè)長方形,劃分的原則是讓每個(gè)長
方形內(nèi)具有相等的漢字像素,然后在垂直方向上在各個(gè)長方形圖塊內(nèi)部進(jìn)行非
均勻彈性切分,使得每個(gè)長方形圖塊均切分出3個(gè)彼此間漢字像素相等的小長 方形圖塊,最終得到9塊子圖像塊。所述步驟(2)通過對(duì)圖像塊提取SIFT描述子特征過程是通過先將切分 出的圖塊大小進(jìn)行線性歸一化,然后對(duì)每塊圖塊區(qū)域提取SIFT描述子特征,
提取中使用的SIFT描述子參數(shù)為切分區(qū)域數(shù)目為2X2、統(tǒng)計(jì)方向?yàn)?,于 是每塊圖塊獲得的特征向量維數(shù)為32。
所述步驟(2)提及的SIFT描述子特征通過在局部區(qū)域計(jì)算所有像素的梯 度向量,然后用以區(qū)域中心為中心的二維高斯函數(shù)對(duì)所有梯度向量的幅值進(jìn)行 加權(quán),接著把局部區(qū)域規(guī)則切分為7VAW的子區(qū)域,在每個(gè)子區(qū)域上統(tǒng)計(jì)D個(gè) 方向的梯度方向直方圖,計(jì)算每個(gè)梯度方向累加值可形成一個(gè)種子點(diǎn),每個(gè)種 子點(diǎn)有8個(gè)方向的向量信息,最后組合各種子點(diǎn)形成輸出的特征。具體做法是 第一步在特征提取區(qū)域使用S0BEL算子計(jì)算該區(qū)域內(nèi)每個(gè)像素點(diǎn)的梯度的幅值 和方向,第二步使用中心位于特征提取區(qū)域的中心二維高斯函數(shù) 6鄧[-( +/)/2一]與特征提取區(qū)域中每個(gè)像素的梯度幅值進(jìn)行相乘(式中o 二0.75X區(qū)域?qū)挾?,第三步在特征區(qū)域內(nèi)規(guī)則切分出iVX7V個(gè)子區(qū)域(圖4中 N=2),每個(gè)區(qū)域的中心賦予一,個(gè)稱為種子點(diǎn)的梯度方向直方圖統(tǒng)計(jì)向量(統(tǒng)計(jì) 方向共八個(gè),彼此間隔為45度),第四步統(tǒng)計(jì)區(qū)域的梯度方向直方圖,具體過 程為,若某個(gè)像素點(diǎn)梯度方向落在某一個(gè)統(tǒng)計(jì)方向的附近,則其相應(yīng)的梯度幅 值就累加在這個(gè)方向上,累加過程中,像素梯度幅值經(jīng)過三線性插值后一一累 加到毗連的各直方圖塊中,第五步將SIFT描述子向量進(jìn)行歸一化。
所述步驟(3)使用的切分方法為通過先對(duì)漢字圖像在垂直方向上進(jìn)行彈 性劃分為3個(gè)長方形,劃分的原則是讓每個(gè)長方形內(nèi)具有相等的漢字像素,然 后再在水平方向上以相同的方法對(duì)每個(gè)長方形進(jìn)行切分,切成3個(gè)彼此間漢字 像素相等的圖塊,獲取另外9塊子圖像塊。所述步驟(4)拼接所有圖塊特征形成最終特征向量通過將步驟(2)、 (3)
獲取的18個(gè)圖塊特征進(jìn)行順序拼接,獲得一個(gè)576 (18X32)維特征向量,接 著對(duì)這個(gè)向量中每一個(gè)元素進(jìn)行/4的變換,變換后的特征向量為最終輸出的 特征向量。
與SIFT特征不同,本發(fā)明在特征定位上,使用了尋找穩(wěn)定的特征區(qū)域的 特征定位策略。彈性局部區(qū)域SIFT漢字特征提取方法使用了彈性切分方法, 將漢字圖像切分成一系列穩(wěn)定的特征提取區(qū)域,再對(duì)這些區(qū)域提取了有效的尺 度不變方向特征。
本發(fā)明與已有的漢字特征提取方法相比,具有如下的優(yōu)點(diǎn)和有益效果
(1) 、本發(fā)明中應(yīng)用的SIFT描述子是一種基于生物視覺原理構(gòu)造的特征, 大量實(shí)驗(yàn)證明其對(duì)圖像仿射變換,3D視點(diǎn)變換和非剛性變形具有優(yōu)秀的魯棒 性;
(2) 、使用彈性切分方法,能把漢字圖像切分成一系列穩(wěn)定的特征區(qū)域, 對(duì)這些區(qū)域進(jìn)行大小歸一化后提取的一系列SIFT描述子特征拼捧組成了具有 良好性能的特征;
(3) 、對(duì)漢字圖像整體提取SIFT描述子,在提取過程中,把原來無視圖 像內(nèi)容的規(guī)則劃分改進(jìn)為能適應(yīng)不同手寫風(fēng)格的彈性網(wǎng)格劃分有效改進(jìn)了識(shí)別 性能;
(4) 、本發(fā)明的兩種特征提取方法在脫機(jī)漢字識(shí)別中具有良好的有效性 在數(shù)據(jù)庫使用國家863計(jì)劃采集到的HCL2000手寫漢字樣本數(shù)據(jù)庫,隨機(jī)挑選 500套樣本進(jìn)行訓(xùn)練,200不重復(fù)的樣本進(jìn)行測(cè)試,分類器使用改進(jìn)二次判決函 數(shù)(MQDF)分類器,測(cè)試結(jié)果表明本發(fā)明的彈性局部區(qū)域尺度不變方向特征提取方法獲取的特征首選字識(shí)別率是96.061%,前10個(gè)候選字的識(shí)別率為 99.639%。
圖1是本發(fā)明的彈性局部區(qū)域SIFT漢字特征提取方法的流程框圖; 圖2是本發(fā)明采用的漢字識(shí)別系統(tǒng)的結(jié)構(gòu)框圖; 圖3是SIFT描述子特征的提取流程框圖; 圖4是SIFT描述子的提取示意圖。
具體實(shí)施例方式
本發(fā)明的彈性局部區(qū)域SIFT漢字特征提取方法的流程圖如附圖1所示, 具體為先將輸入的漢字圖像進(jìn)行兩種不同的彈性切分,獲取一共18個(gè)不同的圖 像區(qū)域(圖塊),然后把這些圖塊線性歸一化為統(tǒng)一大小,再對(duì)它們提取SIFT 描述子特征,最后把所有描述子特征順序拼接成最終的特征向量。
本發(fā)明的彈性局部區(qū)域SIFT漢字特征提取過程中應(yīng)用到的SIFT描述子特 征的提取流程圖如附圖2,其構(gòu)造示意圖如附圖3,具體為第一步在特征提取區(qū) 域使用SOBEL算子計(jì)算該區(qū)域內(nèi)每個(gè)像素點(diǎn)的梯度的幅值和方向,如圖3右邊所 示,其中分別以每個(gè)方格內(nèi)的箭頭長度和箭頭方向表示,第二步使用中心位于
特征提取區(qū)域的中心二維高斯函數(shù)6鄧[-( +/)/2^]與特征提取區(qū)域中每個(gè)像
素的梯度幅值進(jìn)行相乘(式中o^.75X區(qū)域?qū)挾?,第三步在特征區(qū)域內(nèi)規(guī)則 切分出WXW個(gè)子區(qū)域(圖4中^2),每個(gè)區(qū)域的中心賦予一個(gè)稱為種子點(diǎn)的梯 度方向直方圖統(tǒng)計(jì)向量(統(tǒng)計(jì)方向共八個(gè),彼此間隔為45度),第四步統(tǒng)計(jì)區(qū) 域的梯度方向直方圖,具體過程為,若某個(gè)像素點(diǎn)梯度方向落在某一個(gè)統(tǒng)計(jì)方 向的附近,則其相應(yīng)的梯度幅值就累加在這個(gè)方向上,累加過程中,像素梯度2008102
幅值經(jīng)過三線性插值后一一累加到毗連的各直方圖塊中,第五歩將SIFT描述子 向量進(jìn)行歸一化。
本發(fā)明的使用的手寫漢字識(shí)別系統(tǒng)的結(jié)構(gòu)框圖如附圖4所示,手寫漢字圖 像在輸入后,先進(jìn)行均值濾波的預(yù)處理,然后使用本發(fā)明的兩種特征提取方法
之一進(jìn)行特征提取。提取出原始特征后,通過線性判決分析LDA進(jìn)行降維,
通過距離分類器計(jì)算降維后的特征矢量與模板中所有漢字的特征矢量的歐式距
離,將模板中所有漢字按歐式距離從小到大排序,選取前30個(gè)漢字作為識(shí)別的 候選字集,最后使用MQDF分類器進(jìn)行識(shí)別,得出識(shí)別結(jié)果。本發(fā)明手寫漢字 識(shí)別系統(tǒng)的模板是經(jīng)過HCL2000數(shù)據(jù)庫的訓(xùn)練樣本統(tǒng)計(jì)學(xué)習(xí)得到的。從 HCL2000手寫漢字樣本數(shù)據(jù)庫隨機(jī)挑選500套樣本進(jìn)行訓(xùn)練,200套不重復(fù)的 樣本進(jìn)行識(shí)別測(cè)試,使用本發(fā)明的方法獲取的特征的識(shí)別結(jié)果是首選字命中 率是97.556%,前10個(gè)候選字的命中率為99.639%。
10
權(quán)利要求
1、一種用于手寫漢字識(shí)別的圖像特征提取方法,其特征在于將手寫漢字圖像切分成一系列穩(wěn)定的特征提取區(qū)域,再通過尺度不變性特征變換算法對(duì)這些區(qū)域進(jìn)行特征提取。
2、 根據(jù)權(quán)利要求1所述的用于手寫漢字識(shí)別的圖像特征提取方法,其特征在于包括如下步驟-(1) 、首次切分手寫漢字圖像成局部圖像塊;(2) 、對(duì)子圖像塊提取尺度不變性特征變換描述子特征;(3) 、再次切分手寫漢字圖像成局部圖像塊,重復(fù)步驟(2);(4) 、拼接所有局部圖像塊尺度不變性特征變換描述子特征,形成最終特 征向量。
3、 根據(jù)權(quán)利要求2所述的用于手寫漢字識(shí)別的圖像特征提取方法,其特 征在于所述步驟(1)的切分方法為先水平后垂直彈性切分,具體先對(duì)漢字圖像 在水平方向上非均勻彈性劃分3個(gè)長方形,使每個(gè)長方形內(nèi)具有相等的漢字像 素,然后在垂直方向上在各個(gè)長方形圖塊內(nèi)部進(jìn)行非均勻彈性切分,使得每個(gè) 長方形圖塊均切分出3個(gè)彼此間漢字像素相等的小長方形圖塊,最終得到9塊 子圖像塊。
4、 根據(jù)權(quán)利要求2所述的用于手寫漢字識(shí)別的圖像特征提取方法,其特 征在于所述步驟(2)對(duì)局部圖像塊提取尺度不變性特征變換描述子特征過程是: 先將切分出的局部圖像塊大小進(jìn)行線性歸一化,然后對(duì)每個(gè)局部圖像塊區(qū)域提 取尺度不變性特征變換描述子特征,提取中使用的尺度不變性特征變換描述子 參數(shù)為切分區(qū)域數(shù)目為2X2、統(tǒng)計(jì)方向?yàn)?,于是每個(gè)局部圖像塊獲得的特征向量維數(shù)為32。
5、 根據(jù)權(quán)利要求2或4所述的用于手寫漢字識(shí)別的圖像特征提取方法,其 特征在于所述步驟(2)提及的尺度不變性特征變換描述子特征通過在局部圖像塊區(qū)域計(jì)算所有像素的梯度向量,然后用以區(qū)域中心為中心的二維高斯函數(shù)對(duì) 所有梯度向量的幅值進(jìn)行加權(quán),接著把局部區(qū)域規(guī)則切分為多個(gè)子區(qū)域,在每 個(gè)子區(qū)域上統(tǒng)計(jì)每個(gè)方向的梯度方向直方圖,計(jì)算每個(gè)梯度方向累加值形成一個(gè)種子點(diǎn),每個(gè)種子點(diǎn)有8個(gè)方向的向量信息,最后組合各種子點(diǎn)形成輸出的特征。
6、 根據(jù)權(quán)利要求5所述的用于手寫漢字識(shí)別的圖像特征提取方法,其特征在于所述步驟(2)進(jìn)一步細(xì)化如下第一步使用S0BEL算子計(jì)算局部圖像塊區(qū)域內(nèi)每個(gè)像素點(diǎn)的梯度的幅值和 方向;第二步使用中心位于局部圖像塊區(qū)域的中心二維高斯函數(shù) exp[-(x2+y)/2一]與區(qū)域中每個(gè)像素的梯度幅值進(jìn)行相乘,其戶o =0. 75X區(qū)域?qū)挾龋坏谌皆诰植繄D像塊區(qū)域內(nèi)規(guī)則切分出iVA7V個(gè)子區(qū)域(N為常數(shù)),每 個(gè)區(qū)域的中心賦予一個(gè)稱為種子點(diǎn)的梯度方向直方圖統(tǒng)計(jì)向量,統(tǒng)計(jì)方向共八 個(gè),彼此間隔為45度;第四步統(tǒng)計(jì)局部圖像塊區(qū)域的梯度方向直方圖,具體過程為,若某個(gè)像素 點(diǎn)梯度方向落在某一個(gè)統(tǒng)計(jì)方向的附近,則其相應(yīng)的梯度幅值就累加在這個(gè)方 向上,累加過程中,像素梯度幅值經(jīng)過三線性插值后一一累加到毗連的各直方 圖塊中;第五步將尺度不變性特征變換描述子向量進(jìn)行歸一化。
7、 根據(jù)權(quán)利要求2所述的用于手寫漢字識(shí)別的圖像特征提取方法,其特征 在于所述步驟(3)使用的切分方法為先對(duì)漢字圖像在垂直方向上進(jìn)行彈性劃 分為3個(gè)長方形,使每個(gè)長方形內(nèi)具有相等的漢字像素,然后在水平方向上對(duì) 每個(gè)長方形進(jìn)行切分,切成3個(gè)彼此間漢字像素相等的圖塊,獲取另外9塊子 圖像塊。
8、 根據(jù)權(quán)利要求2所述的用于手寫漢字識(shí)別的圖像特征提取方法,其特征在于所述步驟(4)拼接所有局部圖像塊特征形成最終特征向量的具體操作為通過將步驟(2)、 (3)獲取的18個(gè)圖塊特征進(jìn)行順序拼接,獲得一個(gè)576維特 征向量,接著對(duì)這個(gè)向量中每一個(gè)元素進(jìn)行xD4的變換,變換后的特征向量為 最終輸出的特征向量。
全文摘要
本發(fā)明提供一種用于手寫漢字識(shí)別的圖像特征提取方法,將手寫漢字圖像切分成一系列穩(wěn)定的特征提取區(qū)域,再通過尺度不變性特征變換算法對(duì)這些區(qū)域進(jìn)行特征提取。本發(fā)明克服了直接應(yīng)用SIFT特征點(diǎn)定位無法提取有效的適應(yīng)不同書寫風(fēng)格的尺度不變特征的問題,結(jié)合手寫漢字圖像的特點(diǎn),應(yīng)用彈性網(wǎng)格技術(shù)與SIFT特征,設(shè)計(jì)出基于二次局部彈性區(qū)域的SIFT特征的手寫漢字特征提取方法。
文檔編號(hào)G06K9/00GK101488182SQ20081022033
公開日2009年7月22日 申請(qǐng)日期2008年12月24日 優(yōu)先權(quán)日2008年12月24日
發(fā)明者凱 丁, 張志毅, 金連文 申請(qǐng)人:華南理工大學(xué)