專利名稱:計(jì)算機(jī)鑒別手寫漢字的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于集成學(xué)習(xí)算法Bagging和單類SVM的計(jì)算機(jī)鑒別手寫漢字的方法,屬于計(jì)算機(jī)圖像處理和字符識(shí)別技術(shù)領(lǐng)域。
背景技術(shù):
隨著中國經(jīng)濟(jì)的快速發(fā)展,越來越多的外國人熱衷到中國,漢語逐漸成為熱門語言。然而,如何寫漢字成為重要而又困難的事情。隨著計(jì)算機(jī)及網(wǎng)絡(luò)的發(fā)展與普及,很多對(duì)外漢語專業(yè)的教師希望能通過文檔掃描的方式,利用模式識(shí)別技術(shù)來自動(dòng)評(píng)估和指導(dǎo)外國學(xué)生的漢字書寫?,F(xiàn)有多種手寫字符分類和識(shí)別技術(shù)。對(duì)于手寫字符鑒別,目前大部分技術(shù)專注于在線手寫字符鑒別和簽名驗(yàn)證。這些手寫字符鑒別和驗(yàn)證技術(shù)根據(jù)特征提取方法可以分為兩大類基于變形的方法和基于結(jié)構(gòu)的方法。但關(guān)注一般意義上的手寫字符鑒別的研究較少,其原因主要包括手寫字符鑒別本身是個(gè)很困難的任務(wù);手寫字符鑒別需要很多細(xì)節(jié)而瑣碎的技術(shù),比如要處理許多非常相似的結(jié)構(gòu)、筆畫和書寫風(fēng)格等;另外,一般意義上的手寫字符識(shí)別總是要應(yīng)對(duì)大類別數(shù)的問題,尤其是漢字。因此手寫漢字鑒別面臨巨大挑戰(zhàn)。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是,提供一種可對(duì)手寫漢字進(jìn)行自動(dòng)評(píng)估和指導(dǎo)、漢字識(shí)別準(zhǔn)確率高的計(jì)算機(jī)鑒別手寫漢字的方法。本發(fā)明計(jì)算機(jī)鑒別手寫漢字的方法包括以下步驟a,將手寫漢字樣本正規(guī)化處理大小為64*64 ;b.提取手寫漢字樣本的加權(quán)方向碼直方圖WDCH特征;加權(quán)方向碼直方圖特征利用了圖像中的所有像素點(diǎn)的信息,而且將各個(gè)點(diǎn)的方向?qū)傩粤炕?6級(jí),大大增加特征提取的精度。其特征提取算法的步驟如下①對(duì)正規(guī)化的64*64的字符圖像做η次3X 3均值濾波,并將得到的灰度圖像的灰度值歸一化到[_1,1],均值為0;②用Sobel算子對(duì)歸一化后的灰度圖像提取梯度,并計(jì)算每一點(diǎn)的梯度強(qiáng)度,公式如下dx = [f (X-1,y-1) +2f (χ, y_l) +f (x+1,y_l) ] - [f (x_l,y+1) +2f (x, y+1) +f (x+1,y+1)](1)
權(quán)利要求
1.一種計(jì)算機(jī)鑒別手寫漢字的方法,其特征是包括以下步驟,a.將手寫漢字樣本正規(guī)化處理大小為64*64;b.提取手寫漢字樣本的加權(quán)方向碼直方圖WDCH特征;c.采用PCA主元分析方法進(jìn)行特征降維;d.采用Bootstrp方法抽取T個(gè)訓(xùn)練樣本集S’;即每個(gè)訓(xùn)練樣本集S’都是從初始訓(xùn)練集S中有放回地隨機(jī)選取N個(gè)訓(xùn)練樣本來組成,其中可以有重復(fù)樣本,并且保證每個(gè)訓(xùn)練樣本集的樣本替換率為50%,各個(gè)訓(xùn)練集之間相互獨(dú)立;e.選擇單類SVM及相應(yīng)RBF核進(jìn)行手寫漢字鑒別;用上述T個(gè)訓(xùn)練樣本集S’分別獨(dú)立訓(xùn)練生成T個(gè)單類SVM分類器Ci,其中T個(gè)分類器可以并行訓(xùn)練生成;對(duì)于單類SVM,正樣本集X = Ix1, x2,. . .,%},N為樣本數(shù),Xi為一個(gè)樣本;在單類SVM 訓(xùn)練過程中,輸入為X,輸出只包括正類標(biāo)簽;在測試過程中,輸出為正類標(biāo)簽時(shí),則輸入測試樣本鑒別為正類,否則被認(rèn)為是負(fù)類;f.采用相對(duì)多數(shù)的投票策略集成T個(gè)單類SVM分類器Ci,得到分類器C*;然后對(duì)測試樣本集Te中的手寫漢字樣本進(jìn)行鑒別和評(píng)估測試,鑒別結(jié)果依據(jù)下述公式(5),
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)鑒別手寫漢字的方法,其特征是步驟b提取手寫漢字樣本的加權(quán)方向碼直方圖WDCH特征的提取算法步驟如下①對(duì)正規(guī)化的64*64的字符圖像做η次3X 3均值濾波,并將得到的灰度圖像的灰度值歸一化到[_1,1],均值為0;②用Sobel算子對(duì)歸一化后的灰度圖像提取梯度,并計(jì)算每一點(diǎn)的梯度強(qiáng)度,公式如下
全文摘要
本發(fā)明涉及一種基于集成學(xué)習(xí)算法Bagging和單類SVM的計(jì)算機(jī)鑒別手寫漢字的方法,屬于計(jì)算機(jī)圖像處理和字符識(shí)別技術(shù)領(lǐng)域。它包括以下步驟a.將手寫漢字樣本正規(guī)化處理大小為64*64;b.提取手寫漢字樣本的加權(quán)方向碼直方圖WDCH特征;c.采用PCA主元分析方法進(jìn)行特征降維;d.采用Bootstrp方法抽取T個(gè)訓(xùn)練樣本集S’;e.選擇單類SVM及相應(yīng)RBF核進(jìn)行手寫漢字鑒別;f.采用相對(duì)多數(shù)的投票策略集成T個(gè)單類SVM分類器Ci,得到分類器C*;然后對(duì)測試樣本集Te中的手寫漢字樣本進(jìn)行鑒別和評(píng)估測試。本發(fā)明可對(duì)手寫漢字進(jìn)行自動(dòng)評(píng)估和指導(dǎo)、漢字識(shí)別準(zhǔn)確率高。
文檔編號(hào)G06K9/66GK102254196SQ201110169749
公開日2011年11月23日 申請(qǐng)日期2011年6月22日 優(yōu)先權(quán)日2011年6月22日
發(fā)明者殷緒成 申請(qǐng)人:江蘇奧博洋信息技術(shù)有限公司