一種手寫體識別方法及系統(tǒng)的制作方法
【專利摘要】本申請公開了一種手寫體識別方法及系統(tǒng),方法為:利用帶平滑范數(shù)L1的自編碼器對訓練樣本集中的各個訓練樣本進行處理,得到對應的目標訓練樣本,所述目標訓練樣本與所述訓練樣本集中的樣本標簽組成目標訓練樣本集,所述帶平滑范數(shù)L1的自編碼器的目標函數(shù)中設有稀疏懲罰項,該稀疏懲罰項為平滑L1范數(shù),然后利用目標訓練樣本訓練分類器,得到目標分類器,利用帶平滑范數(shù)L1的自編碼器對待預測樣本進行處理,得到目標待預測樣本,最后將所述目標待預測樣本輸入至所述目標分類器,以確定待預測樣本的類別。本申請的方案將平滑范數(shù)L1引入自編碼器中,代替常用的KL散度,作為新的稀疏懲罰項,能夠得到更具判別性的特征,使得最終的手寫體識別率更高。
【專利說明】一種手寫體識別方法及系統(tǒng)
【技術領域】
[0001] 本申請涉及模式識別【技術領域】,更具體地說,涉及一種手寫體識別方法及系統(tǒng)。
【背景技術】
[0002] 手寫體數(shù)字的識別在實際生活中(如郵政、銀行和電子商務等領域)有著較為深 遠的應用需求。其一直都是模式識別領域的研宄熱點。近年來,隨著計算機技術和圖像處 理技術的飛速發(fā)展,已經(jīng)提出了很多用于實現(xiàn)手寫體數(shù)字識別的方法,例如基于筆畫特征 的算法、基于K近鄰的算法、基于支持向量機的算法和基于神經(jīng)網(wǎng)絡的算法等等。但是,由 于手寫數(shù)字因人而異且變化很多,導致各類算法的識別效果仍然不夠理想。因此,研宄高效 的手寫體數(shù)字識別依然是一個重要的方向。
[0003] 人工神經(jīng)網(wǎng)絡的方法對于逼近實數(shù)值、離散值或向量值的目標函數(shù)提供了一種健 壯性很強的方法。自編碼器是一個三層神經(jīng)網(wǎng)絡,包括輸入層、隱藏層和輸出層。自編碼器 通過最小化輸入數(shù)據(jù)的重構(gòu)誤差來習得輸入數(shù)據(jù)內(nèi)部的統(tǒng)計結(jié)構(gòu),從而得到更具判別能力 的特征。斯坦福大學的AndrewNg教授通過在自編碼器的目標函數(shù)中添加KL散度正則化 項來懲罰較大的特征而成功地實現(xiàn)了對數(shù)據(jù)的稀疏編碼,并學習到了良好的特征。但是KL 散度對數(shù)據(jù)稀疏編碼的能力有限,因此最終得到的特征對于手寫體數(shù)字的識別仍存在一定 的局限。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本申請?zhí)峁┝艘环N手寫體識別方法及系統(tǒng),用于解決現(xiàn)有手寫體識別 方法識別效果低下的問題。
[0005] 為了實現(xiàn)上述目的,現(xiàn)提出的方案如下:
[0006] 一種手寫體識別方法,包括:
[0007] 利用帶平滑范數(shù)L1的自編碼器對訓練樣本集中的各個訓練樣本進行處理,得到對 應的目標訓練樣本,所述目標訓練樣本與所述訓練樣本集中的樣本標簽組成目標訓練樣本 集,所述帶平滑范數(shù)L1的自編碼器的目標函數(shù)中設有稀疏懲罰項,該稀疏懲罰項為平滑L1 范數(shù);
[0008] 利用所述目標訓練樣本集訓練分類器,得到目標分類器;
[0009] 利用帶平滑范數(shù)L1的自編碼器對待預測樣本進行處理,得到目標待預測樣本; [0010] 將所述目標待預測樣本輸入至所述目標分類器,以確定待預測樣本的類別。
[0011] 優(yōu)選地,所述利用帶平滑范數(shù)L1的自編碼器對訓練樣本集中的各個訓練樣本進行 處理,得到對應的目標訓練樣本,包括:
[0012] 定義訓練樣本集為:
[0013]
【權(quán)利要求】
1. 一種手寫體識別方法,其特征在于,包括: 利用帶平滑范數(shù)1^的自編碼器對訓練樣本集中的各個訓練樣本進行處理,得到對應的 目標訓練樣本,所述目標訓練樣本與所述訓練樣本集中的樣本標簽組成目標訓練樣本集, 所述帶平滑范數(shù)U的自編碼器的目標函數(shù)中設有稀疏懲罰項,該稀疏懲罰項為平滑L:范 數(shù); 利用所述目標訓練樣本集訓練分類器,得到目標分類器; 利用帶平滑范數(shù)U的自編碼器對待預測樣本進行處理,得到目標待預測樣本; 將所述目標待預測樣本輸入至所述目標分類器,以確定待預測樣本的類別。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述利用帶平滑范數(shù)L:的自編碼器對訓 練樣本集中的各個訓練樣本進行處理,得到對應的目標訓練樣本,包括: 定義訓練樣本集為:
其中,y(i)是與訓練樣本x(i)對應的樣本標簽,m是訓練樣本的個數(shù),d是訓練樣本維度; 定義自編碼器的假設函數(shù)為:
其中,W和b分別表示自編碼器的權(quán)重和偏置; 定義第i個訓練樣本的第j個隱單元的輸出表示為,且隱單元的個數(shù)為n; 確定帶平滑范數(shù)U的自編碼器的目標函數(shù)為:
其中,第一項為重構(gòu)項,第二項為權(quán)重衰減項,X為權(quán)重衰減系數(shù),第三項為稀疏懲罰 項,0為系數(shù)懲罰因子的權(quán)重,S(_)表示平滑U范數(shù),具體如下:
其中,y>〇為預設參數(shù); 求解使得所述目標函數(shù)最小的參數(shù)評_和b 將UPb_帶入自編碼器的假設函數(shù)中,得到目標假設函數(shù); 將訓練樣本集中的訓練樣本x(i)帶入所述目標假設函數(shù),得到目標訓練樣本a(i)。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,在求解使得所述目標函數(shù)最小的參數(shù)W_ 和13_時,使用反向傳播算法進行計算。
4. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述利用帶平滑范數(shù)L:的自編碼器對待 預測樣本進行處理,得到目標待預測樣本,包括: 將所述待預測樣本帶入所述目標假設函數(shù),得到目標待預測樣本。
5. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述分類器為Softmax分類器。
6. -種手寫體識別系統(tǒng),其特征在于,包括: 訓練樣本處理單元,用于利用帶平滑范數(shù)U的自編碼器對訓練樣本集中的各個訓練樣 本進行處理,得到對應的目標訓練樣本,所述目標訓練樣本與所述訓練樣本集中的樣本標 簽組成目標訓練樣本集,所述帶平滑范數(shù)U的自編碼器的目標函數(shù)中設有稀疏懲罰項,該 稀疏懲罰項為平滑U范數(shù); 分類器訓練單元,用于利用所述目標訓練樣本集訓練分類器,得到目標分類器; 待測樣本處理單元,用于利用帶平滑范數(shù)1^的自編碼器對待預測樣本進行處理,得到 目標待預測樣本; 類別確定單元,用于將所述目標待預測樣本輸入至所述目標分類器,以確定待預測樣 本的類別。
7. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述訓練樣本處理單元包括: 參數(shù)定義單元,用于定義訓練樣本集為:
其中,y(i)是與訓練樣本x(i)對應的樣本標簽,m是訓練樣本的個數(shù),d是訓練樣本維度; 定義自編碼器的假設函數(shù)為:
其中,W和b分別表示自編碼器的權(quán)重和偏置; 定義第i個訓練樣本的第j個隱單元的輸出表示為,且隱單元的個數(shù)為n; 目標函數(shù)確定單元,用于確定帶平滑范數(shù)U的自編碼器的目標函數(shù)為:
其中,第一項為重構(gòu)項,第二項為權(quán)重衰減項,X為權(quán)重衰減系數(shù),第三項為稀疏懲罰 項,0為系數(shù)懲罰因子的權(quán)重,S(_)表示平滑U范數(shù),具體如下:
其中,y>〇為預設參數(shù); 目標函數(shù)求解單元,用于求解使得所述目標函數(shù)最小的參數(shù)1_和b 假設函數(shù)確定單元,用于將UPb_帶入自編碼器的假設函數(shù)中,得到目標假設函 數(shù); 目標訓練樣本獲取單元,用于將訓練樣本集中的訓練樣本x(i)帶入所述目標假設函數(shù), 得到目標訓練樣本a(i)。
8. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,在求解使得所述目標函數(shù)最小的參數(shù)W_ 和13_時,使用反向傳播算法進行計算。
9. 根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述待測樣本處理單元包括: 第一待測樣本處理子單元,用于將所述待預測樣本帶入所述目標假設函數(shù),得到目標 待預測樣本。
【文檔編號】G06K9/66GK104484684SQ201510001954
【公開日】2015年4月1日 申請日期:2015年1月5日 優(yōu)先權(quán)日:2015年1月5日
【發(fā)明者】張莉, 魯亞平, 王邦軍, 楊季文, 張召, 李凡長 申請人:蘇州大學