率。而 當半個滑動采樣框所截取的內(nèi)容為數(shù)字、字母或者標點符號時,由于數(shù)字、字母或者標點符 號的寬度大多是在半個漢字寬度的范圍內(nèi),半個滑動采樣框剛好能夠覆蓋該字符的全部內(nèi) 容,對應的識別輸出結(jié)果也為完整的數(shù)字、字母或者標點符號。可以看出通過本發(fā)明系統(tǒng)在 不經(jīng)過字符切分的前提下巧妙的解決了混合有漢字、數(shù)字、字母的圖像文字的識別問題。
[0065] 特別的,很多左右結(jié)構的漢字具有相同的部首,而本發(fā)明的識別方法會將左右結(jié) 構的漢字的左右部分分別識別出來,這樣的情況下,為了簡化識別結(jié)果,可以將這樣漢字的 左右兩部分分別標注,在識別的后期再對識別結(jié)果進行合并,輸出完整的漢字。如圖5所示, 比如說:行、征、徑、徐、徹……等漢字,具有相同的部首"才",將該部首統(tǒng)一標注為"才1",而 將這些字對應右偏旁分別標注為"才2"、"才3"、"才4"、"才5"、"才6"……相應的遞歸神經(jīng)網(wǎng) 絡分類器經(jīng)過迭代識別,依次輸出對應漢字的部首和右偏旁,然后將該部首和右偏旁整合, 形成完整的漢字識別結(jié)果。進一步的,本發(fā)明系統(tǒng)還包括詞典映射表模塊,所述詞典映射表 模塊通過詞典映射表將所述遞歸神經(jīng)網(wǎng)絡分類器輸出的識別結(jié)果轉(zhuǎn)化成特征向量。所述詞 典映射表為一個二維矩陣,行數(shù)為詞典的大小,列數(shù)(行向量的維度)根據(jù)詞典的大小和數(shù) 據(jù)的規(guī)模來設定,詞典映射表的目的為將字符特征化,向量化。
[0066] 具體的,為了和本發(fā)明系統(tǒng)的每個時刻遞歸神經(jīng)網(wǎng)絡分類器的輸出結(jié)果相對應, 本發(fā)明中所采用的詞典映射表的每個行向量分別對應:漢字的前部分、漢字的后部分、數(shù) 字、字母、標點符號以及空白。這種對應關系是根據(jù)可能的識別結(jié)果在構建這個詞典映射表 時設置的。
[0067]進一步的,在進行模型訓練時,包含將訓練樣本圖標進行歸一化處理和人工標注 過程,歸一化處理樣本,使得樣本的基本參數(shù)均一,降低模型訓練時數(shù)據(jù)無關復雜度,有利 于簡化模型訓練過程;其中歸一化處理過程包括:設定圖像文字序列可能的最長字數(shù),比如 設定圖像文字序列的字符個數(shù)為20,待識別文字序列的長度與遞歸神經(jīng)網(wǎng)絡分類器的最大 遞歸次數(shù)相對應,在進行訓練樣本準備時設置待識別文字序列的最長字符數(shù)可以對應的預 設遞歸神經(jīng)網(wǎng)絡分類器的最大遞歸次數(shù)(比如當將比如設定圖像文字序列的字符個數(shù)為20 時,遞歸神經(jīng)網(wǎng)絡分類器的最大遞歸次數(shù)對應為40次),增加模型的穩(wěn)定性和可預見性。 [0068]進一步的,在進行歸一化處理過程中,為了避免數(shù)據(jù)變形,尺寸的放大縮小使用等 比例的方式,與目標尺寸缺失的區(qū)域用背景色補齊。
[0069]進一步的,將歸一化的圖片進行人工標注,對訓練樣本和開發(fā)樣本進行人工標注 時,將漢字字符的前部分和后部分分別標注。
[0070]進一步的,在對訓練樣本和開發(fā)樣本進行人工標注時,如果待標注的句子字的字 符數(shù)小于設置的最大字符數(shù)時(不足20),使用一個特殊的詞語進行補齊(比如使用"<E0S>" 將不足20個字符的樣本圖片補齊至20個字符的長度)。
[0071]進一步的,本發(fā)明提供一種復雜圖像文字序列識別設備;包含計算機和,或服務 器,所述計算機和,或服務器加載有上述系統(tǒng)中所述的滑動采樣模塊、卷積神經(jīng)網(wǎng)絡和遞歸 神經(jīng)網(wǎng)絡分類器程序。
【主權項】
1. 一種基于遞歸神經(jīng)網(wǎng)絡的復雜圖像文字序列識別系統(tǒng),其特征在于,包含圖像文字 輸入模塊、滑動采樣模塊、卷積神經(jīng)網(wǎng)絡W及遞歸神經(jīng)網(wǎng)絡分類器,其中所述滑動采樣模塊 使用滑動采樣框?qū)D像文字輸入模塊所輸入的待識別圖像文字序列進行滑動采樣,并將采 樣所獲得的子圖片輸入到卷積神經(jīng)網(wǎng)絡中; 所述卷積神經(jīng)網(wǎng)絡提取所述子圖片的特征,并將提取到的特征輸入到所述遞歸神經(jīng)網(wǎng) 絡分類器中; 所述遞歸神經(jīng)網(wǎng)絡分類器根據(jù)卷積神經(jīng)網(wǎng)絡提取的特征數(shù)據(jù)、上一時刻遞歸神經(jīng)網(wǎng)絡 分類器的輸出數(shù)據(jù)W及上一時刻遞歸神經(jīng)網(wǎng)絡分類器識別結(jié)果轉(zhuǎn)化成的向量數(shù)據(jù),計算出 該時刻圖像文字序列識別結(jié)果。2. 如權利要求1所示的系統(tǒng),其特征在于,所述遞歸神經(jīng)網(wǎng)絡分類器采用W下向前算法 公式:其中I是輸入向量的維度,V是歸神經(jīng)網(wǎng)絡分類器識別結(jié)果轉(zhuǎn)化成的向量的維度,H是隱 層的神經(jīng)元個數(shù),K是輸出層的神經(jīng)元個數(shù),X為卷積神經(jīng)網(wǎng)絡提取出來的特征數(shù)據(jù),V為遞 歸神經(jīng)網(wǎng)絡分類器識別結(jié)果轉(zhuǎn)化成的向量數(shù)據(jù),%為當前時刻遞歸神經(jīng)網(wǎng)絡分類器中隱 含層神經(jīng)元的輸入,A/;為當前時刻遞歸神經(jīng)網(wǎng)絡分類器隱含層神經(jīng)元的輸出;為當前 時刻遞歸神經(jīng)網(wǎng)絡分類器輸出層神經(jīng)元的輸入;為當前時刻遞歸神經(jīng)網(wǎng)絡分類器輸出 層神經(jīng)元的輸出,為一個概率值,表示當前時刻對應神經(jīng)元輸出值相對于輸出層所有神 經(jīng)元輸出值的加和的比例。3. 如權利要求1或者2所述的系統(tǒng),其特征在于,所述滑動采樣框滿足W下條件:a<L< 1.5a,0,加含W含1.5b,其中L為矩形滑動采樣框的長,W為矩形滑動采樣框的寬,a為待識別 字符圖片的長,b為待識別字符圖片的寬。4. 如權利要求3所述的系統(tǒng),其特征在于,所述滑動采樣框每次滑動的距離H滿足W下 條件:0.4b<H<0.化。5. 如權利要求4所述的系統(tǒng),其特征在于,包括詞典映射表模塊,所述詞典映射表模塊 通過詞典映射表將所述遞歸神經(jīng)網(wǎng)絡分類器輸出的識別結(jié)果轉(zhuǎn)化成特征向量。6. 如權利要求5所述的系統(tǒng),其特征在于,所述詞典映射表為一個二維矩陣,所述詞典 映射表的每一個行向量與遞歸神經(jīng)網(wǎng)絡輸出的識別結(jié)果相對應。7. 如權利要求6所述的系統(tǒng),其特征在于,所述詞典映射表的行向量分別對應漢字的前 部分、漢字的后部分、數(shù)字、字母、標點符號或者空白。8. 如權利要求7所述的系統(tǒng),其特征在于,所述圖像文字輸入模塊為掃描儀、數(shù)碼相機 或者具有輸出能力的圖像文字存儲模塊。9. 一種復雜圖像文字序列識別設備,其特征在于,包含計算機和,或服務器,所述計算 機和,或服務器加載有如權利要求1-8之一所述的滑動采樣模塊、卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng) 網(wǎng)絡分類器程序。
【專利摘要】本發(fā)明涉及圖像文字識別領域,特別涉及一種基于遞歸神經(jīng)網(wǎng)絡的復雜圖像文字序列識別系統(tǒng),系統(tǒng)包括圖像文字輸入模塊、滑動采樣模塊、CNN以及RNN,所述圖像文字輸入模塊為掃描儀、數(shù)碼相機或者圖像文字存儲模塊;本系統(tǒng)中滑動采樣模塊對待識別圖像文字序列進行滑動采樣并將采樣子圖片輸入到CNN中,CNN提取特征并輸出到RNN中,所述RNN根據(jù)CNN輸入信號,上一時刻CNN的輸出數(shù)據(jù)以及上一時刻CNN識別結(jié)果轉(zhuǎn)化成的向量數(shù)據(jù),依次識別出漢字的前部分、漢字的后部分、數(shù)字、字母或者標點符號。本發(fā)明系統(tǒng)克服了復雜圖像文字序列的切分難題,且不需構建額外的語言模型,顯著提高了復雜圖像文字序列的識別效率和準確率。
【IPC分類】G06K9/62, G06N3/08
【公開號】CN105654130
【申請?zhí)枴?br>【發(fā)明人】劉世林, 何宏靖, 陳炳章, 吳雨濃, 姚佳
【申請人】成都數(shù)聯(lián)銘品科技有限公司
【公開日】2016年6月8日
【申請日】2015年12月30日