結(jié)果分為漢字的前部分、漢字的后部分、數(shù)字、字母和符 號。本發(fā)明系統(tǒng)的克服了 OCR識別前先要進(jìn)行圖片切分的弊端,解決了混合有漢字(包括左 右結(jié)構(gòu)的漢字)、數(shù)字、字母、符號等復(fù)雜文字序列的識別問題,提高了復(fù)雜文字序列的識別 的準(zhǔn)確率。同時(shí)本發(fā)明中采用的遞歸神經(jīng)網(wǎng)絡(luò)在模型訓(xùn)練和應(yīng)用的過程中RNN遞歸使用了 上一輪的識別結(jié)果和輸出數(shù)據(jù),這樣這每次輸出識別數(shù)據(jù)時(shí)在依賴本次采樣數(shù)據(jù)的同時(shí)也 依賴了先前的識別結(jié)果,這種對先前識別結(jié)果的依賴,可以理解為應(yīng)用了語言模型,這樣在 不需要構(gòu)建額外的語言模型來對字符的識別結(jié)果進(jìn)行優(yōu)化,在提升字、詞序列的識別準(zhǔn)確 率的同時(shí)進(jìn)一步提高了圖像文字的識別效率。
[0055] 進(jìn)一步的,在進(jìn)行模型訓(xùn)練時(shí),需要對訓(xùn)練樣本進(jìn)行人工標(biāo)注,根據(jù)識別情況將樣 本圖像文字中的漢字、數(shù)字、字母以及標(biāo)點(diǎn)符號分別進(jìn)行相應(yīng)的標(biāo)注,其中將漢字字符的前 部分和后部分分別標(biāo)注,比如說將漢字中的"字"分別標(biāo)注為"字Γ和"字2","字Γ是指"字" 的前部分,"字2"是指"字"的后部分。
[0056] 相應(yīng)的,本發(fā)明中所述遞歸神經(jīng)網(wǎng)絡(luò)的識別結(jié)果包含"漢字的前部分"、"漢字的后 部分"、數(shù)字、字母以及標(biāo)點(diǎn)符號。由于一般情況下漢字的寬度是半角格式的數(shù)字或者字母 寬度的兩倍,本發(fā)明在進(jìn)行文字識別時(shí),所述滑動(dòng)采樣框每次約滑動(dòng)半個(gè)采樣框的距離。這 樣情況下每次遞歸神經(jīng)網(wǎng)絡(luò)的識別輸出對應(yīng)半個(gè)滑動(dòng)采樣框截取的內(nèi)容,如果待識別的字 符是漢字字符,通過這種采樣方式最終的識別結(jié)果將會(huì)漢字拆分成前部分和后部分;而這 樣的采樣方式會(huì)自然的將左右結(jié)構(gòu)的漢字字符,拆分成左右兩部分,并且對應(yīng)的輸出結(jié)果 為漢字字符的左偏旁和右偏旁,當(dāng)遞歸神經(jīng)網(wǎng)絡(luò)相鄰兩個(gè)時(shí)刻的輸出為同一個(gè)漢字的左右 偏旁時(shí),稍后的識別輸出時(shí)會(huì)將左右偏旁合并為一個(gè)完整的漢字,從而以最簡單的方式解 決了左右結(jié)構(gòu)圖像漢字的切分和識別難題,極大的提高了圖像文字的識別效率。而當(dāng)半個(gè) 滑動(dòng)采樣框所截取的內(nèi)容為數(shù)字、字母或者標(biāo)點(diǎn)符號時(shí),由于數(shù)字、字母或者標(biāo)點(diǎn)符號的寬 度大多是在半個(gè)漢字寬度的范圍內(nèi),半個(gè)滑動(dòng)采樣框剛好能夠覆蓋字符的全部內(nèi)容,對應(yīng) 的識別輸出結(jié)果也為完整的數(shù)字、字母或者標(biāo)點(diǎn)。可以看出通過本發(fā)明方法在不經(jīng)過字符 切分的前提下巧妙的解決了混合有漢字、數(shù)字、字母的圖像文字的識別問題。
[0057]特別的,很多左右結(jié)構(gòu)的漢字具有相同的部首,而本發(fā)明的識別方法會(huì)將左右結(jié) 構(gòu)的漢字的左右部分分別識別出來,這樣的情況下,為了簡化識別結(jié)果可以將這樣左右結(jié) 構(gòu)的漢字的左右兩部分分別標(biāo)注,在識別的后期再對識別結(jié)果進(jìn)行合并,輸出完整的漢字。 如圖4所示,比如說:行、征、徑、徐、徹……等漢字,具有相同的部首"4",將該部首統(tǒng)一標(biāo)注 為"才Γ,而將這些字對應(yīng)右偏旁分別標(biāo)注為"才2"、"才3"、"才4"、"才5"、"才6"……相應(yīng)的 遞歸神經(jīng)網(wǎng)絡(luò)經(jīng)過迭代識別,依次輸出對應(yīng)漢字的部首和右偏旁,然后將該部首和右偏旁 整合,形成完整的漢字識別結(jié)果。
[0058] 進(jìn)一步的,本發(fā)明中使用詞典映射表對識別結(jié)果進(jìn)行向量化,所述詞典映射表為 一個(gè)二維矩陣,行數(shù)為詞典的大小,列數(shù)(行向量的維度)根據(jù)詞典的大小和數(shù)據(jù)的規(guī)模來 設(shè)定。簡單說來,詞典映射表就是一個(gè)二維矩陣,詞典映射表的目的為將所述遞歸神經(jīng)網(wǎng)絡(luò) 的字符識別結(jié)果特征化,向量化。
[0059] 具體的,為了和本發(fā)明方法的每個(gè)時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果相對應(yīng),本發(fā)明 中所采用的詞典映射表的每個(gè)行向量分別對應(yīng):漢字的前部分、漢字的后部分、數(shù)字、字母 以及標(biāo)點(diǎn)符號,這種對應(yīng)關(guān)系是根據(jù)可能的識別結(jié)果在構(gòu)建這個(gè)詞典映射表時(shí)設(shè)置的。
[0060] 進(jìn)一步的,在進(jìn)行模型訓(xùn)練時(shí),包含將訓(xùn)練樣本圖標(biāo)進(jìn)行歸一化處理和人工標(biāo)注 過程,歸一化處理樣本,使得樣本的基本參數(shù)均一,降低模型訓(xùn)練時(shí)數(shù)據(jù)無關(guān)復(fù)雜度,有利 于簡化模型訓(xùn)練過程;其中歸一化處理過程包括:設(shè)定圖像文字序列可能的最長字?jǐn)?shù),比如 設(shè)定圖像文字序列的字符個(gè)數(shù)為20,待識別文字序列的長度與遞歸神經(jīng)網(wǎng)絡(luò)的最大遞歸次 數(shù)相對應(yīng),在進(jìn)行訓(xùn)練樣本準(zhǔn)備時(shí)設(shè)置待識別文字序列的最長字符數(shù)可以對應(yīng)的預(yù)設(shè)遞歸 神經(jīng)網(wǎng)絡(luò)的最大遞歸次數(shù)(比如當(dāng)將比如設(shè)定圖像文字序列的字符個(gè)數(shù)為20時(shí),遞歸神經(jīng) 網(wǎng)絡(luò)的最大遞歸次數(shù)對應(yīng)為40次),增加模型的穩(wěn)定性和可預(yù)見性。
[0061]進(jìn)一步的,在進(jìn)行歸一化處理過程中,為了避免數(shù)據(jù)變形,尺寸的放大縮小使用等 比例的方式,與目標(biāo)尺寸缺失的區(qū)域用背景色補(bǔ)齊。
[0062]進(jìn)一步的,將歸一化的圖片進(jìn)行人工標(biāo)注,對訓(xùn)練樣本和開發(fā)樣本進(jìn)行人工標(biāo)注 時(shí),將漢字字符的前部分和后部分分別標(biāo)注。
[0063]進(jìn)一步的,在對訓(xùn)練樣本和開發(fā)樣本進(jìn)行人工標(biāo)注時(shí),如果待標(biāo)注的句子字的字 符數(shù)小于設(shè)置的最大字符數(shù)時(shí)(不足20),使用一個(gè)特殊的詞語進(jìn)行補(bǔ)齊(比如使用"<SP>" 將不足20個(gè)字符的樣本圖片補(bǔ)齊至20個(gè)字符的長度)。
【主權(quán)項(xiàng)】
1. 一種基于CNN-RNN的復(fù)雜圖像字序列識別方法,其特征在于,包含以下實(shí)現(xiàn)過程: 經(jīng)過一個(gè)滑動(dòng)采樣框?qū)Υ幚韴D像文字序列進(jìn)行滑動(dòng)采樣,并將采樣獲得的子圖片輸 入到卷積神經(jīng)網(wǎng)絡(luò)中; 由所述卷積神經(jīng)網(wǎng)絡(luò)對輸入的子圖片提取特征,并將提取的特征數(shù)據(jù)輸入到遞歸神經(jīng) 網(wǎng)絡(luò)中,由所述遞歸神經(jīng)輸出識別結(jié)果; 所述遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號還包括:上一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù)以及上一時(shí) 刻遞歸神經(jīng)網(wǎng)絡(luò)識別結(jié)果轉(zhuǎn)化成的向量數(shù)據(jù); 依次迭代,將每個(gè)時(shí)刻所述遞歸神經(jīng)網(wǎng)絡(luò)的識別結(jié)果記錄合并,得到待處理圖像文字 序列的識別結(jié)果。2. 如權(quán)利要求1所述的方法,其特征在于,所述遞歸神經(jīng)網(wǎng)絡(luò)采用以下向前算法公式:其中I是輸入向量的維度,V是向量化的字符或者字符部分的維度,Η是隱層的神經(jīng)元個(gè) 數(shù),Κ是輸出層的神經(jīng)元個(gè)數(shù),X為卷積神經(jīng)網(wǎng)絡(luò)提取出來的特征數(shù)據(jù),ν為遞歸神經(jīng)網(wǎng)絡(luò)識 別結(jié)果化成的向量數(shù)據(jù),^為當(dāng)前時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)中隱含層神經(jīng)元的輸入,^為當(dāng)前時(shí) 刻遞歸神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸出;為當(dāng)前時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)輸出層神經(jīng)元的輸入; 為當(dāng)前時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)輸出層神經(jīng)元的輸出,為一個(gè)概率值,表示當(dāng)前時(shí)刻對應(yīng) 神經(jīng)元輸出值相對于輸出層所有神經(jīng)元輸出值的加和的比例。3. 如權(quán)利要求1或者2所述的方法,其特征在于,所述滑動(dòng)采樣框滿足以下條件:a < L < 1.5a,b < W < 1.5b,其中L為矩形滑動(dòng)采樣框的長,W為矩形滑動(dòng)采樣框的寬,a為待識別字符 圖片的長,b為待識別字符圖片的寬。4. 如權(quán)利要求3所述的方法,其特征在于,所述滑動(dòng)采樣框每次滑動(dòng)的距離Η滿足以下 條件:0.4b<H<0.6b。5. 如權(quán)利要求4所述的方法,其特征在于,在對待處理圖像文字進(jìn)行滑動(dòng)處理前,包含 進(jìn)行歸一化處理的過程,所述待處理圖像文字包含:訓(xùn)練樣本、開發(fā)樣本、待識別圖像文字; 所述歸一化處理包括:統(tǒng)一待處理圖像文字的大小,寬度不夠的使用背景色進(jìn)行補(bǔ)齊, 設(shè)置待識別圖片允許的最長字?jǐn)?shù)。6. 如權(quán)利要求5所述的方法,其特征在于,對訓(xùn)練樣本和開發(fā)樣本進(jìn)行人工標(biāo)注時(shí),將 漢字字符的前部分和后部分分別標(biāo)注,字符中間如遇空格,使用設(shè)定的標(biāo)記符進(jìn)行標(biāo)注。7. 如權(quán)利要求6所述的方法,其特征在于,對訓(xùn)練樣本或者開發(fā)樣本進(jìn)行人工標(biāo)注時(shí), 當(dāng)樣本圖像中包含的字?jǐn)?shù)少于設(shè)置的最長字?jǐn)?shù)時(shí),使用設(shè)定的標(biāo)記符將樣本圖片中的字?jǐn)?shù) 補(bǔ)齊。8. 如權(quán)利要求7所述的方法,其特征在于,通過詞典映射表將所述遞歸神經(jīng)網(wǎng)絡(luò)的識別 結(jié)果轉(zhuǎn)化為向量數(shù)據(jù)。9. 如權(quán)利要求8所述的方法,其特征在于,所述詞典映射的行向量分別對應(yīng)漢字的前部 分、漢字的后部分、數(shù)字、字母、標(biāo)點(diǎn)符號或者空白。
【專利摘要】本發(fā)明涉及圖像文字識別領(lǐng)域,特別涉及一種基于CNN-RNN的復(fù)雜圖像字序列識別方法,本發(fā)明采用一個(gè)滑動(dòng)采樣框?qū)ΥR別圖像文字序列進(jìn)行滑動(dòng)采樣,通過CNN對采樣獲得的子圖片進(jìn)行特征提取,然后將特征輸出到RNN中,所述RNN根據(jù)輸入信號,依次識別出漢字的前部分、漢字的后部分、數(shù)字、字母、標(biāo)點(diǎn)符號或者空白;依次記錄和整合各個(gè)時(shí)刻RNN的識別結(jié)果,獲得完整的識別結(jié)果;所述RNN每個(gè)時(shí)刻的輸入信號還包括上一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù)以及上一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)識別結(jié)果轉(zhuǎn)化成的向量數(shù)據(jù)。本發(fā)明方法克服了復(fù)雜圖像文字序列的切分難題,識別結(jié)果依賴語言模型,顯著提高了圖像文字的識別效率和準(zhǔn)確率。
【IPC分類】G06K9/20, G06N3/04, G06K9/62
【公開號】CN105678293
【申請?zhí)枴緾N201511020751
【發(fā)明人】劉世林, 何宏靖, 陳炳章, 吳雨濃, 姚佳
【申請人】成都數(shù)聯(lián)銘品科技有限公司
【公開日】2016年6月15日
【申請日】2015年12月30日