一種基于cnn-rnn的復(fù)雜圖像字序列識別方法_3

文檔序號：9911658閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于cnn-rnn的復(fù)雜圖像字序列識別方法

結(jié)果分為漢字的前部分、漢字的后部分、數(shù)字、字母和符號。本發(fā)明系統(tǒng)的克服了 OCR識別前先要進(jìn)行圖片切分的弊端，解決了混合有漢字(包括左右結(jié)構(gòu)的漢字）、數(shù)字、字母、符號等復(fù)雜文字序列的識別問題，提高了復(fù)雜文字序列的識別的準(zhǔn)確率。同時(shí)本發(fā)明中采用的遞歸神經(jīng)網(wǎng)絡(luò)在模型訓(xùn)練和應(yīng)用的過程中RNN遞歸使用了上一輪的識別結(jié)果和輸出數(shù)據(jù)，這樣這每次輸出識別數(shù)據(jù)時(shí)在依賴本次采樣數(shù)據(jù)的同時(shí)也依賴了先前的識別結(jié)果，這種對先前識別結(jié)果的依賴，可以理解為應(yīng)用了語言模型，這樣在不需要構(gòu)建額外的語言模型來對字符的識別結(jié)果進(jìn)行優(yōu)化，在提升字、詞序列的識別準(zhǔn)確率的同時(shí)進(jìn)一步提高了圖像文字的識別效率。
[0055] 進(jìn)一步的，在進(jìn)行模型訓(xùn)練時(shí)，需要對訓(xùn)練樣本進(jìn)行人工標(biāo)注，根據(jù)識別情況將樣本圖像文字中的漢字、數(shù)字、字母以及標(biāo)點(diǎn)符號分別進(jìn)行相應(yīng)的標(biāo)注，其中將漢字字符的前部分和后部分分別標(biāo)注，比如說將漢字中的"字"分別標(biāo)注為"字Γ和"字2"，"字Γ是指"字" 的前部分，"字2"是指"字"的后部分。
[0056] 相應(yīng)的，本發(fā)明中所述遞歸神經(jīng)網(wǎng)絡(luò)的識別結(jié)果包含"漢字的前部分"、"漢字的后部分"、數(shù)字、字母以及標(biāo)點(diǎn)符號。由于一般情況下漢字的寬度是半角格式的數(shù)字或者字母寬度的兩倍，本發(fā)明在進(jìn)行文字識別時(shí)，所述滑動(dòng)采樣框每次約滑動(dòng)半個(gè)采樣框的距離。這樣情況下每次遞歸神經(jīng)網(wǎng)絡(luò)的識別輸出對應(yīng)半個(gè)滑動(dòng)采樣框截取的內(nèi)容，如果待識別的字符是漢字字符，通過這種采樣方式最終的識別結(jié)果將會(huì)漢字拆分成前部分和后部分;而這樣的采樣方式會(huì)自然的將左右結(jié)構(gòu)的漢字字符，拆分成左右兩部分，并且對應(yīng)的輸出結(jié)果為漢字字符的左偏旁和右偏旁，當(dāng)遞歸神經(jīng)網(wǎng)絡(luò)相鄰兩個(gè)時(shí)刻的輸出為同一個(gè)漢字的左右偏旁時(shí)，稍后的識別輸出時(shí)會(huì)將左右偏旁合并為一個(gè)完整的漢字，從而以最簡單的方式解決了左右結(jié)構(gòu)圖像漢字的切分和識別難題，極大的提高了圖像文字的識別效率。而當(dāng)半個(gè) 滑動(dòng)采樣框所截取的內(nèi)容為數(shù)字、字母或者標(biāo)點(diǎn)符號時(shí)，由于數(shù)字、字母或者標(biāo)點(diǎn)符號的寬度大多是在半個(gè)漢字寬度的范圍內(nèi)，半個(gè)滑動(dòng)采樣框剛好能夠覆蓋字符的全部內(nèi)容，對應(yīng) 的識別輸出結(jié)果也為完整的數(shù)字、字母或者標(biāo)點(diǎn)。可以看出通過本發(fā)明方法在不經(jīng)過字符切分的前提下巧妙的解決了混合有漢字、數(shù)字、字母的圖像文字的識別問題。
[0057]特別的，很多左右結(jié)構(gòu)的漢字具有相同的部首，而本發(fā)明的識別方法會(huì)將左右結(jié) 構(gòu)的漢字的左右部分分別識別出來，這樣的情況下，為了簡化識別結(jié)果可以將這樣左右結(jié) 構(gòu)的漢字的左右兩部分分別標(biāo)注，在識別的后期再對識別結(jié)果進(jìn)行合并，輸出完整的漢字。如圖4所示，比如說:行、征、徑、徐、徹……等漢字，具有相同的部首"4"，將該部首統(tǒng)一標(biāo)注為"才Γ，而將這些字對應(yīng)右偏旁分別標(biāo)注為"才2"、"才3"、"才4"、"才5"、"才6"……相應(yīng)的遞歸神經(jīng)網(wǎng)絡(luò)經(jīng)過迭代識別，依次輸出對應(yīng)漢字的部首和右偏旁，然后將該部首和右偏旁整合，形成完整的漢字識別結(jié)果。
[0058] 進(jìn)一步的，本發(fā)明中使用詞典映射表對識別結(jié)果進(jìn)行向量化，所述詞典映射表為一個(gè)二維矩陣，行數(shù)為詞典的大小，列數(shù)(行向量的維度)根據(jù)詞典的大小和數(shù)據(jù)的規(guī)模來設(shè)定。簡單說來，詞典映射表就是一個(gè)二維矩陣，詞典映射表的目的為將所述遞歸神經(jīng)網(wǎng)絡(luò) 的字符識別結(jié)果特征化，向量化。
[0059] 具體的，為了和本發(fā)明方法的每個(gè)時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果相對應(yīng)，本發(fā)明中所采用的詞典映射表的每個(gè)行向量分別對應(yīng):漢字的前部分、漢字的后部分、數(shù)字、字母以及標(biāo)點(diǎn)符號，這種對應(yīng)關(guān)系是根據(jù)可能的識別結(jié)果在構(gòu)建這個(gè)詞典映射表時(shí)設(shè)置的。
[0060] 進(jìn)一步的，在進(jìn)行模型訓(xùn)練時(shí)，包含將訓(xùn)練樣本圖標(biāo)進(jìn)行歸一化處理和人工標(biāo)注過程，歸一化處理樣本，使得樣本的基本參數(shù)均一，降低模型訓(xùn)練時(shí)數(shù)據(jù)無關(guān)復(fù)雜度，有利于簡化模型訓(xùn)練過程;其中歸一化處理過程包括:設(shè)定圖像文字序列可能的最長字?jǐn)?shù)，比如設(shè)定圖像文字序列的字符個(gè)數(shù)為20,待識別文字序列的長度與遞歸神經(jīng)網(wǎng)絡(luò)的最大遞歸次數(shù)相對應(yīng)，在進(jìn)行訓(xùn)練樣本準(zhǔn)備時(shí)設(shè)置待識別文字序列的最長字符數(shù)可以對應(yīng)的預(yù)設(shè)遞歸神經(jīng)網(wǎng)絡(luò)的最大遞歸次數(shù)（比如當(dāng)將比如設(shè)定圖像文字序列的字符個(gè)數(shù)為20時(shí)，遞歸神經(jīng) 網(wǎng)絡(luò)的最大遞歸次數(shù)對應(yīng)為40次），增加模型的穩(wěn)定性和可預(yù)見性。
[0061]進(jìn)一步的，在進(jìn)行歸一化處理過程中，為了避免數(shù)據(jù)變形，尺寸的放大縮小使用等比例的方式，與目標(biāo)尺寸缺失的區(qū)域用背景色補(bǔ)齊。
[0062]進(jìn)一步的，將歸一化的圖片進(jìn)行人工標(biāo)注，對訓(xùn)練樣本和開發(fā)樣本進(jìn)行人工標(biāo)注時(shí)，將漢字字符的前部分和后部分分別標(biāo)注。
[0063]進(jìn)一步的，在對訓(xùn)練樣本和開發(fā)樣本進(jìn)行人工標(biāo)注時(shí)，如果待標(biāo)注的句子字的字符數(shù)小于設(shè)置的最大字符數(shù)時(shí)（不足20)，使用一個(gè)特殊的詞語進(jìn)行補(bǔ)齊（比如使用"<SP>" 將不足20個(gè)字符的樣本圖片補(bǔ)齊至20個(gè)字符的長度）。
【主權(quán)項(xiàng)】
1. 一種基于CNN-RNN的復(fù)雜圖像字序列識別方法，其特征在于，包含以下實(shí)現(xiàn)過程：經(jīng)過一個(gè)滑動(dòng)采樣框?qū)Υ幚韴D像文字序列進(jìn)行滑動(dòng)采樣，并將采樣獲得的子圖片輸入到卷積神經(jīng)網(wǎng)絡(luò)中；由所述卷積神經(jīng)網(wǎng)絡(luò)對輸入的子圖片提取特征，并將提取的特征數(shù)據(jù)輸入到遞歸神經(jīng) 網(wǎng)絡(luò)中，由所述遞歸神經(jīng)輸出識別結(jié)果；所述遞歸神經(jīng)網(wǎng)絡(luò)的輸入信號還包括:上一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù)以及上一時(shí) 刻遞歸神經(jīng)網(wǎng)絡(luò)識別結(jié)果轉(zhuǎn)化成的向量數(shù)據(jù)；依次迭代，將每個(gè)時(shí)刻所述遞歸神經(jīng)網(wǎng)絡(luò)的識別結(jié)果記錄合并，得到待處理圖像文字序列的識別結(jié)果。2. 如權(quán)利要求1所述的方法，其特征在于，所述遞歸神經(jīng)網(wǎng)絡(luò)采用以下向前算法公式：其中I是輸入向量的維度，V是向量化的字符或者字符部分的維度，Η是隱層的神經(jīng)元個(gè) 數(shù)，Κ是輸出層的神經(jīng)元個(gè)數(shù)，X為卷積神經(jīng)網(wǎng)絡(luò)提取出來的特征數(shù)據(jù)，ν為遞歸神經(jīng)網(wǎng)絡(luò)識別結(jié)果化成的向量數(shù)據(jù)，^為當(dāng)前時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)中隱含層神經(jīng)元的輸入，^為當(dāng)前時(shí) 刻遞歸神經(jīng)網(wǎng)絡(luò)隱含層神經(jīng)元的輸出；為當(dāng)前時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)輸出層神經(jīng)元的輸入；為當(dāng)前時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)輸出層神經(jīng)元的輸出，為一個(gè)概率值，表示當(dāng)前時(shí)刻對應(yīng) 神經(jīng)元輸出值相對于輸出層所有神經(jīng)元輸出值的加和的比例。3. 如權(quán)利要求1或者2所述的方法，其特征在于，所述滑動(dòng)采樣框滿足以下條件:a < L < 1.5a，b < W < 1.5b，其中L為矩形滑動(dòng)采樣框的長，W為矩形滑動(dòng)采樣框的寬，a為待識別字符圖片的長，b為待識別字符圖片的寬。4. 如權(quán)利要求3所述的方法，其特征在于，所述滑動(dòng)采樣框每次滑動(dòng)的距離Η滿足以下條件:0.4b<H<0.6b。5. 如權(quán)利要求4所述的方法，其特征在于，在對待處理圖像文字進(jìn)行滑動(dòng)處理前，包含進(jìn)行歸一化處理的過程，所述待處理圖像文字包含:訓(xùn)練樣本、開發(fā)樣本、待識別圖像文字；所述歸一化處理包括:統(tǒng)一待處理圖像文字的大小，寬度不夠的使用背景色進(jìn)行補(bǔ)齊，設(shè)置待識別圖片允許的最長字?jǐn)?shù)。6. 如權(quán)利要求5所述的方法，其特征在于，對訓(xùn)練樣本和開發(fā)樣本進(jìn)行人工標(biāo)注時(shí)，將漢字字符的前部分和后部分分別標(biāo)注，字符中間如遇空格，使用設(shè)定的標(biāo)記符進(jìn)行標(biāo)注。7. 如權(quán)利要求6所述的方法，其特征在于，對訓(xùn)練樣本或者開發(fā)樣本進(jìn)行人工標(biāo)注時(shí)，當(dāng)樣本圖像中包含的字?jǐn)?shù)少于設(shè)置的最長字?jǐn)?shù)時(shí)，使用設(shè)定的標(biāo)記符將樣本圖片中的字?jǐn)?shù) 補(bǔ)齊。8. 如權(quán)利要求7所述的方法，其特征在于，通過詞典映射表將所述遞歸神經(jīng)網(wǎng)絡(luò)的識別結(jié)果轉(zhuǎn)化為向量數(shù)據(jù)。9. 如權(quán)利要求8所述的方法，其特征在于，所述詞典映射的行向量分別對應(yīng)漢字的前部分、漢字的后部分、數(shù)字、字母、標(biāo)點(diǎn)符號或者空白。
【專利摘要】本發(fā)明涉及圖像文字識別領(lǐng)域，特別涉及一種基于CNN-RNN的復(fù)雜圖像字序列識別方法，本發(fā)明采用一個(gè)滑動(dòng)采樣框?qū)ΥR別圖像文字序列進(jìn)行滑動(dòng)采樣，通過CNN對采樣獲得的子圖片進(jìn)行特征提取，然后將特征輸出到RNN中，所述RNN根據(jù)輸入信號，依次識別出漢字的前部分、漢字的后部分、數(shù)字、字母、標(biāo)點(diǎn)符號或者空白；依次記錄和整合各個(gè)時(shí)刻RNN的識別結(jié)果，獲得完整的識別結(jié)果；所述RNN每個(gè)時(shí)刻的輸入信號還包括上一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)的輸出數(shù)據(jù)以及上一時(shí)刻遞歸神經(jīng)網(wǎng)絡(luò)識別結(jié)果轉(zhuǎn)化成的向量數(shù)據(jù)。本發(fā)明方法克服了復(fù)雜圖像文字序列的切分難題，識別結(jié)果依賴語言模型，顯著提高了圖像文字的識別效率和準(zhǔn)確率。
【IPC分類】G06K9/20, G06N3/04, G06K9/62
【公開號】CN105678293
【申請?zhí)枴緾N201511020751
【發(fā)明人】劉世林, 何宏靖, 陳炳章, 吳雨濃, 姚佳
【申請人】成都數(shù)聯(lián)銘品科技有限公司
【公開日】2016年6月15日
【申請日】2015年12月30日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁1 2 3

相關(guān)技術(shù)