本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種字符識(shí)別方法和裝置。
背景技術(shù):
光學(xué)字符識(shí)別(英文全稱:Optical Character Recognition,英文簡稱:OCR)是指電子設(shè)備(例如掃描儀或數(shù)碼相機(jī))檢查紙上打印出來的字符圖像,通過檢測暗、亮的模式確定字符圖像的特征,然后用字符識(shí)別方法將字符的特征翻譯成計(jì)算機(jī)文字的過程,在OCR中,需要對(duì)文本資料進(jìn)行掃描,得到圖像文件,然后對(duì)圖像文件進(jìn)行分析處理,從而獲取到文字及版面信息。
在OCR的處理過程中,特征是識(shí)別字符的關(guān)鍵信息,每個(gè)不同的字符都需要通過對(duì)應(yīng)的特征來和其他字符進(jìn)行區(qū)分,字符的特征描述也是OCR的最重要的關(guān)鍵因素之一,目前常見的字符特征有如下三種:
1、字符模板,即將樣本字符圖像存檔,用測試字符圖像直接與其進(jìn)行比對(duì)。
2、字符輪廓,即將字符的輪廓信息提取出來,以此作為比對(duì)的依據(jù)。
3、紋理描述,通過采用一定的紋理描述方法,將字符圖像轉(zhuǎn)化為紋理特征,依次進(jìn)行比對(duì)識(shí)別。
本發(fā)明的發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),上述現(xiàn)有技術(shù)存至少存在如下技術(shù)問題:
1、識(shí)別準(zhǔn)確率低,尤其對(duì)于中文等大字符集合,往往識(shí)別效率會(huì)降低。
2、魯棒性偏低,測試字符往往有各種復(fù)雜的背景、光照、大小等干擾因素,現(xiàn)有技術(shù)很難有穩(wěn)定的高效的識(shí)別效果。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供了一種字符的識(shí)別方法和裝置,用于提高字符識(shí)別的準(zhǔn)確率,以及保證字符識(shí)別的穩(wěn)定性。
為解決上述技術(shù)問題,本發(fā)明實(shí)施例提供以下技術(shù)方案:
第一方面,本發(fā)明實(shí)施例提供一種字符的識(shí)別方法,包括:
對(duì)第一字符圖像按照至少兩個(gè)尺度分別進(jìn)行縮放處理,得到至少兩個(gè)尺度的第二字符圖像;
對(duì)于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征;
對(duì)所述各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征進(jìn)行融合處理以及降維處理,得到各種尺度的第二字符圖像對(duì)應(yīng)的第二字符特征;
將所述第二字符特征輸入分類器,識(shí)別出與所述第一字符圖像對(duì)應(yīng)的字符結(jié)果。
第二方面,本發(fā)明實(shí)施例還提供一種字符的識(shí)別裝置,包括:
圖像縮放模塊,用于對(duì)第一字符圖像按照至少兩個(gè)尺度分別進(jìn)行縮放處理,得到至少兩個(gè)尺度的第二字符圖像;
多類型特征提取模塊,用于對(duì)于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征;
字符特征處理模塊,用于對(duì)所述各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征進(jìn)行融合處理以及降維處理,得到各種尺度的第二字符圖像對(duì)應(yīng)的第二字符特征;
字符識(shí)別模塊,用于將所述第二字符特征輸入分類器,識(shí)別出與所述第一字符圖像對(duì)應(yīng)的字符結(jié)果。
從以上技術(shù)方案可以看出,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn):
在本發(fā)明實(shí)施例中,首先對(duì)第一字符圖像按照至少兩個(gè)尺度分別進(jìn)行縮放處理,得到至少兩個(gè)尺度的第二字符圖像,然后對(duì)于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征,接下來對(duì)各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征進(jìn)行融合處理以及降維處理,得到第二字符特征,最后將第二字符特征輸入分類器,識(shí)別出與第一字符圖像對(duì) 應(yīng)的字符結(jié)果。本發(fā)明實(shí)施例中,第一字符圖像作為需要進(jìn)行字符識(shí)別的圖像,被縮放為多種尺度的第二字符圖像,每一種尺度的第二字符圖像都提取到了多種不同類型的特征,得到至少兩種不同類型的第一字符特征,由于進(jìn)行特征提取的不再是唯一的一種尺度的字符圖像,而是多種尺度的字符圖像,因此可以解決被測試的字符圖像在尺度不一致時(shí)存在魯棒性偏低的問題,保證字符識(shí)別的穩(wěn)定性。另外多種不同類型的第一字符特征經(jīng)過融合處理和降維處理后得到第二字符特征,該第二字符特征是第一字符特征經(jīng)過融合處理和降維處理,因此在第二字符特征經(jīng)過特征融合和降維后的字符特征更為準(zhǔn)確,將該第二字符特征輸入分類器時(shí)可以提高識(shí)別速度以及分類器的準(zhǔn)確率,從而可以提高字符識(shí)別的準(zhǔn)確率。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域的技術(shù)人員來講,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種字符識(shí)別方法的流程方框示意圖;
圖2為本發(fā)明實(shí)施例提供的字符識(shí)別方法的一種應(yīng)用場景示意圖;
圖3-a為本發(fā)明實(shí)施例提供的一種字符識(shí)別裝置的組成結(jié)構(gòu)示意圖;
圖3-b為本發(fā)明實(shí)施例提供的一種字符識(shí)別裝置的組成結(jié)構(gòu)示意圖;
圖3-c為本發(fā)明實(shí)施例提供的一種圖像中心化處理模塊的組成結(jié)構(gòu)示意圖;
圖3-d為本發(fā)明實(shí)施例提供的一種字符識(shí)別模塊的組成結(jié)構(gòu)示意圖;
圖4為本發(fā)明實(shí)施例提供的字符識(shí)別方法應(yīng)用于服務(wù)器的組成結(jié)構(gòu)示意圖。
具體實(shí)施方式
本發(fā)明實(shí)施例提供了一種字符的識(shí)別方法和裝置,用于提高字符識(shí)別的準(zhǔn)確率,以及保證字符識(shí)別的穩(wěn)定性。
為使得本發(fā)明的發(fā)明目的、特征、優(yōu)點(diǎn)能夠更加的明顯和易懂,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,下面所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而非全部實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域的技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,以便包含一系列單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于那些單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它單元。
以下分別進(jìn)行詳細(xì)說明。
本發(fā)明字符識(shí)別方法的一個(gè)實(shí)施例,具體可以應(yīng)用于對(duì)字符進(jìn)行識(shí)別處理的OCR技術(shù)中,本發(fā)明提供的字符識(shí)別方法是一種多尺度、多特征融合的字符特征描述方法,可以較好的解決了現(xiàn)有的字符特征描述算法的不足,在實(shí)際測試中,本發(fā)明提供的字符識(shí)別方法在識(shí)別準(zhǔn)確率以及魯棒性都有極大的提升。接下來對(duì)本發(fā)明提供的方法進(jìn)行詳細(xì)說明,請(qǐng)參閱圖1所示,本發(fā)明一個(gè)實(shí)施例提供的字符識(shí)別方法,可以包括如下步驟:
101、對(duì)第一字符圖像按照至少兩個(gè)尺度分別進(jìn)行縮放處理,得到至少兩個(gè)尺度的第二字符圖像。
在本發(fā)明實(shí)施例中,首先獲取到第一字符圖像,該第一字符圖像可以是掃描后得到文字資料,該文字資料掃描后為第一字符圖像,該第一字符圖像作為需要進(jìn)行字符識(shí)別的圖像進(jìn)行多尺度的縮放處理,可以得到多個(gè)尺度的第二字符圖像,在這種話實(shí)現(xiàn)方式中,第一字符圖像為原始字符圖像。例如一個(gè)第一字符圖像可以被縮放為三種尺度的第二字符圖像,三種尺度的第二字符圖像可以分別為16×16,32×32,48×48,64×64等。
在本發(fā)明的一些實(shí)施例中,步驟101對(duì)第一字符圖像按照至少兩個(gè)尺度分別進(jìn)行縮放處理之前,本發(fā)明實(shí)施例提供的字符識(shí)別方法,還可以包括如下步驟:
A1、對(duì)第一字符圖像進(jìn)行中心化處理,得到字符塊居中的第一字符圖像。
在如上步驟A1中,圖像縮放之前,先對(duì)第一字符圖像進(jìn)行中心化處理, 其中中心化處理指的是調(diào)整第一字符圖像的中心,調(diào)整第一字符圖像的字符框的尺度,使第一字符圖像中的字符塊處于第一字符圖像的居中位置。對(duì)第一字符圖像的中心化處理可以使進(jìn)行多尺度縮放處理的第一字符圖像中字符塊始終處于圖像的居中位置,使字符的識(shí)別更準(zhǔn)確。
進(jìn)一步的,在本發(fā)明的一些實(shí)施例中,步驟A1對(duì)第一字符圖像進(jìn)行中心化處理,具體可以包括如下步驟:
A11、計(jì)算第一字符圖像在水平方向和垂直方向上的灰度分布的重心位置以及第一字符圖像的方差;
A12、根據(jù)第一字符圖像在水平方向和垂直方向上的灰度分布的重心位置以及第一字符圖像的方差調(diào)整第一字符圖像,使第一字符圖像中的字符塊在調(diào)整后的第一字符圖像上處于居中的位置。
其中,步驟A11中,對(duì)于輸入的單個(gè)第一字符圖像,分別計(jì)算水平方向和垂直方向上的光線灰度分布的重心位置以及第一字符圖像的方差,第一字符圖像的方差可以有效的表達(dá)第一字符圖像的灰度變化信息,根據(jù)獲取到重心位置和方差依次來調(diào)整字符中心以及字符框的尺度,使第一字符圖像中的字符塊在調(diào)整后的第一字符圖像上處于居中的位置,進(jìn)一步的,在本發(fā)明實(shí)施例中,還可以按照預(yù)置的方差將第一字符圖像的灰度值調(diào)整到預(yù)置的一個(gè)數(shù)值,例如將灰度值調(diào)整到統(tǒng)一水平,可以取平均灰度為128,其中,第一字符圖像的方差可以為64等。
102、對(duì)于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征。
在本發(fā)明實(shí)施例中,得到至少兩個(gè)尺度的第二字符圖像之后,對(duì)于不同尺度下的第二字符圖像,按照至少兩種字符類型提取到至少兩種不同類型的特征,則對(duì)于不同尺度的第二字符圖像都對(duì)應(yīng)有至少兩種不同類型的第一字符特征,舉例說明,第二字符圖像共有4種尺度,則對(duì)于每種尺度的第二字符圖像按照3種兩種字符類型進(jìn)行特征提取,則每種尺度的第二字符圖像都可以提取到3種不同類型的第一字符特征。本發(fā)明實(shí)施例中對(duì)于每一種尺度的第二字符圖像都需要提取到多種類型的第一字符特征,按照不同的字符類型提取方式提取得到的多種字符特征都可以用于描述字符圖像的特征,多種 字符特征可以描述出字符圖像在不同字符類型下表現(xiàn)出的特征,這與現(xiàn)有技術(shù)中只按照一種字符類型提取字符圖像的特征是完全不同的,多種類型的字符特征可以用于更準(zhǔn)確的字符識(shí)別。
在本發(fā)明的一些實(shí)施例中,步驟102對(duì)于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,具體可以包括如下步驟:
B1、對(duì)每一種尺度的第二字符圖像都提取到預(yù)置的多種類型中的至少兩種類型的特征,預(yù)置的多種類型包括:梯度投影特征、梯度方向直方圖(英文全稱:Histogram of Oriented Gradients,英文簡稱:HOG)特征、灰度模板特征、Gabor特征、局部二值模式(英文全稱:Local Binary Pattern,英文簡稱:LBP)特征、小波變換特征。
其中,在上述實(shí)現(xiàn)方式中,首先設(shè)置使用哪些種字符類型對(duì)第二字符圖像進(jìn)行特征提取,在本發(fā)明實(shí)施例中,采用的多種字符類型可以是如下類型中的兩種或者更多種:梯度投影特征、HOG特征、灰度模板特征、Gabor特征、LBP特征、小波變換特征。按照上述的類型提取方式,都可以從第二字符圖像中提取到一種第一字符特征,則各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征。需要說明的是,使用不同類型的特征提取方式提取第二字符圖像的特征可以參閱現(xiàn)有技術(shù)。
103、對(duì)各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征進(jìn)行融合處理以及降維處理,得到各種尺度的第二字符圖像對(duì)應(yīng)的第二字符特征。
在本發(fā)明實(shí)施例中,在獲取到各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征之后,對(duì)于上述的第一字符特征再進(jìn)行融合處理以及降維處理,則每一種尺度的第二字符圖像對(duì)應(yīng)的多個(gè)類型的第一字符特征都可以生成一個(gè)第二字符特征。由于每一種尺度的第二字符圖像都提取到了多種類型的第一字符特征,因此通過前述步驟可知,得到的第一字符特征有很多個(gè),舉例說明如下,第二字符圖像共有4種尺度,則對(duì)于每種尺度的第二字符圖像按照3種兩種字符類型進(jìn)行特征提取,則每種尺度的第二字符圖像都可以提取到3種不同類型的第一字符特征,因此對(duì)于不同尺度下的3個(gè)不同類型的第一字符特征,都可以獲取到一個(gè)第二字符特征,因此可以得到4 種尺度下的4個(gè)第二字符特征。對(duì)于獲取到的多個(gè)第一字符特征,在輸入分類器之前,還需要對(duì)多個(gè)第一字符特征進(jìn)行融合處理以及降維處理,以此可獲取到第二字符特征。由于第二字符特征是對(duì)獲取到的多個(gè)第一字符特征進(jìn)行融合處理以及降維處理后得到的結(jié)果,因此第二字符特征可以更準(zhǔn)確的描述出原始字符圖像中的字符塊特征,通過分類器進(jìn)行識(shí)別后,能夠獲取到更準(zhǔn)確的字符識(shí)別結(jié)果。
在本發(fā)明的一些實(shí)施例中,步驟103對(duì)各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征進(jìn)行融合處理以及降維處理,具體可包括如下步驟:
C1、對(duì)各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征先進(jìn)行融合處理,然后對(duì)融合后的結(jié)果再進(jìn)行降維處理;
或,C2、對(duì)各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征先進(jìn)行降維處理,然后對(duì)降維后的結(jié)果再進(jìn)行融合處理。
具體的,對(duì)于步驟103,在具體實(shí)現(xiàn)時(shí)可以有多種實(shí)現(xiàn)方式,在C1中對(duì)多個(gè)的第一字符特征先進(jìn)行融合處理再進(jìn)行降維處理,與C1不同的是,也可以采用C2中對(duì)多個(gè)第一字符特征先進(jìn)行降維處理再進(jìn)行融合處理的方式。其中,本發(fā)明實(shí)施例中,對(duì)第一字符特征進(jìn)行融合處理指的是將提取到的多種特征連接成一個(gè)向量特征,再對(duì)該向量特征進(jìn)行降維處理,對(duì)第一字符特征進(jìn)行降維處理指的是由于提取的特征維度較高,為了提高識(shí)別速度以及分類器的準(zhǔn)確率而對(duì)第一字符特征進(jìn)行的特征降維。C1中由于需要先融合處理,因此得到融合后的結(jié)果數(shù)據(jù)量很大,因此再進(jìn)行降維處理時(shí)需要消耗更多的時(shí)間,而C2中多個(gè)的第一字符特征先逐個(gè)降維,或同時(shí)降維,這比C1的方式會(huì)消耗較少的時(shí)間。在具體實(shí)現(xiàn)時(shí)可以結(jié)合場景的需要來確定融合處理和降維處理的先后順序。需要說明的是,在本發(fā)明實(shí)施例中,對(duì)第一字符特征進(jìn)行降維處理可以采用如下的降維算法:主元分析(英文全稱:Principal components Analysis,英文簡稱:PLA),線性鑒別分析(英文全稱:Linear Discriminant Analysis,英文簡稱:LDA)以及神經(jīng)網(wǎng)絡(luò)等。
104、將第二字符特征輸入分類器,識(shí)別出與第一字符圖像對(duì)應(yīng)的字符結(jié)果。
在本發(fā)明實(shí)施例中,對(duì)于多個(gè)第一字符特征進(jìn)行融合處理以及降維處理之后,可以獲取到第二字符特征,將該第二字符特征輸入到分類器中,從而可以識(shí)別出字符結(jié)果,該字符結(jié)果是第一字符圖像作為原始輸入圖像進(jìn)行字符識(shí)別后得到的字符。本發(fā)明實(shí)施例中采用的分類器具體可以為向量機(jī)(英文全稱:Support Vector Machine,英文簡稱:SVM)分類器,也可以采用幾何分類器、神經(jīng)網(wǎng)絡(luò)分類器等。由于第二字符特征是對(duì)獲取到的多個(gè)第一字符特征進(jìn)行融合處理以及降維處理后得到的結(jié)果,因此第二字符特征可以更準(zhǔn)確的描述出原始字符圖像中的字符塊特征,通過分類器對(duì)第二字符特征進(jìn)行特征識(shí)別后,能夠獲取到更準(zhǔn)確的字符識(shí)別結(jié)果。
在本發(fā)明的一些實(shí)施例中,步驟104將第二字符特征輸入分類器,識(shí)別出與第一字符圖像對(duì)應(yīng)的字符結(jié)果,具體可以包括如下步驟:
D1、計(jì)算第二字符特征與樣本特征均值的余弦相似度;
D2、選擇余弦相似度最高的樣本特征對(duì)應(yīng)的字符作為與第一字符圖像對(duì)應(yīng)的字符結(jié)果。
具體的,在本發(fā)明的上述實(shí)現(xiàn)方式中,可以直接采用余弦距離作為分類器的分類依據(jù),即計(jì)算輸入字符圖像的第二字符特征與樣本特征均值的余弦相似度,相似度最高的那個(gè)樣板特征對(duì)應(yīng)的字符就可以作為最終的識(shí)別結(jié)果。不限制的是,在前述舉例說明中采用余弦距離作為分類器的分類依據(jù),在本發(fā)明實(shí)施例中還可以采用歐氏距離或者杰卡德距離作為分類器的分類依據(jù),此處不做限定。
通過上述實(shí)施例對(duì)本發(fā)明的描述可知,首先對(duì)第一字符圖像按照至少兩個(gè)尺度分別進(jìn)行縮放處理,得到至少兩個(gè)尺度的第二字符圖像,然后對(duì)于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征,接下來對(duì)各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征進(jìn)行融合處理以及降維處理,得到第二字符特征,最后將第二字符特征輸入分類器,識(shí)別出與第一字符圖像對(duì)應(yīng)的字符結(jié)果。本發(fā)明實(shí)施例中,第一字符圖像作為需要進(jìn)行字符識(shí)別的圖像,被縮放為多種尺度的第二字符圖像,每一種尺度的第二字符圖像都提取到了多種不同類型的特征,得到至少兩種不同類型的第一 字符特征,由于進(jìn)行特征提取的不再是唯一的一種尺度的字符圖像,而是多種尺度的字符圖像,因此可以解決被測試的字符圖像在尺度不一致時(shí)存在魯棒性偏低的問題,保證字符識(shí)別的穩(wěn)定性。另外多種不同類型的第一字符特征經(jīng)過融合處理和降維處理后得到第二字符特征,該第二字符特征是第一字符特征經(jīng)過融合處理和降維處理,因此在第二字符特征經(jīng)過特征融合和降維后的字符特征更為準(zhǔn)確,將該第二字符特征輸入分類器時(shí)可以提高識(shí)別速度以及分類器的準(zhǔn)確率,從而可以提高字符識(shí)別的準(zhǔn)確率。
為便于更好的理解和實(shí)施本發(fā)明實(shí)施例的上述方案,下面舉例相應(yīng)的應(yīng)用場景來進(jìn)行具體說明。接下來以本發(fā)明提供的字符識(shí)別方法應(yīng)用于OCR為例進(jìn)行說明,OCR作為模式識(shí)別的一個(gè)領(lǐng)域的一個(gè)分支,其整體過程也就是模式識(shí)別的過程,可以概括為以下幾個(gè)步驟:
1、預(yù)處理:對(duì)包含文字的字符圖像進(jìn)行處理以便后續(xù)進(jìn)行特征提取、學(xué)習(xí)。這個(gè)過程的主要目的是減少字符圖像中的無用信息,以便方便后面的處理。
2、多個(gè)特征的提取、融合、降維:特征是用來識(shí)別文字的關(guān)鍵信息,每個(gè)不同的文字都需要通過對(duì)應(yīng)的特征來和其他文字進(jìn)行區(qū)分。對(duì)于漢字等結(jié)構(gòu)較為復(fù)雜的字符,通常只提取一個(gè)特征是不能夠準(zhǔn)確的描述出字符,因此本發(fā)明實(shí)施例中,需要提取到多個(gè)類型的特征,并且通常提取的特征維度較高,為了提高識(shí)別速度以及分類器的準(zhǔn)確率,通常需要進(jìn)行融合處理以及特征降維處理。
3、分類器設(shè)計(jì):對(duì)于給定的字符,通過第2步提取其特征,分類器根據(jù)特征來識(shí)別出到底該字符是哪個(gè)文字。
4、后續(xù)處理:對(duì)于分類器識(shí)別的結(jié)果,還可以做一定的優(yōu)化處理。例如:加入語言模型,同形字替換等。
接下里對(duì)上述第2個(gè)步驟中多個(gè)特征的提取、融合、降維的具體實(shí)現(xiàn)方式進(jìn)行詳細(xì)說明。請(qǐng)參閱如圖2所示,為本發(fā)明實(shí)施例提供的字符識(shí)別方法的一種應(yīng)用場景示意圖,圖2中以實(shí)際樣例“數(shù)”這個(gè)字符圖像的識(shí)別為例子,詳細(xì)說明本發(fā)明提供的字符識(shí)別方法。
對(duì)于給定的字符圖像,首先做中心化處理,然后將中心化之后的圖像進(jìn) 行多尺度縮放,對(duì)于每一個(gè)尺度下的字符圖像,提取多種特征(梯度投影、HOG、灰度模板)融合并進(jìn)行降維處理,最終得到該字符的特征表達(dá),輸入相應(yīng)的分類器即可得到最終的識(shí)別結(jié)果。
S1對(duì)第一字符圖像進(jìn)行中心化處理
圖2中,第一字符圖像為掃描得到的原始字符圖像,第一字符圖像中的字符塊可能沒有處于圖像的居中位置,需要先進(jìn)行中心化處理,對(duì)于輸入的單個(gè)字符圖像,分別計(jì)算水平和垂直方向的灰度分布的重心位置以及字符圖像的方差,并依次來調(diào)整字符中心以及字符框的尺度,同時(shí)將字符灰度值調(diào)整到統(tǒng)一水平,例如平均灰度128,方差64等。
S2、對(duì)第一字符圖像進(jìn)行多尺度分解
為了更好的描述字符特征,將中心化處理之后的單個(gè)字符進(jìn)行不同的尺度縮放,如按照16×16、32×32、48×48、64×64進(jìn)行縮放處理,如圖2中所示,對(duì)于第一字符圖像進(jìn)行多尺度分解后,得到4個(gè)第二字符圖像。
S3、得到4個(gè)第二字符圖像,對(duì)多尺度的第二字符圖像獨(dú)立提取多維的特征。
圖2中以分別提取梯度投影特征、HoG特征、灰度模板特征為例,每個(gè)尺度的第二字符圖像都提取到如下的3種不同類型的第一字符特征:
梯度投影特征:X=(x1,x2,…,xm);
HoG特征:Y=(y1,y2,…,yn);
灰度模板特征:Z=(z1,z2,…,zk);
其中,m、n、k根據(jù)具體的特征提取方式來取值。
S4、特征融合
如圖2所示,在每個(gè)尺度的第二字符圖像都提取到梯度投影特征、HoG特征、灰度模板特征之后,采用如下方式進(jìn)行特征融合:
F=X+Y+Z=(x1,x2,…,xm,y1,y2,…,yn,z1,z2,…,zk)。
其中,F(xiàn)表示特征融合后得到的字符特征,將提取的多種特征連接成一個(gè)向量特征F。每種尺度的第二字符圖像都可以按照如上表達(dá)式表示將3種不同類型的第一字符特征融合在一起,得到融合后的3種不同類型的第一字符特征。
S5、特征降維
如圖2所示,對(duì)于每種尺度下的融合后的第一字符特征進(jìn)行降維處理,得到每種尺度下的第二字符特征,得到降維結(jié)果可以通過如下方式:
F=(f1,f2,…,fs);
其中,s的取值可以根據(jù)采用的具體降維方法來確定。
S6、輸入分類器
如圖2所示,將降維后得到的第二字符特征輸入到分類器,得到最終的字符識(shí)別結(jié)果:“數(shù)”。例如,在每種尺度下的第二字符特征輸入到分類器中進(jìn)行識(shí)別后,都可以輸出字符識(shí)別結(jié)果,再通過多種尺度下得到的字符識(shí)別結(jié)果進(jìn)行賦值,最后可輸出最終的字符識(shí)別結(jié)果。
需要說明的是,在前述實(shí)施例中,對(duì)于多尺度分解,可以采用不同分解方法和不同的等級(jí),圖2的示例將第一字符圖像分解為4個(gè)不同尺度的第二字符圖像。另外圖2中以先執(zhí)行步驟S4再執(zhí)行步驟S5為例,但是在本發(fā)明的一些實(shí)施例中,可以先將各特征融合后再做降維,也可以先將各特征降維后再做融合,后者在降維過程中所消耗的時(shí)間會(huì)比前者更少一些。
通過前述對(duì)本發(fā)明的舉例說明可知,通過多尺度分解,可以較好的解決了測試字符尺度不一致導(dǎo)致的算法識(shí)別魯棒性偏低的問題,通過多特征融合和降維,這對(duì)于OCR提升識(shí)別準(zhǔn)確度有較大的提升。
需要說明的是,對(duì)于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。
為便于更好的實(shí)施本發(fā)明實(shí)施例的上述方案,下面還提供用于實(shí)施上述方案的相關(guān)裝置。
請(qǐng)參閱圖3-a所示,本發(fā)明實(shí)施例提供的一種字符識(shí)別裝置300,可以包括:圖像縮放模塊301、多類型特征提取模塊302、字符特征處理模塊303、字符識(shí)別模塊304,其中,
圖像縮放模塊301,用于對(duì)第一字符圖像按照至少兩個(gè)尺度分別進(jìn)行縮放 處理,得到至少兩個(gè)尺度的第二字符圖像;
多類型特征提取模塊302,用于對(duì)于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征;
字符特征處理模塊303,用于對(duì)所述各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征進(jìn)行融合處理以及降維處理,得到各種尺度的第二字符圖像第二字符特征;
字符識(shí)別模塊304,用于將所述第二字符特征輸入分類器,識(shí)別出與所述第一字符圖像對(duì)應(yīng)的字符結(jié)果。
在本發(fā)明的一些實(shí)施例中,請(qǐng)參閱如圖3-b所示,所述字符識(shí)別裝置300還包括:
圖像中心化處理模塊305,用于所述圖像縮放模301對(duì)第一字符圖像按照至少兩個(gè)尺度分別進(jìn)行縮放處理之前,對(duì)所述第一字符圖像進(jìn)行中心化處理,得到字符塊居中的第一字符圖像。
在本發(fā)明的一些實(shí)施例中,請(qǐng)參閱如圖3-c示,所述圖像中心化處理模塊305,包括:
第一計(jì)算單元3051,用于計(jì)算所述第一字符圖像在水平方向和垂直方向上的灰度分布的重心位置以及所述第一字符圖像的方差;
圖像調(diào)整單元3052,用于根據(jù)所述第一字符圖像在水平方向和垂直方向上的灰度分布的重心位置以及所述第一字符圖像的方差調(diào)整所述第一字符圖像,使所述第一字符圖像中的字符塊在調(diào)整后的第一字符圖像上處于居中的位置。
在本發(fā)明的一些實(shí)施例中,所述多類型特征提取模塊302,具體用于對(duì)每一種尺度的第二字符圖像都提取到預(yù)置的多種類型中的至少兩種類型的特征,所述預(yù)置的多種類型包括:梯度投影特征、梯度方向直方圖HOG特征、灰度模板特征、Gabor特征、局部二值模式LBP特征、小波變換特征。
在本發(fā)明的一些實(shí)施例中,所述字符特征處理模塊303,具體用于對(duì)所述各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征先進(jìn)行融合處理,然后對(duì)融合后的結(jié)果再進(jìn)行降維處理;或,對(duì)所述各種尺度的第二 字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征先進(jìn)行降維處理,然后對(duì)降維后的結(jié)果再進(jìn)行融合處理。
在本發(fā)明的一些實(shí)施例中,請(qǐng)參閱如圖3-d示,所述字符識(shí)別模塊304,包括:
第二計(jì)算單元3041,用于計(jì)算所述第二字符特征與樣本特征均值的余弦相似度;
字符選擇單元3042,用于選擇余弦相似度最高的樣本特征對(duì)應(yīng)的字符作為與所述第一字符圖像對(duì)應(yīng)的字符結(jié)果。
通過以上對(duì)本發(fā)明實(shí)施例的描述可知,首先對(duì)第一字符圖像按照至少兩個(gè)尺度分別進(jìn)行縮放處理,得到至少兩個(gè)尺度的第二字符圖像,然后對(duì)于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征,接下來對(duì)各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征進(jìn)行融合處理以及降維處理,得到第二字符特征,最后將第二字符特征輸入分類器,識(shí)別出與第一字符圖像對(duì)應(yīng)的字符結(jié)果。本發(fā)明實(shí)施例中,第一字符圖像作為需要進(jìn)行字符識(shí)別的圖像,被縮放為多種尺度的第二字符圖像,每一種尺度的第二字符圖像都提取到了多種不同類型的特征,得到至少兩種不同類型的第一字符特征,由于進(jìn)行特征提取的不再是唯一的一種尺度的字符圖像,而是多種尺度的字符圖像,因此可以解決被測試的字符圖像在尺度不一致時(shí)存在魯棒性偏低的問題,保證字符識(shí)別的穩(wěn)定性。另外多種不同類型的第一字符特征經(jīng)過融合處理和降維處理后得到第二字符特征,該第二字符特征是第一字符特征經(jīng)過融合處理和降維處理,因此在第二字符特征經(jīng)過特征融合和降維后的字符特征更為準(zhǔn)確,將該第二字符特征輸入分類器時(shí)可以提高識(shí)別速度以及分類器的準(zhǔn)確率,從而可以提高字符識(shí)別的準(zhǔn)確率。
圖4是本發(fā)明實(shí)施例提供的一種服務(wù)器結(jié)構(gòu)示意圖,該服務(wù)器400可因配置或性能不同而產(chǎn)生比較大的差異,可以包括一個(gè)或一個(gè)以上中央處理器(central processing units,CPU)422(例如,一個(gè)或一個(gè)以上處理器)和存儲(chǔ)器432,一個(gè)或一個(gè)以上存儲(chǔ)應(yīng)用程序442或數(shù)據(jù)444的存儲(chǔ)介質(zhì)430(例如一個(gè)或一個(gè)以上海量存儲(chǔ)設(shè)備)。其中,存儲(chǔ)器432和存儲(chǔ)介質(zhì)430可以是短 暫存儲(chǔ)或持久存儲(chǔ)。存儲(chǔ)在存儲(chǔ)介質(zhì)430的程序可以包括一個(gè)或一個(gè)以上模塊(圖示沒標(biāo)出),每個(gè)模塊可以包括對(duì)服務(wù)器中的一系列指令操作。更進(jìn)一步地,中央處理器422可以設(shè)置為與存儲(chǔ)介質(zhì)430通信,在服務(wù)器400上執(zhí)行存儲(chǔ)介質(zhì)430中的一系列指令操作。
服務(wù)器400還可以包括一個(gè)或一個(gè)以上電源426,一個(gè)或一個(gè)以上有線或無線網(wǎng)絡(luò)接口450,一個(gè)或一個(gè)以上輸入輸出接口458,和/或,一個(gè)或一個(gè)以上操作系統(tǒng)441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,F(xiàn)reeBSDTM等等。
上述實(shí)施例中由服務(wù)器所執(zhí)行的步驟可以基于該圖3所示的字符識(shí)別裝置的結(jié)構(gòu)。
通過以上對(duì)本發(fā)明實(shí)施例的描述可知,首先對(duì)第一字符圖像按照至少兩個(gè)尺度分別進(jìn)行縮放處理,得到至少兩個(gè)尺度的第二字符圖像,然后對(duì)于每一種尺度的第二字符圖像都提取到至少兩種不同類型的特征,得到各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征,接下來對(duì)各種尺度的第二字符圖像對(duì)應(yīng)的至少兩種不同類型的第一字符特征進(jìn)行融合處理以及降維處理,得到第二字符特征,最后將第二字符特征輸入分類器,識(shí)別出與第一字符圖像對(duì)應(yīng)的字符結(jié)果。本發(fā)明實(shí)施例中,第一字符圖像作為需要進(jìn)行字符識(shí)別的圖像,被縮放為多種尺度的第二字符圖像,每一種尺度的第二字符圖像都提取到了多種不同類型的特征,得到至少兩種不同類型的第一字符特征,由于進(jìn)行特征提取的不再是唯一的一種尺度的字符圖像,而是多種尺度的字符圖像,因此可以解決被測試的字符圖像在尺度不一致時(shí)存在魯棒性偏低的問題,保證字符識(shí)別的穩(wěn)定性。另外多種不同類型的第一字符特征經(jīng)過融合處理和降維處理后得到第二字符特征,該第二字符特征是第一字符特征經(jīng)過融合處理和降維處理,因此在第二字符特征經(jīng)過特征融合和降維后的字符特征更為準(zhǔn)確,將該第二字符特征輸入分類器時(shí)可以提高識(shí)別速度以及分類器的準(zhǔn)確率,從而可以提高字符識(shí)別的準(zhǔn)確率。
另外需說明的是,以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可 以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來實(shí)現(xiàn)本實(shí)施例方案的目的。另外,本發(fā)明提供的裝置實(shí)施例附圖中,模塊之間的連接關(guān)系表示它們之間具有通信連接,具體可以實(shí)現(xiàn)為一條或多條通信總線或信號(hào)線。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
通過以上的實(shí)施方式的描述,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明可借助軟件加必需的通用硬件的方式來實(shí)現(xiàn),當(dāng)然也可以通過專用硬件包括專用集成電路、專用CPU、專用存儲(chǔ)器、專用元器件等來實(shí)現(xiàn)。一般情況下,凡由計(jì)算機(jī)程序完成的功能都可以很容易地用相應(yīng)的硬件來實(shí)現(xiàn),而且,用來實(shí)現(xiàn)同一功能的具體硬件結(jié)構(gòu)也可以是多種多樣的,例如模擬電路、數(shù)字電路或?qū)S秒娐返?。但是,?duì)本發(fā)明而言更多情況下軟件程序?qū)崿F(xiàn)是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在可讀取的存儲(chǔ)介質(zhì)中,如計(jì)算機(jī)的軟盤,U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-Only Memory)、隨機(jī)存取存儲(chǔ)器(RAM,Random Access Memory)、磁碟或者光盤等,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述的方法。
綜上所述,以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照上述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)上述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。