本發(fā)明涉及文字識別領(lǐng)域,特別是涉及一種文字識別方法,一種文字識別裝置,一種計算機(jī)設(shè)備,以及,一種計算機(jī)可讀存儲介質(zhì)。
背景技術(shù):
在文字識別領(lǐng)域,尤其是對包含一整串文字的文字圖像的識別,通常需要將整串文字切分為多個單獨(dú)的文字,針對各個文字分別進(jìn)行識別。
在切分的時候,通常是按照由多個切分點組成的切分路徑對圖像進(jìn)行切分,切分出的區(qū)域中可能包含有由多個文字所合并而成的文字,針對合并而成的文字進(jìn)行識別,即可得到識別結(jié)果。
然而,目前的識別方法中,對文字的切分或合并存在較高的錯誤率,這樣會影響到最終識別結(jié)果的準(zhǔn)確性。即,目前的文字識別方式存在識別準(zhǔn)確率較低的問題。
技術(shù)實現(xiàn)要素:
鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種文字識別方法、一種文字識別裝置、一種計算機(jī)設(shè)備以及一種計算機(jī)可讀存儲介質(zhì)。
依據(jù)本發(fā)明的一個方面,提供了一種文字識別方法,所述方法包括:
利用多種切分方式分別切分文字圖像得到多種圖像切分結(jié)果,各圖像切分結(jié)果所包括的多個切分區(qū)域分別包括至少一個待識別對象;
根據(jù)所述切分區(qū)域中的待識別對象統(tǒng)計各圖像切分結(jié)果的綜合權(quán)重值,其中,所述綜合權(quán)重值包括所述圖像切分結(jié)果中各切分區(qū)域的文字特征匹配度和形狀特征匹配度的統(tǒng)計值;
根據(jù)各圖像切分結(jié)果的綜合權(quán)重值篩選最優(yōu)圖像切分結(jié)果;
采用所述最優(yōu)圖像切分結(jié)果中各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為識別結(jié)果。
可選地,所述根據(jù)所述切分區(qū)域中的待識別對象統(tǒng)計各圖像切分結(jié)果的綜合權(quán)重值的步驟包括:
根據(jù)所述圖像切分結(jié)果中各切分區(qū)域的待識別對象與識別所述切分區(qū)域中的待識別對象得到的目標(biāo)文字的文字特征匹配度,以及,各切分區(qū)域的待識別對象與所述目標(biāo)文字對應(yīng)的預(yù)設(shè)形狀的形狀特征匹配度,計算所述圖像切分結(jié)果的綜合權(quán)重值。
可選地,所述利用多種切分方式分別切分文字圖像得到多種圖像切分結(jié)果的步驟包括:
在所述文字圖像上標(biāo)記多個候選切分點;
按照選取的不同候選切分點,分別形成多個候選切分點集合;
按照各候選切分點集合,分別切分所述文字圖像得到多個圖像切分結(jié)果。
可選地,所述文字圖像包括多個待切分對象,所述在所述文字圖像上標(biāo)記多個候選切分點包括如下至少一種:
在所述文字圖像距離均等的多個位置上標(biāo)記多個候選切分點;或者
查找所述文字圖像上各個相鄰但不連通的目標(biāo)待切分對象,并在各目標(biāo)待切分對象之間的位置上標(biāo)記多個候選切分點;或者
將所述文字圖像上各待切分對象投影在某方向坐標(biāo)軸上得到多個投影坐標(biāo)點,根據(jù)某方向坐標(biāo)軸上不存在投影坐標(biāo)點的坐標(biāo)在所述文字圖像上對應(yīng)的位置標(biāo)記多個候選切分點。
可選地,所述利用多種切分方式分別切分文字圖像得到多種圖像切分結(jié)果的步驟包括:
按照所述待識別對象在所述文字圖像中的排列順序,依次對各個待識別對象采用多個具有不同標(biāo)記范圍的標(biāo)記窗口進(jìn)行標(biāo)記;
識別不同標(biāo)記范圍的標(biāo)記窗口標(biāo)記的待識別對象所對應(yīng)的目標(biāo)文字;
根據(jù)所述標(biāo)記窗口標(biāo)記的待識別對象與對應(yīng)的目標(biāo)文字,篩選出各個待識別對象的最優(yōu)標(biāo)記窗口;
按照各個待識別對象的最優(yōu)標(biāo)記窗口,切分所述文字圖像得到所述圖像切分結(jié)果。
可選地,包括:
提取所述切分區(qū)域中的待識別對象的特征向量;
在預(yù)設(shè)的文字匹配表中查找匹配于所述特征向量的文字作為所述目標(biāo)文字;
計算所述切分區(qū)域中的待識別對象與所述目標(biāo)文字的特征向量的余弦值,得到所述切分區(qū)域的文字特征匹配度。
可選地,包括:
查找與所述目標(biāo)文字所屬的文字類別對應(yīng)的預(yù)設(shè)形狀;
計算所述切分區(qū)域中的待識別對象與所述預(yù)設(shè)形狀的寬高比的余弦值,得到所述切分區(qū)域的形狀特征匹配度。
可選地,所述根據(jù)所述圖像切分結(jié)果中各切分區(qū)域的待識別對象與識別所述切分區(qū)域中的待識別對象得到的目標(biāo)文字的文字特征匹配度,以及,各切分區(qū)域的待識別對象與所述目標(biāo)文字對應(yīng)的預(yù)設(shè)形狀的形狀特征匹配度,計算所述圖像切分結(jié)果的綜合權(quán)重值的步驟包括:
針對同一圖像切分結(jié)果,計算多個切分區(qū)域的文字特征匹配度的平均值和形狀特征匹配度的平均值,分別作為所述圖像切分結(jié)果的文字特征匹配度均值和形狀特征匹配度均值;
將所述圖像切分結(jié)果的文字特征匹配度均值和形狀特征匹配度均值與分配的權(quán)重系數(shù)相乘,并將乘積求和得到所述圖像切分結(jié)果的綜合權(quán)重值。
根據(jù)本發(fā)明的另一方面,提供了一種文字識別裝置,所述裝置包括:
圖像切分結(jié)果獲取模塊,用于利用多種切分方式分別切分文字圖像得到多種圖像切分結(jié)果,各圖像切分結(jié)果所包括的多個切分區(qū)域分別包括至少一個待識別對象;
綜合權(quán)重值統(tǒng)計模塊,用于根據(jù)所述切分區(qū)域中的待識別對象統(tǒng)計各圖像切分結(jié)果的綜合權(quán)重值;所述綜合權(quán)重值包括所述圖像切分結(jié)果中各切分區(qū)域的文字特征匹配度和形狀特征匹配度的統(tǒng)計值;
最優(yōu)圖像切分結(jié)果篩選模塊,用于根據(jù)各圖像切分結(jié)果的綜合權(quán)重值篩選最優(yōu)圖像切分結(jié)果;
識別結(jié)果確定模塊,用于采用所述最優(yōu)圖像切分結(jié)果中各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為識別結(jié)果。
根據(jù)本發(fā)明的另一方面,提供了一種計算機(jī)設(shè)備,所述設(shè)備包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)上述文字識別方法的任意一項所述方法的步驟。
根據(jù)本發(fā)明的另一方面,提供了一種計算機(jī)可讀存儲介質(zhì),其上存儲有計算機(jī)程序,其特征在于,該程序被處理器執(zhí)行時實現(xiàn)上述文字識別方法的任意一項所述方法的步驟。
根據(jù)本發(fā)明實施例,針對利用多種切分方式分別切分文字圖像得到的多種圖像切分結(jié)果,根據(jù)所述切分區(qū)域中的待識別對象統(tǒng)計各圖像切分結(jié)果的綜合權(quán)重值,按照綜合權(quán)重值篩選出的最優(yōu)圖像切分結(jié)果,并采用最優(yōu)圖像切分結(jié)果中各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為識別結(jié)果,提升了文字圖像的識別準(zhǔn)確率。
根據(jù)本發(fā)明實施例,針對按照多種切分方式得到的多種圖像切分結(jié)果,根據(jù)文字特征匹配度和形狀特征匹配度統(tǒng)計各個圖像切分結(jié)果的綜合權(quán)重值,按照綜合權(quán)重值篩選出的最優(yōu)圖像切分結(jié)果。在篩選的過程中引入文字特征匹配度和形狀特征匹配度作為參考,既保證合并后的文字符合目標(biāo)文字,又保證各個合并后的文字的形狀之間偏差較小,使得篩選出的圖像切分結(jié)果的文字合并錯誤率較低,從而提升了文字圖像的識別準(zhǔn)確率。
根據(jù)本發(fā)明實施例,針對于由過切分后動態(tài)后并和滑窗識別得到的多個圖像切分結(jié)果,引入文字特征匹配度和形狀特征匹配度作為圖像切分結(jié)果的評價標(biāo)準(zhǔn),將文字切分的合理性以形狀特征為標(biāo)準(zhǔn)進(jìn)行量化,并結(jié)合文字特征匹配度,從過切分后動態(tài)合并和滑窗識別得到的多個圖像切分結(jié)果中篩選出最優(yōu)圖像切分結(jié)果,避免了對文字的錯誤合并的同時又保證了整體的文字識別準(zhǔn)確率,從而最終提升了文字識別的準(zhǔn)確率。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細(xì)描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認(rèn)為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1是本發(fā)明實施例一的一種文字識別方法的步驟流程圖;
圖2是本發(fā)明實施例二的一種文字識別方法的步驟流程圖;
圖3是本發(fā)明實施例三中的一種文字識別裝置的結(jié)構(gòu)框圖;
圖4是本發(fā)明實施例四中的一種文字識別裝置的結(jié)構(gòu)框圖;
圖5是本發(fā)明一種文字圖像過切分示例的示意圖;
圖6是本發(fā)明一種文字圖像動態(tài)合并示例的示意圖;
圖7是本發(fā)明一種滑窗識別方法的流程示意圖;
圖8是本發(fā)明一種滑窗識別的滑動識別示意圖;
圖9是本發(fā)明一種文字識別方法實施示例的流程圖;
圖10是本發(fā)明針對不同圖像切分結(jié)果的排序評分的示意圖;
圖11是本發(fā)明圖像切分結(jié)果的排序結(jié)果的示意圖一;
圖12是本發(fā)明圖像切分結(jié)果的排序結(jié)果的示意圖二。
具體實施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當(dāng)理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
實施例一
詳細(xì)介紹本發(fā)明實施例提供的一種文字識別方法。
參照圖1,示出了本發(fā)明實施例中的一種文字識別方法的步驟流程圖。
步驟101,利用多種切分方式分別切分文字圖像得到多種圖像切分結(jié)果,各圖像切分結(jié)果所包括的多個切分區(qū)域分別包括至少一個待識別對象。
上述的文字圖像可以為包含文字信息的圖像,所包含的文字信息可以為中文、英文、法文等多種語言的文字。
上述的切分方式可以包括多種的對文字圖像中的文字進(jìn)行切分的方式,例如,以一整串文字中各個文字的間隙為切分點,切分成多個文字;又例如,將以文字間隙為切分點切分得到的多個文字,按照相鄰關(guān)系進(jìn)行組合合并,可以得到不同的文字;又例如,設(shè)定不同尺寸的窗口,沿著文字方向按照一定移動幅度對文字圖像進(jìn)行掃描,以窗口的移動軌跡作為切分點將整串文字切分成多個文字。
對文字圖像進(jìn)行切分后,文字圖像被切分成多個包括一個或多個待識別對象的切分區(qū)域,由切分區(qū)域組成上述的圖像切分結(jié)果。上述的待識別對象可以為切分區(qū)域內(nèi)具有文字特征的對象,文字圖像被切分為多個切分區(qū)域后,每個切分區(qū)域內(nèi)可能包含有一個完整的文字,也可能是文字的部分,還可能是多個文字。
實際應(yīng)用中,連續(xù)的切分區(qū)域可以理解為文字圖像中的切分路徑,按照該切分路徑進(jìn)行切分,即可以得到上述的圖像切分結(jié)果。
同一種切分方式可以得到多個圖像切分結(jié)果,按照多種切分方式切分文字圖像,可以得到分別對應(yīng)于多種切分方式的多個圖像切分結(jié)果。
步驟102,根據(jù)所述切分區(qū)域中的待識別對象統(tǒng)計各圖像切分結(jié)果的綜合權(quán)重值,其中,所述綜合權(quán)重值包括所述圖像切分結(jié)果中各切分區(qū)域的文字特征匹配度和形狀特征匹配度的統(tǒng)計值。
具體實現(xiàn)中,可以針對各個切分區(qū)域所包括的待識別對象進(jìn)行識別,將待識別對象識別為某個目標(biāo)文字。針對切分區(qū)域的待識別對象進(jìn)行識別的具體方式可以有多種,例如,可以針對文字圖像中各個切分區(qū)域,提取其所包括的待識別對象的特征向量,將提取的特征向量輸入到svm(supportvectormachine,支持向量機(jī)器)分類器,由svm分類器根據(jù)輸入的特征向量與各個預(yù)設(shè)文字的特征向量進(jìn)行比對,將特征向量接近的文字輸出為目標(biāo)文字。當(dāng)然,本領(lǐng)域技術(shù)人員可以根據(jù)實際需要采用各種方式進(jìn)行文字識別,例如模板匹配法、幾何特征抽取法等。
針對識別得到的目標(biāo)文字,可以計算切分區(qū)域所包括的待識別對象與目標(biāo)文字的文字特征匹配度。文字特征匹配度可以是針對待識別對象與目標(biāo)文字之間相似程度進(jìn)行計算得到的數(shù)值。文字特征匹配度可以通過多種方式得到,例如,計算特征向量之間的相似度,將該相似度作為該切分區(qū)域的文字特征匹配度,文字特征匹配度越大表明文字特征之間越匹配。
識別得到的目標(biāo)文字,可以具有對應(yīng)的預(yù)設(shè)形狀。不同的預(yù)設(shè)形狀具有不同的設(shè)定形狀特征,如設(shè)定的高寬比。形狀特征匹配度可以是針對文字之間形狀的相似程度進(jìn)行計算得到的數(shù)值。例如,識別的目標(biāo)文字“國”的高寬比例通常為1.25,而切分區(qū)域內(nèi)的待識別對象的高寬比例為1,兩者之間的比值為1.25,與1的差值為0.25,1除以0.25等于4,可以將4作為形狀特征匹配度,形狀特征匹配度越大表明目標(biāo)文字與待識別對象之間的形狀越匹配。實際應(yīng)用中,可以針對各個文字設(shè)定對應(yīng)的標(biāo)準(zhǔn)形狀,也可以針對各種語言的文字分別設(shè)定統(tǒng)一高寬比的標(biāo)準(zhǔn)形狀,例如,設(shè)定中文的高寬比例為1.2,設(shè)定韓文的高寬比為1.0。
實際應(yīng)用中,尤其在針對驗證碼進(jìn)行文字識別的應(yīng)用場景中,由于驗證碼中的各個文字的形狀并不標(biāo)準(zhǔn),可以通過將驗證碼中的文字的形狀與預(yù)設(shè)形狀進(jìn)行比較。例如,當(dāng)某個驗證碼文字被識別為“國”,可以將驗證碼文字的高寬比與“國”的預(yù)設(shè)的高寬比進(jìn)行比較,如果兩者的高寬比接近,表明該驗證碼文字為“國”的概率越大。
可以根據(jù)各個切分區(qū)域的文字特征匹配度和形狀特征匹配度,統(tǒng)計圖像切分結(jié)果中各個切分區(qū)域的綜合權(quán)重值。統(tǒng)計的具體方式可以有多種,例如,針對圖像切分結(jié)果的全部切分區(qū)域,分別計算各個切分區(qū)域的文字特征匹配度和形狀特征匹配度的平均值,針對文字特征匹配度的平均值和形狀特征匹配度的平均值,分別賦予權(quán)重系數(shù),將文字特征匹配度的平均值和形狀特征匹配度的平均值的乘積進(jìn)行求和,得到該圖像切分結(jié)果中各個切分區(qū)域的綜合權(quán)重值。
步驟103,根據(jù)各圖像切分結(jié)果的綜合權(quán)重值篩選最優(yōu)圖像切分結(jié)果。
在得到各個圖像切分結(jié)果的綜合權(quán)重值后,可以按照該綜合權(quán)重值篩選出最優(yōu)的圖像切分結(jié)果。篩選的方式可以有多種,例如,按照綜合權(quán)重值的大小對圖像切分結(jié)果排序,將排序靠前的若干個圖像切分結(jié)果作為若干最優(yōu)的圖像切分結(jié)果,或者,查找綜合權(quán)重值最大的圖像切分結(jié)果作為最優(yōu)的圖像切分結(jié)果。
步驟104,采用所述最優(yōu)圖像切分結(jié)果中各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為識別結(jié)果。
具體實現(xiàn)中,可以針對各切分區(qū)域中的待識別對象進(jìn)行文字識別得到對應(yīng)的目標(biāo)文字,并將各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為該文字圖像的識別結(jié)果。
根據(jù)本發(fā)明實施例,針對利用多種切分方式分別切分文字圖像得到的多種圖像切分結(jié)果,根據(jù)所述切分區(qū)域中的待識別對象統(tǒng)計各圖像切分結(jié)果的綜合權(quán)重值,按照綜合權(quán)重值篩選出的最優(yōu)圖像切分結(jié)果,并采用最優(yōu)圖像切分結(jié)果中各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為識別結(jié)果,提升了文字圖像的識別準(zhǔn)確率。
實施例二
詳細(xì)介紹本發(fā)明實施例提供的另一種文字識別方法。
參照圖2,示出了本發(fā)明實施例中的另一種文字識別方法的步驟流程圖。
步驟201,利用多種切分方式分別切分文字圖像得到多種圖像切分結(jié)果,各圖像切分結(jié)果所包括的多個切分區(qū)域分別包括至少一個待識別對象。
可選地,所述步驟201可以包括以下子步驟:
子步驟s11,在所述文字圖像上標(biāo)記多個候選切分點。
子步驟s12,按照選取的不同候選切分點,分別形成多個候選切分點集合。
子步驟s13,按照各候選切分點集合,分別切分所述文字圖像得到多個圖像切分結(jié)果。
具體實現(xiàn)中,可以采用多種方式在文字圖像上標(biāo)記一系列的候選切分點。更具體地,可以采用均勻切分的標(biāo)記方式,例如可以針對文字圖像距離均等的多個位置上標(biāo)記多個候選切分點;或者,可以采用連通域分析的標(biāo)記方式,例如在文字圖像上針對相鄰但不連通的圖像像素集群之間的位置標(biāo)記候選切分點;還可以采用投影分析法的標(biāo)記方式,例如將文字圖像上的圖像像素投影到某個坐標(biāo)軸上,在坐標(biāo)軸上沒有投影的坐標(biāo)即表明在文字圖像的對應(yīng)位置上不存在像素,屬于文字之間的空隙,因此可以在該位置標(biāo)記候選切分點。
得到多個候選切分點后,可以選取部分候選切分點形成候選切分點集合。按照選取的候選切分點不同,則可以形成多個不同的候選切分點集合。
按照多個不同的候選切分點集合對文字圖像進(jìn)行切分,則可以得到多個不同的圖像切分結(jié)果。
實際應(yīng)用中,可以將一個候選切分點集合理解為一條切分路徑。從標(biāo)記的多個候選切分點中選取一個或多個候選切分點形成切分路徑。選取的候選切分點不同,則會形成不同的切分路徑,按照不同的切分路徑對文字圖像進(jìn)行切分,可以得到多個不同的圖像切分結(jié)果。
可選地,所述文字圖像包括多個待切分對象,所述子步驟s11可以包括如下至少一種:
在所述文字圖像距離均等的多個位置上標(biāo)記多個候選切分點。
具體實現(xiàn)中,可以針對文字圖像距離均等的多個位置上標(biāo)記多個候選切分點。例如,可以首先確定文字圖像的總寬度,然后將總寬度除以設(shè)定的劃分個數(shù)得到目標(biāo)寬度,以目標(biāo)寬度為間隔在文字圖像上的多個位置分別標(biāo)記候選切分點。
查找所述文字圖像上各個相鄰但不連通的目標(biāo)待切分對象,并在各目標(biāo)待切分對象之間的位置上標(biāo)記多個候選切分點。
具體實現(xiàn)中,文字圖像中可以包括有由不同的圖像像素集群組成的多個待切分對象。針對各待切分對象進(jìn)行連通域分析,確定相鄰的待切分對象之間是否連通,即相鄰的兩個圖像像素集群之間是否存在相互連接的圖像像素。將相鄰但不連通的待切分對象作為目標(biāo)待切分對象,并在目標(biāo)待切分對象之間的位置上標(biāo)記候選切分點。
將所述文字圖像上各待切分對象投影在某方向坐標(biāo)軸上得到多個投影坐標(biāo)點,根據(jù)某方向坐標(biāo)軸上不存在投影坐標(biāo)點的坐標(biāo)在所述文字圖像上對應(yīng)的位置標(biāo)記多個候選切分點。
具體實現(xiàn)中,可以針對文字圖像中文字排列方向設(shè)置一個橫向或縱向的坐標(biāo)軸,將文字圖圖像中的多個圖像像素投影在坐標(biāo)軸上,從而在坐標(biāo)軸的多個坐標(biāo)點上得到一系列的對應(yīng)于各圖像像素的投影點,如果某個坐標(biāo)點不存在投影點,表明在文字圖像的對應(yīng)位置上不存在圖像像素,屬于文字之間的空隙,因此可以在該位置標(biāo)記候選切分點。
需要說明的是,在實際應(yīng)用中,可以采用上述的一種或多種的方式標(biāo)記候選切分點。
在實際應(yīng)用中,可以采用過切分后動態(tài)合并的方法實現(xiàn)上述步驟得到多個圖像切分結(jié)果。具體地,可以首先對待識別對象進(jìn)行過切分。針對待識別對象在文字圖像中所處的位置,通過均勻切分、投影分析法以及連通域分析法標(biāo)記盡可能將待識別對象切分的候選切分點,由多個候選切分點得到過切分結(jié)果。在切分過程中可以控制切分粒度,以實現(xiàn)將待識別對象盡可能地切分。圖5示出了一種文字圖像過切分示例的示意圖。從圖中可見,針對輸入圖像“廣順北大街”,各個不連通或之間存在空隙的待識別對象或待識別對象邊旁被標(biāo)記出候選切分點,從而得到過切分結(jié)果。
根據(jù)得到的過切分結(jié)果,可以通過動態(tài)合并得到多個圖像切分結(jié)果。選擇若干個候選切分點,以選擇的候選切分點為基準(zhǔn)對待識別對象進(jìn)行切分,產(chǎn)生了由若干個文字或文字邊旁合并而成的待識別對象。選擇不同的候選切分點,則會產(chǎn)生不同的文字合并結(jié)果。由不同的文字合并結(jié)果得到多個圖像切分結(jié)果。圖6示出了一種文字圖像動態(tài)合并示例的示意圖。從圖中可見,針對過切分結(jié)果,所選擇的候選切分點不同,則會產(chǎn)生不同的動態(tài)合并結(jié)果,即得到多個的圖像切分結(jié)果。
可選地,所述步驟201可以包括以下子步驟:
子步驟s21,按照所述待識別對象在所述文字圖像中的排列順序,依次對各個待識別對象采用多個具有不同標(biāo)記范圍的標(biāo)記窗口進(jìn)行標(biāo)記。
子步驟s22,識別不同標(biāo)記范圍的標(biāo)記窗口標(biāo)記的待識別對象所對應(yīng)的目標(biāo)文字。
子步驟s23,根據(jù)所述標(biāo)記窗口標(biāo)記的待識別對象與對應(yīng)的目標(biāo)文字的文字特征匹配度,篩選出各個待識別對象的最優(yōu)標(biāo)記窗口。
子步驟s24,按照各個待識別對象的最優(yōu)標(biāo)記窗口,切分所述文字圖像得到所述圖像切分結(jié)果。
上述的具有標(biāo)記范圍的標(biāo)記窗口可以是具有一定高度和寬度的窗口,用于將窗口所包括的一個或多個待識別對象進(jìn)行標(biāo)記。具體實現(xiàn)中,可以預(yù)先設(shè)置多個不同標(biāo)記范圍的標(biāo)記窗口,按照待識別對象的排列順序,對各個待識別對象依次進(jìn)行標(biāo)記。不同標(biāo)記范圍的標(biāo)記窗口所包括的待識別對象不同,即不同標(biāo)記范圍的標(biāo)記窗口所標(biāo)記的待識別對象不同。例如,針對待識別對象“順”,一個較大尺寸的標(biāo)記窗口可以針對整個文字“順”進(jìn)行標(biāo)記,而較小尺寸的標(biāo)記窗口則會對待識別對象“川”和待識別對象“頁”分別進(jìn)行標(biāo)記。
針對標(biāo)記窗口中標(biāo)記的待識別對象進(jìn)行識別,得到對應(yīng)的目標(biāo)文字。針對標(biāo)記的待識別對象進(jìn)行識別的方法有多種,例如,提取標(biāo)記窗口所包括的待識別對象的特征向量,將提取的特征向量輸入到svm分類器,由svm分類器根據(jù)輸入的特征向量與各個預(yù)設(shè)文字的特征向量進(jìn)行比對,將特征向量接近的文字輸出為目標(biāo)文字。
可以計算標(biāo)記的待識別對象與識別的目標(biāo)文字之間的文字特征匹配度。文字特征匹配度具體的計算方法可以有多種。例如,計算目標(biāo)文字與待識別對象的特征向量之間的相似度,將該相似度作為文字特征匹配度,文字特征匹配度越大表明文字特征之間越匹配。
若當(dāng)前的標(biāo)記窗口所標(biāo)記的待識別對象與目標(biāo)文字之間的文字特征匹配度大于預(yù)設(shè)閾值,或者在多個不同標(biāo)記范圍的標(biāo)記窗口中排序靠前,可以將其作為最優(yōu)標(biāo)記窗口。從而,可以從多個具有不同標(biāo)記范圍的標(biāo)記窗口中,篩選出一個或多個的最優(yōu)標(biāo)記窗口。按照最優(yōu)標(biāo)記窗口的標(biāo)記范圍對文字圖像進(jìn)行切分,得到多個圖像切分結(jié)果。
在實際應(yīng)用中,可以采用滑窗識別的方法實現(xiàn)上述步驟得到多個圖像切分結(jié)果。圖7示出了一種滑窗識別方法的流程示意圖。從圖中可見,針對作為文字圖像的字符圖片,可以首先確定待識別對象的排列順序,以便按照該排列順序作為窗口的滑動方向。實際應(yīng)用中,可以按照通常的書寫方式默認(rèn)窗口滑動方向為從左向右。可以通過灰度投影法確定文字圖像中待識別對象所處的左邊界,從而可以將待識別對象的左邊界作為當(dāng)前位置開始滑動窗口。
窗口的基準(zhǔn)尺寸可以通過分析整體待識別對象的寬度分布確定。實際應(yīng)用中,可以設(shè)定一個文字訓(xùn)練樣本集,根據(jù)文字訓(xùn)練樣本集中的文字寬度的分布范圍[13,35],可以相應(yīng)設(shè)定多個窗口的寬度分別為12,14,16,18,20,22,24,26,28,30,32,34,36共13檔。針對不同寬度的窗口,均按照一定的滑動幅度沿從左到右的方向進(jìn)行滑動,在滑動過程中,針對當(dāng)前窗口內(nèi)的圖像進(jìn)行文字識別。例如,將當(dāng)前窗口區(qū)域內(nèi)的圖像輸入到預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò),由其輸出為提取的特征向量值。將提取的特征向量值輸入至svm分類器,得到分類結(jié)果。
可以計算窗口標(biāo)記的待識別對象所提取的特征向量值,與判別所屬類別對應(yīng)的一系列原型的特征向量值之間的余弦值,得到文字特征匹配度。
采用多個不同寬度的窗口對當(dāng)前的待識別對象進(jìn)行識別后,得到各個窗口對應(yīng)的文字特征匹配度。按照文字特征匹配度最大的窗口進(jìn)行滑動,直至滑動至待識別對象的右邊界,則滑動結(jié)束并輸出文字識別結(jié)果。圖8示出了一種滑窗識別的滑動識別示意圖。從圖中可見,針對“廣順北大街”的文字,當(dāng)以“廣”字為起點尋找當(dāng)前最優(yōu)窗口時,會對不同寬度的窗口內(nèi)的圖像內(nèi)容進(jìn)行識別,根據(jù)文字特征匹配度得到標(biāo)記文字“順”的窗口為最優(yōu)窗口。
實際應(yīng)用中,卷積神經(jīng)網(wǎng)絡(luò)內(nèi)的參數(shù)和svm分類器均可以根據(jù)標(biāo)注的文字訓(xùn)練樣本集進(jìn)行優(yōu)化和機(jī)器訓(xùn)練。其中,所屬類別對應(yīng)原型的特征向量值可以在機(jī)器訓(xùn)練過程中生成。例如,卷積神經(jīng)網(wǎng)絡(luò)可以采用大量的文字訓(xùn)練樣本進(jìn)行機(jī)器訓(xùn)練。其中卷積神經(jīng)網(wǎng)絡(luò)可以采用改進(jìn)的le-net結(jié)構(gòu),該結(jié)構(gòu)包括四個卷積層,四個池化層和兩個全連接層,最后一層輸出為512維的特征向量。針對于漢字識別,可以設(shè)定svm分類器的分類目標(biāo)為3755類一級漢字,而用于機(jī)器訓(xùn)練的每一類的標(biāo)注的文字訓(xùn)練樣本為200,文字訓(xùn)練樣本集的精度可以為99.2%。對于所屬類別對應(yīng)的一系列原型的特征向量值,可以首先將文字訓(xùn)練樣本依次通過訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)生成一系列512維的特征向量值,然后對生成的特征向量值進(jìn)行聚類,聚類得到的類別中心即為每一類的類別原型。對于k類問題,可以通過控制收斂參數(shù),最終得到的每一類ci(i=1,2……k)的原型數(shù)目ni可以不同。實際聚類中可以選擇層次聚類方法。
需要說明的是,本發(fā)明實施例的文字識別方法可以根據(jù)實際需要應(yīng)用于多種不同的切分方式,并不限于上述的過切分后動態(tài)合并和滑窗識別的切分方式。
步驟202,根據(jù)所述圖像切分結(jié)果中各切分區(qū)域的待識別對象與識別所述切分區(qū)域中的待識別對象得到的目標(biāo)文字的文字特征匹配度,以及,各切分區(qū)域的待識別對象與所述目標(biāo)文字對應(yīng)的預(yù)設(shè)形狀的形狀特征匹配度,計算所述圖像切分結(jié)果的綜合權(quán)重值。
可選地,所述步驟202可以包括以下子步驟:
子步驟s31,提取所述切分區(qū)域中的待識別對象的特征向量。
子步驟s32,在預(yù)設(shè)的文字匹配表中查找匹配于所述特征向量的文字作為所述目標(biāo)文字。
子步驟s33,計算所述切分區(qū)域中的待識別對象與所述目標(biāo)文字的特征向量的余弦值,得到所述切分區(qū)域的文字特征匹配度。
具體實現(xiàn)中,可以針對各個切分區(qū)域所包括的待識別對象進(jìn)行特征向量的提取。特征向量可以是由待識別對象在文字圖像中的位置坐標(biāo)數(shù)據(jù)所構(gòu)成的用于表達(dá)文字特征的一系列向量。對于提取的特征向量,可以查找特征向量與之匹配的目標(biāo)文字。針對切分區(qū)域所包括的待識別對象的特征向量與查找到的目標(biāo)文字的特征向量計算余弦值,將得到的余弦值該切分區(qū)域作為文字特征匹配度。
可選地,所述步驟202還可以包括以下子步驟:
子步驟s34,查找與所述目標(biāo)文字所屬的文字類別對應(yīng)的預(yù)設(shè)形狀。
子步驟s35,計算所述切分區(qū)域中的待識別對象與所述預(yù)設(shè)形狀的寬高比的余弦值,得到所述切分區(qū)域的形狀特征匹配度。
具體實現(xiàn)中,可以針對目標(biāo)文字設(shè)置其所屬文字類別的預(yù)設(shè)形狀。預(yù)設(shè)形狀可以為標(biāo)準(zhǔn)的文字寬高比,也可以是其他的用于表示文字形狀的屬性信息。例如可以針對漢字設(shè)置漢字類別的寬高比為0.8。針對切分區(qū)域所包括的文字的寬高比與對應(yīng)的預(yù)設(shè)形狀的寬高比計算余弦值,將得到的余弦值作為形狀特征匹配度。
上述的文字特征匹配度和形狀特征匹配度越接近1,表明文字之間的文字特征和形狀特征越匹配。
可選地,所述步驟202可以包括以下子步驟:
子步驟s41,針對同一圖像切分結(jié)果,計算多個切分區(qū)域的文字特征匹配度的平均值和形狀特征匹配度的平均值,分別作為所述圖像切分結(jié)果的文字特征匹配度均值和形狀特征匹配度均值。
子步驟s42,將所述圖像切分結(jié)果的文字特征匹配度均值和形狀特征匹配度均值與分配的權(quán)重系數(shù)相乘,并將乘積求和得到所述圖像切分結(jié)果的綜合權(quán)重值。
具體實現(xiàn)中,針對圖像切分結(jié)果的全部切分區(qū)域,分別計算各個切分區(qū)域的文字特征匹配度和形狀特征匹配度的平均值。
針對文字特征匹配度的平均值和形狀特征匹配度的平均值,分別乘以設(shè)定的權(quán)重系數(shù),將文字特征匹配度的平均值和形狀特征匹配度的平均值與權(quán)重系數(shù)的乘積進(jìn)行求和,得到該圖像切分結(jié)果中各個切分區(qū)域的綜合權(quán)重值。
實際應(yīng)用中,權(quán)重系數(shù)可以通過在文字訓(xùn)練樣本集上調(diào)整參數(shù)的方式得到。可選地,文字特征匹配度和形狀特征匹配度可以分別賦予權(quán)重系數(shù)0.8和0.2。
在實際應(yīng)用中,采用某一個或多個候選切分點集合切分文字圖像,得到某一個或多個圖像切分結(jié)果之后,可以將新得到的圖像切分結(jié)果與此前采用其他候選切分點集合進(jìn)行切分得到的其他圖像切分結(jié)果,按照文字特征匹配度或形狀特征匹配度從大到小進(jìn)行排序,只保留排序前m個圖像切分結(jié)果。針對每次新增的圖像切分結(jié)果均進(jìn)行排序的更新,直至遍歷所有的候選切分點集合,最終得到m個圖像切分結(jié)果。
通常,過切分動態(tài)合并是基于beamsearch(集束搜索)搜索選擇候選切分點并進(jìn)行動態(tài)合并,若存在著n個候選切分點,則會產(chǎn)生2n個圖像切分結(jié)果,因此可以采用上述的排序并保留前m個圖像切分結(jié)果的方式實現(xiàn)剪枝策略。從而在根據(jù)綜合權(quán)重值篩選最優(yōu)圖像切分結(jié)果時,無須對大量的圖像切分結(jié)果進(jìn)行篩選,提升了文字識別的速度。
在實際應(yīng)用中,還可以將各切分區(qū)域的待識別對象的寬高比之間的余弦值與預(yù)設(shè)閾值進(jìn)行比較,當(dāng)余弦值小于預(yù)設(shè)閾值,可以將對應(yīng)的圖像切分結(jié)果濾除。當(dāng)同一個圖像切分結(jié)果中各個切分區(qū)域的寬高比之間的余弦值小于預(yù)設(shè)閾值,表明當(dāng)前圖像切分結(jié)果中對待識別對象的切分和合并存在錯誤,因此可以將其濾除。實際應(yīng)用中,可以通過上述步驟在產(chǎn)生圖像切分結(jié)果時增加合并限制,避免產(chǎn)生錯誤的文字合并。
通過將寬高比不符合要求的圖像切分結(jié)果濾除,避免了對無效的圖像切分結(jié)果進(jìn)行后續(xù)的排序,提升了文字識別的速度。
步驟203,根據(jù)各圖像切分結(jié)果的綜合權(quán)重值篩選最優(yōu)圖像切分結(jié)果。
具體實現(xiàn)中,可以按照圖像切分結(jié)果的綜合權(quán)重值從大到小進(jìn)行排序,將綜合權(quán)重值最大的的圖像切分結(jié)果作為最優(yōu)圖像切分結(jié)果。
步驟204,采用所述最優(yōu)圖像切分結(jié)果中各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為識別結(jié)果。
需要說明的是,過切分后動態(tài)合并的識別方式中,針對目標(biāo)文字區(qū)域,先通過一定的規(guī)則確定盡可能將對象切分的切分點,由切分點集合的任意一個子集對應(yīng)于一條切分路徑,按照切分路徑對文字圖像中的對象進(jìn)行切分,將切分點內(nèi)的若干個對象合并成一個待識別對象并進(jìn)行識別。然而,動態(tài)合并時可能會錯誤地合并對象,從而導(dǎo)致文字識別錯誤,影響了文字識別的準(zhǔn)確率。
滑窗識別的識別方式中,通常是設(shè)定多種尺寸的窗口,并沿著特定方向?qū)ξ淖謭D像進(jìn)行掃描,對特定尺寸窗口掃描到的文字圖像進(jìn)行文字識別。當(dāng)使用某種尺寸的窗口識別出文字后,則以該尺寸的窗口的邊界作為切分點形成切分路徑,對后續(xù)的待識別對象進(jìn)行切分并識別。然而,滑窗識別僅僅按照局部最優(yōu)的窗口對全部對象進(jìn)行切分和合并,缺乏全局信息指導(dǎo)的情況下容易陷入局部最優(yōu),無法保證其他部分文字識別的準(zhǔn)確率,影響了文字識別的準(zhǔn)確率。
根據(jù)本發(fā)明實施例,針對按照多種切分方式得到的多種圖像切分結(jié)果,根據(jù)文字特征匹配度和形狀特征匹配度統(tǒng)計各個圖像切分結(jié)果的綜合權(quán)重值,按照綜合權(quán)重值篩選出的最優(yōu)圖像切分結(jié)果。在篩選的過程中引入文字特征匹配度和形狀特征匹配度作為參考,既保證合并后的文字符合目標(biāo)文字,又保證各個合并后的文字的形狀之間偏差較小,使得篩選出的圖像切分結(jié)果的文字合并錯誤率較低,從而提升了文字圖像的識別準(zhǔn)確率。
根據(jù)本發(fā)明實施例,針對于由過切分后動態(tài)后并和滑窗識別得到的多個圖像切分結(jié)果,引入文字特征匹配度和形狀特征匹配度作為圖像切分結(jié)果的評價標(biāo)準(zhǔn),將文字切分的合理性以形狀特征為標(biāo)準(zhǔn)進(jìn)行量化,并結(jié)合文字特征匹配度,從過切分后動態(tài)合并和滑窗識別得到的多個圖像切分結(jié)果中篩選出最優(yōu)圖像切分結(jié)果,避免了對文字的錯誤合并的同時又保證了整體的文字識別準(zhǔn)確率,從而最終提升了文字識別的準(zhǔn)確率。
為了便于本領(lǐng)域技術(shù)人員深入理解本發(fā)明實施例,以下將結(jié)合具體實施示例進(jìn)行說明。
圖9示出了本發(fā)明一種文字識別方法實施示例的流程圖。從圖中可見,針對輸入的圖像,可以首先進(jìn)行預(yù)處理。預(yù)處理可以包括有灰度化、降噪、二值化、字符切分以及歸一化這些處理步驟。經(jīng)過二值化后,圖像只剩下兩種顏色,即黑和白,其中一個是圖像背景,另一個顏色就是要識別的文字。字符切分則是將圖像中的文字分割成單個文字。如果文字傾斜,可以進(jìn)行傾斜校正。歸一化則是將單個的文字圖像規(guī)整到同樣的尺寸。
預(yù)處理后的圖像,可以分別按照過切分后動態(tài)合并和滑窗識別的方式得到多個圖像切分結(jié)果。根據(jù)文字特征匹配度和形狀特征匹配度統(tǒng)計圖像切分結(jié)果的綜合權(quán)重值,根據(jù)綜合權(quán)重值對多個圖像切分結(jié)果進(jìn)行路徑排序,將排序靠前的最優(yōu)圖像切分結(jié)果所對應(yīng)的目標(biāo)文字作為識別結(jié)果。
圖10示出了本發(fā)明針對不同圖像切分結(jié)果的排序評分的示意圖。從圖中可見,針對多個圖像切分結(jié)果的文字特征匹配度和形狀特征匹配度,分別與設(shè)定的權(quán)重系數(shù)相乘后相加,得到綜合權(quán)重值。綜合權(quán)重值為0.84的圖像切分結(jié)果“廣順北大街”為最優(yōu)的圖像切分結(jié)果,而“廣川頁北大街”的圖像切分結(jié)果中,雖然其文字特征匹配度為0.85,但其切分的文字形狀不合理,形狀特征匹配度只有0.72分,其最終的綜合權(quán)重值為0.82。
圖11示出了本發(fā)明圖像切分結(jié)果的排序結(jié)果的示意圖一。從圖中可見,針對文字圖像“北京-西城區(qū)德外大街教”,采用過切分后動態(tài)合并得到的圖像切分結(jié)果“北京-西城區(qū)德外大街教”,其綜合權(quán)重值為0.86。而通過滑窗識別得到的圖像切分結(jié)果“北京-西城區(qū)德夕卜大街教”,由于將合體字“外”進(jìn)行了錯誤的切分,其綜合權(quán)重值為0.83。因此可以將“北京-西城區(qū)德外大街教”作為最優(yōu)圖像切分結(jié)果。
圖12示出了本發(fā)明圖像切分結(jié)果的排序結(jié)果的示意圖二。從圖中可見,針對文字圖像“冰室(川大”,采用過切分后動態(tài)合并得到的圖像切分結(jié)果“冰室dil大”,由于其切分合并的文字形狀不合理,其綜合權(quán)重值為0.72。而通過滑窗識別得到的圖像切分結(jié)果“冰室(川大”的綜合權(quán)重值為0.88,可以將其作為最優(yōu)圖像切分結(jié)果。
通過上述的具體示例,可見本發(fā)明實施例可以實現(xiàn)對過切分后動態(tài)合并和滑窗識別兩種方案的互補(bǔ),既保證局部最優(yōu)又能保證全局最優(yōu),同時還提升了識別效率。在實際實驗中,在包含2000張中文印刷體圖像的測試樣本上,過切分后動態(tài)合并的識別準(zhǔn)確率為70%,滑窗識別的識別準(zhǔn)確率為76%,而采用本發(fā)明實施例的文字識別方式,其識別準(zhǔn)確率為83%。
需要說明的是,對于前述的方法實施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動作順序的限制,因為依據(jù)本發(fā)明,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實施例均屬于優(yōu)選實施例,所涉及的動作并不一定是本發(fā)明所必需的。
實施例三
詳細(xì)介紹本發(fā)明實施例提供的一種文字識別裝置。
參照圖3,示出了本發(fā)明實施例三中的一種文字識別裝置的結(jié)構(gòu)框圖。
所述裝置可以包括:
圖像切分結(jié)果獲取模塊301,用于利用多種切分方式分別切分文字圖像得到多種圖像切分結(jié)果,各圖像切分結(jié)果所包括的多個切分區(qū)域分別包括至少一個待識別對象;
綜合權(quán)重值統(tǒng)計模塊302,用于根據(jù)所述切分區(qū)域中的待識別對象統(tǒng)計各圖像切分結(jié)果的綜合權(quán)重值,其中,所述綜合權(quán)重值包括所述圖像切分結(jié)果中各切分區(qū)域的文字特征匹配度和形狀特征匹配度的統(tǒng)計值;
最優(yōu)圖像切分結(jié)果篩選模塊303,用于根據(jù)各圖像切分結(jié)果的綜合權(quán)重值篩選最優(yōu)圖像切分結(jié)果;
識別結(jié)果確定模塊304,用于采用所述最優(yōu)圖像切分結(jié)果中各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為識別結(jié)果。
根據(jù)本發(fā)明實施例,針對利用多種切分方式分別切分文字圖像得到的多種圖像切分結(jié)果,根據(jù)所述切分區(qū)域中的待識別對象統(tǒng)計各圖像切分結(jié)果的綜合權(quán)重值,按照綜合權(quán)重值篩選出的最優(yōu)圖像切分結(jié)果,并采用最優(yōu)圖像切分結(jié)果中各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為識別結(jié)果,提升了文字圖像的識別準(zhǔn)確率。
實施例四
詳細(xì)介紹本發(fā)明實施例提供的一種文字識別裝置。
參照圖4,示出了本發(fā)明實施例四中的一種文字識別裝置的結(jié)構(gòu)框圖。
所述裝置可以包括:
圖像切分結(jié)果獲取模塊401,用于利用多種切分方式分別切分文字圖像得到多種圖像切分結(jié)果,各圖像切分結(jié)果所包括的多個切分區(qū)域分別包括至少一個待識別對象。
綜合權(quán)重值計算模塊402,用于根據(jù)所述圖像切分結(jié)果中各切分區(qū)域的待識別對象與識別所述切分區(qū)域中的待識別對象得到的目標(biāo)文字的文字特征匹配度,以及,各切分區(qū)域的待識別對象與所述目標(biāo)文字對應(yīng)的預(yù)設(shè)形狀的形狀特征匹配度,計算所述圖像切分結(jié)果的綜合權(quán)重值。
圖像切分結(jié)果篩選模塊403,用于根據(jù)各圖像切分結(jié)果的綜合權(quán)重值篩選最優(yōu)圖像切分結(jié)果。
識別結(jié)果確定模塊404,用于采用所述最優(yōu)圖像切分結(jié)果中各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為識別結(jié)果。
可選地,所述圖像切分結(jié)果獲取模塊401包括:
候選切分點標(biāo)記子模塊,用于在所述文字圖像上標(biāo)記多個候選切分點;
候選切分點集合形成子模塊,用于按照選取的不同候選切分點,分別形成多個候選切分點集合;
切分文字圖像子模塊,用于按照各候選切分點集合,分別切分所述文字圖像得到多個圖像切分結(jié)果。
可選地,所述文字圖像包括多個待切分對象,所述候選切分點標(biāo)記子模塊包括如下至少一種:
第一候選切分點標(biāo)記子單元,用于在所述文字圖像距離均等的多個位置上標(biāo)記多個候選切分點;
第二候選切分點標(biāo)記子單元,用于查找所述文字圖像上各個相鄰但不連通的目標(biāo)待切分對象,并在各目標(biāo)待切分對象之間的位置上標(biāo)記多個候選切分點;
第三候選切分點標(biāo)記子單元,用于將所述文字圖像上各待切分對象投影在某方向坐標(biāo)軸上得到多個投影坐標(biāo)點,根據(jù)某方向坐標(biāo)軸上不存在投影坐標(biāo)點的坐標(biāo)在所述文字圖像上對應(yīng)的位置標(biāo)記多個候選切分點。
可選地,所述圖像切分結(jié)果獲取模塊401包括:
窗口標(biāo)記子模塊,用于按照所述待識別對象在所述文字圖像中的排列順序,依次對各個待識別對象采用多個具有不同標(biāo)記范圍的標(biāo)記窗口進(jìn)行標(biāo)記;
目標(biāo)文字識別子模塊,用于識別不同標(biāo)記范圍的標(biāo)記窗口標(biāo)記的待識別對象所對應(yīng)的目標(biāo)文字;
最優(yōu)標(biāo)記窗口篩選子模塊,用于根據(jù)所述標(biāo)記窗口標(biāo)記的待識別對象與對應(yīng)的目標(biāo)文字,篩選出各個待識別對象的最優(yōu)標(biāo)記窗口;
標(biāo)記窗口切分文字圖像子模塊,用于按照各個待識別對象的最優(yōu)標(biāo)記窗口,切分所述文字圖像得到所述圖像切分結(jié)果。
可選地,所述綜合權(quán)重值計算模塊402包括:
特征向量提取子模塊,用于提取所述切分區(qū)域中的待識別對象的特征向量;
目標(biāo)文字查找子模塊,用于在預(yù)設(shè)的文字匹配表中查找匹配于所述特征向量的文字作為所述目標(biāo)文字;
第一余弦值計算子模塊,用于計算所述切分區(qū)域中的待識別對象與所述目標(biāo)文字的特征向量的余弦值,得到所述切分區(qū)域的文字特征匹配度。
可選地,所述綜合權(quán)重值計算模塊402包括:
預(yù)設(shè)形狀查找子模塊,用于查找與所述目標(biāo)文字所屬的文字類別對應(yīng)的預(yù)設(shè)形狀;
第二余弦值計算子模塊,用于計算所述切分區(qū)域中的待識別對象與所述預(yù)設(shè)形狀的寬高比的余弦值,得到所述切分區(qū)域的形狀特征匹配度。
可選地,所述綜合權(quán)重值計算模塊402包括:
平均值計算子模塊,用于針對同一圖像切分結(jié)果,計算多個切分區(qū)域的文字特征匹配度的平均值和形狀特征匹配度的平均值,分別作為所述圖像切分結(jié)果的文字特征匹配度均值和形狀特征匹配度均值;
乘積求和子模塊,用于將所述圖像切分結(jié)果的文字特征匹配度均值和形狀特征匹配度均值與分配的權(quán)重系數(shù)相乘,并將乘積求和得到所述圖像切分結(jié)果的綜合權(quán)重值。
根據(jù)本發(fā)明實施例,針對按照多種切分方式得到的多種圖像切分結(jié)果,根據(jù)文字特征匹配度和形狀特征匹配度統(tǒng)計各個圖像切分結(jié)果的綜合權(quán)重值,按照綜合權(quán)重值篩選出的最優(yōu)圖像切分結(jié)果。在篩選的過程中引入文字特征匹配度和形狀特征匹配度作為參考,既保證合并后的文字符合目標(biāo)文字,又保證各個合并后的文字的形狀之間偏差較小,使得篩選出的圖像切分結(jié)果的文字合并錯誤率較低,從而提升了文字圖像的識別準(zhǔn)確率。
根據(jù)本發(fā)明實施例,針對于由過切分后動態(tài)后并和滑窗識別得到的多個圖像切分結(jié)果,引入文字特征匹配度和形狀特征匹配度作為圖像切分結(jié)果的評價標(biāo)準(zhǔn),將文字切分的合理性以形狀特征為標(biāo)準(zhǔn)進(jìn)行量化,并結(jié)合文字特征匹配度,從過切分后動態(tài)合并和滑窗識別得到的多個圖像切分結(jié)果中篩選出最優(yōu)圖像切分結(jié)果,避免了對文字的錯誤合并的同時又保證了整體的文字識別準(zhǔn)確率,從而最終提升了文字識別的準(zhǔn)確率。
對于上述文字識別裝置實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
實施例五
詳細(xì)介紹本發(fā)明實施例提供的一種計算機(jī)設(shè)備和一種計算機(jī)可讀存儲介質(zhì)。
所述計算機(jī)設(shè)備包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計算機(jī)程序,其特征在于,所述處理器執(zhí)行所述程序時可以實現(xiàn)以下步驟:
利用多種切分方式分別切分文字圖像得到多種圖像切分結(jié)果,各圖像切分結(jié)果所包括的多個切分區(qū)域分別包括至少一個待識別對象;根據(jù)所述切分區(qū)域中的待識別對象統(tǒng)計各圖像切分結(jié)果的綜合權(quán)重值,其中,所述綜合權(quán)重值包括所述圖像切分結(jié)果中各切分區(qū)域的文字特征匹配度和形狀特征匹配度的統(tǒng)計值;根據(jù)各圖像切分結(jié)果的綜合權(quán)重值篩選最優(yōu)圖像切分結(jié)果;采用所述最優(yōu)圖像切分結(jié)果中各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為識別結(jié)果。
可選地,所述處理器執(zhí)行所述程序時還可以實現(xiàn)以下步驟:
根據(jù)所述圖像切分結(jié)果中各切分區(qū)域的待識別對象與識別所述切分區(qū)域中的待識別對象得到的目標(biāo)文字的文字特征匹配度,以及,各切分區(qū)域的待識別對象與所述目標(biāo)文字對應(yīng)的預(yù)設(shè)形狀的形狀特征匹配度,計算所述圖像切分結(jié)果的綜合權(quán)重值。
可選地,所述處理器執(zhí)行所述程序時還可以實現(xiàn)以下步驟:
在所述文字圖像上標(biāo)記多個候選切分點;按照選取的不同候選切分點,分別形成多個候選切分點集合;按照各候選切分點集合,分別切分所述文字圖像得到多個圖像切分結(jié)果。
可選地,所述處理器執(zhí)行所述程序時還可以實現(xiàn)以下步驟:
所述文字圖像包括多個待切分對象,所述在所述文字圖像上標(biāo)記多個候選切分點包括如下至少一種:在所述文字圖像距離均等的多個位置上標(biāo)記多個候選切分點;或者,查找所述文字圖像上各個相鄰但不連通的目標(biāo)待切分對象,并在各目標(biāo)待切分對象之間的位置上標(biāo)記多個候選切分點;或者,將所述文字圖像上各待切分對象投影在某方向坐標(biāo)軸上得到多個投影坐標(biāo)點,根據(jù)某方向坐標(biāo)軸上不存在投影坐標(biāo)點的坐標(biāo)在所述文字圖像上對應(yīng)的位置標(biāo)記多個候選切分點。
可選地,所述處理器執(zhí)行所述程序時還可以實現(xiàn)以下步驟:
按照所述待識別對象在所述文字圖像中的排列順序,依次對各個待識別對象采用多個具有不同標(biāo)記范圍的標(biāo)記窗口進(jìn)行標(biāo)記;識別不同標(biāo)記范圍的標(biāo)記窗口標(biāo)記的待識別對象所對應(yīng)的目標(biāo)文字;根據(jù)所述標(biāo)記窗口標(biāo)記的待識別對象與對應(yīng)的目標(biāo)文字,篩選出各個待識別對象的最優(yōu)標(biāo)記窗口;按照各個待識別對象的最優(yōu)標(biāo)記窗口,切分所述文字圖像得到所述圖像切分結(jié)果。
可選地,所述處理器執(zhí)行所述程序時還可以實現(xiàn)以下步驟:
提取所述切分區(qū)域中的待識別對象的特征向量;在預(yù)設(shè)的文字匹配表中查找匹配于所述特征向量的文字作為所述目標(biāo)文字;計算所述切分區(qū)域中的待識別對象與所述目標(biāo)文字的特征向量的余弦值,得到所述切分區(qū)域的文字特征匹配度。
可選地,所述處理器執(zhí)行所述程序時還可以實現(xiàn)以下步驟:
查找與所述目標(biāo)文字所屬的文字類別對應(yīng)的預(yù)設(shè)形狀;計算所述切分區(qū)域中的待識別對象與所述預(yù)設(shè)形狀的寬高比的余弦值,得到所述切分區(qū)域的形狀特征匹配度。
可選地,所述處理器執(zhí)行所述程序時還可以實現(xiàn)以下步驟:
針對同一圖像切分結(jié)果,計算多個切分區(qū)域的文字特征匹配度的平均值和形狀特征匹配度的平均值,分別作為所述圖像切分結(jié)果的文字特征匹配度均值和形狀特征匹配度均值;將所述圖像切分結(jié)果的文字特征匹配度均值和形狀特征匹配度均值與分配的權(quán)重系數(shù)相乘,并將乘積求和得到所述圖像切分結(jié)果的綜合權(quán)重值。
所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,該程序被處理器執(zhí)行時可以實現(xiàn)如下步驟:
利用多種切分方式分別切分文字圖像得到多種圖像切分結(jié)果,各圖像切分結(jié)果所包括的多個切分區(qū)域分別包括至少一個待識別對象;根據(jù)所述切分區(qū)域中的待識別對象統(tǒng)計各圖像切分結(jié)果的綜合權(quán)重值,其中,所述綜合權(quán)重值包括所述圖像切分結(jié)果中各切分區(qū)域的文字特征匹配度和形狀特征匹配度的統(tǒng)計值;根據(jù)各圖像切分結(jié)果的綜合權(quán)重值篩選最優(yōu)圖像切分結(jié)果;采用所述最優(yōu)圖像切分結(jié)果中各切分區(qū)域?qū)?yīng)的目標(biāo)文字作為識別結(jié)果。
可選地,該程序被處理器執(zhí)行時還可以實現(xiàn)如下步驟:
根據(jù)所述圖像切分結(jié)果中各切分區(qū)域的待識別對象與識別所述切分區(qū)域中的待識別對象得到的目標(biāo)文字的文字特征匹配度,以及,各切分區(qū)域的待識別對象與所述目標(biāo)文字對應(yīng)的預(yù)設(shè)形狀的形狀特征匹配度,計算所述圖像切分結(jié)果的綜合權(quán)重值。
可選地,該程序被處理器執(zhí)行時還可以實現(xiàn)如下步驟:
在所述文字圖像上標(biāo)記多個候選切分點;按照選取的不同候選切分點,分別形成多個候選切分點集合;按照各候選切分點集合,分別切分所述文字圖像得到多個圖像切分結(jié)果。
可選地,該程序被處理器執(zhí)行時還可以實現(xiàn)如下步驟:
所述文字圖像包括多個待切分對象,所述在所述文字圖像上標(biāo)記多個候選切分點包括如下至少一種:在所述文字圖像距離均等的多個位置上標(biāo)記多個候選切分點;或者,查找所述文字圖像上各個相鄰但不連通的目標(biāo)待切分對象,并在各目標(biāo)待切分對象之間的位置上標(biāo)記多個候選切分點;或者,將所述文字圖像上各待切分對象投影在某方向坐標(biāo)軸上得到多個投影坐標(biāo)點,根據(jù)某方向坐標(biāo)軸上不存在投影坐標(biāo)點的坐標(biāo)在所述文字圖像上對應(yīng)的位置標(biāo)記多個候選切分點。
可選地,該程序被處理器執(zhí)行時還可以實現(xiàn)如下步驟:
按照所述待識別對象在所述文字圖像中的排列順序,依次對各個待識別對象采用多個具有不同標(biāo)記范圍的標(biāo)記窗口進(jìn)行標(biāo)記;識別不同標(biāo)記范圍的標(biāo)記窗口標(biāo)記的待識別對象所對應(yīng)的目標(biāo)文字;根據(jù)所述標(biāo)記窗口標(biāo)記的待識別對象與對應(yīng)的目標(biāo)文字,篩選出各個待識別對象的最優(yōu)標(biāo)記窗口;按照各個待識別對象的最優(yōu)標(biāo)記窗口,切分所述文字圖像得到所述圖像切分結(jié)果。
可選地,該程序被處理器執(zhí)行時還可以實現(xiàn)如下步驟:
提取所述切分區(qū)域中的待識別對象的特征向量;在預(yù)設(shè)的文字匹配表中查找匹配于所述特征向量的文字作為所述目標(biāo)文字;計算所述切分區(qū)域中的待識別對象與所述目標(biāo)文字的特征向量的余弦值,得到所述切分區(qū)域的文字特征匹配度。
可選地,該程序被處理器執(zhí)行時還可以實現(xiàn)如下步驟:
查找與所述目標(biāo)文字所屬的文字類別對應(yīng)的預(yù)設(shè)形狀;計算所述切分區(qū)域中的待識別對象與所述預(yù)設(shè)形狀的寬高比的余弦值,得到所述切分區(qū)域的形狀特征匹配度。
可選地,該程序被處理器執(zhí)行時還可以實現(xiàn)如下步驟:
針對同一圖像切分結(jié)果,計算多個切分區(qū)域的文字特征匹配度的平均值和形狀特征匹配度的平均值,分別作為所述圖像切分結(jié)果的文字特征匹配度均值和形狀特征匹配度均值;將所述圖像切分結(jié)果的文字特征匹配度均值和形狀特征匹配度均值與分配的權(quán)重系數(shù)相乘,并將乘積求和得到所述圖像切分結(jié)果的綜合權(quán)重值。
本說明書中的各個實施例均采用遞進(jìn)的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。
本領(lǐng)域技術(shù)人員易于想到的是:上述各個實施例的任意組合應(yīng)用都是可行的,故上述各個實施例之間的任意組合都是本發(fā)明的實施方案,但是由于篇幅限制,本說明書在此就不一一詳述了。
在此提供的基于移動終端的電話舉報方案不與任何特定計算機(jī)、虛擬系統(tǒng)或者其它設(shè)備固有相關(guān)。各種通用系統(tǒng)也可以與基于在此的示教一起使用。根據(jù)上面的描述,構(gòu)造具有本發(fā)明方案的系統(tǒng)所要求的結(jié)構(gòu)是顯而易見的。此外,本發(fā)明也不針對任何特定編程語言。應(yīng)當(dāng)明白,可以利用各種編程語言實現(xiàn)在此描述的本發(fā)明的內(nèi)容,并且上面對特定語言所做的描述是為了披露本發(fā)明的最佳實施方式。
在此處所提供的說明書中,說明了大量具體細(xì)節(jié)。然而,能夠理解,本發(fā)明的實施例可以在沒有這些具體細(xì)節(jié)的情況下實踐。在一些實例中,并未詳細(xì)示出公知的方法、結(jié)構(gòu)和技術(shù),以便不模糊對本說明書的理解。
類似地,應(yīng)當(dāng)理解,為了精簡本公開并幫助理解各個發(fā)明方面中的一個或多個,在上面對本發(fā)明的示例性實施例的描述中,本發(fā)明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應(yīng)將該公開的方法解釋成反映如下意圖:即所要求保護(hù)的本發(fā)明要求比在每個權(quán)利要求中所明確記載的特征更多的特征。更確切地說,如權(quán)利要求書所反映的那樣,發(fā)明方面在于少于前面公開的單個實施例的所有特征。因此,遵循具體實施方式的權(quán)利要求書由此明確地并入該具體實施方式,其中每個權(quán)利要求本身都作為本發(fā)明的單獨(dú)實施例。
本領(lǐng)域那些技術(shù)人員可以理解,可以對實施例中的設(shè)備中的模塊進(jìn)行自適應(yīng)性地改變并且把它們設(shè)置在與該實施例不同的一個或多個設(shè)備中??梢园褜嵤├械哪K或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設(shè)備的所有過程或單元進(jìn)行組合。除非另外明確陳述,本說明書(包括伴隨的權(quán)利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。
此外,本領(lǐng)域的技術(shù)人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發(fā)明的范圍之內(nèi)并且形成不同的實施例。例如,在權(quán)利要求書中,所要求保護(hù)的實施例的任意之一都可以以任意的組合方式來使用。
本發(fā)明的各個部件實施例可以以硬件實現(xiàn),或者以在一個或者多個處理器上運(yùn)行的軟件模塊實現(xiàn),或者以它們的組合實現(xiàn)。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,可以在實踐中使用微處理器或者數(shù)字信號處理器(dsp)來實現(xiàn)根據(jù)本發(fā)明實施例的文字識別方案中的一些或者全部部件的一些或者全部功能。本發(fā)明還可以實現(xiàn)為用于執(zhí)行這里所描述的方法的一部分或者全部的設(shè)備或者裝置程序(例如,計算機(jī)程序和計算機(jī)程序產(chǎn)品)。這樣的實現(xiàn)本發(fā)明的程序可以存儲在計算機(jī)可讀介質(zhì)上,或者可以具有一個或者多個信號的形式。這樣的信號可以從因特網(wǎng)網(wǎng)站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
應(yīng)該注意的是上述實施例對本發(fā)明進(jìn)行說明而不是對本發(fā)明進(jìn)行限制,并且本領(lǐng)域技術(shù)人員在不脫離所附權(quán)利要求的范圍的情況下可設(shè)計出替換實施例。在權(quán)利要求中,不應(yīng)將位于括號之間的任何參考符號構(gòu)造成對權(quán)利要求的限制。單詞“包含”不排除存在未列在權(quán)利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發(fā)明可以借助于包括有若干不同元件的硬件以及借助于適當(dāng)編程的計算機(jī)來實現(xiàn)。在列舉了若干裝置的單元權(quán)利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現(xiàn)。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。