專利名稱:一種字符識別方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文字識別技術(shù)領(lǐng)域,尤其涉及一種字符識別方法及系統(tǒng)。
背景技術(shù):
在當(dāng)前數(shù)字化處理行業(yè),印刷體漢字識別技術(shù)已經(jīng)被廣泛的應(yīng)用。目前使用識別系統(tǒng)進行印刷體數(shù)字化工作,主要采用以下兩種技術(shù)一種是采用單一的識別系統(tǒng),經(jīng)過識別后的文本直接交給人工進行后期修改工作。這種方法的不足是單一識別系統(tǒng)由于識別算法的唯一性,對圖像與識別字典的匹配度計算就有局限性,從而使得某些字符在此種算法下的相似度很高,造成誤識率高,后期必須做逐字校對才能滿足質(zhì)量要求。另一種是將兩個識別系統(tǒng)識別后的文本文件通過校對軟件進行對比,找出不同的地方標(biāo)記出來。相同的部分則視為識別準(zhǔn)確。此方法的不足是由于各個識別系統(tǒng)的切分算法不一致,使得識別出來的文字并不是一一對應(yīng)的,增加了校對算法的難度,有的情況甚至是不能對比的,另外是并沒有利用識別系統(tǒng)自身的識別相似度的數(shù)據(jù),只是機械的把各個識別系統(tǒng)的結(jié)果分為一致和不一致兩種。現(xiàn)有技術(shù)不足之處在于幾乎所有的識別系統(tǒng)都以文字識別正確率作為主要參數(shù), 而很少提供誤識率和錯字定位相關(guān)信息。而后者正是海量數(shù)據(jù)加工過程中的重要信息。對于識別后的修改工作,查找一個錯字的位置所用的時間遠(yuǎn)比修改它要多得多。現(xiàn)有處理方法中并不能大幅地削減人工后期修改的工作量,而人工修改環(huán)節(jié)是整個數(shù)字化工藝中成本最高的一個環(huán)節(jié)。同時由于沒有挖掘多種識別系統(tǒng)的過程數(shù)據(jù)來自動判斷文字的置信度, 文字質(zhì)量還要過多的依靠人工判別,使得質(zhì)量的穩(wěn)定性和準(zhǔn)確性難以保證。
發(fā)明內(nèi)容
針對現(xiàn)有技術(shù)中所存在的問題,本發(fā)明的目的是提供一種字符識別方法及系統(tǒng)。 該方法及系統(tǒng)能夠應(yīng)用多個識別核心,通過加權(quán)計算不但可以提供每個字符的綜合識別結(jié)果,同時提供字符識別結(jié)果的準(zhǔn)確度,準(zhǔn)確度達(dá)到一定標(biāo)準(zhǔn)的字符則不需要進行人工檢驗修改,從而提高識別結(jié)果后期編改的工作效率。為了實現(xiàn)上述發(fā)明目的,本發(fā)明采用的技術(shù)方案是一種字符識別方法,包括以下步驟(1)對待識別文檔進行版面分析,將分析得到的字符區(qū)域進行字符切割以獲得字符圖像數(shù)據(jù);(2)利用不同的識別核心分別對字符圖像數(shù)據(jù)依次進行字符識別,得到每個字符識別結(jié)果和各個字符識別結(jié)果相似度;(3)根據(jù)識別核心加權(quán)參考值以及字符識別結(jié)果相似度對所述字符識別結(jié)果進行加權(quán)計算,得到最終字符識別結(jié)果及其準(zhǔn)確度。進一步,步驟O)中,所述的每個字符識別結(jié)果包括首選識別結(jié)果和第一備選識別結(jié)果。進一步,步驟O)中,所述各個字符識別結(jié)果的相似度包括每個識別核心的首選識別結(jié)果相似度和首選識別結(jié)果與第一備選識別結(jié)果相似度差值,其中所述識別結(jié)果相似度表示識別核心所返回的識別結(jié)果與原字符的相似度。進一步,步驟O)中,若每個識別核心的相似度度量單位不同,則按比例轉(zhuǎn)化為相同的度量單位。進一步,所述根據(jù)識別核心加權(quán)參考值以及字符識別結(jié)果相似度對所述字符識別結(jié)果進行加權(quán)計算,具體步驟包括a.判斷字符識別結(jié)果的字符類型;b.獲取識別核心所述字符類型的加權(quán)參考值;c.利用所述字符識別結(jié)果相似度和所述加權(quán)參考值,計算得到該字符識別結(jié)果的
綜合直{曰度。進一步,所述該識別結(jié)果的綜合置信度是指首選識別結(jié)果相似度、首選識別結(jié)果與第一備選識別結(jié)果相似度差值以及識別核心字符類型的加權(quán)參考值的乘積。進一步,所述得到最終字符識別結(jié)果及其準(zhǔn)確度,具體包括i.對于同一字符圖像數(shù)據(jù),依據(jù)每個識別核心字符識別結(jié)果的綜合置信度,選擇綜合置信度高的作為最終字符識別結(jié)果;ii.依據(jù)每個識別核心字符識別結(jié)果的差異性,確定字符識別結(jié)果的準(zhǔn)確度;若各個識別核心結(jié)果相同,則字符識別結(jié)果的準(zhǔn)確度最高,若各個識別核心結(jié)果均不相同,則字符識別結(jié)果的準(zhǔn)確度最低。進一步,所述的首選識別結(jié)果與第一備選識別結(jié)果相似度的差值與字符識別結(jié)果的準(zhǔn)確度成反比,其差值越大,識別核心對字符識別結(jié)果的準(zhǔn)確度越高;其差值越小,識別核心對字符識別結(jié)果的準(zhǔn)確度越低。進一步,若不同識別核心的的字符識別結(jié)果存在相同情況,則計算相同結(jié)果對應(yīng)的綜合置信度的平均值并將其作為調(diào)整后的該字符識別結(jié)果的綜合置信度。進一步,在字符識別過程中,根據(jù)待識別文檔中已得到的最終字符識別結(jié)果調(diào)整各個識別核心的加權(quán)參考值。更進一步,所述的方法進一步包括將每個字符圖像數(shù)據(jù)的最終字符識別結(jié)果、準(zhǔn)確度以及文字坐標(biāo)數(shù)據(jù)合成為輸出文件,供后期文字修改環(huán)節(jié)使用。為實現(xiàn)上述方法,本發(fā)明提供了一種字符識別系統(tǒng),包括字符切割裝置,用于對待識別文檔進行版面分析,并將分析得到的字符區(qū)域進行字符切割以獲得字符圖像數(shù)據(jù);識別裝置,用于利用不同的識別核心分別對字符圖像數(shù)據(jù)依次進行字符識別,得到每個字符識別結(jié)果和各個字符識別結(jié)果的相似度;計算裝置,用于根據(jù)識別核心加權(quán)參考值以及字符識別結(jié)果相似度對所述字符識別結(jié)果進行加權(quán)計算,得到最終字符識別結(jié)果及其準(zhǔn)確度。進一步,所述的計算裝置包括字符類型判斷模塊,用于判斷字符識別結(jié)果的字符類型;加權(quán)參考值獲取模塊,用于獲取識別核心所述字符類型的加權(quán)參考值;
綜合置信度計算模塊,用于利用字符識別結(jié)果相似度和加權(quán)參考值,計算得到識別結(jié)果的綜合置信度。更進一步,所述系統(tǒng)還包括輸出裝置用于將每個字符圖像數(shù)據(jù)的最終字符識別結(jié)果、準(zhǔn)確度以及文字坐標(biāo)數(shù)據(jù)合成為輸出文件,供后期文字修改環(huán)節(jié)使用。本發(fā)明的效果在于本發(fā)明通過識別過程結(jié)果的計算和對比,輔以海量測試數(shù)據(jù)的分析結(jié)果,利用不同識別核心的優(yōu)勢,對識別文字結(jié)果可以定量得計算出每個字符不同的準(zhǔn)確度,使后期識別結(jié)果的修改工作可以集中在準(zhǔn)確度較低的部分,對于準(zhǔn)確度較高的部分則可以不用修改。所以不需要對結(jié)果逐字進行也能達(dá)到質(zhì)量要求,大大的節(jié)省了人工的勞動強度和成本,同時質(zhì)量更加可靠。
圖1為具體實施方式
中所述一種字符識別系統(tǒng)的結(jié)構(gòu)框圖;圖2為具體實施方式
中所述一種字符識別方法的流程圖;圖3為具體實施方式
中待識別文檔;圖4為具體實施方式
中待識別文檔經(jīng)過版面分析后的字符區(qū)域;圖5為具體實施方式
中經(jīng)字符切割后的字符圖像數(shù)據(jù);圖6為具體實施方式
中經(jīng)識別核心識別后的字符識別結(jié)果。
具體實施例方式下面結(jié)合說明書附圖和具體實施方式
,對本發(fā)明進行詳細(xì)說明。圖1示出了具體實施方式
中所述一種字符識別系統(tǒng)的結(jié)構(gòu)框圖,該系統(tǒng)包括字符切割裝置11,用于對待識別文檔進行版面分析,并將分析得到的字符區(qū)域進行字符切割以獲得字符圖像數(shù)據(jù);識別裝置12,用于利用不同的的識別核心分別對字符圖像數(shù)據(jù)依次進行字符識別,得到每個字符識別結(jié)果和各個字符識別結(jié)果的相似度;計算裝置13,用于根據(jù)識別核心加權(quán)參考值以及字符識別結(jié)果相似度對所述字符識別結(jié)果進行加權(quán)計算,得到最終字符識別結(jié)果及其準(zhǔn)確度。其中,計算裝置13還包括用于判斷字符識別結(jié)果的字符類型的字符類型判斷模塊31、用于獲取識別核心所述字符類型的加權(quán)參考值的加權(quán)參考值獲取模塊32和用于利用字符識別結(jié)果相似度和加權(quán)參考值,計算得到識別結(jié)果的綜合置信度的綜合置信度計算模塊33。輸出裝置14,用于將每個字符圖像數(shù)據(jù)的最終字符識別結(jié)果、準(zhǔn)確度以及文字坐標(biāo)數(shù)據(jù)合成為輸出文件,供后期文字修改環(huán)節(jié)使用。圖2示出了具體實施方式
中采用圖1所示系統(tǒng)進行字符識別的一種字符識別方法,該方法包括以下步驟Sll 對待識別文檔進行版面分析,將分析得到的字符區(qū)域進行字符切割以獲得字符圖像數(shù)據(jù);首先對原始圖像按照常規(guī)的方法進行二值化、糾斜和版面分析。本實施例中采用大津法進行二值化,糾斜采用投影圖的方式查找連續(xù)線段最高峰,使用Hough變換搜索傾斜角度。版面分析則利用游程圖采用自底向上的分析方法,將圖像數(shù)據(jù)劃分為具有不同符號的區(qū)域,如字符區(qū)域、圖形區(qū)域、表格區(qū)域等。然后,對字符區(qū)域的水平方向和垂直方向進行投影,然后根據(jù)投影,根據(jù)投影圖進行字符切割以獲得每個字符圖像數(shù)據(jù)。顯然,也可以采用連通域法等其它字符切割方法。本實施例中,如圖3中所示為待識別文檔,經(jīng)版面分析后得到識別區(qū)域即字符區(qū)域,如圖4所示,再經(jīng)過字符切割獲每個字符圖像數(shù)據(jù),如圖5所示。S12:利用不同的識別核心分別對字符圖像數(shù)據(jù)依次進行字符識別,得到每個字符識別結(jié)果和各個字符識別結(jié)果的相似度;其中,所得到的每個字符識別結(jié)果包括首選識別結(jié)果和第一備選識別結(jié)果。本實施例中,選用的不同的識別核心為三個,分別為ABBYY公司的識別核心、漢王公司的識別核心、文通公司的識別核心,當(dāng)然也可以選擇其它識別核心,識別核心的數(shù)量也可以是四個或者四個以上不同的識別核心。本實施例中,選用ABBYY公司的識別核心、漢王公司的識別核心、文通公司的識別核心(分別用識別核心A、識別核心B和識別核心C表示)分別對字符圖像數(shù)據(jù)進行字符識別。所述各個字符識別結(jié)果的相似度包括每個識別核心的首選識別結(jié)果相似度和首選識別結(jié)果與第一備選識別結(jié)果相似度差值,其中所述識別結(jié)果相似度表示識別核心所返回的識別結(jié)果與原字符的相似度。本實施例中引入此參數(shù)的原因為在實際數(shù)據(jù)中識別結(jié)果的準(zhǔn)確度越高,此相似度差值越大。相反地,如果識別核心對識別結(jié)果準(zhǔn)確度越低,此相似度差值越小。引入此參數(shù)可以放大首選識別結(jié)果相似度。本實施例中,若每個識別核心的相似度度量單位不同(比如有的識別核心用0-10 之間的數(shù)值來表示相似度,有的識別核心用0-100之間的數(shù)值來表示相似度),則按比例轉(zhuǎn)化為相同的度量單位。如將相似度統(tǒng)一轉(zhuǎn)化為0-10之間的數(shù)值。S13:根據(jù)識別核心加權(quán)參考值以及字符識別結(jié)果相似度對所述字符識別結(jié)果進行加權(quán)計算,得到最終字符識別結(jié)果及其準(zhǔn)確度。根據(jù)識別核心加權(quán)參考值以及字符識別結(jié)果相似度對所述字符識別結(jié)果進行加權(quán)計算,具體步驟包括a.判斷字符識別結(jié)果的字符類型;b.獲取識別核心所述字符類型的加權(quán)參考值,所述的加權(quán)參考值是根據(jù)預(yù)先大量的測試和統(tǒng)計得到的;如表1所示,表1中的數(shù)值為識別核心A、識別核心B和識別核心C的各字符類型加權(quán)值如對于識別核心A、識別核心B與識別核心C,當(dāng)代簡體漢字的加權(quán)參考值均為1. 2 ; 對于當(dāng)代繁體漢字,識別核心A的加權(quán)參考值為0. 9,識別核心B的為1. 1,識別核心C的為 1 ;可見,利用不同識別核心進行字符識別對識別文字結(jié)果可以定量計算出每個字符不同的準(zhǔn)確度。
權(quán)利要求
1.一種字符識別方法,包括以下步驟(1)對待識別文檔進行版面分析,將分析得到的字符區(qū)域進行字符切割以獲得字符圖像數(shù)據(jù);(2)利用不同的識別核心分別對字符圖像數(shù)據(jù)依次進行字符識別,得到每個字符識別結(jié)果和各個字符識別結(jié)果相似度;(3)根據(jù)識別核心加權(quán)參考值以及字符識別結(jié)果相似度對所述字符識別結(jié)果進行加權(quán)計算,得到最終字符識別結(jié)果及其準(zhǔn)確度。
2.如權(quán)利要求1所述的一種字符識別方法,其特征在于,步驟(2)中,所述的每個字符識別結(jié)果包括首選識別結(jié)果和第一備選識別結(jié)果。
3.如權(quán)利要求2所述的一種字符識別方法,其特征在于,步驟O)中,所述各個字符識別結(jié)果的相似度包括每個識別核心的首選識別結(jié)果相似度和首選識別結(jié)果與第一備選識別結(jié)果相似度差值,其中所述識別結(jié)果相似度表示識別核心所返回的識別結(jié)果與原字符的相似度。
4.如權(quán)利要求1所述的一種字符識別方法,其特征在于,步驟O)中,不同的識別核心為三個;若不同識別核心的相似度度量單位不同,則按比例轉(zhuǎn)化為相同的度量單位。
5.如權(quán)利要求1所述的一種字符識別方法,其特征在于,步驟(3)中,所述根據(jù)識別核心加權(quán)參考值以及字符識別結(jié)果相似度對所述字符識別結(jié)果進行加權(quán)計算,具體步驟包括a.判斷字符識別結(jié)果的字符類型;b.獲取識別核心所述字符類型的加權(quán)參考值;c.利用所述字符識別結(jié)果相似度和所述加權(quán)參考值,計算得到該字符識別結(jié)果的綜合置信度。
6.如權(quán)利要求5所述的一種字符識別方法,其特征在于,所述該識別結(jié)果的綜合置信度是指首選識別結(jié)果相似度、首選識別結(jié)果與第一備選識別結(jié)果相似度差值以及識別核心字符類型的加權(quán)參考值的乘積。
7.如權(quán)利要求1所述的一種字符識別方法,其特征在于,步驟(3)中,所述得到最終字符識別結(jié)果及其準(zhǔn)確度,具體包括i.對于同一字符圖像數(shù)據(jù),依據(jù)每個識別核心字符識別結(jié)果的綜合置信度,選擇綜合置信度高的作為最終字符識別結(jié)果; .依據(jù)每個識別核心字符識別結(jié)果的差異性,確定字符識別結(jié)果的準(zhǔn)確度;若各個識別核心結(jié)果相同,則字符識別結(jié)果的準(zhǔn)確度最高,若各個識別核心結(jié)果均不相同,則字符識別結(jié)果的準(zhǔn)確度最低。
8.如權(quán)利要求3所述的一種字符識別方法,其特征在于,所述的首選識別結(jié)果與第一備選識別結(jié)果相似度的差值與字符識別結(jié)果的準(zhǔn)確度成正比,其差值越大,識別核心對字符識別結(jié)果的準(zhǔn)確度越高;其差值越小,識別核心對字符識別結(jié)果的準(zhǔn)確度越低。
9.如權(quán)利要求7所述的一種字符識別方法,其特征在于,若不同識別核心得到的字符識別結(jié)果存在相同情況,則計算相同結(jié)果對應(yīng)的綜合置信度的平均值并將其作為調(diào)整后的該字符識別結(jié)果的綜合置信度。
10.如權(quán)利要求7所述的一種字符識別方法,其特征在于,在字符識別過程中,根據(jù)待識別文檔中已得到的最終字符識別結(jié)果調(diào)整各個識別核心的加權(quán)參考值。
11.如權(quán)利要求1至10之一所述的一種字符識別方法,其特征在于,所述方法進一步包括(4)將每個字符圖像數(shù)據(jù)的最終字符識別結(jié)果、準(zhǔn)確度以及文字坐標(biāo)數(shù)據(jù)合成為輸出文件,供后期文字修改環(huán)節(jié)使用。
12.—種字符識別系統(tǒng),包括字符切割裝置,用于對待識別文檔進行版面分析,并將分析得到的字符區(qū)域進行字符切割以獲得字符圖像數(shù)據(jù);識別裝置,用于利用不同的識別核心分別對字符圖像數(shù)據(jù)依次進行字符識別,得到每個字符識別結(jié)果和各個字符識別結(jié)果的相似度;計算裝置,用于根據(jù)識別核心加權(quán)參考值以及字符識別結(jié)果相似度對所述字符識別結(jié)果進行加權(quán)計算,得到最終字符識別結(jié)果及其準(zhǔn)確度。
13.如權(quán)利要求12所述的一種字符識別系統(tǒng),其特征在于,所述計算裝置包括 字符類型判斷模塊,用于判斷字符識別結(jié)果的字符類型;加權(quán)參考值獲取模塊,用于獲取識別核心所述字符類型的加權(quán)參考值; 綜合置信度模塊,用于利用字符識別結(jié)果相似度和加權(quán)參考值,計算得到字符識別結(jié)果的綜合置信度。
14.如權(quán)利要求12或13所述的一種字符識別系統(tǒng),其特征在于,該系統(tǒng)還包括輸出裝置用于將每個字符圖像數(shù)據(jù)的最終字符識別結(jié)果、準(zhǔn)確度以及文字坐標(biāo)數(shù)據(jù)合成為輸出文件,供后期文字修改環(huán)節(jié)使用。
全文摘要
本發(fā)明公開了一種字符識別方法及系統(tǒng),屬于文字識別技術(shù)領(lǐng)域。現(xiàn)有的文字識別方法人工的勞動強度和成本大、且質(zhì)量的穩(wěn)定性和準(zhǔn)確性難以保證。本發(fā)明所述的方法首先對待識別文檔進行版面分析,將分析得到的字符區(qū)域進行字符切割以獲得字符圖像數(shù)據(jù);其次,利用不同的識別核心分別對字符圖像數(shù)據(jù)依次進行字符識別,得到各個字符識別結(jié)果的相似度;最后,根據(jù)識別核心加權(quán)參考值以及字符識別結(jié)果相似度對所述字符識別結(jié)果進行加權(quán)計算,得到最終字符識別結(jié)果及其準(zhǔn)確度。本發(fā)明所述方法及系統(tǒng)可以利用不同識別核心的優(yōu)勢,對識別文字結(jié)果可以定量得計算出每個字符不同的準(zhǔn)確度,減少后期人工修改的工作量,同時質(zhì)量更加可靠。
文檔編號G06K9/20GK102298696SQ20101021136
公開日2011年12月28日 申請日期2010年6月28日 優(yōu)先權(quán)日2010年6月28日
發(fā)明者周長嶺, 趙海濤 申請人:方正國際軟件(北京)有限公司