專利名稱:一種字符切分的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文字識別領(lǐng)域,尤其涉及一種字符切分的方法及裝置。
背景技術(shù):
隨著單字符識別準(zhǔn)確率的提高,字符切分已經(jīng)成為字符識別領(lǐng)域的關(guān)鍵問題。一般的,字符切分的準(zhǔn)確率與字符識別的準(zhǔn)確率直接相關(guān),字符切分的錯誤會直接導(dǎo)致字符識別的錯誤。常用的切分方法有基于圖像的切分方法和基于識別的切分方法。其中,基于圖像的切分方法由于根據(jù)字符圖像的高度、寬度、相鄰圖像的間隙等對字符進(jìn)行切分,故比較適用于字符結(jié)構(gòu)相對一致的東方語言文字,而對于字符高度、寬度不一致、并且容易出現(xiàn)粘連現(xiàn)象的西方語言,這種切分方法的準(zhǔn)確性較低進(jìn)而影響了字符識別的準(zhǔn)確性;而基于識別 的切分方法由于采用過切分技術(shù),雖然提高了字符切分的準(zhǔn)確性,但比較耗時,從而降低字符識別的效率。
發(fā)明內(nèi)容
本發(fā)明實施例提供一種字符切分的方法及裝置,提高了字符識別的效率。本發(fā)明實施例采用如下技術(shù)方案—種字符切分的方法,包括將行字符圖像進(jìn)行過切分,得到行字符圖像的候選切分點(diǎn);根據(jù)預(yù)設(shè)的有效識別距離閾值從所述候選切分點(diǎn)中獲取有效切分點(diǎn);從所述有效切分點(diǎn)中獲取目標(biāo)切分點(diǎn);利用所述目標(biāo)切分點(diǎn)對所述行字符圖像進(jìn)行切分。一種字符切分的裝置,包括獲取單元,用于將行字符圖像進(jìn)行過切分,得到行字符圖像的候選切分點(diǎn);有效切分點(diǎn)獲取單元,用于根據(jù)預(yù)設(shè)的有效識別距離閾值從所述候選切分點(diǎn)中獲取有效切分點(diǎn);目標(biāo)切分點(diǎn)獲取單元,用于從所述有效切分點(diǎn)中獲取目標(biāo)切分點(diǎn);切分單元,用于利用所述目標(biāo)切分點(diǎn)對所述行字符圖像進(jìn)行切分。本發(fā)明實施例提供的一種字符切分的方法及裝置,由于通過預(yù)設(shè)的有效識別距離閾值從候選切分點(diǎn)中獲取目標(biāo)切分點(diǎn),避免了對所有候選切分點(diǎn)組成的字符塊進(jìn)行識別,僅需要對上述目標(biāo)切分點(diǎn)組成的字符塊進(jìn)行識別,節(jié)省了字符識別的時間,從而提高了字符識別的效率。因此,利用本發(fā)明實施例的技術(shù)方案,提高了字符識別的效率。
為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作一簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖I為本發(fā)明實施例二字符切分的方法的流程圖;圖2為本發(fā)明實施例二中英文單詞“reporter”被切分后的示意圖;圖3為本發(fā)明實施例三字符切分的裝置的示意圖;圖4為本發(fā)明實施例三字符切分的裝置的有效切分點(diǎn)獲取單元的示意圖;圖5為本發(fā)明實施例三字符切分的裝置的目標(biāo)切分點(diǎn)獲取單元的示意圖;圖6為本發(fā)明實施例三字符切分的裝置的又一示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。為提高字符識別的效率,本發(fā)明實施例一提供了一種字符切分的方法,包括將行字符圖像進(jìn)行過切分,得到行字符圖像的候選切分點(diǎn);根據(jù)預(yù)設(shè)的有效識別距離閾值從所述候選切分點(diǎn)中獲取有效切分點(diǎn);從所述有效切分點(diǎn)中獲取目標(biāo)切分點(diǎn);利用所述目標(biāo)切分點(diǎn)對所述行字符圖像進(jìn)行切分。通過以上描述可以看出,由于通過預(yù)設(shè)的有效識別距離閾值從候選切分點(diǎn)中獲取目標(biāo)切分點(diǎn),避免了對所有候選切分點(diǎn)組成的字符塊進(jìn)行識別,僅需要對上述目標(biāo)切分點(diǎn)組成的字符塊進(jìn)行識別,節(jié)省了字符識別的時間,從而提高了字符識別的效率。因此,利用本發(fā)明實施例的技術(shù)方案,提高了字符識別的效率。如圖I所示,本發(fā)明實施例二提供了一種字符切分的方法,包括如下步驟步驟11、將行字符圖像進(jìn)行過切分,得到行字符圖像的候選切分點(diǎn)。在本實施例中,以所述行字符圖像的左邊界作為起始的切分點(diǎn)對所述行字符圖像進(jìn)行切分,從而獲取所述行字符圖像的候選切分點(diǎn)以及切分后的字符塊。以“reporter”這個英文單詞為例,如圖2所示,vl為起始的切分點(diǎn),v2、v3、
v4、.......vl4分別為候選切分點(diǎn)。明顯的,所述vl、v2、v3、v4、.......vl4這14個切分
點(diǎn)將所述“r印orter”劃分為13個字符塊。步驟12、根據(jù)預(yù)設(shè)的有效識別距離閾值從所述候選切分點(diǎn)中獲取有效切分點(diǎn)。這里為便于說明,將所述行字符圖像的左邊界和所述候選切分點(diǎn)都稱為切分點(diǎn)。其中,任意兩個切分點(diǎn)之間的字符構(gòu)成了這兩個切分點(diǎn)切分出來的字符塊。其中,所述邊具有權(quán)值,該權(quán)值可以表示與所述邊對應(yīng)的字符塊的字符識別可信度。在本實施例中,所述權(quán)值包括所述字符塊的識別距離。此外,所述有效識別距離閾值Th_ValDis可以為可信閾值Ttl的1/3-2/3。其中,所述可信閾值表示識別引擎的經(jīng)驗統(tǒng)計閾值。一般的,當(dāng)字符塊的識別距離大于所述可信閾值時,該字符塊的識別結(jié)果可能不準(zhǔn)確。在本實施例中,可以將所述有效識別距離閾值Th_ValDis設(shè)置為1/2。對于英文字符,由英文識別引擎得出的可信閾值Ttl為100,故Th_ValDis = 50。還可以設(shè)置寬高比閾值或高度閾值,所述寬高比閾值或所述高度閾值用于對所述字符塊的合理性進(jìn)行判斷。一般地,當(dāng)所述字符塊的寬高比小于或等于所述寬高比閾值,或所述字符塊的高度小于或等于所述高度閾值,那么所述字符塊是合理的。對于英文字符,所述寬高比閾值的范圍可以為0-1. 5,所述高度閾值可以設(shè)置為所述行字符圖像的行高的1/4。在本實施例中,僅通過寬高比閾值來判斷所述字符塊的合理性,并將所述寬高比閾值Th_W/H 設(shè)置為 I. 5。在本實施例中,首先,從所述候選切分點(diǎn)中選取起始切分點(diǎn),將所述起始切分點(diǎn)的下一候選切分點(diǎn)作為待確認(rèn)切分點(diǎn)。然后,利用所述待確認(rèn)切分點(diǎn)與所述起始切分點(diǎn)以前的任意一個有效切分點(diǎn)組成待識別字符塊,其中所述起始切分點(diǎn)以前的任意一個有效切分點(diǎn)為所述待識別字符塊的左邊界,所述待確認(rèn)切分點(diǎn)為所述待識別字符塊的右邊界。接著,將所述待識別字符塊的寬高比與所述寬高比閾值進(jìn)行比較,若所述待識別字符塊的寬高比小于或等于所述寬高比閾值,那么所述待識別字符塊是合理的,進(jìn)而獲取所述待識別字符塊的識別距離。進(jìn)一步的,將所述待識別字符塊的識別距離與所述有效識別距離閾值進(jìn)行 比較。若所述待識別字符塊的識別距離小于或等于所述有效識別距離閾值,那么將所述待確認(rèn)切分點(diǎn)作為有效切分點(diǎn)。其中,所述起始切分點(diǎn)可以為任意切分點(diǎn),既包括所述行字符圖像的左邊界vl,也可以包括候選切分點(diǎn)v2、v3......vl4。優(yōu)選的,以所述行字符圖像的左邊界Vl為第一個起始切分點(diǎn),此時,v2為待確認(rèn)切分點(diǎn)。具體的,如圖2所示,還以所述“reporter”為例進(jìn)行說明。在由所述候選切分點(diǎn)v2、v3、v4........vl4中獲取有效切分點(diǎn)之前,首先設(shè)置由
任意兩個切分點(diǎn)連接的邊的權(quán)值,如表I所示。此處,由任意兩個切分點(diǎn)連接的邊的權(quán)值T1一般遠(yuǎn)大于所述可信閾值I;。例如,可以將由任意兩個切分點(diǎn)連接的邊的權(quán)值T1都設(shè)置為1000。表I
權(quán)利要求
1.一種字符切分的方法,其特征在于,包括 將行字符圖像進(jìn)行過切分,得到行字符圖像的候選切分點(diǎn); 根據(jù)預(yù)設(shè)的有效識別距離閾值從所述候選切分點(diǎn)中獲取有效切分點(diǎn); 從所述有效切分點(diǎn)中獲取目標(biāo)切分點(diǎn); 利用所述目標(biāo)切分點(diǎn)對所述行字符圖像進(jìn)行切分。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述根據(jù)預(yù)設(shè)的有效識別距離閾值從所述候選切分點(diǎn)中獲取有效切分點(diǎn)包括 從所述候選切分點(diǎn)中選取起始切分點(diǎn),將所述起始切分點(diǎn)的下一候選切分點(diǎn)作為待確認(rèn)切分點(diǎn); 利用所述待確認(rèn)切分點(diǎn)與所述起始切分點(diǎn)以前的任意一個有效切分點(diǎn)組成待識別字符塊,其中所述起始切分點(diǎn)以前的任意一個有效切分點(diǎn)為所述待識別字符塊的左邊界,所述待確認(rèn)切分點(diǎn)為所述待識別字符塊的右邊界; 獲取所述待識別字符塊的識別距離,并將所述待識別字符塊的識別距離與所述有效識別距離閾值進(jìn)行比較,若所述待識別字符塊的識別距離小于或等于所述有效識別距離閾值,將所述待確認(rèn)切分點(diǎn)作為有效切分點(diǎn)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述獲取所述待識別字符塊的識別距離之前,還包括 將所述待識別字符塊的寬高比與預(yù)設(shè)的寬高比閾值進(jìn)行比較,和/或?qū)⑺龃R別字符塊的高度與預(yù)設(shè)的高度閾值進(jìn)行比較; 所述獲取所述待識別字符塊的識別距離包括 若所述待識別字符塊的寬高比小于或等于所述寬高比閾值,和/或所述待識別字符塊的高度小于或等于所述高度閾值,獲取所述待識別字符塊的識別距離。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述從所述有效切分點(diǎn)中獲取目標(biāo)切分點(diǎn)包括 根據(jù)所述有效切分點(diǎn)獲取至少一條有效切分路徑; 獲取所述有效切分路徑的有效平均識別距離; 從所述至少一條有效切分路徑中獲取有效平均識別距離最小的目標(biāo)切分路徑; 將組成所述目標(biāo)切分路徑的有效切分點(diǎn)作為目標(biāo)切分點(diǎn)。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲取所述有效切分路徑的有效平均識別距離包括 根據(jù)所述有效識別路徑中的所有非符號的字符塊的識別距離的總和以及所述所有非符號的字符塊的數(shù)量獲取所述有效切分路徑的有效平均識別距離。
6.根據(jù)權(quán)利要求1-5任一所述的方法,其特征在于,所述從所述有效切分點(diǎn)中獲取目標(biāo)切分點(diǎn)之后,還包括 將由相鄰的目標(biāo)切分點(diǎn)組成的字符塊的識別距離與所述有效識別距離閾值進(jìn)行比較; 若所述由相鄰的目標(biāo)切分點(diǎn)組成的字符塊的識別距離大于所述有效識別距離閾值,調(diào)整所述有效識別距離閾值以獲取準(zhǔn)確的目標(biāo)切分點(diǎn)。
7.一種字符切分的裝置,其特征在于,包括獲取單元,用于將行字符圖像進(jìn)行過切分,得到行字符圖像的候選切分點(diǎn); 有效切分點(diǎn)獲取單元,用于根據(jù)預(yù)設(shè)的有效識別距離閾值從所述候選切分點(diǎn)中獲取有效切分點(diǎn); 目標(biāo)切分點(diǎn)獲取單元,用于從所述有效切分點(diǎn)中獲取目標(biāo)切分點(diǎn); 切分單元,用于利用所述目標(biāo)切分點(diǎn)對所述行字符圖像進(jìn)行切分。
8.根據(jù)權(quán)利要求7所述的字符切分的裝置,其特征在于,所述有效切分點(diǎn)獲取單元包括 待確認(rèn)切分點(diǎn)獲取模塊,用于從所述候選切分點(diǎn)中選取起始切分點(diǎn),將所述起始切分點(diǎn)的下一候選切分點(diǎn)作為待確認(rèn)切分點(diǎn); 待識別字符塊獲取模塊,用于利用所述待確認(rèn)切分點(diǎn)與所述起始切分點(diǎn)以前的任意一個有效切分點(diǎn)組成待識別字符塊,其中所述起始切分點(diǎn)以前的任意一個有效切分點(diǎn)為所述待識別字符塊的左邊界,所述待確認(rèn)切分點(diǎn)為所述待識別字符塊的右邊界; 識別距離獲取模塊,用于獲取所述待識別字符塊的識別距離; 比較模塊,用于并將所述待識別字符塊的識別距離與所述有效識別距離閾值進(jìn)行比較; 有效切分點(diǎn)獲取模塊,用于若所述待識別字符塊的識別距離小于或等于所述有效識別距離閾值,將所述待確認(rèn)切分點(diǎn)作為有效切分點(diǎn)。
9.根據(jù)權(quán)利要求10所述的字符切分的裝置,其特征在于,所述比較模塊還用于將所述待識別字符塊的寬高比與預(yù)設(shè)的寬高比閾值進(jìn)行比較,和/或?qū)⑺龃R別字符塊的高度與預(yù)設(shè)的高度閾值進(jìn)行比較; 所述識別距離獲取模塊具體用于若所述待識別字符塊的寬高比小于或等于所述寬高比閾值,和/或所述待識別字符塊的高度小于或等于所述高度閾值,獲取所述待識別字符塊的識別距離。
10.根據(jù)權(quán)利要求7所述的字符切分的裝置,其特征在于,所述目標(biāo)切分點(diǎn)獲取單元包括 有效切分路徑獲取模塊,用于根據(jù)所述有效切分點(diǎn)獲取至少一條有效切分路徑; 有效平均識別距離獲取模塊,用于獲取所述有效切分路徑的有效平均識別距離; 目標(biāo)切分路徑獲取模塊,用于從所述至少一條有效切分路徑中獲取有效平均識別距離最小的目標(biāo)切分路徑; 目標(biāo)切分點(diǎn)獲取模塊,用于將組成所述目標(biāo)切分路徑的有效切分點(diǎn)作為目標(biāo)切分點(diǎn)。
11.根據(jù)權(quán)利要求10所述的字符切分的裝置,其特征在于,有效平均識別距離獲取模塊具體用于根據(jù)所述有效識別路徑中的所有非符號的字符塊的識別距離的總和以及所述所有非符號的字符塊的數(shù)量獲取所述有效切分路徑的有效平均識別距離。
12.根據(jù)權(quán)利要求7-11任一所述的字符切分的裝置,其特征在于,還包括 比較單元,用于將由相鄰的目標(biāo)切分點(diǎn)組成的字符塊的識別距離與所述有效識別距離閾值進(jìn)行比較; 目標(biāo)切分點(diǎn)檢驗單元,用于若所述由相鄰的目標(biāo)切分點(diǎn)組成的字符塊的識別距離大于所述有效識別距離閾值,調(diào)整所述有效識別距離閾值以獲取準(zhǔn)確的目標(biāo)切分點(diǎn)。
全文摘要
本發(fā)明實施例公開了一種字符切分的方法及裝置,涉及文字識別領(lǐng)域,為提高字符識別的效率而發(fā)明。所述方法包括將行字符圖像進(jìn)行過切分,得到行字符圖像的候選切分點(diǎn);根據(jù)預(yù)設(shè)的有效識別距離閾值從所述候選切分點(diǎn)中獲取有效切分點(diǎn);從所述有效切分點(diǎn)中獲取目標(biāo)切分點(diǎn);利用所述目標(biāo)切分點(diǎn)對所述行字符圖像進(jìn)行切分。本發(fā)明實施例主要用于字符識別中,通過預(yù)設(shè)的有效識別距離閾值從候選切分點(diǎn)中獲取目標(biāo)切分點(diǎn),避免了對所有候選切分點(diǎn)組成的字符塊進(jìn)行識別,僅需要對上述目標(biāo)切分點(diǎn)組成的字符塊進(jìn)行識別,節(jié)省了字符識別的時間,從而提高了字符識別的效率。因此,利用本發(fā)明實施例的技術(shù)方案,提高了字符識別的效率。
文檔編號G06K9/34GK102915440SQ20111022155
公開日2013年2月6日 申請日期2011年8月3日 優(yōu)先權(quán)日2011年8月3日
發(fā)明者萬鑫 申請人:漢王科技股份有限公司