亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

字符識別方法和裝置的制作方法

文檔序號:6428357閱讀:205來源:國知局
專利名稱:字符識別方法和裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及模式識別領(lǐng)域,更具體地涉及一種字符識別方法和裝置。
背景技術(shù)
對大透視變形下的字符進(jìn)行識別是一個非常重要的課題,因為識別透視變形的字符是很多實際應(yīng)用的基礎(chǔ),而且,透視變形的字符廣泛存在于我們的日常生活中,例如,真實場景下的字符識別。為了解決這個問題,一種基本方法是首先矯正透視變形的圖像到正視圖像,然后對矯正后的圖像進(jìn)行傳統(tǒng)的OCR(光學(xué)字符識別)識別。但是這種方法受到具體應(yīng)用的限制,如要求存在輪廓和字符線條以及一些結(jié)構(gòu)等。因此技術(shù)人員開始專注于對每一個單字 符進(jìn)行識別。幾何哈希算法(Geometric Hashing(GH))是一個通用的基于模型的物體識別算法,該算法在物體經(jīng)歷了各種變換和只有部分信息存在時也可以適用。幾何哈希算法的優(yōu)點在于可以簡單并行處理,以及在只存在部分信息時也可以工作的能力。因此,幾何哈希算法被用于仿射變換的物體識別和三維物體識別中。使用仿射變換模型來近似透射模型是識別透視變形字符的一種傳統(tǒng)方法。M. Iwamura, T. Tsuji, A. Horimatsu和 K. Kise 等人在 2009 年的 ICDAR發(fā)表的題為“Realtimecamera-based recognition of characters and pictograms,,的文章中改進(jìn)了幾何哈希算法,并提出了一種對相機(jī)拍攝字符進(jìn)行識別的實時算法。該算法采用仿射模型,為了構(gòu)建仿射不變坐標(biāo)系,需要3個坐標(biāo)點(3元組)作為坐標(biāo)系的基。采用仿射不變量,即重心和面積比(area ratio)來降低3元組的自由度。然而,由于仿射模型僅在物體的大小比物體與相機(jī)之間的距離足夠小的條件下,即透視變形較小時,才能被認(rèn)為是透視模型的近似,而當(dāng)透視變形較大時,上述近似不再成立。所以,為了識別大透視變形下的字符,需要研發(fā)新的方法。另一種識別透視變形字符的現(xiàn)有方法是對于每個字符形成交比譜(cross ratiospectrum),通過比較當(dāng)前字符的交比譜和模板字符的交比譜來識別字符(參見Linlin Li和 Chew Lim Tan 在 2008 年的 ICPR 發(fā)表的題為 “Character recognition under severeperspective distortion”的文章)。這種方法的缺陷是字符識別所需的時間隨著待識別字符的類別數(shù)量的增長而線性增長。因此這種方法在待識別字符的類別較多的應(yīng)用中的使用是受到限制的。

發(fā)明內(nèi)容
根據(jù)本發(fā)明的第一方面,提供了一種字符識別方法,包括利用交比從待識別字符的凸包多邊形上選擇有序的四個點構(gòu)成的四元組;將待識別字符變換到由所選擇的四元組確定的透視不變坐標(biāo)系中;從變換后的待識別字符中提取特征來獲得待識別字符的特征向量;在預(yù)先存儲的字符類別表中查找與所獲得的待識別字符的特征向量匹配的記錄,向查找到的記錄所對應(yīng)的字符類別進(jìn)行投票;對于待識別字符的凸包多邊形上的不同四元組重復(fù)上述步驟預(yù)定次數(shù);以及將獲得投票票數(shù)最多的字符類別確定為字符識別結(jié)果。根據(jù)本發(fā)明的第二方面,提供了一種字符識別裝置,包括選擇單元,被配置用于利用交比從待識別字符的凸包多邊形上選擇有序的四個點構(gòu)成的四元組;變換單元,被配置用于將待識別字符變換到由所選擇的四元組確定的透視不變坐標(biāo)系中;提取單元,被配置用于從變換后的待識別字符中提取特征來獲得待識別字符的特征向量;投票單元,被配置用于在預(yù)先存儲的字符類別表中查找與所獲得的待識別字符的特征向量匹配的記錄,向查找到的記錄所對應(yīng)的字符類別進(jìn)行投票;重復(fù)控制單元,被配置用于對于待識別字符的凸包多邊形上的不同四元組重復(fù)上述步驟預(yù)定次數(shù);以及確定單元,被配置用于將獲得投票票數(shù)最多的字符類別確定為字符識別結(jié)果。
另外,本發(fā)明的實施例還提供了用于實現(xiàn)上述方法的計算機(jī)程序。此外,本發(fā)明的實施例還提供了至少計算機(jī)可讀介質(zhì)形式的計算機(jī)程序產(chǎn)品,其上記錄有用于實現(xiàn)上述方法的計算機(jī)程序代碼。通過本發(fā)明,可以識別大透視變形下的字符,與傳統(tǒng)使用仿射模型的方法相比,本發(fā)明的識別率更高。另外,本發(fā)明的方法,在部分信息缺失時仍可以進(jìn)行識別。本發(fā)明的方法還可以區(qū)分識別不同字體的字符。通過以下結(jié)合附圖對本發(fā)明的最佳實施例的詳細(xì)說明,本發(fā)明的這些以及其它的優(yōu)點將更加明顯。


參照下面結(jié)合附圖對本發(fā)明實施例的說明,會更加容易地理解本發(fā)明的以上和其它目的、特點和優(yōu)點。附圖中的部件只是為了示出本發(fā)明的原理。在附圖中,相同的或類似的技術(shù)特征或部件將采用相同或類似的附圖標(biāo)記來表示。附圖中圖I示出了根據(jù)本發(fā)明實施例的用于識別字符的方法的流程圖;圖2A示出了字符‘H’的凸包多邊形和內(nèi)部輪廓;圖2B示出了字符‘H’的凸包多邊形上的兩點之間的線段與內(nèi)部輪廓的交點的示圖;圖2C示出了發(fā)生了透視變形的字符‘H’的示圖;圖2D示出了字符‘H’的凸包多邊形上的兩點之間的線段與字符的內(nèi)部輪廓上的鋸齒相交的示圖;圖3A示出了圖2B和2C中的字符‘H’變換到透視不變坐標(biāo)系下的示圖;圖3B示出了選擇的無效的四元組變換到透視不變坐標(biāo)系下的示圖;圖4A示出了將透視不變坐標(biāo)系分割成4*4個方塊的示圖;圖4B示出了歸一化的直方圖;圖4C示出了哈希表中的一條記錄的示圖;圖5A-5C分別示出了大透視變形下的、損壞的和缺失的字符的示圖;圖6示出了根據(jù)本發(fā)明實施例的用于識別字符的裝置的組成框圖;圖7示出了識別字符裝置中的提取單元的組成框圖;以及
圖8示出了可用于實施根據(jù)本發(fā)明實施例的方法和裝置的計算機(jī)的示意性框圖。
具體實施例方式下面參照附圖來說明本發(fā)明的實施例。在本發(fā)明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或?qū)嵤┓绞街惺境龅脑睾吞卣飨嘟Y(jié)合。應(yīng)當(dāng)注意,為了清楚的目的,附圖和說明中省略了與本發(fā)明無關(guān)的、本領(lǐng)域普通技術(shù)人員已知的部件和處理的表示和描述。圖I示出了根據(jù)本發(fā)明的實施例的用于識別字符的方法的流程圖。首先,在步驟S102中,利用交比從待識別字符的凸包多邊形上選擇有序的四個點構(gòu)成的四元組。
關(guān)于交比(Cross Radio)的基本概念如下如果P。,A, B, P2四點共線,貝U交比Cr定義如下
D(Po,B)D(A,P2)Cr(Po, A,B,P2) = —~~,-,
D(AfB)D(PofP2)其中,DO表示兩點之間的距離。本領(lǐng)域技術(shù)人員可知,交比是透視變形中的不變量,S卩,在任何透視變形下,交比Cr(PQ,A,B,P2)保持不變。下面將參照圖2A-2D,以字符‘H’為例,詳細(xì)說明如何在待識別字符的凸包多邊形上選擇有序的四個點。在本發(fā)明中,凸包多邊形的定義如下凸包多邊形是一個多邊形,該多邊形的頂點是字符的凸包。例如,在圖2A中,字符‘H’的凸包多邊形由實線表示,而字符‘H’的內(nèi)部輪廓由虛線表示。對于字符‘H’的凸包多邊形上的兩點以及該兩點之間的線段與字符‘H’的內(nèi)部輪廓的兩個交點計算的交比值在透視變形下保持不變,其中,當(dāng)交點多于兩個時,選用前兩個交點來計算交比值。例如,在圖2B中,Ptl, P1, P2和P3為字符‘H’的凸包多邊形上的點,A和B為線段PtlP2與字符‘H’的內(nèi)部輪廓的前兩個交點,C和D為線段P1P3與字符‘H’的內(nèi)部輪廓的前兩個交點。選定字符‘H’的凸包多邊形上的Ptl點,可以確定凸包多邊形上的P2點,使得P0,A,B, P2點的交比值Cr (P0, A,B, P2)最接近一個預(yù)定值。由于字符的內(nèi)部輪廓可能出現(xiàn)鋸齒現(xiàn)象,因而凸包多邊形上的兩點之間的線段與字符的內(nèi)部輪廓的交點可能是與字符的內(nèi)部輪廓上的鋸齒的交點,例如圖2D中所示的B1和B2。在這種情況下,由于B1和B2之間的距離很短,從而計算出的交比值很大。為了避免出現(xiàn)與字符的內(nèi)部輪廓上的鋸齒相交的情況,選點準(zhǔn)則不能選用太大的交比值。根據(jù)發(fā)明人在實踐中的觀察,一般來說,交比值應(yīng)該在(1,2]的范圍內(nèi),而采用接近I. 5的交比值可以獲得較好的效果。因此在實踐中,交比值的預(yù)定值通常選取I. 5。如上所述,任意選定P0點,可以確定P2點,使得P0,A,B, P2滿足I I. 5-Cr(P0, A, B,P2) I最小;再選定P1點,其中,PrPpPdi足逆時針排列,可以確定P3A,使得P1, C,D,Pji足11. 5-Cr(P1; C,D,P3) I最小,這樣就完成了從待識別字符的凸包多邊形上選擇有序的四個點。本領(lǐng)域技術(shù)人員可以理解,也可以使P。、Pp P2滿足順時針排列。圖2C是圖2B中的字符‘H’發(fā)生了透視變形的示圖,其中的點P/ , P/,P2',P3'分別對應(yīng)于圖2B中的點PcpPpPdPPyA',B'和C',D'分別是線段Pc/ P2'和線段P/ P3;與發(fā)生透視變形的‘Η’的內(nèi)部輪廓的前兩個交點,所以A',B',C',D'分別對應(yīng)于圖2B中的A,B,C,D。由于交比是透視不變量,因此圖2C中發(fā)生透視變形的‘H’上的點 P0' ,A1 ,B' ,P2'的交比 Cr(P。' ,A1,B' ,P2')以及點 P1,,C',D' ,P3'的交比Cr(P/ ,C1,D',P3')保持不變。也就是說Cr (Poi ,K',B',P2' ) = Cr (P0, A, B, P2);Cr (P1; , C',D',P3' ) = Cr (P1, C,D,P3)。按照上述方式,給定了 Ptl (P/ )點,就可以確定P2(P2')點,無論發(fā)生什么樣的透視變換;同樣,給定PJP/ )點,就可以確定P3(P^ )點。通過這樣的方式選擇的四元組,只有兩個自由度,因而可以降低運算量。接下來,在步驟S104中,將待識別字符變換到由所選擇的四元組確定的透視不變坐標(biāo)系中。 在本發(fā)明中,將透視不變坐標(biāo)系限定為一個正方形,正方形的邊長為L,中心為(xc,yc)。在選定圖2B中的字符‘H’上的四元組Ptl, P1, P2,P3的情況下,字符‘H’變換到透視不變坐標(biāo)系下的示圖如圖3A所示。圖2B中的四個點Pc^PpPyP3分別映射到圖3A中的透視不變坐標(biāo)系中的 I(!(xc-1, yc+1), I1Uc-I, yc-1), I2(xc+1, yc-1), I3(xc+1, yc+1),其中,I = a*L/2,a e
,SP,I0, I1, I2和I3落入正方形以內(nèi)。由于圖2C是圖2B中的字符‘H’發(fā)生了透視變形,在選定對應(yīng)四元組Pc/,P/,P2' ,P3/的情況下,圖2C中的字符‘H’變換到透視不變坐標(biāo)系下的示圖也如圖3A所示,并且圖2C中的點Pc/,P/,P2',P/也同樣分別映射到圖3A中的透視不變坐標(biāo)系中的Itl, I1, I2和13。P0, P1, P2, P3(Poi,P/,P2' ,P3/ )與 I。,I1, I2 和 I3 這四個對應(yīng)對可以確定唯一的透視變換矩陣,根據(jù)該透視變換矩陣,可以將待識別字符變換到透視不變坐標(biāo)系下。確定透視變換矩陣的方法已經(jīng)公知,相關(guān)文獻(xiàn)有Multiple View Geometry inComputer Vision. Richard Hartley and Andrew Zisserman, Cambridge UniversityPress, 2004,在此不做贅述。優(yōu)選地,在將待識別字符變換到透視不變坐標(biāo)系之后,可以根據(jù)待識別字符的凸包多邊形上的點被變換到透視不變坐標(biāo)系下的比例來確定所選擇的四元組的有效性。當(dāng)凸包多邊形上的點被變換到透視不變坐標(biāo)系下的比例小于預(yù)定比例時,可以確定所選擇的四元組無效。在一個示例中,如果待識別字符的凸包多邊形上的點被變換到該透視不變坐標(biāo)系下的比例多于或等于90%,則認(rèn)為選取的四元組是有效的。如果待識別字符的凸包多邊形上的點被變換到該透視不變坐標(biāo)系下的比例小于90%,則可以確定所選擇的四元組無效,舍棄該四元組,重新進(jìn)行選擇。本領(lǐng)域技術(shù)人員可以理解,上述預(yù)定比例也可以選取90%以外的其它值。圖3B示出了待識別字符的凸包多邊形上的點被變換到透視不變坐標(biāo)系下的比例小于90%的情況,在這種情況下,所選取的四元組是無效的,在識別過程中要被舍棄。接下來,在步驟S106中,從變換后的待識別字符中提取特征來獲得待識別字符的特征向量。優(yōu)選地,可以將透視不變坐標(biāo)系分割成多個子區(qū)域,根據(jù)待識別字符在各個子區(qū)域中的像素數(shù)目來構(gòu)建直方圖,將該直方圖作為特征向量。例如,可以將透視不變坐標(biāo)系分割成mXm個方塊,其中m是大于I的整數(shù)。這樣,可以得到一個橫坐標(biāo)是子區(qū)域的序號、縱坐標(biāo)是子區(qū)域內(nèi)所包含的字符像素的數(shù)目的直方圖,將該直方圖作為特征向量f current ο進(jìn)一步優(yōu)選地,可以對該直方圖進(jìn)行歸一化,以將歸一化后的直方圖作為特征向量f current。本領(lǐng)域技術(shù)人員可以理解,也可以提取邊緣方向、梯度信息等特征來形成特征向量。在步驟S108中,在預(yù)先存儲的字符類別表中查找與所獲得的待識別字符的特征向量匹配的記錄,向查找到的記錄所對應(yīng)的字符類別進(jìn)行投票。具體地說,字符類別表中的每條記錄中包含字符類別和對應(yīng)的特征向量。其中,特征向量可以是直方圖、歸一化的直方圖等形式。在一個示例中,字符類別表可以是哈希表,其中哈希表中的每條記錄還包含對其中的特征向量進(jìn)行哈希處理而得到的索引值。
在該示例中,對特征向量進(jìn)行哈希處理,例如,進(jìn)行均勻二值量化,并將量化的特征向量轉(zhuǎn)換成一個索引值bin。本領(lǐng)域技術(shù)人員可以理解,也可以對特征向量進(jìn)行三級量化等多級量化,并將量化的特征向量轉(zhuǎn)換成索引值bin。根據(jù)獲得的bin值,在預(yù)先存儲的字符類別表(如哈希表)中查找到相應(yīng)的字符類別d和特征向量fstored。比較待識別字符的特征向量fcurrent與字符類別表中存儲的特征向量fstored之間的歐氏距離,如果Il fcurrent-fstored Il小于一個較小的預(yù)定值,則給字符類別d投
——西
ο如果對于相同的bin值有多票投給同一字符類別d,則忽略從該bin值投給同一字符類別d的其他票數(shù),即,只算一票。圖4A示出了以將透視不變坐標(biāo)系分割成4*4個方塊為例來得到特征向量。圖4B示出了對每個方塊中的字符像素數(shù)進(jìn)行歸一化得到的作為特征向量的直方圖。將特征向量均勻二值量化,并將量化的特征向量轉(zhuǎn)換成索引值bin,也就是圖4C中所示的哈希表中的40944。根據(jù)該值,可以查找到哈希表中的字符類別d和相應(yīng)的特征向量。對于步驟S108中的字符類別表,可以在進(jìn)行字符識別之前在學(xué)習(xí)階段針對用于學(xué)習(xí)的每個模板字符通過以下方式來構(gòu)建上述字符類別表首先,要提取模板字符的特征向量,包括利用交比從模板字符的凸包多邊形中選擇有序的四個點構(gòu)成的四元組;將模板字符變換到由所選擇的四元組確定的透視不變坐標(biāo)系中;從變換后的模板字符中提取特征來獲得模板字符的特征向量。提取模板字符的特征向量的步驟與上文中獲得待識別字符的特征向量的步驟類似,在此不做贅述。需要說明的是,在將模板字符變換到透視不變坐標(biāo)系之后,要根據(jù)模板字符的凸包多邊形上的點被變換到透視不變坐標(biāo)系下的比例來確定所選擇的四元組的有效性。如果所選擇的四元組無效,則舍棄該四元組,重新進(jìn)行選擇。這里確定所選擇的四元組的有效性的方法與以上針對待識別字符確定所選擇的四元組的有效性的方法類似,在此不做贅述。在提取了模板字符的特征向量之后,將模板字符的字符類別和所獲得的特征向量作為一條記錄存放在字符類別表中。然后,重復(fù)從模板字符的凸包多邊形中選擇有序的四個點構(gòu)成的四元組直到得到字符類別表中的一條記錄的多個步驟,直到遍歷模板字符的凸包多邊形上的所有四元組。從而構(gòu)建了包括每個模板字符的字符類別表。
在此需要注意的是,雖然在上面描述了怎樣生成字符類別表,但是本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,對于根據(jù)本發(fā)明實施例的用于識別字符的方法來說,只需要預(yù)先存儲了一個如上所述的字符類別表即可,而無需關(guān)心字符類別表是怎樣生成的。接下來,在步驟SllO中,對于待識別字符的凸包多邊形上的不同四元組重復(fù)上述步驟預(yù)定次數(shù)。這里,預(yù)定次數(shù)可以是預(yù)先設(shè)定的次數(shù),也可以是在凸包多邊形上的點中每隔一個點或每隔兩個點進(jìn)行選點,來執(zhí)行上述步驟S102-S108,即,完成一次投票。最后,在步驟S112中,將獲得投票票數(shù)最多的字符類別確定為字符識別結(jié)果。上述字符類別也可以廣義的使用,例如,在多種字體的情況下,字體A-Arial和A-Calibri可以算作一類,也可以算作兩類來區(qū)分識別。根據(jù)本發(fā)明的字符識別方法,在圖5A所示的大透視變形下的字符,以及圖5B和5C所示的字符有一些損壞或缺失的情況下,都可以進(jìn)行字符識別。 圖6示出了根據(jù)本發(fā)明實施例的用于識別字符的裝置的框圖。字符識別裝置600包括選擇單元602、變換單元604、提取單元606、投票單元608、重復(fù)控制單元610和確定單元612。選擇單元602,被配置用于利用交比從待識別字符的凸包多邊形上選擇有序的四個點構(gòu)成的四元組。變換單元604,被配置用于將待識別字符變換到由所選擇的四元組確定的透視不變坐標(biāo)系中。提取單元606,被配置用于從變換后的待識別字符中提取特征來獲得待識別字符的特征向量。投票單元608,被配置用于在預(yù)先存儲的字符類別表中查找與所獲得的待識別字符的特征向量匹配的記錄,向查找到的記錄所對應(yīng)的字符類別進(jìn)行投票。重復(fù)控制單元610,被配置用于對于待識別字符的凸包多邊形上的不同四元組重復(fù)上述步驟預(yù)定次數(shù)。確定單元612,被配置用于將獲得投票票數(shù)最多的字符類別確定為字符識別結(jié)果。類似地,字符類別表可以預(yù)先存儲在用于識別字符的裝置中,也可以在進(jìn)行字符識別之前在學(xué)習(xí)階段針對用于學(xué)習(xí)的每個模板字符來構(gòu)建字符類別表。這里構(gòu)建字符類別表的方式,與以上參照圖I至圖4描述的本發(fā)明的字符識別方法實施例中構(gòu)建字符類別表的方式類似,在此不再贅述。可選地,字符識別裝置600還包括判斷單元(未示出),被配置用于根據(jù)待識別字符的凸包多邊形上的點被變換到透視不變坐標(biāo)系下的比例是否小于預(yù)定比例來判斷所選擇的四元組是否無效,如果確定所選擇的四元組無效,則舍棄該四元組。可選地,字符類別表采用哈希表,其中哈希表中的每條記錄還包含對其中的特征向量進(jìn)行哈希處理而得到的索引值。可選地,提取單元606包括分割子單元6062和直方圖構(gòu)建子單元6064,分割子單元6062被配置用于將透視不變坐標(biāo)系分割成多個子區(qū)域,直方圖構(gòu)建子單元6064被配置用于根據(jù)待識別字符在各個子區(qū)域中的像素數(shù)目來構(gòu)建直方圖,直方圖被用作為特征向量。關(guān)于字符識別裝置600的各個部分的操作和功能的細(xì)節(jié)可以參照結(jié)合圖I至圖4描述的本發(fā)明的實施例,這里不再詳細(xì)描述。在此需要說明的是,圖6和圖7所示的字符識別裝置600及其組成單元的結(jié)構(gòu)僅僅是示例性的,本領(lǐng)域技術(shù)人員可以根據(jù)需要對圖6和圖7所示的結(jié)構(gòu)框圖進(jìn)行修改。以上結(jié)合具體實施例描述了本發(fā)明的基本原理,但是,需要指出的是,對本領(lǐng)域的普通技術(shù)人員而言,能夠理解本發(fā)明的方法和裝置的全部或者任何步驟或者部件,可以在任何計算裝置(包括處理器、存儲介質(zhì)等)或者計算裝置的網(wǎng)絡(luò)中,以硬件、固件、軟件或者它們的組合加以實現(xiàn),這是本領(lǐng)域普通技術(shù)人員在閱讀了本發(fā)明的說明的情況下運用他們的基本編程技能就能實現(xiàn)的。因此,本發(fā)明的目的還可以通過在任何計算裝置上運行一個程序或者一組程序來實現(xiàn)。所述計算裝置可以是公知的通用裝置。因此,本發(fā)明的目的也可以僅僅通過提供包含實現(xiàn)所述方法或者裝置的程序代碼的程序產(chǎn)品來實現(xiàn)。也就是說,這樣的程序產(chǎn)品也構(gòu)成本發(fā)明,并且存儲有這樣的程序產(chǎn)品的存儲介質(zhì)也構(gòu)成本發(fā)明。顯然,所述存儲介質(zhì)可以是任何公知的存儲介質(zhì)或者將來所開發(fā)出來的任何存儲介質(zhì)。在通過軟件和/或固件實現(xiàn)本發(fā)明的實施例的情況下,從存儲介質(zhì)或網(wǎng)絡(luò)向具有專用硬件結(jié)構(gòu)的計算機(jī),例如圖8所示的通用計算機(jī)800安裝構(gòu)成該軟件的程序,該計算機(jī)在安裝有各種程序時,能夠執(zhí)行各種功能等等。圖8示出了可用于實施根據(jù)本發(fā)明實施例的方法和裝置的計算機(jī)的示意性框圖。在圖8中,中央處理單元(CPU)801根據(jù)只讀存儲器(ROM)802中存儲的程序或從存儲部分 808加載到隨機(jī)存取存儲器(RAM) 803的程序執(zhí)行各種處理。在RAM 803中,還根據(jù)需要存儲當(dāng)CPU 801執(zhí)行各種處理等等時所需的數(shù)據(jù)。CPU 80KROM 802和RAM 803經(jīng)由總線804彼此連接。輸入/輸出接口 805也連接到總線804。下述部件連接到輸入/輸出接口 805 :輸入部分806 (包括鍵盤、鼠標(biāo)等等)、輸出部分807 (包括顯示器,比如陰極射線管(CRT)、液晶顯示器(LCD)等,和揚(yáng)聲器等)、存儲部分808 (包括硬盤等)、通信部分809 (包括網(wǎng)絡(luò)接口卡比如LAN卡、調(diào)制解調(diào)器等)。通信部分809經(jīng)由網(wǎng)絡(luò)比如因特網(wǎng)執(zhí)行通信處理。根據(jù)需要,驅(qū)動器810也可連接到輸入/輸出接口 805??刹鹦督橘|(zhì)811比如磁盤、光盤、磁光盤、半導(dǎo)體存儲器等等可以根據(jù)需要被安裝在驅(qū)動器810上,使得從中讀出的計算機(jī)程序根據(jù)需要被安裝到存儲部分808中。在通過軟件實現(xiàn)上述系列處理的情況下,從網(wǎng)絡(luò)比如因特網(wǎng)或存儲介質(zhì)比如可拆卸介質(zhì)811安裝構(gòu)成軟件的程序。本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,這種存儲介質(zhì)不局限于圖8所示的其中存儲有程序、與設(shè)備相分離地分發(fā)以向用戶提供程序的可拆卸介質(zhì)811。可拆卸介質(zhì)811的例子包含磁盤(包含軟盤(注冊商標(biāo)))、光盤(包含光盤只讀存儲器(⑶-ROM)和數(shù)字通用盤(DVD))、磁光盤(包含迷你盤(MD)(注冊商標(biāo)))和半導(dǎo)體存儲器?;蛘?,存儲介質(zhì)可以是ROM 802、存儲部分808中包含的硬盤等等,其中存有程序,并且與包含它們的設(shè)備一起被分發(fā)給用戶。本發(fā)明還提出一種存儲有機(jī)器可讀取的指令代碼的程序產(chǎn)品。所述指令代碼由機(jī)器讀取并執(zhí)行時,可執(zhí)行上述根據(jù)本發(fā)明實施例的方法。相應(yīng)地,用于承載上述存儲有機(jī)器可讀取的指令代碼的程序產(chǎn)品的存儲介質(zhì)也包括在本發(fā)明的公開中。所述存儲介質(zhì)包括但不限于軟盤、光盤、磁光盤、存儲卡、存儲棒等
坐寸ο在上面對本發(fā)明具體實施例的描述中,針對一種實施方式描述和/或示出的特征可以以相同或類似的方式在一個或更多個其它實施方式中使用,與其它實施方式中的特征相組合,或替代其它實施方式中的特征。應(yīng)該強(qiáng)調(diào),術(shù)語“包括/包含”在本文使用時指特征、要素、步驟或組件的存在,但并不排除一個或更多個其它特征、要素、步驟或組件的存在或附加。此外,本發(fā)明的方法不限于按照說明書中描述的時間順序來執(zhí)行,也可以按照其他的時間順序地、并行地或獨立地執(zhí)行。因此,本說明書中描述的方法的執(zhí)行順序不對本發(fā)明的技術(shù)范圍構(gòu)成限制。盡管上面已經(jīng)通過對本發(fā)明的具體實施例的描述對本發(fā)明進(jìn)行了披露,但是,應(yīng)該理解,上述的所有實施例和示例均是示例性的,而非限制性的。本領(lǐng)域的技術(shù)人員可在所附權(quán)利要求的精神和范圍內(nèi)設(shè)計對本發(fā)明的各種修改、改進(jìn)或者等同物。這些修改、改進(jìn)或者等同物也應(yīng)當(dāng)被認(rèn)為包括在本發(fā)明的保護(hù)范圍內(nèi) 。
權(quán)利要求
1.一種字符識別方法,包括 利用交比從待識別字符的凸包多邊形上選擇有序的四個點構(gòu)成的四元組; 將所述待識別字符變換到由所選擇的四元組確定的透視不變坐標(biāo)系中; 從變換后的所述待識別字符中提取特征來獲得待識別字符的特征向量; 在預(yù)先存儲的字符類別表中查找與所獲得的待識別字符的特征向量匹配的記錄,向查找到的記錄所對應(yīng)的字符類別進(jìn)行投票; 對于所述待識別字符的凸包多邊形上的不同四元組重復(fù)上述步驟預(yù)定次數(shù);以及 將獲得投票票數(shù)最多的字符類別確定為字符識別結(jié)果。
2.如權(quán)利要求I所述的方法,其中所述字符類別表針對用于學(xué)習(xí)的每個模板字符通過以下方式來構(gòu)建 利用交比從模板字符的凸包多邊形中選擇有序的四個點構(gòu)成的四元組; 將所述模板字符變換到由所選擇的四元組確定的透視不變坐標(biāo)系中; 從變換后的所述模板字符中提取特征來獲得所述模板字符的特征向量; 將所述模板字符的字符類別和所獲得的所述模板字符的特征向量作為一條記錄存放在所述子符類別表中;以及 重復(fù)上述處理直到遍歷所述模板字符的凸包多邊形上的所有四元組,以便構(gòu)建所述字符類別表。
3.如權(quán)利要求I或2所述的方法,其中在將所述待識別字符變換到由所選擇的四元組確定的透視不變坐標(biāo)系中的步驟之后還包括根據(jù)所述待識別字符的凸包多邊形上的點被變換到所述透視不變坐標(biāo)系下的比例是否小于預(yù)定比例來判斷所選擇的四元組是否無效,如果確定所選擇的四元組無效,則舍棄該四元組,重新執(zhí)行利用交比從待識別字符的凸包多邊形上選擇有序的四個點構(gòu)成的四元組的步驟。
4.如權(quán)利要求I或2所述的方法,其中所述字符類別表采用哈希表,其中所述哈希表中的每條記錄還包含對其中的特征向量進(jìn)行哈希處理而得到的索引值。
5.如權(quán)利要求3所述的方法,其中從變換后的所述待識別字符中提取特征來獲得待識別字符的特征向量的步驟包括將所述透視不變坐標(biāo)系分割成多個子區(qū)域,根據(jù)所述待識別字符在各個子區(qū)域中的像素數(shù)目來構(gòu)建直方圖,將所述直方圖作為所述特征向量。
6.一種字符識別裝置,包括 選擇單元,被配置用于利用交比從待識別字符的凸包多邊形上選擇有序的四個點構(gòu)成的四元組; 變換單元,被配置用于將所述待識別字符變換到由所選擇的四元組確定的透視不變坐標(biāo)系中; 提取單元,被配置用于從變換后的所述待識別字符中提取特征來獲得待識別字符的特征向量; 投票單元,被配置用于在預(yù)先存儲的字符類別表中查找與所獲得的待識別字符的特征向量匹配的記錄,向查找到的記錄所對應(yīng)的字符類別進(jìn)行投票; 重復(fù)控制單元,被配置用于對于所述待識別字符的凸包多邊形上的不同四元組重復(fù)上述步驟預(yù)定次數(shù);以及 確定單元,被配置用于將獲得投票票數(shù)最多的字符類別確定為字符識別結(jié)果。
7.如權(quán)利要求6所述的裝置,其中,所述字符類別表針對用于學(xué)習(xí)的每個模板字符通過以下方式來構(gòu)建 利用交比從模板字符的凸包多邊形中選擇有序的四個點構(gòu)成的四元組; 將所述模板字符變換到由所選擇的四元組確定的透視不變坐標(biāo)系中; 從變換后的所述模板字符中提取特征來獲得所述模板字符的特征向量; 將所述模板字符的字符類別和所獲得的所述模板字符的特征向量作為一條記錄存放在所述子符類別表中;以及 重復(fù)上述處理直到遍歷所述模板字符的凸包多邊形上的所有四元組,以便構(gòu)建所述字符類別表。
8.如權(quán)利要求6或7所述的裝置,還包括 判斷單元,被配置用于根據(jù)所述待識別字符的凸包多邊形上的點被變換到所述透視不變坐標(biāo)系下的比例是否小于預(yù)定比例來判斷所選擇的四元組是否無效,如果確定所選擇的四元組無效,則舍棄該四元組。
9.如權(quán)利要求6或7所述的裝置,其中所述字符類別表采用哈希表,其中所述哈希表中的每條記錄還包含對其中的特征向量進(jìn)行哈希處理而得到的索引值。
10.如權(quán)利要求8所述的裝置,其中所述提取單元包括分割子單元和直方圖構(gòu)建子單元,所述分割子單元被配置用于將所述透視不變坐標(biāo)系分割成多個子區(qū)域,所述直方圖構(gòu)建子單元被配置用于根據(jù)所述待識別字符在各個子區(qū)域中的像素數(shù)目來構(gòu)建直方圖,所述直方圖被用作為所述特征向量。
全文摘要
本發(fā)明涉及字符識別方法和裝置,其中該字符識別方法包括利用交比從待識別字符的凸包多邊形上選擇有序的四個點構(gòu)成的四元組;將待識別字符變換到由所選擇的四元組確定的透視不變坐標(biāo)系中;從變換后的待識別字符中提取特征來獲得待識別字符的特征向量;在預(yù)先存儲的字符類別表中查找與所獲得的待識別字符的特征向量匹配的記錄,向查找到的記錄所對應(yīng)的字符類別進(jìn)行投票;對于待識別字符的凸包多邊形上的不同四元組重復(fù)上述步驟預(yù)定次數(shù);以及將獲得投票票數(shù)最多的字符類別確定為字符識別結(jié)果。
文檔編號G06K9/64GK102855498SQ20111019282
公開日2013年1月2日 申請日期2011年7月1日 優(yōu)先權(quán)日2011年7月1日
發(fā)明者潘攀, 朱遠(yuǎn)平, 孫俊, 直井聰 申請人:富士通株式會社
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1