亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于中文手寫漢字識別的預(yù)分類方法及系統(tǒng)的制作方法

文檔序號:6584246閱讀:192來源:國知局
專利名稱:用于中文手寫漢字識別的預(yù)分類方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及中文手寫漢字的識別方法和系統(tǒng),尤其涉及用于中文手寫漢字識別的預(yù)分類方法和裝置。
背景技術(shù)
手持設(shè)備的計算能力和存儲容量都很有限,因此用于便攜式手持設(shè)備的中文手寫識別(CHWR),與用于臺式計算機的中文手寫識別大不相同。對于一個針對全部漢字的識別系統(tǒng),一般需要一個基于漢字高維特征的精細分類器。這種分類器的計算復(fù)雜性太高,存儲器容量需求太大,以至于無法直接應(yīng)用于手持設(shè)備。
圖4a和圖4b展示了兩種已有的預(yù)分類器的流程。圖4a中,首先在步驟71輸入漢字的結(jié)構(gòu)特征,然后在步驟72進行彈性匹配(動態(tài)規(guī)劃方法)以得到候選字組。但是,其中利用的漢字結(jié)構(gòu)模型并不容易訓(xùn)練,不同漢字的結(jié)構(gòu)差別很大,計算復(fù)雜性差別也很大,漢字的結(jié)構(gòu)越復(fù)雜,預(yù)分類器需要的計算時間也越多。
圖4b使用了多級預(yù)分類策略,以提高識別速度。在每個預(yù)分類器中基于訓(xùn)練數(shù)據(jù),為每一類選定特征設(shè)定一個范圍。如果輸入采樣的特征在一個類特征的范圍內(nèi),則該類將包括在候選字組中,否則,該類將不包括在候選字組中。在步驟81輸入手寫漢字的統(tǒng)計特征,在步驟82與每一漢字的統(tǒng)計特征范圍進行比較,得到候選字組。
已有的預(yù)分類器僅僅利用一種特征篩選候選字組,在速度和準(zhǔn)確率方面進行了折衷,在高速度時準(zhǔn)確率低,準(zhǔn)確率高時速度慢,其綜合性能難以滿足手持設(shè)備的需求。

發(fā)明內(nèi)容
鑒于已有技術(shù)的不足之處,本發(fā)明的目的是提供一種新的預(yù)分類方法和預(yù)分類器。它可以更好地兼顧了預(yù)分類的準(zhǔn)確度和速度。
本發(fā)明的進一步目的是提供一種高效的手寫漢字識別方法和系統(tǒng)。
根據(jù)本發(fā)明的一種用于中文手寫漢字識別系統(tǒng)的預(yù)分類方法,該手寫漢字識別系統(tǒng)對手寫漢字的特征進行預(yù)分類和精細分類以識別該漢字。該方法包括提取手寫漢字的低維的第一種漢字特征,并由此產(chǎn)生第一候選字組;提取手寫漢字的高維的第二種漢字特征,用于精細分類;把所述高維的第二種漢字特征降維,來獲得低維的第二種漢字特征,并由此產(chǎn)生第二候選字組;以及根據(jù)所述第一候選字組和第二候選字組的交集,獲得最終候選字組。
對于同一手寫漢字,本發(fā)明通過兩個子預(yù)分類器,利用兩種不同的漢字特征來分別篩選出兩個不同的候選字組。根據(jù)這兩個基于不同漢字特征的候選字組進行預(yù)分類,從而避免了單純利用一個預(yù)分類器和一種漢字特征來產(chǎn)生候選字組帶來的不足。
本發(fā)明還提供了一種用于中文手寫漢字識別系統(tǒng)中識別手寫中文漢字的方法。該方法包括提取手寫漢字的低維的第一種漢字特征,并由第一子預(yù)分類產(chǎn)生第一候選字組;提取所述手寫漢字的高維的第二種漢字特征;從所述高維的第二種漢字特征獲得低維的第二種漢字特征,并由第二子預(yù)分類產(chǎn)生第二候選字組;根據(jù)所述第一候選字組和第二候選字組的交集,獲得最終候選字組,作為預(yù)分類的結(jié)果;以及利用所述高維的第二種漢字特征和所述最終候選字組來識別出所書寫的漢字。利用兩種不同的候選字組和高維的第二種漢字特征,識別書寫漢字的準(zhǔn)確率和速度綜合性能顯著地提高。
本發(fā)明還提供了一種用于中文手寫漢字識別系統(tǒng)的預(yù)分類器。它包括低維的第一種漢字特征提取裝置,用于提取手寫漢字的低維的第一種漢字特征,和第一子預(yù)分類器,用于產(chǎn)生第一候選字組;高維的第二種漢字特征提取裝置,用于提取手寫漢字的高維的第二種漢字特征;降維裝置,把所述高維的第二種漢字特征降維,來獲得低維的第二種漢字特征;第二子預(yù)分類器,根據(jù)所說低維的第二種漢字特征來產(chǎn)生第二候選字組;以及最終候選字組產(chǎn)生裝置,利用所述第一候選字組和第二候選字組的交集來獲得最終候選字組。
本發(fā)明還提供了一種中文手寫漢字識別系統(tǒng)。它包括低維的第一種漢字特征提取裝置,用于提取手寫漢字的低維的第一種漢字特征,和第一子預(yù)分類器,用于產(chǎn)生第一候選字組;高維的第二種漢字特征提取裝置,用于提取所述手寫漢字的高維的第二種漢字特征。該手寫漢字識別系統(tǒng)還包括降維變換裝置,把所述高維的第二種漢字特征降維,來獲得低維的第二種漢字特征;第二子預(yù)分類器,根據(jù)所獲得的低維的第二種漢字特征來產(chǎn)生第二候選字組;最終候選字組產(chǎn)生裝置,用于產(chǎn)生最終候選字組;以及精細分類器,用于利用所述高維的第二種漢字特征和所述最終候選字組來識別該手寫漢字。
本發(fā)明的所述精細分類器利用所述第一候選字組和第二候選字組的交集來識別該手寫漢字。充分利用了第一候選字組和第二候選字組的互補性,去除了一些多余的候選字,從而提高了精細分類器的識別速度。
本發(fā)明的所述低維的第一種漢字特征與所述低維的第二種漢字特征不同。它們之間基本上不相關(guān)。因此,所得到第一候選字組和第二候選字組具有一定的互補性。
此外,漢字的外圍特征遠比其內(nèi)部特征重要,更有利于識別漢字,因此,本發(fā)明的低維的第二種漢字特征選用的是漢字的外圍統(tǒng)計特征。本發(fā)明的降維變換裝置,將采樣的高維的第二漢字特征的外圍特征進行匯總(summarize),如進行累加,得到低維的第二種漢字特征。這樣就省去了獨立的低維的第二種漢字特征的提取。
本發(fā)明還提出的一種用于中文手寫漢字識別系統(tǒng)中通過預(yù)分類來產(chǎn)生候選字組的方法包括訓(xùn)練有效統(tǒng)計特征的多個模板;將這些模板分為多個統(tǒng)計特征聚類;在每個聚類中,生成代表其中全部漢字特征的聚類中心;并對每個統(tǒng)計特征聚類,產(chǎn)生一個字索引組;對輸入的漢字進行采樣來獲得該漢字的統(tǒng)計特征;將該漢字采樣所得的統(tǒng)計特征與各個聚類的聚類中心進行比較,選出若干組與之最相似的聚類,其中相似聚類組的數(shù)量預(yù)先確定;以及合并選定的聚類組相對應(yīng)的字索引組,來產(chǎn)生對輸入漢字的候選字組。這種同聚類中心比較的方式,優(yōu)于已有技術(shù)中同每一聚類的聚類特征范圍進行比較的方式。其準(zhǔn)確率高,并且具有更大的靈活性。


圖1是根據(jù)本發(fā)明的手寫漢字分類器的框圖。
圖2是根據(jù)本發(fā)明的漢字特征降維方法示意圖。
圖3是根據(jù)本發(fā)明的候選字組選擇示意圖。
圖4a和圖4b展示了兩種現(xiàn)有技術(shù)的預(yù)分類器的流程。
圖4c是根據(jù)本發(fā)明的預(yù)分類器流程圖。
圖5a和圖5b是提取手寫漢字的漢字特征高維矩陣的示意圖。
圖6a和圖6b是將圖5b中的漢字特征高維矩陣降維的示意圖。
具體實施例方式
參考圖1,本發(fā)明的手寫漢字分類器包括一預(yù)分類器1和精細分類器2。該預(yù)分類器包括第一子預(yù)分類器12和第二子預(yù)分類器13。預(yù)分類器1還包括一個低維的第一種漢字特征提取裝置10,用于從輸入的漢字中提取出低維的第一種漢字特征。該低維的第一種漢字特征,一般是漢字的低維的漢字統(tǒng)計特征(Statistic Feature),如漢字的低維的頻率域特征(low dimension frequency domain feature),或其他漢字統(tǒng)計特征。第一子預(yù)分類器12還存儲有與低維的第一種漢字特征相適應(yīng)的多個聚類(圖中未示出聚類中心和字索引組),包括該漢字特征的聚類中心和相應(yīng)的字索引組。其中,每個聚類包括多個特征類似的漢字,并且每個聚類具有一個聚類中心,該聚類中心代表了該聚類中漢字的共同特征。第一子預(yù)分類器將低維的第一種漢字特征與第一子預(yù)分類器的每個聚類中心進行比較,得到與第一子預(yù)分類器聚類中心的距離(distance)。根據(jù)與第一子預(yù)分類器中各個聚類中心的距離,選擇若干個與之距離最小的聚類,作為第一子預(yù)分類器的輸出。這些距離最小的聚類所包括的漢字組成第一候選字組。
預(yù)分類器1還包括一個低維的第二種漢字特征裝置,即一個降維變換裝置21。該裝置將提取高維的第二漢字特征降為低維的第二種漢字特征。該高維的第二漢字特征是由高維的漢字特征提取裝置提取的,是用于精細分類的。該高維的或低維的第二種漢字特征也是一種漢字的統(tǒng)計特征。但是,該低維的第二種漢字特征是與所述低維的第一種漢字特征不同的漢字統(tǒng)計特征。前面講了,漢字的統(tǒng)計特征有很多種。這里講的第一或第二漢字特征可以是其中的任何一種。但要求所選的第一種漢字特征和第二種漢字特征不同,即,在一定程度上相互正交(幾乎沒有相關(guān)性)。例如,漢字的筆劃數(shù)特征與筆劃方向特征的相關(guān)性低。例如,杉和阽的筆劃數(shù)特征相似在同一聚類,但是它們之間的方向特征差別很大,不在同一聚類。第二子預(yù)分類器存儲有與低維的第二種漢字特征相適應(yīng)的多個聚類。每個聚類包括多個漢字,并且每個聚類具有一個聚類中心。該聚類中心代表了該聚類中漢字的共同特征。第二子預(yù)分類器將所輸入漢字的低維的第二種漢字特征與第二子預(yù)分類器的每個聚類中心進行比較,得到與第二子預(yù)分類器聚類中心的距離(distance)。根據(jù)其與第二子預(yù)分類器聚類中心的距離,選擇多個與之距離最小的聚類,作為第二子預(yù)分類器的輸出。這些距離最小的聚類所包括的漢字組成第二候選字組。
由于第一候選字組和第二候選字組具有一定互補性,可以將第一候選字組和第二候選字組的交集作為預(yù)分類器最終候選字組,也就是作為精細分類器候選字組,以便去除根據(jù)低維的第一種漢字特征篩選出的第一候選字組中的多余漢字,以及根據(jù)低維的第二種漢字特征篩選出的第二候選字組中的多余漢字。這由圖1中所示的最終候選字組產(chǎn)生裝置(交集生成裝置)14和預(yù)分類器最終候選字組存儲裝置15來完成。這種方法可以減少精細分類器所要處理的候選字組中的漢字的個數(shù),也就提高了精細分類器的識別速度。進而提高了整個手寫漢字分類器的速度。
作為選擇,由于低維的第一種漢字特征與低維的第二種漢字特征在一定程度上相互正交,所以第一候選字組和第二候選字組具有一定互補性。根據(jù)低維的第一種漢字特征篩選出的第一候選字組,與根據(jù)低維的第二種漢字特征篩選出的第二候選字組可以相互補充。此時,可以將圖1中的最終候選字組產(chǎn)生裝置(交集生成裝置)14替換為一并集生成裝置(圖中未示出)即可。這樣,由第一候選字組和第二候選字組中所有的漢字組成預(yù)分類器最終候選字組,就可以作為精細分類器候選字組,由精細分類器22識別出該手寫漢字。
所述精細分類器22,包括一個高維的某一種漢字特征的提取裝置20,用于從手寫漢字中提取高維的漢字特征。為了使?jié)h字識別具有足夠的精度,高維的漢字特征一般選高維的方向特征(high dimensiondirectional feature)。該精細分類器22利用所述高維的漢字特征,從輸送到該精細分類器的預(yù)選后的候選字組中識別出所述手寫漢字。
所述低維的第二種漢字特征,是通過把用于精細分類器的高維的漢字特征經(jīng)過降維變換得到。此功能由降維變換裝置21來完成的。前面講了,對于手寫漢字,其外圍特征要比其內(nèi)部特征更重要。因此,在降維時,本發(fā)明優(yōu)先提取高維的漢字特征中的外圍特征。圖2a所示為高維漢字特征提取裝置提取的高維的一種漢字統(tǒng)計特征。其中每個黑點代表多維特征。提取漢字的高維的漢字特征中四個角的特征(即外圍特征),如圖2b所示。然后,將每一虛線內(nèi)的外圍特征進行匯總(summarize),如進行累加,得到如圖2c所示的降維后的統(tǒng)計特征。將降維后的統(tǒng)計特征作為低維的第二種漢字特征,從而簡化了漢字特征的提取。
下面參考圖3,說明本發(fā)明的字索引組生成裝置5。該裝置用于根據(jù)漢字的特征將需要識別的漢字劃分為多個聚類。每個聚類具有一個聚類中心。聚類中心代表聚類的特征,即該聚類中所有漢字的共同特征。每個聚類對應(yīng)于一個字索引組,該字索引組中包括聚類中漢字的索引。字索引組生成裝置5包括統(tǒng)計特征模板51,聚類裝置52,字索引組存儲裝置53,和聚類中心存儲裝置54。
假設(shè)需要識別m個漢字,首先訓(xùn)練有效的統(tǒng)計特征模板51,使該模板數(shù)量也為m個。然后利用聚類技術(shù),將m個模板分為n個聚類。為了使預(yù)分類過程具有較快的速度,n和m的取值需要滿足n<<m。即聚類的個數(shù)要遠遠少于模板數(shù)量。然后,取得每一聚類的聚類中心,以及每一聚類的字索引組,聚類的字索引組中記錄了該聚類中所有漢字的索引。同一聚類中的漢字的特征相似。
這樣,由低維的第一種漢字特征可以得到關(guān)于該m個漢字的多個第一聚類、聚類中心以及多個第一字索引組。由低維的第二種漢字特征可以得到關(guān)于該m個漢字的多個第二聚類、聚類中心以及多個第二字索引組。利用漢字的頻率域特征結(jié)合上述方法,可以得到與頻率域特征相關(guān)的多個頻率域特征聚類、頻率域特征聚類中心以及頻率域特征字索引組。
利用漢字的方向特征結(jié)合上述方法,可以得到與方向特征相關(guān)的多個方向特征聚類、方向特征聚類中心以及方向特征字索引組。
下面結(jié)合圖3詳細說明本發(fā)明的候選字組生成裝置。每一子預(yù)分類器都包括一個候選字組生成裝置6。它包括特征輸入裝置60、聚類中心比較裝置61、聚類選擇裝置62和字索引組組合存儲裝置63。在提取手寫漢字的特征之后,特征輸入裝置60將該漢字特征輸入給子預(yù)分類器。聚類中心比較裝置61將輸入該子預(yù)分類器中的漢字特征與相應(yīng)的聚類(或字索引組)對應(yīng)的聚類中心相比較。聚類選擇裝置62利用比較得到的差別選出P個與之距離最小的聚類,即P個字索引組。這P個字索引組中的漢字由字索引組組合存儲裝置63組成了一個候選字組。
將兩個子預(yù)分類器得到的候選字組結(jié)合起來,就得到了預(yù)分類器最終候選字組。P的取值影響手寫漢字的識別準(zhǔn)確度,以及候選字組中聚類的多少,即候選字組中的候選字多少。如果P的取值大,手寫漢字識別的準(zhǔn)確度將提高,但是候選字組中的候選字也會增多,使得后續(xù)精細分類器的識別過程變慢。如果P的取值小,則后續(xù)精細分類器的識別過程快,但是識別準(zhǔn)確度將下降。
下面結(jié)合圖5a、圖5b、圖6a以及圖6b說明手寫漢字“手”的識別。在手寫漢字“手”輸入之后,手寫漢字分類器將提取這個漢字的兩種統(tǒng)計特征。低維的第一種漢字特征提取裝置10提取“手”的低維的一種(第一種)漢字特征。高維的第二漢字特征提取裝置20提取“手”的高維的另一種(第二種)漢字特征。這兩種統(tǒng)計特征可以選自常用的漢字識別統(tǒng)計特征,比如方向特征(directional feature)、輪廓特征(contour feature)、筆劃數(shù)特征和頻率域特征(frequency domainfeature)等等。一種統(tǒng)計特征用于第一子預(yù)分類器12,另一種統(tǒng)計特征用于精細分類器2。上述兩種統(tǒng)計特征優(yōu)先根據(jù)漢字不同特性選取的統(tǒng)計特征。因為,該分類器還將要上述高維的第二種漢字特征經(jīng)過降維變換后,變成低維的第二漢字特征用于第二子預(yù)分類器13。
在該實施例中,低維的第一種漢字特征選用低維的頻率域特征,如小于30維的頻率域特征。高維的第二漢字特征選用高維的方向特征,如大于100維的方向特征。
圖5示意性地展示了提取漢字“手”的高維的一種漢字特征。為區(qū)別用于第一子預(yù)分類器12的漢字特征,稱之為第二種漢字特征。漢字“手”在輸入后,被劃分為多個塊,如圖5a所示。圖5a僅為舉例目的,實際劃分的塊根據(jù)需要的統(tǒng)計特征維數(shù)來確定。在每一個塊中,系統(tǒng)計算筆畫的方向特征,提取結(jié)果如圖5b所示。圖5b中“—”“|”和“/”“\”分別代表不同的方向特征。
圖6展示了降維變換裝置21如何將圖5中的高維的第二種漢字特征降維,以得到低維的統(tǒng)計特征。該低維的統(tǒng)計特征將用作低維的第二種漢字特征。如上文所述,漢字的外圍特征要比漢字的內(nèi)部特征重要的多。在圖6a中,用虛線矩形選取輸入漢字四個角的高維的漢字特征。然后,將每個虛線矩形中的塊內(nèi)的方向特征進行匯總(summarize),如進行累加,降低維數(shù),得到圖6b所示的低維的方向特征。該低維的方向特征將用于第二子預(yù)分類器13,故稱之為低維的第二漢字特征。
根據(jù)上述方法,就得到了預(yù)分類器所需的低維的第一種漢字特征和低維的第二種漢字特征。第一子預(yù)分類器12將得到的低維頻率域特征與每一頻率域特征聚類中心進行比較,得到它們之間的距離?;谠摼嚯x,從多個頻率域特征聚類中選出P1個距離最小的頻率域特征聚類。這些頻率域特征聚類中的漢字將組成第一候選字組。P1的取值要考慮在識別準(zhǔn)確度(識別率)和所需的計算量(速度)之間進行折衷。
同樣,第二子預(yù)分類器13將得到的低維的方向特征與每一方向特征聚類中心進行比較,得到它們之間的距離。基于該距離,從多個方向特征聚類中選出P2個距離最小的方向特征聚類。這些方向特征聚類中的漢字將組成第二候選字組。P2的取值也要考慮在識別準(zhǔn)確度(識別率)和所需的計算量(速度)之間進行折衷。
接下來,交集求取裝置14,接收第一子預(yù)分類器12輸出的第一候選字組和第二子預(yù)分類器13輸出的第二候選字組,求取第一候選字組和第二候選字組的交集,作為預(yù)分類器的最終候選字組。最后精細分類器22利用得到的高維的方向特征,從該候選字組中識別出手寫漢字。
求取第一候選字組和第二候選字組的交集,相當(dāng)于利用低維的第一種漢字特征篩選得到第一候選字組后,根據(jù)低維的第二種漢字特征排除第一候選字組中不可能的漢字,即多余的漢字。這樣,就縮小了最終候選字組中的漢字數(shù)量,也就縮小了精細分類器的識別范圍,從而加快了識別速度。
圖4c示出了本發(fā)明的預(yù)分類器與圖4a和圖4b中已有的預(yù)分類器之間的不同。其中,本發(fā)明首先在步驟91采樣并輸入手寫漢字的統(tǒng)計特征,然后在步驟92將漢字的統(tǒng)計特征與每一個聚類的聚類中心進行比較。在步驟93,根據(jù)比較結(jié)果,選出與輸入手寫字的統(tǒng)計特征距離最小的P個聚類。在步驟94,將這P個聚類中的漢字組成候選字組。本發(fā)明是利用漢字的統(tǒng)計特征,并且本發(fā)明的分類器是距離分類器,而不是動態(tài)規(guī)劃分類器。
本發(fā)明的手寫漢字分類器在確定識別速度和識別率之后,可以綜合考慮選取第一聚類數(shù)量P1的取值、選取第二聚類數(shù)量P2的取值,以及利用第一候選字組和第二候選字組的交集或并集,根據(jù)不同需求來確定手寫漢字識別方案。
權(quán)利要求
1.一種用于中文手寫漢字識別系統(tǒng)的預(yù)分類方法,該手寫漢字識別系統(tǒng)用于對手寫漢字的特征進行預(yù)分類和精細分類以識別該漢字,所述方法包括提取所述手寫漢字的低維的第一種漢字特征,并產(chǎn)生第一候選字組;其特征在于所述方法包括提取所述手寫漢字的高維的第二種漢字特征,用于精細分類;把所述高維的第二種漢字特征降維,獲得低維的第二種漢字特征,并產(chǎn)生第二候選字組;以及由所述第一候選字組和第二候選字組的交集,獲得最終候選字組。
2.如權(quán)利要求1所述的預(yù)分類方法,其特征在于所述第一種漢字特征和第二種漢字特征是兩種不同的漢字統(tǒng)計特征(StatisticFeatures),它們是分別選自漢字統(tǒng)計特征中的筆劃方向特征、輪廓特征、筆劃數(shù)特征和頻率域特征。
3.如權(quán)利要求1所述的預(yù)分類方法,其特征在于所述第一種漢字特征是漢字的頻率域特征,第二種漢字特征是漢字的筆劃方向特征。
4.如權(quán)利要求1所述的預(yù)分類方法,其特征在于所述的低維的第一種漢字特征和第二種漢字特征都小于30維,所述的高維的第二種漢字特征大于100維。
5.如權(quán)利要求1所述的預(yù)分類方法,其特征在于所說降維是從已提取的高維的第二漢字特征的漢字的四角外圍特征匯總后成為低維的第二漢字技術(shù)特征。
6.一種用于中文手寫漢字識別系統(tǒng)中識別手寫中文漢字的方法,包括提取所述手寫漢字的低維的第一種漢字特征,用于第一子預(yù)分類器產(chǎn)生第一候選字組;以及提取所述手寫漢字的高維的第二種漢字特征,用于精細分類;其特征在于所述方法包括把所述高維的第二種漢字特征降維,獲得低維的第二種漢字特征,并用于第二子預(yù)分類來產(chǎn)生第二候選字組;由所述第一候選字組和第二候選字組的交集,獲得最終候選字組,作為預(yù)分類的結(jié)果;以及利用所述高維的第二種漢字特征,從所述最終候選字組中識別出該手寫漢字。
7.如權(quán)利要求6所述的手寫中文漢字識別方法,其特征在于所述第一種漢字特征和第二種漢字特征是不同的漢字統(tǒng)計特征,它們是分別選自漢字統(tǒng)計特征中的筆劃方向特征、輪廓特征、筆劃數(shù)特征和頻率域特征。
8.如權(quán)利要求6所述的手寫中文漢字識別方法,其特征在于所述第一種漢字特征是漢字的頻率域特征,第二種漢字特征是漢字的筆劃方向特征。
9.如權(quán)利要求6所述的手寫中文漢字識別方法,其特征在于所述低維的第一種漢字特征和第二種漢字特征都小于30維,所述高維的第二種漢字特征大于100維。
10.如權(quán)利要求6所述的預(yù)分類方法,其特征在于所說降維是從已提取的高維的第二漢字特征的漢字的四角外圍特征匯總后成為低維的第二漢字技術(shù)特征。
11.一種用于中文手寫漢字識別系統(tǒng)的預(yù)分類器,包括低維的第一種漢字特征提取裝置,用于提取所述手寫漢字的低維的第一種漢字特征,和第一子預(yù)分類器,根據(jù)低維的第一種漢字特征產(chǎn)生第一候選字組;其特征在于所述預(yù)分類器還包括高維的第二種漢字特征提取裝置,用于提取所述手寫漢字的高維的第二種漢字特征;低維的第二種漢字特征提取裝置,用于從所述高維的第二種漢字特征獲得低維的第二種漢字特征;第二子預(yù)分類器,根據(jù)低維的第二種漢字特征產(chǎn)生第二候選字組;以及最終候選字組產(chǎn)生裝置,根據(jù)所述第一候選字組和第二候選字組的交集獲得最終候選字組。
12.一種中文手寫漢字識別系統(tǒng),包括低維的第一種漢字特征提取裝置,用于提取所述手寫漢字的低維的第一種漢字特征,和第一子預(yù)分類器,根據(jù)所提取的低維的第一種漢字特征產(chǎn)生第一候選字組;高維的第二種漢字特征提取裝置,用于提取所述手寫漢字的高維的第二種漢字特征;其特征在于所述手寫漢字識別系統(tǒng)還包括降維變換裝置,把所提取的高維的第二種漢字特征降維,以獲得低維的第二種漢字特征;第二子預(yù)分類器,根據(jù)所述低維的第二種漢字特征產(chǎn)生第二候選字組;最終候選字組產(chǎn)生裝置,用于產(chǎn)生最終候選字組;以及精細分類器,利用所述高維的第二種漢字特征,從所述最終候選字組中識別出該手寫漢字。
13.如權(quán)利要求12所述的手寫漢字識別系統(tǒng),其特征在于所述最終候選字組產(chǎn)生裝置,根據(jù)所述第一候選字組和第二候選字組的交集來獲得最終候選字組。
14.一種用于中文手寫漢字識別系統(tǒng)中通過預(yù)分類來產(chǎn)生候選字組的方法,包括訓(xùn)練有效統(tǒng)計特征的多個模板;將所述模板分為多個統(tǒng)計特征聚類;在每個聚類中,生成代表其中全部漢字特征的一個聚類中心;對每個統(tǒng)計特征聚類,產(chǎn)生一字索引組;對于輸入漢字,提取該漢字樣本的統(tǒng)計特征;將該漢字樣本的統(tǒng)計特征與所述各個聚類中心進行比較,選出多組與所輸入漢字統(tǒng)計特征距離最小的聚類,其中所述相似組的個數(shù)是預(yù)先確定的;以及合并所選定的多組聚類的字索引組,來產(chǎn)生對應(yīng)所輸入漢字的候選字組。
15.如權(quán)利要求14所述的產(chǎn)生候選字組的方法,其特征在于所述統(tǒng)計特征聚類的個數(shù)遠遠小于所述統(tǒng)計特征模板的個數(shù)。
16.一種生成子預(yù)分類器的候選字組的方法,包括對于手寫輸入漢字樣本提取其統(tǒng)計特征;其特征在于將該漢字樣本提取的統(tǒng)計特征與預(yù)分類器中存儲的各個漢字聚類的聚類中心進行比較,其中所說聚類中心代表該聚類中的漢字的共同特征;選出若干組與所輸入漢字統(tǒng)計特征距離最小的聚類,其中所述聚類組的個數(shù)是預(yù)先確定的;以及合并所選定的多組聚類的字索引組,來產(chǎn)生對應(yīng)所輸入漢字的候選字組。
全文摘要
根據(jù)本發(fā)明是一種用于中文手寫漢字識別系統(tǒng)的預(yù)分類方法。該手寫漢字識別系統(tǒng)對手寫漢字的特征進行預(yù)分類和精細分類來識別手寫的漢字。該方法包括提取手寫漢字的低維的第一種漢字特征,并產(chǎn)生第一候選字組;提取所述手寫漢字的高維的第二種漢字特征,用于精細分類;把所提取的高維的第二種漢字特征降維,獲得低維的第二種漢字特征,并產(chǎn)生第二候選字組;再由所述第一候選字組和第二候選字組的交集,獲得最終候選字組。對于同一手寫漢字,本發(fā)明通過兩個子預(yù)分類器進行預(yù)分類,并利用兩種漢字特征來分別篩選出兩個不同的候選字組。從而避免了單純利用一個預(yù)分類器和一種漢字特征來篩選候選字組帶來的不足。
文檔編號G06K9/80GK1471042SQ0212700
公開日2004年1月28日 申請日期2002年7月25日 優(yōu)先權(quán)日2002年7月25日
發(fā)明者郭豐俊, 鎮(zhèn)立新, 黃建成 申請人:摩托羅拉公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1