本發(fā)明總體涉及手寫識別領(lǐng)域,特別是涉及一種用于在線識別手寫字符的方法及其裝置。
背景技術(shù):
為了在線識別手寫,現(xiàn)有技術(shù)1[1]為每個字符建立了一個隱馬爾可夫模型(HMM,Hidden Markov Model)。因此,包括成千上萬模型的識別字典是大的,并且使用該技術(shù)的計算成本高。
出于降低計算成本的目的,在表意語言的手寫識別中使用了基于偏旁的方法。美國專利7903877B2(稱為現(xiàn)有技術(shù)2)使用了字符-偏旁字典,以通過共享較小的偏旁子集來表示成千上萬的字符。然而,與基于字符的方法相比,基于偏旁的方法看起來經(jīng)常對識別精度有不利影響,這是因為,僅使用一個HMM來表示偏旁在不同字符中的所有外觀的做法,很難涵蓋該字符實際的多樣性。
為了提高識別精度,美國專利6956969B2(稱為現(xiàn)有技術(shù)3)將偏旁分類為若干類別。圖1A例示了現(xiàn)有技術(shù)3在建立偏旁模型時的原理。偏旁X根據(jù)其在不同字符中的幾何布局,而被分類為m個類別,其中每個類別對應(yīng)于HMM模型。m是正整數(shù)?;诂F(xiàn)有技術(shù)3的識別精度仍然遠(yuǎn)低于現(xiàn)有技術(shù)1。因此,期望能夠提供一種能夠既快速又精確地識別手寫的新手寫識別方法。
參考文獻(xiàn)
[1]Han Shu,“On-Line Handwriting Recognition Using Hidden Markov Models”,Master Thesis in Electrical Engineering and Computer Science at the Massachusetts Institute of Technology,1997
技術(shù)實現(xiàn)要素:
本發(fā)明是鑒于上述問題中的至少一個而提出的。
根據(jù)本發(fā)明的一個方面,提供了一種手寫登記方法,所述手寫登記方法包括:構(gòu)建包括偏旁隱馬爾可夫模型(HMM)的偏旁字典,并且通過組合從所述偏旁字典中選擇的偏旁HMM,來生成基于偏旁的字符HMM,其中,所述偏旁字典中的偏旁HMM是通過以下步驟生成的:
—訓(xùn)練數(shù)據(jù)獲取步驟,其包括:選擇包括至少一個類別的訓(xùn)練偏旁,并且獲取所述至少一個類別中的一者的相應(yīng)種子HMM,其中,將該訓(xùn)練偏旁分類到所述至少一個類別是基于該偏旁在不同字符中的幾何布局;獲取字符樣本的訓(xùn)練數(shù)據(jù)集,其中,所述字符樣本包括手寫軌跡;獲取字符HMM的模型數(shù)據(jù)集,其中,所述模型數(shù)據(jù)集包括多個字符的HMM;
—偏旁檢測及偏旁采樣點(diǎn)確定步驟,通過使用所獲取到的種子HMM,在所述訓(xùn)練數(shù)據(jù)集當(dāng)中檢測包含所述偏旁的字符樣本作為所述偏旁的訓(xùn)練字符樣本,并且針對所述偏旁的各個訓(xùn)練字符樣本,來確定所述偏旁的采樣點(diǎn);
—狀態(tài)序列提取步驟,通過使用所述模型數(shù)據(jù)集中的相應(yīng)字符的HMM,對所述偏旁的所述訓(xùn)練字符樣本分別進(jìn)行解碼,并且從相應(yīng)字符的HMM中,分別提取表示所述偏旁的狀態(tài)序列;
—聚類步驟,基于狀態(tài)數(shù),將所提取出的狀態(tài)序列聚類到子類別,使得每個子類別對應(yīng)于偏旁HMM。
通過以下參照附圖對示例性實施例的描述,本發(fā)明的進(jìn)一步特征將變得清楚。
附圖說明
被并入說明書中并構(gòu)成說明書的一部分的附圖例示了本發(fā)明的實施例,并且與文字描述一起用來說明本發(fā)明的原理。
圖1A例示了現(xiàn)有技術(shù)2的基本原理;圖1B例示了根據(jù)本發(fā)明的實施例構(gòu)建偏旁模型的基本原理。
圖2是通過根據(jù)本申請的實施例的手寫登記方法而構(gòu)建的手寫識別 字典的應(yīng)用環(huán)境的圖示。
圖3是根據(jù)第一示例性系統(tǒng)配置的裝置的示意性框圖,其中,所述裝置通過根據(jù)本發(fā)明的實施例的嵌入式手寫識別模塊來實現(xiàn)手寫輸入功能。
圖4是根據(jù)第二示例性系統(tǒng)配置的裝置的示意性框圖,其中,所述裝置通過根據(jù)本發(fā)明的實施例的分布式手寫識別模塊來實現(xiàn)手寫輸入功能。
圖5是例示圖3中的手寫識別模塊330或圖4中的手寫識別模塊430的示例性硬件配置的示意性框圖。
圖6示出了根據(jù)本發(fā)明的實施例的手寫登記方法的總流程圖中的兩個階段。
圖7示出了圖6中的階段I的構(gòu)造偏旁模型的流程圖。
圖8示出了圖7中的步驟200及步驟300的示例性實現(xiàn)方式。
圖9是示意性地例示根據(jù)本發(fā)明的實施例的構(gòu)造偏旁模型的基本處理的示意圖。
圖10是示意性地例示根據(jù)本發(fā)明的實施例的構(gòu)造字符模型的處理的示意圖。
圖11示出了根據(jù)本發(fā)明的實施例的、通過組合相應(yīng)的偏旁模型來生成多個字符的模型的示例。
圖12是示意性地例示根據(jù)本發(fā)明的實施例的生成種子模型的處理的示意圖。
圖13是根據(jù)本發(fā)明的實施例的手寫登記裝置的功能結(jié)構(gòu)。
具體實施方式
下面,將參照附圖來詳細(xì)描述本發(fā)明的示例性實施例。應(yīng)當(dāng)指出,以下的描述實質(zhì)上僅是說明性和示例性的,并且決不意在限制本發(fā)明及其應(yīng)用或用途。在實施例中陳述的構(gòu)成要素及步驟的相對布置、數(shù)值表達(dá)式以及數(shù)值并不限制本發(fā)明的范圍,除非另外特別指明。此外,本領(lǐng) 域的技術(shù)人員公知的技術(shù)、方法及設(shè)備可能不作詳細(xì)討論,但在適當(dāng)?shù)那闆r下應(yīng)當(dāng)作為本說明書的一部分。
在基于HMM的手寫識別方法中,每個字符對應(yīng)于HMM,并且每個HMM由狀態(tài)序列組成。特別是,如果字符HMM是通過偏旁共享方法而構(gòu)建的,則可以將字符HMM視為各個偏旁的HMM的組合。例如,字符“呆”由偏旁“口”和偏旁“木”組成。因此,表示字符“呆”的狀態(tài)序列是表示偏旁“口”的狀態(tài)序列和表示偏旁“木”的狀態(tài)序列的組合。
在本申請中,如果沒有特別指明,則偏旁模型是指偏旁HMM,并且字符模型是指字符HMM。HMM的狀態(tài)數(shù)示出了該HMM的模型復(fù)雜度。換言之,字符HMM的狀態(tài)數(shù)示出了該字符HMM的模型復(fù)雜度;偏旁HMM的狀態(tài)數(shù)示出了該偏旁HMM的模型復(fù)雜度。
考慮到偏旁的幾何布局將偏旁分解成類的做法,能夠提高精度。然而,相同幾何布局的偏旁可能仍然具有不同的模型復(fù)雜度。以左側(cè)豎向偏旁“金”為例。在此,“左側(cè)豎向”是指偏旁在字符中的特定幾何布局。在基于訓(xùn)練字符的HMM中,對于字符“針”,前17個狀態(tài)與偏旁“金”相匹配。然而,對于字符“鐸”,僅前11個狀態(tài)與偏旁“金”相匹配。在這種情況下,針對左側(cè)豎向的“金”構(gòu)建17個狀態(tài)和11個狀態(tài)的偏旁HMM,都是不合適的。
接下來,進(jìn)一步分析具有相同幾何布局的偏旁與不同狀態(tài)數(shù)相匹配的原因。一般而言,偏旁的模型復(fù)雜度受兩個因素的影響。第一個因素是包含該偏旁的字符的整體狀態(tài)數(shù)。第二個因素是相對復(fù)雜度。在字符的全部狀態(tài)當(dāng)中,一些將與該偏旁相匹配。HMM的固有性質(zhì)使得匹配結(jié)果是基于偏旁的軌跡相對于字符的軌跡的相對復(fù)雜度。該相對復(fù)雜度越大,則字符HMM的全部狀態(tài)當(dāng)中有越多狀態(tài)與偏旁相匹配。在上一示例中,“針”中的“金”得到17個狀態(tài),這比“鐸”中的“金”多6個狀態(tài)。這是因為,“金”的軌跡相對于軌跡“針”的相對復(fù)雜度,大于“金”的軌跡相對于軌跡“鐸”的相對復(fù)雜度。
在圖1A和圖1B中,每個圓圈表示模型中的狀態(tài)。圍繞圓圈的箭頭表示狀態(tài)轉(zhuǎn)變。成行的一系列圓圈表示模型的狀態(tài)轉(zhuǎn)變路徑。成行的一系列圓圈可以被視為狀態(tài)序列。
此外,通過參照圖1B,來說明根據(jù)本發(fā)明的實施例的構(gòu)建偏旁模型的基本原理。通過第一分類操作,根據(jù)偏旁X在不同字符中的幾何布局,將其分類為m個類別C1、C2、…、Cm。
在第一示例中,偏旁“口”可以被分類為頂部、底部及外部“口”3個類別。這3個類別中的3個代表性字符分別是“號”、“占”及“圍”。第一示例僅基于偏旁的位置,將偏旁分解成類。
在第二示例中,偏旁“口”可以被分類為大“口”及小“口”2個類別。2個類別中的2個代表性字符分別是“號”及“圍”?!罢肌迸c“號”處于同一類別中。第二示例僅基于偏旁的大小,將偏旁分解成類。
在第三示例中,偏旁“日”可以被分類為左側(cè)豎向、右側(cè)豎向、頂部橫向及底部橫向“日”4個類別。這4個類別中的4個代表性字符分別是“明”、“旭”、“晨”及“書”。第三示例基于偏旁的位置及形狀,將偏旁分解成類。
上述三個示例僅是說明性的,而并不意在限制本發(fā)明的保護(hù)范圍。幾何布局包括以下屬性中的至少一者:偏旁在字符中的位置、形狀或大小。可以有不同的方式來將偏旁分解成類。在圖1B的第一分類操作中,可以應(yīng)用在現(xiàn)有技術(shù)3中公開的將偏旁分解成類的所有方式。一般而言,偏旁被分解成的類別越多,則所得的偏旁HMM能夠越詳細(xì)和完善。
此外,通過第二分類操作將每個類別分類為至少一個子類別。第二分類操作的準(zhǔn)則是偏旁X在其相應(yīng)字符中的模型復(fù)雜度,或者換言之,是偏旁X在其相應(yīng)字符中的狀態(tài)數(shù)。類別C1被分類為子類別C11、…、C1n;類別C2被分類為子類別C21、…、C2n;類別Cm被分類為子類別Cm1、…、Cmn。在圖1B中,m和n是正整數(shù)。并且,如圖1B所示,每個子類別對應(yīng)于一個偏旁HMM。換言之,對于特定類別,子類別的數(shù)量等于偏旁HMM的數(shù)量。
返回到上面的示例?!搬槨焙汀拌I”中的偏旁“金”在第一分類后,均落入類別C1。在第二分類中,由于偏旁“金”在相應(yīng)字符中的狀態(tài)數(shù)分別是11和17,因此,“針”中的偏旁“金”落入子類別C11,而“鐸”中的偏旁“金”落入子類別C12。此外,C11和C12對應(yīng)于兩個不同的偏旁HMM。
本發(fā)明不僅考慮偏旁在其相應(yīng)字符中的幾何布局,而且考慮偏旁在其相應(yīng)字符中的模型復(fù)雜度。因此,與現(xiàn)有技術(shù)相比,根據(jù)本發(fā)明的實施例構(gòu)造的偏旁HMM更為精確。通過共享這些精確的偏旁HMM而構(gòu)造的字符HMM能夠更精確地表示字符。因此,通過使用包含更精確的字符HMM的字典,實現(xiàn)了更精確地識別手寫的目的。
下面,通過參照圖3和圖4來說明兩個系統(tǒng)配置。圖3是根據(jù)第一示例性系統(tǒng)配置的裝置的示意性框圖,其中,所述裝置通過根據(jù)本發(fā)明的實施例的嵌入式手寫識別模塊來實現(xiàn)手寫輸入功能。圖4是根據(jù)第二示例性系統(tǒng)配置的裝置的示意性框圖,其中,所述裝置通過根據(jù)本發(fā)明的另一實施例的分布式手寫識別模塊來實現(xiàn)手寫輸入功能。圖3中的裝置300或者圖4中的裝置400可以是移動電話(例如圖2中的200)、多功能打印機(jī)(MFP),或者實現(xiàn)手寫識別功能的其他電子裝置。兩個示例性系統(tǒng)配置的主要差異在于,在圖3中,手寫識別模塊330被嵌入到裝置300中,而在圖4中,手寫識別模塊430是與裝置400分開的分布式模塊。
接下來,通過參照圖2,來說明通過根據(jù)本申請的實施例的手寫登記方法而構(gòu)建的手寫識別字典的應(yīng)用環(huán)境的圖示。用戶在移動電話200上編輯消息。移動電話200可以是圖3中的裝置300,或者圖4中的裝置400。在這兩種情況中的任一情況下,移動電話的畫面主要包含3個區(qū)域,即消息顯示區(qū)域210、輸入顯示區(qū)域220及文本編輯區(qū)域230。210、220及230一起構(gòu)成短消息服務(wù)(SMS)的UI,其中,201表示兩條示例性短消息,并且202是光標(biāo)的當(dāng)前位置。
通過使用手寫筆或者用戶的手指208,用戶在移動電話200的畫面 上輸入手寫軌跡207。在圖3中,傳感器310將用戶在電話上的觸摸轉(zhuǎn)換為采樣點(diǎn),或者換言之,獲取手寫軌跡207。向軌跡緩沖器320中,存儲包括空間及時間信息的軌跡207的離散采樣點(diǎn)。識別模塊330從緩沖器320中讀取軌跡207。模塊330包含手寫識別字典,該手寫識別字典是通過根據(jù)本申請的實施例的手寫登記方法而構(gòu)建的。通過使用手寫識別字典,識別模塊330將軌跡207識別為關(guān)聯(lián)字符,即字符“買”,并將識別結(jié)果輸出回應(yīng)用模塊340。在該應(yīng)用環(huán)境中,應(yīng)用模塊340是SMS,因此在輸入顯示區(qū)域220中,字符“買”將被顯示在光標(biāo)202的當(dāng)前位置。用戶可以使用按鈕204來進(jìn)行輸入,使用按鈕205來退格,使用按鈕206來切換語言,等等。在用戶完成對當(dāng)前消息的編輯之后,用戶按下按鈕203以發(fā)送該消息。而后,整條消息將出現(xiàn)在消息顯示區(qū)210中,并且將通過圖中未例示的電信網(wǎng)絡(luò)被發(fā)送出去。
作為另一選擇,也可以應(yīng)用第二系統(tǒng)配置。如圖4所示,圖4的單元410、420及440分別類似于圖3的單元310、320及340,在此為簡潔起見,將不再重復(fù)描述。圖4與圖3的主要差異在于識別模塊430的位置。包含通過根據(jù)本申請的實施例的手寫登記方法而構(gòu)建的手寫識別字典的模塊430,位于裝置400的外部。模塊430經(jīng)由計算機(jī)網(wǎng)絡(luò)450,與緩沖器420及應(yīng)用模塊440通信。網(wǎng)絡(luò)450可以是局域網(wǎng)或互聯(lián)網(wǎng)。識別模塊430可以是其他計算設(shè)備,諸如個人計算機(jī)(PC)、計算機(jī)工作站,或者通過基于網(wǎng)絡(luò)的云計算技術(shù)提供的計算服務(wù),等等。通過使用手寫識別字典,識別模塊430將經(jīng)由網(wǎng)絡(luò)450發(fā)送的軌跡207識別為關(guān)聯(lián)字符,即字符“買”,并且經(jīng)由網(wǎng)絡(luò)450,將識別結(jié)果輸出回應(yīng)用模塊440。并且,在圖4的情況下,用戶以與在圖3的情況下類似的方式,與諸如SMS的UI等的移動電話的UI進(jìn)行交互。
圖5是例示手寫識別模塊530的示例性硬件配置的框圖。模塊530可以是圖3中的330或者圖4中的430。存儲單元534存儲手寫識別字典,以及手寫識別方法的軟件程序。通過根據(jù)本發(fā)明的實施例的手寫登記方法,來構(gòu)建識別字典。在后述的圖13中,例示了識別方法的流程圖。不 僅軌跡207被發(fā)送到存儲器533,而且識別字典也被展開到存儲器533中。處理器532被布置用來檢索手寫識別方法的軟件程序。處理器532還被布置用來找取、解碼和執(zhí)行根據(jù)手寫識別方法的所有步驟,諸如圖13中所示的步驟。通過在識別字典中查找,處理器532產(chǎn)生識別結(jié)果,并且利用系統(tǒng)總線535,將結(jié)果記錄至存儲器533。除了存儲器533之外,輸出還可以被更永久性地存儲在存儲單元534上。
網(wǎng)絡(luò)接口531是可選的。對于圖3中的第一系統(tǒng)配置,網(wǎng)絡(luò)接口531不是必要的。但是,對于圖4中的第二系統(tǒng)配置,為了與網(wǎng)絡(luò)450通信,網(wǎng)絡(luò)接口531是必要的,從而便于識別模塊430的輸入和輸出。
此外,手寫識別模塊530可以是各種形式的,可能有一個或更多不必要的部件被去除,或者有一個或更多附加的部件被添加。
下面,將參照附圖來詳細(xì)描述本發(fā)明的方法。圖6示出了根據(jù)本發(fā)明的實施例的手寫登記方法的總流程圖中的兩個階段。
階段I是構(gòu)造偏旁HMM。在階段I中,本發(fā)明提供了用于手寫登記的新方式,并且產(chǎn)生精確的偏旁HMM。在階段I中,可以構(gòu)建包括偏旁HMM的偏旁字典。
階段II是構(gòu)造字符HMM。通過組合從偏旁字典中選擇的偏旁HMM,來構(gòu)造基于偏旁的字符HMM。因此,在階段II中,所得的字符模型也是精確的。
圖7示出了圖6中的階段I的構(gòu)造偏旁模型的流程圖。
在步驟S100中,獲取訓(xùn)練數(shù)據(jù)。訓(xùn)練數(shù)據(jù)包括種子模型、字符樣本的訓(xùn)練數(shù)據(jù)集,以及字符模型的模型數(shù)據(jù)集。步驟S100包括如下的子步驟。選擇包括至少一個類別的訓(xùn)練偏旁,并且獲取所述至少一個類別中的一個的相應(yīng)種子HMM,其中,該訓(xùn)練偏旁到所述至少一個類別的分類是基于該偏旁在不同字符中的幾何布局。獲取字符樣本的訓(xùn)練數(shù)據(jù)集,其中,所述字符樣本包括手寫軌跡。獲取字符HMM的模型數(shù)據(jù)集,其中,所述模型數(shù)據(jù)集包括多個字符的HMM。
步驟S200是偏旁檢測及偏旁采樣點(diǎn)確定步驟。在步驟S200中,在 所述訓(xùn)練數(shù)據(jù)集當(dāng)中,通過使用所獲取到的種子HMM,檢測包含所述訓(xùn)練偏旁的字符樣本作為所述偏旁的訓(xùn)練字符樣本,而后,確定針對所述偏旁的各個訓(xùn)練字符樣本的、所述偏旁的采樣點(diǎn)。
步驟S300是狀態(tài)序列提取步驟。在步驟S300中,通過使用模型數(shù)據(jù)集中的相應(yīng)字符的HMM,對偏旁的所述訓(xùn)練字符樣本分別進(jìn)行解碼。并且,分別從相應(yīng)字符的HMM中,提取表示偏旁的狀態(tài)序列。
步驟S400是聚類步驟。在步驟S400中,基于狀態(tài)數(shù),將所提取出的狀態(tài)序列聚類為子類別,使得每個子類別對應(yīng)于一個偏旁HMM,并且每個子類別對應(yīng)于特定的狀態(tài)數(shù)。
圖8示出了圖7中的步驟S200及步驟S300的示例性實現(xiàn)方式。在步驟S210中,將通過使用在步驟S100中獲取的種子模型,分別檢測在步驟S100中獲取的訓(xùn)練數(shù)據(jù)集中的字符樣本是否包含訓(xùn)練偏旁。針對字符的一個軌跡,利用種子模型,通過維特比(Viterbi)算法對軌跡的所有的可能的段(segments)進(jìn)行了解碼,并且計算出相應(yīng)的置信度。如果最高置信度大于預(yù)定閾值(例如0.5等),則在步驟S220中,字符的該軌跡被檢測為包含訓(xùn)練偏旁,其中,訓(xùn)練偏旁對應(yīng)于種子模型。并且,將具有最高置信度的段,確定為訓(xùn)練偏旁的采樣點(diǎn),即訓(xùn)練偏旁的軌跡。否則,如果最高置信度小于預(yù)定閾值,則表示在字符軌跡中,未發(fā)現(xiàn)與種子模型相對應(yīng)的訓(xùn)練偏旁,并且字符的軌跡將被過濾掉。
在步驟S310中,通過作為本技術(shù)領(lǐng)域中的公知解決方案的維特比方法,利用字符的模型對字符的軌跡進(jìn)行解碼。也即,將字符的軌跡的采樣點(diǎn),與字符的模型中的狀態(tài)進(jìn)行匹配。
在步驟S320中,基于匹配結(jié)果,從字符的模型的狀態(tài)序列中,提取與訓(xùn)練偏旁的軌跡相對應(yīng)的狀態(tài)序列,作為訓(xùn)練偏旁的狀態(tài)序列。
接下來,將通過參照圖9,來詳細(xì)說明如何由字符樣本及字符模型來構(gòu)造偏旁模型的示例性處理。圖9對應(yīng)于圖6中的階段I。
在該示例中,基于“口”在不同字符中的幾何布局,偏旁“口”可以被分類為頂部“口”和底部“口”?!翱凇钡膬蓚€不同類別分別被稱 為“口1”和“口2”。圖9例示了如何將類別“口1”分類到子類別,或者將類別C1劃分到圖1B中的子類別C11、…、C1n的第二分類的處理。
如圖9所示,左上角的圓柱表示字符樣本的訓(xùn)練數(shù)據(jù)集,例如提供了“記”、“兄”、“邑”、“課”、“呆”、“員”等樣本。頂部的虛線矩形包含“口1”的種子模型。稍后,將描述種子模型的生成。
圖9中的步驟S51對應(yīng)于圖7中的步驟S200。在步驟S51中,通過使用“口1”的種子模型,從左側(cè)圓柱中的字符樣本中檢測偏旁“口1”。結(jié)果,“兄”、“邑”、“呆”、“員”被判斷為包含“口1”。之后,確定偏旁“口1”的采樣點(diǎn),即偏旁“口1”的軌跡。在圖9中,所得的4個軌跡用4個橢圓來標(biāo)示。通過圖8中的步驟S210及S220,已示出了步驟S51的算法。
圖9中的步驟S52及S53對應(yīng)于圖7中的步驟S300。右上角的圓柱表示字符模型的模型數(shù)據(jù)集。模型數(shù)據(jù)集包括多個字符的HMM,其中,包含“兄”、“邑”、“呆”、“員”的模型。在步驟S52中,通過使用“兄”、“邑”、“呆”、“員”的模型對包括“口1”的4個字符樣本分別進(jìn)行解碼。在步驟S53中,分別從“兄”、“邑”、“呆”、“員”的字符模型中,提取表示“口1”的狀態(tài)序列。在底部的圓柱中示出了所得的狀態(tài)序列,其中,來自“兄”、“邑”、“呆”、“員”的“口1”的狀態(tài)序列分別包括7、7、6及6個狀態(tài)。通過圖8中的步驟S310及S320,已示出了步驟S52及S53的算法。
步驟S54對應(yīng)于圖7中的步驟S400。由于來自“兄”及“呆”的“口1”的狀態(tài)序列具有相同的狀態(tài)數(shù),即7,因此,這兩個狀態(tài)序列被聚類到第一子類別。并且,由于來自“邑”及“員”的“口1”的狀態(tài)序列具有相同的狀態(tài)數(shù),即6,因此,這兩個狀態(tài)序列被聚類到第二子類別。
每個子類別具有代表性偏旁HMM。有不同的方式來獲得該代表性HMM。
在一種方式中,通過從屬于每個子類別的狀態(tài)序列當(dāng)中選擇狀態(tài)序 列,來獲得表示每個子類別的偏旁HMM。對于第一子類別,可以選擇來自“兄”或“呆”的“口1”的狀態(tài)序列,作為代表性偏旁HMM。對于第二子類別,可以選擇來自“邑”或“員”的“口1”的狀態(tài)序列,作為代表性偏旁HMM。
作為另一選擇,可以通過訓(xùn)練包含相應(yīng)子類別的訓(xùn)練偏旁的多個手寫樣本,來獲得表示每個子類別的偏旁HMM。以第一子類別為例。收集并訓(xùn)練“兄”或“呆”的多個手寫樣本,以獲得第一子類別的代表性偏旁HMM。以相同的方式,收集并訓(xùn)練“邑”或“員”的多個手寫樣本,以獲得第二子類別的代表性偏旁HMM。
如上所述,圖9中左上角的圓柱表示字符樣本的訓(xùn)練數(shù)據(jù)集。雖然在訓(xùn)練數(shù)據(jù)集中僅示出了6個字符樣本,但是,也可以使用大得多的訓(xùn)練數(shù)據(jù)集。在一個實施例中,訓(xùn)練數(shù)據(jù)集可以包括整體字符集的樣本。只要在頂部的虛線矩形中輸入了任何種子模型,諸如“口2”、“木1”、“木2”、“木3”、“貝1”或“貝2”,則手寫登記方法將自動產(chǎn)生由輸入種子模型導(dǎo)出的偏旁子類別和偏旁HMM。
通過收集偏旁子類別,來構(gòu)建偏旁字典。在一種實現(xiàn)方式中,偏旁字典具有樹形結(jié)構(gòu),這意味著,偏旁字典中的每個偏旁具有像圖1B中的偏旁X那樣的結(jié)構(gòu)。因此,如果給出了偏旁的類別和隨后的子類別,則能夠輕松地檢索偏旁的模型。
返回到圖6。接下來,將描述字符模型構(gòu)造的階段II。圖10是示意性地例示根據(jù)本發(fā)明的實施例的構(gòu)造字符模型的處理的示意圖。該處理包含偏旁模型選擇步驟和偏旁模型組合步驟。
對于字符“呆”,其由要素偏旁“口”和“木”組成?;凇翱凇痹凇按簟敝械膸缀尾季?,選擇“口1”的類別。并且,基于“木”在“呆”中的幾何布局,選擇“木3”的類別。
在字符“呆”的整體字符HMM中,表示偏旁“口”的狀態(tài)序列的狀態(tài)數(shù)是7?;谠摂?shù)量7,選擇子類別“口11”。因此,能夠從偏旁字典中獲得子類別“口11”的代表性HMM。同樣,在字符“呆”的整體 字符HMM中,表示偏旁“木”的狀態(tài)序列的狀態(tài)數(shù)是8?;谠摂?shù)量8,選擇子類別“木31”。然后,從偏旁字典中獲得子類別“木31”的代表性HMM。
因此,通過組合子類別“口11”的代表性HMM和子類別“木31”的代表性HMM,生成字符“呆”的基于偏旁的HMM。
需要注意,整體字符HMM是指該字符HMM是作為一個整體,并且該字符HMM不是通過組合/共享要素偏旁的模型而產(chǎn)生的。經(jīng)常通過訓(xùn)練相應(yīng)字符的多個手寫樣本,來產(chǎn)生整體字符HMM。
圖11示出了根據(jù)本發(fā)明的實施例通過組合相應(yīng)的偏旁模型來生成多個字符的模型的示例。組合模型“西11”和“木31”產(chǎn)生“栗”的字符模型;組合模型“禾11”、“刂11”及“木32”產(chǎn)生“梨”的字符模型;等等。“口11”被多于一個的字符共享,“木31”、“木32”及“口12”也是如此。在手寫登記方法中,所得的字符識別字典遠(yuǎn)小于包含整體字符HMM的傳統(tǒng)字符識別字典,因為偏旁模型的數(shù)量遠(yuǎn)小于字符模型的數(shù)量。因此,通過偏旁共享機(jī)制,實現(xiàn)了快速識別手寫的目的。
有不同的方式來生成種子模型。圖12是示意性地例示根據(jù)本發(fā)明的實施例的生成種子模型的處理的示意圖。在步驟S81中,選擇訓(xùn)練偏旁的代表性字符,其中,每個字符包含不同幾何布局的訓(xùn)練偏旁。例如,對于訓(xùn)練偏旁“口”,選擇字符“號”及“占”,其中,“口1”在“號”中的幾何布局為頂部,而“口2”的幾何布局為底部。在步驟S82中,在字符“號”的樣本中,標(biāo)記與“口1”相對應(yīng)的偏旁段。同樣,在字符“占”的樣本中,標(biāo)記與“口2”相對應(yīng)的偏旁段。在圖12中,這兩個段被表示為偏旁段1及偏旁段2。接下來,在步驟S83中,通過作為本技術(shù)領(lǐng)域中的公知方案的維特比方法,利用相應(yīng)的字符模型對字符“號”和“占”的樣本分別進(jìn)行解碼。也即,將字符的軌跡的采樣點(diǎn)與字符的模型中的狀態(tài)進(jìn)行匹配。在步驟S84中,分別從“號”和“占”的字符模型中提取與偏旁段1及偏旁段2相對應(yīng)的狀態(tài)序列,并且充當(dāng)“口1”和“口2”的種子模型。
請注意,對于生成種子模型的方法沒有限制。作為另一選擇,可以通過對訓(xùn)練偏旁的多個手寫樣本進(jìn)行訓(xùn)練,來獲得種子模型,其中,訓(xùn)練偏旁的所述多個手寫樣本屬于種子HMM對應(yīng)的類別。
根據(jù)又一方面,本發(fā)明提供一種手寫識別方法,該手寫識別方法包括以下步驟:
—獲取手寫樣本;以及
—通過使用包含多個基于偏旁的字符模型的字符字典,來識別所獲取到的手寫樣本,其中,通過上述的手寫登記方法,來生成所述多個基于偏旁的字符模型。
該識別步驟還包括:
—將輸入手寫樣本標(biāo)準(zhǔn)化為例如400*400;
—根據(jù)公式(1)至公式(3)來提取這些手寫樣本的特征;以及
—根據(jù)維特比方法,并且通過使用包括輸入字符的識別模板的識別字典,對這些手寫樣本的特征進(jìn)行解碼。
本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明的方法也適用于諸如日語、中文或韓語字符等的東亞字符。
根據(jù)另一方面,本發(fā)明的手寫登記方法可以是離線登記方法。本發(fā)明的手寫識別方法可以是在線識別方法。根據(jù)實施例的字符字典可以是離線構(gòu)建的,而手寫識別處理是在線實現(xiàn)的。
本發(fā)明不僅考慮偏旁的幾何布局,而且考慮偏旁在其相應(yīng)字符中的模型復(fù)雜度,因此與現(xiàn)有技術(shù)相比,根據(jù)本發(fā)明的實施例構(gòu)造的偏旁模型更為精確。通過共享這些精確的偏旁模型而構(gòu)造的字符模型能夠更精確地表示字符。因此,通過使用包含更精確的字符模型的識別字典,實現(xiàn)了更精確地識別手寫的目的。
此外,由于基于偏旁的手寫登記方法的固有屬性,以及作為結(jié)果的小尺寸的字典,而實現(xiàn)了手寫識別速度快的優(yōu)點(diǎn)。
圖13是根據(jù)本發(fā)明的實施例的手寫登記裝置的功能配置??梢杂捎布?、固件、軟件中的任何一者或其任意組合,來構(gòu)成手寫登記裝置9000 及其所包括的單元,只要裝置9000中的單元能夠?qū)崿F(xiàn)如上所述的手寫登記方法的相應(yīng)步驟的功能即可。如果裝置9000是部分地或全部地由軟件構(gòu)成的,則該軟件被存儲在計算機(jī)的存儲器中,并且當(dāng)計算機(jī)的處理器通過執(zhí)行所存儲的軟件來進(jìn)行處理時,所述計算機(jī)能夠?qū)崿F(xiàn)本發(fā)明的手寫登記方法的功能。在另一方面,裝置9000可以部分地或全部地由硬件或固件構(gòu)成。裝置9000可以作為功能模塊被并入到圖像處理設(shè)備中。
手寫登記裝置9000包括偏旁模型構(gòu)造單元9100及字符模型構(gòu)造單元9200,其中,單元9100被構(gòu)造為構(gòu)建包括偏旁隱馬爾可夫模型(HMM)的偏旁字典,并且單元9200被構(gòu)造為通過組合從所述偏旁字典中選擇的偏旁HMM,來生成基于偏旁的字符HMM。
偏旁模型構(gòu)造單元9100包括:
—訓(xùn)練數(shù)據(jù)獲取子單元9110,其被構(gòu)造為獲取字符樣本的訓(xùn)練數(shù)據(jù)集,其中,所述字符樣本包括手寫軌跡樣本;選擇訓(xùn)練偏旁,根據(jù)該偏旁在不同字符中的幾何布局,將該偏旁分類到至少一個類別,并且獲取所述至少一個類別中的一個的相應(yīng)種子HMM;獲取字符HMM的模型數(shù)據(jù)集,其中,所述模型數(shù)據(jù)集包括多個字符的HMM;
—偏旁檢測及偏旁采樣點(diǎn)確定子單元9120,其被構(gòu)造為通過使用所獲取到的種子HMM,在所述訓(xùn)練數(shù)據(jù)集當(dāng)中檢測包含所述偏旁的字符樣本作為所述偏旁的訓(xùn)練字符樣本,并且針對所述偏旁的各個訓(xùn)練字符樣本,確定所述偏旁的采樣點(diǎn);
—狀態(tài)序列提取子單元9130,其被構(gòu)造為通過使用所述模型數(shù)據(jù)集中的相應(yīng)字符的HMM,對所述偏旁的所述訓(xùn)練字符樣本分別進(jìn)行解碼,并且分別從相應(yīng)字符的HMM中,提取表示所述偏旁的狀態(tài)序列;
—聚類子單元9140,其被構(gòu)造為基于狀態(tài)數(shù),將所提取出的狀態(tài)序列聚類到子類別,使得每個子類別對應(yīng)于一個偏旁HMM。
字符模型構(gòu)造單元9200包括:
—偏旁模型選擇子單元9210,其被構(gòu)造為針對包括要素偏旁的訓(xùn)練字符,基于每個要素偏旁在所述訓(xùn)練字符中的幾何布局,為每個要素 偏旁選擇一個類別,并且基于所述訓(xùn)練字符的整體字符HMM中的、表示每個要素偏旁的狀態(tài)序列的狀態(tài)數(shù),從所述偏旁字典中為每個要素偏旁選擇一個子類別,并且針對每個要素偏旁,獲得與所選擇的子類別相對應(yīng)的偏旁HMM;以及
—偏旁模型組合子單元9220,其被構(gòu)造為通過組合所獲得的每個要素偏旁的偏旁HMM,來生成所述訓(xùn)練字符的基于偏旁的HMM。
根據(jù)本發(fā)明的另一方面,提供一種包括多個基于偏旁的字符模型的手寫識別字典,其中,通過上述的任意手寫登記方法,來生成所述多個基于偏旁的字符模型。
根據(jù)本發(fā)明的另一方面,提供一種手寫識別裝置。所述手寫識別裝置包括:樣本獲取單元,其被構(gòu)造為獲取手寫樣本;如上所述的手寫識別字典;以及識別單元,其被構(gòu)造為通過使用所述手寫識別字典,來識別所獲取到的手寫樣本。
根據(jù)本發(fā)明的另一方面,提供一種移動電話。所述移動電話包括:傳感器,其被構(gòu)造為將用戶在所述移動電話上的觸摸轉(zhuǎn)換為采樣點(diǎn);軌跡緩沖器,其被構(gòu)造為存儲所述采樣點(diǎn);如上所述的手寫識別裝置,其被構(gòu)造為將所述采樣點(diǎn)識別為字符;以及文本編輯模塊,其被構(gòu)造為根據(jù)所識別出的字符來輸出文本。
根據(jù)本發(fā)明的又一方面,提供一種圖像處理設(shè)備。所述圖像處理設(shè)備包括:如上所述的手寫識別裝置;以及圖像處理單元,其被構(gòu)造為根據(jù)所述手寫識別裝置的識別結(jié)果,來處理輸入圖像。所述圖像處理設(shè)備可以是以下設(shè)備中的至少一者:復(fù)印機(jī)、傳真機(jī)、掃描儀、打印機(jī)或多功能打印機(jī)。
應(yīng)當(dāng)注意,可以通過多種方式來實施本發(fā)明的方法及裝置。例如,可以通過軟件、硬件、固件或這三者的任意組合,來實施本發(fā)明的方法及裝置。上面描述的方法的步驟的順序僅旨在進(jìn)行說明,并且除非另外特別指明,否則本發(fā)明的方法的步驟并不局限于上面具體描述的順序。此外,在一些實施例中,本發(fā)明還可以體現(xiàn)為記錄在記錄介質(zhì)中的程序, 包括用于實現(xiàn)根據(jù)本發(fā)明的方法的機(jī)器可讀指令。因此,本發(fā)明還涵蓋了存儲有用于實現(xiàn)根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。
雖然參照示例性實施例對本發(fā)明進(jìn)行了描述,但是應(yīng)當(dāng)理解,本發(fā)明并不限于所公開的示例性實施例。對于本領(lǐng)域的技術(shù)人員顯而易見的是,可以在不脫離本發(fā)明的范圍和精神的情況下,對上述示例性實施例進(jìn)行變型。所附權(quán)利要求的范圍應(yīng)當(dāng)被賦予最寬的解釋,以涵蓋所有這類變型以及等同的結(jié)構(gòu)和功能。