字典制作方法、手寫輸入方法和設(shè)備的制作方法

文檔序號：6611024閱讀：305來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：字典制作方法、手寫輸入方法和設(shè)備的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及文字輸入，具體涉及一種應(yīng)用于電子產(chǎn)品的字典制作方法、手寫輸入方法和設(shè)備，能夠用已輸入的筆劃預(yù)測要輸入的文字，以便減輕使用者的負(fù)擔(dān)。
背景技術(shù)：
長久以來，諸如漢字之類非字母字符的快速輸入是困擾人們的難題，因?yàn)橛?jì)算機(jī)的鍵盤適用于諸如英文之類西文的輸入，而不適用于漢字的輸入。
漢字的輸入通常分為鍵盤輸入和手寫輸入兩種。鍵盤輸入是按照一定的編碼規(guī)則給每個(gè)漢字賦予一定的編碼，通過鍵盤輸入編碼來識別漢字，例如各種拼音輸入法和五筆字型輸入法。手寫輸入通過識別人們直接書寫的筆跡來識別漢字，從而達(dá)到輸入漢字的目的。由于鍵盤輸入需要使用者熟練使用鍵盤和/或牢記每個(gè)漢字的各種代碼或者編碼規(guī)則，無法在不常使用鍵盤的人們中推廣使用。另外，由于方言的緣故，很多人會寫下某個(gè)漢字，確無法準(zhǔn)確讀出其讀音，這使得拼音輸入法在實(shí)際使用中遇到了難以克服的困難。
由于不需要使用者在使用之前進(jìn)行輸入法的學(xué)習(xí)，手寫輸入法得到了不常使用鍵盤的人的歡迎。從原理上講，手寫輸入并不需要使用者進(jìn)行任何的學(xué)習(xí)，只要他會寫下漢字即可。
專利文獻(xiàn)l (US6028959)披露了一種采用筆劃預(yù)測技術(shù)來輸入漢字的方法。根據(jù)已經(jīng)書寫的漢字的筆劃，在整個(gè)漢字寫完之前，便可預(yù)測出所要寫的漢字，從而大大提高了手寫輸入的速度。具體地，專利文獻(xiàn)l的方法采用了時(shí)延神經(jīng)網(wǎng)絡(luò)(TDNN)結(jié)合多層感知器網(wǎng)絡(luò)(MLP)的方式來進(jìn)行筆劃預(yù)測。
專利文獻(xiàn)2(特開平2005-25566)披露了一種手寫輸入漢字的方法，其中將輸入部輸入的手寫筆劃集中存儲在存儲部中，將存儲部中包括坐標(biāo)特征、向量特征和圖形特征等的檢索對象信息與事先創(chuàng)建的字典進(jìn)行匹配，使用包括OCR、 DP等各種模式匹配方法生成預(yù)測候補(bǔ)。然后，候補(bǔ)選擇部從預(yù)測的候補(bǔ)中選擇要輸入的文字。輸入部將輸入的筆劃集合作為整體圖像來進(jìn)行處理，能夠減少使用者的負(fù)擔(dān)。
但是，專利文獻(xiàn)l的手寫輸入方法預(yù)測步驟過于復(fù)雜，它采用了包括兩類共68個(gè)神經(jīng)網(wǎng)絡(luò)涉及5M多個(gè)參數(shù)，導(dǎo)致預(yù)測過程非常復(fù)雜。專利文獻(xiàn)2的方法雖然給出了不需要寫完整的字，就可以通過匹配預(yù)測要輸入結(jié)果的方法，但該發(fā)明將輸入的筆劃的整體作為圖像來處理，導(dǎo)致效率低下。

發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)的問題，完成了本發(fā)明。本發(fā)明的目的是提供一種完全創(chuàng)新的字典創(chuàng)建方法和設(shè)備、手寫輸入方法和設(shè)備，能夠通過寫下的筆劃來預(yù)測要輸入的文字，以便減輕使用者的負(fù)擔(dān)。
在本發(fā)明的第一方面，提出了一種制作字典的方法，包括步驟提取文字的整字樣本的整字特征，和筆劃數(shù)大于預(yù)定值的文字的部分
筆劃樣本的部分筆劃特征；以及通過用機(jī)器學(xué)習(xí)算法對所述整字特征
和所述部分筆劃特征進(jìn)行學(xué)習(xí)來生成文字的整字模板和/或部分筆劃模板，作為字典中的項(xiàng)目。
在本發(fā)明的第二方面，提出了一種制作字典的設(shè)備，包括提取文字的整字樣本的整字特征，和筆劃數(shù)大于預(yù)定值的文字的部分筆劃
樣本的部分筆劃特征的裝置；以及通過用機(jī)器學(xué)習(xí)算法對所述整字特
征和所述部分筆劃特征進(jìn)行學(xué)習(xí)來生成文字的整字模板和/或部分筆劃模板，作為字典中的項(xiàng)目的裝置。
在本發(fā)明的第三方面，提出了一種手寫輸入方法，包括步驟提取
文字的至少部分手寫筆跡的特征；以及計(jì)算所述特征與根據(jù)上述第一方面的方法所創(chuàng)建的字典中的模板之間的距離；以及將距離較小的至少一個(gè)的模板所代表的文字作為識別結(jié)果。
在本發(fā)明的第四方面，提出了一種手寫輸入設(shè)備，包括提取文字的至少部分手寫筆跡特征的裝置；計(jì)算所述特征與根據(jù)上述第一方面的方法創(chuàng)建的字典中的模板之間的距離的裝置；以及將距離較小的至少一個(gè)的模板所代表的文字作為識別結(jié)果的裝置。
本發(fā)明提出了完整字樣本與部分筆劃字樣本，并在此基礎(chǔ)上制作了識別字典，通過與該識別字典進(jìn)行匹配，手寫使用者可不完全輸入文字，自動(dòng)預(yù)測出所要輸入的文字候補(bǔ)，減少書寫者的負(fù)擔(dān)。本系統(tǒng) 具有結(jié)構(gòu)簡單、硬件要求低、識別速度快，識別率高等優(yōu)點(diǎn)，可在嵌
入式系統(tǒng)等上實(shí)現(xiàn)。
另外，在識別字典的制作過程中，所提取的特征與手寫文字的筆順、連筆及筆劃數(shù)無關(guān)，從而使使用者在書寫時(shí)擺脫了筆順、連筆以及筆劃數(shù)的限制。
另外，通過降維及量化，既極大地降低了識別字典所需的內(nèi)存，實(shí)現(xiàn)了小型化，又減小了識別過程中的計(jì)算量，避免了浮點(diǎn)運(yùn)算，提高了識別速度，有利于高速化的實(shí)現(xiàn)。
另外，在識別過程中，采用了分段式快速匹配方法，逐級濾除候選項(xiàng)，縮小比較范圍，在幾乎不影響識別率的情況下，大大提高了識別速度，最終地保障了聯(lián)機(jī)手寫文字識別系統(tǒng)高速化的實(shí)現(xiàn)。
另外，十候選字列表結(jié)合背景提示方式，提供了一種更加友善的操作界面，避免了使用者視線在輸入?yún)^(qū)與候選區(qū)之間的頻繁轉(zhuǎn)移，這樣一方面減小了使用者的工作強(qiáng)度，另一方面又提高了手寫輸入速度。
另外，通過自適應(yīng)非定時(shí)自動(dòng)送字方式，系統(tǒng)可根據(jù)使用者的書寫習(xí)慣以及所寫字，智能地調(diào)整字與字之間的間隔等待時(shí)間，提供了一種更人性化的控制方式，也使得手寫輸入更高效。

通過下面結(jié)合

本發(fā)明的優(yōu)選實(shí)施例，將使本發(fā)明的上述及其它目的、特征和優(yōu)點(diǎn)更加清楚，其中
圖l示出了根據(jù)本發(fā)明實(shí)施例的手寫輸入設(shè)備的功能框圖2是部分筆劃字樣本的自動(dòng)生成以及整字類和部分筆劃字類的示意圖3是描述根據(jù)本發(fā)明實(shí)施例的字典制作方法的流程圖4是描述在預(yù)處理過程中執(zhí)行的等距重采樣操作的示意圖5是在預(yù)處理過程中執(zhí)行的質(zhì)心歸一化和非線性歸一化操作的示意圖6是描述提取筆劃方向分布特征的過程的示意圖；圖7是描述提取網(wǎng)格筆劃特征的過程的示意圖；圖8是描述提取周邊方向特征的過程的示意圖；圖9是描述利用GLVQ迸行學(xué)習(xí)的過程的示意圖；圖10是根據(jù)本發(fā)明實(shí)施例的手寫輸入方法中的識別過程的詳細(xì) 流程圖ll是描述快速匹配過程的示意圖；以及圖12是十候選字列表結(jié)合首選字背景提示的示意圖。
具體實(shí)施例方式
下面參照附圖對本發(fā)明的優(yōu)選實(shí)施例進(jìn)行詳細(xì)說明，在描述過程中省略了對于本發(fā)明來說是不必要的細(xì)節(jié)和功能，以防止對本發(fā)明的理解造成混淆。
圖l示出了根據(jù)本發(fā)明實(shí)施例的手寫輸入設(shè)備的功能框圖。如圖l 所示，根據(jù)本發(fā)明實(shí)施例的手寫輸入設(shè)備包括手寫輸入單元110，用
于采集使用者的筆跡，并且對其數(shù)字化，作為輸入筆跡信號；手寫筆
跡存儲單元120，用于存儲手寫輸入單元110產(chǎn)生的輸入筆跡信號；識
別預(yù)測單元130，用于從輸入筆跡信號中提取該信號的特征，例如某個(gè) 字的部分或者全部筆劃的特征，并將其與預(yù)先創(chuàng)建的字典中的模板進(jìn) 行匹配，按照匹配程度產(chǎn)生輸入候補(bǔ)；顯示控制單元150，在使用者通過手寫輸入單元110輸入筆劃的同時(shí)在手寫顯示單元160上顯示筆跡，呈現(xiàn)給使用者，另一方面，在手寫顯示單元160上顯示識別預(yù)測單元130 所產(chǎn)生的候選項(xiàng)，例如按照接近程度排列的十個(gè)最接近要輸入的文字的候選項(xiàng)；候選項(xiàng)選擇單元140，在使用者的操作下從十個(gè)候選項(xiàng)中選
擇要輸入的文字，然后由手寫顯示單元160顯示給使用者。
下面詳細(xì)說明上述提及的字典的創(chuàng)建過程，也就是通過機(jī)器學(xué)習(xí) 方法從手寫的文字樣本生成針對每個(gè)文字的模板的過程。
根據(jù)本發(fā)明，將每個(gè)文字的手寫樣本分成兩類。一類稱為整字類，屬于該類的樣本具備全部筆劃，即為一個(gè)完整的字?？紤]到文字書寫時(shí)"連筆"等原因，可以不要求屬于該類中的樣本具有相同的筆劃數(shù)。另一類則稱為部分筆劃字類，該類中的樣本筆劃缺失，即為未寫完的字。有些文字，尤其是獨(dú)體字，例如"人"、"土"等，本身筆劃數(shù)很少，就不再生成部分筆劃字類了。另一方面，可以對文字的筆劃設(shè)置一個(gè)預(yù)定值S77/，例如S77/值為4。筆劃數(shù)小于等于4的文字僅僅具有整字類樣本，而其它的文字具有兩種手寫樣本，即整字類樣本和部分筆劃字類樣本。圖2是部分筆劃字樣本的自動(dòng)生成以及整字類和部分筆劃字類的示意圖。
如圖2所示，由不同的使用者寫下文字，并且記錄其筆跡。將一個(gè) 文字的完整筆跡稱作如上所述的'整字類樣本'。通過對整字類樣本從最后一個(gè)筆劃開始逐個(gè)筆劃去除，來獲得如上所述的'部分筆劃字類樣本'。如圖2的左側(cè)所示的一列'啊，就是該文字的整字類樣本，而圖2的右側(cè)所示的筆跡就是該文字的部分筆劃字類樣本，它們是通過從左側(cè)的整字類樣本中去除部分筆劃而形成的。如上所述，部分筆劃字類樣本的筆劃數(shù)大于等于一個(gè)預(yù)定值，例如4。
圖3是描述根據(jù)本發(fā)明實(shí)施例的字典制作方法的流程圖。如圖3所示，在步驟SllO，采集各個(gè)文字，即由使用者寫下時(shí)產(chǎn)生的筆跡，作為生成字典的樣本集合。在步驟S120，采集的各個(gè)文字的樣本存儲為該文字的整字類樣本。
然后，在步驟S130，判斷在每個(gè)文字的筆劃數(shù)目是否大于預(yù)定值 577/。如果筆劃數(shù)大于S77/，則意味著該文字可以具有整字類樣本和部分筆劃字類樣本。這樣，在步驟S140，從該文字的整字類樣本生成部分筆劃字類樣本，并且在步驟S150，將該文字的部分筆劃字類樣本
與該文字和整字類樣本相關(guān)聯(lián)地存儲。
如果該文字的筆劃數(shù)小于等于S77/，則意味著該文字僅僅具有整
字類樣本，流程轉(zhuǎn)到步驟S160。
在步驟S160，針對每個(gè)文字的整字類樣本和/或部分筆劃字類樣本進(jìn)行預(yù)處理，例如等距平滑、質(zhì)心歸一化和非線性歸一化等操作，以便使得該樣本的特征變得規(guī)整。
等距平滑操作是對手寫樣本的采樣點(diǎn)進(jìn)行重采樣，使之間隔均勻，圖4是描述在預(yù)處理過程中執(zhí)行的等距重采樣操作的示意圖。
如圖4所示，為了減少平滑處理的運(yùn)算量，通過等距離重采樣來顯著地減少采樣點(diǎn)的數(shù)目。圖4的(A)表示原始輸入坐標(biāo)序列，它是等時(shí)采樣的結(jié)果。因此，在書寫速度慢的地方采樣點(diǎn)十分密集，甚至有許多相距為零的采樣點(diǎn)，稱為靜止點(diǎn)。
通過等距離重采樣可以刪除所有的靜止點(diǎn)，并顯著地減少采樣點(diǎn) 的數(shù)目。等距重采樣的過程如下
令筆劃的起始點(diǎn)P。為重采樣點(diǎn)，計(jì)算P,和P。的距離。如果距離小于重采樣間隔T，則刪去P,，繼續(xù)計(jì)算&和P。的距離。否則，保留&作為重采樣點(diǎn)，繼續(xù)計(jì)算&和&的距離，以此類推。
由于原始采樣點(diǎn)十分密集，重采樣間隔T一般遠(yuǎn)大于原始采樣點(diǎn) 的間隔。因此，不必考慮原始采樣點(diǎn)的間隔大于T而需補(bǔ)充采樣點(diǎn)的情況。圖4的(B)示出了等距重采樣的結(jié)果。從圖中可以看出，需要處理的數(shù)據(jù)量大大減小。
質(zhì)心歸一化操作是將樣本大小規(guī)整至預(yù)定的尺寸，例如『xi/，并且質(zhì)心與外接方框的中心(『/2，if/2)重合。質(zhì)心歸一化的目的在于調(diào)
整輸入文字的位置、大小，使之與識別字典中的標(biāo)準(zhǔn)模式一致，并且使該文字的外接矩形框的幾何中心與文字的質(zhì)心重合。圖5的(A) 示出了原始手寫樣本，圖5的(B)示出了在預(yù)處理過程中執(zhí)行的質(zhì) 心歸一化過程的示意圖。設(shè)標(biāo)準(zhǔn)模式的高為//，寬為『。輸入文字的高為"寬為w。質(zhì)心的計(jì)算公式為
<formula>formula see original document page 11</formula>質(zhì)心歸一化的計(jì)算公式為:
<formula>formula see original document page 12</formula>
但是，質(zhì)心歸一化操作只能糾正質(zhì)心偏移，它對輸入文字的局部結(jié)構(gòu)的比例失調(diào)問題無能為力。
非線性歸一化操作能夠使樣本筆劃的間隔均勻。圖5的(C)示出了非線性歸一化操作的示意圖。非線性正規(guī)化則在一個(gè)文字內(nèi)采用動(dòng)態(tài)的縮放比例，根據(jù)輸入文字的不同部位的筆劃分布疏密程度等因素決定不同的縮放比例。本實(shí)施例采用的是基于點(diǎn)密度的非線性歸一化方法，根據(jù)筆劃像素的投影的倒數(shù)計(jì)算筆劃分布密度，以此動(dòng)態(tài)調(diào) 整縮放比例。筆劃分布密度高的地方適當(dāng)放大，密度低的地方適當(dāng)縮小。這樣調(diào)整后的文字的筆劃分布將趨于均勻。非線性正規(guī)化能更有效地減少文字變形程度，減弱不同書寫風(fēng)格產(chǎn)生的字形差異和離散，可有效地提高手寫規(guī)整文字的識別率。
令/a))表示一手寫文字的二值圖像，/ = 1，2，...,/， X2,…,入
<formula>formula see original document page 12</formula>
//(, )和r(/)分別為/(/,力在水平和垂直方向上的投影函數(shù)。
<formula>formula see original document page 12</formula>
令g(W)為/("力非線性歸—化后的結(jié)果，"2,…，S， bl,2，…,r，其計(jì) 算公式如下
<formula>formula see original document page 12</formula>
<formula>formula see original document page 13</formula>在預(yù)處理步驟之后，在步驟S170，從樣本中提取M維特征可以包括筆劃方向分布特征M,維，網(wǎng)格筆劃特征M2維，周邊方向特征 M;維筆劃方向，以及與筆劃數(shù)、筆順無關(guān)的其他特征。
圖6是描述提取筆劃方向分布特征的過程的示意圖。如圖6的 (A)所示，先將文字分成nXn的網(wǎng)格，計(jì)算每個(gè)網(wǎng)格內(nèi)的各個(gè)筆段向8個(gè)方向的投影，每個(gè)網(wǎng)格在如圖6的(B)所示的8個(gè)方向上的投影長度，即構(gòu)成了該網(wǎng)格的筆劃方向分布特征。
圖7是描述提取網(wǎng)格筆劃特征的過程的示意圖。先將文字分成n X n的網(wǎng)格，計(jì)算每個(gè)網(wǎng)格內(nèi)的筆段所占的面積，即筆劃點(diǎn)的點(diǎn)數(shù)和，便為該網(wǎng)格的網(wǎng)格筆劃特征。
令二值圖像威力^^H過t力、，則^附=2>',力表示
l_o 筆劃不通過O,力 (u)^網(wǎng)格
該網(wǎng)格的網(wǎng)格筆劃特征。
圖8是描述提取周邊方向特征的過程的示意圖。先將文字沿垂直方向進(jìn)行n等分。沿著水平掃描線從左到右搜索到第一個(gè)黑點(diǎn)或文字寬度的一半為止的長度稱為左側(cè)搜索長度，每個(gè)等分塊的水平掃描線的平均左側(cè)搜索長度除以文字寬度的一半即為該等分塊的左側(cè)水平輪廓特征，如圖8的(A)所示。類似地，可以將平均右側(cè)搜索長度除以文字寬度來計(jì)算右側(cè)水平輪廓特征。同樣，如圖8的(B)所示，將文字沿著水平方向n等分，來計(jì)算上側(cè)垂直輪廓特征和下側(cè)垂直輪廓特征。
三種特征依次串聯(lián)成如下的M維聯(lián)合特征向量
義=h ,…叉AH ,義A/1+1,…,Xwi+M2 , ~認(rèn)2+1, . , XjWl+A/2+A/3 1
以圖2為例，可以獲得"啊"字的完整字特征集合^^，…,義^)和 "啊"字的部分字特征集合t^n,…，Im。1
在步驟S180，降維及量化處理采用KL變換，將特征向量的
維數(shù)從M維降至iV維，再對KL變換矩陣和降維后的特征向量進(jìn)行量化，分別以一個(gè)WORD (16bits)型和BYTE (8bits)型變量表示其元素。
KL變換能夠從M維向量中選擇中選取iV個(gè)特征，把原向量降維成為一個(gè)7V維向量(7V<M)，而盡可能地保留向量中原來對分類有用的信息。
首先，假設(shè)現(xiàn)在需要識別《個(gè)字符，即假設(shè)此識別字典的容量為《個(gè)字符，由于產(chǎn)生了部分筆劃字類，所以共有『個(gè)類別 (/CS『《2/C)，各類出現(xiàn)的先驗(yàn)概率為戶(A)， / = 1,2,...,。以《表示來自第/類的M維向量，則第/類集群的自相關(guān)矩陣i ,.為
i ,=￡{z,jr,r} …(6)
混合分布的自相關(guān)矩陣i 是
即/ 是各類自相關(guān)矩陣的統(tǒng)計(jì)平均。
其次，求出i 的特征向量矩陣O和特征值矩陣A，
(7)
<formula>formula see original document page 14</formula>①2…①m] 并要求特征值由大到小地排列-<formula>formula see original document page 14</formula>
分別對應(yīng)特征向量O),， o>2，…，oM。
第三，取前w個(gè)特征向量O),( 1，2，…，aO，構(gòu)成變換矩陣A
<formula>formula see original document page 14</formula>(8)
<formula>formula see original document page 14</formula>(9)
<formula>formula see original document page 14</formula>(10)
<formula>formula see original document page 14</formula>(11)
再取變換I^AX， F是iV維向量,
以圖2為例說明經(jīng)過降維后得到的特征集合，"啊"字的完整字
特征集合為(^，…，^J，其中每一個(gè)^b,，h…;v]，同樣對于"啊" 字的部分字特征集合為化部,，…，:r部2。)，其中每一個(gè)i^h,nw]。然后，對矩陣A和向量y進(jìn)行量化
變換矩陣A的量化變換矩陣A為一浮點(diǎn)矩陣，
<formula>formula see original document page 15</formula>令Q二max(l"y |)，《=32767，則量化公式如下:
…(13)
這樣，《可以用一個(gè)
= round(a'乂 x AT / 0 其中，round()為四舍五入取整函數(shù) WORD(16bits)型變量表示。新特征向量r的量化經(jīng)KL變換降維后的新特征向量r，其量化方式與前面的類似，所不同的是y本身為定點(diǎn)向量，量化后r的每個(gè)元素用BYTE(8bits)型變量表示
(14)
識別字典中的模板可通過對降維及量化后的整字類樣本特征向量和部分筆劃類樣本特征向量分別進(jìn)行GLVQ算法訓(xùn)練產(chǎn)生，即為整字類樣本和部分筆劃字樣本分別生成一個(gè)N維的特征向量z;作為
模板，r,[^f廣、]。以圖2為例，5個(gè)完整字特征集合經(jīng)過訓(xùn)練后
生成一個(gè)完整字模板，20個(gè)部分筆劃字特征集合經(jīng)過訓(xùn)練后生成一個(gè)部分字類模板。
在步驟Sl卯，利用改進(jìn)后的GLVQ (Generalized Learning Vector
Quantization)算法對經(jīng)降維及量化處理后的手寫樣本集進(jìn)行學(xué)習(xí)和
訓(xùn)練，最終為每一個(gè)類別生成一個(gè)模板。
設(shè)X為一手寫字樣本，S和P,為識別字典中的兩個(gè)模板，且Z與
S屬于一類，x與《不屬于一類，/T和《為經(jīng)更新后的新模板，其
訓(xùn)練公式如下
<formula>formula see original document page 16</formula> …(15)
<formula>formula see original document page 16</formula> …(16)
其中，《為學(xué)習(xí)率，
<formula>formula see original document page 16</formula> ... (17)
<formula>formula see original document page 16</formula> …(19)
<formula>formula see original document page 16</formula> …(20)
A和A即為兩個(gè)模式的匹配距離，可以采用歐氏距離、馬氏距離、以及其他各種距離測度。S和^.的初始值可設(shè)為其各自類的幾何中心。經(jīng)過這一輪循環(huán)，S與X靠近了，而^被推遠(yuǎn)了。對所有的類別
重復(fù)這一過程，直至訓(xùn)練集樣本的識別率達(dá)到一定水準(zhǔn)。
圖9是描述利用GLVQ進(jìn)行學(xué)習(xí)的過程的示意圖。在圖9中，包括了 "林"字的整字類和部分筆劃字類，以及"木"字的整字類。由于整字類的樣本與部分筆劃字類樣本相比，屬于該類的樣本差異相對較小，因此不同人書寫的整字類樣本的特征較為接近，在空間中的分布較為集中，如圖9的虛線圓所示，而'林'字的部分筆劃字類樣本中的樣本差異較大，因此不同人書寫的部分筆劃字類樣本在空間中的分布較為分散，如圖9中的虛線橢圓所示。從圖9中可以看出，'林'
字剛剛開始寫時(shí)，比如寫成'木'時(shí)，其特征與完整字類的'木'接近；而當(dāng)'林，字快寫完時(shí)，其特征與作為完整字類的'林'字接近。因此，部分筆劃字類的樣本特征分布較為分散，而整字類的樣本特征分布則較為集中。據(jù)此，我們對標(biāo)準(zhǔn)的GLVQ作了改進(jìn)。如果X為屬于整字類，學(xué)習(xí)率為",；如果義為屬于部分筆劃字類，學(xué)習(xí)率則采用A。其滿足a一^，在實(shí)際應(yīng)用中，取"1=4 2。這樣可以加速收斂。圖9中，實(shí)心圓點(diǎn)表示各類的聚類中心，它是由GLVQ算法學(xué) 習(xí)產(chǎn)生的。在識別時(shí)，計(jì)算輸入樣本與各聚類中心的匹配距離，距離最小者作為識別結(jié)果。
這樣，為每個(gè)文字生成一個(gè)或兩個(gè)模板，分別代表完整字類和部分筆劃字類，最終在步驟S200完成識別字典的制作。
雖然以上以GLVQ算法描述了自動(dòng)學(xué)習(xí)過程，但是這僅僅是出于說明的目的，而非想要限定本發(fā)明。本發(fā)明也可以采用其他的機(jī)器學(xué) 習(xí)算法，例如SOM (Self-Organizing Maps)網(wǎng)絡(luò)，LVQ (Learning Vector Quantization)算法，以及LVQ算法的改進(jìn)型LVQ1 ， LVQS和LVQ3等。
對于一個(gè)可識別K個(gè)字符的帶預(yù)測功能的識別字典，其包含W 個(gè)模板，其滿足《^r^2『。令降維后的特征向量維數(shù)為N，則識別字典為W個(gè)N維特征向量首尾串接而成的一維數(shù)組
D/c"謹(jǐn)^;-[ri … … fw … Vi …,,〖 …(21)
本發(fā)明的一個(gè)特點(diǎn)是小型化，對于可識別^個(gè)字符的無預(yù)測功能的單模板字典，其模板數(shù)為K，降維后的特征向量維數(shù)為W，則識別字典的大小為《7V (bytes)。令《=7000， 7V=64 ，則字典大小為
448000bytes。
而對于同樣可識別K個(gè)字符的根據(jù)本實(shí)施例的方法創(chuàng)建的字典，則其模板數(shù)為『(尺《『^2K)。此時(shí)識別字典的大小為『^ (bytes)。因此，最壞情況下，本實(shí)施例的方法所創(chuàng)建的識別字典的數(shù)據(jù)量會增大至原來的2倍。但是由于原來字典的數(shù)據(jù)量較小，所以新字典的數(shù)據(jù) 量也不大。仍以尺=7000， 7V-64為例，新字典的數(shù)據(jù)量最大不超過 896000bytes。
下面結(jié)合圖10來說明根據(jù)本發(fā)明實(shí)施例的手寫輸入方法的過程。圖10是根據(jù)本發(fā)明實(shí)施例的手寫輸入方法中的識別過程的詳細(xì)流程圖。
如圖10所示，在步驟S310，使用者通過手寫輸入單元110輸入某
個(gè)文字的筆劃。然后，在步驟S320，由手寫筆跡存儲單元120存儲，并且由顯示控制單元150顯示在手寫顯示單元160上。
存儲在手寫筆跡存儲單元120中的筆劃在識別預(yù)測單元130中執(zhí)行步驟S330 S360的操作。
鑒于步驟S330到S350的操作與上述字典創(chuàng)建方法中的步驟S160 到S180的操作基本相同，所以這里不再對這些步驟進(jìn)行詳細(xì)說明。
在步驟S360，執(zhí)行輸入筆劃的特征與字典中的模板的快速匹配。圖11是描述快速匹配過程的示意圖。設(shè)在步驟S350采用KL變換后生成的iV維特征向量，各維所含的信息量依次遞減。因此，可將N維特征向量分成d段，每段分別包括M， iV2， ......， iVd個(gè)元素，且滿足
下式
iV二iV,+7V2+.-. + iVd …(22)
在實(shí)際運(yùn)用中，分段多數(shù)符合下列條件
iV,《A^…^ …(23)
第一輪篩選選取第一段M個(gè)元素參與匹配，計(jì)算待識別樣本與識別字典中各模板之間的特征距離，設(shè)置閾值TH1，保留大于閾值的模板繼續(xù)參與下一輪篩選。在實(shí)際中，閾值設(shè)為所有距離的中間值。此處采用與GLVQ訓(xùn)練時(shí)相同的距離測度。
第二輪篩選選取第二段M個(gè)元素也參與匹配，即(M+iV2)個(gè)元素，計(jì)算待識別樣本與上一輪篩選剩下的模板之間的特征距離，設(shè)置閾值TH2，保留大于閾值的模板繼續(xù)參與下一輪篩選。
最后一輪篩選選取最后剩下的iVd個(gè)元素參與匹配，即全部7V個(gè) 元素，計(jì)算待識別樣本與上一輪篩選剩下的模板之間的特征距離，最小的10個(gè)即為最終TOP 1 O識別結(jié)果。
在步驟S370，更新原有的識別結(jié)果，將上述的TOP10識別結(jié)果顯示在手寫顯示單元160上，供使用者選擇。
在步驟S380，如果使用者通過候選項(xiàng)選擇單元140選擇了TOP10 中的某個(gè)候選項(xiàng)，則完成了該文字的輸入。否則，流程轉(zhuǎn)到步驟S310，重復(fù)上述的操作過程。
圖12是十候選字列表結(jié)合首選字背景提示的示意圖。如圖12所示，輸入界面大致分成三個(gè)區(qū)域，左側(cè)的區(qū)域用來顯示TOP10候選項(xiàng)，供使用者選擇，中間的區(qū)域是書寫區(qū)，其上顯示了使用者實(shí)時(shí)輸入的筆劃，并且在輸入的筆劃的背景上顯示了當(dāng)前的識別結(jié)果，作為輸入過程中的提示。如果在使用者將某個(gè)字寫下了一部分時(shí)就已經(jīng)識別出該字，則不用將該字寫完就完成了輸入操作。在輸入界面的右側(cè)是指令區(qū)，其中設(shè)置了多個(gè)功能鍵，供使用者在輸入過程中進(jìn)行諸如編輯之類的其他操作。
另外，在識別過程中，可以設(shè)定使用者'抬筆'完成一筆輸入之后，識別預(yù)測單元130在等待恰當(dāng)?shù)臅r(shí)間后，自動(dòng)將第一候選項(xiàng)發(fā)送給顯示控制單元150，顯示在手寫顯示單元160的候選項(xiàng)顯示區(qū)中。識別預(yù)測單元130根據(jù)使用者的書寫習(xí)慣以及輸入的文字是否是獨(dú)體字因素來調(diào)整該等待輸入時(shí)間。
另外，在上面的描述中，針對某個(gè)文字的部分筆劃字類樣本僅僅生成了一個(gè)模板，如圖2所示。但是也可以對該文字的部分筆劃字類樣本根據(jù)筆劃數(shù)生成具有不同優(yōu)先級的兩個(gè)或者多個(gè)部分筆劃字類模板，來進(jìn)一步提高預(yù)測能力。
至此已經(jīng)結(jié)合優(yōu)選實(shí)施例對本發(fā)明進(jìn)行了描述。應(yīng)該理解，本領(lǐng) 域技術(shù)人員在不脫離本發(fā)明的精神和范圍的情況下，可以進(jìn)行各種其它的改變、替換和添加。因此，本發(fā)明的范圍不局限于上述特定實(shí)施例，而應(yīng)由所附權(quán)利要求所限定。
權(quán)利要求
1.一種制作字典的方法，包括步驟提取文字的整字樣本的整字特征，和筆劃數(shù)大于預(yù)定值的文字的部分筆劃樣本的部分筆劃特征；以及通過用機(jī)器學(xué)習(xí)算法對所述整字特征和所述部分筆劃特征進(jìn)行學(xué)習(xí)來生成文字的整字模板和/或部分筆劃模板，作為字典中的項(xiàng)目。
2. 如權(quán)利要求l所述的方法，其中所述整字特征和部分筆劃特征都是M維的，其中M是自然數(shù)，所述提取步驟包括將所述M維整字特征降到N維，其中N是自然數(shù)且M大于N。
3. 如權(quán)利要求l所述的方法，其中所述整字特征和所述部分筆劃特征是與筆劃數(shù)、連筆和筆順無關(guān)的特征。
4. 根據(jù)權(quán)利要求l所述的方法，還包括步驟在提取步驟之前，對所述整字樣本和所述部分筆劃樣本進(jìn)行等距重采樣，使得樣本的筆劃的采樣點(diǎn)之間的距離大體相等。
5. 根據(jù)權(quán)利要求l所述的方法，還包括步驟在提取步驟之前，將所述整字樣本和所述部分筆劃樣本的尺寸調(diào) 整為預(yù)定的尺寸，使得樣本的質(zhì)心與預(yù)定尺寸的矩形的中心重合。
6. 根據(jù)權(quán)利要求l所述的方法，還包括步驟-在提取步驟之前，根據(jù)筆劃像素的投影的倒數(shù)計(jì)算筆劃分布密度，來動(dòng)態(tài)調(diào)整樣本的縮放比例。
7. 根據(jù)權(quán)利要求l所述的方法，其中所述部分筆劃樣本是從所述整字筆劃樣本生成的。
8. 根據(jù)權(quán)利要求3所述的方法，其中所述與筆劃數(shù)、連筆和筆順無關(guān)的特征包括以下至少之一筆劃方向分布特征、網(wǎng)格筆劃特征和周邊方向特征。
9. 根據(jù)權(quán)利要求2所述的方法，還包括步驟將N維特征的每個(gè)元素量化為整數(shù)。
10. 根據(jù)權(quán)利要求2所述的方法，其中通過KL變換來將所述M維特征降到N維。
11. 根據(jù)權(quán)利要求l所述的方法，其中所述機(jī)器學(xué)習(xí)算法包括 GLVQ算法、SOM網(wǎng)絡(luò)，LVQ算法、LVQ1算法、LVQ2算法和LVQ3算法的至少之一。
12. 根據(jù)權(quán)利要求ll所述的方法，其中所述機(jī)器學(xué)習(xí)算法針對整字樣本所采用的學(xué)習(xí)率大于針對所述部分筆劃樣本所采用的學(xué)習(xí)率。
13. 根據(jù)權(quán)利要求12所述的方法，其中所述機(jī)器學(xué)習(xí)算法針對整字樣本所采用的學(xué)習(xí)率是針對所述部分筆劃樣本所采用的學(xué)習(xí)率的四倍。
14. 一種制作字典的設(shè)備，包括提取文字的整字樣本的整字特征，和筆劃數(shù)大于預(yù)定值的文字的部分筆劃樣本的部分筆劃特征的裝置；以及通過用機(jī)器學(xué)習(xí)算法對所述整字特征和所述部分筆劃特征進(jìn)行學(xué)習(xí)來生成文字的整字模板和/或部分筆劃模板，作為字典中的項(xiàng)目的裝置。
15. 如權(quán)利要求14所述的設(shè)備，其中所述整字特征和部分筆劃特征都是M維的，其中M是自然數(shù)，所述提取裝置包括將所述M維整字特征降到N維的裝置，其中N是自然數(shù)且M大于N。
16. 如權(quán)利要求14所述的設(shè)備，其中所述整字特征和所述部分筆劃特征是與筆劃數(shù)、連筆和筆順無關(guān)的特征。
17. —種手寫輸入方法，包括步驟提取文字的至少部分手寫筆跡的特征；以及計(jì)算所述特征與根據(jù)權(quán)利要求l的方法所創(chuàng)建的字典中的模板之間的距離；以及將距離較小的至少一個(gè)的模板所代表的文字作為識別結(jié)果。
18. 根據(jù)權(quán)利要求17所述的手寫輸入方法，其中所述特征是M維的，M是自然數(shù)，所述手寫輸入方法還包括將所述M維特征降到N 維特征，其中N是自然數(shù)且M大于N;以及將表示所述N維特征的N維特征向量分成多個(gè)段，其中逐段執(zhí)行所述計(jì)算步驟。
19. 如權(quán)利要求17所述的手寫輸入方法，其中所述特征是與筆劃數(shù)、連筆和筆順無關(guān)的特征。
20. 根據(jù)權(quán)利要求17所述的手寫輸入方法，還包括步驟在提取步驟之前，對所述至少部分手寫筆跡進(jìn)行等距重采樣，使得至少部分手寫筆跡的筆劃的采樣點(diǎn)之間的距離大體相等。
21. 根據(jù)權(quán)利要求17所述的手寫輸入方法，還包括步驟在提取步驟之前，將所述至少部分手寫筆跡的尺寸調(diào)整為預(yù)定的尺寸，使得所述至少部分手寫筆跡的質(zhì)心與預(yù)定尺寸的矩形的中心重合。
22. 根據(jù)權(quán)利要求17所述的手寫輸入方法，還包括步驟-在提取步驟之前，根據(jù)筆劃像素的投影的倒數(shù)計(jì)算筆劃分布密度，來動(dòng)態(tài)調(diào)整所述至少部分手寫筆跡的縮放比例。
23. 根據(jù)權(quán)利要求9所述的手寫輸入方法，其中所述與筆劃數(shù)、連筆和筆順無關(guān)的特征包括以下至少之一筆劃方向分布特征、網(wǎng)格筆劃特征和周邊方向特征。
24. 根據(jù)權(quán)利要求18所述的手寫輸入方法，還包括步驟將N維特征的每個(gè)元素量化為整數(shù)。
25. 根據(jù)權(quán)利要求18所述的手寫輸入方法，其中通過KL變換來將所述M維特征降到N維。
26. 根據(jù)權(quán)利要求17所述的手寫輸入方法，還包括步驟與所述至少部分手寫筆跡同步地顯示距離最小的識別結(jié)果。
27. —種手寫輸入設(shè)備，包括.-提取文字的至少部分手寫筆跡特征的裝置，以及計(jì)算所述特征與根據(jù)權(quán)利要求l的方法創(chuàng)建的字典中的模板之間的距離的裝置；以及將距離較小的至少一個(gè)的模板所代表的文字作為識別結(jié)果的裝置。
28. 如權(quán)利要求27所述的手寫輸入設(shè)備，其中所述特征是M維的， M是自然數(shù)，所述手寫輸入設(shè)備還包括將所述M維特征降到N維特征的裝置，其中N是自然數(shù)且M大于N;以及將表示所述N維特征的N維特征向量分成多個(gè)段的裝置，其中逐段執(zhí)行所述計(jì)算。
29. 如權(quán)利要求27所述的手寫輸入設(shè)備，其中所述特征是與筆劃數(shù)、連筆和筆順無關(guān)的特征。
30. 根據(jù)權(quán)利要求27所述的手寫輸入設(shè)備，還包括在提取特征之前，對所述至少部分手寫筆跡進(jìn)行等距重采樣，使得所述至少部分手寫筆跡的筆劃的采樣點(diǎn)之間的距離大體相等的裝置。
31. 根據(jù)權(quán)利要求27所述的手寫輸入設(shè)備，還包括-在提取特征之前，將所述至少部分手寫筆跡的尺寸調(diào)整為預(yù)定的尺寸，使得所述至少部分手寫筆跡的質(zhì)心與預(yù)定尺寸的矩形的中心重合的裝置。
32. 根據(jù)權(quán)利要求27所述的手寫輸入設(shè)備，還包括在提取特征之前，根據(jù)筆劃像素的投影的倒數(shù)計(jì)算筆劃分布密度，來動(dòng)態(tài)調(diào)整所述至少部分手寫樣本的縮放比例的裝置。
33. 根據(jù)權(quán)利要求29所述的手寫輸入設(shè)備，其中所述與筆劃數(shù)、連筆和筆順無關(guān)的特征包括以下至少之一筆劃方向分布特征、網(wǎng)格筆劃特征和周邊方向特征。
34. 根據(jù)權(quán)利要求28所述的手寫輸入設(shè)備，還包括將N維特征的每個(gè)元素量化為整數(shù)的裝置。
35. 根據(jù)權(quán)利要求28所述的手寫輸入設(shè)備，其中通過KL變換來將所述M維特征降到N維。
36. 根據(jù)權(quán)利要求27所述的手寫輸入設(shè)備，還包括與所述至少部分手寫筆跡同步地顯示距離最小的識別結(jié)果的裝
全文摘要
公開了一種制作字典的方法、手寫輸入方法和設(shè)備。該制作字典的方法能夠預(yù)測筆劃要輸入的文字，以便減輕使用者的負(fù)擔(dān)。該方法包括步驟提取文字的整字樣本的整字特征，和筆劃數(shù)大于預(yù)定值的文字的部分筆劃樣本的部分筆劃特征；以及通過用機(jī)器學(xué)習(xí)算法對所述整字特征和所述部分筆劃特征進(jìn)行學(xué)習(xí)來生成文字的整字模板和/或部分筆劃模板，作為字典中的項(xiàng)目。本系統(tǒng)具有結(jié)構(gòu)簡單、硬件要求低、識別速度快，識別率高等優(yōu)點(diǎn)，可在嵌入式系統(tǒng)等上實(shí)現(xiàn)。
文檔編號G06K9/72GK101354749SQ20071013019
公開日2009年1月28日申請日期2007年7月24日優(yōu)先權(quán)日2007年7月24日
發(fā)明者波吳, 吳亞棟, 利沈申請人:夏普株式會社

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：沈利;吳波;吳亞棟
技術(shù)所有人：夏普株式會社
我是此專利的發(fā)明人

上一篇：一種基于中央資源的并行總線背板的制作方法
上一篇：一種限制shell腳本并行執(zhí)行的方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

在線字典手寫輸入相關(guān)技術(shù)

手寫輸入新華字典相關(guān)技術(shù)

手寫輸入設(shè)備相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

字典制作方法、手寫輸入方法和設(shè)備的制作方法

字典制作方法、手寫輸入方法和設(shè)備的制作方法