專利名稱:一種漢字書(shū)寫(xiě)錄入方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)中文信息處理領(lǐng)域的計(jì)算機(jī)漢字編碼輸入技術(shù)。
計(jì)算機(jī)在人類當(dāng)今的社會(huì)生活中發(fā)揮著巨大的作用。計(jì)算機(jī)在中國(guó)的普及利用很大程度上取決于計(jì)算機(jī)對(duì)漢字信息的處理水平。其中包括漢字的輸入,輸出,漢字信息檢索,漢語(yǔ)的理解等等方面。計(jì)算機(jī)漢字輸入有三個(gè)主要方面,即計(jì)算機(jī)漢字鍵盤(pán)輸入,漢語(yǔ)語(yǔ)音輸入,聯(lián)機(jī)手寫(xiě)漢字識(shí)別輸入和光學(xué)漢字識(shí)別輸入。
漢字是表意文字,不同于西方拼音文字,漢字形體復(fù)雜,數(shù)量龐大,輸入計(jì)算機(jī)有很大難度。經(jīng)過(guò)多年的努力,已經(jīng)有了漢字編碼方案和輸入系統(tǒng)。漢字鍵盤(pán)輸入已經(jīng)成為可能。但是完全令人滿意的輸入方案還沒(méi)有研究出來(lái),要真正達(dá)到易學(xué),易用和高效的目標(biāo),還需要進(jìn)一步努力研究。
漢字具有音,形,義三個(gè)方面的屬性。所有輸入方案都是基于這些屬性的,根據(jù)所使用的特征,輸入方案可以分為音碼,形碼,以及音形碼等。各種方案都有長(zhǎng)處和短處。
漢字的發(fā)音特征比較簡(jiǎn)單,字多,但音不多,所以音碼的單字重碼很多。
漢字的字形特征很復(fù)雜,從不同角度可以有不同理解,導(dǎo)致了眾多的形碼方案,字形多,特征多,碼多,重碼少,難學(xué),難記。
下面,以幾種常見(jiàn)的漢字編碼方案為例,比較具體地進(jìn)行性能分析和比較。
音碼輸入方法,使用漢字的發(fā)音特征來(lái)進(jìn)行編碼;易于掌握,但重碼高,雖然可以通過(guò)智能手段使重碼率有所降低,但系統(tǒng)開(kāi)銷較大,效果有限,很難盲打,速度較慢;對(duì)漢語(yǔ)拼音的要求較高,有地域和年齡層的限制;在大字符集內(nèi)的使用有限制。
筆畫(huà)編碼法,將筆畫(huà)按不同的形態(tài)分為若干類,依筆畫(huà)書(shū)寫(xiě)順序,把漢字一筆一畫(huà)地編碼輸入;易于掌握,會(huì)寫(xiě)漢字就會(huì)輸入,但是編碼效率很低,重碼多,碼長(zhǎng)長(zhǎng)。
五筆字型編碼方案,是字根類編碼,按照漢字字根的使用頻度,將字根挑選歸類,分配鍵位,以″字根拼形″完成整字輸入;特點(diǎn)是字根鍵位熟記以后,輸入速度較快,存在的問(wèn)題是1.字根較多,記憶負(fù)擔(dān)大;2.200多個(gè)一級(jí)字根的選取以統(tǒng)計(jì)為基礎(chǔ),字根鍵位的分配依據(jù)″相容性原理″確定,所謂相容性有一定統(tǒng)計(jì)范圍,在字符集GB2312-80和ISO10646中的統(tǒng)計(jì)結(jié)果肯定不同,也就是說(shuō),在GB中相容的字根,在ISO中可能就不相容了,其結(jié)果會(huì)導(dǎo)致重碼率的變化;3.二級(jí)字根和非字根單體字的輸入要拆分成一級(jí)字根,拆分過(guò)程的規(guī)律性和規(guī)范性不強(qiáng),拆分二義性大;4.末筆字型識(shí)別碼難于掌握和使用。
聯(lián)機(jī)手寫(xiě)漢字識(shí)別系統(tǒng)已經(jīng)有多種商品系統(tǒng)被使用,用戶不需要專門訓(xùn)練就可以直接使用,易于掌握,缺點(diǎn)是速度比較慢,識(shí)別正確率不穩(wěn)定專利申請(qǐng)94117506.5公開(kāi)了一種方法,將鍵盤(pán)打字和手寫(xiě)錄入有機(jī)地結(jié)合在一起,主要特點(diǎn)是把紙張上字格巧妙地引入輸入設(shè)備中,具有易學(xué)和快速的特點(diǎn)。
本申請(qǐng)是對(duì)上述申請(qǐng)的補(bǔ)充和細(xì)化,更深入地公開(kāi)方法的適應(yīng)性。
本發(fā)明的目的在于解決漢字書(shū)寫(xiě)錄入過(guò)程中存在的錄入速度慢、識(shí)別率不穩(wěn)定的問(wèn)題,同時(shí)也解決鍵盤(pán)打字與手寫(xiě)錄入互相脫節(jié)的問(wèn)題,使得打字和寫(xiě)字得以統(tǒng)一。
為實(shí)現(xiàn)這個(gè)目標(biāo),本申請(qǐng)采用如下策略漢字是象形文字,可以進(jìn)行拆分,整字可以拆分為字根、字根可以拆分為筆畫(huà),字根與字根、筆畫(huà)與筆畫(huà)之間存在相對(duì)位置關(guān)系,這些位置關(guān)系在目前沒(méi)有得到充分使用,原因之一是因?yàn)檫@些位置關(guān)系具有一些不確定性。
為了充分利用漢字組成部件具有的二位平面特征,本發(fā)明把書(shū)寫(xiě)錄入面進(jìn)行若干級(jí)劃分,形成書(shū)寫(xiě)分區(qū),把漢字組件的二維特征通過(guò)分區(qū)的位置關(guān)系和書(shū)寫(xiě)順序表現(xiàn)出來(lái)。在這個(gè)基礎(chǔ)上,建立使用者必須遵循的書(shū)寫(xiě)規(guī)則,處理設(shè)備使用的識(shí)別規(guī)則和識(shí)別知識(shí)庫(kù)的組成規(guī)則。
本方法的優(yōu)點(diǎn)和效果是1.本方法建立在人書(shū)寫(xiě)習(xí)慣基礎(chǔ)之上,容易掌握,具有易學(xué)性;2.按字根頻度設(shè)定字根簡(jiǎn)碼,按照字頻度設(shè)定字簡(jiǎn)碼,書(shū)寫(xiě)時(shí)不需要把所有筆畫(huà)都寫(xiě)出來(lái),錄入速度快;3.由于書(shū)寫(xiě)的筆畫(huà)個(gè)數(shù)少,減少了識(shí)別運(yùn)算量,減少了識(shí)別錯(cuò)誤機(jī)會(huì),相應(yīng)地識(shí)別率得到提高;4.由于符合漢字書(shū)寫(xiě)習(xí)慣,保證了規(guī)范性;5.本方法不僅適合GB2312字符集合,也適用于CJK大字符集合中所有漢字的輸入,具有完備性;6.本方法使得漢字鍵盤(pán)輸入和書(shū)寫(xiě)輸入得以統(tǒng)一。
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明做詳細(xì)介紹。
本發(fā)明的實(shí)施包括以下幾個(gè)方面1.歸納漢字筆畫(huà)類型,人在書(shū)寫(xiě)面板上書(shū)寫(xiě)的各種筆畫(huà)將被處理器識(shí)別為這些類型;2.歸納漢字筆畫(huà)之間的位置關(guān)系;3.歸納字根和單體漢字;4.歸納字根之間的位置關(guān)系以及漢字的結(jié)構(gòu)類型;5.確定字根分區(qū),建立不同漢字結(jié)構(gòu)中字根書(shū)寫(xiě)順序和字根分區(qū)順序的對(duì)應(yīng)關(guān)系;6.確定筆畫(huà)分區(qū),建立筆畫(huà)位置和筆畫(huà)分區(qū)之間的對(duì)應(yīng)關(guān)系;7.建立人書(shū)寫(xiě)筆畫(huà)來(lái)錄入字根和單體字的規(guī)則,并建立筆畫(huà)組成字根和單體字的碼表;8.建立人書(shū)寫(xiě)字根來(lái)錄入整字的規(guī)則,并建立字根組合整字的碼表;
書(shū)寫(xiě)分區(qū)可以是陣列型和非陣列型兩種。
陣列型分區(qū)由n×m分區(qū)單元組成,n是行數(shù),m是列數(shù),n和m是大于等于1的任意整數(shù),但是不同時(shí)為1,選取不同的n和m值構(gòu)成行列個(gè)數(shù)分配表(圖1)。
為了確定每個(gè)分區(qū)單元的位置,適用英文字母表示行號(hào),使用數(shù)字表示列號(hào),行號(hào)和列號(hào)的組合標(biāo)記出一個(gè)分區(qū)單元(圖2)。
非陣列型書(shū)寫(xiě)分區(qū)是從陣列型分區(qū)中剔除若干分區(qū)單元后形成的。
書(shū)寫(xiě)分區(qū)舉例書(shū)寫(xiě)分區(qū)可以是5×5,4×4,3×3,2×2單元陣列(圖3);書(shū)寫(xiě)分區(qū)也可以是1×2,1×3,1×4單元陣列(圖4);書(shū)寫(xiě)分區(qū)也可以是2×1,3×1,4×1(圖5);非陣列型分區(qū)單元示例(圖6)。
書(shū)寫(xiě)錄入漢字時(shí),每個(gè)字根在一個(gè)字根分區(qū)單元中完成。
根據(jù)漢字包含字根的個(gè)數(shù)分為單體字、二體字、三體字等,漢字的結(jié)構(gòu)分為上下結(jié)構(gòu)、左右結(jié)構(gòu)、包圍結(jié)構(gòu)等,根據(jù)漢字結(jié)構(gòu)、字根個(gè)數(shù)、字根順序確定每個(gè)字根對(duì)應(yīng)的分區(qū)單元。
字根分區(qū)單元分配示例(1)5×5分區(qū)單元單體字在任意一個(gè)單元中完成錄入;二體字左右結(jié)構(gòu)左字根在A1單元,右字根在A2單元;上下結(jié)構(gòu)上字根在A2單元,下字根在B2單元;內(nèi)外包圍外字根在A1單元,內(nèi)字根在B2單元;三體字“湘”字型每個(gè)字根依次在A1、A2、A3單元;“案”字型每個(gè)字根依次在A2、B2、C2單元;“夢(mèng)”字型每個(gè)字根依次在A1、A2、B1單元;“森”字型每個(gè)字根依次在A2、B1、B2單元;“麻”字型每個(gè)字根依次在A1、B1、B2單元;多體字根據(jù)字型結(jié)構(gòu)使用上述同樣的方法安排字根單元。
另外,在特定分區(qū)書(shū)寫(xiě)特定字根,系統(tǒng)可以檢索、提示所有在該位置是該字根的漢字集合;(2)1×2分區(qū)單元單體字在任意一個(gè)單元中完成錄入;二體字左右結(jié)構(gòu)左字根在A1單元,右字根在A2單元;上下結(jié)構(gòu)上字根在A2單元,下字根在A1單元;內(nèi)外包圍外字根在A2單元,內(nèi)字根在A1單元;三體字“湘”字型每個(gè)字根依次在A1、A2、A1單元;“案”字型每個(gè)字根依次在A2、A1、A2單元;“夢(mèng)”字型每個(gè)字根依次在A1、A2、A1單元;“森”字型每個(gè)字根依次在A2、A1、A2單元;
“麻”字型每個(gè)字根依次在A2、A1、A2單元;多體字根據(jù)字型結(jié)構(gòu)使用上述同樣的方法安排字根單元。
對(duì)于每一個(gè)字根分區(qū)單元可以進(jìn)一步細(xì)劃分,以對(duì)應(yīng)漢字筆畫(huà)之間的上下左右位置關(guān)系。
字根分區(qū)單元?jiǎng)澐质纠?×4字根分區(qū)中每個(gè)字根單元細(xì)分為3×1陣列(圖7);1×2字根分區(qū)中每個(gè)字根單元細(xì)分為3×1陣列(圖8)。
根據(jù)漢字筆畫(huà)在字根中所處的位置分為上位、中位、下為筆畫(huà),書(shū)寫(xiě)時(shí)分別從上中下三種筆畫(huà)分區(qū)起筆書(shū)寫(xiě)。
例如“三”字的三個(gè)筆畫(huà)分別在上、中、下三個(gè)筆畫(huà)分區(qū)中起筆書(shū)寫(xiě)完成。
按照筆畫(huà)的走勢(shì)對(duì)筆畫(huà)進(jìn)行分類。
筆畫(huà)分類舉例(1)將筆畫(huà)分為橫、豎、撇、捺、折五類;(2)將筆畫(huà)分為橫、豎、撇、捺、橫折、豎折、撇折、捺折八類。
按照漢字的頻度和字根的頻度安排簡(jiǎn)碼錄入,頻度越高的漢字和字根所需要的筆畫(huà)個(gè)數(shù)越少。
每當(dāng)書(shū)寫(xiě)一個(gè)筆畫(huà)后,識(shí)別系統(tǒng)向用戶輸出當(dāng)前識(shí)別結(jié)果,提示引導(dǎo)用戶決定后面的操作。
專利申請(qǐng)95105980.7公開(kāi)了一種智能引導(dǎo)方法。
圖1.陣列型分區(qū)行列個(gè)數(shù)分配表圖2.分區(qū)單元位置標(biāo)注方法圖3.5×5,4×4,3×3,2×2分區(qū)圖示圖4.1×2,1×3,1×4分區(qū)圖示圖5.2×1,3×1分區(qū)圖示圖6.非陣列分區(qū)圖示圖7.4×4字根分區(qū),每個(gè)單元再劃分為3×1字根分區(qū)圖8.1×2字根分區(qū),每個(gè)單元再劃分為3×1字根分區(qū)圖9.字根分區(qū)和字根位置標(biāo)識(shí)符號(hào)分區(qū)
權(quán)利要求
1.一種漢字書(shū)寫(xiě)錄入方法,把游標(biāo)軌跡組合成筆畫(huà),分析筆畫(huà)類型,多個(gè)筆畫(huà)形成筆畫(huà)特征碼,將這個(gè)特征碼和預(yù)先存儲(chǔ)在識(shí)別知識(shí)庫(kù)中的模板進(jìn)行比較,找到匹配的模板并且輸出模板對(duì)應(yīng)的漢字,完成識(shí)別錄入過(guò)程,其特征是歸納漢字的字型結(jié)構(gòu)和漢字構(gòu)件的位置關(guān)系,同時(shí)對(duì)書(shū)寫(xiě)區(qū)域進(jìn)行分割,把漢字構(gòu)件的位置關(guān)系明確地由書(shū)寫(xiě)分區(qū)的位置和交替來(lái)體現(xiàn),由此建立錄入人員應(yīng)該遵循的書(shū)寫(xiě)規(guī)則、處理設(shè)備使用的識(shí)別規(guī)則和識(shí)別知識(shí)庫(kù)的組成規(guī)則。
2.按照權(quán)利要求1所述的方法,其特征是所述的書(shū)寫(xiě)分區(qū)是陣列布局,即n×m網(wǎng)格布局,其中n是行數(shù),m是列數(shù),n和m是大于或等于1的任意整數(shù),但是n和m不同時(shí)為1;
3.按照權(quán)利要求1所述的方法,其特征是所述的書(shū)寫(xiě)分區(qū)是非陣列布局,即從權(quán)利要求2中所述的陣列布局網(wǎng)格中剔除若干網(wǎng)格單元;
4.按照權(quán)利要求1所述的方法,其特征是將書(shū)寫(xiě)區(qū)域按照權(quán)利要求2或3述的方法分割為字根分區(qū),字根的書(shū)寫(xiě)在字根分區(qū)單元中完成,一個(gè)字根書(shū)寫(xiě)完成,需要書(shū)寫(xiě)下一個(gè)字根時(shí),需要切換至另外一個(gè)字根分區(qū),字型結(jié)構(gòu)、字根位置、字根書(shū)寫(xiě)次序等決定每一個(gè)具體字根在哪一個(gè)字根分區(qū)中書(shū)寫(xiě);
5.按照權(quán)利要求4所述的方法,其特征是將所述的字根分區(qū)單元按照權(quán)利要求2或3所述的方法進(jìn)一步細(xì)分為子分區(qū),將漢字筆畫(huà)之間的上下左右位置關(guān)系和子分區(qū)之間的上下左右位置關(guān)系相互對(duì)應(yīng),根據(jù)每一個(gè)筆畫(huà)的位置在相應(yīng)的子分區(qū)中完成書(shū)寫(xiě);
6.按照權(quán)利要求1所述的方法,其特征是把書(shū)寫(xiě)區(qū)域劃分為一個(gè)或若干個(gè)字根分區(qū)單元,同時(shí)劃分出若干字根位置提示單元,在書(shū)寫(xiě)一個(gè)字根時(shí),把書(shū)寫(xiě)游標(biāo)移動(dòng)到相應(yīng)的字根位置提示區(qū),為識(shí)別系統(tǒng)提供字根位置信息;
7.按照權(quán)利要求1所述的方法,其特征是按照字根的頻度分配簡(jiǎn)碼,最高頻度的字根通過(guò)書(shū)寫(xiě)一個(gè)筆畫(huà)完成錄入,次高頻度的字根通過(guò)書(shū)寫(xiě)兩個(gè)筆畫(huà)完成錄入,頻度越低,需要的筆畫(huà)越多;
8.按照權(quán)利要求1所述的方法,其特征是在特定分區(qū)書(shū)寫(xiě)特定字根,系統(tǒng)可以檢索、提示所有在該位置是該字根的漢字集合;
9.按照權(quán)利要求1所述的方法制造的漢字書(shū)寫(xiě)或書(shū)寫(xiě)模擬錄入設(shè)備,由如下組件構(gòu)成點(diǎn)設(shè)備或鍵設(shè)備點(diǎn)設(shè)備通過(guò)一組點(diǎn)坐標(biāo)組合一個(gè)筆畫(huà),鍵設(shè)備通過(guò)把各種筆畫(huà)定義在不同鍵位上,敲擊鍵模擬一個(gè)筆畫(huà)的書(shū)寫(xiě)錄入;存儲(chǔ)設(shè)備存儲(chǔ)處理程序和識(shí)別知識(shí)庫(kù)以及其它臨時(shí)數(shù)據(jù);處理設(shè)備將采集的數(shù)據(jù)進(jìn)行運(yùn)算分析,與識(shí)別知識(shí)庫(kù)中的數(shù)據(jù)相互比較,輸出匹配的結(jié)果。
全文摘要
一種漢字書(shū)寫(xiě)錄入的方法和設(shè)備,通過(guò)歸納分析漢字的結(jié)構(gòu)特點(diǎn)和漢字部件的位置關(guān)系,同時(shí)對(duì)書(shū)寫(xiě)區(qū)域進(jìn)行分割,根據(jù)結(jié)構(gòu)和部件的位置確定應(yīng)該書(shū)寫(xiě)錄入的分區(qū),根據(jù)漢字頻度和字根頻度進(jìn)行筆畫(huà)取舍和簡(jiǎn)碼設(shè)定,從而可以書(shū)寫(xiě)全部或只需書(shū)寫(xiě)個(gè)別筆畫(huà)就可以完成整字錄入,具有易學(xué)、快速、規(guī)范、完備的優(yōu)點(diǎn)。
文檔編號(hào)G06F3/023GK1218214SQ9712168
公開(kāi)日1999年6月2日 申請(qǐng)日期1997年11月26日 優(yōu)先權(quán)日1997年11月26日
發(fā)明者林兵 申請(qǐng)人:林兵