專利名稱:漢字筆畫字編碼方法
技術(shù)領(lǐng)域:
本發(fā)明屬于IT領(lǐng)域,它提供一種漢字編碼方法。隨著字符集的不斷擴(kuò)展,目前國(guó) 際標(biāo)準(zhǔn)字符集漢字總數(shù)已達(dá)七萬(wàn)多個(gè),其中絕大多數(shù)漢字輸入法,輸入這七萬(wàn)多字都比較 困難。本方法將復(fù)雜漢字由組成該字的部件作為編碼。筆畫字編碼的主要特點(diǎn)是①使用 漢字編碼。復(fù)雜漢字由簡(jiǎn)單漢字編碼;②編碼簡(jiǎn)單。不用了解漢字字根、部首、筆畫數(shù)等編 碼,認(rèn)識(shí)常用漢字即會(huì)編碼;③多種組合編碼。編碼可以有很多種,不唯一;④用戶自行編 碼。編碼由用戶按照最適合自己的方式自行定義。筆畫字主要用于漢字輸入,特別適用于生僻漢字的輸入,也可以用于漢字排重和 漢字部件查找。
背景技術(shù):
通用鍵盤上的26個(gè)鍵位對(duì)應(yīng)著英文26個(gè)字母,對(duì)英文不存在輸入法之說(shuō)。而以 象形為基礎(chǔ)的漢字具有特殊性,數(shù)萬(wàn)個(gè)漢字無(wú)法直接與僅104個(gè)鍵位的鍵盤一一對(duì)應(yīng),因 此為了用鍵盤向電腦中輸入漢字,我們必須將漢字拆成更小的部件,并將這些部件與鍵盤 上的鍵產(chǎn)生某種聯(lián)系,才能使我們通過(guò)鍵盤按照某種規(guī)律輸入漢字,這就是漢字編碼。目前 漢字的編碼都是由英文字母組成。目前,漢字輸入方法主要有兩大類音碼和形碼。音碼需要輸入人員正確了解漢字 的發(fā)音,對(duì)沒(méi)有發(fā)音的漢字或不知發(fā)音的漢字則無(wú)法輸入,而且同音漢字很多,所以重碼也 很多,不適合輸入生僻字;形碼需要輸入人員掌握拆分規(guī)則,要有一個(gè)學(xué)習(xí)掌握的過(guò)程。筆畫字編碼主要是用漢字編碼,不同于以往的用字母編碼。
發(fā)明內(nèi)容
我們知道,漢字是可以拆分的,一個(gè)漢字可以被拆分為多個(gè)漢字或筆畫,本發(fā)明基 于這個(gè)原理,允許用戶按照最適合自己的方式自行定義漢字編碼,漢字的編碼可以由漢字 組成。本發(fā)明為漢字編碼的一種方法,包括筆畫字編碼和容錯(cuò)方法。一、筆畫字編碼漢字筆畫字編碼是漢字和筆畫的組合,只要漢字和筆畫順序符合漢字書寫規(guī)范即 可。例1 漢字“鎮(zhèn)”(mito)的筆畫字編碼。根據(jù)筆畫字編碼規(guī)則,“鎮(zhèn)”的編碼有多種1) “靦”的編碼可以是“面冥”,因?yàn)椤懊庇伞懊妗焙汀摆ぁ苯M成,正確的書寫順序是 “面冥”,示意如圖2。2) “_”的編碼可以是“面"日六”,因?yàn)椤奥殹庇伞懊妗薄ⅰ??!?、“日”、“六”組成,正
確的書寫順序是“面"日六”,示意如圖3。3) “靦”的編碼可以是“面45日六”,因?yàn)椤谤i”由“面”、“45”、“日”、“六”組成,正確的書寫順序是“面45日六”,其中“45”是“"”的筆畫,示意如圖4。4) “_”的編碼可以是“1325221114525114134”,因?yàn)?“ 1325221114525114134” 是 “靦”的全筆畫,示意如圖5。當(dāng)然,“靦”還有很多其它的編碼方法,這里就不一一列舉了。“面冥”是“靦”的最佳編碼,但當(dāng)不會(huì)輸入“冥”時(shí),可以用“面"日六”編碼,若不 會(huì)輸入“"”,可以用“面45日六”。二、容錯(cuò)方法1.允許漢字編碼不全。本方法允許漢字編碼不全,也就是漢字的編碼不是漢字所有部件的順序排列,主 要用于漢字部件查找和漢字的快速輸入。例2 漢字“勳”(bM)的筆畫字部分編碼。根據(jù)筆畫字容錯(cuò)規(guī)則,“勧”的部分編碼有多種1) “動(dòng)”的部分編碼可以是“能”,因?yàn)椤澳堋笔恰皠堋钡墓P畫字編碼的一部分,示意 如圖6。筆畫字部分編碼重碼較多,此示例主要展示部件查找,它給出的是UniCOde4. 0標(biāo) 準(zhǔn)所有70195個(gè)漢字中包含部件“能”的所有漢字。2) “勡”的部分編碼可以是“能力”,因?yàn)椤澳堋焙汀傲Α笔恰皠?dòng)”的部分編碼,示意如 圖7。筆畫字部分編碼提高輸入速度,就“勧”而言,若不會(huì)輸入“ M ”,直接輸入“能力,,即可。2.允許漢字編碼位置對(duì)調(diào)。本方法允許漢字編碼位置對(duì)調(diào),對(duì)調(diào)的編碼是漢字,而且只能相鄰兩個(gè)編碼對(duì)調(diào)。 主要解決書寫順序把握不準(zhǔn)。例3 漢字“樂(lè)”的筆畫字編碼位置對(duì)調(diào)。要輸入“樂(lè)”,正確的輸入應(yīng)該是“白么么木”,但用戶可能不知道正確書寫順序,輸 入成了“么白么木”,若不允許位置對(duì)調(diào),結(jié)果則找不到該字,允許位置對(duì)調(diào)后,則可找到該 字,示意如圖8。3.允許漢字的筆畫出現(xiàn)一些錯(cuò)誤。本方法允許輸入的漢字筆畫出現(xiàn)一些錯(cuò)誤。主要解決新舊筆形、輸入錯(cuò)誤、快速輸 入。例4 漢字“娛”的筆畫字編碼筆畫容錯(cuò)。要輸入“娛”,可只輸入“女”和“吳”,“吳”和“娛”中的“吳”筆型不同,用戶不會(huì)輸 入“吳”,可用“吳”代替,示意如圖9。該示例解決了新舊筆形問(wèn)題,同時(shí)也提高了輸入速度??刂乒P畫錯(cuò)誤的有兩個(gè)參數(shù),一個(gè)是筆畫出錯(cuò)數(shù);另一個(gè)是筆畫數(shù)限制。筆畫出錯(cuò) 數(shù)表示輸入漢字的筆畫字編碼允許有幾筆出錯(cuò),但它還要受到筆畫數(shù)限制參數(shù)的制約,筆 畫數(shù)限制表示的是漢字筆畫數(shù)至少為多少筆的時(shí)候,允許一筆出錯(cuò)。如,筆畫數(shù)限制為“7”, 則表示漢字總筆畫數(shù)大于等于“7”,并且小于“14”(2乘以7)時(shí),最多允許一筆出錯(cuò),即使
4筆畫出錯(cuò)數(shù)大于“1”;漢字筆畫數(shù)大于等于“14”時(shí),并且小于“21”(3乘以7)時(shí),最多允許 兩筆出錯(cuò);……;以此類推。筆畫數(shù)限制為“0”時(shí),表示沒(méi)有筆畫數(shù)限制。
圖1漢字筆畫字編碼方法功能圖。
圖2’的編碼是“面冥”。
圖3“螟,’的編碼是“面η日六”。
圖4“顕,’的編碼是“面45日六”。
圖5“顯,’的編碼是 “1325221114525114134
圖6“動(dòng)’的部分編碼是“能”。
圖7“勳’的部分編碼是“能力”。
圖8 “樂(lè),的編碼對(duì)調(diào)。
圖9“娛’的筆畫容錯(cuò)。
權(quán)利要求
中文漢字輸入的一種方法,包括筆畫字編碼和容錯(cuò)方法。
2.如權(quán)利要求1所述的筆畫字編碼,包括 筆畫字編碼規(guī)則1)漢字筆畫字編碼是漢字和筆畫混合編碼;2)漢字筆畫字編碼可以是漢字的組合、筆畫與漢字的組合或全筆畫;3)若筆畫字編碼中有漢字部件,將部件轉(zhuǎn)換成筆畫后得到的是漢字全筆畫;4)全筆畫符合漢字書寫規(guī)范;5)筆畫字由用戶自行編碼。一個(gè)漢字的筆畫字編碼最好為兩個(gè)部件;其次為多個(gè)部最差為筆畫與部件的組合,盡量不要使用全筆畫。
3.如權(quán)利要求1所述的容錯(cuò)方法,包括1)允許漢字編碼不全;2)允許漢字編碼位置對(duì)調(diào);3)允許漢字的筆畫出現(xiàn)部分錯(cuò)誤。
全文摘要
本發(fā)明提供一種漢字筆畫字編碼方法。隨著字符集的不斷擴(kuò)展,目前國(guó)際標(biāo)準(zhǔn)字符集漢字總數(shù)已達(dá)七萬(wàn)多個(gè),其中絕大多數(shù)漢字輸入法,輸入這七萬(wàn)多字都比較困難。本方法將復(fù)雜漢字由組成該字的部件作為編碼。筆畫字編碼的主要特點(diǎn)是①使用漢字編碼。復(fù)雜漢字由簡(jiǎn)單漢字編碼;②編碼簡(jiǎn)單。不用了解漢字字根、部首、筆畫數(shù)等編碼,認(rèn)識(shí)常用漢字即會(huì)編碼;③多種組合編碼。編碼可以有很多種,不唯一;④用戶自行編碼。編碼由用戶按照最適合自己的方式自行定義。筆畫字主要用于漢字輸入,特別適用于生僻漢字的輸入,也可以用于漢字排重和漢字部件查找。
文檔編號(hào)G06F3/023GK101916139SQ20101026897
公開(kāi)日2010年12月15日 申請(qǐng)日期2010年9月1日 優(yōu)先權(quán)日2010年9月1日
發(fā)明者朱人杰, 蔣賢春, 藍(lán)德康, 謝術(shù)清, 鄭瓏, 郭勝霞 申請(qǐng)人:北京中易中標(biāo)電子信息技術(shù)有限公司