專利名稱:漢字規(guī)范碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種漢字編碼方法。
用標(biāo)準(zhǔn)西文鍵盤輸入漢字是目前最通用的現(xiàn)代信息處理技術(shù),而如何實現(xiàn)高效、易學(xué)與規(guī)范的統(tǒng)一,則是當(dāng)前漢字編碼方法的最大課題。
以《規(guī)范碼》(H2.0版)為代表,其高效性表現(xiàn)為平均擊鍵次數(shù)少(字1-4碼,詞2-4碼),重碼率低(不用簡碼時,3755個一級漢字中有81個要選擇),字詞輸入分明,通用詞與專用詞分開(字母u、i、v分別為雙字詞、多字詞和專用詞的首字符);其易學(xué)性表現(xiàn)為記憶量少,內(nèi)容簡單;其規(guī)范性表現(xiàn)為本碼立足于漢字三大檢字法拼音、部首和筆畫,需要用戶重新學(xué)習(xí)的內(nèi)容極少。
本發(fā)明與現(xiàn)有技術(shù)相區(qū)別的主要特征有兩點一、將使用上規(guī)定了限制條件的部首定義為字形,將五筆形的兩兩組合定義為筆序,以使兩者可以在數(shù)量很少的情況下結(jié)合使用;二、依據(jù)筆順和部首的特點定義字類部位和取碼公式,以使取碼盡可能在字的外圍,加快識別速度。
《規(guī)范碼》定義字形是有兩個使用條件的部首;第一,筆形相同(如“樂”在部首中屬“木”,在本碼中含字形“小”);第二、筆順相連(如“回”在部首中屬“囗”在本碼中含字形“口”),并定義字形的代碼為形碼?!兑?guī)范碼》還定義五筆形(對五筆形的規(guī)定取自《辭?!吩~語分冊)的兩兩組合為筆序,其代碼稱為序碼。注意這里是“五筆形的兩兩組合”,而不是“五筆形的兩兩排列”,所以對筆順顛倒的兩筆形取相同的代碼,如[一丨]與[丨一]都以“i”為代碼?!兑?guī)范碼》的《形序碼對應(yīng)表》如下
《規(guī)范碼》按漢字筆順、部首特點定義字類部位(1)若一個字含有形如
的結(jié)構(gòu),且該結(jié)構(gòu)滿足條件1)、Ⅰ部至少兩筆畫,2)、Ⅰ部每筆畫順序先于Ⅱ部的,則稱這類字為分體字(左、中、右三部分可分離的字,左部屬于Ⅰ部,其余屬于Ⅱ部),分體字包含左右體字(形如
)和上下體字(形如
);(2)漢字中的非分體字稱為合體字
,其中Ⅰ部為首碼所對應(yīng)的筆畫,Ⅱ部為其余筆畫。
《規(guī)范碼》規(guī)定取碼法則1、優(yōu)先律-取碼時可用字形則不用筆序,可用筆畫多的則不用筆畫少的;2、完整律-取碼時不拆散字形。
一、《規(guī)范碼》(H1.0版),還規(guī)定取碼法則模糊律-不足兩筆畫的不取碼,規(guī)定字的取碼公式音碼+首碼+前后碼(在Ⅱ部取碼),這里,音碼為漢語拼音的第一個字母;規(guī)定詞的取碼公式1、雙字詞-u+首碼(第一個字)+首尾碼(第二個字),2、多字詞-i+首碼(前三個字);3、自定義詞-v+……,此外,規(guī)定特殊碼1、代音碼-不會讀音的字可用O字母代替音碼;2、多音碼;3、容錯碼;4、簡碼(音碼、音碼+首碼或音碼+首尾碼)。
例如叔-s(音)+i(丨一)+u(又)=siu撤-c(音)+t(扌)+a(丶一)+u(攵)=ctau督-d(音)+i(丨一)+u(又)+m(目)=dium刃-r(音)+l(刀)=rl查-c(音)+f(木)+r(日)=cfr但是-u+q(亻)+r(日)+q(人)=uqrq科學(xué)技術(shù)-i+h(禾)+v(
)+t(扌)=ihvt二、《規(guī)范碼》(H2.0版),規(guī)定單筆畫五筆形橫、豎、撇、點、折的序碼分別為h、i、p、d、z,并只規(guī)定取碼法則“優(yōu)先律”和“完整律”。其余與本碼H1.0版相同。
例如叔-s(音)+i(丨一)+u(又)=siu撤-c(音)+t(扌)+a(丶一)+u(攵)=ctau督-d(音)+i(丨一)+u(又)+m(目)=dium
刃-r(音)+l(刀)+d(丶)=rld查-c(音)+f(木)+r(日)+h(一)=cfrh但是-u+q(亻)+r(日)+q(人)=uqrq科學(xué)技術(shù)-i+h(禾)+v(
)+t(扌)=ihvt三、《規(guī)范碼》(H3.0版),將《規(guī)范碼》(H2.0)中左右體字與詞的第四碼舍去,并將其余字的取碼公式規(guī)定為音碼+首尾碼。該版相當(dāng)于本碼H2.0版中的簡碼,碼長至多為3。
例如叔-s(音)+i(丨一)+u(又)=siu撤-c(音)+t(扌)+a(丶一)=cta督-d(音)+i(丨一)m(目)=dim刃-r(音)+l(刀)+d(丶)=rld查-c(音)+f(木)+h(一)=cfh但是-u+q(亻)+r(日)=uqr科學(xué)技術(shù)-i+h(禾)+v(
)=ihv四、《規(guī)范碼》(H4.0版),規(guī)定左右體字中的右體字為右部至多含兩筆畫或只有一個字形;左體字為左右體中的其余字,并規(guī)定取碼公式為1、右體字-前后碼(在Ⅰ部取碼)+尾碼;2、其余字-首碼+前后碼(在Ⅱ部取碼);3、雙字詞-首碼(前兩個字)+n,4、多字詞-首碼(前兩個字)+m;5、自定義詞-…+b。該版相當(dāng)于本碼H2.0版對音碼的省略,碼長至多為3。
例如叔-i(
一)+x(小)+u(又)=ixu撤-t(扌)+a(丶一)+u(攵)=tau督-i(丨一)+u(又)+m(目)=ium刃-l(刀)+d(丶)=ld查-f(木)+r(日)+h(一)=frh但是-q(亻)+r(日)+n=qrn科學(xué)技術(shù)-h(禾)+v(
)+m=hvm《規(guī)范碼》(H4.1版)與H4.0版的區(qū)別僅在于詞的取碼公式雙字詞-前兩個字的前兩碼;三字詞-首碼(前兩個字)+前兩碼(第三個字);多字詞-首碼(前三個字)+首碼(最后一個字)。不足四碼的用尾碼補足。即字用3碼(非常用字,分體字加尾碼n,合體字加尾碼m),詞用4碼。
例如叔-i(丨一)+x(小)+u(又)=ixu撤-t(扌)+a(丶一)+u(攵)=tau督-i(丨一)+u(又)+m(目)=ium刃-l(刀)+d(丶)=ld查-f(木)+r(日)+h(一)=frh但是-q(亻)+r(日)+r(日)+i(一丨)=qrri江蘇省-d(丶丶)+c(艸)+x(少)+m(目)=dcxm
心有靈犀一點通-j(心)+o(一丿)+w(
一)+a(
丶)=j(luò)owa(附注本碼H1.0后版本的《形序碼對應(yīng)表》略有變動。比如,因為有“模糊律”,在H1.0版中,“廣”的形碼與“廠”相同,故對應(yīng)表中不必列出,但其余版本中由于沒有“模糊律”,所以就將“廣”也列為字形)。
權(quán)利要求
1.《規(guī)范碼》由鍵盤輸入漢字,其特征在于把規(guī)定了兩個必要條件(一、筆形相同;二、筆順相連)的部首定義為字形,其代碼稱為形碼;把五筆形的兩兩組合定義為筆序,其代碼稱為序碼,字形、筆序與鍵盤字母主要以音似或形似的方式相對應(yīng)
2.《規(guī)范碼》由字類部位定取碼公式,其特征在于首先按漢字的筆順、部首特點定義出字類部位(1)、若一個漢字含有形如
的結(jié)構(gòu),且該結(jié)構(gòu)滿足條件1)、Ⅰ部至少兩筆畫,2)、Ⅰ部每筆畫順序先于Ⅱ部的,則稱這類字為分體字(左、中、右三部分可分離的字,左部屬于Ⅰ部,其余屬于Ⅱ部),分體字包含左右體字(形如
)和上下體字(形如
);(2)漢字中的非分體字稱為合體字
,其中Ⅰ部為首碼所對應(yīng)的筆畫,Ⅱ部為其余筆畫,然后給出取碼公式音碼+首碼+前后碼(在Ⅱ部取碼),這里,音碼為漢語拼音的第一個字母。
3.按權(quán)利要求1、2所述的《規(guī)范碼》,其特征在于規(guī)定取碼法則(1)優(yōu)先律-取碼時可用字形則不用筆序,可用筆畫多的則不用筆畫少的;(2)完整律-取碼時不拆散字形。
4.按權(quán)利要求1、2、3所述的《規(guī)范碼》(H1.0版),其特征在于規(guī)定取碼法則模糊律-不足兩筆畫的不取碼,并規(guī)定詞的取碼公式(1)雙字詞-u+首碼(第一個字)+首尾碼(第二個字);(2)多字詞-i+首碼(前三個字);(3)自定義詞-v+……,此外,還規(guī)定特殊碼(1)代音碼-不會讀音的字可用O字母代替音碼;(2)多音碼;(3)容錯碼;(4)簡碼。
5.按權(quán)利要求1、2、3所述的《規(guī)范碼》(H2.0版),其特征在于規(guī)定單筆畫五筆形橫、豎、撇、點、折的譯碼分別為h、i、p、d、z,并只規(guī)定取碼法則“優(yōu)先律”和“完整律”,其余與本碼H1.0版相同。
6.按權(quán)利要求1、2、3所述的《規(guī)范碼》(H3.0版),其特征在于將本碼H2.0版中左右體字與詞的第四碼舍去,并將其余字的取碼公式規(guī)定為音碼+首尾碼。
7.按權(quán)利要求1、2、3所述的《規(guī)范碼》(H4.0版),其特征在于規(guī)定左右體字中的右體字為右部至多含兩筆畫或只有一個字形;左體字為左右體中的其余字,并規(guī)定取碼公式為(1)右體字-前后碼(在Ⅰ部取碼)+尾碼;(2)其余字-首碼+前后碼(在Ⅱ部取碼);(3)雙字詞-首碼(前兩個字)+n,(4)、多字詞-首碼(前兩個字)+m,(5)、自定義詞-…+b。
8.按權(quán)利要求1、2、3所述的《規(guī)范碼》(H4.1版),其特征在于詞的取碼公式雙字詞-前兩個字的前兩碼;三字詞-首碼(前兩個字)+前兩碼(第三個字);多字詞-首碼(前三個字)+首碼(最后一個字),不足四碼的用尾碼補足,其余與本碼H4.0版相同(對于不常用字,分體字增加n字母作尾碼,合體字增加字母m作尾碼)。
全文摘要
本發(fā)明涉及一種漢字的編碼方法,它是對“音形序碼”(為便于區(qū)別,本人發(fā)明的公開號CN1054841的申請,新版統(tǒng)稱“規(guī)范碼”)的優(yōu)化和簡化?!耙?guī)范碼”的關(guān)鍵技術(shù)在于一、將五筆形的兩兩組合(注意是組合而不是排列)定義為筆序,將規(guī)定了兩個使用條件的部首定義為字形,以使筆序與字形結(jié)合起來定代碼;二、根據(jù)漢字筆順、部首的特點規(guī)定字類部位及取碼公式。這兩條技術(shù)構(gòu)成了“規(guī)范碼”系列的核心。
文檔編號G06F3/023GK1074299SQ9311058
公開日1993年7月14日 申請日期1993年2月25日 優(yōu)先權(quán)日1993年2月25日
發(fā)明者賴平年 申請人:賴平年