專利名稱:電腦輸入漢字的雙筆形碼及其編碼方法
技術(shù)領(lǐng)域:
本發(fā)明是關(guān)于電腦輸入漢字的雙筆形碼及其編碼方法。
本發(fā)明之目的,是為提供一種信息量充分有效的編碼元素及簡單、容易、快捷的編碼方法。
本發(fā)明之特征是以雙筆形為型碼元素,分配在鍵盤上,用高頻部首平衡各鍵位上雙筆形的造字量,按漢字字元的雙筆形,對應(yīng)鍵位字母編碼。一個漢字最多3碼,詞組4碼。以雙筆形碼為全碼的,叫做雙筆形型碼法;以雙筆形碼和拼音字母為全碼的,叫做雙筆形型音碼法。
所謂字元,包括部首、單字(漢字中包含的簡單字)及其它(非部首單字),即拼組漢字的結(jié)構(gòu)單元,代表漢字組成雙筆形碼。
所謂雙筆形,是由橫豎撇點折5種單筆形,按二元排列方式組成的25種新筆形,用以表征漢字的結(jié)構(gòu)屬性,電腦輸入漢字的編碼元素。
電腦輸入漢字的關(guān)鍵是編碼元素及其編碼方法。縱觀已出臺的漢字輸入碼,按其編碼元素分類,不外乎音(聲)碼、型(形)碼及音型碼三種。音碼的弊端是重碼太多,輸入慢。型碼如五筆字型的弊端是以許多要死記硬背的字根為編碼元素,直接分布在鍵盤上,記憶量很大。更甚之是,為勉強(qiáng)所謂的字根,隨意改變筆形,誤導(dǎo)漢字的學(xué)習(xí)和書寫。音型碼的初衷,是想在音碼和型碼之間取長補(bǔ)短,結(jié)果大失所望。一言以蔽之,諸型碼和音型碼在解決記憶量與重碼的矛盾中,陷入困境的根本原因是沒有采用可提供充分有效信息的編碼元素。
本發(fā)明采用的型碼元素——雙筆形,直觀上被誤解為一個雙筆形相當(dāng)于2個單筆形。其實,當(dāng)各種筆形按照排列的方式拼組漢字時,雙筆形所提供的信息量是單筆形的5n(n為一個漢字的筆形碼數(shù))倍,而且,更能表現(xiàn)筆形筆畫筆序三要素的豐富內(nèi)函。
本發(fā)明編碼方法的記憶量,都只有分配在鍵盤上的25種雙筆形和24個高頻部首(見表1)。造字量大的部首分配在造字量小的雙筆形鍵位上,造字量大的雙筆形的鍵位上不分配任何部首,以平衡鍵位的負(fù)荷。從漢字中拆出的各種字元,都不必記憶,因為它們不直接參予漢字的編碼,而由雙筆形代表它們編碼。為便于記憶每組雙筆形的第二筆形,大都是按照橫豎撇點折的順序排列,而高頻部首所在的鍵位,大都是其名稱的拼音聲母。
由于雙筆形可提供充分有效的編碼信息,以及高頻部首對各鍵位負(fù)荷的平衡作用,所以,一個漢字最多3碼,詞組4碼,而且重碼很少。不言而喻,記憶量小,好記易學(xué)和編碼快捷,是五筆字型法不能比擬的。
表1,雙筆形及高頻部首在鍵盤上的分布
注G留作模糊輸入或他用。
幾乎所有漢字都含有一個表征部首(一般即檢字部首,由漢字結(jié)構(gòu)類型及其所在位置決定),它們在漢字中以離散和連接兩種形式存在,于是構(gòu)成兩類型漢字及兩種拆分方法,如表2所示
注4筆畫以下漢字都不拆分。
(1)表2示,5筆畫以上連接型漢字(或字元)沿一條筆形線或方框邊打開連接點,不改變筆形,將其分為首末2個字元止。如果→日木曲→口艸。
(2)離散型漢字及字元的拆分,沿字元間的縫隙,每次一分為二。第一次要拆出表征部首,另一字元存在三種可能(一)不拆分字元(3筆畫以下離散結(jié)構(gòu)或4筆畫以下連接結(jié)構(gòu))如式→弋工、囤→口屯、哀→衣口;(二)待拆分4筆畫以上離散結(jié)構(gòu)字元。如韶→音、召→音刀口,乘→禾、北→禾北匕 ,除首次末字元外,其余略過,如亮→→亠口幾,澡→→氵口木;(三)待拆分5筆畫以上連接結(jié)構(gòu)字元,如相→木、目→木口二。其→→艸三八。漢字能拆出3個字元時,不拆分連接型字元,如廂→→廠木目、豪→→亠口豕、椰→→木耳阝。
(3)一個漢字或字元有2種以上的拆分結(jié)果時,通過表3選擇分/次數(shù)最高的方法拆分。如去→土厶、舌→千口、宣→→宀二日,得分相等時,選擇使首字元筆畫數(shù)最少或其筆序和最小的方法,如交→亠父,畫→一田、串→口中、禹→→丿蟲冂。
表3、分/次=(打開連接點數(shù)得分+各字元得分)/拆分次數(shù)
(4)高頻部首作為漢字的部首時不拆分,普通部首作為漢字的表征部首時不拆分,如蜃→辰蟲、鋅→→钅立十,辟→→尸口辛、或→→戈口一。
(5)從漢字中拆出的各字元按其首筆在漢字中的筆序先后排列,如可→丁口、夷→大弓。
本發(fā)明方法之一——雙筆形型碼5筆畫以上的漢字,2個字元取雙筆形碼時,優(yōu)先首1末2,否則才首2末1;3個字元時各取一個雙筆形碼,字元為高頻部首時,以其鍵位的字母代替字元的雙筆形碼。
如把DQF、打DDN、果OMM、弗QTU、澡SKM、藻CSM。
不拆分漢字,按筆序取完雙筆形碼后,增取一個結(jié)構(gòu)信息碼(見表4)如引QWS、月PXJ、心ZKC、于XTR、虧XTB、九PX、兒PS、幾PJ、乙TC
表4、4筆畫以下漢字的結(jié)構(gòu)信息碼
所有詞組都4碼,由首末字的首末字元上的各一個雙筆形碼組成。字元為高頻部首時,以其鍵位字母代替字元的雙筆形碼。未拆分漢字按筆序取2個雙筆形碼,如
本發(fā)明方法之二——雙筆形型音碼5筆畫以上的漢字,取2個雙筆形碼和拼音的第一個字母,如果字首為雙聲母zh,sh,ch時,以A、I、U代替。拆分的漢字,在首末字元上各取一個雙筆形碼字元為高頻部首時,以其鍵位字母代替字元的雙筆形碼,不拆分漢字,取完雙筆形碼后加其拼音字母。如把DQB、打DND、弗QUF、室BTU、引QW、口FXK、九PJ、兒PL、乙TY。
2個字的詞組4碼,由首末字的首字元上的各一個雙筆形碼和它們的拼音字母組成。3個以上的詞組4碼,由首字的首字元上的一個雙筆形碼及拼音字母和次末字的拼音字母組成。字元為高頻部首時,以其鍵位字母代替字元的雙筆形碼,不拆分漢字按筆序取一個雙筆形碼或其拼音字母。如
權(quán)利要求
1.本發(fā)明是關(guān)于電腦輸入漢字的雙筆形碼及其編碼方法,其特征是以雙筆形和為平衡鍵位負(fù)荷的高頻部首為型碼元素,分布在鍵盤上,在從漢字中由規(guī)范方法拆出的部首等字元上或未拆分漢字上,取雙筆形,對應(yīng)鍵位字母編碼,一個漢字最多3碼,詞組4碼,稱作雙筆形型碼或雙筆形型音碼。
2.根據(jù)權(quán)利要求1,作為型碼元素的雙筆形的特征,是由橫豎撇點折5種單筆形按二元排列方式組成的25種新筆形,其組成和鍵位列于表1。
3.根據(jù)權(quán)利要求1,平衡鍵位負(fù)荷的高頻部首的特征是造字量大的部首列于造字量小的雙筆形鍵位上,造字量大的雙筆形鍵位上不列任何部首,字元為高頻部首時,以其鍵位字母代替雙筆形碼。表1,雙筆形及高頻部首在鍵盤上的分布。
4.根據(jù)權(quán)利要求1,拆分漢字的規(guī)范方法的特征是根據(jù)表征部首在漢字中存在的形式,將漢字分為兩種結(jié)構(gòu)類型及兩種拆分方法,即離散型漢字沿字元的間隙縫拆分,和連接型漢字打開一條筆形線上或方框邊上的連接點拆分,每次都是將漢字或字元一分為二,其中至少有一個字元是部首或單字,如有2種以上的拆分結(jié)果時,按拆出字元的種類及打開連接點數(shù)記分,選擇得分/次數(shù)最高的方法拆分。
全文摘要
本發(fā)明為電腦輸入漢字的雙筆形碼及其編碼方法。雙筆形作為型碼元素提供的信息量,是單筆形的文檔編號G06F3/023GK1208888SQ9811816
公開日1999年2月24日 申請日期1998年9月10日 優(yōu)先權(quán)日1998年9月10日
發(fā)明者王文生 申請人:王文生