專利名稱:書寫碼的制作方法
利用計算機進行漢字輸入或文字處理離不開漢字的編碼,編碼方案的好壞直接影響著操作者的工作效率以及接受與否。編碼的設(shè)計是利用漢字本身的固有特性---音、形、義進行的。在用字形來進行編碼的方案中,大部分是把字拆分成許多個部件,然后根據(jù)這些部件與鍵盤上的字符鍵的對應規(guī)定,按照書寫順序擊鍵。由于字根的數(shù)量繁多,要把這些字根記往并把它們與鍵符對應起來其記憶量是相當大的,為了便于記憶專家們設(shè)計了各種各樣便于記憶的方法。如表形碼,利用字根與西文字符的形似來進行聯(lián)想記憶,五筆字型根據(jù)字根的起筆是橫、豎、撇、捺或折把它們分成五個區(qū),然后再根據(jù)接下來的筆形大致地分攤到各個字符鍵上。這些方法當然是可取的,但記憶量仍然是較多的。
在大部分的編碼方案中都存在著一個致命的缺點,即不完全按照漢字的書寫規(guī)則。在“五筆字型”和“表形碼”中“因”字被拆分成“口大”,事實上該字的書寫順序是“冂
因”即口的最后一橫應寫在大的后邊,又如框字被分成“木匚王”,而書寫筆順應該是“
框”,象這種拆分在“五筆字型”等編碼方案中是較多的,這些給漢字的規(guī)范化無疑帶來新的麻煩。王有民等先生當然知道這些缺陷,并且肯定也想解決它,但由于他們所面臨的是只有四個字根來構(gòu)成一個漢字,如果把這些細節(jié)也考慮進去的話將大大地增加重碼,一句話用四個字根來表述一個漢字只能是粗略的,而不能對細節(jié)進行刻劃。但另一方面如果為了照顧到漢字的規(guī)范性而增加擊鍵次數(shù)又勢必減慢漢字的輸入速度。因此在擊鍵數(shù)不變的前提下減少記憶量,講究規(guī)范,減少重碼是各位專家所追求的目標。
本人對漢字進行了比較詳細的分折,在總結(jié)了筆型碼,五筆劃,四角號碼查字法,結(jié)合本人前段時間所設(shè)計的拼角碼,并參考了《漢字寫法規(guī)范字典》試圖達到這些目標。下邊就把自己的一些想法進行介紹,肯定有不足之處敬請有關(guān)專家批評指正。
字是由字根組成的,字根是由一丨丿丶フ單筆畫或它們按一定的方式結(jié)合而成,為了更詳細地刻劃漢字的細微結(jié)構(gòu)特引入比字根更小的單位----“字元”并把它們分成五類,如表一所示。每一類“字元”包含了一個類別的單筆劃和若干個復筆,當然在這些復筆中有些本身就是字根甚致是字。所謂復筆是指筆順連在一起并且其筆型又剛好是表1所列筆型中的一個,如氵的1,2兩筆都是丶,歸在2類,第3筆是提屬橫的異變筆型歸于1類,所以氵的編號是21。而“式”的1,5兩筆雖然也構(gòu)成叉的形狀但由于筆劃順序不連再一起所以只能分開來取。但1,2兩筆是屬于2類筆型。因此“式”的筆號為22154。表一.“字元”的五種類型示意表,漢字可以認為是由這五類筆型組成。
下邊舉一些例子來說明這種編碼構(gòu)思。
“刀”字的書寫順序是先折后撇。折歸在5類,撇歸在3類,所以刀字的筆號為53。
“他”字的書寫順序是丿亻他,丿屬于第3類筆型,丨在2類,“也”是復叉歸在4類,所以“他”字筆號為324?!靶汀保揭晦秘?十 一;其筆號是14231。表二所示的是一些常見部首或偏旁的筆號。
表二.一些常見的偏傍音首筆號
眾所周知計算機鍵盤的常用鍵有30個(26個英文字母鍵和4個標點符號鍵)我們把這30個鍵如表3所示那樣進行編號。在這個表中NM,./這五個鍵只編到了一個數(shù)我們稱之為“單元鍵”,其它25個鍵稱之為“雙元鍵”。每個雙元鍵同時可以容納兩個筆型,例如“土”字的筆號是31,表三.30個英文字符鍵以及它們的編號
而31所對應的是字母鍵“E”?!跋x”的筆號是2214,故“蟲”的字符碼是“UH”。上文所提的“刀,他,型”三字,其筆號分別為“53,324,14231”。其鍵符碼應該是“A I.和HFN”。需要說明的是單元鍵只僅僅出現(xiàn)在當字的編號位數(shù)是奇數(shù)(3,5,7)的情形中,因為最后有一個號必須要用到單元鍵,除非有另外說明。這樣一來原來一個字最多只能用四個部件構(gòu)成的現(xiàn)被拓寬成由8個構(gòu)字單位(字元)組成,從而可以描述字的細節(jié)部分。漢字的筆劃少到只有一筆多到六七十筆但在大陸字數(shù)最多的筆劃是9筆然后依次是10筆、11筆、8筆、12筆、13筆和7筆。在18筆及18筆以上的總字數(shù)不到300個(本統(tǒng)計參照國家教委和國家語言工作委員會于1988年聯(lián)合發(fā)布的《現(xiàn)代漢語常用字表》和《現(xiàn)代漢語通用字表》,總字數(shù)為7049個)。7000多字的每字平均筆劃為10.76筆,本方案每個“字元”所編到的筆劃數(shù)平均為1.72筆,因此8個“字元”平均可以寫到13--15筆筆劃。當字的筆號數(shù)超過8個時則取前7個“字元”再加最后一個的“字元”。
為了使本方案更具體、更系統(tǒng)、特作如下幾條規(guī)定1.在符合書寫筆順的前提下應取筆劃盡可能多的復筆,如“旦”字其筆號應取23而不是2111或者221。
2.取復筆時復叉,叉的復筆優(yōu)先于離散的復筆。例如“王”字應取131而不是221,“豐”字應取4而不是32等,但“口、冂、冖”例外。
3.筆劃一旦用過,后邊就不能再用,這就象我們寫字時一筆筆劃只能寫一次一樣,如“木”字的1、2兩筆構(gòu)成叉的筆形,但2、3、4三筆卻又構(gòu)成“小”的異變筆形(在5類),按照本規(guī)定只能取剩下的兩筆“八”,根據(jù)表一仍然取5,不過這時應該理解成寫“八”字前有筆劃從中間穿過?!白儭弊值?、6兩筆也是如此。
4.在筆型數(shù)等于或少于6時,由于編碼字符不足四個,為了減少重碼后邊再加一該字拼音的首字母作識別符。如廠、干、于、蘭、午、父、尸這7個字它們的筆號都是13即“G”如果都加上各字拼音的首字母,那么這些字的碼符分別是“GC、GG、GY、GL、GW、GH和GS”正好把它們區(qū)分開來。但一個字的筆型數(shù)在7個或7個以上時由于碼符已經(jīng)達到四個故就不再加了。由于加識別符的字筆劃比較少,一般地來說筆劃少的字也是比較常用的字,因而其讀音也就比較熟悉。所以這種處理一般不會給編碼帶來麻煩。當然如果不清楚字的讀音擊一下任何一個數(shù)字鍵它也是可以出來的,只不過很有可能是出現(xiàn)在提示行里并且還有其它幾個字和它在一起。
5.作為特例凡是以部首“艸”開始的字則先擊“/”鍵,接下來的編法仍然與上邊所述的相同,當然如果“艸”不是處于字的起筆位置就不在此例。
6.逗號和句號左文字編輯中出現(xiàn)的次數(shù)很多,另外助動詞“的”字的使用頻度也很高,而單元鍵“M,、”在編碼中一般用在第二鍵,第三鍵或第四鍵上,真正第一次就用到的字卻很少。只有“二,口,三,力,又,乜,七,十,九”以及“豐,聿,丈,女,也”這些單元字,故當遇到這些字時一律先擊“N”鍵,然后再擊自身的號碼鍵(M,或‘鍵),最后擊識別符(字的拼音首字母)。另外對于由“髟,麻,黹,鹿,鼓,鼠,鼻”這些筆劃在十筆或十筆以上的字作偏傍或部首時第一鍵也擊“N”鍵,第二鍵擊這些部首的首尾筆號然后再根據(jù)規(guī)則編碼,當然這時如果只用到三鍵,就不再加識別符了。但對于它們本身當字用時則不作特殊處理。在第一次擊“M,.”三鍵時就出“的”字和“,.”標點符號。而“;和/”兩符號則作為本身鍵的一級簡碼編入。從而解決了標點符號的使用問題。
根據(jù)以上幾條規(guī)定我們就可以系統(tǒng)地,完整地對漢字進行編碼了。下邊再舉一些字例以具體說明問題。表四列示了“溫州醫(yī)學院”和“灌、豐、麾、黃、一、又、六”12字的編碼過程。
表四.“溫州醫(yī)學院”和“灌、麾、黃、一、又、六、豐”12字的編碼
本漢字輸入方案有如下幾個明顯的優(yōu)點一.規(guī)則簡單,因為構(gòu)成漢字的基本單位已不是字根而是“字元”,省略了字的拆分等規(guī)則,而是完全按照漢字的書寫筆順進行。漢字的書寫我們從小學一年級開始就受到老師和教科書的強化訓練。再者撐握漢字書寫規(guī)則對漢語學習只有利而無弊。
二.記憶量少,由于要記憶的僅僅是表一所列的5類筆型,它們又帶有一定的規(guī)律性因此其記憶量少于五筆字型的1/5。
三.規(guī)范性強,其擊鍵過程就象有一支無形的筆在寫字一樣。為在中小學里普及電腦提供了良好的漢字輸入方法。
四.重碼較少,在7000多字中雙字重碼167對,三字重碼10個。重碼字數(shù)占總字數(shù)的5/100。即平均每40字中有一對重碼。表1的筆型安排肯定不是最佳的,如果再進行調(diào)整的話重碼還可以少許多。
五.輸入速度較快,對于三元字來說由于第二鍵用到的是單元鍵,它包含有編碼結(jié)束的信息,因此在擊識別符以后馬上可以出字,節(jié)省了擊空格鍵的時間。這種類型的字有300多個,再加上雙元字和單元字共有四百多字(這些字沒有記憶負擔),而助動詞“的”字的特殊安排以及400多個四元字,所有這些都使提高速度成為可能。當然合理地安排一些一級漢字和二級漢字自然更理想(但增加記憶量)。
總之本方案沖破了字根的束縛,由一鍵來承擔兩個筆型這種新穎的構(gòu)思,自然而然地解決了漢字的規(guī)范化問題,其編碼過程與漢字的書寫過程已經(jīng)很相似(本文標題由此而來)。在記憶量,規(guī)則,重碼等指標上都得到明顯的改善。是值得而且比較容易得到推廣的編碼方案。
附表一.“字元”的五種類型,漢字被認為是由它們組成。
附表二.30個英文字符鍵以及它們的編號<
>
權(quán)利要求
1.本發(fā)明是用于電子計算機的漢字輸入,其特征是用“字元”來作為基本構(gòu)字單位,字元被分成五種類別(附表一所示)。兩個“字元”號安排在一起所有可能的組合是25再加上5個單字元恰好是30,它們與計算機的30個常用鍵正好相符(其對應關(guān)系附表二所示)。并按照書寫的順序進行編碼。
2.根據(jù)權(quán)力1,本專利的特征是用比字根更小的單位“字元”來作為構(gòu)字單位,使一個漢字最多由8個“字元”組成,從而可以刻劃字的細徽結(jié)構(gòu)?!白衷北环譃?個類別。
3.根據(jù)權(quán)力1,本編碼方案是把兩個“字元”號安排在一個鍵上,使有效的擊鍵帶有更多的字形信息,30個常用鍵中除“NM,./”是單元鍵外其它25個鍵都是雙元鍵。
4.根據(jù)權(quán)力1,本方案是嚴格按照漢字的書寫筆順來進行編碼的,當字元數(shù)不足7個時后邊再加該字拼音的首字母作識別符,當“字元”數(shù)超過8個時則取前7個和最后一個。
全文摘要
本發(fā)明是一種新穎的計算機漢字輸入方法,其獨到之處是用“字元”作為構(gòu)字單位,“字元”只有五種類別,分別用1、2、3、4、5來表示,并且用這五個數(shù)字對計算機鍵盤上的30個常用鍵進行編號,其中有25個鍵每鍵編到兩個數(shù)稱之為雙元鍵,雙元鍵可以同時容納兩個“字元”,從而使四字符碼最多可以容納8個獨立構(gòu)字單元,編碼次予嚴格按照漢字的筆順進行。從而解決了漢字的規(guī)范化問題,大大地改善了記憶量、重碼、規(guī)則和輸入速度,特別是一種值得而且容易得到推廣的漢字編碼方案。
文檔編號G06F3/023GK1193764SQ9610769
公開日1998年9月23日 申請日期1996年5月28日 優(yōu)先權(quán)日1996年5月28日
發(fā)明者王增開 申請人:王增開