專利名稱:漢字多功能編碼鍵盤和二叉樹編碼法的制作方法
技術領域:
本發(fā)明屬于中文信息處理技術領域,涉及一種漢字三十七字元通用多功能編碼鍵盤和一種科學的漢字二叉樹編碼方法。漢字二叉樹編碼法以漢字可以生成漢字二叉樹這一特點為設計依據(jù)。
現(xiàn)有的漢字編碼很多種,一般可歸為形碼、音碼和形音碼三大類型。但似乎還沒有一種編碼被人們公認是較理想的編碼,原因在于它們或編碼較長,或重碼字多,或編碼規(guī)則復雜,或使用編碼字元較多等。
本發(fā)明的目的是要提供一種適合用筆形方式和形音綜合方式,對所有現(xiàn)代漢字、詞語和句子進行編碼的漢字三十七字元通用多功能編碼鍵盤;其次提供一種建立在漢字二叉樹理論基礎上的,反映漢字二叉樹特點的漢字二叉樹編碼方法。漢字二叉樹編碼法簡單直觀,并具有統(tǒng)一的規(guī)律性,與漢字三十七字元多功能編碼鍵盤相編合,效果更佳,特別能實現(xiàn)快速輸入處理計算機漢字信息,適合專職和非專職人員學習使用。
漢字多功能編碼鍵盤的實現(xiàn)及特點漢字多功能編碼鍵盤選用三十七個使用頻度和實用頻度較高的字元,包括可讀字元和不可讀字元、實筆畫字元和虛筆畫字元,以及由實虛筆畫共同組成的字元,把其中二十六個含實筆畫的字元按照首筆畫特點劃分為“丶,一,丨,丿,
”五組,然后按組基本由簡到繁(指實筆畫部分)順序地將字元排列于標準鍵盤上的二十六個英文符鍵上,另外十一個字元復蓋在前者當中的十一字元上,起著鍵位頻度和條件概率的互補作用,如附圖
(1)所示。
多功能編碼鍵盤上的三十七個字元,它們各有自身的特點和作用,一般象征表示若干同類字元,除本身以外,對于由實虛筆畫共同組成的字元,更主要是表示去掉全部虛筆畫所剩下的實筆畫字元;對于部分不可讀音的實筆畫字元。還表示它的貫用讀音字元;所有字元,一般還表示它的若干相似變體字元。
約定1 全體實筆畫字元及其相似變體字元,統(tǒng)稱為鍵盤實系列字元或鍵盤基系列字元。
約定2 全體虛筆畫字元和實筆畫字元的讀音字元,以及這些字元的相似變體字元,統(tǒng)稱為鍵盤虛系列字元。
約定3 全體由實虛筆畫共同組成的字元及其相似變體字元,統(tǒng)稱為鍵盤中性系列字元。
約定4 鍵盤實系列字元、虛系列字元和中性系列字元的全體,總稱為鍵盤系列字元。
鍵盤系列字元表現(xiàn)為三十七字元鍵盤,鍵盤實系列字元表現(xiàn)為三十四字元鍵盤,如附圖(2)所示,三十七字元鍵盤隱含三十四字元鍵盤。實系列字元中絕大多數(shù)字元,不僅是基礎型字元的字頭和字尾子字元。而且是組成任何字元的基本筆畫和筆畫組。這里所指的字元的頭尾順序是指從左到右、從上到下、從外到內(nèi)這樣的書寫順序。在確定字頭子字元時,要求字頭子字元盡可能屬于較多筆畫的鍵盤實字元。但是,除內(nèi)外插入關系外,一般復筆畫字頭子字元不能有“丨”筆畫插入下面的子字元中,否則要修改字頭子字元。鍵盤虛系列字元主要是針對標準編碼是三單元以下的編碼設計的,對四單元以上的編碼,虛系列字元一般不作為編碼字元使用。鍵盤中性系列字元主要為了快速輸入實用頻度較高的漢字而設計的,不論標準編碼數(shù)多少,它們當中的字元,即可作為編碼字元使用,也可不作為編碼字元使用,根據(jù)具體編碼而定。
漢字多功能編碼鍵盤除三十七個中文字元外,還有兩個功能一、表示二十六個拼音碼,所謂拼音碼是指漢語拼音的聲母或第一韻母的代碼,除聲母“ch、sh、zh”分別用字符“I、U、V”表示外,其它聲母和韻母的代碼就是它本身;二、字符鍵“A、E、O”上面共有三個數(shù)字,除表示相應序數(shù)外,還可用來代表一定的字形,主要在處理重碼字時使用。詳細鍵盤系列字元及其說明,參見表(1)。
綜上所述,漢字多功能編碼鍵盤明顯具有以下優(yōu)特點第一,漢字多功能編碼鍵盤上的三十七個字元安排巧妙,具有較強的規(guī)律性,簡單易記,符合鍵位頻度、條件概率、鑄盤指法及人們各方面的心理要求;第二,漢字多功能編碼鍵盤利用實虛筆畫相結(jié)合的方法,貫用讀音的方法和相似變體的方法,增強了漢字多功能編碼鍵盤的表示能力,漢字三十七字元鍵盤同時隱含漢字三十四字元鍵盤,并很容易被人們記憶和理解,保持了鍵盤的清晰度;第三,漢字多功能編碼鍵盤適合對所有現(xiàn)代漢字,詞語和句子進行編碼,不論是純形型或形音型、等長或不等長的編碼都具有一定的靈活性和方便性,但一般主要根據(jù)基礎字元的字頭或字尾特點進行編碼,效果良好,并具有處理重碼字的能力。從使用角度出發(fā),定義漢字,詞語和句子的標準編碼為四單元碼比較適宜,一般可控制重碼率小于5%;從實用角度出發(fā),定義漢字、詞語和句子的標準編碼為三單元碼,一般可控制重碼率小于20%。
在實際實施過程中,根據(jù)具體的應用環(huán)境和需要,漢字多功能編碼鍵盤可以適當修改。如(1)鍵盤字元的實虛筆畫可以用不同的顏色來表示;(2)當僅設計四元碼漢字輸入系統(tǒng)時,則字元“、竹、貝”可以不寫在鍵盤上;(3)當僅設計三元碼漢字輸入系統(tǒng)時,則字元“、竹、貝”可以用實筆畫形式寫在鍵盤上;(4)由于具體編碼的需要,中性系列字元可以刪減。若特別需要,鍵盤字元可以重新布局,但不改變鍵盤字元的組合關系??傊?,附圖(1)所示的鍵盤圖作為一個總體設計,目標是全方位的和多功能的。
漢字二叉樹編碼方法及特點漢字二叉樹編碼法是通過嚴格分析漢字構(gòu)形和讀音特點進行設計的,認為漢字是可讀音的字元。任何字元都可以看成是一個平面二叉樹圖塊。
約定5 如果一個字元是由若干子字元主要以連接和插入方式相結(jié)合組成的字元,叫做基礎型字元,否則叫做非基礎型字元。
約定6 如果一個字元正好由兩個可讀音的子字元組成,則這個字元叫做復型字元,如果組成字元都是不可讀音字元,則這個字元叫做原型字元,否則稱為一般型字元,同屬于基礎字元和原型字元的字元以及簡單的原型字元,叫做整體形字元。
任何非整體形字元都可以看成是由兩個子字元組成的,由于兩個子字元的重心位置關系不同存在三種基本構(gòu)形,即左右形、上下和內(nèi)外形,其中左右形漢字最多,約占漢字總量的54%,內(nèi)外形又包括全包圍形、三邊包圍形、兩鄰邊包圍形和兩對邊包圍形等,如“國、周、這、哀”字等。
事實上,任何非整體形字元都很容易按照其基本構(gòu)形和讀音特點以及異構(gòu)形性分解為兩個子字元。一般,位于左邊、上面和外圍的子字元叫做首子字元,位于右邊,下面和內(nèi)部的子字元叫做未子字元,從子字元的可讀性和構(gòu)形的復雜性來講,其中一個相對可讀的或構(gòu)形復雜的子字元叫做字體子字元或中心子字元。一般,子字元同樣具有上述特性,所以,任何字元都可以生成一棵由字元作結(jié)點的二叉樹,叫做漢字二叉樹,漢字二叉樹屬于滿二叉樹,漢字二叉樹的根結(jié)點就是字元本身,每個結(jié)點字元分解后,其首子字元生成這個結(jié)點的左子樹,而未子字元生成這個結(jié)點的右子樹,直到二叉樹中每個葉子字元都是整體形字元或滿足其它具體要求為止。如果二叉樹中每個葉子字元都是整體形字元,則叫做完整漢字二叉樹,否則叫做不完整漢字二叉樹。如附圖(3)-a就是漢字“照”的完整漢字二叉樹圖。
漢字二叉樹編碼就是建立在漢字二叉樹理論基礎上的,利用漢字二叉樹特點進行編碼的一種編碼方案,由于選擇編碼字元的規(guī)則不一樣等,可以產(chǎn)生多種具體的漢字二叉樹編碼,但不論是哪種具體的編碼,其一般編碼規(guī)則反映在漢字二叉樹上都具有統(tǒng)一的規(guī)律性,不直接受具體字形的影響,而已有的各種漢字編碼一般不具備這一特點。如“照”和“調(diào)”的一種二叉樹二元筆形碼分別是“JYH”和“VUD”,這種三元筆形碼的一般編碼規(guī)則反映在漢字二叉樹上就是按照從矮葉子字元到高葉子字元,從所有左葉子字元到右葉子字元取三個葉子字元,然后用三個葉子字元本身或字頭子字元的代碼,按照從左到右、從上到下和從外到內(nèi)這樣的書寫順序組成樹根字元的三元筆形碼。對于具體的各種二叉樹編碼,不能排除有若干簡單的特殊規(guī)定,如當二叉樹葉子字元數(shù)小于標準碼數(shù)時的特殊處理規(guī)定等。
漢字二叉樹編碼法適合用漢字三十七字元多功能編碼鍵盤按照筆形特點和形音特點進行編碼,不僅重碼字小,而且符合鑄盤指法要求。從理論上講,漢字二叉樹編碼法一般分為三個步驟進行,第一,生成相應的漢字二叉樹,對于是否需要生成完整漢字二叉樹,由具體的編碼和漢字的特點決定;第二,按照規(guī)定原則選取編碼字元;第三,組成編碼。但實際編碼過程中是不需要生成相應的漢字二叉樹圖的,原因在于任何漢字實質(zhì)都可以看成是被演變了的二叉樹圖塊,如果約定園點“·”表示由這點指向的兩個子字元所合成的字元,那么很容易得到如附圖(3)-b表示“照”一樣的二叉樹圖塊,把二叉樹圖塊中的園點“·”和箭頭“→”去掉,便還原成漢字。因此說明,漢字二叉樹編碼方法不僅理論完善,而且編碼規(guī)則十分簡單直觀而有規(guī)律性,是目前較理想的一種編碼方案。對于實際使用的漢字二叉樹三元筆形碼、四元筆形碼、三元形音碼和四元形音碼,特別能實現(xiàn)快速輸入處理計算機漢字信息。
漢字二叉樹編碼法也適合對詞語進行編碼,方法類似。首先,把詞語看成是一個左右結(jié)構(gòu)的“字元”,以字和子詞為單位按層次分解。并生成相應的“漢字二叉樹”,然后按照漢字二叉樹編碼法進行編碼。如“中華人民共和國”,它的“漢字二叉樹圖”如附圖(4)所示,因此它的一種二叉樹三元筆形碼和四元筆形碼分別是“LIJ”和“LITJ”。
權利要求
1.漢字多功能編碼鍵盤用標準鍵盤中二十六個英文字符鍵表示三十七個中文字元、二十六個拼音字符和三個數(shù)字,對于中文字元,由于主要采用實虛筆畫相結(jié)合的方法,以及相似變體和貫用讀音的方法,使鍵盤清晰、記憶量小,表示能力強,適用范圍廣。
2.漢字二叉樹編碼法認為,任何非整體形字元都很容易按照其簡單的構(gòu)形和讀音特點,以及異構(gòu)形性分解為兩個子字元。子字元又具有上述特性,即任何漢字都可以生成一棵由字元作結(jié)點的漢字二叉樹,任何漢字實質(zhì)上是被演變了的漢字二叉樹平面圖塊。漢字二叉樹編碼法就是建立在漢字二叉樹理論基礎上的,并反映漢字二叉樹特點的一種編碼方案。由于選擇字元和編碼規(guī)則不一樣,可以產(chǎn)生多種具體的漢字二叉樹編碼,但每一種具體的二叉樹編碼。其一般編碼規(guī)則反映在漢字二叉樹上都具有統(tǒng)一的規(guī)律性,即可以用漢字二叉樹理論來描述其編碼規(guī)則,而不直接受具體字形的影響,但不排除有簡單的特殊約定。
3.漢字三十七字元多功能編碼鍵盤隱含漢字三十四字元(含中性字元)鍵盤,鍵盤上三十四實字元是多功能編碼鍵盤的核心和基礎。除以外,多功能編碼鍵盤中其它內(nèi)容可以根據(jù)具體應用環(huán)境和需要適當刪除和修改。
4.漢字多功能編碼鍵盤適合用筆形方式和形音方式對漢字、詞語和句子進行編碼。當利用漢字三十七字元進行編碼時,主要根據(jù)字元的字頭和字尾特點進行編碼。
5.漢字二叉樹編碼法主要適合筆形方式和形音方式對所有現(xiàn)代漢字和詞語進行編碼。
6.漢字二叉樹編碼法適合與多功能編碼鍵盤相結(jié)合進行編碼,編碼綜合效果很好。
全文摘要
多功能編碼鍵盤用標準鍵盤中二十六個英文字符鍵表示三十七個中文字元、二十六個拼音字符和三個數(shù)字,著重采用實虛筆畫相結(jié)合的方法,鍵盤清晰,記憶量小,符合鍵位頻率,條件概率和鍵盤指法要求,二叉樹編碼法以漢字可以生成漢字二叉樹這一特點為依據(jù),簡單直觀,不受具體字形的影響,以上兩者相結(jié)合,效果更佳,重碼字很小,適合計算機專職和非專職人員學習使用。
文檔編號G06F3/023GK1057531SQ9110427
公開日1992年1月1日 申請日期1991年6月20日 優(yōu)先權日1991年6月20日
發(fā)明者周耀瑜 申請人:周耀瑜