專利名稱:一種簡繁漢字統(tǒng)一鍵盤編碼方法及其輸入方法
技術(shù)領(lǐng)域:
本發(fā)明屬于漢字編碼技術(shù)2
背景技術(shù):
計算機漢字輸入離不開編碼,雖現(xiàn)已有手寫輸入等技術(shù),但速度較慢。至今漢字編碼已出現(xiàn)成百上千種方案,有萬“碼”奔騰之說。其中最常見地有全拼、雙拼、狂拼碼,自然碼、五筆字形、鄭碼、太極(二筆)碼、五十字元、大易碼等。漢字編碼輸入總的規(guī)律是記憶量小、簡單易學的編碼輸入速度慢;記憶量大的全形碼輸入速度快。
五筆字形、鄭碼、大易碼是應(yīng)用最廣泛的全形碼。前者主要用于簡體漢字輸入,后者主要用于繁體漢字輸入,中者兼而顧之。
漢字編碼有幾個最重要的技術(shù)指標最大碼長、重碼率、字根數(shù)及在鍵盤上排列的規(guī)律性。
現(xiàn)較流行的快速輸入編碼的最大碼長都為4。若為5(如專門輸繁體字的倉頡碼)會嚴重減慢輸入速度。若為3,則編碼空間太小,重碼率急劇升高,也會嚴重減慢輸入速度。
五筆字形采用4位最大碼長,25碼元(即使用的編碼鍵數(shù)),簡稱為4-25制。編碼空間為406900(即無重碼可安排的漢字、字符數(shù))。
鄭碼采用4-26制,編碼空間為475254。
大易碼采用4-40制,它把其它一些非字母鍵也納入編碼,編碼空間高達2625640。大的編碼空間有利于減少重碼,但給其它鍵字符的輸入帶來不便,由于手的控制范圍較大,輸入速度也會減慢。
據(jù)筆者統(tǒng)計,對大陸國標6763個簡化漢字的編碼,86五筆字形的靜態(tài)全碼重碼率為3.7%,鄭碼的靜態(tài)重碼率為3.9%。據(jù)資料,大易碼的重碼率也為三點幾。
五筆字形與鄭碼需記憶的字根都為200個左右,還有一些變形根。大易碼的基本字根數(shù)為242個。
五筆字形與鄭碼比較,前者在鍵盤上布置的規(guī)律性較強,相對容易記憶。鄭碼是按字母順序依次安排起筆為一、丨、丿、丶、乙,等字根。這樣,在鍵盤上的排列規(guī)律性不強。此外,鄭碼的字根一般帶副碼,更加大了學習記憶量。然而,鄭碼包含的編碼漢字較多,兼顧繁簡漢字,故為當今編碼界所推崇,預裝于WIN95、WIN98等操作系統(tǒng)中。然而,鄭碼對一些有偏旁簡繁區(qū)別的漢字仍共用同一編碼,如針針(ped)、級級(zyms)、說説(sujr)、飯飯(oxpx)等。若將這些也計入,會使重碼率很高。
徐躍進發(fā)明的“計算機漢字輸入規(guī)則碼”采用4-26制,簡繁兼顧,對GB13000.1大字符集的編碼重碼率約為15%。
五筆字形發(fā)明人王永民最近推出的繁體字根及編碼方案,其主要是大寫字母輸入繁體字,小寫字母輸入簡體漢字,如紹(XKVG)、紹(xkvg)。這實際是將原編碼空間擴大了一倍,可大幅度降低簡繁漢字混合編碼產(chǎn)生的大量重碼。但這需要記憶簡繁兩套字根及其分布。在應(yīng)用中需進行簡繁的選擇與切換。此外,從心理學上分析,一個人不可能做到對兩套碼都達到快速的條件反射地步。
雖然有進行簡繁漢字轉(zhuǎn)換的軟件,但只會輸入簡化漢字的人遇到需輸繁體字時,就會感到一籌莫展,反之亦然。
針對上述種種分析,筆者經(jīng)過十多年的潛心研究,經(jīng)過成千上萬次的方案比較,發(fā)明了這一套簡繁全漢字統(tǒng)一鍵盤輸入編碼。它具有技術(shù)指標優(yōu)良,記憶較容易、輸入心理感受順暢等優(yōu)點,以下簡稱為幻碼。它采用4-26制編碼空間。在初步用其對現(xiàn)代漢語詞典及簡化漢字總表的所有約13000個簡、繁、異體漢字及一些偏旁部首進行統(tǒng)一編碼的靜態(tài)全碼重碼率僅約為3.9%。若只考慮其中的6763個國標簡化漢字的編碼,則重碼率僅約為2.3%。
幻碼包容多字符、而又低重碼的奧秘在于其對漢字結(jié)構(gòu)取根獨到的新認識以及在編碼規(guī)則上的突破?;么a是更純粹的形碼,根據(jù)字根的位置取碼,省去對書寫筆畫順序的思維,這樣更直接迅速。幻碼包括57元根,在鍵盤上分布極有規(guī)律。記住這57個元根就完成約一半的鍵盤基本根記憶工作量。因為其它的鍵盤基本根是元根添加筆畫或變形而構(gòu)成的,易于記憶。如H鍵的元根‘一’可擴充構(gòu)成同鍵的基本根‘、丆、石、不、雨’等。3 發(fā)明內(nèi)容3.1 發(fā)明目的
對約14000多簡繁漢字、異體字、偏旁部首的大字符集以及一些常用外文字母、假名、符號進行4-26制低重碼編碼。解決現(xiàn)所常見編碼包含字數(shù)少、簡繁分編和/或重碼率高等問題。實現(xiàn)大中華文化圈漢字大字符集的統(tǒng)一編碼和計算機上對它們的高速盲打。在各個漢字輸入領(lǐng)域特別是出版界有著廣泛的應(yīng)用前景。3.2 本發(fā)明的基本思路是一種簡繁漢字統(tǒng)一鍵盤編碼方法,包括(1)將漢字拆解成的字根經(jīng)優(yōu)化篩選出具有典型意義的、構(gòu)字能力強的元根;(2)其中,部分元根是含多個元素的、具有集合概念的簇根;(3)其中,部分元根含該元根的歸類同根。(4)將元根至少分為26組,每組元根定義于計算機鍵盤的一個鍵位上;
在本發(fā)明中,所述元根的確定還考慮了以下因素有利于大量減少重碼率;使總的字根數(shù)盡量少;使其能在鍵盤上的布置規(guī)律性較強;3.3 所述元根是
僅對簡體漢字編碼時,至少包括下列字根(共52個)レ、疒、 眾、乙、 廠、人、フ、廣、
、、兒、丿、
、七、木、十、力、宀、
、卜、艸、ナ、扌、
、阝、厶、小、大、ク、
、三、
、雙、一、二、丁、
、耳、氵、ッ、丶、冫、丷、囗、口、
冂、蟲、
對簡繁漢字統(tǒng)一編碼時,還應(yīng)增加下列字根(共5個)
、風、門、金、言。3.4 本發(fā)明中(1)所述元根的歸類同根是(共10個)
阝——乃、木——朩、冂——凵、匚——
、丿—丨、人—入、一—
、丶—、金—釒、
—
(2)所述簇根包括雙等根、三等根、四等根、端連根、門簇對稱根、順折根、逆折根、復折根、風簇繁體根等,其中
a.雙等根由完全相同的兩部分筆畫或字根組成的且未歸入其它鍵的根,以元素‘雙’代表;
b.三等根由完全相同的三部分筆畫或字根組成的且未歸入其它鍵的根,以元素‘眾’代表;
c.四等根由完全相同的四部分筆畫或字根組成的且未歸入其它鍵的根,以元素
代表;
d.端連根任意兩筆畫端頭相連接且不屬于其它定義所構(gòu)成的根,以元素
代表;
e.門簇對稱根左右兩部分對稱或近似對稱且不屬于其它定義的根,以元素‘門’代表;
f.順折根書寫總體行筆方向為順時針旋轉(zhuǎn)的折,以元素
代表;
g.逆折根書寫總體行筆方向為逆時針方向旋轉(zhuǎn)的折,以元素
代表;
h.復折根書寫行筆方向既包含順時針旋轉(zhuǎn),也包含逆時針旋轉(zhuǎn)的折,以元素‘乙’代表;
i.風簇繁體根是指5個只出現(xiàn)在繁體字中的字根,包括風、龍、
3.5 下列元根通過添加筆畫或變形形成一些元根的擴展根,擴展根與元根一起構(gòu)成基本根レㄑ、乚、
纟、匕、
丩、比;乙ㄋ、ㄅ、ㄋ、讠、廴、九;人
、俞;フ
乛、亅、マ、ユ、子、孑、ㄗ、刀、
彡、彳、
、川、
、钅、
、氣;兒
丿 ノ、ハ、山;亻、
、刂、
、丿丨、
隹;七
屮、出;十土、士、由、吉;力又、
犭、叉、巾、女、車、戊、戔、
卜
、止、
鹵;艸廿、
卄、廾、卅、
帶;ナ乂、
、尢;扌
、丈、豐、
、末;、爫、丬、
厶幺、糹、糸;小忄、、氺、水、
、尚;大夫、
ク勹、、夂、
、魚、詹;鳥;三王;
一
、丆、石、不、雨;二平;西、覀氵灬、
癶、心;丶門、之、辶、礻、亠、方、童;冫
丷、火、并、半;囗甲;
鳥;ㄇ冂、卩、冖、幾、
殳;
尸、弓、巳、
民。3.6 所述鍵盤為國際上通行的標準計算機鍵盤,基本根與鍵盤的對應(yīng)關(guān)系是Tレ、疒、眾,ㄑ、乚、
、纟、匕、
丩、比;G乙、廠、人,ㄋ、ㄅ、讠、廴、九,
、俞;B フ、廣、金,
乛、亅、マ、ユ、ㄗ、子、孑、刀、
R
、兒,彡、彳、
、川、
、钅、
、氣,
F丿,ノ、ハ、山;V
、門,亻、
刂、
隹;E七、木,
屮、出;D十,土、士、由、吉;C力、宀,
、又、
、叉、巾、
W
、卜,女、車、戊、
、戔,
、、止、
鹵;S;艸、ナ,廿、
卄、廾、卅、
、帶,乂、
、尢;X扌,
丈、豐、
、末;Q
、阝、厶,、
、爫、丬、
幺、糹、糸;A小、大、
,忄、、氺、水、
、尚,夫、
Zク、
,勹、、夂、
魚、詹,鳥;Y三、
、雙,王,
H一,
、、丆、石、不、雨;N二、丁、
、耳、言,平、西、覀;U氵、ッ,灬
癶、心;J丶,門、之、辶、礻、亠、方、童;M冫、丷,
丷、火、并、半;I囗,甲;K口、
鳥;Oㄇ,冂、卩、
L蟲、
,冖、幾、
、母、
、殳;P
風,尸、
、弓、巳、
、民,龍、
3.7 在本發(fā)明中,漢字拆解方法應(yīng)按以下編號順序優(yōu)先考慮(1)一個漢字盡量以最少的基本根折解;(2)盡量不拆框口根和包根;(3)盡量考慮夾根、嵌套根,夾根的筆畫是不能與夾外筆畫構(gòu)成根的單筆畫;(4)上筆畫盡量拆為上位根;(5)盡量按書寫筆畫順序拆解;(6)盡量不拆交;(7)盡量保留最大的標準常用成字根;(8)上位碼的筆畫盡量多,下位碼的筆畫盡量少。3.8 一種簡繁漢字統(tǒng)一鍵盤編碼的輸入方法,其特征是該方法的基本編碼原則是
第1碼取左上角的基本根碼,第2碼取緊挨著第1碼右邊的基本根碼,再從右下角取第3碼,第4碼取緊挨著第3碼左邊的基本根碼;
若一個漢字可拆解成三個基本根,則只需輸入這三個根的碼作為該字的編碼;
若一個漢字可拆解成四個基本根,則輸入這四個根的碼作為該字的編碼;
若一個漢字可拆解成五個及五個以上的基本根,則只需按該基本原則取四個根的碼作為該字的編碼;
若一個漢字只能拆出兩個基本根,則還需取兩個基本根的二次拆解碼作為第3、4碼,方法如下
1、2碼根若為左右型關(guān)系,3、4碼分別取2、1碼根的右下角二次拆解根碼;
1、2碼根若為上下型關(guān)系,3、4碼分別取1、2碼根的右下角二次拆解根碼;
1、2碼根若為雜合型,3、4碼則取1碼根的二次拆解上位根碼和2碼根的右下角根碼;
若1、2碼根任何一個為單筆根,由于單筆不能進行二次拆解,則第4碼取另一根二次折解根的其它根碼;
若輸入的字符為基本根本身,則第1碼取基本根本身的碼,第2、3、4碼取基本根的二次拆解碼,若還不足四碼,需用一特定鍵位補足四碼;
所述輸入方法還可以按書寫筆順或四角等其它順序取碼,只不過具體的輸入規(guī)則有所不同而已。3.9 所述特定鍵是R鍵。3.10 對于含包根的漢字的輸入方法是
(1)取碼時遇著包根先只取包根碼,不管被包的包內(nèi)根,待整個字無其它根可取時,才依次返回取包內(nèi)根的碼;包內(nèi)根取碼是從右下角開始,若第1、2碼都是包根,第3、4碼分別取第2、1包內(nèi)根碼;
(2)若一個漢字的一次拆解只能拆出三個基本根,并且第三根為包內(nèi)根,則需對另一個非包根進行二次折解補充第4碼;
(3)若一個漢字是由包根包住兩個基本根組成,則第四碼取第二根的右下角二次折解碼;若第二根為單筆根,則不再取碼。
3.11 對于含雙等根、多等根、對稱根的漢字的輸入方法是(1)取碼時遇著雙等根、三等根、四等根時,分別取Y、T、R,待整個漢字無其它根可取時,再將雙等根、多等根的任何一個等根部分看作一個獨立的字從左上角開始進行補充取碼,若一個字既包含雙、多等根,也包含包根,則先取一個等根碼后再取包內(nèi)根碼;
若一個漢字只由一個任意基本根和一個雙等根或多等根組成,并且等根也是由一個基本根構(gòu)成,則第4碼取前者的二次折解碼;
含雙、多等根的字的全碼一定取足四碼,否則先對等根進行二次拆解取碼,若仍不足四碼,則補R;
(2)含對稱根的字與含雙、多等根的字作相同的處理,但只考慮對稱根的左半部分,右半部分不予考慮。3.12 對于含夾根、嵌套根、虛擬嵌套根的漢字的輸入方法是
含夾根、嵌套根、虛擬嵌套根時,取完它們的一個根碼后,若是上位取碼,右邊還有根則取右根的碼;若是下位取碼,左邊還有根則取左根的碼,即每次取碼都要盡可能向左或右移動位置;但向上取根前,需將夾根、嵌套根、虛擬嵌套根的所有根取完后才進行;左右型漢字若右邊為一嵌套根,第三碼是否取嵌套根的另一個根要看該根是否占右下角。3.13 幻碼的變形方案
前面論及的幻碼方案為建議推廣的基本方案,幻碼還存在許多變形方案,它們各有其優(yōu)缺點。對于不同的用戶和地區(qū),某個方案可能比基本方案更適合,部分變形方案簡介如下。(1)4-n(n>26)制編碼方案
該方案是通過增加碼元數(shù)(即編碼空間)來降低重碼率。將一些非字母鍵納入編碼后,把一些易出現(xiàn)重碼的基本根移到這些鍵,重碼字就會進一步降低,這些非字母鍵的鍵符可以通過編碼來輸入。該方案的優(yōu)點是降低了重碼率,缺點是根的分布范圍以及手指的頻繁操作范圍擴大,對記憶和輸入速度都有一定影響。(2)純簡體與純繁體方案
若用基本方案只對6763個簡化漢字進行編碼,則重碼率低至2.3%,在此基礎(chǔ)上進一步采用4-n(n>26)制編碼空間方案并對基本根進行調(diào)整,可使重碼率降到2%以下。
同樣,若只用基本方案只對繁體字、異體字進行編碼,則可消去簡體字與繁體字的重碼,使純繁體方案的重碼率降低。(3)增減基本根方案
a.增加基本根在現(xiàn)基本方案中再增加基本根還有降低重碼字的余地,每增加一個基本根,減少的重碼字一般不超過3個。
b.增加虛擬嵌套根將個別基本根定義為虛擬嵌套根后,減少重碼字的余地更大一些,但一般不超過6~7個。
上述增加基本根的各種方案的優(yōu)點不言而喻,那就是降低了重碼率,缺點是由于基本根的增加而帶來記憶量也增加?;么a基本方案設(shè)計的一個考慮原則是虛擬嵌套根、風簇繁體根的元素都不超過5個。
c.減少基本根方案減少基本根可以減少記憶量,但又會增加重碼字。雖然個別基本根的減去,增加的重碼字很少,但由于該基本根的記憶負擔小,故在幻碼基本方案中得以保留,例如,減去含于‘瓦’字的基本根
只增加約2個重碼字,但
是元根
的自然擴展,且與另一擴展根
相似,故在基本根中保留下。試想,若每一鍵都減去一個基本根,假設(shè)每減去一個基本根增加3個重碼字,26個鍵就增加78個重碼字,總的重碼率就會由現(xiàn)在的3.9%增加到4.5%。(4)移動基本根位置方案
基本方案中個別基本根移動位置也可減少重碼字,但這會削弱幻碼根位安排的規(guī)律性。(5)超字符集方案
現(xiàn)基本方案只對近14000個字、字符、外文字母等進行了編碼,完全可以進一步對更多的漢字及字符進行編碼,無疑,重碼率也會隨之有所增加。這里又會演化出其它一些亞類方案,如采用4-n(n>26)制方案等來降低重碼率。4. 附圖及說明
圖1是幻碼元根布置圖。
圖2是幻碼基本根總布置圖。
圖3是編碼的一般順序。
圖4取碼的總思維順序。5. 本發(fā)明的實現(xiàn)方式5.1 幻碼基本根及一些特定根說明5.1.1 元根
幻碼選定57個字根為元根,布置見圖1,元根分布極有規(guī)律,參見5.1.5。記住這些元根后就完成大約一半的基本根記憶工作量。
表中括號內(nèi)的根為歸類同根,歸類同根與所歸類的根一般等同看待,取相同的碼。特別申明,幻碼將撇與豎在大多數(shù)情況下等同看待。歸類同根與所歸類的元根的二次拆解碼可能不同,參見后面的有關(guān)內(nèi)容。
幻碼使用簇根、雙等根、多等根、端連根、門簇對稱根、順折根、逆折根及復折根等概念。5.1.2 簇根
簇根是幻碼提出的獨特概念根之一,指滿足同一定義的所有根的集合。這些集合元素都取相同的碼,這些元素也可稱為同定義根。在圖1或圖2中的許多基本根就是簇根,它們可以被清楚地定義,所以在圖表中的簇根不必列出所有的元素。5.1.3 雙等根、多等根、端連根、門簇對稱根和風簇繁體根
這幾個根為幻碼所特定的根,也是其精要地方之一。(1)雙等根由完全相同的兩部分筆畫或字根組成且未歸入其它鍵的根,為簇根,位于Y鍵,以元素‘雙’代表。元素例--、巜、雙、朋、林、圭、爻、棗等。注意其中兩個等根的書寫是連續(xù)的,即在書寫順序上無其它筆畫介入,但可以以相同的方式和其它筆畫相交。例‘串’中的兩口為雙等根,而
中的兩口不是雙等根。此外,注意兩個等根重心在同一水平或垂線上。(2)多等根由完全相同的三部分筆畫或字根組成且未歸入其它鍵的根為三等根,為簇根,位于T鍵,以元素‘眾’代表。元素例眾、巛,品、焱、州、
等。三個等根成‘品’字形或水平或垂直排列。由完全相同的四部分筆畫或字根組成且未歸入其它鍵的根為四等根,位于R鍵,以四豎
表示(附注
還代表由三或以上撇(豎)筆畫構(gòu)成的根)。元素例叕、燚等。同樣,多等根各部分的書寫應(yīng)緊挨著。(3)端連根任意兩筆畫端頭相連接且不屬其它定義所構(gòu)成的根,為簇根,位于L鍵。以元素‘丂’代表,常見元素有幾、冖、
等。但冂、匚、
、廠、阝等雖也是兩筆畫端頭相連接,但已分別被O、P、V、G、Q等鍵所安排或定義。(4)門簇對稱根左右兩部分對稱(或近似對稱)且不屬于其它定義的根,為簇根,位于V鍵,以元素‘門’代表。元素例門、鬥、非、
等。此外,輿、兜等字中的
也視為對稱根。注意雙、林等根雖也左右對稱,但已歸屬Y鍵的雙等根。而ハ、丷分別歸屬F、M。(5)風簇繁體根指5個僅出現(xiàn)在繁體字中的根,分別是風、龍、
5.1.4 順折根、逆折根及復折根
(1)順折根書寫總體行筆方向為順時針旋轉(zhuǎn)的折,簇根,位于B鍵,以元素‘フ’代表。常見元素還包括
、乛、亅、
等。特別申明,幻碼將豎鉤‘亅’也列入順折。(2)逆折根書寫總體行筆方向為逆時針旋轉(zhuǎn)的折,簇根,位于T鍵,以元素‘レ’代表。常見元素還包括乚、ㄑ、
等。(3)復折根書寫行筆方向既包含順時針旋轉(zhuǎn),又包含逆時針旋轉(zhuǎn)的折,簇根,位于G鍵,以元素‘乙’代表。常見元素還包括ㄋ、ㄅ、ㄣ等。表1基本根詳解說明
5.1.5 基本根及其鍵盤布置規(guī)律
部分元根通過添加筆畫或變形形成一些元根的擴展根,它們與元根一起構(gòu)成幻碼基本根。圖2為幻碼的基本根總表。
幻碼基本根主要鍵盤布置規(guī)律是,以元根為骨架,左折G、撇F、叉D-S、小A,右橫H、點J、口K、連L;下二上三,下順上逆。
左是指左手操作的鍵即GBT以左的鍵,右是指右手指操作的鍵即HNY以右的鍵。
下指下排鍵Z-M,上指上排鍵Q-P。
叉包括D鍵的正十字叉和S鍵的非正十字叉簇根;連指端連簇根。下二是指中排鍵單筆根雙寫而成的根一般位于下排鍵的對應(yīng)鍵;上三是中排鍵單筆根三寫而成的根位于上排鍵的對應(yīng)鍵。
下順是指含順折的基本根一般安排在下排鍵;上逆是指含逆折的基本根一般安排在上排鍵。其它有關(guān)說明詳見表1。5.1.6 其它一些根的說明(1)待補根
幻碼的一些基本根為標準偏傍部首或字去掉部分筆畫后所成的根,主要有
、俞、
、龍、
等,顯然它們需分別補上丶
、十()、二、丶
、二、二、
、丿+二、一、--、一等筆畫根后形成礻(衤)、革(堇)、俞、
(食)、龍、酉、舟、身、馬、臼、白等標準字根或字。(2)包根
若一個根從三面以上包住另一根,則該根稱為包根。常用作包根的基本根有口冂門匚勹等。其它一些根或字也可能作包根,例如‘玉’字中的‘王’包‘丶’,‘巴’字中的‘巳’包‘丨’等。為了便于判斷,幻碼規(guī)定‘寸’的兩個構(gòu)成根
和丶為包根和被包根(包內(nèi)根),但
一般不作包根。注意‘包’字中的‘巳’已‘紅杏出墻’,故不是包與被包的關(guān)系。此外,若一個根分開被另一個根包,則歸為嵌套關(guān)系,如‘金’字中的‘王’與‘丷’。
幻碼認定包根必由兩筆以上組成,若為兩筆,其中的一筆必須是大折。故單筆
不作包根看?!x’字中的‘乂’因不含折,故它與‘丶’也不是包與被包的關(guān)系,此外,‘丁’因為所含折為小折,故也不作包根看。(3)框口根
框根‘囗’指其中含至少一個完整的筆畫,口根‘口’中不含任何完整的筆畫,但其它筆畫可以與它相交。例如,‘電’中包含的是框根‘囗’而‘束’中包含的是口根。(4)夾根
指基本根
兒二三中間夾一層另外的根。如淵、胤、齊、五、工、
、巫等字中,但‘豆’不是,因為上下兩橫中含兩層根。(5)嵌套根
若一個根四周圈定的范圍與另一個根四周圈定的范圍大部分重合,則這兩個根就構(gòu)成嵌套根。例如,電七囗;束木口;注意‘嗇’字中的‘土’和‘丷’歸為嵌套關(guān)系而不是包與被包的關(guān)系。(6)虛擬嵌套根
這也是幻碼提出的獨特概念之一。共有五個虛擬嵌套根阝(乃)、車、彳、耳、冫?;么a假定出現(xiàn)在所有漢字或字符中的這五個根都為虛擬嵌套根,而在幻碼鍵盤或表上的這五個根為非虛擬嵌套根。所謂虛擬嵌套根是指將該根視為它自己和它自己的一部分迭合嵌套而成。阝(乃)嵌套く(レ)(阝(乃)所含復折筆畫中間的一段逆折);車嵌套
(車下面的一部分);彳嵌套亻(彳的下面部分);耳嵌套三(耳的中下部分);冫嵌套レ(兩點水作偏旁時,其宋體上提橫有一下頓再上提的逆折形狀)。注在‘習將弱’等字中的兩點水形不視為虛擬嵌套根,因為此時它不是作獨立的偏旁,沒有下頓的筆形。此外,三點水‘氵’不視為虛擬嵌套根。5.1.7 幻碼基本根數(shù)
幻碼有57個元根,但基本根數(shù)卻不確定,因為有些基本根集合概念,如雙等簇根可以包含幾十個元素(在13000多漢字中就出現(xiàn)約五十個左右)。但這幾十個元素并不需要記憶,因為一看見就知道,例如最簡單的元素--巜和較復雜的元素騳、
一看就知道它們首先要取的碼都是Y,因此總基本根數(shù)不確定,但這并不引起學習記憶發(fā)生困難。元根排列很有規(guī)律,而擴展根含同鍵的元根(并且絕大多情況是該元根開頭),使人看見基本根后很容易判斷其碼位,因此幻碼的基本根是較容易記憶的,這正是幻碼變幻而奇妙的地方之一。
一些在其它編碼中常用的基本根并不是幻碼的基本根,幻碼對它們要進行編碼拆解。常見的有日、月、白、田、目、早、用、罒、四、攵、饣、禾、米、工、彐、豕、貝、寸、皿、且、立、文、穴、辛、弋、戈、礻、衤、犬、古、馬、巴、酉、干、斤、夕、犭、手、、臼、習、羽、己、已、長、ス、彐、也、古、犬、
……,這里列出僅供參閱,不必記憶,因為遇上它們后自然會用幻碼的編碼方法去拆解。5.2 編碼規(guī)則5.2.1 編碼的基本順序
幻碼取碼不是以書寫筆順為思維順序,而是更直觀地以根位取碼。
如圖3為一假想漢字,第一碼取左上角的基本根碼,第二碼取緊挨著第一碼右邊的基本根碼。再從右下角取第三碼,第四碼取緊挨著第三碼左邊的基本根碼。例,微彳山乂幾(RFSL)
若無2位根(即左上角根已占滿整個上部),第二碼即取右下角根碼。若無4位根(即右下角根已占滿整個下部),則往上取。例,亭亠丁冖口(JNLK)
在圖3中,1,2碼稱為上位碼,3,4碼稱為下位碼。幻碼的取碼大方向為順時針旋轉(zhuǎn)。5.2.2 字的拆分原則
按以下編號順序優(yōu)先考慮(這些初看似乎難記,但初步學后,可通過以后的實踐來掌握,在拆字過程中遇上難點,一般可從這里找到解答。這些也是幻碼的精髓所在。)(1)一個字應(yīng)盡量以最少的基本根拆解。例,缶拆分為山,而不是十凵。爰爫夂二,而不是爫又ナ一。(2)盡量不折框口根和包根。例,中拆為丨口,而不是巾一或十冂。歹拆為一ク丶,而不是丆フ丶,但‘萬’折為丆
,而不是一ク,因為ク內(nèi)不含任何筆畫故為假包根,應(yīng)遵循下面的第(8)原則。(3)盡量考慮夾根、嵌套根,但夾根的筆畫是不能與夾外筆畫構(gòu)成根的單筆畫。例,工拆為二丨,而不是一;五拆為二力,而不是ュ。但‘嚴’拆為一廠
,不是二丿
,因為二夾根的下筆橫可與丿構(gòu)成‘廠’根,應(yīng)遵循下述第(7)原則。(4)上筆畫盡量拆為上位根碼,例,韋拆為
,而不是
二。(5)盡量按書寫筆順拆分。例,我ノ七扌丶,不是ノ
扌。(6)盡量不拆交。例,牛ノ
,不是十,或
丨,友ナ又,不是夂一。(7)盡量保留最大的標準成字根。例,‘主’拆為丶王,而不是亠土;‘佰’拆為亻一白一,不是亻丆囗一,因為白比日筆畫多。頁丆ハ囗二,不是一ハ白二。因為貝比自的筆畫多。(8)上位碼的筆畫盡量多,下位碼的筆畫盡量少。這是為了保證取碼的一致性。例,云二厶,不是一至,雲(yún)雨厶二,不是雨
一。5.2.3 字的位型
漢字一般分為左右型、上下型和雜合型,絕大多數(shù)字都為前兩種,很容易區(qū)分。其它編碼一般都將獨體字歸為雜合型,然而幻碼將一些獨體字也歸為上下型,其上下型獨體字定義為滿足下面任意條件者(1)上根所有筆畫部位都高于下根所有筆畫部位,例如‘己了’等字或字根為上下型,但‘已’則為雜合型。(2)上下兩根的重心在一垂線上且無交點。例如‘千禾個貝’等字也歸為上下型,但
的‘丷’和‘夫’是一般高,故為嵌套雜合型。5.2.4 漢字的一次拆解與基本根的二次拆解。
將非基本根漢字拆解為基本根稱為一次拆解,對基本根本身的拆解稱為二次拆解。(1)一個漢字若能拆出三個以上的基本根作編碼(不包括包內(nèi)根),則該碼即為該漢字的編碼,不再進次基本根的二次拆解。一個漢字若拆解出四個以上基本根,只取前四個基本根碼。
例,紹纟刀口(TBK);剖亠刂口(JVKM);豌一宀
ク(HCLZ)。(2)有些情況下需對基本根進行拆解,即二次拆解。二次拆解也遵循5.2.1及5.2.2的原則。一些基本根的拆解如下(斜杠左右分別為上位取碼和下位取碼的先后順序)
扌
一/
一,女七丿/七丿,口冂一/一冂,冂丨
丨,幾丿
丿,木十八/八十,西西一/一西,屮凵丨/丨凵,王二十/二十,十丨一/丨一,忄ハ丨/ハ丨,丷丨/丷丨,小ハ亅/ハ亅,丈ナ丶/丶ナ,夫
丶/丶
,廿卄一/一卄,巾丨冂/冂丨,不丆卜/卜丆,鳥
一丶/
一丶,鳥
灬丶/
灬丶,水
亅/
亅,雨一巾
/巾一
,子フ
/
フ,平二忄/忄二,钅
七/七
,釒人王丷/王人丷。(3)一個漢字若只能拆出二個基本根碼,則需分別取兩個基本根的二次拆解碼作為三、四碼,方法如下。1、2碼根若為左右型關(guān)系,3,4碼分別取2、1碼根的右下角二次拆解根碼。例,扣扌口一
(XKHC),仿亻方ク丨(VJZF)。1、2碼根若為上下型關(guān)系,3,4碼分別取1、2碼根的右下角二次拆解根碼。例,尖小大ハ丶
(AAFJ)。泰
氺丶
(AAJU)要覀女一七(NWHE)。
1、2碼根若為雜合型,3、4碼則取1碼根的二次拆解上位根碼和2碼根的右下角根碼。例,疔疒丁廣亅(TNBB)。
若1、2碼根任何一個為單筆根,由于單筆不能進行二次拆解,則第四碼取另一根二次折解根的其它根碼。例,正一止一
(HWHW),久ク丶丿フ(ZJFB)。5.2.5 基本根的取碼規(guī)則
基本根第一碼即本身。二、三、四碼按5.2.2原則對該基本根進行二次折解取碼。若不足四碼則補以R(注意無三次拆解)。總之基本根的全碼為四碼。5.2.6 含包根的取碼原則(1)取碼時遇著包根先只取包根碼,不管被包的包內(nèi)根。待整個字無其它根可取時,才依次返回取包內(nèi)根的碼。包內(nèi)根取碼是從右下角開始。若1,2碼都是包根,3,4碼分別取2,1包內(nèi)根碼。例,(1)取碼時遇著包根先只取包根碼,不管被包的包內(nèi)根。待整個字無其它根可取時,才依次返回取包內(nèi)根的碼。包內(nèi)根取碼是從右下角開始。若1,2碼都是包根,3,4碼分別取2,1包內(nèi)根碼。例,晴囗冂二(IXON);明囗門二一(IONH);扌囗
口。(2)若一個漢字的一次拆解只能拆出三個基本根,并且第三根為包內(nèi)根,則需對另一個非包根進行二次折解補充四碼。取碼方法根據(jù)1,2根的位型關(guān)系,按5.2.4(3)所述進行。例,相木囗二八(FINF)奮大囗十丶(AIDJ);膚冂夫二丶(OANJ)。癰疒冂
廣(TOXB)(3)若一個漢字是由包根包住兩個基本根組成,則第四碼取第二根的右下角二次折解碼。若第二根為單筆根,則不再取碼。例,闬門十一丨(JDHF);闈門
(JBX)。若兩個基本根也是包與被包的關(guān)系,則第四根取第一根(即大包根)左上角的上位根。例,甸勹囗十ノ(ZIDF);國口王丶冂(IYSO)。5.2.7 含雙等根、多等根、對稱根的取碼原則(1)取碼時遇著雙等根、三等根、四等根時,分別取Y、T、R,待整個漢字無其它根可取時,再將雙等根、多等根的任何一個等根部分看作一個獨立的字進行補充取碼(從左上角開始),這可形象地稱為‘解剖麻雀或亮身份’。若一個字既包含雙、多等根,也包含包根,則先取一個等根碼后再取包內(nèi)根碼。例,楚林
乛木(YWBE);習羽
一(YKBH)。塽土大
乂(DARS)。若一個漢字只由一個基本根和一個雙等根(或多等根)組成,并且等根也是一個基本根,則第四碼按5.2.4(3)取前者的二次折解碼。例,侶亻呂口丨(VYKF)。錣釒叕又王(BRCY)。巡辶巛く丶(JTTJ)。
含雙、多等根的字的全碼一定取足四碼。否則先對等根進行二次拆解取碼,若仍不足四碼,則補R。例,呂呂口冂一(YKOH),叒TCBJ,巛巛くRR(TTRR)。(2)含對稱根的字與含雙、多等根的字作相同的處理,只是在‘解剖麻雀’時,只考慮對稱根的左半部分,右半部分永遠不予考慮。例,痱疒非
廣(TVQB);們亻門尸一(VVPH);亞二
ㄣ(NVLG)。5.2.8 含夾根、嵌套根、虛擬嵌套根的取碼原則
含夾根、嵌套根、虛擬嵌套根時,取完它們的一個根碼后,若是上位取碼,右邊還有根則取右根的碼;若是下位取碼,左邊還有根則取左根的碼,即每次取碼都要盡可能向左或右移動位置。但向上取根前,需將夾根、嵌套根、虛擬嵌套根的所有根取完后才進行。左右型漢字若右邊為一嵌套根,第三碼是否取嵌套根的另一個根要看該根是否占右下角。例,項二丆人丨(NHGF);暈囗車
冖(IWXL);骵冂木冂冖(OEOL),
七灬(AUEU)。5.2.9 取碼的其它補充說明(1)嵌套根等雜合根分解成兩個根后的取根順序若有橫線段橫貫左右,上位碼優(yōu)先取有筆畫或其一部分高于該橫線的根。下位取碼優(yōu)先取有筆畫的一部分低于該橫線的根。例,濃氵
冖(UWL),而不是氵冖
。確石隹冖(HVL)。舜爫丨匚(QFZY)。專ㄅ丶二(GJN)(2)廠類根的折解廠類根包括‘廠阝尸卩冂’等。它們的兩筆一個占左位,一個占上位,又在左上角碰頭,幻碼規(guī)定它們的二次折解取根順序如下上位取碼一律先取左邊者,分別是丿、丨、丿、丨、丨。下位取碼一律先取右邊者分別為一、乙、
。但‘巳’不屬廠類根,因為其‘’筆畫的一部分已在
之下,故‘巳’的上碼應(yīng)先取
(3)上開口框‘凵’為了便于判斷,幻碼規(guī)定上開口框‘凵’和其內(nèi)部的根為嵌套關(guān)系,而不是包與被包的關(guān)系。上位取碼先取上開口框中的根。例,兇乂兒凵(SRO)。函了凵又口(LOCK)。似類地,‘義’的拆解為丶乂丶丿(JSJF)。(4)撇根下位碼取碼順序下位取碼時,若當前已取根的左側(cè)有其它根的撇延下,若該撇是從當前根上方的中部延下則將含該撇的根視為上根,應(yīng)跳過而取進一步左側(cè)的其它根。若是從當前根上方的左側(cè)延下則將含該撇的根視為左側(cè)根,應(yīng)馬上取。例,艖
二
(KMNM);艙
人口尸(KGKP)。(5)‘日月白’三字中橫的越框取碼這三個字的框內(nèi)橫均可與穿過它們的筆畫組成較復雜的基本根。例,電七口一(EITH),不是囗一。甫豐丶冂(XJO),不是十丶冂二。鬼
尢厶(KSQ)。
此外,日中橫還可與其直接上、下方的單獨橫組成‘二’或‘三’根。例但亻囗二(VIN),不是亻囗一一。
注意,這種取碼方式是將中橫歸附于外根,但不要拆散外根。例,果囗木一八(IEHF),不是囗八
(IFX)。上述各種情況的橫已不再視為被包根了,而是將含該橫的根與框根視為嵌套關(guān)系。(6)偏旁部首的取碼原則偏旁部首的取碼與基本根一樣(實際上,許多偏旁部首就是基本根),只是要求其為四碼和不出現(xiàn)重碼。若拆解后不夠四碼,則補R。若出現(xiàn)重碼則將第四碼改為R(英語單詞Repeat表示重復),若仍為重碼則依次改為V、X、W,這可簡稱為RVX法(實際上,這在鍵盤上也是順時針旋轉(zhuǎn),其中W幾乎用不上)?;么a出現(xiàn)重碼的機會是很少的,輸入偏旁部首的機會也是很少的,即使要輸偏旁部首也會引起特別注意,一般不會出錯。例,刂刂丨亅R(VFBR),钅钅七(RRER),釒BGYR(金B(yǎng)GYM)。(7)‘刁乜’字的取碼唯一兩個由兩個單筆基本根組成的漢字。取完兩單筆碼后,補兩個R。例,乜TBRR(8)外文字母、拼音等的取碼規(guī)則幻碼對外文字母、假名及符號的編碼也按一定規(guī)律作了編碼,這里略。(9)查尋幫助碼幻碼的676個二級簡碼漢字中有幾個漢字不常用,可減去一個,留出的碼位作為查尋碼,鍵入該二級碼后,進入查尋幫助狀態(tài),可選擇拼音、四角號碼、筆畫、部分已知根等方式查找漢字及對應(yīng)的幻碼,找到并鍵入要查找的漢字后,自動返回到幻碼輸入狀態(tài)。5.2.10 取碼的總思維順序
圖3是基本的思維流程,用它可對絕大部分漢字進行編碼。有些漢字比較復雜,需用圖4的思維流程,它基本概括了各種情況的編碼思維流程(按編號順序優(yōu)先取碼)。圖中3與8,5與6表示嵌套根,其中5在上面封蓋6。進一步解釋如下(1)當已取完左下角根碼5后,若左下角直接上方范圍有根7時,則取該上方根,在此之前應(yīng)取6(參見5.2.8規(guī)定)。若無7,取完5后就返回右下角取其它根(這里即8)。若是6封蓋5,則取完5后即取6。例,籍囗八豐(QIFX);窺宀兒夫囗(CRAI);蘞卄乂二(SSNU)(2)當某根上部范圍有多根時,仍從左向右取,即圖中先取9,后取10。5.3 簡碼及平均碼長
由于幻碼是對簡繁漢字進行共容編碼,故對26個一級簡碼漢字的選取既考慮字的使用頻率也考慮字無簡繁區(qū)別(至少字的主要用法無簡繁區(qū)別)。令人欣喜的是,所選的一級簡碼字使用頻率都很高,且漢字中使用頻率最高的字‘的一了是我在人’等也在其中。根據(jù)統(tǒng)計,幻碼一級簡碼字的綜合出現(xiàn)頻率為21.1%。
二級簡碼空間只為676(若考慮一個幫助查詢碼,則安排675個漢字),幻碼可為所有的二級碼位安排漢字??稍诨么a輸入法設(shè)置上選擇以繁體為主,則少量二級簡碼字將替換成頻率更高的繁體字。
三級簡碼也可作類似的安排。共安排了6200多個三級簡碼漢字。
平均碼長并不是衡量一種編碼的主要指標。平均碼長取決于一、二、三級簡碼字數(shù)以及總計入的字數(shù)。對于4-26制,一級簡碼空間為26,二級簡碼空間為676,三級簡碼空間為17576?;么a一、二級簡碼空間都全部安排了漢字,其中絕大多數(shù)為常用字。五筆字形和鄭碼的許多二級碼位無漢字安排(鄭碼是采用詞組充填)。幻碼三級簡碼漢字中,約有四千多為較常用漢字。5.4 重碼及其處理
在對現(xiàn)代漢語詞典及簡化漢字總表所列的所有近13000個簡、繁、異體漢字及一些偏旁部首進行的統(tǒng)一編碼中,出現(xiàn)了480多個重碼字,靜態(tài)全碼重碼率約為3.9%。在此基礎(chǔ)上,又增加了600多個漢字,由于這些漢字使用的機會很少,故如果出現(xiàn)重碼,就將其第四碼按RVX法處理,或/和直接在重碼后加‘,’將重碼字變?yōu)槲宕a選擇?;么a絕大多數(shù)重碼是兩字共用一個碼,最多三字共用一個碼,未出現(xiàn)四字重碼的情況(當然指已編碼的13000多字符范圍),且三分之二以上為簡-繁、簡-異、繁-繁、繁-異重碼,如果只對6763個國標簡化漢字編碼,則僅出現(xiàn)約150多個重碼字,即重碼率約為2.3%。對重碼字的處理一是通過一、二級簡碼區(qū)分;二是最常用的字排在前面,輸其它任何字的碼字母該字自動入屏。次常用字排第二;三是RVX法及五碼無重碼化處理。5.5 詞組及其它符號的輸入
與其它一些輸入法一樣,幻碼也可以加入詞組。詞組的取碼規(guī)則是,二字詞取第1、2字的前二碼;三字詞取第1字的前二碼,第2、3各字的前一碼。四字以上詞前四字各取開頭的一碼。
若出現(xiàn)詞與字,簡與繁的重碼,則可采取二級簡碼類似的處理。
幻碼還按一定編碼規(guī)則對英語大小寫字母、日文的平假名片假名、常用符號、俄文字大小母、希臘大小字母等約400個外文符號進行了編碼,使幻碼的應(yīng)用更加方便。5.6 其它說明(1)幻碼基本根的安排還考慮了心理因素。如撇(丿)、捺(點)(丶)在鍵盤處于對稱位置的F與J鍵,分別為左右食指鍵入,使人輸入的心理感順暢。(2)碼中各字母的出現(xiàn)次數(shù)均勻而合理。在近14000個漢字及各種字符的全碼中,出現(xiàn)最多的是F,最少的是P。若以P的出現(xiàn)次數(shù)為1,其它出現(xiàn)的相對次數(shù)見表2。
表2各字母在編碼中出現(xiàn)次數(shù)比
從表中可以看出,相對出現(xiàn)率最高的FKJHSDV等字母,它們的擊鍵速度也最快,而擊鍵速度較慢的PZBWL等出現(xiàn)率也最低。最高比為F/P=1.91。(86五筆字形該指標為G/O=4.37)。5.7 具體編碼列舉
在前面各處的說明已有不少例子,這里主要對一些典型字、難字、怪字和易出錯的字進行拆解說明。實際上,對幻碼來說,絕大部分漢字都是很容易拆解取碼的,不要受一些難拆字的影響。
舉UXFH,
不是基本根,需拆解。
例VHVZ,拆為亻一刂。已取滿四碼,‘夕’中被包的點不再取。
鮮AMXU,繁體‘魚’不是基本根。需拆分。
世TSHS,拆為乚廿一卄。因為乚為單筆根。無二次拆解根,故三、四碼取廿的兩個二次拆解碼。
繙QQIE,拆為糹
囗木。APUV,嵌套于‘黽’中的對稱根
不占右下角,故先取焦尾根‘灬’。
征RHWV,彳為虛擬嵌套根,應(yīng)加取其虛擬嵌套的‘亻’根。
陣QWTX,阝、車都為虛擬嵌套根。其中嵌套于車中的
根不被認為是占右下角。
魚ZAHR,基本根,二次拆分后仍不足四碼補R。
貫LGOD,該字上部并非是封口框,而是端部相連的兩折。
凹LOH,該字的書寫筆畫是
凹拆解為
一。
凸LLF,該字的書寫筆畫是
凸拆解為
|。
尷SVLK,尷尬二字所含的第一根是尢,不是九。
兼MFP,根據(jù)拆最少基本根的原則拆為并八 局PZKB,拆為
勹口
,不拆為尸
口。盡量保留包根。最少拆解根原則只是指漢字的 一次拆解。
必UEMT,為兩個基本根的雜合根,需進行二次折解,拆分為
七
乚。
辣JESM,第二根已占去右下角,第三根取右側(cè)的ナ。
玄JQHQ,不拆為JQHJ,因厶是一個字。
兵VFHH,不分拆為
ハ二丨,因為‘二’夾根不太標準。
哉DWKJ,拆為十
口丶,不是吉七丶,因為‘吉’不太標準。
朱REFF,根據(jù)5.2.2(1)和(7)拆為木丿八。
爪VWFJ,拆分為
卜丿丶。
頁HGO,拆分為丆人冂。
頁HFIN,拆分為丆八囗二。不折為一八
二。因為貝為較大的成字根,且兩種折分的根是 一樣多。
肺ODON,右邊部分不是‘市’,而是巿。
惠XUHI,拆為
心
囗,不拆為心丶囗,因為青字頭不太標準。
亥JGT,拆分為亠人
鳥ZZHJ,基本根,拆分為鳥
一丶。釵RCCE,拆分為钅叉又七。兆URMT,不是QTM。延GFTW,不是GFW。末XXFR,基本根,需加R湊夠四碼。已PTBH,雜合根,另一根為單筆,故取二次拆解的另一根‘一’。疆PYDI,其中土不是被包根。題IHWN,不是IHWH或IHWG。爾ZAFF,雜合字,拆為小丿八,不是ZABF。善MKXM,拆為口丷。察CANL,
近似看為端連根。瓦YGYJ,
都是基本根。塞CBFY,拆為宀土八三。廈GZKH,不是GZIH。下HWJF,不拆為丶一丨,因為卜是一常見成字根。丐HGH。書FJYB,拆分為丨丶
。
為MTU,
灬牙;YWHB,拆分為
小一亅。矛BLB,不是BWB或BVB。言NJKY,不是NJKN。
蘭MYFH,不是MNHH。勻ZMFH 敝URSC 嚴HGR 普MINR弱YPMP 引PFGP 專GJN 掣RVXF載DWWX 千FDFH 康BUCP弗VPFG至YBQH 哥HNKK 飛GMGV鳥KUKJ
權(quán)利要求
1.一種簡繁漢字統(tǒng)一鍵盤編碼方法,其特征是
(1)將漢字拆解成的字根經(jīng)優(yōu)化篩選出具有典型意義的、構(gòu)字能力強的元根;
(2)其中,部分元根含該元根的歸類同根。
(3)其中,部分元根是含多個元素的、具有集合概念的簇根;
(4)將元根至少分為26組,每組元根定義于計算機鍵盤的一個鍵位上;
2.根椐權(quán)利要求1.所述的一種簡繁漢字統(tǒng)一鍵盤編碼方法,其特征是所述元根是
僅對簡體漢字編碼時,至少包括下列字根(共52個)
、疒、眾、乙、廠、人、フ、廣、
、、兒、丿、
、七、木、十、力、宀、
、卜、艸、ナ、扌、
、阝、厶、小、大、ク、
、三、
、雙、一、二、丁、
、耳、氵、ッ、丶、冫、丷、囗、口、
ㄇ、蟲、
對簡繁漢字統(tǒng)一編碼時,還應(yīng)增加下列字根(共5個)
、風、門、金、言。
3.根據(jù)權(quán)利要求1和2所述的一種簡繁漢字統(tǒng)一鍵盤編碼方法,其特征是(1)元根的歸類同根是(共10個)
阝——乃、木——朩、冂——凵、匚——
、丿——丨、人——入、一——冫、丶——、金——釒、
(2)所述簇根包括雙等根、三等根、四等根、端連根、門簇對稱根、順折根、逆折根、復折根、 風簇繁體根等,其中
a.雙等根由完全相同的兩部分筆畫或字根組成的且未歸入其它鍵的根,以元素‘雙’代表;
b.三等根由完全相同的三部分筆畫或字根組成的且未歸入其它鍵的根,以元素‘眾’代表;
c.四等根由完全相同的四部分筆畫或字根組成的且未歸入其它鍵的根,以元素
代表;
d.端連根任意兩筆畫端頭相連接且不屬于其它定義所構(gòu)成的根,以元素
代表;
e.門簇對稱根左右兩部分對稱或近似對稱且不屬于其它定義的根,以元素‘門’代表;
f.順折根書寫總體行筆方向為順時針旋轉(zhuǎn)的折,以元素
代表;
g.逆折根書寫總體行筆方向為逆時針方向旋轉(zhuǎn)的折,以元素
代表;
h.復折根書寫行筆方向既包含順時針旋轉(zhuǎn),也包含逆時針旋轉(zhuǎn)的折,以元素‘乙’代表;
i.風簇繁體根是指5個只出現(xiàn)在繁體字中的字根,包括風、龍、齒、
4.根據(jù)權(quán)利要求3所述的一種簡繁漢字統(tǒng)一鍵盤編碼方法,其特征是下列元根通過添加筆畫或變形形成一些元根的擴展根,擴展根與元根一起構(gòu)成基本根レㄑ、乚、
纟、匕、丩、比;乙ㄋ、ㄅ、ㄋ、讠、廴、九;人
、俞;フ
乛、亅、マ、ユ、子、孑、ㄗ、刀、
彡、彳、亻、川、
、钅、
、氣;兒
丿ノ、ハ、山;亻、
、刂、リ、丿丨、
隹;七
、屮、出;十土、士、由、吉;力又、
、叉、巾、
女、車、戊、戔、
卜
、、止、
鹵;艸廿、
廾、卅、
、艸、帶;ナ 乂、
、尢;扌
丈、豐、
、末;、爫、丬、
厶幺、糹、糸;?。烩?、、氺、水、
、尚;大夫、
ク勹、、夂、
、魚、詹;鳥;三王;
一 、丆、石、不、雨、
二平;西、覀氵灬、
癶、心;丶門、之、辶、礻、亠、方、童;冫
丷、火、并、半;囗甲;
鳥;ㄇ冂、卩、
冖、幾、
殳;
、尸、弓、巳、
民。
5.根據(jù)權(quán)利要求1和4所述的一種簡繁漢字統(tǒng)一鍵盤編碼方法,其特征是所述鍵盤為國際上通行的標準計算機鍵盤,基本根與鍵盤的對應(yīng)關(guān)系是Tレ、疒、眾,ㄑ、乚、
纟、匕、
、丩、比;G乙、廠、人,ㄋ、ㄅ、ㄋ、讠、廴、九,
、俞;Bフ、廣、金,
乛、亅、マ、ユ、子、孑、ㄗ、刀、
R
、、兒,彡、彳、
、川、
、钅、
、氣,
F丿,ノ、ハ、山;V
、門,亻、
、刂、
隹;E七、木,弋、
屮、出;D十,土、士、由、吉;C力、宀,又、
、叉、巾、
W
、卜,女、車、戊、戔、
、止、
鹵;S艸、ナ,廿、
廾、卅、
帶,乂、
、尢;X扌,
丈、豐、
、末;Q
、阝、厶,、爫、丬、
幺、糹、糸;A小、大、
,忄、、氺、水、
、尚,夫、
Zク、
,勹、、夂、
、魚、詹,鳥;Y三、
、雙,王,
H一,
、、丆、石、不、雨;N二、丁、
、耳、言,平、西、覀;U氵、ッ,灬
癶、心;J丶,門、之、辶、礻、亠、方、童;M冫、丷,
,、火、并、半、
I囗,甲;K口、
鳥;Oㄇ,冂、卩、
L蟲、且、
冖、幾、
殳;P
風,
尸、弓、巳、
民,龍、
6.根據(jù)權(quán)利要求5所述的一種簡繁漢字統(tǒng)一鍵盤編碼方法,其等征在于漢字拆解方法應(yīng)按以下編號順序優(yōu)先考慮(1)一個漢字盡量以最少的基本根折解;(2)盡量不拆框口根和包根;(3)盡量考慮夾根、嵌套根,夾根的筆畫是不能與夾外筆畫構(gòu)成根的單筆畫;(4)上筆畫盡量拆為上位根;(5)盡量按書寫筆畫順序拆解;(6)盡量不拆交;(7)盡量保留最大的標準常用成字根;(8)上位碼的筆畫盡量多,下位碼的筆畫盡量少。
7.一種簡繁漢字統(tǒng)一鍵盤編碼的輸入方法,其特征是該方法的基本原則是
第1碼取左上角的基本根碼,第2碼取緊挨著第1碼右邊的基本根碼,再從右下角取第3碼,第4碼取緊挨著第3碼左邊的基本根碼;
若一個漢字可拆解成三個基本根,則只需輸入這三個根的碼作為該字的編碼;
若一個漢字可拆解成四個基本根,則輸入這四個根的碼作為該字的編碼;
若一個漢字可拆解成五個及五個以上的基本根,則只需按該基本原則取四個根的碼作為該字的編碼;
若一個漢字只能拆出兩個基本根,則還需取兩個基本根的二次拆解碼作為第3、4碼,方法如下 1、2碼根若為左右型關(guān)系,3、4碼分別取2、1碼根的右下角二次拆解根碼; 1、2碼根若為上下型關(guān)系,3、4碼分別取1、2碼根的右下角二次拆解根碼; 1、2碼根若為雜合型,3、4碼則取1碼根的二次拆解上位根碼和2碼根的右下角根碼;
若1、2碼根任何一個為單筆根,由于單筆不能進行二次拆解,則第4碼取另一根二次折解根的其它根碼;
若輸入的字符為基本根本身,則第1碼取基本根本身的碼,第2、3、4碼取基本根的二次拆解碼,若還不足四碼,需用一特定鍵位補足四碼。
8.根椐權(quán)利要求7所述的一種簡繁漢字統(tǒng)一鍵盤編碼的輸入方法,其特征是含包根的漢字的輸入方法是(1)取碼時遇著包根先只取包根碼,不管被包的包內(nèi)根,待整個字無其它根可取時,才依次返回取
包內(nèi)根的碼;包內(nèi)根取碼是從右下角開始,若第1、2碼都是包根,第3、4碼分別取第2、1
包內(nèi)根碼;(2)若一個漢字的一次拆解只能拆出三個基本根,并且第三根為包內(nèi)根,則需對另一個非包根進行
二次折解補充第4碼;(3)若一個漢字是由包根包住兩個基本根組成,則第四碼取第二根的右下角二次折解碼;若第二根為單筆根,則不再取碼。
9.根椐權(quán)利要求7所述的一種簡繁漢字統(tǒng)一鍵盤編碼的輸入方法,其特征是含雙等根、多等根、對稱根的漢字的輸入方法是(1)取碼時遇著雙等根、多等根時,分別取Y、T、R,待整個漢字無其它根可取時,再將雙等根、多等根的任何一個等根部分看作一個獨立的字從左上角開始進行補充取碼,若一個字既包含雙、多等根,也包含包根,則先取一個等根碼后再取包內(nèi)根碼;
若一個漢字只由一個任意基本根和一個雙等根或多等根組成,并且等根也是由一個基本根構(gòu)成,則第4碼取前者的二次折解碼;
含雙、多等根的字的全碼一定取足四碼,否則先對等根進行二次拆解取碼,若仍不足四碼,則補R;
(2)含對稱根的字與含雙、多等根的字作相同的處理,但只考慮對稱根的左半部分,右半部分不予考慮。
10.根椐權(quán)利要求7所述的一種簡繁漢字統(tǒng)一鍵盤編碼的輸入方法,其特征是含夾根、嵌套根、虛擬嵌套根的漢字的輸入方法是
含夾根、嵌套根、虛擬嵌套根時,取完它們的一個根碼后,若是上位取碼,右邊還有根則取右根的碼;若是下位取碼,左邊還有根則取左根的碼,即每次取碼都要盡可能向左或右移動位置;但向上取根前,需將夾根、嵌套根、虛擬嵌套根的所有根取完后才進行;左右型漢字若右邊為一嵌套根,第三碼是否取嵌套根的另一個根要看該根是否占右下角。
全文摘要
本發(fā)明涉及一種簡繁漢字統(tǒng)一鍵盤編碼方法及輸入方法,其主要技術(shù)特征是將漢字拆解成的字根經(jīng)優(yōu)化篩選出具有典型意義的、構(gòu)字能力強的元根,其中部分元根是含多個元素的、具有集合概念的雙等根、三等根、四等根、端連根、門簇對稱根、順折根、逆折根、復折根、風簇繁體根等簇根,元根通過添加筆畫或變形形成一些元根的擴展根,擴展根與元根一起構(gòu)成基本根,將基本根分為26組,每組按一定規(guī)律定義于鍵盤A——Z26個字母鍵上。其基本輸入方法是:第1碼取左上角的基本根碼,第2碼取緊挨著第1碼右邊的基本根碼,再從右下角取第3碼,第4碼取緊挨著第3碼左邊的基本根碼。
文檔編號G06F3/023GK1376970SQ0211366
公開日2002年10月30日 申請日期2002年4月28日 優(yōu)先權(quán)日2002年4月28日
發(fā)明者宦秉煉 申請人:宦秉煉