專利名稱:以詞為單位的音形意漢字編碼及中西文兼容鍵盤的制作方法
技術(shù)領(lǐng)域:
本發(fā)明是一種用于計(jì)算機(jī)漢字信息處理的以詞為單位的音形意漢字編碼及與之相適應(yīng)的中西文兼容鍵盤。本發(fā)明的音形意漢字編碼以詞為主要編碼對象。
漢字?jǐn)?shù)量極多,字形復(fù)雜,同音字、同音詞非常多,而且在實(shí)際生活中,不但存在著標(biāo)準(zhǔn)的簡化字,而且還存在著大量的繁體字、異體字等不規(guī)范的漢字,這使得漢字編碼成為計(jì)算機(jī)漢字信息處理中的一大難題。目前很多漢字編碼方法,在解決專業(yè)人員的錄入問題上取成了很大的突破,基本上滿足了這部分人的需要。但是廣大非專業(yè)人員在使用計(jì)算機(jī)輸入漢字(不僅僅是錄入漢字)時(shí)卻依然困難重重。
目前在計(jì)算機(jī)漢字信息處理中被廣泛使用的漢字編碼主要有兩大類,一類是拼音碼,另一類是以五筆字型為代表的字型碼。
目前在計(jì)算機(jī)上使用的字型碼,大多都是根據(jù)所選擇的字符集(一般都采用GB 2312-80)中的漢字,篩選出一個(gè)“字根”子集,再把這些“字根”依某種規(guī)律安排在西文鍵盤的鍵位上,輸入漢字時(shí)依照定義的組字規(guī)則逐個(gè)取碼。這種方式,所篩選的“字根”很多都不是傳統(tǒng)意義上的偏旁部首,而是所選字符集中“組字能力最強(qiáng)”的一種筆劃組合;同時(shí)“字根”在鍵盤上的分布及漢字的編碼規(guī)則也大多是設(shè)計(jì)者人為設(shè)定的,這些與人們所掌握的普通漢字和漢語知識相去甚遠(yuǎn),大都需經(jīng)過專門的訓(xùn)練和學(xué)習(xí)以及長期的、經(jīng)常性的使用方能運(yùn)用自如。因而字型碼主要適用于專業(yè)人員使用計(jì)算機(jī)錄入漢字的工作,對廣大的非專業(yè)人員并不適合。
由于漢字的同音字和同音詞非常多,所以拼音碼的重碼率很高,拼音碼漢字輸入的效率很低。現(xiàn)用的一些拼音碼為縮短編碼長度,作了一些硬性規(guī)定,如用a代替zh、用u代替sh、用s代替ong等等,使得這些拼音碼與規(guī)范的漢語拼音相去甚遠(yuǎn),給使用帶來很多不便。在現(xiàn)用的所有拼音碼中,全拼拼音法最適合于非專業(yè)人員使用,它的最大好處是不用學(xué)習(xí)和記憶就可以使用。不過這種方法重碼率很高,選字非常麻煩,輸入速度很慢,隨著社會(huì)的進(jìn)步,它越來越不適于時(shí)代的要求。
本發(fā)明的目的即在于根據(jù)《漢語拼音方案》、《漢語拼音正詞法基本規(guī)則》、《現(xiàn)代漢語詞典》部首檢字表、《標(biāo)點(diǎn)符號用法》以及漢字的音、形、意三大特征等規(guī)范的漢語知識設(shè)計(jì)一種音形意漢字編碼,及與之相適應(yīng)的中西文兼容鍵盤,使人們稍經(jīng)學(xué)習(xí)便可以依靠所掌握的漢語及漢字的知識在計(jì)算機(jī)上實(shí)現(xiàn)快速的漢字輸入。
本發(fā)明對標(biāo)準(zhǔn)的西文鍵盤鍵位進(jìn)行了調(diào)整,重新定義了各鍵位,設(shè)計(jì)出一個(gè)中西文兼容的計(jì)算機(jī)鍵盤。在中文狀態(tài)下定義了包括全部聲母(共23個(gè),即b、p、m、f、d、t、n、l、g、k、h、j、q、x、zh、ch、sh、r、z、c、s以及y、w)和全部韻母字母(共9個(gè),即a、e、i、o、u、ü、ng、r、n)在內(nèi)的30個(gè)拼音碼鍵位(其中聲母n與韻母字母n、聲母r與韻母字母r占用同一鍵位),16種共計(jì)32個(gè)標(biāo)點(diǎn)符號鍵位,容納188個(gè)漢字部首的40個(gè)漢字部首碼鍵位(K鍵特殊,不對應(yīng)任何漢字部首)及一組輔助鍵位;在西文狀態(tài)下定義了52個(gè)英文大小寫字母、10個(gè)阿拉伯?dāng)?shù)字、30個(gè)西文符號及一組輔助鍵位。在該鍵盤的基礎(chǔ)上,本發(fā)明對標(biāo)準(zhǔn)的漢語拼音進(jìn)行了符合《漢語拼音方案》的標(biāo)準(zhǔn)代換,省去了聲調(diào)符號,并將所有雙字母(即zh、ch、sh、ng)都用其省寫形式(即 、)來代替,構(gòu)成漢字的拼音碼。將漢字的部首定義在各部首碼鍵位上;定義漢字除部首之外的部分為字身,用構(gòu)成字身的前三個(gè)部首的部首碼構(gòu)成字身碼(當(dāng)構(gòu)成字身的部首不足三個(gè)時(shí)有幾個(gè)取幾個(gè))。用部首碼+字身碼構(gòu)成漢字的筆形碼。用拼音碼+筆形碼(或筆形碼)構(gòu)成單個(gè)漢字的編碼。各單個(gè)漢字的編碼連在一起,加詞尾(或略語)即為詞的編碼。
與現(xiàn)有技術(shù)相比,本發(fā)明具有下列顯著優(yōu)點(diǎn)1、本發(fā)明通用性強(qiáng),可編碼所有漢字(包括簡體字、繁體字、異體字甚至自造字),不僅可用于中國大陸,而且可供全世界的華人及使用漢字的非華人使用,有助于普通話的廣泛推行和傳播,有助于漢語文化的廣泛傳播。
2、漢字的編碼由漢字的拼音碼+筆形碼或僅由其筆形碼所構(gòu)成,完全符合人們所掌握的漢語和漢字的傳統(tǒng)知識,且漢字的部首是《現(xiàn)代漢語詞典》所選用的188個(gè)傳統(tǒng)意義上的部首,筆形碼也有明確的規(guī)定,符合人們的自然習(xí)慣,因而編碼自然,容易掌握。
3、本發(fā)明以詞為編碼對象,輸入時(shí)可以完全實(shí)現(xiàn)按詞為單位進(jìn)行輸入,不但能有效地減少重碼,而且有助于糾正錯(cuò)別字和一些常見的習(xí)慣性錯(cuò)誤(如讀音不準(zhǔn)確、對漢字部首認(rèn)識不準(zhǔn)確、書寫漢字筆順不對等等),有助于推廣普通話,促進(jìn)漢語規(guī)范化,以及有效地提高使用者自身的漢語水平。
4、本發(fā)明充分利用了漢字的音(拼音)、形(筆形)、意(詞)三大特征,不僅符合漢字和漢語傳統(tǒng)的知識,科學(xué)、合理、系統(tǒng),易學(xué)易用,而且重碼率很低,輸入漢字的效率高。
5、本發(fā)明利用自行設(shè)計(jì)的中西文兼容鍵盤,全面地實(shí)現(xiàn)了全部中文標(biāo)點(diǎn)符號編碼,鍵位安排合理、易于記憶,大大方便了使用者。
6、本發(fā)明采用自行設(shè)計(jì)的中西文兼容鍵盤,使除了“r”、“n”之外的每個(gè)聲母及每個(gè)韻母字母都占用一個(gè)唯一的鍵位,不僅符合《漢語拼音方案》的規(guī)定,而且有助于縮短漢字編碼的碼長,減少隔音符號的使用次數(shù)。
7、本發(fā)明利用自行設(shè)計(jì)的中西文兼容鍵盤,科學(xué)、合理地解決了漢語拼音、漢字部首、中文標(biāo)點(diǎn)符號等中文信息與英文字母、阿拉伯?dāng)?shù)字、西文符號等西文信息的兼容。
附
圖1是中文鍵盤鍵位示意圖。
附圖2是西文鍵盤鍵位示意圖。
下面對本發(fā)明作進(jìn)一步詳細(xì)的描述。
(一)中西文兼容鍵盤a、該鍵盤共有56個(gè)鍵位,其中有3個(gè)鍵位為狀態(tài)鍵位,40個(gè)鍵位為基本鍵位,13個(gè)鍵位為輔助鍵位換檔鍵(共2個(gè))、命令鍵為狀態(tài)鍵位;11-10、21-20、31-30、41-40共40個(gè)鍵位為基本鍵位;(1)-(13)共13個(gè)鍵位為輔助鍵位;
中文狀態(tài)為該鍵盤的主狀態(tài),一開機(jī)或從西文狀態(tài)中退出,鍵盤就處于中文狀態(tài)下;西文狀態(tài)為該鍵盤的次狀態(tài),在中文狀態(tài)下按住命令鍵(或同時(shí)按下命令鍵及換檔鍵),同時(shí)擊(12)鍵位,系統(tǒng)就進(jìn)入西文狀態(tài),在西文狀態(tài)下無論何時(shí)擊(10)鍵位,或按住SHIFT鍵(即換檔鍵)的同時(shí)擊(10)鍵位,系統(tǒng)就退出西文狀態(tài)并返回中文狀態(tài)b、中文鍵盤根據(jù)“換檔”、“命令”兩種狀態(tài)組合為下列4種狀態(tài)
c、中文狀態(tài)I的各鍵位定義該狀態(tài)下21-20、31-30、41-40的30個(gè)鍵位定義為拼音碼鍵位,即漢語拼音的聲母或者漢語拼音的韻母字母鍵位 鍵名 對應(yīng)拼音碼 類型 說明21 欺 q 聲母22 烏 w 聲母23 鵝 e 聲母
24 日 r 聲母或韻母字母25 特 t 聲母26 衣 y 聲母27 烏 u 韻母字母28 衣 i 韻母字母29 喔 o 韻母字母20 坡 p 聲母31 啊 a 韻母字母32 詩 聲母為sh(詩)的省寫形式33 得 d 聲母34 佛 f 聲母35 哥 g 聲母 不作韻母字母36 喝 h 聲母 不作zh、ch、sh中的h37 基 j 聲母38 科 k 聲母39 勒 l 聲母30 思 s 聲母41 知 聲母為zh(知)的省寫形式42 希 x 聲母43 蚩 聲母為ch(蚩)的省寫形式44 迂 ü 韻母字母45 玻 b 聲母46 訥 n 聲母或韻母字母47 摸 m 聲母48 雌 c 聲母49 韻母字母為ng的省寫形式40 資 z 聲母《漢語拼音方案》中的zh(知)、ch(蚩)、sh(詩)三個(gè)聲母在拼音碼中能且僅能以其省寫形式 表示出來;同時(shí)《漢語拼音方案》中的ang(昂)、iang(央)、uang(汪)、eng(亨的韻母)、ing(英)、ueng(翁)、ong(轟的韻母)、iong(雍),八個(gè)韻母在拼音碼中能且僅能以其省寫形式 表示出來;
該狀態(tài)下11-10的10個(gè)鍵位定義為漢字部首碼鍵位鍵位 鍵名 部首碼 對應(yīng)部首11 橫 1 一 示 礻(示)髟12 垂 2 丨 丿 彡 攴 采13 點(diǎn) 3 丶 冫 氵 灬 水(氺)14 十 4 十15 手 5 手 扌16 口 6 口17 折 7 乙 ( ) 巛彐(彐彑)屮18 八 8 八(丷) 人(入) 亻 彳19 小 9 小() 忄()10 亠 0 亠 衣 衤 言 讠(訁)注垂包括直(丨)、撇(丿);乙包括 、亅、、 、く等筆形。
該狀態(tài)下(1)-(13)的13個(gè)鍵位定義為輔助鍵位鍵位鍵名定義(1)半連寫短橫《漢語拼音正詞法基本規(guī)則》中的半連寫短橫“ -”(2)下頁用于選擇重碼提示行下翻一頁(相當(dāng)于一般西文鍵盤中的↓鍵)(3)上頁用于選擇重碼提示行上翻一頁(相當(dāng)于一般西 文鍵盤中↑鍵)(4)修改即一般西文鍵盤中的BACKSPACE鍵(5)制表即一般西文鍵盤中的TAB鍵(6)下一用于選擇重碼;提示行中光標(biāo)向右移一詞(相當(dāng)于一般西文鍵盤中的→鍵)(7)上一用于選擇重碼提示行中光標(biāo)向左移一詞(相當(dāng)于般西文鍵盤中的←鍵)(8)大寫鎖定按下該鍵后,中文狀態(tài)Ⅰ的30個(gè)拼音碼鍵位全部被鎖定為中文狀態(tài)Ⅱ的30個(gè)漢字部首碼鍵位,即擊a輸入A等,再按一次烣復(fù)原狀態(tài),即擊a輸入a等。該鍵位對中文狀態(tài)Ⅰ的30個(gè)拼音碼鍵位以外的任何中文鍵位不起作用(類似于一般西文鍵盤中的CapsLock鍵,但CapLock鍵僅對26個(gè)英文小寫字母鍵起作用,大寫鎖定鍵則對30個(gè)拼音碼鍵位起作用)(9)學(xué)習(xí)筆形碼萬能替換鍵。對漢字進(jìn)行編碼時(shí),如果記不清任何一個(gè)漢字的筆形碼中的任何一碼,可以擊該鍵代替(10)略語傳統(tǒng)詞的詞尾標(biāo)記(11)隔音符號《漢語拼音方案》中的隔音符號“'”如pi' ao(皮襖)的“'”。不過,本發(fā)明中隔音 符號用處很廣,用于所有的兩個(gè)漢字的編碼 的界限可能發(fā)生混淆的情況(12)詞尾標(biāo)準(zhǔn)詞的詞尾標(biāo)記(13)隔音符號與(11)鍵位完全相同d 中文狀態(tài)Ⅱ的各鍵位定義該狀態(tài)下11-10的10個(gè)鍵位定義為中文數(shù)字鍵位鍵位 11 12 13 14 15 16 17 18 19 10鍵名 一 二 三 四 五 六 七 八 九 ○定義 一 二 三 四 五 六 七 八 九 ○該狀態(tài)下21-20、31-30、41-40的30個(gè)鍵位定義為漢字部首鍵位鍵位鍵名部首碼對應(yīng)部首21 犬 Q 犬 犭 氣 欠 其 青22 王 W 王 文 攵 夂 韋(韋) 瓦 毋(母)23 二 E 二兒 耳卩( )阝(在左)阝(在右)
24 日 R 日 曰(曰)25 土 T 土 士 田 冖26 又 Y 又( ) 尢弋 月(月)業(yè)用 疋 ()幺 頁(頁) 羊()酉 音27 纟 U 纟(糹)糸 廴 丬(爿)28 疒 I 疒 宀29 口 O 口 冂 匚 凵20 片 P 片 皮31 艸 A 艸 廾(在下)32 食 食饣(食) 山石 尸身 豕鼠 矢舌 殳33 刀 D 刀( )刂大 豆歹 斗34 父 F 父 風(fēng) (風(fēng)) 方 缶35 工 G 工廣 弓戈 艮 ( )瓜革 骨鬼36 火 H 火戶 禾黒 37 金 J 金 钅(釒)幾(幾) 己(巳) 巾 見(見)斤 臼 角38 k K (不對應(yīng)任何部首)39 力 L 力 立 里 龍(龍) 耒 老 鹵(鹵) 鹿30 厶 S 厶 四41 竹 竹() 爪(爫) 舟止 豸隹42 心 X 心 血 西 (覀) 夕 穴 辛43 廠 廠車(車) 臣蟲 赤辰 齒(歯)44 魚 ü 魚(魚) 雨( ) 羽肀(聿聿)45 卜 B 卜(卜 )比 貝(貝) 白 鼻46 女 N 女 牛 (牜) 鳥 (鳥)47 木 M 木 馬(馬) 米 麥 (麥) 麻 毛 目 門(門) 矛 皿 黽(黽)48 寸 C 寸49 勹 勹40 走 Z 走辶( ) 子(孑) 自足()
該狀態(tài)下(1)-(13)的13個(gè)輔助鍵位與中文狀態(tài)Ⅰ完全相同;
e、中文狀態(tài)Ⅲ的各鍵位定義該狀態(tài)下11-15、21-25、31-35、41-45的20個(gè)鍵位無定義;
該狀態(tài)下16-10、26-20、36-30、46-40的20個(gè)鍵位定義為中文標(biāo)點(diǎn)符號鍵位鍵位 鍵名 標(biāo)點(diǎn)符號 說明16 連接號Ⅰ -17 破折號 -- (占兩個(gè)中文字符位置)18 省略號 …… (占兩個(gè)中文字符位置)19 左方括號 [10 右方括號 ]26 間隔號 .
27 頓號 、28 問號 ?29 左圓括號 (20 右圓括號 )36 冒號 37 逗號 ,38 句號Ⅰ39 左雙引號 “30 右雙引號 ”46 專名號 -47 分號 ;48 嘆號 !49 左雙書名號 《40 右雙書名號 》該狀態(tài)下(1)-(13)的13個(gè)輔助鍵位中(10)和(12)兩個(gè)鍵位定義如下鍵位 鍵名 定義(10) 回車 即一般西文鍵盤中的RETURN鍵(或ENTER鍵)(12) 西文 中文狀態(tài)下一旦擊該鍵即進(jìn)入西文狀態(tài)。
其他11個(gè)輔助鍵位定義與中文狀態(tài)Ⅰ下完全相同;
f、中文狀態(tài)Ⅳ的各鍵位定義該狀態(tài)下16、19、10、26、29、30、38、39、30、46、49、40共12個(gè)鍵位被定義為中文標(biāo)點(diǎn)符號鍵位鍵位 鍵名 標(biāo)點(diǎn)符號16 連接號Ⅱ ~19 左方頭括號 10 右方頭括號 26 著重號 .
29 左六角括號 〔20 右六角括號 〕38 句號Ⅱ .
39 左單引號 ‘30 右單引號 ’46 浪線 ~~~49 左單書名號 〈40 右單書名號 〉該狀態(tài)下17、18、27、28、36、37、47、48的八個(gè)鍵位無定義,其它所有鍵位與中文狀態(tài)Ⅲ完全相同;
j、西文鍵盤的各鍵位定義西文狀態(tài)下的鍵盤被稱為西文鍵盤。中文狀態(tài)的命令鍵及(11)、(13)兩個(gè)輔助鍵位在西文狀態(tài)下無定義;輔助鍵位(10)有特殊定義在西文狀態(tài)下,擊(10)鍵(或按下SHIFT鍵的同時(shí)擊(10)鍵),鍵盤就退出西文狀態(tài)并返回中文狀態(tài),26個(gè)大寫字母鍵、26個(gè)小寫字母鍵、10個(gè)阿拉伯?dāng)?shù)字鍵、30個(gè)西文標(biāo)點(diǎn)符號鍵及輔助鍵的字義與普通西文鍵盤相同。
(二)、漢字編碼a、定義漢字,通用漢字,常用漢字,“言文一致”的原則,漢字的分類,拼音,部首,分詞連寫法,《漢語拼音正詞法基本規(guī)則》。
a、1漢字,就是傳統(tǒng)意義上的漢字,包括所有的簡體字、繁體字、異體字甚至自造漢字。
a、2通用漢字,就是國家語言文字工作委員會(huì)、中華人民共和國新聞出版署于1988年3月25日聯(lián)合發(fā)布的《現(xiàn)代漢語通用字表》所收的7000個(gè)漢字,以及這7000個(gè)漢字在《簡化字總表(1986年新版)》中的繁體字形式。
a、3常用漢字,就是國家語言文字工作委員會(huì)、國家教育委員會(huì)于1988年1月26日聯(lián)合發(fā)布的《現(xiàn)代漢語常用字表》所收的3500個(gè)漢字,以及這3500個(gè)漢字在《簡化字總表(1986年新版)》中的繁體字形式。
a、4“言文一致”的原則任何一個(gè)漢字,在書面上印是一個(gè)字,口頭上說的也是單音,該字就符合“言文一致”的原則;反之,任何一個(gè)漢字,在書面上印是一個(gè)字,口頭上說的卻是雙音或雙音以上的多音,該字就不符合“言文一致”的原則。
a、5漢字的分類。所有的漢字分類如下a、5、1使用者知道這個(gè)漢字的標(biāo)準(zhǔn)漢語拼音;
a、5、1、1該漢字符合“言文一致”的原則;
a、5、1、1、1使用者知道這個(gè)漢字是一個(gè)通用漢字;
a、5、1、1、1、1使用者知道這個(gè)漢字是一個(gè)常用漢字;
a、5、1、1、1、2使用者雖然知道該漢字是一個(gè)通用漢字,但是并不知道該漢字是否是一個(gè)常用漢字;
a、5、1、1、2使用者并不知道這個(gè)漢字是否是一個(gè)通用漢字a、5、1、2、該漢字不符合“言文一致”的原則;
a、5、2使用者并不知道這個(gè)漢字的標(biāo)準(zhǔn)漢語拼音。
a、6拼音,就是規(guī)范的漢語拼音,也就是我國現(xiàn)在通用的標(biāo)準(zhǔn)的漢語拼音;本發(fā)明中凡提到一個(gè)漢字的拼音,指的就是該漢字標(biāo)準(zhǔn)的漢語拼音。
a、7部首,就是傳統(tǒng)意義上的漢字部首,即《現(xiàn)代漢語詞典》中的188個(gè)部首。另外,這188個(gè)部首凡是屬于《新舊字形對照表》中的新字形的(共涉及10個(gè)部首,即艸、辶、瓦、耒、、角、黽、食、骨、鬼),還包括其新字形所對應(yīng)的舊字形,并且將新舊字形看成同一個(gè)部首。本發(fā)明中提到一個(gè)漢字的部首,凡該漢字屬于《現(xiàn)代漢語詞典》收字范圍的,就按照《現(xiàn)代漢語詞典》部首檢字表中的方式確定其部首;否則按照傳統(tǒng)確定該字的部首是188個(gè)部首中的哪一個(gè)。
a、8《漢語拼音正詞法基本規(guī)則》,就是用《漢語拼音方案》拼寫現(xiàn)代漢語的規(guī)則。該規(guī)則是由國家教育委員會(huì)、國家語言文字工作委員會(huì)于1988年7月1日聯(lián)合公布的。本發(fā)明中僅采用該基本規(guī)則中的分詞連寫法以及該規(guī)則中提出的可供技術(shù)處理的變通方式。
a、9分詞連寫法,指1988年7月1日由國家教育委員會(huì)、國家語言文字工作委員會(huì)聯(lián)合公布的《漢語拼音正詞法基本規(guī)則》中的分詞連寫法。
b、拼音碼,部首碼,字身,無字身的漢字,有字身的漢字,字身碼,筆形碼,單個(gè)漢字的編碼。
b、1拼音碼,是由拼音同時(shí)經(jīng)過下述兩種標(biāo)準(zhǔn)代換得來的(a)拼音中的所有聲調(diào)符號在拼音碼中全部省去;
(b)拼音中的聲母zh(知)、ch(蚩)、sh(詩)在拼音碼中全部以 來代替,拼音中的韻母ang(昂)、iang(央)、uang(汪)、eng(亨的韻母)、ing(英)、ueng(翁)、ong(轟的韻母)、iong(雍)在拼音碼中全部以 來代替。
b、2部首碼,是由部首變化而來的;每一個(gè)部首均對應(yīng)一個(gè)部首碼,其對應(yīng)關(guān)系見本說明書中西文兼容鍵盤部分中文狀態(tài)Ⅰ及中文狀態(tài)Ⅱ下的漢字部首碼鍵位定義表。
b、3字身,是相對于部首而言的;漢字除去部首之外的部分,就是該漢字的字身。
b、4無字身的漢字是指以下179個(gè)漢字一、乙、二、十、廠、卜、八、人、入、兒、幾、厶、又、刀、力、爿、廣、門、(門)、工、土、士、大、(尢)、寸、弋、小、口、O、巾、山、彳、夕、尸、己、已、(巳)、( )、弓、女、幺、鄉(xiāng)、子、孓、孑、馬、(馬)、斗、文、方、火、(火)、心、戶、王、韋、(韋)、木、犬、歹、車、(車)、戈、比、瓦、止、日、曰、貝、(貝)、見、(見)、(見)、父、牛、手、毛、氣、片、斤、爪、月、欠、風(fēng)、(風(fēng))、殳、聿、毋、母、水、穴、立、示、石、龍、(龍)、業(yè)、目、田、甲、申、由、電、四、皿、矢、禾、白、瓜、鳥、(鳥)、用、 、甩、矛、疋、(疋)、皮、衣、羊、米、耒、老、考、耳、臣、西、頁、(頁)、蟲、缶、舌、竹、臼、自、血、舟、羽、艮、辛、言、麥、(麥)、走、赤、豆、酉、辰、豕、鹵、(鹵)、里、足、豸、谷、身、角、青、其、雨、齒、(歯)、黽、(黽)、金、隹、魚、(魚)、音、革、骨、食、鬼、( )、麻、鹿、黑、鼠、鼻。
注帶圓括號的字是繁體字或異體字。
另外,有9個(gè)無字身的漢字是有條件的?!班l(xiāng)”取“幺”為部首時(shí)為無字身的漢字,取“乙”為部首時(shí)則是有字身的漢字;“孑”、“孓”取“子”為部首時(shí)均為無字身的漢字,取“乙”為部首時(shí)則都是有字身的漢字;“甲”、“申”、“由”、“電”、取“田”為部首時(shí)均為無字身的漢字,取“丨”為部首時(shí)則都是有字身的漢字,“甩”取“用”為部首時(shí)為無字身的漢字,取“丿”為部首時(shí)則是有字身的漢字?!翱肌比 袄稀睘椴渴讜r(shí)是無字身的漢字,取“十”為部首時(shí)是有字身的漢字參見《現(xiàn)代漢語詞典》部首檢字表。
b、5有字身的漢字,是相對于無字身的漢字而言的。一個(gè)漢字不是無字身的漢字,就一定是一個(gè)有字身的漢字。
b、6字身碼,是由有字身的漢字的定義派生出來的。有字身的漢字一定有字身碼。反之,無字身的漢字一定沒有字身碼。一個(gè)有字身的漢字(為敘述方便起見以下稱之為漢字α,下同)的字身碼的碼長為一至三碼,取碼規(guī)則如下b、6、1使用者知道漢字α的字身本身能夠成為一個(gè)通用漢字β;
b、6、1、1漢字β是一個(gè)無字身的漢字,則漢字α的字身碼有且僅有一碼,即漢字β的部首碼b、6、1、2漢字β是一個(gè)有字身的漢字b、6、1、2、1漢字β的字身碼有且僅有一碼,則漢字α的字在碼有且僅有兩碼,第一碼為漢字β的部首碼,第二碼為漢字β的字身碼b、6、1、2、2漢字的β的字身碼有兩碼或兩碼以上,則漢字α的字身碼有且僅有三碼,第一碼為漢字β的部首碼,第二碼為漢字β的字身碼的第一碼,第三碼為漢字β的字身碼的第二碼;
b、6、2使用者并不知道漢字α的字身能否成為一個(gè)通用漢字;成的,則漢字α的字身碼有且僅有兩碼;按照漢字α的書寫順序依次取前三個(gè)部首,取每個(gè)部首的部首碼依次構(gòu)成漢字α的字身碼的第一碼、第二碼、第三碼;
b、6、2、2漢字α的字身是由兩個(gè)不相交的部首構(gòu)成的,則漢字α的字身碼有且僅有兩碼;按照漢字α的書寫順序取第一個(gè)部首的部首碼作為漢字α的字身碼的第一碼,取第二個(gè)部首的部首碼作為漢字α的字身碼的第二碼;
b、6、2、3漢字α的字身本身為且僅為一個(gè)部首,則漢字α的字身碼有且僅有一碼,即該部首的部首碼b、6、2、4其他情況;
b、6、2、4、1漢字α的字身是由三個(gè)或三個(gè)以上既不相連又不相交的部分構(gòu)成的,則漢字α的字身碼有且僅有三碼;按照漢字α的書寫順序依次取它的字身的前三部分,每部分按下述規(guī)則取一碼,依次構(gòu)成漢字α的字身碼的第一碼、第二碼、第三碼(a)該部分本身為且僅為一個(gè)部首時(shí),該部首的部首碼即為該部分的代碼,(b)其他任何情況取K為該部分的代碼;
b、6、2、4、2漢字α的字身是由兩個(gè)既不相連、又不相交的部分構(gòu)成的,則漢字α的字身碼有且僅有兩碼;按照漢字α的書寫順序依次取這兩部分,每部分按下述規(guī)則取一碼,依次構(gòu)成漢字α的字身碼的第一碼、第二碼(a)該部分本身為且僅為一個(gè)部首時(shí),該部首的部首碼即為該部分的代碼,(b)其他任何情況取K為該部分的代碼;
b、6、2、4、3其他任何情況,漢字α的字身碼有且僅有一碼,即K。
b、7筆形碼的定義如下無字身的漢字的筆形碼,就是該漢字的部首碼;有字身的漢字的筆形碼,由其部首碼+其字身碼構(gòu)成。
b、8單個(gè)漢字的編碼定義如下b、8、1使用者知道該漢字的標(biāo)準(zhǔn)漢語拼音
b、8、1、1該漢字符合“言文一致”的原則b、8、1、1、1中文數(shù)字“一”、“二”、“三”、“四”、“五”、“六”、“七”、“八”、“九”、“O”的10個(gè)漢字的編碼為其自身;
b、8、1、1、2其他漢字的編碼由其拼音碼+筆形碼構(gòu)成;
b、8、1、2該漢字不符合“言文一致”的原則,則該漢字的編碼由其筆形碼構(gòu)成。
b、8、2使用者并不知道該漢字的標(biāo)準(zhǔn)漢語拼音,則該漢字的編碼由其筆形碼構(gòu)成。
c、詞,詞的分類(標(biāo)準(zhǔn)詞、傳統(tǒng)詞、其他詞),單字詞,雙字詞,多字詞,隔音符號,加隔音符號的規(guī)則,詞的編碼;
c、1“詞”是現(xiàn)代漢語的一個(gè)新名詞,這個(gè)新名詞直到今天還沒有完全定形。本發(fā)明中所說的“詞”的定義比傳統(tǒng)意義上的“詞”的定義要寬得多。詞的定義如下單個(gè)漢字或者符合下列條件的連在一起的N個(gè)漢字(N為大于或等于2的正整數(shù)),只要使用者認(rèn)為是一個(gè)詞,就被定義為一個(gè)詞(a)N=2時(shí)(即該詞是由2個(gè)漢字構(gòu)成的),則第一個(gè)漢字和第二個(gè)漢字緊密相連,中間不存在其他任何文字符號(如中文標(biāo)點(diǎn)符號、西文字符等等);(b)N≥3時(shí)(即該詞是由3個(gè)或3人以上的漢字構(gòu)成的),任取一個(gè)大于1并且小于N的正整數(shù)m(即1<m<N),則第m-1個(gè)漢字和第m個(gè)漢字、第m個(gè)漢字和第m+1個(gè)漢字全都緊密相連,它們中間都不存在其他任何文字符號(如中文標(biāo)點(diǎn)符號、西文字符等等)。
c、2傳統(tǒng)詞,就是傳統(tǒng)意義上的漢語詞匯。
c、3標(biāo)準(zhǔn)詞,是由分詞連寫法所決定的。任何一個(gè)詞,凡是用《漢語拼音方案》拼寫為漢語拼音時(shí),按照分詞連寫法能夠構(gòu)成一個(gè)拼寫單位的,就被定義為一個(gè)標(biāo)準(zhǔn)詞。
c、4詞的分類。所有的詞分類如下c、4、1使用者知道這個(gè)詞是一個(gè)標(biāo)準(zhǔn)詞;
c、4、2使用者不知道這個(gè)詞是否是一個(gè)標(biāo)準(zhǔn)詞,但知道這個(gè)詞是一個(gè)傳統(tǒng)詞;
c、4、3其他情況,即使用者既不知道這個(gè)詞是否是一個(gè)標(biāo)準(zhǔn)詞,同時(shí)又不知道這個(gè)詞是否是一個(gè)傳統(tǒng)詞;
c、5單字詞,指僅由一個(gè)漢字(即單個(gè)漢字)所構(gòu)成的詞。
c、6雙字詞,指僅由兩個(gè)單個(gè)漢字所構(gòu)成的詞(即N=2的詞)。
c、7多字詞,指由三個(gè)或三個(gè)以上的單個(gè)漢字所構(gòu)成的詞(即N≥3的詞)。
c、8隔音符號,就是《漢語拼音方案》中的隔音符號。不過,本發(fā)明中隔音符號用的很廣,可用于所有的兩個(gè)單個(gè)漢字的編碼的界限可能發(fā)生混淆的情況。加隔音符號的規(guī)則如下c、8、1單字詞的編碼中不加隔音符號;
c、8、2雙字詞或多字詞的首字的編碼之前不加隔音符號;
c、8、3雙字詞或多字詞的除首字外的其他任何一個(gè)漢字,只要符合下列條件之一的,就必須在該字的編碼前加隔音符號;
c、8、3、1使用者并不知道該字的拼音,或者雖然知道該字的拼音,但該字不符合“言文一致”的原則(這兩種情況下該字的編碼是由其筆形碼構(gòu)成的);
c、8、3、2使用者知道該字的拼音,而且該字符合“言文一致”的原則,同時(shí),使用者還知道該字前的那個(gè)漢字的拼音,而且該字前的那個(gè)漢字也符合“言文一致”的原則,并且(a)該字的編碼的第一碼為a,且該字前面的那個(gè)漢字的編碼的最后一碼為b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、ü、w、y、z、 之中的任何一個(gè);(b)或者該字的編碼的第一碼為e,且該字前面的那個(gè)漢字的編碼的最后一碼為b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、ü、w、y、z、 之中的任何一個(gè);(c)或者該字的編碼的第一碼為o,且該字前面的那個(gè)漢字的編碼的最后一碼為a、b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、w、y、z、 之中的任何一個(gè);(d)或者該字的編碼的第一碼為n,且該字前面的那個(gè)漢字的編碼的最后一碼為a、e、i、u、ü之中的任何一個(gè);(e)或者該字的編碼的每一碼為r,且該字前面的那個(gè)漢字的編碼的最后一碼為e。
c、8、4其他任何情況,可以不加隔音符號。(注這種情況下不加隔音符號并不會(huì)使各單個(gè)漢字的編碼的界限發(fā)生混淆,因此不加隔音符號是最標(biāo)準(zhǔn)的處理方式。不過,使用者有時(shí)候可能弄不清楚到底該不該加隔音符號,因而加上隔音符號也被認(rèn)為是正確的。
c、9詞的編碼c、9、1使用者知道該詞是一個(gè)標(biāo)準(zhǔn)詞c、9、1、1單字詞“的”、“地”、“得”的編碼分別為d+詞尾、di+詞尾、de+詞尾c、9、1、2其他單字詞的編碼由構(gòu)成該單字詞的那個(gè)單個(gè)漢字的編碼+詞尾構(gòu)成c、9、1、3雙字詞或多字詞c、9、1、3、1組成該詞的最后一個(gè)單個(gè)漢字為注音作r的后綴“兒”,則該詞的編碼由該詞的最后一個(gè)漢字外的各單個(gè)漢字的編碼+r+詞尾構(gòu)成。其中按照加隔音符號的規(guī)則應(yīng)該加隔音符號的單個(gè)漢字還必須在其編碼前加隔音符號,此處還特別指出,后綴“兒”前面的那個(gè)漢字的編碼的最后一碼為e時(shí),也必須在“兒”的編碼(即r)前加隔音符號c、9、1、3、2其他情況下該詞的編碼由構(gòu)成該詞的各單個(gè)漢字的編碼+詞尾構(gòu)成;其中按照加隔音符號的規(guī)則應(yīng)該加隔音符號的單個(gè)漢字還必須在其編碼前加隔音符號。
c、9、2使用者并不知道該詞是否是一個(gè)標(biāo)準(zhǔn)詞,但知道該詞是一個(gè)傳統(tǒng)詞;
c、9、2、1該詞是一個(gè)單字詞,則該詞的編碼由構(gòu)成該單字詞的那個(gè)單個(gè)漢字的編碼+略語構(gòu)成;
c、9、2、2雙字詞或多字詞;
c、9、2、2、1組成該詞的最后一個(gè)單個(gè)漢字為注音作r的后綴“兒”,則該詞的編碼由該詞的最后一個(gè)漢字以外的各單個(gè)漢字的編碼+r+略語構(gòu)成;其中按照加隔音符號的規(guī)則應(yīng)該加隔音符號的單個(gè)漢字還必須在其編碼前加隔音符號,此處還特別指出,后綴“兒”前面的那個(gè)漢字的編碼的最后一碼為e時(shí),也必須在“兒”的編碼(即r)前加隔音符號;
c、9、2、2、2其他情況下該詞的編碼由構(gòu)成該詞的各單個(gè)漢字的編碼+略語構(gòu)成;其中按照加隔音符號的規(guī)則應(yīng)該加隔音符號的單個(gè)漢字還必須在其編碼前加隔音符號。
c、9、3其他任何情況,必須把這個(gè)詞全部拆為單個(gè)漢字,每個(gè)單個(gè)漢字都作為一個(gè)單字詞進(jìn)行輸入,每個(gè)單字詞的編碼為該漢字的編碼+詞尾構(gòu)成。
此外,為了進(jìn)一步提高漢字輸入的效率,本發(fā)明還可作如下改進(jìn)a、專有名詞在該詞的編碼前加i(即中文狀態(tài)Ⅰ下的“28”鍵位);專有名詞和普通名詞連在一起構(gòu)成的詞也在該詞的編碼前加i(即中文狀態(tài)Ⅰ下的“28”鍵位)。
b、由拼音碼+筆形碼所構(gòu)成的有字身的單個(gè)漢字的編碼由其拼音碼+部首碼+字身碼的第一碼所構(gòu)成。(注有字身的單個(gè)漢字一定有字身碼。)c、如b、所述的漢字編碼方法,其特征在于(一)以下142個(gè)單個(gè)漢字的編碼由其拼音碼所構(gòu)成廠,卜,兒,幾,厶,又,刀,力,廣,門,(門),工,土,大,(尢),寸,弋,巾,山,夕,尸,己,弓,女,幺,子,馬,(馬),斗,文,方,火,心,戶,王,韋,(韋),木,犬,歹,車,(車),戈,比,瓦,止,日,貝,(貝),見,(見),父,牛,毛,氣,片,斤,爪,月,欠,風(fēng),(風(fēng)),殳,聿,毋,穴,立,石,龍,(龍),業(yè),目,田,皿,矢,禾,白,瓜,鳥,(鳥),用,矛,疋,皮,羊,米,耒,老,耳,臣,西,頁,(頁),蟲,缶,舌,竹,臼,自,血,舟,羽,艮,辛,麥,(麥),走,赤,豆,酉,辰,豕,鹵,(鹵),里,足,豸,谷,身,角,青,其,齒,(歯),黽,(黽),金,隹,魚,(魚),雨,音,革,骨,食,鬼,( ),麻,鹿,黑,鼠,鼻(注帶圓括號的字是繁體字或異體字。)(二)符合以下條件的由拼音碼+筆形碼所構(gòu)成的有字身的單個(gè)漢字的編碼由其拼音碼+部首碼所構(gòu)成該漢字的字身本身能且僅能成為一個(gè)由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字,并且該漢字的拼音碼與該漢字的字身所能成的那個(gè)由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的拼音碼完全相同。
d、如b、所述的漢字編碼方法,被稱為本發(fā)明的標(biāo)準(zhǔn)碼。標(biāo)準(zhǔn)碼的特點(diǎn)是重碼率很低,但碼長比較長(最長時(shí)一個(gè)漢字的編碼長達(dá)六碼)。為了解決這一問題,本發(fā)明允許對標(biāo)準(zhǔn)碼進(jìn)行簡化。不過,簡化將會(huì)大大增加重碼,因此一般只用于比較常用的詞的輸入;但是,簡化后編碼的碼長可以是最簡單的形式,比如說一個(gè)單字詞的編碼碼長最短時(shí)僅一碼,一個(gè)N字詞(N≥2)的編碼碼長最短時(shí)僅有N碼,這就使輸入效率大大提高。對標(biāo)準(zhǔn)碼進(jìn)行簡化的總原則如下(a)能且僅能對由拼音碼+筆形碼所構(gòu)成的漢字的編碼進(jìn)行簡化;
(b)拼音碼的第一碼不可省去,同時(shí)若拼音碼的長度為三碼,則省去其第二碼,必須同時(shí)省去其第三碼,反之亦然;拼音碼的碼長若為四碼,則省去其第二碼,必須同時(shí)省去第三碼及第四碼,省去第三碼,必須同時(shí)省去第二碼及第四碼,省去第四碼,也必須同時(shí)省去第二碼及第三碼;
(c)有字身的漢字省去其部首碼,必須同時(shí)省去其字身碼;
(d)簡化往往會(huì)引起隔音符號的變化,必須根據(jù)加隔音符號的規(guī)則重新考慮是否應(yīng)該在該漢字后的那個(gè)漢字的編碼前加隔音符號。
只要符合上述總原則,可對詞中的任何一個(gè)漢字的編碼隨意進(jìn)行簡化。下面特別指出幾種有代表性的簡化方式d、1由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的編碼由其拼音碼+部首碼所構(gòu)成。(即該漢字如果有字身碼,則該漢字的編碼中的字身碼被省去。)d、2由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的編碼由其拼音碼的第一碼+筆形碼所構(gòu)成。(即該漢字的拼音碼如果為二至四碼,則該漢字的編碼中拼音碼除第一碼之外的部分被省去。)d、3由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的編碼由其拼音碼的第一碼+部首碼所構(gòu)成。(即該漢字的編碼有且僅有兩碼,第一碼為該漢字的拼音碼的第一碼,第二碼為其部首的部首碼。)d、4由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的編碼由其拼音碼的第一碼所構(gòu)成。(即該漢字的編碼有且僅有一碼,即該漢字的拼音碼的第一碼。)
d、5雙字詞或多字詞,首字為標(biāo)準(zhǔn)碼,首字外的其他所有由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的編碼由其拼音碼的第一碼所構(gòu)成。
d、6雙字詞或多字詞,最后一字以外的其他所有由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的編碼由其拼音碼的第一碼所構(gòu)成,最后一字的編碼為該字的標(biāo)準(zhǔn)碼。
d、7雙字詞或多字詞,最后一字以外的其他所有由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的編碼由其拼音碼的第一碼所構(gòu)成;最后一字如果是一個(gè)由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字,則最后一字的編碼由其拼音碼+其部首碼所構(gòu)成。
d、8雙字詞或多字詞,最后一字以外的其他所有由拼音碼+筆形碼所構(gòu)成的單個(gè)字的編碼由其拼音碼+筆形碼的第一碼所構(gòu)成;最后一字如果是一個(gè)由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字,則最后一字的編碼由其拼音碼所構(gòu)成(或由其拼音碼的第一碼+其部首碼所構(gòu)成)。
以上八種簡化方式僅僅是可能的簡化方案中最具代表性的八種,實(shí)際上,一個(gè)詞可以有許多種符合簡化總原則的輸入方法,任憑推演變化。
另外,對于標(biāo)準(zhǔn)碼來說,還有一種編碼方案,其重碼率更低,其特征在于半連寫短橫的用法(a)單字詞不用半連寫短橫(b)雙字詞或多字詞如果是一個(gè)標(biāo)準(zhǔn)詞,該詞拼成漢語拼音后,按照《漢語拼音正詞法基本規(guī)則》中的規(guī)定需在該詞的拼音中加半連寫短橫的,如“陸??哲姟钡钠匆魹椤發(fā)ù-hǎi-kōngjǖn”、“環(huán)?!钡钠匆魹椤癶uán-bǎo”等,還需在該詞的編碼中的對應(yīng)位置加半連寫短橫。
如“陸??哲姟钡木幋a為“陸”的標(biāo)準(zhǔn)碼+半連寫短橫+“?!钡臉?biāo)準(zhǔn)碼+半連寫短橫+“空”的標(biāo)準(zhǔn)碼+“軍”的標(biāo)準(zhǔn)碼+詞尾;又如“環(huán)?!钡木幋a為“環(huán)”的標(biāo)準(zhǔn)碼+半連寫短橫+“保”的標(biāo)準(zhǔn)碼+半連寫短橫+詞尾,等等。
下面稱上述編碼方案為標(biāo)準(zhǔn)碼Ⅱ。標(biāo)準(zhǔn)碼Ⅱ也適用于對標(biāo)準(zhǔn)碼進(jìn)行簡化的總原則,即也可以用該總原則對標(biāo)準(zhǔn)碼Ⅱ進(jìn)行簡化例如“陸??哲姟钡木幋a可以簡化為l-h-kj,或簡化為l-h-kjun等等;“環(huán)?!钡木幋a可以簡化為huan-bao,或簡化為h-b等等。
本發(fā)明主要用于計(jì)算機(jī)漢字信息處理,但也可用于字典或詞典的檢索和其他中文(或漢字)信息處理領(lǐng)域。本發(fā)明還可用于日文漢字等漢字的輸入(注這些漢字讀音不同于漢語拼音方案,因此這些漢字的編碼是由其筆形碼所構(gòu)成的),如中文中“價(jià)格”的“價(jià)”字,在日文中為“ ”字,該字也可用本發(fā)明進(jìn)行編碼,其編碼為8X。這正是本發(fā)明對中文信息處理技術(shù)的最大突破,即可以輸入所有漢字,無論它是一個(gè)簡體字,還是一個(gè)繁體字,或者是一個(gè)異體字或自造字,或者是一個(gè)漢語中根本不存在的日文漢字或其他類型的漢字。
上述編碼方法還可作下述改進(jìn),以使一些比較特殊的詞(如“芙蓉”、“嵯峨”、“機(jī)械”、“紡織”、“鋼鐵”等等)的編碼大為簡化,且重碼率大大下降標(biāo)準(zhǔn)詞中的雙字詞,若組成該雙字詞的兩個(gè)漢字的部首完全相同,且該部首在這兩個(gè)漢字中的位置完全相同,則該雙字詞的編碼由第一個(gè)漢字的拼音碼+第二個(gè)漢字的拼音碼+半連寫短橫+兩個(gè)漢字共同的部首的部首碼+詞尾構(gòu)成。該方法也適用于對標(biāo)準(zhǔn)碼進(jìn)行簡化的總原則;此外,還可將兩個(gè)漢字共同的部首的部首碼也一并省去。
權(quán)利要求
1.以詞為單位的音形意漢字編碼及中西文兼容鍵盤,其特征在于(一)中西文兼容鍵盤a、該鍵盤共有56個(gè)鍵位,其中有3個(gè)鍵位為狀態(tài)鍵位,40個(gè)鍵位為基本鍵位,13個(gè)鍵位為輔助鍵位,換檔鍵(共2個(gè))、命令鍵為狀態(tài)鍵位;11-10、21-20、31-30、41-40共40個(gè)鍵位為基本鍵位;(1)-(13)共13個(gè)鍵位為輔助鍵位;b、中文鍵盤根據(jù)“換檔”、“命令”兩種狀態(tài)組合為下列4種狀態(tài)<
c、中文狀態(tài)Ⅰ的各鍵位定義該狀態(tài)下21-20、31-30、41-40的30個(gè)鍵位定義為拼音碼鍵位,即漢語拼音的聲母或者漢語拼音的韻母字母鍵位 鍵名 對應(yīng)拼音碼 類型21欺q 聲母22烏w 聲母23鵝e 聲母24日r 聲母或韻母字母25特t 聲母26衣y 聲母27烏u 韻母字母28衣i 韻母字母29喔o 韻母字母20坡p 聲母31啊a 韻母字母32 詩 聲母33得d 聲母34佛f 聲母35哥g 聲母36喝h 聲母37基j 聲母38科k 聲母39勒l 聲母30思s 聲母41 知 聲母42希x 聲母43 聲母44 迂 韻母字母45玻b 聲母46訥n 聲母或韻母字母47摸m 聲母48雌c 聲母49 韻母字母40資z 聲母該狀態(tài)下11-10的10個(gè)鍵位定義為漢字部首碼鍵位鍵位 鍵名 部首碼 對應(yīng)部首11橫1 一示礻(示)髟12垂2 |丿彡攴采13 點(diǎn) 3 丶冫氵灬水( )14十4 十15手5 手扌16口6 口17 折 7 乙( )巛彐( ) 18 八 8 八( )人(入)亻彳19 小 9 小( )忄( )10亠0 亠衣衤言讠(言)該狀態(tài)下1-13的13個(gè)鍵位定義為輔助鍵位鍵位 鍵名 定義(1) 并連寫短橫 《漢語拼音正詞法基本規(guī)則》中的半連寫短橫“一”(2) 下頁 用于選擇重碼提示行下翻一頁(3) 上頁 用于選擇重碼提示行上翻一頁(4) 修改 即一般西文鍵盤中的BACKSPACE鍵(5) 制表 即一般西文鍵盤中的TAB(6) 下一 用于選擇重碼提示行中光標(biāo)向右移一詞(7) 上一 用于選擇重碼提示行中光標(biāo)向左移一詞;(8) 在寫鎖定 按下該鍵后,中文狀態(tài)Ⅰ的30個(gè)拼音碼鍵位全部被鎖定為中文狀態(tài)Ⅱ的30個(gè)漢字部首碼鍵位, 再按一次恢復(fù)原狀態(tài),該鍵位對中文狀態(tài)Ⅰ的30 個(gè)拼音碼鍵位以外的任何中文鍵位不起作用(9) 學(xué)習(xí) 筆形碼萬能替換鍵(10) 略語 傳統(tǒng)詞的詞尾標(biāo)記(11) 隔音符號 隔音符號“′”(12) 詞尾 標(biāo)準(zhǔn)詞的詞尾標(biāo)記(13) 隔音符號 與(11)鍵位完全相同d 中文狀態(tài)Ⅱ的各鍵位定義該狀態(tài)下11-10的10個(gè)鍵位定義為中文數(shù)字鍵位鍵位 11 12 13 14 15 16 17 18 19 10鍵名 一 二 三 四 五 六 七 八 九 ○定義 一 二 三 四 五 六 七 八 九 ○該狀態(tài)下21-20、31-30、41-40的30個(gè)鍵位定義為漢字部首鍵位鍵位 鍵名 部首碼 對應(yīng)部首21犬Q 犬 犭 氣 欠 其 青22 王 W 王 文 攵 夂 韋( )瓦 毋(母)23二E 二 兒 耳卩()阝(在左)阝(在右)24日R 日 曰(曰)25土T 土 士 田 冖26又Y 又(ヌ)尢 弋 月(月) 業(yè) 用 疋()幺 頁(頁)羊() 酉 音27 纟 U 纟( )糸 廴 丬(爿)28疒I 疒 宀29囗O 囗 冂 匚 凵20片P 片 皮31艸A 艸 廾(在下)32 食 食 饣(食) 山 石 尸 身 豕 鼠 矢舌 殳33刀D 刀()刂 大 豆 歹 斗34父F 父 風(fēng)(風(fēng)) 方 缶35 工 G 工 廣 弓 戈 艮( )瓜 革 骨 鬼36火H 火 戶 禾 黑 虍37金J 金 钅 (金)幾(幾) 已(巳)巾 見(見)斤 臼 角38k K (不對應(yīng)任何部首)39力L 力 立 里 龍(龍)耒 老 鹵(鹵) 鹿30厶S 厶 四41 竹 竹()爪(爫) 舟 止 豸 隹42心X 心 血 西(覀) 夕 穴 辛43 廠 廠 車(車)臣蟲 赤 辰 齒(齒)44 魚 ü 魚(魚)雨( )羽 肀 ( 聿)45 卜 B 卜( ) 比 貝(貝) 白 鼻46 女 N 女 牛(牜)鳥( )47 木 C 木 馬(馬)米 麥( )麻毛目門(鬥)矛 皿 黽( )48寸C 寸49勹 勹40 走 Z 走 辶( )子(孑)自 足()該狀態(tài)下(1)-(13)的13個(gè)輔助鍵位與中文狀態(tài)Ⅰ完全相同;e、中文狀態(tài)Ⅲ的各鍵位定義該狀態(tài)下11-15、21-25、31-35、41-45的20個(gè)鍵位無定義;該狀態(tài)下16-10、26-20、36-30、46-40的20個(gè)鍵位定義為中文標(biāo)點(diǎn)符號鍵位鍵位 鍵名 標(biāo)點(diǎn)符號說明16連接號Ⅰ -17破折號--(占兩個(gè)中文字符位置)18省略號…… (占兩個(gè)中文字符位置)19 左方括號[10 右方括號]26 間隔號 ·27 頓號、28 問號 29 左圓括號(20 右圓括號)36 冒號37 逗號,38 句號Ⅰ 。39 左雙引號“30 右雙引號”46 專名號 -47 分號;48 嘆號!49 左雙書名號 《40 右雙書名號 》該狀態(tài)下(1)--(13)的13個(gè)輔助鍵位中(10)和(12)兩個(gè)鍵位定義如下鍵位 鍵名 定義(10) 回車 即一般西文鍵盤中的RETURN鍵(或ENTER鍵)(12) 西文 中文狀態(tài)下一旦擊該鍵即進(jìn)入西文狀態(tài)。其他11個(gè)輔助鍵位定義與中文狀態(tài)Ⅰ下完全相同;f、中文狀態(tài)Ⅳ的各鍵位定義該狀態(tài)下16、19、10、26、29、30、38、39、30、46、49、40共12個(gè)鍵位被定義為中文標(biāo)點(diǎn)符號鍵位鍵位 鍵名標(biāo)點(diǎn)符號16連接號Ⅱ~19左方頭括號 10右方頭括號 26著重號 ·29左六角括號 〔20右六角括號 〕38句號Ⅱ 。39左單引號 ‘30右單引號’46浪線~~~49左單書名號 <40右單書名號 >該狀態(tài)下17、18、27、28、36、37、47、48的八個(gè)鍵位無定義,其它所有鍵位與中文狀態(tài)Ⅲ完全相同;(二)、漢字編碼b、拼音碼,部首碼,字身,無字身的漢字,有字身的漢字,字身碼,筆形碼,單個(gè)漢字的編碼b、1拼音碼,是由拼音同時(shí)經(jīng)過下述兩種標(biāo)準(zhǔn)代換得來的(a)拼音中的所有聲調(diào)符號在拼音碼中全部省去;(b)拼音中的聲母zh(知)、ch(蚩)、sh(詩)在拼音碼中全部以 、 來代替,拼音中的韻母ang(昂)、iang(央)、uang(汪)、eng(亨的韻母)、ing(英)、ueng(翁)、ong(轟的韻母)、iong(雍)在拼音碼中全部以a 、ia 、ua 、e 、i 、ue 、o 、io 來代替;b、2部首碼,是由部首變化而來的;每一個(gè)部首均對應(yīng)一個(gè)部首碼,其對應(yīng)關(guān)系見本說明書中西文兼容鍵盤部分中文狀態(tài)Ⅰ及中文狀態(tài)Ⅱ下的漢字部首碼鍵位定義表;b、3字身,是相對于部首而言的;漢字除去部首之外的部分,就是該漢字的字身;b、4無字身的漢字是指以下179個(gè)漢字一、乙、二、十、廠、卜、八、人、入、兒、幾、厶、又、刀、力、爿、廣、門、(門)、工、土、士、大、(尢)、寸、弋、小、口、○、巾、山、彳、夕、尸、己、已、(巳)、(巳)、弓、女、幺、鄉(xiāng)、子、孓、孑、馬、(馬)、斗、文、方、火、(火)、心、戶、王、韋、( )、木、犬、歹、車、(車)、戈、比、瓦、止、日、曰、貝、(貝)、見、(見)、(見)、父、牛、手、毛、氣、片、斤、爪、月、欠、風(fēng)、風(fēng)、殳、聿、毋、毌、母、水、穴、立、示、石、龍、(龍)、業(yè)、目、田、甲、申、由、電、四、皿、矢、禾、白、瓜、鳥、 、用、甩、矛、疋、(疋)、皮、衣、羊、米、耒、老、考、耳、臣、頁、(頁)、蟲、缶、舌、竹、臼、自、血、舟、羽、艮、辛、言、麥、( )、走、赤、豆、酉、辰、豕、鹵、(鹵)、里、足、豸、谷、身、角、青、其、雨、齒、(齒)、黽、( )、金、隹、魚、(魚)、音、革、骨、食、鬼、(門)、麻、鹿、黑、鼠、鼻;b、5有字身的漢字,是相對于無字身的漢字而言的;一個(gè)漢字不是無字身的漢字,就一定是一個(gè)有字身的漢字b、6字身碼,是由有字身的漢字的定義派生出來的;有字身的漢字一定有字身碼;反之,無字身的漢字一定沒有字身碼;一個(gè)有字身的漢字(為敘述方便起見以下稱之為漢字α,下同)的字身碼的碼長為一至三碼,取碼規(guī)則如下b、6、1使用者知道漢字α的字身本身能夠成為一個(gè)通用漢字β;b、6、1、1漢字β是一個(gè)無字身的漢字,則漢字α的字身碼有且僅有一碼,即漢字β的部首碼;b、6、1、2漢字β是一個(gè)有字身的漢字;b、6、1、2、1漢字β的字身碼有且僅有一碼,則漢字α的字在碼有且僅有兩碼,第一碼為漢字β的部首碼,第二碼為漢字β的字身碼;b、6、1、2、2漢字的β的字身碼有兩碼或兩碼以上,則漢字α的字身碼有且僅有三碼,第一碼為漢字β的部首碼,第二碼為漢字β的字身碼的第一碼,第三碼為漢字β的字身碼的第二碼;b、6、2使用者并不知道漢字α的字身能否成為一個(gè)通用漢字;b、6、2、1漢字α的字身是由三個(gè)或三個(gè)以上不相交的部首構(gòu)成的,則漢字α的字身碼有且僅有三碼;按照漢字α的書寫順序依次取前三個(gè)部首,取每個(gè)部首的部首碼依次構(gòu)成漢字α的字身碼的第一碼、第二碼、第三碼;b、6、2、2漢字α的字身是由兩個(gè)不相交的部首構(gòu)成的,則漢字α的字身碼有且僅有兩碼;按照漢字α的書寫順序取第一個(gè)部首的部首碼作為漢字α的字身碼的第一碼,取第二個(gè)部首的部首碼作為漢字α的字身碼的第二碼;b、6、2、3漢字α的字身本身為且僅為一個(gè)部首,則漢字α的字身碼有且僅有一碼,即該部首的部首碼;b、6、2、4其他情況;b、6、2、4、1漢字α的字身是由三個(gè)或三個(gè)以上既不相連又不相交的部分構(gòu)成的,則漢字α的字身碼有且僅有三碼;按照漢字α的書寫順序依次取它的字身的前三部分,每部分按下述規(guī)則取一碼,依次構(gòu)成漢字α的字身碼的第一碼、第二碼、第三碼(a)該部分本身為且僅為一個(gè)部首時(shí),該部首的部首碼即為該部分的代碼,(b)其他任何情況取K為該部分的代碼;b、6、2、4、2漢字α的字身是由兩個(gè)既不相連、又不相交的部分構(gòu)成的,則漢字α的字身碼有且僅有兩碼;按照漢字α的書寫順序依次取這兩部分,每部分按下述規(guī)則取一碼,依次構(gòu)成漢字α的字身碼的第一碼、第二碼(a)該部分本身為且僅為一個(gè)部首時(shí),該部首的部首碼即為該部分的代碼,(b)其他任何情況取K為該部分的代碼;b、6、2、4、3其他任何情況,漢字α的字身碼有且僅有一碼,即K;b、7筆形碼的定義如下無字身的漢字的筆形碼,就是該漢字的部首碼;有字身的漢字的筆形碼,由其部首碼+其字身碼構(gòu)成;b、8單個(gè)漢字的編碼定義如下b、8、1使用者知道該漢字的標(biāo)準(zhǔn)漢語拼音;b、8、1、1該漢字符合“言文一致”的原則;b、8、1、1、1中文數(shù)字“一”、“二”、“三”、“四”、“五”、“六”、“七”、“八”、“九”、“○”的10個(gè)漢字的編碼為其自身;b、8、1、1、2其他漢字的編碼由其拼音碼+筆形碼構(gòu)成;b、8、1、2該漢字不符合“言文一致”的原則,則該漢字的編碼由其筆形碼構(gòu)成;b、8、2使用者并不知道該漢字的標(biāo)準(zhǔn)漢語拼音,則該漢字的編碼由其筆形碼構(gòu)成;c、詞,詞的分類(標(biāo)準(zhǔn)詞、傳統(tǒng)詞、其他詞),單字詞,雙字詞,多字詞,隔音符號,加隔音符號的規(guī)則,詞的編碼;c、1詞的定義如下單個(gè)漢字或者符合下列條件的連在一起的N個(gè)漢字(N為大于或等于2的正整數(shù)),只要使用者認(rèn)為是一個(gè)詞,就被定義為一個(gè)詞(a)N=2時(shí)(即該詞是由2個(gè)漢字構(gòu)成的),則第一個(gè)漢字和第二個(gè)漢字緊密相連,中間不存在其他任何文符號(如中文標(biāo)點(diǎn)符號、西文字符等等);(b)N≥3時(shí)(即該詞是由3個(gè)或3個(gè)以上的漢字構(gòu)成的),任取一個(gè)大于1并且小于N的正整數(shù)m(即1<m<N)則,第m-1個(gè)漢字和第m個(gè)漢字、第m個(gè)漢字和第m+1個(gè)漢字全都緊密相連,它們中間都不存在其他任何文字符號(如中文標(biāo)點(diǎn)符號、西文字符等等)c、8加隔音符號的規(guī)則如下c、8、1單字詞的編碼中不加隔音符號c、8、2雙字詞或多字詞的首字的編碼之前不加隔音符號c、8、3雙字詞或多字詞的除首字外的其他任何一個(gè)漢字,只要符合下列條件之一的,就必須在該字的編碼前加隔音符號c、8、3、1使用者并不知道該字的拼音,或者雖然知道該字的拼音,但該字不符合“言文一致”的原則;c、8、3、2使用者知道該字的拼音,而且該字符合“言文一致”的原則,同時(shí),使用者還知道該字前的那個(gè)漢字的拼音,而且該字前的那個(gè)漢字也符合“言文一致”的原則,并且(a)該字的編碼的第一碼為a,且該字前面的那個(gè)漢字的編碼的最后一碼為b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、 、w、y、z、 之中的任何一個(gè);(b)或者該字的編碼的第一碼為e,且該字前面的那個(gè)漢字的編碼的最后一碼為b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、ü、w、y、z、 之中的任何一個(gè);(c)或者該字的編碼的第一碼為o,且該字前面的那個(gè)漢字的編碼的最后一碼為a、b、c、 、d、f、g、h、i、k、l、m、n、p、r、s、 、t、u、w、y、z、 之中的任何一個(gè);(d)或者該字的編碼的第一碼為n,且該字前面的那個(gè)漢字的編碼的最后一碼為a、e、i、u、ü之中的任何一個(gè);(e)或者該字的編碼的每一碼為r,且該字前面的那個(gè)漢字的編碼的最后一碼為ec、8、4其他任何情況,可以不加隔音符號c、9詞的編碼c、9、1使用者知道該詞是一個(gè)標(biāo)準(zhǔn)詞c、9、1、1單字詞“的”、“地”、“得”的編碼分別為d+詞尾、di+詞尾、de+詞尾;c、9、1、2其他單字詞的編碼由構(gòu)成該單字詞的那個(gè)單個(gè)漢字的編碼+詞尾構(gòu)成;c、9、1、3雙字詞或多字詞;c、9、1、3、1組成該詞的最后一個(gè)單個(gè)漢字為注音作r的后綴“兒”,則該詞的編碼由該詞的最后一個(gè)漢字外的各單個(gè)漢字的編碼+r+詞尾構(gòu)成。其中按照加隔音符號的規(guī)則應(yīng)該加隔音符號的單個(gè)漢字還必須在其編碼前加隔音符號,此處還特別指出,后綴“兒”前面的那個(gè)漢字的編碼的最后一碼為e時(shí),也必須在“兒”的編碼(即r)前加隔音符號;c、9、1、3、2其他情況下該詞的編碼由構(gòu)成該詞的各單個(gè)漢字的編碼+詞尾構(gòu)成;其中按照加隔音符號的規(guī)則應(yīng)該加隔音符號的單個(gè)漢字還必須在其編碼前加隔音符號;c、9、2使用者并不知道該詞是否是一個(gè)標(biāo)準(zhǔn)詞,但知道該詞是一個(gè)傳統(tǒng)詞;c、9、2、1該詞是一個(gè)單字詞,則該詞的編碼由構(gòu)成該單字詞的那個(gè)單個(gè)漢字的編碼+略語構(gòu)成;c、9、2、2雙字詞或多字詞c、9、2、2、1組成該詞的最后一個(gè)單個(gè)漢字為注音作r的后綴“兒”,則該詞的編碼由該詞的最后一個(gè)漢字以外的各單個(gè)漢字的編碼+r+略語構(gòu)成;其中按照加隔音符號的規(guī)則應(yīng)該加隔音符號的單個(gè)漢字還必須在其編碼前加隔音符號,此處還特別指出,后綴“兒”前面的那個(gè)漢字的編碼的最后一碼為e時(shí),也必須在“兒”的編碼(即r)前加隔音符號;c、9、2、2、2其他情況下該詞的編碼由構(gòu)成該詞的各單個(gè)漢字的編碼+略語構(gòu)成;其中按照加隔音符號的規(guī)則應(yīng)該加隔音符號的單個(gè)漢字還必須在其編碼前加隔音符號c、9、3其他任何情況,必須把這個(gè)詞全部拆為單個(gè)漢字,每個(gè)單個(gè)漢字都作為一個(gè)單字詞進(jìn)行輸入,每個(gè)單字詞的編碼為該漢字的編碼+詞尾構(gòu)成。
2.如權(quán)利要求1所述的以詞為單位的音形意漢字編碼及中西文兼容鍵盤,其特征在于專有名詞在該詞的編碼前加i;專有名詞和普通名詞連在一起構(gòu)成的詞也在該詞的編碼前加i。
3.如權(quán)利要求1或2所述的以詞單位的音形意漢字編碼及中西文兼容鍵盤,其特征在于由拼音碼+筆形碼所構(gòu)成的有字身的單個(gè)漢字的編碼由其拼音碼+部首碼+字身碼的第一碼所構(gòu)成。
4.如權(quán)利要求3所述的以詞為單位的音形意漢字編碼及中西文兼容鍵盤,其特征在于由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的編碼由其拼音碼+部首碼所構(gòu)成。
5.如權(quán)利要求3所述的以詞為單位的音形意漢字編碼及中西文兼容鍵盤,其特征在于由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的編碼由其拼音碼的第一碼+筆形碼所構(gòu)成。
6.如權(quán)利要求3所述的以詞為單位的音形意漢字編碼及中西文兼容鍵盤,其特征在于由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的編碼由其拼音碼的第一碼+部首碼所構(gòu)成。
7.如權(quán)利要求3所述的以詞為單位的音形意漢字編碼及中西文兼容鍵盤,其特征在于由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的編碼由其拼音碼的第一碼所構(gòu)成。
8.如權(quán)利要求3所述的以詞為單位的音形意漢字編碼及中西文兼容鍵盤,其特征在于(一)以下142個(gè)單個(gè)漢字的編碼由其拼音碼所構(gòu)成廠,卜,兒,幾,厶,又,刀,力,廣,門,(門),工,土,大,(尢),寸,弋,巾,山,夕,尸,己,弓,女,幺,子,馬,(馬),斗,文,方,火,心,戶,王,韋,(韋),木,犬,歹,車,(車),戈,比,瓦,止,日,貝,(貝),見,(見),父,牛,毛,氣,片,斤,爪,月,欠,風(fēng),(風(fēng)),殳,聿,毋,穴,立,石,龍,(龍),業(yè),目,田,皿,矢,禾,白,瓜,鳥,(鳥),用,矛,疋,皮,羊,米,耒,老,耳,臣,西,頁,(頁),蟲,缶,舌,竹,臼,自,血,舟,羽,艮,辛,麥,(麥),走,赤,豆,酉,辰,豕,鹵,(鹵),里,足,豸,谷,身,角,青,其,齒,(歯),黽,(黽),金,隹,魚,(魚),雨,音,革,骨,食,鬼,( ),麻,鹿,黑,鼠,鼻(二)符合以下條件的由拼音碼+筆形碼所構(gòu)成的有字身的單個(gè)漢字的編碼由其拼音碼+部首碼所構(gòu)成該漢字的字身本身能且僅能成為一個(gè)由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字,并且該漢字的拼音碼與該漢字的字身所能成的那個(gè)由拼音碼+筆形碼所構(gòu)成的單個(gè)漢字的拼音碼完全相同。
9.如權(quán)利要求3所述的以詞為單位的音形意漢字編碼及中西文兼容鍵盤,其特征在于雙字詞或多字詞如果是一個(gè)標(biāo)準(zhǔn)詞,該詞拼成漢語拼音后,按照《漢語拼音正詞法基本規(guī)則》中的規(guī)定需在該詞的拼音中加半連寫短橫的,還需在該詞的編碼中的對應(yīng)位置加半連寫短橫。
10.如權(quán)利要求3所述的以詞為單位的意形意漢字編碼及中西文兼容鍵盤,其特征在于標(biāo)準(zhǔn)詞中的雙字詞,若組成該雙字詞兩個(gè)漢字的部首完全相同,且該部首在這兩個(gè)漢字中的位置完全相同,則該雙字詞的編碼由第一個(gè)漢字的拼音碼+第二個(gè)漢字的拼音碼+半連寫短橫+兩個(gè)漢字共同的部首的部首碼+詞尾構(gòu)成。
全文摘要
本發(fā)明是一種用于計(jì)算機(jī)漢字信息處理的以詞為單位的音形意漢字編碼及中西文兼容鍵盤。本發(fā)明重新字義了標(biāo)準(zhǔn)西文鍵盤的鍵位,生成一個(gè)含有56個(gè)鍵位,能包容23個(gè)聲母、9個(gè)韻母字母、32個(gè)中文標(biāo)點(diǎn)符號、188個(gè)漢字部首及92個(gè)西文字符的中西文兼容鍵盤。單個(gè)漢字的編碼由其拼音碼+筆形碼或由其筆形碼構(gòu)成,詞的編碼由構(gòu)成該詞的各單個(gè)字漢字的編碼+詞尾(或略語)構(gòu)成。本發(fā)明通用性強(qiáng)、重碼率低、易學(xué)易用,可編碼所有漢字。
文檔編號G06F3/023GK1108774SQ9410257
公開日1995年9月20日 申請日期1994年3月14日 優(yōu)先權(quán)日1994年3月14日
發(fā)明者劉向東 申請人:劉向東