專利名稱:角音碼漢字輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電腦領(lǐng)域中的漢字輸入技術(shù)。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是通過按具體漢字本身的字形結(jié)構(gòu)特點,柔軟地分解成一些獨體字、復(fù)合字、偏旁和/或筆形的組合,然后相應(yīng)使用字形碼、偏旁碼和/或筆形碼再加上整個漢字的發(fā)音首碼構(gòu)成該漢字輸入碼的方法來實現(xiàn)的。具體講,本發(fā)明采用通用鍵盤輸入漢字,每個漢字全碼為四位碼,首位碼為整個漢字發(fā)音的第一字母,此即為音碼,其余三個碼(形碼)由漢字的字形決定,由字形碼、偏旁碼和/或筆形碼構(gòu)成,取碼方法是<1>在編碼位置上可分離出字時用字形碼;<2>在編碼位置上是偏旁時用偏旁碼;<3>在編碼位置上,既無偏旁,又不能分離出字,就用筆形碼;<4>依照上述規(guī)則不能編足三位形碼時可用字型代碼補足。
本發(fā)明的編碼位置是由相應(yīng)漢字的編碼順序確定的,單個漢字的編碼順序因字形不同而異,獨體字編碼順序為左上角、右上角/左下角、右下角;合體字編碼順序為首部左上角、次部左上角、尾部右下角。內(nèi)外型與包圍型以外部為首部,內(nèi)為次、尾部。
上述字形碼是指漢字中可分離出的獨體字或復(fù)合字及其變形字以其發(fā)音的第一個字母作為字形碼;偏旁碼是指漢字中的偏旁以其原字、全字、形似字發(fā)音第一字母作為偏旁碼,或以其原字一級簡碼作為偏旁碼;筆形碼是指按漢字的筆劃形狀依據(jù)四角號碼取碼。本發(fā)明實例使用兩種方案確定筆形碼,方案一使用原始四角號碼0-9數(shù)碼作為筆形碼,方案二使用abodeugvij字母作為筆形碼。
本發(fā)明方法構(gòu)成的角音輸入碼是漢字拼音與四角筆形分層次有機(jī)的組合,具有拼音碼與四角碼易學(xué)易用的優(yōu)點。但它與現(xiàn)有技術(shù)不同,本發(fā)明柔軟對應(yīng)了漢字本身具有的結(jié)構(gòu)非單一的特點,引進(jìn)了偏旁及復(fù)合字的概念,在取碼上以字形碼、偏旁碼優(yōu)先,筆形碼補充,大大減少了重碼,因而有很快的漢字輸入速度。對于標(biāo)準(zhǔn)一、二級漢字庫,本發(fā)明的第二套方案普及版有重碼250個,而在采用減少容錯碼的技術(shù)處理方式下制作的專業(yè)版中,重碼僅有138個;第一套方案中專業(yè)版重碼只有92個。而五筆碼在ucdos7.0中有重碼286個,近期版本也有重碼220個,相比之下,本發(fā)明的重碼是很少的,因此輸入速度可與五筆相當(dāng)。而在易學(xué)易用上,本發(fā)明則大大領(lǐng)先。
本發(fā)明是在研究漢字字形,并將之分解成單字、復(fù)合字、偏旁及筆形的基礎(chǔ)之上完成的。因此有必要先對漢字的音與形加以分析。
一、漢字的音與形分析本發(fā)明構(gòu)成的角音碼實質(zhì)是音形結(jié)合碼,以其漢字發(fā)音的第一個字母作為角音碼的第一碼,即為音碼。另三個形碼由偏旁碼、字形碼和/或筆形碼構(gòu)成。
關(guān)于對形碼的認(rèn)識,舉例如下例一、“暗”由“日、立、日”三個單字組成,其形碼由各單字發(fā)音的第一個字母構(gòu)成,即“rlr”例二、“仁”由“人”旁和“一、一”兩個單字組成,其形碼構(gòu)成為左邊的“人”旁碼“r”,右上角單字“一”和右下角單字“一”二字發(fā)音的第一字母,即“ryy”。
例三、“亮”由筆形“亠”,單字“口”,偏旁“冖”及單字“幾”組成,其形碼構(gòu)成為“亠”的筆形碼“a”(在方案二中)或“0”(在方案一中),“口”字的字形碼“k”和“幾”字的字形碼“j”即“akj”(方案二中)或“0kj”(方案一中)。
從上面三個例子可以看出字形碼和偏旁碼與人們的日常習(xí)慣是很相近的,筆形碼則以1978年由四川省人民出版社出版的《四角號碼新詞典》為基礎(chǔ),在取角方式上作了一些改進(jìn),在方案一中采用0-9數(shù)字號碼,而在方案二中則采用通用鍵盤字母abodeugvij一一對應(yīng)取代0-9數(shù)字碼作為筆形碼。下面是本發(fā)明的一些定義。
(一)、字形碼1、漢字中可分離出的單字或復(fù)合字發(fā)音的第一個字母。下面列出了常用單字和復(fù)合字的字形碼及其拼音。b髟(bia) c舛(chuan) 巛(chuan)f缶(fou) j孑(jie) l耒(lei) m糸(mi)n廿(nian) p爿(pian) q僉(qian) r日(ri) 曰(yue) s厶(si)巳(si)殳(shu)豕(shi)w兀(wu)戊(wu) z豸(zhi)隹(zhui)注因漢字中“日”“曰”不易區(qū)分,故全取作r2、變形字,取其原字發(fā)音第一字母作為其字形碼。示例于下b (匕) (半)(卜)幣(幣)c (廠) (車)e (厄) f (豐)g (工) (艮) (鬼) h (火) (虎)j (堇) (競) (己) (幾) (九) k (亢) l (鹿) (立)m (米) (木) n牜(牛) r (人)s罒(四) t (土)w (瓦) (王) (兀)x (血) (心)覀(西) (辛) (穴)y (元) (羊)z (止) (足) (兆)(二)、偏旁碼1、偏旁的原字發(fā)音第一個字母。詳列于下e卩阝(耳) h灬(火)j钅(金)纟(絞絲) l刂(立刀) 冫(兩點水)p丬(爿)q犭(犬)r亻彳(人)s饣(食)氵(三點水)t扌(提手) w攵(文)x忄(心) y衤(衣)z 爫(爪)2、偏旁的原字一級簡碼。詳列于下i艸、 、廾(草)o讠(言)u辶、廴(走)v(竹)3、形似字發(fā)音第一字母,詳列于下m匚、冂、凵、 (門)w 夂(文)x冖、宀、 (穴) y礻(衣)4、字頭所成偏旁,取其全字發(fā)音音第一字母。詳列于下b疒(病)d癶、 (登)h(虎)j (角)r (刃)x勹(旬) y (甬)5、偏旁碼注意事項1)“礻”旁本應(yīng)作“示”旁,因為它與“衤”旁極相似,為了減少辨認(rèn)時間,故取作“衣”旁。
2)門破或刃破則不能視作偏旁,如“內(nèi)”neoo而不能作nmiv,“力”leov而不作lerv(本例筆形碼用方案二)。
3)“冖”上加任何筆形構(gòu)成的偏旁均作x。
4)偏旁只要在編碼位置均可作偏旁碼,例如“扁”的編碼是“bhme”,“方”的編碼是“faor”(本例筆形碼用方案二)。
(三)、筆形碼漢字的筆劃形狀,歸納起來有十種,在方案一中用0-9數(shù)字碼而在方案二中用abodeugvij字母分別代表。對照口訣如下方案一橫 1 垂 2 點 捺 3叉 4 插 5 方 框 6角 7 八 8 小 是 9點 下 有 橫 變 0 頭方案二橫 b 垂 o 點 捺 d叉 e 插 u 方 框 g角 v 八 i 小 是 j點 下 有 橫 變 a 頭展示上述口訣的說明見下表
在本發(fā)明中,方案一與方案二僅是在筆形碼的碼元定義上一個是數(shù)字碼而另一個是字母碼,而在其它方面則完全是一致的,因此,下面僅以方案二為例作詳細(xì)介紹。只需將下述方案中的筆形碼碼元依照上表改為0-9數(shù)字碼即可得到方案一的技術(shù)描述。也可以將上表中的碼元改作其它碼元而構(gòu)成其它實施方案。
關(guān)于筆形碼的詳細(xì)使用說明如下1、筆形是從角的方位來看待。例如乙左上角“橫”為b,右上角“角”取v,左下角“角”取v,右下角“橫上鉤”取b。
廣左上角“亠”為a,右上角因與左上角同一筆形,故視作缺,左下角“丿”取o,右下角缺。
由左上角“插”為u,右上角視作缺,左下角“方框”取g,右下角視作缺。
2、取角方法1)一筆可以分角取碼。例2)一筆的上下兩段和別筆構(gòu)成兩種筆形的,分兩角取碼。例 3)下角筆形偏在一角的,按實際位置取碼。缺角則缺碼。例 4)一個筆形,前角已用過,后角則視作缺。例 3、筆形碼注意事項3.1筆形應(yīng)盡量取復(fù)筆。例正確錯誤2)點下帶橫折的如“戶、永”等字的上角取作d。
3)單筆取左右!即角形有兩單筆或一單筆一復(fù)筆的。不論高低,一律取最左(左角)或最右(右角)的筆形。例 4)復(fù)筆取高低!即有兩復(fù)筆可取時,在上角取較高的筆形,在下角取較低的筆形。例 二、漢字的字型及其取碼方法(一)、漢字的字型研究漢字的字型,即研究偏旁、單字或復(fù)合字及筆形在漢字中的位置關(guān)系。角音碼把漢字分成三種字型左右型、上下型、雜合型,分別賦以字型代碼o、u、v,如下表所示 上表中設(shè)定的字型代碼用于編碼不足四位時補足碼位。從組合度來看,漢字又可分成獨體字、二合字、三合字、多合字等四種類型。獨體字是指結(jié)構(gòu)緊湊不能拆分的漢字,如中、乘、又、也、民、木、川、心、兆等。合體字是指由兩部分(二合字)、三部分(三合字)或幾部分(多合字)組合而成,分上下、左右、內(nèi)外、包圍等結(jié)構(gòu)可拆分的漢字,如李、林、森、國、間、兇、區(qū)、同、用、威、建、病、壽、司、合等。
(二)、取碼方法對于一個結(jié)構(gòu)復(fù)雜的漢字,在取碼位置上可能是一個獨體字、或一個復(fù)合字,也可能是一個偏旁,或者只是一個筆形。其取碼方法如下1、在編碼位置上可分離出字時用字形碼。
2、在編碼位置上是偏旁時用偏旁碼。
3、在編碼位置上既無偏旁又不能分離出字時就用筆形碼。
上述編碼位置由相應(yīng)漢字的編碼順序確定,具體方案如下1、獨體字由筆劃構(gòu)成的獨體字形碼用筆形碼,形碼順序為左上角、右上角/左下角(右上角若與左上角或右下角同一筆形則取左下角,下同)、右下角。例如衣yavd、也yeeb、又ybve、兆zdob、心xddv。如果取碼位置上是字或偏旁,則取字形碼或偏旁碼,例如方faor、甚sqvb、于yyev。
2、合體字由字和偏旁及筆形組成的合體字形碼順序為首部左上角、次部左上角、尾部右下角,能用字形碼或偏旁碼處盡可能用字形碼或偏旁碼,字形碼盡量取復(fù)合度大的復(fù)合字形碼,這就體現(xiàn)了為角上配音的角音碼涵義。一般說來,首、次、尾部的區(qū)分與通常書寫習(xí)慣相同;內(nèi)外型與包圍型以外部為首部,內(nèi)為次、尾部。例如魏whng、汗hsys、算svmi、威wwyn、司sryk、李lmze、楊ymbo、這zuwe、壽sfce、刃rrdo、兇xmev。
(三)、方法說明1、上述“左上角、右上角、左下角、右下角”主要是針對筆形而言的,因為對于同一筆劃,從不同的角度觀看筆形是不同的。例如 2、多合字遵循組字優(yōu)先和多用編碼信息的原則,即盡可能分解成三個漢字或兩個漢字的組合(偏旁也算),這樣組合后的多合字就可被視作三合字或二合字取碼。例如翟dxxz、羹ggmd、翳、yysy、鬃zbxs、煎jqhj、辟pskx。
3、二合字(包括由多合字轉(zhuǎn)變而來)若尾部是字或偏旁,可在尾部右下角補充一筆形碼或復(fù)合度較低的字形碼/偏旁碼。例如漢hsye、條twmj、慶qgdi這zuwe、僻prpx、準(zhǔn)zlzy、援ytyy、漫msmy。
4、完整的橫筆僅當(dāng)左右無筆劃相連且無筆劃相交時可視作“一”取字形碼“y”。例如準(zhǔn)zlzy、兀wyeb、武wyyz。
5、由兩個字上下連在一起組成的字應(yīng)視作合體字。例如“天”由“一”與“大”組成,“丙”由“一”與“內(nèi)”組成,“再”由“一”與“冉”組成,“王”由“一”與“土”組成,“土”由“十”與“一”組成。
6、如果漢字中有一筆上下貫穿,當(dāng)其折斷后各部分都成字時可視作合體字。例如里ltsy(田十一),重zqtt(千田土),果gtmj(田、木)。
7、由一個漢字組合一個或幾個筆形構(gòu)成的字(例如單、系、并、丟、夭、立、產(chǎn)、北、敖等)以及兩個字上下之間由筆劃連在一起組成的字(例如五、巫、頁、互等)單獨作字時視作合體字,與別的部分合成漢字時則視作獨體字。
8、內(nèi)外型和包圍型漢字單獨作字時視作合體字,與別的部分合成漢字時如果內(nèi)外都能取作字或偏旁則視作合體字,例如困(大方框字形碼也取作g)、間、成、鳳、廉、包、貝、見等,否則視作獨體字,例如刀、刃、囟、兇等。
三、簡碼輸入為了提高輸入速度,對于一些經(jīng)常使用的漢字,角音碼方案設(shè)計了簡碼。角音碼取其前一碼,前兩碼或前三碼構(gòu)成一、二、三級簡碼。由于以iouv作第一發(fā)音的漢字很少,考慮到偏旁重碼的離散問題,我們將iouv作為“草、言、走、竹”的一級簡碼。
1、一級簡碼a b c d e f g h i j k lm安 不 產(chǎn) 的 而 發(fā)工 和草及可 了 民n o p q r s t u v w xy z你 言 批 起 人 是他 走竹我寫 以 在2、二級和三級簡碼可在使用中逐步掌握。
3數(shù)字簡碼在方案一中,因為碼元增加了數(shù)字碼,可以簡化數(shù)詞的輸入,即使用數(shù)字簡碼。1 2 3 4 5 6 7 8 9 0一二三四五六七八九零1s1b1q1w1z1y11s 11b 11q 11w十百千萬兆億拾佰仟萬四、詞匯輸入的方法本發(fā)明構(gòu)成的角音碼對詞匯輸入很方便,不管多長的詞匯,都只需擊四鍵,而且詞匯輸入和字的輸入統(tǒng)一,不加字或詞的輸入標(biāo)記,也無需換檔。
詞匯的取碼規(guī)則如下1、雙字詞分別取每個字的前兩碼作為輸入碼。例如輸入scri詞匯cohs 計算josv 機(jī)器jmqk 漢字hszx 分別fbbk。
2、三字詞前兩個漢字各取頭一碼,第三個漢字取前兩碼。例如角音碼jyms 計算機(jī)jsjm 操作員czyk 電影院dyye 國務(wù)院gwye。
3、四字詞取每個漢字的頭一碼。例如知識分子zsfz程序設(shè)計cxsj。
4、多字詞超過四個字的詞,分別取一、二、三、末字的第一碼。例如中華人民共和國zhrg五、容錯碼本發(fā)明設(shè)計有容錯碼。容錯碼是指容易搞錯的碼和允許搞錯的碼。在實際編碼中常會出現(xiàn)種種差錯,這些差錯的產(chǎn)生有各種原因,且?guī)в幸欢ǖ钠毡樾浴榱溯斎肽茼樌M(jìn)行,本發(fā)明特設(shè)計容錯碼,即承認(rèn)那些容易寫錯的碼存在的合理性,把它們作為一類正常的可用碼保留,使那些和規(guī)則不相符的(有錯誤的)碼也可以正常使用。
容錯有以下幾種類型1、字形碼、偏旁碼和筆形碼容錯。例如正確碼 盾dcem 衛(wèi)weyb 多dxxo 春cfrg朱zowj容錯碼 盾dcsm 衛(wèi)wbvy 多dxxv 春curg朱zouj2、字型容錯。例如正確碼 爻yeev(看作雜合型) 典dubi(看作二合字)容錯碼 爻yeeu(看作上下型) 典duui(看作獨體字)3、低頻重碼字后綴容錯。對于國標(biāo)一、二級級漢字中的重碼字常用的仍按常規(guī)編碼,不常用的則將尾碼改為“v”,作為容錯碼。例如正確碼 郵yyeo北bbbb紡fjfr核hmhi憂yxyb容錯碼 鄴yyev毖bbbv鈁fjfv閡hmhv寅yxyv(注簡碼字的金碼與非簡碼字同碼且二者都常用時將簡碼字編作容錯碼)4、生僻字容錯(1)在合體字中,編碼位置上是一偏僻字,此時可分解該字或改用筆形碼來構(gòu)成容錯碼。例如正確碼曦xrxu蹊xzxd屣xsxi援ytyy抵dtde容錯碼曦xriu蹊xzzd屣xsri援ytzy抵dtve(2)整個漢字是一偏僻字,因發(fā)音不知而使輸入受阻,此時可用整個漢字的左上角筆形碼作為首碼以取代音碼,或用其四角筆形碼來構(gòu)成容錯碼。例如正確碼蠡ltcc贏lwkf巽xssg騅zmzy氐dvoe容錯碼蠡otcc贏awkf巽vssg騅bmzy氐vove六、學(xué)習(xí)鍵?可用?鍵替代任一碼元,通過重碼選擇來輸入漢字。
權(quán)利要求
1.角音碼漢字輸入方法,用通用鍵盤輸入,每個漢字全碼為四位碼,以其整個漢字發(fā)音的第一個字母為第一碼,即為音碼,另三個碼由形碼組成,其特征在于形碼由字形碼、偏旁碼和/或筆形碼構(gòu)成,其取碼由編碼位置上的字形決定,具體取碼方法是(1)編碼位置上可分離出字時用字形碼;(2)在編碼位置上是偏旁時用偏旁碼;(3)在編碼位置上,既無偏旁,又不能分離出字,就用筆形碼;(4)依照上述規(guī)則不能編足三位形碼的可用字型代碼補足。
2.根據(jù)權(quán)利要求1所述的角音碼輸入方法,其特征在于編碼位置是由相應(yīng)漢字的編碼順序確定的,單個漢字編碼順序因字型不同而異,獨體字編碼順序為左上角、右上角/左下角、右下角;合體字編碼順序為首部左上角、次部左上角、尾部右下角。
3.根據(jù)權(quán)利要求1、2所述的角音碼輸入方法,其特征在于字形碼是指漢字中編碼位置可分離出的獨體字或復(fù)合字及其變形字以其發(fā)音的第一字母作為字形碼;偏旁碼是指漢字中的偏旁以其偏旁原字、全字或形似字發(fā)音的第一個字母作為偏旁碼,或以其偏旁原字一級簡碼作為偏旁碼;筆形碼是指按漢字的筆劃形狀取碼。
4.根據(jù)權(quán)利要求3所述的角音碼輸入方法,其特征在于筆形碼是按漢字筆劃形狀依據(jù)四角號碼取碼,以原始四角號碼0-9數(shù)碼為筆形碼或用通用鍵盤字母abodeugvij一一對應(yīng)取代原始四角號碼0-9作為筆形碼。
5.如權(quán)利要求1、2所述的角音碼輸入方法,其特征在于雙字詞的編碼是分別取每個字的前兩碼作為輸入碼;三字詞的編碼是前兩個漢字各取前一碼,第三個漢字取前兩碼組成;四字詞取每個漢字的頭一碼組成;超過四個字的多字詞由分別取1、2、3、末字的第一碼組成。
全文摘要
本發(fā)明公開了一種電腦漢字角音碼輸入方法。它采用通用鍵盤輸入,每個漢字全碼為四位碼,以其整個漢字發(fā)音的第一個字母為第一碼,即為音碼,另三個碼由形碼組成,其特征在于形碼由字形碼、偏旁碼和/或筆形碼構(gòu)成,其取碼由編碼位置上的字形決定,具體取碼方法是:(1)在編碼位置上可分離出字時用字形碼;(2)在編碼位置上是偏旁時用偏旁碼;(3)在編碼位置上,既無偏旁,又不能分離出字,就用筆形碼;(4)依照上述規(guī)則不能編足三位形碼時可用字型代碼補足。本發(fā)明構(gòu)成的角音輸入碼是漢字拼音與四角筆形分層次有機(jī)的組合,能對應(yīng)漢字結(jié)構(gòu)簡易取碼、具有拼音碼與與四角碼易學(xué)易用的優(yōu)點,同時重碼量少,能夠快速輸入漢字。
文檔編號G06F3/023GK1376967SQ0210881
公開日2002年10月30日 申請日期2002年4月8日 優(yōu)先權(quán)日2001年4月10日
發(fā)明者吳榮常, 黃開蓉 申請人:吳榮常