專(zhuān)利名稱(chēng):形聲位全息漢字編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于漢字信息處理范疇,主要用於計(jì)算機(jī)漢字輸入編碼,并適用于其他需要進(jìn)行漢字編碼(如編纂詞典、漢字檢索等)的場(chǎng)合。
根據(jù)漢字的結(jié)構(gòu)可以拆分為各種字根和筆形,不同的筆形和字根可以組成不同的漢字,而且相同的筆形和字根因?yàn)橄鄬?duì)位置的不同也可以組成不同的漢字,例如“杏”和“呆”字,但更典型的是“旱”、“旰”,這兩個(gè)字的書(shū)寫(xiě)先后也一致。因此,利用漢字的形、位進(jìn)行漢字編碼是本發(fā)明的重要特征。
目前的漢字編碼技術(shù)大致可分為三類(lèi)聲碼、形碼或聲形(形聲)碼,一般存在好學(xué)好記的使用起來(lái)卻不太方便;而輸入速度快適于專(zhuān)業(yè)人員使用的又比較難學(xué);有的編碼技術(shù)利用計(jì)算機(jī)鍵盤(pán)比較容易,但對(duì)一些見(jiàn)字就要編碼的場(chǎng)合(如查字典)就比較困難。而且,新的字符集有兩萬(wàn)多字,對(duì)于大多數(shù)人來(lái)說(shuō)不可能利用聲碼來(lái)復(fù)蓋整個(gè)的字集。
本發(fā)明可以有效的克服上述的缺點(diǎn),具有①見(jiàn)字識(shí)碼,易學(xué)易用;②重碼率低,計(jì)算機(jī)輸入時(shí)可以盲打;③兼顧字典編纂、漢字信息檢索等多方面的需要;④借用英文鍵盤(pán)可以方便外國(guó)人使用,廣大的中小學(xué)生也容易掌握本技術(shù)。
本技術(shù)的全稱(chēng)是“形聲位全息漢字編碼技術(shù)”,簡(jiǎn)稱(chēng)“羅碼”。是一種非字根的編碼方法,其特點(diǎn)是1.采用約三百個(gè)簡(jiǎn)單字和十三種筆劃作為編碼碼元,這些簡(jiǎn)單字的選取原則是六筆以下容易認(rèn)識(shí)的字;筆劃雖多但不易拆分的字,如“革”,“鬼”等;《BG2312-80》中的大部分部首字。由於這些簡(jiǎn)單字的組合不能完全復(fù)蓋整個(gè)漢字字集,又選擇了十三種筆劃作為編碼碼元。
在筆劃的選擇上除傳統(tǒng)的橫、豎、撇、折、捺、點(diǎn)外,還定義了幾種復(fù)筆筆劃,具體解釋如下①交和叉。交是縱筆或近似縱筆的斜筆和其他兩筆或兩筆以上的筆劃相交者,叉是任何兩筆相交者。注意交、叉與“豐”、“十”、“乂”等字的區(qū)別,遵循取碼時(shí)先簡(jiǎn)單字后筆劃的原則。
②彎、勾、折、角。彎和勾的區(qū)別是取碼位置的不同,從起筆處取碼為彎筆,而在收筆處取碼則為勾?!皬潯笔峭较驈澢?,而“折”是反向彎轉(zhuǎn)如“乙”字形等。角是彎筆或兩筆呈直角或小於直角的頂點(diǎn)。我們規(guī)定彎筆在轉(zhuǎn)角處取碼為“角”筆,而折筆無(wú)論在何處取碼都為“折”。
2.為了便于記憶,我們用上述的簡(jiǎn)單字(以下簡(jiǎn)稱(chēng)筆形)和筆劃的讀音聲母的第一個(gè)拼音字母作為這些筆形、筆劃的編碼碼元代碼,如“木”的代碼為m,“撇”的代碼為p。有一個(gè)例外,“口”字的代碼為o。并用I、U、V代表yi、wu、yu,這樣用英文字母鍵和拼音字母相對(duì)應(yīng),用英文鍵盤(pán)輸入漢字。
簡(jiǎn)單字和筆劃的代碼見(jiàn)表1,表2。
3.按位置順序取碼,充分提取漢字字形中形狀和位置的信息,如前述的“旱”、“旰”二字盡管碼元和落筆的先后順序一樣,但其相對(duì)位置不一樣,其編碼分別為rgh和rgs。
具體說(shuō)編碼的方法是自左上角起順時(shí)針?lè)较蛞来稳∽值淖笊?、右上、右下字角的碼元代碼為其編碼,如“韶,ldo”。由于漢字結(jié)構(gòu)復(fù)雜,應(yīng)遵循以下的規(guī)則①不重復(fù)取碼,如果這個(gè)碼元已經(jīng)取過(guò),那么順序取另一個(gè)字角的碼元,如“敬”,其右下角的“反文”已經(jīng)取過(guò),因此第三碼應(yīng)取左下角的“句”,因此其碼為cfj(“草字頭”,“反文”,“句”)。②標(biāo)準(zhǔn)碼長(zhǎng)為三字符,若該字只有兩個(gè)碼元,那么第三碼從第二個(gè)碼元的相應(yīng)位置取,如“碼”字由碼元“石、馬”組成,該字的編碼為smz,第三碼Z在馬字的右下角取,因該角為一折筆,其代碼為Z。③最大取碼的原則,即從這個(gè)取碼的字角看以筆劃最多的碼元作為該角的代碼,如“休”字,編碼為rmx,它的右下角除已用過(guò)的碼元“木”外,可以看作一捺或一個(gè)小字,按這個(gè)原則取碼為x。④上、下結(jié)構(gòu)的漢字若只有兩個(gè)碼元取第三碼時(shí),如下部可以分為兩碼則取左下角否則順時(shí)針取下部結(jié)構(gòu)的左上角。如“充,vep”,“宋,bms”。這就是順時(shí)針螺旋定位取碼的原則。⑤對(duì)于同一碼元可有不同的代碼,如十字也可以看成“叉”,因此規(guī)定取碼時(shí)的次序是先繁后簡(jiǎn),先筆形后筆劃,先復(fù)筆后單筆,先曲筆(折、彎)后直筆。⑥其他規(guī)則可拆不斷,即一個(gè)碼元可從整個(gè)字中抽出來(lái),但不能斷任何筆劃,如“難”的右下角可拆出一個(gè)“圭”但不能將一豎斷開(kāi)而成一個(gè)“王”;上上下側(cè),即在字的上部取碼應(yīng)側(cè)重最上面的筆劃,而在下部取碼則應(yīng)偏向一側(cè)的筆劃;先外后內(nèi),即先取外框的碼再?gòu)膬?nèi)部結(jié)構(gòu)取下一碼;托筆后取,在下面有一筆(如“走之”等)的字,右下角應(yīng)先取托筆以上的碼元,如“這,zwi”。可以看出,本技術(shù)充分注意了漢字結(jié)構(gòu)中碼元所在的位置信息。
取碼口訣順序循角,螺旋定位。最大取碼,先繁后簡(jiǎn)。先外后內(nèi),上上下側(cè)。可拆不斷,托筆后取。
4.為了便于取碼,根據(jù)上面的原則和不同的漢字結(jié)構(gòu)繪制了取碼圖,以便按圖索驥。見(jiàn)
圖1。
5.簡(jiǎn)碼和四碼。選取了二十六個(gè)以聲母命名的高頻簡(jiǎn)碼字,這些字也作為碼元。其它簡(jiǎn)單字以其代碼和左上角的碼元為其編碼。如“是s”,“分fb”不足三碼者輸入空格鍵。對(duì)于三碼有重碼的字則應(yīng)取第四碼,其方法是①如存在第四角,在第四角取碼,如“韶ldor”;②均衡取碼,在順時(shí)針的第二個(gè)碼元與已取過(guò)碼的相對(duì)位置再取一碼如“剖ldog”,“傅rfck”;③全息取碼,某一位置還存在沒(méi)有取用的碼元,也可作為第四碼,如“寂byxs”。
6.詞組編碼。①二字詞,第一字取第一和第二碼,第二字取第一碼,如三碼有重碼,再加取第二字的第二碼。如“安靜bnq”,“客觀boyj”。②三字詞,第一字取一、二兩碼,第二、三字各取第一碼。③多字詞,第一、二、三字各取第一碼,最后一個(gè)字取第一碼。
7.本發(fā)明的載體是計(jì)算機(jī)軟磁盤(pán)或硬漢卡以及編碼表和說(shuō)明書(shū)。
①運(yùn)行環(huán)境硬件IBM-PC系列機(jī)及其兼容機(jī);軟件CCDOS2.13H;
②輸入方式利用英文鍵盤(pán)用英文字母鍵與相應(yīng)的漢語(yǔ)拼音字母對(duì)應(yīng);
③軟件的特點(diǎn)高頻字優(yōu)先,即有重碼時(shí)只要敲空格鍵高頻字即會(huì)錄入;第四碼輸入靈活,如“駿、梭”,“傅、儔”等字,它們區(qū)別所在的部位是不同的,前一組可以左下角區(qū)別,而后一組則可用第二碼元的左下角來(lái)區(qū)別,因此它們的編碼分別為“mvyt、mvyx”,“rfck、rfcj”這樣就產(chǎn)生了二義性,用戶可以從屏幕提示行來(lái)得到提示,熟練后就記住了并不須強(qiáng)記,而且提示行可以雙重提示MVY1.駿b2.梭b3.駿t4.梭x即可屏幕選字,經(jīng)過(guò)熟悉可以盲打。
大多數(shù)的四碼字第四碼很明確。上面僅是為處理少數(shù)重碼的方法。
漢字中有許多字很冷僻,但對(duì)某一地區(qū)或某些行業(yè)卻是高頻字,軟件中設(shè)置了用戶詞典可按用戶的約定編碼方便地輸入漢字。
實(shí)施例
韶ldor領(lǐng)lyb樹(shù)mcyj棉mbjr紙lsct紙張lsgc人r人民rmj人間rmr從rrn從前rred從而rreh健rvzz健全rvrw健康rvav中zj中國(guó)zjkd中華zjrq中國(guó)政府zkza中華人民共和國(guó)zrrk濟(jì)dwd濟(jì)南dwns
權(quán)利要求
1.一種用于計(jì)算機(jī)漢字詞輸入及其它進(jìn)行漢字詞編碼檢索(如編纂詞典)的技術(shù),其特征是①選取約三百二十個(gè)筆形簡(jiǎn)單、筆劃少的易識(shí)漢字如弓、長(zhǎng)、立、早等作為編碼碼元,為了彌補(bǔ)這些字復(fù)蓋不全的問(wèn)題,將十三種筆劃也作為碼元。②為了便于記憶,將這些簡(jiǎn)單字和筆劃的讀音聲母的第一個(gè)字母作為該碼元的代碼。③編碼時(shí)按碼元的位置順時(shí)針螺旋形方向循字角取碼,不拆字只按該字角的外形表現(xiàn)取碼。④取碼的規(guī)則是順序循角,螺旋定位,最大取碼,先繁后簡(jiǎn),先外后內(nèi),上上下側(cè),可拆不斷,托筆后取。
2.本發(fā)明以計(jì)算機(jī)軟磁盤(pán)或漢卡為載體,包括編碼表及說(shuō)明書(shū)。①運(yùn)行環(huán)境硬件IBM-PC系列及其兼容機(jī);軟件CCDOS2.13H;②輸入方式利用英文鍵盤(pán)用英文字母鍵與相應(yīng)的漢語(yǔ)拼音字母對(duì)應(yīng);③軟件的特點(diǎn)高頻字優(yōu)先,在有重碼的情況下只要敲空格鍵便可錄入;設(shè)置了用戶詞典,可以根據(jù)用戶的需要而規(guī)定設(shè)置某些漢字詞的編碼以有效地避免重碼高速輸入。
全文摘要
本發(fā)明屬于漢字信息處理范疇,計(jì)算機(jī)漢字編碼技術(shù)。主要解決目前漢字編碼輸入技術(shù)存在的容易學(xué)的使用不便,而能快速輸入的卻比較難學(xué)、難記的缺點(diǎn)。其技術(shù)特征是選取約三百二十個(gè)簡(jiǎn)單易識(shí)的字和部首作為編碼碼元,以聲助記,充分利用漢字的形狀和結(jié)構(gòu)位置的各種信息以求有效地對(duì)漢字進(jìn)行編碼,三鍵一字。好學(xué)、好記,可以盲打和快速輸入。除專(zhuān)業(yè)人員外,對(duì)非專(zhuān)業(yè)人員也很有效,并適合外國(guó)人和中小學(xué)生使用。
文檔編號(hào)G06F3/023GK1080070SQ9311039
公開(kāi)日1993年12月29日 申請(qǐng)日期1993年4月20日 優(yōu)先權(quán)日1993年4月20日
發(fā)明者羅彬 申請(qǐng)人:羅彬