專利名稱:漢字規(guī)范五筆字型碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種漢字筆形編碼方案。
本發(fā)明可用于計算機漢字輸入和辭書查檢漢字。
目前提出的各種漢字形碼編碼方案,或多或少都得考慮漢字的筆形信息。事實上,任何一個漢字毫無例外均可拆分為一組有序的筆畫序列,筆畫按運筆方向則可歸納為五種基本筆形橫、豎(包括豎左鉤)、撇、掭、折,可以1、2、3、4、5加以編號;它們構(gòu)成了漢字形碼信息的基本單元。不同漢字間的一個主要區(qū)別即在于構(gòu)成漢字的筆畫序列,或筆形序列的區(qū)別上。但如果按漢字的筆形序列一筆一畫的在計算機上輸入,則既費時又煩瑣。因此各種形碼編碼方案均提出了各具特色的解決方法,但實質(zhì)均是對漢字的筆形序列進行分段拆分,每一段成一組,并作為一個字元。不同編碼方案的區(qū)別僅在于字元的選取上。但迄今為止提出的各種形碼方案,其字元的選取,或者說對漢字筆形序列的分段拆分方法,大多缺乏嚴(yán)格的規(guī)則,沒有規(guī)律可循,因此不僅需要使用者硬性記憶,而且也僅能適用于某一特定漢字字符集,擴充性差。較為有規(guī)律的有王永民的五筆字型和陳愛文的表形碼。五筆字型的字元編碼直接和字元的首兩筆筆形聯(lián)系,抓住了漢字結(jié)構(gòu)的基本信息,是一個相當(dāng)成功的編碼方案;缺點是字元為一百多個,且均需記憶,字元的選取仍缺乏嚴(yán)格規(guī)則;而其最大的缺點是;相當(dāng)一部分字元不屬于漢字的部首;顯得不規(guī)范。表形碼的字元分類依據(jù)筆形組合的空間特征,其方案極具特色,但也顯得相當(dāng)生硬;漢字和英文畢竟是完全不同的兩種文字,漢字成千上萬、形狀變化多端,和26個英文字母類比,不可避免地會有例外;而這種編碼方案的最大缺點是重碼多,最后不得不借助手漢字的聲音信息,因此不能認(rèn)為是一種嚴(yán)格意義上的形碼編碼方案。
本發(fā)明的目的在于提出一種能對構(gòu)成漢字的筆畫序列進行分段拆分的嚴(yán)格、統(tǒng)一、規(guī)范的編碼方案。此方案通過對漢字筆形序列,接一定規(guī)則進行分段拆分,每一段成一組,并作為一個字元;每一字元均以首兩筆的筆形編號加以標(biāo)記,從而可將所有字元分為25類。字元數(shù)目不加限制,并且無須記憶。其最大優(yōu)點是可對任意大小的漢字字符集進行編碼,適合于所有會寫漢字的使用者。
本發(fā)明的目的可以通過下述五條編碼規(guī)則來達到。
一、對漢字筆畫序列進行分段拆分、產(chǎn)生字元時依照下述4點進行1、字型結(jié)構(gòu)的間隙處應(yīng)加以分段,例如“昌”為上下結(jié)構(gòu)字型,“日”和“日”之間應(yīng)加以劃分,“仍”為左右結(jié)構(gòu)字型,“亻”和“乃”之間應(yīng)加以劃分;2、選取27個高頻部首為主要字元,它們是钅、木、氵、火、土、日、月、艸、竹、亻、宀、蟲、犭、疒、足、扌、衤、讠、纟、口、女、阝、山、石、辶、王、忄;“小”,“人”,“了”三字作為字元,但不作為主要字元;3、將漢字筆畫依其相鄰間的關(guān)系分為六種筆型結(jié)構(gòu),它們是相離即筆畫間有空隙,例如“奚”字中的“爪”字頭;相連即筆畫間沒有空隙,但又不相互交叉重迭,例如“奚”字中的“幺”字;相交即筆畫相互交叉重迭,例如“承”字中的豎筆和三橫構(gòu)成的部件;成框至少一個筆畫為折筆的相連筆畫組合,其特征是不形成封團區(qū)域,僅和折筆相交的筆畫亦歸入其中;例如“巨”字中的“匚”,“丙”字中的“冂”,“骨”字中的“冂”和“冖”,“聿”中的“彐”,部首“勹”,“巾”字等;成圈至少一個筆畫為折筆的筆畫組合,其特征是筆畫本身構(gòu)成形如矩形形狀的封閉區(qū)域的邊界,和邊界相交的筆畫亦歸入其中,例如“目”字中的“口”,“由”字,“曲”字等;同類連續(xù)書寫的相同筆畫,例如“匆”中的兩撇;規(guī)定漢字筆畫不論屬于何種筆型結(jié)構(gòu),凡連續(xù)筆畫構(gòu)成主要字元和“小”、“人”、“了”字時均應(yīng)拆出,如“大”字拆為“一人”,“里”字拆為“日土”;此外規(guī)定(1)相離的連續(xù)筆畫應(yīng)自成一組,作為一個字元;(2)凡相連、相交筆畫序列中如具有成框、成圈、同類的筆型結(jié)構(gòu),其相應(yīng)筆畫均應(yīng)拆出,自成一組,單獨作為一個字元,例如“骨”拆為“冂冖月”,“匆”字拆為“勹
”;4、幾種特殊情況的處理(1)多橫和一豎或一撇相交構(gòu)成的部件中的相同橫筆不拆,例如“豐”和“”;(2)下?lián)跷恢玫臋M筆不單獨拆出,例如“隹”字應(yīng)拆成“亻亠”;“丶”下的橫筆和“”下的橫筆不單獨拆出,并和上一筆畫一齊構(gòu)成字元;(3)相離的對稱筆畫組合不拆,例如“祭”字中的“
”;(4)“雨”、“貝”、“戊”不拆;二、對任一字元,除少數(shù)一些特殊字元外均以首兩筆的筆型進行編碼,五種筆型以“1”、“2”、“3”、“4”、“5”加以編號,據(jù)此將字元分為5×5=25類,每一類均和一兩位編號對應(yīng),字元的首兩筆的筆型編號分別構(gòu)成該字元編碼的第一位和第二位編號;特殊字元包括(1)16個主要字元和3個高頻字元,其編碼規(guī)定如表一所示;(2)主要字元“口”字編碼規(guī)定為編碼的第一編號取“1”,其第二編號則為處于左右位置關(guān)系時取“1”,處于包圍位置關(guān)系時取“5”其余情況依交、連、離及先上后下、先右后左的順序取和相鄰筆畫的筆型相同的編號;例如“合”、“臺”、“哭”、“句”中的“口”的編碼分別為“11”、“14”、“11”、“15”;
(3)橫、豎、撇、掭、折五種單筆畫字元規(guī)定其編碼的第二位編號,除交叉橫筆外,依次按和相鄰筆畫間的關(guān)系,即相交、相連,相離及上、下、右、左的優(yōu)先順序取相鄰筆畫的筆型編號,交叉橫筆的編碼一律取“14”;例如“太”中的“丶”編碼為“43”,而“犬”中的“丶”則為“41”,“子”中“一”取“14”,這樣五種單筆畫亦被劃分為5×5=25類;表一
三、根據(jù)漢字的字型結(jié)構(gòu)將漢字劃分為五大類,即在通常的獨體結(jié)構(gòu)、左右結(jié)構(gòu)、上下結(jié)構(gòu)、包圍結(jié)構(gòu)四類基礎(chǔ)上再增加一類、第五類,它是由以主要字元“艸”、“竹”、“宀”作部首的上下結(jié)構(gòu)漢字,以“辶”、“疒”作部首的包圍結(jié)構(gòu)漢字,以27個主要字元中其余字元作部首的左右結(jié)構(gòu)漢字從其所在結(jié)構(gòu)類中劃分出來組合構(gòu)成的;并相應(yīng)標(biāo)記為“1”、“2”、“3”、“4”、“5”;如“大”、“貯”、“類”、“同”、“咐”分別屬于“1”、“2”、“3”、“4”、“5”類;四、對漢字最多取四個字元進行編碼,規(guī)定對第2、3、4類漢字所含左右結(jié)構(gòu)中的任一部分最多只取首尾兩個字元,例如“?!比 敖砣沼帧?、“戇”取“亠十丿心”、“廚”取“廠一丶”等;對第4類漢字的包圍部分(不是被包圍部分)亦最多只取首尾兩個字元,例如“啟”取“丶丿口”;其余情況均按順序依次取字元,多于四碼時按前三碼末一碼處理;五、不足四碼時,均需添加一個識別碼,其方法為(1)一個字元的情況字元筆畫不足兩筆不加,超過兩筆繼續(xù)取后續(xù)筆畫,僅有一筆則連續(xù)取兩次構(gòu)成識別碼;(2)二個字元和三個字元的情況其識別碼用末字元的尾筆畫的筆型編號作識別碼的第一編號、該漢字的字型結(jié)構(gòu)類編號為第二編號;這樣識別碼亦具有5×5=25種,例如“訃”字末字元為“卜”其尾筆畫為“丶”,部首為“讠”屬主要字元,字型結(jié)構(gòu)編號為“5”,故識別碼為“45”;表二列出100個例字(從6768個漢字中每隔60個取一個)。
表一
上述編碼方案中,25類字元和鍵盤鍵位的具體對應(yīng)關(guān)系如說明書附圖所示,所用鍵盤采用一種按鍵可左右移動的鍵盤(專利號96208530.8),并將鍵位按排成方形區(qū)域,25類字元和鍵位的對應(yīng)關(guān)系極為直觀、亦可采用五筆字型的鍵位對應(yīng)關(guān)系。
圖1是25類字元、27個主字元及三個高頻字元和鍵位的對應(yīng)關(guān)系示意圖。
本發(fā)明提出的編碼方案,應(yīng)用于國標(biāo)“GB2312-80信息交換用漢字編碼字符(基本集)”規(guī)定的6763個漢字,重碼漢字為500多個。
本發(fā)明提出的編碼方案和現(xiàn)有形碼編碼方案相比具有如下優(yōu)點
(1)字元拆分方法嚴(yán)謹(jǐn)、規(guī)范、簡潔、通用;(2)編碼字元數(shù)目不加限制,且無需記憶,可對任意大小漢字字符集進行編碼;(3)純形碼,且不涉及復(fù)雜的漢字結(jié)構(gòu)信息,會寫漢字即會使用,適用范圍廣。
權(quán)利要求
一種漢字筆形編碼方案,該方案以橫、豎(包括豎左鉤)、撇、掭、折五種筆型(對應(yīng)編號“1”、“2”、“3”、“4”、“5”)為基礎(chǔ),對漢字筆形序列,按一定規(guī)則進行分段拆分,每一段成一組,并作為一個字元,每一字元以首兩筆的筆形編號加以標(biāo)記,將所有字元分為5×5=25類,編號為“11”、“12”……“54”、“55”,據(jù)此對漢字進行編碼,其特征在于a.對漢字筆畫序列進行分段拆分、產(chǎn)生字元時以字型結(jié)構(gòu)的間隙,27個取作主要字元的高頻部首(钅、木、氵、火、土、日、月、艸、竹、亻、宀、蟲、犭、疒、足、扌、衤、讠、纟、口、女、阝(在左)、山、石、辶、王、忄),“小”、“人”、“了”三字,及漢字筆畫的相離、相連、相交、成框、成圈、同類六種筆型結(jié)構(gòu)的變化為漢字中字元間的區(qū)分標(biāo)記;規(guī)定漢字筆畫不論屬于何種筆型結(jié)構(gòu),凡連續(xù)筆畫若構(gòu)成主要字元和“小”、“人”、“了”字均應(yīng)拆出,相離的連續(xù)筆畫作為一個字元,相連、相交筆畫序列中如具有成框、成圈、同類的筆型結(jié)構(gòu),其相應(yīng)筆畫均應(yīng)拆出,作為字元;b.規(guī)定16個主要字元和3個高頻字元的編碼如下表所示
規(guī)定“口”字的編碼其第一位編號取“1”,其第二位編號則為處于左右位置關(guān)系時取“1”,處于包圍位置關(guān)系時取“5”其余情況依交、連、離及先上后下、先右后左的順序取和相鄰筆畫的筆型相同的編號;規(guī)定橫、豎、撇、掭、折五種單筆畫字元的編碼的第二位編號,除交叉橫筆外,依次按和相鄰筆畫間的關(guān)系,即相交、相連,相離及上、下、右、左的優(yōu)先順序取相鄰筆畫的筆型編號,交叉橫筆的編碼一律取“14”;c.將漢字劃分為五大類,在通常的獨體、左右、上下、包圍四類結(jié)構(gòu)基礎(chǔ)上再增加一類、第五類,由以主要字元“艸”、“竹”、“宀”作部首的上下結(jié)構(gòu)漢字,以“辶”、“疒”作部首的包圍結(jié)構(gòu)漢字,及其余主字元作部首的左右結(jié)構(gòu)漢字從其原屬結(jié)構(gòu)類中劃分出來組合而成,并相應(yīng)給以編號為“1”、“2”、“3”、“4”、“5”,并用作識別碼的第二位編號。
全文摘要
本發(fā)明提出了一種能對構(gòu)成漢字的筆畫序列進行分段拆分的嚴(yán)格、統(tǒng)一、規(guī)范的編碼方案。最大優(yōu)點是其編碼字元數(shù)目不加限制,并且無須記憶。適用于任意大小的漢字字符集的編碼,適合于所有會寫漢字的使用者。主要編碼原則為對漢字筆畫序列進行分段拆分時以字型結(jié)構(gòu)間隙、27個主要字元(高頻部首)和三個高頻字元、及筆畫相離、相連、相交、成框、成圈、同類六種筆型結(jié)構(gòu)的變化為字元區(qū)分標(biāo)記。
文檔編號G06F3/023GK1164693SQ9610563
公開日1997年11月12日 申請日期1996年5月4日 優(yōu)先權(quán)日1996年5月4日
發(fā)明者李保源 申請人:李保源