專利名稱:字根拼形規(guī)范碼漢字輸入方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計算機漢字輸入方法,更具體地說,涉及一種字根拼形碼的計算機漢字輸入方法。
漢字編碼是實現(xiàn)中文信息傳遞和處理的關(guān)鍵。十多年來,國內(nèi)學(xué)者提出了數(shù)百種漢字編碼方案,其中形碼方面,根據(jù)漢字的偏旁、部首、筆形的不同特征,用“0-9”個數(shù)字作為代碼組成編碼向計算機輸入漢字,如《結(jié)構(gòu)筆畫四位編碼法及鍵盤》(公開號1042017,
公開日900509)。該專利把漢字結(jié)構(gòu)劃分為單部件字、兩部件字、三部件字和多部件字四大類,又把漢字筆畫分成基本筆畫、派生筆畫和組合筆畫三大類進行編碼,因此編碼輸入方法復(fù)雜。王永民申請并取得專利權(quán)的《優(yōu)化五筆字型編碼法及其鍵盤》(CN85100837)雖已取得了廣泛應(yīng)用,但存在兩點不足,其一是把一些特別重要的部首拆開了,例如將“?!弊值囊回Q拆掉,“羊”字頭的倒八拆開等,其二是五筆字型的130個字根的鍵位記憶比較困難。傳統(tǒng)漢字最顯著的特點就是形音義的統(tǒng)一體,從字形來說則是一種“準拼形文字”。漢字的結(jié)構(gòu)可分為整字、字根和筆畫三個層次,而字根又是核心的一環(huán)。字根是構(gòu)字的基本單位,有確切的定義,不能把字根看成是筆畫的任意組合加以切分。因此在漢字信息處理的過程中,對字根的定義、切分、選取、分類和鍵位映射,提出了新的要求。另一方面國家教委“全國中小學(xué)計算機教育研究中心”于1994年制訂的《中小學(xué)計算機課程指導(dǎo)綱要》中明確要求將漢字信息處理及漢字輸入方法列入我國中小學(xué)計算機課程,因此,研制教學(xué)用的計算機漢字輸入系統(tǒng),就成了當務(wù)之急。
本發(fā)明的目的是提供一種簡單易學(xué),易記高效的字根拼形規(guī)范碼計算機漢字輸入方法,供公眾和中小學(xué)教學(xué)使用。
本發(fā)明的漢字輸入方法,包括基本字根一律不分解,用“根碼”編碼;普通字根為末級部件,用“筆碼”進行編碼,根據(jù)這樣的原則進行取碼,設(shè)置基本字根集為亻彳白比匕不貝八(丷)鼻卜(_)疒勹宀冖采艸(廾)寸大歹斗豆刀( 刂)癶兒耳而阝卩( )方非父缶風(fēng)扌廣工干骨弓瓜甘鬼革谷戈艮鬲火(灬)黑禾戶虍止支至隹中竹(_)舟爪(爫)豸斤見巾角幾金(钅)臼已(巳)丬口囗(匚冂凵) 力里龍隸立(亠)耒鹿耂木母面民門米馬毛目(皿)皿矛麻女牛( )鳥廿( )氵冫片疋皮氣欠去齊其青(_)犬(犭)人日(曰)肉纟(糸)厶彡巛田土(士)天車臣蟲赤尺辰齒廠長(镸)十尸氏石生矢舌鼠水束手是山(彐 )食(饣)身示(礻)豕殳無韋瓦戊兀王(玉)文(攵夂)丸亡心(忄)夕西(覀)血小(_)穴辛又頁魚用業(yè)牙雨羽亦( )由羊( )衣(衤)酉言(讠)亞月(月)音聿幺弋子足(_)走辶(廴)自設(shè)置各基本字根與字母鍵的映射關(guān)系為a 亻彳;b白比匕不貝八(丷)鼻卜(_)疒勹宀冖采;c艸(廾)寸;d大歹斗豆刀( 刂)癶;e兒耳而阝卩( );f方非父缶風(fēng)扌;g廣工干骨弓瓜甘鬼革谷戈艮鬲;h火(灬)黑禾戶虍;i止支至隹中竹(_)舟爪(爫)豸;j斤見巾角幾金(钅)臼已(巳)丬;k口囗(匚冂凵);l力里龍隸立(亠)耒鹿耂;m木母面民門米馬毛目(罒)皿矛麻; n女牛( )鳥廿( );o氵冫;p片疋皮;q氣欠去齊其青(_)犬(犭);r人日(日)肉;s纟(糸)厶彡巛;t田土(士)天;u車臣蟲赤尺辰齒廠長(镸);v十尸氏石生矢舌鼠水束手是山(彐 )食(饣)身示(礻)豕殳;w無韋瓦戊兀王(玉)文(攵夂)丸亡;x心(忄)夕西(覀)血小(_)穴辛;y又頁魚用業(yè)牙雨羽亦( )由羊( )衣(衤)西言(讠)亞月(月)音聿幺弋;z子足(_)走辶(廴)自。
設(shè)置一種筆畫與字母鍵的映射系統(tǒng);其字或詞語的輸入步驟為(1)對單字輸入,獨根字按筆順取碼、多根字按根順取碼以及基本字根集以外的獨體字按筆畫或聲母取碼,基本字根根據(jù)上述的基本字根與字母鍵的映射關(guān)系取碼輸入,普通字根根據(jù)筆畫與字母鍵的映射系統(tǒng)取碼輸入,單字全碼為四碼,不足四碼用筆畫碼補足;(2)對詞語輸入,雙字詞語用兩字的首根和次根取碼依次輸入,三字詞語用三字的首根和第三字的次根取碼依次輸入,四字詞語用四字的首根取碼依次輸入,以及五字以上的詞語用前三字和末字的首根取碼依次輸入。
由于本發(fā)明的漢字輸入方法采取了上述的技術(shù)方案,建立了基本字根集,使整字分解具有客觀性,按筆順和根順取碼,和基礎(chǔ)教育取得一致?;咀指c鍵位的映射關(guān)系時,采用“音托”為主,輔以“筆托”的方法映射鍵位,有助于記憶。另一方面,對常用的高頻字采用了一級、二級和三級簡碼,實現(xiàn)了高效輸入,還設(shè)置了兩千個高頻詞簡碼,大大縮短了碼長。
圖1是各基本字根與國際通用小鍵盤字母鍵的映射關(guān)系圖本發(fā)明的漢字拼形編碼方法以字根為主,即以基本字根集為主。表一是本發(fā)明的基本字根集。
表一亻彳白 比 匕不貝八(丷)鼻卜(_) 疒勹宀 冖采艸(廾) 寸大歹斗 豆 刀( 刂)癶兒耳 而阝卩( )方非父缶 風(fēng) 扌廣 工 干骨弓 瓜甘鬼 革 谷戈艮鬲 火(灬) 黑 禾 戶虍止 支至隹 中 竹 (_) 舟爪(爫)豸斤 見 巾角幾 金(钅) 臼 已 (巳) 丬口 囗(匚冂凵) 力 里 龍隸立(亠)耒鹿耂 木母面民門米 馬 毛目(罒) 皿 矛麻女 牛( )鳥廿( )氵 冫 片疋皮 氣 欠 去齊其 青(_) 犬(犭) 人日(曰)肉纟 (糸)厶 彡巛田土(士) 天車臣蟲赤 尺 辰齒廠 長(镸) 十尸氏 石生矢舌鼠水 束 手是 山(彐 ) 食(饣) 身 示(礻) 豕殳無韋 瓦 戊兀 王(玉)文(攵夂) 丸 亡心(忄) 夕西(覀) 血 小(_) 穴 辛 又頁魚 用業(yè)牙雨羽亦( ) 由羊( ) 衣(衤) 酉言(讠) 亞月(月) 音聿 幺 弋子 足(_) 走 辶(廴) 自基本字根集的制訂原則基本字根集全部采用部首。理由是①部首表意功能強,質(zhì)量高;②部首的組字能力,特別是作為首根的統(tǒng)率能力強;③各家基本統(tǒng)一的部首約200個,數(shù)量上用作鍵位映射比較合適;④部首的范圍是封閉性的,選用高頻的,刪掉低頻的,不會引起爭議。
建立“基本字根集”是本方案的一項核心技術(shù)?;咀指捎梦宸N部首“投票”的方法建立。成字的部首從寬,非字的部首從嚴。這五種部首是①國家語委的201推薦部首;②(B2312-80的部首;③辭海的部首;④新華字典的部首;⑤現(xiàn)代漢語詞典的部首。
基本字根條的數(shù)量定為200個。理由是①國際通用小鍵盤只有26個字母鍵,而末級字根卻有600多個,全部映射到鍵位上,既不可能也沒有必要。建立200個基本字根集,平均每個鍵位負擔不到7.5個,是比較合適的。
②漢字的結(jié)構(gòu)是以字根為核心的,這是大家的共識。但是字根和筆畫的使用頻率,在漢字拼形碼類型的系統(tǒng)中,常常處在動態(tài)之中,此消彼長,字根數(shù)從五十個到四百個,相差懸殊。為了充分體現(xiàn)字根的核心地位,不管是字根的動態(tài)使用頻度還是靜態(tài)組字頻度,都必須達到85%以上,讓筆畫的作用降到15%以下。
③千百年來,傳統(tǒng)的部首一直保持在200個左右,《康熙字典》的部首為214個,《辭?!凡渴?50個,《新華字典》部首189個,國家語委的推薦部首為201個。
④基本字根集不光能統(tǒng)率GB2312的6763個國標漢字,也要能統(tǒng)率國際標準《中日韓大字符集》20902個漢字。
基本字根集的定序①先按筆畫數(shù)排序,同筆畫數(shù)的按筆形(橫豎撇點折)定序,同筆形的按降頻定位。
②每個字根的欄目有①編號②字根③繁體④讀音⑤名稱⑥動態(tài)降頻序號⑦靜態(tài)組字頻率⑧首根出現(xiàn)次數(shù)⑨是否部首(國標、語委、辭海、新華、現(xiàn)漢)⑩說明。
接著,參照圖1說明本發(fā)明輸入方法的基本字根與國際通用小鍵盤的字母鍵的映射關(guān)系。鍵位映射采用音托和筆托的方法。將基本字根集(195個字根和5個基本筆畫)映射到國際通用小鍵盤26個字母鍵上。鍵位映射的基本要求是幫助記憶;一步到位。
采用“音托”的方法①通用鍵盤上的iuv分別表示雙字母聲母zh ch sh,和全拼雙拼碼中的雙拼鍵位圖完全一致。
②成字字根,包括其變體(鍵位表上用括號表示),均用該漢字發(fā)音首字母進行映射,例如將“幾斤見巾角金(钅)臼己(巳)”映射到J鍵上。
③非字字根中,凡有名稱的一律取發(fā)音首字母進行映射。例如勹(包字頭),映射到b鍵上。
采用“筆托”的方法采用“筆托”的方法映射鍵位的只有3個,均取其首筆和字母的首筆相似,以便聯(lián)想。它們是亻彳的首筆是撇,映射到大寫字母A鍵上氵冫的首筆是點,映射到大寫字母O鍵上扌 的首筆是橫,映射到大寫字母F鍵上另外,還設(shè)置了兩種筆畫與字母鍵的映射系統(tǒng)。筆畫映射有五個,如表二所示。
表二<
元音字母筆畫系統(tǒng),采用“形托”的方法①大寫字母E的首筆,和筆畫“橫(-)”相似②大寫字母I的形狀,和筆畫“豎(丨)”完全相同③大寫字母A的首筆,和筆畫“撇(丿)”相似④大寫字母O的形狀,和筆畫“點(丶)”有點近似⑤大寫字母U的首筆,和筆畫“折(_)”有點近似輔音字母筆畫系統(tǒng),采用“音托”的方法①字母H,是“橫(-)”的發(fā)音首字母②字母S,是“豎(丨)”的發(fā)音首字母③字母P,是“撇(丿)”的發(fā)音首字母④字母D,是“點(丶)”的發(fā)音首字母⑤字母Z,是“折(_)”的發(fā)音首字母兩套筆畫系統(tǒng)的作用如下①用“筆碼”對普通字根進行編碼;
②如果“根碼”不足四碼時,用“筆碼”進行補碼;③由于是兩套筆畫系統(tǒng),故大大離散了重碼;④區(qū)分漢字的間架結(jié)構(gòu),和國民識字教學(xué)相結(jié)合;⑤對同一結(jié)構(gòu)類型的漢字編“筆碼"時,要么是輔音筆畫系統(tǒng),要么是元音筆面系統(tǒng),具有檢驗功能。
為保證取碼方法的規(guī)范性,本發(fā)明的漢字拼形編碼方法,采取按根取碼的方案。
按照本發(fā)明的漢字輸入方法,整字分解的規(guī)則包括①基本字根一律不分解200個基本字根中,全部都是傳統(tǒng)部首。因為是一部之首,處在首根的位置.對鍵位布局,具有決定性的作用,因此基本字根不管是獨體型(例如大、馬、豕)還是復(fù)合型(例如魚、角、鹿、羽、赤),一律不分會解。
②普通字根為末級部件普通字根約400個,但動態(tài)使用頻度和靜態(tài)組字頻度均在l5%以下.因此必須將整字分解到末級.一般不能是復(fù)合型字根。
整字分解的細則是①相聚型不分解所謂相聚型,是指單筆和單筆相聚。
例如氵冫 _ ②相交型不分解所謂相交型,墨捏筆面之間有交叉,例如“又母女西 重垂”。有一種特殊情況是倒八(丷)嵌在其中,也一律不分解,例如半辦平傘 。但是像_坐",要分解成“人人土”。
③相離型分解所謂相離型,是指字根彼此之間有距離,例如和(禾口)
型(開刂土)圓(口口貝)解(角刀牛)臨()北( 匕)曹( 日)。
④相接型有分解和不分解兩種情況分解是指字根之問相接而不相交,(左右型結(jié)構(gòu)的漢字一般不存在這種情況),例如帛(白巾)奐( 卡(上卜)叔(上小又)典( 不分解是指單筆和多筆相接,例如千方玉術(shù) 。
按照本發(fā)明的漢字輸入方法,單字編碼的原則包括①200個基本字根(基根)用“根碼”進行編碼所謂根碼,是指分布在26個字母鍵上的字根代碼。由于根碼的頻率已達85%以上,故在編碼中起主導(dǎo)作用。
②400個普通字根(善根)用“筆碼”進行編碼所謂筆碼,是指分布在兩套筆畫系統(tǒng)共10個鍵位上的筆畫代碼,元音筆畫系統(tǒng),用于非左右結(jié)構(gòu);輔音筆畫系統(tǒng),用于左右結(jié)構(gòu)。由于筆碼的頻率在15%以下,在鳊碼中只起輔助作用,從而保證了根碼的核心地位。另外需要說明的是,筆碼的作用有五條(1)對普通字根進行編碼;(2)如果“根碼”不足四碼時,用“筆碼”進行補碼;(3)由于是兩套筆畫系統(tǒng),大大離散了重碼;(4)有利于誤碼糾錯,因為同一個字的筆碼,要么都是元音筆畫,要么都是輔音筆畫;(5)符合小學(xué)語文教學(xué)大綱中關(guān)于掌握漢字結(jié)構(gòu)類型的要求。
③獨根字桉“筆順”取碼多根字按“根順”取碼。
眾所周知,漢字的結(jié)構(gòu)只能分成墊字、字根和筆畫三級,基本字根用“根碼”編碼,普通字根用“筆碼”編碼,不僅具有科學(xué)性,而且有很強的以簡馭繁的統(tǒng)率作用。例如“單”,上面的丷,是基本字根,用根碼B編碼;下面的“ ”是普通字根,很難稱說,用筆碼IUI(首次末三筆)編碼就顯得很簡易了。
單字簡碼(分別為一、二、三碼)和全碼(四碼)兼容①單字簡碼約5500個,按降頻定為一、二、三碼;②全碼為四碼,不足四碼者補足(如果只有一筆,則自身重復(fù)),多于四碼者取前三末一。
下面更具體地說明本發(fā)明輸入單字的方法①獨根字獨根字有兩種取碼的方法并存并用,互相兼容。需要說明的是,獨根字屬于非左右結(jié)構(gòu),要用元音筆畫系統(tǒng)進行編碼。另外,鍵位圖上的基根中的獨體字只能用第二種方法。
●取“前三末一”四個筆畫示例巨eueu丙秉個凡事●先取一個聲母,然后取“首次末”三個筆畫示例氣qaeu我大里鳥自②雙根字雙根字的編碼在整個編碼系統(tǒng)中,有舉足輕重的作用,原因有三條①雙根字達2000多個,占了三分之一,而且多是常用字;②詞語編碼一般只取首根和次根,對雙根字來說,無論是單字或詞語編碼,都是“全息”的③雙根字的編碼如果不加分化,重碼率非常高。故采取以下兩條重要措施①雙根字的首根只取一碼;②取碼一直往下走,不允許走回頭路。
需要說明的是雙根字中有的普通字根本身就是一個漢字,故有兩種取碼的方法并存并用,互相兼容。(三根以上的字類此)。例如“鴨”字,其中“甲”是普根,“鳥”是基根,其兩種編碼方式分別是 snph或jnph。
基根和普根的組合有如下四種模式基根+基根(數(shù)量很大)、基根+普根(數(shù)量不少)、普根+基根(有一定數(shù)量)、普根+普根(只有幾個字)。這里再一次說明雙根字的首根,不管是普根還是基根,都只取一碼雙根字的次根取三碼。
示例杜mthh 筆 取 有 爸 某 光示例捷fhzd 姬 免 缺 畏 象 單示例那zuzs 制 向 北 惠 卑 舊示例拜phhs 虧 暢 棘 師 兆③三根字取“首次末”,不管是根碼或筆碼;第四碼用筆碼補足。
示例鞋gtth 唐 替 芬 娶 查 迎巫grro 艷 粥 旗 鞍 臨 監(jiān)④四根字取“首次次末”,不管是根碼或筆碼。需要說明的是當?shù)谒母瞧崭鶗r,一律取末筆。例如“流”字,可分解為“氵亠厶 ”,第四碼應(yīng)取“ ”的末筆。
示例楷mbbh 說 慧 逼 蠢 糜 座敬cbkw 燃 荷 蕊 嘴 閱 撬⑤五根以上字取字根的前三末一,即“首次次末”,不管是根碼或筆碼。需要說明的是當末根是普根時,一律取末筆。
示例燥hkkm 髓 贏 藻 癌 燥 器本發(fā)明的單字輸入法,有平面型和層次型兩種。平面型指的是四碼時才構(gòu)成一個平面,一、二、三鍵為簡碼字,每提示行只出現(xiàn)一個高頻字,后面緊跟高頻詞語(與全碼詞語兼容)。所謂層次型,是指每一提示行有十個字,依降頻排列,如果擊一鍵沒有出現(xiàn),就打第二鍵,依此類推。上鍵出現(xiàn)的字,不在下鍵重復(fù)出現(xiàn)。
本發(fā)明的詞語輸入的原則,采用“非全息”的等長四碼,以及設(shè)置一、二、三碼的高頻詞語,并與四碼詞語完全兼容。
本發(fā)明的詞語輸入的方法●雙字詞語用兩字首根和次根依次輸入示例相信mmay●三字詞語用三字的首根和第三字的次根依次輸入示例對不起ybzj●四字詞語用四字的首根依次輸入示例全心全意rxry●五字以上用前三末一字的首根依次輸入示例中華人民共和國 iark
權(quán)利要求
1.一種字根拼形規(guī)范碼計算機漢字輸入方法,其特征在于,基本字根一律不分解,用根碼編碼,普通字根為末級部件,用筆碼編碼,根據(jù)這樣的原則進行取碼,設(shè)置基本字根集為亻彳白比匕不貝八(丷)鼻卜(_)疒勹宀冖采艸(廾)寸大歹斗豆刀( 刂)癶兒耳而阝卩( )方非父缶風(fēng)扌廣工干骨弓瓜甘鬼革谷戈艮鬲火(灬)黑禾戶虍止支至隹中竹(_)舟爪(爫)豸斤見巾角幾金(钅)臼已(巳)丬口囗(匚冂凵)力里龍隸立(亠)耒鹿耂木母面民門米馬毛目(罒)皿矛麻女牛( )鳥廿( )氵冫片疋皮氣欠去齊其青(_)犬(犭)人日(日)肉纟(糸)厶彡巛田土(士)天車臣蟲赤尺辰齒廠長(镸)十尸氏石生矢舌鼠水束手是山(彐 )食(饣)身示(礻)豕殳無韋瓦戊兀王(玉)文(攵夂)丸亡心(忄)夕西(覀)血小(_)穴辛又頁魚用業(yè)牙雨羽亦( )由羊( )衣(衤)酉言(讠)亞月(月)音聿幺弋子足(_)走辶(廴)自設(shè)置各基本字根與字母鍵的映射關(guān)系為a 亻彳;b白比匕不貝八(丷)鼻卜(_)疒勹宀冖采;c艸,(廾)寸;d大歹斗豆刀( 刂)癶;e兒耳而阝卩( );f方非父缶風(fēng)扌;g廣工干骨弓瓜甘鬼革谷戈艮鬲;h火(灬)黑禾戶虍;i止支至隹中竹(_)舟爪(爫)豸;j斤見巾角幾金(钅)臼已(巳)丬;k口囗(匚冂凵);l力里龍隸立(亠)耒鹿耂;m木母面民門米馬毛目(罒)皿矛麻;n女牛( )鳥廿( );o 氵冫;p片疋皮;q氣欠去齊其青(_)犬(犭);r人日(曰)肉;s纟(糸)厶彡巛;t田土(士)天;u車臣蟲赤尺辰齒廠長(镸);v十尸氏石生矢舌鼠水束手是山(彐 )食(饣)身示(礻)豕殳;w無韋瓦戊兀王(玉)文(攵夂)丸亡;x心(忄)夕西(覀)血小(_)穴辛;y又頁魚用業(yè)牙雨羽亦( )由羊( )衣(衤)酉言(讠)亞月(月)音聿幺弋;z子足(_)走辶(廴)自;設(shè)置一種筆畫與字母鍵的映射系統(tǒng);單字或詞語的輸入步驟為(1)對單字輸入,獨根字按筆順取碼、多根字按根順取碼,以及基本字根集以外的獨體字按筆畫或聲母取碼,基本字根根據(jù)上述的基本字根與字母鍵的映射關(guān)系取碼輸入,普通字根根據(jù)筆畫與字母鍵的映射系統(tǒng)取碼輸入,單字全碼為四碼,不足四碼用筆畫碼補足(2)對詞語輸入,雙字詞語用兩字的首根和次根取碼依次輸入,三字詞語用三字的首根和第三字的次根取碼依次輸入,四字詞語用四字的首根取碼依次輸入,以及五字以上的詞語用前三字和末字的首根取碼依次輸入。
2.根據(jù)權(quán)利要求1的漢字輸入方法,其特征在于,上述的筆畫與字母鍵的映射系統(tǒng)是一種用于非左右結(jié)構(gòu)漢字的元音筆畫系統(tǒng),其中筆畫橫、豎、撇、點和折分別映射于字母鍵E、I、A、O、和U。
3.根據(jù)權(quán)利要求1的漢字輸入方法,其特征在于,上述的筆畫與字母鍵的映射系統(tǒng)是一種用于左右結(jié)構(gòu)漢字的輔音筆畫系統(tǒng),其中筆畫橫、豎、撇、點和折分別映射于字母鍵H、S、P、D和Z。
4.根據(jù)權(quán)利要求1的漢字輸入方法,其特征在于,上述的單字輸入還包括一種與四碼兼容,按降頻排序的單字簡碼進行輸入及其具有高頻詞語簡碼與全碼詞語兼容。
全文摘要
本發(fā)明提供一種字根拼形規(guī)范碼計算機漢字輸入方法,它具有一種基本字根集、筆畫與標準小鍵盤的字母鍵映射關(guān)系,輸入漢字時,基本字根一律不分解,普通字根為末級部件,按筆順或根順取碼。本方法的基本字根集與鍵位的映射關(guān)系采取了“音托”輔以“筆托”的方法,有助于記憶,整字分解具有客觀性以及高頻字詞采用了簡碼,具有規(guī)范易學(xué)、輸入速度高的優(yōu)點。
文檔編號G06F3/023GK1127385SQ9511941
公開日1996年7月24日 申請日期1995年12月25日 優(yōu)先權(quán)日1995年12月25日
發(fā)明者陶沙, 肖金卯, 華紹和, 程女范, 蔣順炳 申請人:中國中文信息學(xué)會