專利名稱:中文字詞語從形編碼法及其所用鍵盤的制作方法
本發(fā)明屬于電子計算機及其他類似設備處理中文信息的技術領域:
。
目前國內(nèi)外利用電子計算機等設備處理中文信息,一般采用對漢字進行逐字編碼輸入(在通用小鍵盤上)或整字逐字輸入(在特制的大、中型鍵盤上)的方案。對漢字的逐字編碼的方法,包括拼音法、音形結合法、筆劃拼形法、部件筆劃拼形法等四種。前兩種方法在輸入不認識的漢字,或讀音不準時,就感到困難。而且相同讀音的字太多,選擇起來很費時間。筆劃拼形法雖然部件或筆形較少,但要將漢字拆分得很細,容易出錯,且漢字平均擊鍵次數(shù)高。部件筆劃拼形編碼法(如蒼吉碼、五筆字形輸入法、宏觀字形簡易輸入法以及85 104343號專利申請所公布的漢字編碼法)采用偏旁部首和筆劃組合選作部件,使平均擊鍵數(shù)有所減少,輸入速度有了提高,但均存在著所用部件多(100個左右),涉及的規(guī)則和概念復雜,學成較慢,且無法將所用筆劃或部件較為清晰地全部刻于鍵帽上,使操作和記憶不甚方便。至于整字輸入方式,雖使輸入操作較為直觀,每個字平均擊鍵次數(shù)降低,但它要求對通用的計算機等設備的硬設備進行相應的添加或改制,另作中、大型鍵盤,勢必增加設備的購置費用,同時在選取所需漢字時,無疑要花費較多時間,仍使輸入速度難以提高。
對漢字的逐字編碼輸入或整字輸入難以提高中文信息的處理速度,使人們不能不考慮“以詞為單位”?!霸~”本是世界上大多數(shù)國家的文字構成單位。我國的漢字發(fā)展到現(xiàn)在,亦已大部分演變成“詞素”,由一個單音節(jié)的“字”具備有詞的作用的已為極少數(shù),如去年出版的十萬詞的《現(xiàn)代漢語詞表》里,只有約2000個單音節(jié)的詞。由單音節(jié)的詞發(fā)展到多音節(jié)的詞是語言文字進化的規(guī)律。
本發(fā)明旨在撇開對漢字的逐字編碼輸入和整字輸入的方式,而提供一種對全體中文詞語進行編碼的易學、好記、適用的詞語從形編碼方法及其所用鍵盤,以大大加快輸入速度,提高計算機處理中文信息的能力。
根據(jù)本發(fā)明,對中文字、詞匯、成語(包括諺語、歇后語等)分成“一字詞”、“二字詞”、“三字及三字以上詞語”、“由兩個句組成的語句”、“無習慣已簡縮詞語”(指三個或三個以上常用詞所組成的復合詞)、“有習慣已簡縮詞語”諸種情況分別規(guī)定其取碼的字及其部位;每應取碼的部位取決于對該漢字的拆分;對漢字的拆分按“塊分排、層,雪落分層(指不用筆順),擇大錄取”(“大”指高頻字簡碼、部件或復筆形)的原則進行(在本發(fā)明中除高頻字簡碼、“一字詞”用“對字編碼”的拆形法外,一般只涉及字的“首”、“底”部分);各漢字按上述規(guī)則被拆分成一定的部件或筆形;每個部件或筆形被賦予于一個字母,同組部件和筆形被賦于相同的字母;本發(fā)明中所標稱的部件約28個,基本筆形為7種,復筆形為12種,經(jīng)優(yōu)化選擇綜合為26組;每組部件或筆形對應于鍵盤上的一個字母鍵;按照上述方法,每一個中文字詞語被賦于其特定的一個至數(shù)個字母組成的字母串。
下面結合附圖對本發(fā)明加以詳細說明。
圖1示出了本發(fā)明使用的28個部件,7種基本筆形和12種復筆形,它們的分組情況,每組部件和筆形與英文字母的對應關系,以及每個高頻字簡碼(本發(fā)明中為21個高頻字)所對應的字母。
圖2為本發(fā)明所使用的鍵盤鍵帽示意圖。
圖3是幾個編碼實例,說明了對不同情況采用的編碼方法,即取碼位置。
按照本發(fā)明,依“塊分排、層,雪落分層,擇大錄取”的原則,對應編碼的漢字進行拆分。所謂塊分排、層,是指根據(jù)漢字的結構加以分排
、分層
(漢字結構實際上很復雜,存在多種多樣的塊列形式,本發(fā)明中概括為這兩種);所謂雪落分層,是指按字的形狀加以分層拆開,而不按筆順處理;所謂擇大錄取,是指對高頻字不拆分,能拆分為部件的不再拆分成復筆形或基本筆形,能拆分為復筆形的不再拆分成基本筆形。在本發(fā)明中,除高頻字簡碼在編碼時應直接取其本身?!耙蛔衷~”采取對字編碼“(即對字拆形編碼)”以外,一般涉及取碼的部位只有“首”、“底”兩部分?!笆住敝缸值淖笊喜糠郑暗住敝缸值挠蚁虏糠?。
由于本發(fā)明是對漢語的全部詞語進行編碼,須按詞語所含字數(shù)的多少,分別規(guī)定其取碼的位置對“一字詞”,如系高頻字簡碼,直接取用,否則采取“對字編碼,”即對字拆形編碼方法;
對“二字詞”,采取按各字的“首”、“底”部位依次分別取碼,這樣,“二字詞”最多編為4碼;
對“三字和三字以上的詞語”,采取第一字取“首”、從第二至第四各字取“底”,再跳取末一字的“底”碼,這樣“三字和三字以上的詞語”最多編為5碼;
對“由兩個句組成的語句”,其第一個短句按“三字和三字以上的詞語”的編碼方法取碼,加編第二短句末一字的“底”碼,這樣,一般編為6碼;
對“無習慣已簡縮詞語”(即指三個或三個以上常用詞所組成的復合詞),取從首詞至末詞前各詞的第一字的“首”碼、再加編末末詞最后一字的“底”碼;
對“有習慣已簡縮的詞語”,在取第一字的“首”碼、末一字的“底”碼后,加編一個比較不常用的字母,一般加“Z”,這樣形成的一個字母串便代表著該簡縮詞語未簡縮前的全稱。
本發(fā)明中對“一字詞”的編碼中的“對字編碼”,除運用對詞語編碼中的“首”、“底”方法外,加用“字邊”的手段。具體做法是,先區(qū)分是“排”還是“層”,對“排”結構,依左右順取二塊的“首”碼;對“層”結構,在取最上一層的“首”碼后,接編下一層的“首”碼;然后再看底邊,如有2~3塊,取其靠右2塊各塊的右下形(依左右)2碼;如底邊只有一層(不能分塊),則取其包括上一層在內(nèi)的右下二形(由上而下)編2碼(若右到底處已經(jīng)取過碼,則在其左下到底處編出1~2碼),對一個部件右上角的“丶”筆形,若已取足4碼,則不再取碼。
本發(fā)明所選用的部件,筆形示于圖1。由圖中看出,所用部件數(shù)極少,僅約28個,其中,部件“亠”只用于“對字編碼”時。所選用筆形,包括基本筆形和復筆形共19個,而且都標稱出其相應名稱,便于記憶和聯(lián)想。由于部件數(shù)與筆形種數(shù)之和仍然多于字母鍵元數(shù),將其劃分成26組,經(jīng)過優(yōu)化選擇,歸并如圖1所示方案。
本發(fā)明所提供的鍵盤,至少有26個字母鍵和一個空格鍵,它們在鍵盤上的相對位置最好與標準英文鍵盤相同。
在實際輸入中文字,詞語時,計算機中專司控制和接受中文字詞語的程序要求操作員在每個中文字、詞、語的字母串輸入結束后,鍵入一個“代碼結束鍵”,通常為空格鍵。
26組部件、筆形分配到如圖2所示的26個字母鍵。采取這種分配方法的出發(fā)點是盡量方便于聯(lián)想,減少記憶。其法則是采用“音”或“形”相近。在“音”相近中有借助于“聲母”相近的,如部件“疒、宀”對應于“B”鍵、“點”筆形“丶”對應于“D”鍵、部件“木”對應于“M”鍵、部件“氵”對應于“S”鍵、部件“土”對應于“T”鍵、部件“王”對應于“W”鍵。等等;
有借助于“直”音的,如高頻簡碼字“的”對應于“D”鍵、高頻簡碼字“我”對應于“O”鍵、高頻簡碼字“有”對應于“U”鍵、等等。
在“形”相近中,如部件“匕”對應于“E”鍵、部件“大、女”與“斜叉”筆形(乂、メ)對應于“X”鍵(借助于其下半形相似),部件“辶”對應于“L”鍵,部件“口(左)”對應于O鍵等等。
本發(fā)明的主要優(yōu)點是,它是以中文里的“詞”或“語”為編碼單位,從而極大地壓縮了每字的平均碼長。據(jù)對今年3月22日《趙總理在中國人民維護世界和平大會上的講話》全文近2000字依本方案編碼的實例統(tǒng)計,每字平均碼長為1.41個碼/字,每詞碼長為3.09個碼/詞。無疑,這將大大提高中文字的輸入速度,加強計算機對中文信息處理的能力。
本發(fā)明所提供的編碼方法簡單明確,使用者只要有一般的詞語概念,掌握幾條簡單的法則,在各種運用計算機處理中文信息的領域,都能得到滿意的效果。
記憶量少,是本發(fā)明的又一個特點。在本發(fā)明里,所選用的高頻字只有21個,選用的部件只有28個,基本筆形和復筆形共只19種,只達已有諸種方案的1/3左右。從而,使編碼用的所有元部件(包括高頻字、部件、筆形)都能清晰地標志在標準的英文鍵盤上,供操作人員迅速準確地選用。即使不經(jīng)專門訓練,也能較快進行中文信息的處理。
還有,本發(fā)明中,對中文字的構件(即部件、筆形、高頻字簡碼)概括得較為完備,因而能適應中文字詞語編碼中的各種復雜情況。
從對政治、經(jīng)濟及日常生活中所涉及的數(shù)萬條詞,語進行編碼的實踐表明,按本發(fā)明編碼可能發(fā)生重碼,但對同碼除顯示提告外還設計有便于聯(lián)想的附加碼手段,對本方案的應用無甚影響。
當然,按照本發(fā)明的思想對上述實施例加以變更,比如,選用的高頻字簡碼及部件、筆形的多少等作些改動,以利于各專業(yè)特有字詞的使用,也同樣得到理想的結果。因此,本發(fā)明并不僅僅局限于上述的實施例。
權利要求
1.一種對中文字詞匯、成語(包括諺語、歇后語等)的編碼方法,其特征在于,按詞語所含字數(shù)的多少,分別對取碼位置(應取碼的字及其部位)作不同處理,對應編碼漢字依其形象按一定原則拆分成其相應的部件和(或)筆形,對應取碼部位的每一部件或筆形被賦予一個字母,從而使任一中文字詞語被賦予一個依應取碼位置先后排列的一個至數(shù)個字母組成的字母串。
2.如權項1所述的編碼方法,其特征在于對“一字詞”如無高頻字簡碼則采取“對字編碼”的拆形方法;對“二字詞”采取按各字的“首”、“底”部位依次分別取碼;對“三字和三字以上的詞語”,采取第一字取“首”、從第二至第四各字取“底”,再跳取末一字的“底”碼;對“由兩個句組成的語句”,其第一個短句按“三字和三字以上的詞語”的編碼方法取碼,加編第二短句末一字的“底”碼;對“無習慣已簡縮詞語”(指三個或三個以上常用詞所組成的復合詞),取從首詞至末詞前各詞的第一字的“首”碼,加編末詞最后一字的“底”碼;對“有習慣已簡縮詞語”,在取第一字的“首”、末一字的“底”后,加一個比較不常用的字母。
3.如權項2所述之編碼方法,其特征在于,對詞語中應編碼的字按“塊分排、層,雪落分層(指不用筆順),擇大錄取(“大”指高頻字簡碼、部件或復筆形)的規(guī)則進行編碼。
4.如權項2所述之編碼方法,其中的“對字編碼”,其特征在于,除運用對詞語編碼中的“首”、“底”方法外,加用“字邊”的手段。對“排”結構,依左右順取二塊的“首”碼;對“層”結構,在取最上一層的“首”碼后,接編下一層的“首”碼;然后再看底邊,如有2~3塊,取其靠右2塊各塊的右下形(依左右)2碼;如底邊只有一層(不能分塊),則取其包括上一層在內(nèi)的右下二形(由上而下)編2碼(若右到底處已經(jīng)取過碼,則在其左下到底處編出1~2碼)。
5.如權項3、4所述的編碼方法,其特征在于,所擇取的部件為疒、宀;火、亠(對字編碼專用);匕(七、
)、阝、卩(左右);月;心、廣、礻(衤)、工;口、(除左外);钅(左);讠(左);辶、己;木;口(左);^(人、人、亻(左))、兒;氵(左);土(士);扌(左);王;大、女;;纟(左)(幺、鄉(xiāng))。所歸納的筆形中,基本筆形7種“橫”筆形(一、
);“直”筆形(丨、亅);“撇”筆形(丿、
);“點”筆形(
、丶、
);“角”筆形(、亻、乛、、
);“方”筆形(口(非左)、囗、日、目、罒);“叉”筆形(十、、
)。(以上筆形連有“鉤”的,視同沒有。如“”同“
”、“亅”同“丨”);復筆形12種“左右斜”筆形(八、丷、……),“對角”筆形(
……),“上下斜”筆形(
),“連角”筆形(
、幾、己、……),“多叉”筆形(艸、豐、卅、
、……),“叉角”、(包括“叉叉角”筆形)(力、九、七、肀、
、……)“方叉”筆形(中、田、甲……),“角叉角”筆形(巾、
、……),“三排”筆形(小、、川、水、氺、
、……),“斜叉”筆形(乂、乂、……),“角叉”(包括“連角叉”“角叉叉”)筆形(又、
、
、廴、
、……),“四排”筆形(
)。
6.一種實現(xiàn)中文的字、詞、語編碼方法的輸入鍵盤,至少包括26個字母鍵和一個空格鍵,它們的相對位置與標準英文鍵盤相同,其特征在于“橫”筆形(一、
)對應于一個字母鍵部件“疒、宀”與“直”筆形(丨、ノ)對應于一個字母鍵;“撇”筆形(丿、
)對應于一個字母鍵;部件“火”與“點”筆形(丿、丶、
)對應于一個字母鍵;部件“匕、(匕
)、阝、卩(左右)”與“左右斜”筆形(八、丷……)對應于一個字母鍵;部件“月”與“對角”筆形(
、、
、厶、匚、
、……)對應于一個字母鍵;部件“心、廣、礻(衤)、工”與“角”筆形(廠、
、乛、、
、
)對應于一個字母鍵;部件“囗(除左外)”與“方”筆形(囗、日、目、罒)對應于一個字母鍵;部件“钅(左)”與對應于一個字母鍵;“叉”筆形(十、、
)對應于一個字母鍵;部件“讠”與“上下斜”筆形(
)對應于一個字母鍵;部件“辶、己”與“連角”筆形(
、乙、
、幾、己……)對應于一個字母鍵;部件“木”對應于一個字母鍵;“多叉”筆形(艸、豐、
……)對應于一個字母鍵;部件“口(左)”對應于一個字母鍵;“叉角”(包括“叉叉角”)筆形(力、九、
、肀
……)對應于一個字母鍵;部件“
(人、人、亻(左))、兒”對應于一個字母鍵;部件“氵(左)”對應于一個字母鍵;部件“土(士)”對應于一個字母鍵;“方叉”,“角叉角”筆形(中、田、甲、巾、屮、
……)對應于一個字母鍵;部件“才(左)”對應于一個字母鍵;“三排”筆形(小、忄、、川、氺、水、
……)對應于一個字母鍵;部件“王”對應于一個字母鍵;部件“大、女(女)”與“斜叉”筆形(乂
……)對應于一個字母鍵;部件“”與“角叉(包括“連角叉”、“魚叉叉”)”、“四排”筆形(又、
、廴、
……)對應于一個字母鍵;部件“纟(左)(幺、鄉(xiāng))”對應于一個字母鍵。
7.如權項5所述的鍵盤,其特征在于,該鍵盤為標準的英文鍵盤,且“橫”筆形(一、
)對應于A鍵;部件“疒、宀”與“直”筆形(丨))對應于B鍵;“撇”筆形(丿、
)對應于C鍵;部件“火”與“點”筆形(
、丶、
)對應于D鍵;部件“匕(七、匕),阝、卩(左、右)”與“左右斜”筆形(八、丷……)對應于E鍵;部件“月”與“對角”筆形(
、、
、厶……)對應于F鍵;部件“心、廣、礻(衤)”與“角”筆形(
、乛、、乛、し)對應G鍵;部件“口(除左外)”與“方”筆形(囗、日、目、罒)對應于H鍵;部件“钅(左)”對應于I鍵;“叉”筆形(十、、
)對應于J鍵;部件“讠”與“上下斜”筆形(
)對應于K鍵;部件“辶、己”與“連角”筆形(
、乙、
、幾、己……)對應于L鍵;部件“木”對應于M鍵;“多叉”筆形(艸、豐、卅、
……)對應于N鍵;部件“口(左)”對應于O鍵;“叉角”(包括“叉叉角”)筆形(力、九、
、肀、
……)對應于P鍵;“方叉”、“角叉角”筆形(中、田、甲、巾、
、屮……)對應于Q鍵;部件“亻(左)、人、人、兒”對應于R鍵;部件“氵”對應于S鍵;部件“土(士)”對應于T鍵;部件“扌(左)”對應于U鍵;“三排”筆形(小、忄、、川、水、氺
……)對應于V鍵;部件“王”對應于W鍵;部件“大、女(女)”與“斜叉”筆形(乂、メ)對應于X鍵;部件“”與“角叉(包括“角叉叉”、“連角叉”)”、“四排”筆形(又、
……)對應于Y鍵;部件“纟(左)、幺、鄉(xiāng)”對應于Z鍵。
專利摘要
本發(fā)明是一種對全體中文字詞語從形編碼法及其鍵盤。它按詞語字數(shù)多少對取碼位置作不同處理,對應編碼字依其形象按一定原則被拆分為相應的部件和筆形。本方案選用的47個部件、筆形被分組,使其分別對應于26個字母鍵,每個部件和筆形被賦予一個字母,每一中文字詞語被賦予按規(guī)則排列的一至數(shù)個字母。因?qū)υ~語編碼,使每字平均碼長成倍降低,大大加快輸入速度;編碼法則簡單明確,記憶量小,易學好用;所用部件筆形極小,可全部清晰地刻于鍵帽上。
文檔編號G06F3/023GK86103490SQ86103490
公開日1987年12月2日 申請日期1986年5月20日
發(fā)明者黃美陶 申請人:黃美陶導出引文BiBTeX, EndNote, RefMan