專(zhuān)利名稱(chēng):具有句輸入功能的規(guī)范表形碼及其中西文兼容鍵盤(pán)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及的是一種漢字計(jì)算機(jī)輸入方法及其中西文兼容鍵盤(pán)。本發(fā)明是登記號(hào)為95116305.1專(zhuān)利的后繼發(fā)明。
規(guī)范表形碼及其中西文兼容鍵盤(pán)是國(guó)家科委1994年火炬計(jì)劃重點(diǎn)項(xiàng)目“漢字大字符集(ISO 10646、GB 13000)表形碼輸入輸出系統(tǒng)”的成果之一,國(guó)家科委的項(xiàng)目編號(hào)為94232019。本發(fā)明的申請(qǐng)人是項(xiàng)目的承擔(dān)單位。
漢字是使用人口最多,沿用歷史最長(zhǎng)的表意二維圖形文字。漢字字量的總數(shù)在六萬(wàn)以上,每一個(gè)字還有數(shù)十種字體。中國(guó)大陸、新加坡以簡(jiǎn)化字為國(guó)家標(biāo)準(zhǔn),中國(guó)臺(tái)灣地區(qū)和海外華人社區(qū)采用繁體字。日本、韓國(guó)使用的漢字在字形上與中國(guó)標(biāo)準(zhǔn)體漢字略有差異。
使用漢字的國(guó)家和地區(qū)在漢字的內(nèi)部碼體系、編碼字符集的大小等方面已往均各自為政、嚴(yán)重影響了海內(nèi)外和國(guó)際間的漢字信息處理交流和資源共享。國(guó)際標(biāo)準(zhǔn)《通用多八位編碼字符集(UCS)》中的《CJK統(tǒng)一編碼字符集》(ISO10646)的頒布為解決上述難題創(chuàng)造了條件。
特征信息編碼鍵盤(pán)輸入是漢字進(jìn)入計(jì)算機(jī)的主流方法。提取字音特征信息進(jìn)行編碼的稱(chēng)音碼;提取字形特征信息進(jìn)行編碼的稱(chēng)形碼,形碼中以提取部件(字根)信息類(lèi)編碼為主流。在現(xiàn)代漢語(yǔ)中,4000個(gè)常用字復(fù)蓋了語(yǔ)料的99.9%。受過(guò)中、高等教育的人的識(shí)字量也在這個(gè)數(shù)左右。對(duì)能夠認(rèn)讀的漢字,用音碼輸入是可行的。對(duì)CJK字符集的20902個(gè)漢字,絕大多數(shù)人僅能認(rèn)讀其中的不足五分之一,因此只能“依形輸入”,即提取字形特征編碼輸入。
本發(fā)明的目的就是提供一種能對(duì)ISO 10646的20902個(gè)漢字進(jìn)行編碼的漢字輸入系統(tǒng),并可將編碼字符集擴(kuò)大到6萬(wàn)字以上,以拓寬漢字信息處理的領(lǐng)域,方便于國(guó)際間和地區(qū)間的漢字信息交流。
本發(fā)明的另一目的是提供一種具有句輸入功能的易學(xué)、易記、碼長(zhǎng)短的輸入法。
本發(fā)明還依據(jù)部件的規(guī)范化使用,部件分類(lèi),部件與鍵位的映射關(guān)系,提供了一種中西文高度兼容符合國(guó)內(nèi)、外用戶(hù)使用習(xí)慣的鍵盤(pán)。
CJK字符集20902字的平均筆畫(huà)數(shù)為15筆左右,如果用平均筆畫(huà)數(shù)為3筆的漢字部件,每字取3至4個(gè)部件進(jìn)行編碼,就能夠充分地提取漢字的字形信息,而且信息冗余較低,提高輸入效率。本發(fā)明規(guī)范表形碼輸入法屬于上述科學(xué)的部件(字根)類(lèi)輸入法。
作為部件類(lèi)輸入法。規(guī)范表形碼的發(fā)明設(shè)計(jì)立足于“規(guī)范、易學(xué)、快速”。
漢字部件的定義為“由筆畫(huà)組成的具有組配漢字功能的構(gòu)字單位。現(xiàn)代漢字部件按是否成字可分為成字部件與非成字部件”。規(guī)范表形碼設(shè)計(jì)發(fā)明者依據(jù)國(guó)家語(yǔ)委1997年12月頒布的GF 3001-1997《信息處理用GB 13000.1字符集漢字部件規(guī)范》作為規(guī)范將漢字拆分為部件,并按規(guī)則設(shè)計(jì)了“計(jì)算機(jī)自動(dòng)拆分漢字部件”軟件和“計(jì)算機(jī)自動(dòng)編碼與性能評(píng)測(cè)”軟件,對(duì)CJK字符集20902個(gè)漢字按規(guī)范化的拆分規(guī)則進(jìn)行部件拆分和統(tǒng)計(jì)分析,見(jiàn)附
圖1和附圖2。根據(jù)統(tǒng)計(jì)分析結(jié)果,優(yōu)選了表1、表2、表3給出的表形碼編碼部件集。上述部件集及拆分規(guī)則符合漢語(yǔ)語(yǔ)言文字和漢字信息處理的規(guī)范化要求。
某些漢字編碼輸入方法及其鍵盤(pán)采用超過(guò)26個(gè)鍵元的編碼方法來(lái)達(dá)到減少重碼和縮短碼長(zhǎng)的效果。這種方法至少存在兩個(gè)主要缺點(diǎn)(1)削弱了通用鍵盤(pán)的中西文兼容性和帶來(lái)操作上的不便;(2)選鍵時(shí)間長(zhǎng),還增加使用者的疲勞程度。
規(guī)范表形碼及其中西文兼容鍵盤(pán)以通用鍵盤(pán)的26個(gè)字母鍵作為中西文字輸入,符號(hào)鍵作為中西文標(biāo)點(diǎn)符號(hào)輸入,數(shù)字鍵作為中西文數(shù)字符號(hào)輸入,與國(guó)際計(jì)算機(jī)文字處理軟、硬件系統(tǒng)兼容,即中西文兼容。
著名工程心理學(xué)家海曼提出的已為大量實(shí)驗(yàn)證實(shí)的鍵元選擇時(shí)間為T(mén)=A+BlnNN鍵元的數(shù)量由海曼公式可見(jiàn),編碼鍵元多的輸入方法在輸入操作時(shí)選鍵時(shí)間長(zhǎng),影響輸入速度,也增加操作者心理負(fù)荷。
根據(jù)近代語(yǔ)言信息理論測(cè)定,漢字的熵值為9.7bit,漢語(yǔ)詞的熵值為11.5bit,規(guī)范表形碼對(duì)三部件字用三鍵輸入,多部件字用四鍵輸入,詞語(yǔ)用四鍵輸入,減少了字形特征輸入的冗余信息,減輕了用戶(hù)的編碼負(fù)擔(dān)。
規(guī)范表形碼輸入法的基本技術(shù)特征在于經(jīng)過(guò)規(guī)范化優(yōu)選的150個(gè)左右基本字根和根據(jù)編碼字符集的大小輔以一定數(shù)量的近形歸并字根與26個(gè)鍵位的對(duì)應(yīng)關(guān)系,這種對(duì)應(yīng)關(guān)系基于對(duì)部件的“近形分類(lèi)”,將分類(lèi)后的部件分配在26個(gè)英文字母鍵上。采用這種獨(dú)特分類(lèi)的出發(fā)點(diǎn)是使用戶(hù)“易學(xué)、易記、不忘”。在統(tǒng)一的編碼規(guī)則下,規(guī)范表形碼不僅能對(duì)CJK字符集中中、日、韓20902個(gè)漢字進(jìn)行編碼,且能對(duì)GB 2312給定的簡(jiǎn)化漢字和港臺(tái)地區(qū)使用的BIG5繁體字符集進(jìn)行編碼,并可將編碼字符集擴(kuò)大到6萬(wàn)字以上。
下面舉例說(shuō)明利用規(guī)范表形BXMGF在計(jì)算機(jī)鍵盤(pán)上輸入漢字、詞、句的方法。
1.字的輸入按書(shū)寫(xiě)筆順提取漢字部件進(jìn)行編碼,字編碼的碼長(zhǎng)為3鍵/字或4鍵/字。四部件以上(含四部件)的漢字取該字前三個(gè)部件和最后一個(gè)部件(前三末一)進(jìn)行編碼,碼長(zhǎng)為4鍵/字,三部件的漢字取三個(gè)部件編碼,碼長(zhǎng)為3鍵/字;雙部件的漢字除用該兩個(gè)部件進(jìn)行編碼外,再補(bǔ)上第二部件的首筆畫(huà)碼,碼長(zhǎng)為3鍵/字;單部件的漢字除用該部件編碼外,再補(bǔ)上該字的第一、二筆畫(huà)碼,碼長(zhǎng)為3鍵/字;單筆畫(huà)重復(fù)輸入該筆畫(huà)碼三次,碼長(zhǎng)為3鍵/字。
例如啊OPTO (四部件漢字)吼OZL(三部件漢字)孔ZLL(雙部件漢字)子ZZI(單部件字)乙ZZZ(單筆畫(huà)字)2.詞的輸入輸入兩字及兩字以上詞語(yǔ)時(shí)均為4碼;雙字詞的編碼由該詞語(yǔ)的第一字的第一、第二碼,第二字的第一、第二碼構(gòu)成;三字詞的編碼由該詞語(yǔ)的第一字的第一、第二碼,第二、第三字的第一碼構(gòu)成;四字以上(含四字詞)詞語(yǔ)的編碼由該詞語(yǔ)的前三個(gè)字的第一碼,和最后一字的第一碼構(gòu)成。
例如北京XIIO北京市 XIII中華人民共和國(guó) FVVQ3.句的輸入每字提取字首的第一個(gè)部件和字余的第一個(gè)部件或漢字的第一、第二部件或漢字的首、尾部件進(jìn)行編碼,碼長(zhǎng)均為2鍵/字;也可采用字3碼、詞4碼的方式進(jìn)行句輸入。
例句“電腦包括硬件與軟件兩個(gè)部份?!弊质住⒆钟嗟谝徊考幋a“LINIHLFJPHVFSHLHVFNHVIIPVG。”漢字的第一、第二部件編碼“LINIHLFJPHVFSHLHVFNHVIIKVG?!睗h字的首、尾部件編碼“LLNUHLFOPRVFSHLVVFNNVIIPVH?!弊?碼詞4碼句輸入“LINIHLFFTRVFSHHLHVFNHKJIOVG”如果理解以上例子的編碼原則后就能舉一反三的編寫(xiě)許多字、詞、句的編碼而無(wú)需枯燥地死記硬背。
規(guī)范表形碼的部件分類(lèi)體系見(jiàn)表1、表2、表3。
綜上所述,規(guī)范表形BXMGF及其中西文兼容鍵盤(pán)在編碼字符集的容量(中、日、韓漢字20902個(gè),可擴(kuò)充至六萬(wàn)個(gè)),漢字部件的規(guī)范化使用,部件分類(lèi),部件與鍵位的映射關(guān)系,鍵盤(pán)的中西文兼容性,編碼的易學(xué)、易記,碼長(zhǎng)與選鍵時(shí)間構(gòu)成輸入速度素質(zhì),字詞動(dòng)態(tài)重碼率,句輸入功能,均取得優(yōu)異成績(jī),綜合指標(biāo)與已有技術(shù)相比具有明顯進(jìn)步,相對(duì)于本公司的《漢字表形碼符號(hào)和字素(即部件)分類(lèi)編碼法》(專(zhuān)利號(hào)CN85105556)也具有實(shí)質(zhì)性的進(jìn)步。
本發(fā)明的專(zhuān)利保護(hù)范圍見(jiàn)權(quán)利要求書(shū)。利用本發(fā)明所提供的方法并在本發(fā)明的基礎(chǔ)上作的任何變動(dòng),都在本發(fā)明的保護(hù)范圍內(nèi)。
本說(shuō)明書(shū)共有三個(gè)附表和兩個(gè)附圖。
表1為實(shí)現(xiàn)ISO 10646的CJK大字符集20902個(gè)漢字的編碼輸入時(shí)基本部件、歸并近形部件、筆畫(huà)與鍵元的對(duì)應(yīng)關(guān)系。
表2為實(shí)現(xiàn)GB 2312簡(jiǎn)化漢字字符集編碼輸入時(shí),基本部件、歸并近形部件、筆畫(huà)與鍵元的對(duì)應(yīng)關(guān)系。
表3為實(shí)現(xiàn)智能處理整句輸入時(shí),簡(jiǎn)易表形碼基本部件、歸并近形部件、筆畫(huà)與鍵元的對(duì)應(yīng)關(guān)系。
由表1、表2和表3可以看出,對(duì)于不同的漢字字符集進(jìn)行編碼,規(guī)范表形碼的150個(gè)左右漢字基本部件及其在26個(gè)英文字母鍵上的分布是一致的,只是隨編碼字符集的不同近形歸并部件略有增減。
附面說(shuō)明附圖1為漢字自動(dòng)切分流程圖。[1]----20902漢字一級(jí)拆分?jǐn)?shù)據(jù)(zzk.dbf)[2]----過(guò)渡部件一級(jí)拆分?jǐn)?shù)據(jù)(gdbj.dbf)[3]----間架結(jié)構(gòu)一級(jí)拆分?jǐn)?shù)據(jù)(jjk.dbf)[4]----末級(jí)部件筆畫(huà)數(shù)據(jù)(mjbj.dbf)[5]----自動(dòng)拆分(zkcf.prg)[6]----拆分結(jié)果數(shù)據(jù)庫(kù)(resul.dbf)[7]----20902字拆分結(jié)果(zzkresul)[8]----20902字部件順序(hzbjsr)[9]----20902字筆畫(huà)順序(hzbhsr)[10]----末級(jí)部件統(tǒng)計(jì)(bjtj)附圖2為漢字自動(dòng)編碼流程圖。[11]----20902漢字拆分?jǐn)?shù)據(jù)(resul.dbf)[12]----編碼規(guī)則(bmrl.dbf)[13]----部件鍵位映射(bjjw.dbf)[14]----自動(dòng)編碼(bmauto)[15]----重碼統(tǒng)計(jì)(cmtj)[16]----20902字編碼表(hzbm.dbf)[17]----各字符集重碼數(shù)據(jù)(hzzm.dbf)
表1 部件——鍵元映射表(適用于GB13000.1字符集)
(續(xù)表1)
筆畫(huà)——鍵元映射表(適用于GB13000.1字符集)
表2 部件——鍵元映射表(適用于GB2312-80字符集)
(續(xù)表2)
筆畫(huà)——鍵元映射表(適用于GB2312-80字符集)
表3 智能處理整句輸入簡(jiǎn)易表形碼部件——鍵元映射表
(續(xù)表3)
筆畫(huà)——鍵元映射表
權(quán)利要求
2.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)漢字輸入系統(tǒng),其特征在于兩字及兩字以上的詞語(yǔ)采用如下步驟輸入輸入兩字及兩字以上詞語(yǔ)時(shí)均為4碼;雙字詞的編碼由該詞語(yǔ)的第一字的第一、第二碼,第二字的第一、第二碼構(gòu)成;三字詞的編碼由該詞語(yǔ)的第一字的第一、第二碼和第二、第三字的第一碼構(gòu)成;四字以上(含四字詞)詞語(yǔ)編碼由該詞語(yǔ)前三個(gè)字的第一碼和最后一字的第一碼構(gòu)成。
3.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)漢字輸入系統(tǒng),其特征在于將句子采用如下步驟輸入每字提取字首的第一個(gè)部件和字余的第一個(gè)部件或漢字的首、尾部件或漢字的第一、第二部件進(jìn)行編碼,碼長(zhǎng)均為2鍵/字。句輸入編碼采用字3碼詞4碼連續(xù)輸入。
4.根據(jù)權(quán)利要求1所述的計(jì)算機(jī)漢字輸入系統(tǒng),其特征在于在實(shí)現(xiàn)ISO 10646.1的CJK大字符集20902個(gè)漢字、GB2312簡(jiǎn)化漢字和智能處理整句輸入漢字時(shí)的基本部件、近形歸并部件和筆畫(huà)與鍵位的對(duì)應(yīng)關(guān)系如表1、表2和表全文摘要
本發(fā)明提供了一種具有句輸入功能的規(guī)范表形碼漢字輸入法及其中西文兼容鍵盤(pán),規(guī)范表形碼BXM
文檔編號(hào)G06F3/023GK1234542SQ9810169
公開(kāi)日1999年11月10日 申請(qǐng)日期1998年5月5日 優(yōu)先權(quán)日1998年5月5日
發(fā)明者柴鴻斌, 陳民 申請(qǐng)人:張家港愛(ài)文電腦有限公司