專利名稱:漢語詞符鍵盤拼形輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種漢語漢字、詞匯及符號(hào)的計(jì)算機(jī)鍵盤輸入法,更準(zhǔn)確地說,是涉及一種支持漢語國標(biāo)擴(kuò)展碼(GBK)漢字、詞匯及符號(hào)的拼形類計(jì)算機(jī)鍵盤輸入方法。
現(xiàn)有的漢語計(jì)算機(jī)鍵盤輸入法大多不支持20902個(gè)漢字的國標(biāo)擴(kuò)展碼(GBK)字庫,只支持6763個(gè)漢字的國標(biāo)碼(GB)字庫,支持GBK字庫的輸入法則重碼率高;已有的計(jì)算機(jī)鍵盤輸入法的詞匯量在6000至25000條之間,而現(xiàn)代漢語中較常用的詞匯多達(dá)40000余條;已有的拼形類輸入法漢字編碼碼長一般為4鍵,碼長較長;已有的拼形類鍵盤輸入法不能輸出“‰”、“℃”、“★”、“①”、“¤”等圖形符號(hào)。
本發(fā)明全面支持GBK字符集,可輸出20902個(gè)漢字,包括日文、韓文用漢字及香港地區(qū)專用漢字;可輸出600左右現(xiàn)代漢語用圖形符號(hào)、標(biāo)點(diǎn)符號(hào);詞匯量豐富,有4萬2千條;漢字編碼長度短,GB字符集中6763個(gè)漢字的編碼長度不超過3鍵,GBK字符集所獨(dú)有的14139個(gè)生僻字編碼長度為4鍵;將重碼率控制在7%水平以內(nèi)。本發(fā)明的目的是讓使用者可以輸入GBK字符集中的全部漢字及符號(hào),能以詞匯方式輸入絕大部分的常用詞匯,降低重碼率,提高輸入速度。
本發(fā)明在部件選取方面完全符合國家語言文字工作委員會(huì)1997年12月頒布的《信息處理用GB13001字符集漢字部件規(guī)范》的要求,即所有非成字部件及大部分成字部件選自該規(guī)范的基礎(chǔ)部件表,其余成字部件由該規(guī)范的基礎(chǔ)部件組合而成的。同時(shí)拆分漢字進(jìn)行編碼時(shí),嚴(yán)格按照國家語言文字工作委員會(huì)和新聞出版署1997年4月頒布的《現(xiàn)代漢語常用字筆順規(guī)范》規(guī)定的筆畫順序進(jìn)行拆分編碼。
本發(fā)明共使用44個(gè)碼元(碼元是輸入法所涉及的計(jì)算機(jī)鍵盤上的鍵位),即10個(gè)數(shù)字鍵、26個(gè)英文字母鍵及“;”、“,”、“·”、“/”、“-”、“=”、“[”、“]”8個(gè)鍵,選用198個(gè)漢字部件(部件是組成漢字的元件,即筆畫或幾個(gè)筆畫的固定組合)。198個(gè)漢字部件分布在10個(gè)數(shù)字鍵、26個(gè)英文字母鍵及“;”鍵共37個(gè)鍵上,“-”、“=”兩鍵作為生僻字專用鍵,“[”、“]”兩鍵作為符號(hào)專用鍵,“,”、“·”、“/”三鍵是標(biāo)點(diǎn)符號(hào)編碼用鍵。部件大致按起始筆畫或外形分為橫、豎、撇、捺、點(diǎn)、折、鉤、方框8個(gè)組。釣組部件排列在“M”、“N”兩鍵上,其余各組部件排列在左右相連的五個(gè)鍵位上,同一組部件的鍵位分布規(guī)律是后面鍵位上的部件是前一鍵位上部件添加一筆或幾筆形成的;意義相同或外形相近的部件在同一鍵位。198個(gè)部件的具體鍵位分布見說明書附圖。
GB字符集中的6763個(gè)漢字的編碼規(guī)則是按漢字的筆順,先后取第一、第二及最后部件所在的鍵位形成該字的編碼,編碼長度為三碼。根據(jù)這些字在現(xiàn)代漢語中的使用頻率,將其分為最常用字、常用字及普通字三類。最常用字有“我”、“吧”、“在”、“到”、“了”、“不”、“著”、“會(huì)”、“小”、“是”、“你”、“大”、“人”、““個(gè)”、“他”、“就”、“這”、“時(shí)”、“把”、“和”、“有”、“得”、“很”、“下”、“上”、“一”、“的”、“地”、“都”、“被”、“使”、“要”、“日”、“為”、“中”、“過”、“也”,共37個(gè),編碼長度為一鍵;常用字1200個(gè),同時(shí)具備一個(gè)三鍵編碼和一個(gè)兩鍵編碼,只取三鍵編碼的前兩位即形成該字的兩鍵編碼;普通字編碼長度為三鍵。
GBK字符集所獨(dú)有的14139個(gè)生僻字的編碼長度為四鍵,前兩碼按筆順取前兩個(gè)部件所在的鍵位,并根據(jù)前兩碼對(duì)生僻字分組;第三碼是生僻字專用鍵——“-”,如該組生僻字字?jǐn)?shù)超過四十個(gè),則超過部分的生僻字第三碼是另一生僻字專用鍵——“=”;生僻字編碼的第四碼隨機(jī)地取數(shù)字鍵、字母鍵及“;”、“,”、“·、“/”共40鍵中的每一個(gè)鍵。
本發(fā)明將24個(gè)標(biāo)點(diǎn)符號(hào)(含冒號(hào)加雙引號(hào)(“”)這一標(biāo)點(diǎn)符號(hào)組合)及15個(gè)常用符號(hào)集中由“,”、“·、“/”三個(gè)鍵來編碼,區(qū)分使用頻率,碼長分別為一鍵、兩鍵或三鍵。
符號(hào)分成序號(hào)、拼音(帶聲調(diào)的元音字母)、注音(注音符號(hào))、表符(制表符)、俄文(俄文字母)、希文(希臘字母)、日平(日文平假名)、日片(日文片假名)、數(shù)符(數(shù)學(xué)符號(hào))、圖符(圖形符號(hào))、部件(非成字部件)十一個(gè)組。每組的組名是兩個(gè)漢字,每個(gè)漢字編碼的第一碼形成該組所有符號(hào)的前兩碼;編碼的第三碼是符號(hào)專用鍵——“[”鍵,如該組符號(hào)數(shù)目超過四十個(gè),則超過部分的符號(hào)的第三碼是另一符號(hào)專用鍵——“]”;編碼的第四碼隨機(jī)地取四排鍵(即數(shù)字、字母及“;”、“,”、“·”、“/”共40個(gè)鍵)中的每一個(gè)。
詞組的編碼規(guī)則是兩字詞取每個(gè)字的前兩碼;三字詞取第一、第二字的第一碼及第三字的前兩碼;三字以上的詞取第一、第二、第三及最后一字的第一碼。
本發(fā)明通過以下方法控制重碼率一是增加碼元個(gè)數(shù),從而增大編碼空間,如GB字符集中的漢字使用37個(gè)碼元,編碼空間迭5萬(37的3次方),詞組共使用37個(gè)碼元,編碼空間達(dá)187萬(37的4次方);二是在大量的數(shù)據(jù)統(tǒng)計(jì)分析的基礎(chǔ)上,將198個(gè)部件合理分布在37個(gè)鍵位上,使每個(gè)鍵位的使用率大體相當(dāng);三是普通字與生僻字、詞組之間碼長不相等,生僻字、圖形符號(hào)、標(biāo)點(diǎn)符號(hào)各有專用鍵,避免相互之間的重碼。
比較現(xiàn)有的其他拼形類輸入法,本發(fā)明在全面支持GBK字符集、可輸出圖形符號(hào)、詞匯有四萬二千余條、GB字符集漢字碼長不超過三鍵的情況下將重碼率控制在7%以內(nèi)。
附圖中每個(gè)方框表示一個(gè)鍵位,方框中第一行的符號(hào)是該鍵位的名稱,下邊列示該鍵位上的所有部件。右邊突出的“-”、“=”鍵是生僻字專用鍵,“[”、“]”鍵是圖形符號(hào)專用鍵,右下角的“,”、“·”、“/”三個(gè)鍵是標(biāo)點(diǎn)符號(hào)編碼專用鍵。
權(quán)利要求
1.一種拼形類漢語字、詞、符號(hào)計(jì)算機(jī)鍵盤輸入方法,根據(jù)字形特征,以漢字部件為元件,利用計(jì)算機(jī)鍵盤輸出漢字、詞匯及符號(hào)。其特征在于選用“钅”至“也”198個(gè)漢字部件,使用“-”及“=”鍵作為生僻字專用鍵,使用“[”及“]”鍵作為符號(hào)專用鍵,使用“,”、“·”及“/”三個(gè)鍵對(duì)現(xiàn)代漢語標(biāo)點(diǎn)符號(hào)編碼。
2.權(quán)利要求1所述的198個(gè)漢字部件,分成8個(gè)組,分布在10個(gè)數(shù)字鍵,26個(gè)英文字母鍵及“;”鍵共37個(gè)鍵位上。
全文摘要
漢語詞符鍵盤拼形輸入法是一種拼形類漢語字、詞、符號(hào)輸入方法,可解決目前拼形類漢字輸入的以下幾點(diǎn)缺陷:不能支持國標(biāo)擴(kuò)展碼(GBK),或雖能支持,但重碼率很高;不能輸出圖形符號(hào);詞匯不夠豐富;編碼長度長。該輸入法共使用44個(gè)碼元,198個(gè)漢字部件,支持GBK字庫,可輸出20902個(gè)漢字、六百多圖形符號(hào)及24個(gè)標(biāo)點(diǎn)符號(hào),詞匯豐富,達(dá)四萬二千多條,重碼率低,編碼長度短,可廣泛用于各行各業(yè)的漢語計(jì)算機(jī)輸入。
文檔編號(hào)G06F3/023GK1228554SQ9910005
公開日1999年9月15日 申請(qǐng)日期1999年1月4日 優(yōu)先權(quán)日1998年9月15日
發(fā)明者秦川昊 申請(qǐng)人:秦川昊