專利名稱:金字塔漢字智能混拼輸入法及鍵盤的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種漢字拼音輸入法及其鍵盤。
目前,漢字輸入技術(shù)仍然是人們方便、快速、準(zhǔn)確和低強度進行中文輸入的一個主要“瓶頸”?,F(xiàn)今的漢字輸入法主要有純字型編碼、純拼音編碼、拼音與字型混合編碼三種類型。純字型編碼的重碼率低,但需記憶大量的字根或筆劃信息,使用中需拆分字體并按照復(fù)雜的規(guī)則組碼后輸入,因此對于大多數(shù)中老年計算機用戶和非專業(yè)文字錄入人員來說,用純字型編碼進行漢字錄入的學(xué)習(xí)強度大、腦力消耗大、容易出錯,實際的錄入效率并不理想。純拼音編碼雖然容易學(xué)習(xí)和掌握,但重碼率高、有地方口音限制;雙拼雖然編碼短,但沒有解決重碼的問題,而且仍有一定強記量;全拼的平均編碼太長,大大限制了輸入速度、增加了勞動強度,即使使用了計算機智能選詞功能部分地解決了重碼問題,其輸入的準(zhǔn)確率和實際效率仍有待提高,而智能選詞的功能并不能適合所有輸入需要,尤其特別不適合某些實際輸入任務(wù)的需要(如大量地址和人名信息的錄入)。拼音與字型混合編碼,由于仍然沒有擺脫“字體拆分”這個特征,因此同樣具有純字型編碼的缺陷。
現(xiàn)有的輸入法,一般是將減少重碼作為主攻方向。高重碼率是純拼音輸入法的一個普遍特征,除了智能選詞技術(shù)以外,目前尚未有更好的解決方案,所以智能選詞技術(shù)是解決高重碼率的關(guān)鍵技術(shù)。同時,目前的智能拼音輸入法離徹底消除手工選詞、完全實現(xiàn)盲打還有一段距離,過長的編碼也是其很難解決的一個問題。因此,需要有一種采用智能選詞技術(shù)適當(dāng)降低重碼率同時又能縮短編碼的純拼音輸入法。這種輸入法以詞組為主,以字為輔,收錄盡可能多的詞匯,并將全部收錄的字詞嚴(yán)格按照字頻、詞頻的高低進行排序;高頻的字詞用最簡短的編碼實現(xiàn)快速輸入,允許少量的重碼以擴大高頻字詞的容量;低頻的字詞可允許較高的重碼率以縮短編碼,同時為一些特殊的低頻字詞提供快速輸入的可能。這種輸入法符合“高頻碼短,低頻碼長”的經(jīng)濟原則,也符合實際的中文錄入情況,即二字詞組的比例大,高頻常用字詞的比例大。
本發(fā)明的目的在于克服現(xiàn)有輸入法的一些缺陷,提供一種既好學(xué)易用,又能提高輸入速度、降低勞動強度的新型拼音輸入法。其“好學(xué)易用”必須是基于簡單的編碼規(guī)則和極少的強記量之上的;使用純拼音的編碼能夠同時保證人們輸入的流暢性和思維的流暢性;盡可能短和簡單的編碼能夠保證人們花費較少的時間和勞動完成大量的繁重的文字錄入任務(wù);采取一些措施克服有地方口音用戶用拼音輸入的障礙,為一些有專業(yè)文章錄入需要的用戶提供專業(yè)詞匯快速輸入的可能,從而使本輸入法適應(yīng)多數(shù)的中文錄入需要。
以下是本發(fā)明的技術(shù)方案和評估結(jié)果一.編碼結(jié)構(gòu)“金字塔”是源于本輸入法的編碼結(jié)構(gòu)而得名。本輸入法采用的是一種全拼、簡拼混合使用的漢字拼音編碼方案。本方案將所有漢字、詞分成五個層次進行編碼。
第一層(即塔的頂層)是92個一級單字,編碼為一位。鍵盤上除U、I、V鍵以外的其余每個鍵位都分別對應(yīng)四個高頻漢字,因此23個鍵位可容納23×4=92個一級漢字。
第二層是1820個一級二字詞。該層的編碼為兩位,每位取每個漢字的拼音首字母,每個編碼對應(yīng)四個高頻二字詞,因此該層理論上共可容納23×26×4=2392個一級二字詞。實際上,a、o、e、i、u、v(ü)作為編碼的第二位時可以是漢字拼音的韻母部分,而且某些組合如aa、au、co等沒有對應(yīng)的二字詞,某些組合如an、ou、en等本身是某些字的全拼,所以,實際上能得到的只有1820個一級二字詞。
第三層包括1648個二級單字和大部分二字詞。對于二級單字,采用全拼編碼(用“m”代替“ng”以縮短編碼長度),每個編碼對應(yīng)四個次高頻單字。漢語讀音有412個,因此,理論上有412×4=1648個二級單字(可包括部分一級單字)。對于二字詞,采用混拼編碼取第一個字的拼音首字母作為編碼的首位,其余位取第二個漢字的全拼,因此理論上可以將全部二字詞分為412×23=9476個無重碼區(qū)。由于每個編碼區(qū)間的平均重碼率仍然很高,所以仍需將二字詞按照詞頻的高低進行分頁顯示。本輸入法規(guī)定每頁最多只顯示四條,位于每個首頁的四個二字詞可視為二級詞(約3萬個)。
第四層包括全部GBK大字符集漢字和一部分二字專業(yè)詞匯。對于單字,采用單字的全拼+聲調(diào)碼(“h”表示陰平和輕聲,“j”表示陽平,“k”表示上聲,“l(fā)”表示去聲)作為編碼。對于二字專業(yè)詞匯,采用的編碼方案為第一個漢字的拼音首字母+第二個漢字的全拼+該詞組的專業(yè)分類碼(見圖一《專業(yè)分類編碼表》)。
第五層包括第四層單字中細分出來的古文類、生物類、化學(xué)類、地理類、醫(yī)學(xué)類和姓名類六類單字,還包括一部分三字詞、四字成語、短語及其它多字詞。這一層的單字采用的編碼方案為單字的全拼+聲調(diào)碼+分類碼(古文類為“g”,生物類為“s”,化學(xué)類為“h”,地理類為“d”,醫(yī)學(xué)類為“y”,姓名類為“m”)。一般三字詞、四字詞的編碼方案為分別取每個字的拼音首字母組成編碼。四字以上詞組的編碼方案為分別取前三個和最后一個字的拼音首字母組成編碼。另外,特別規(guī)定對于古今中外著名人名、各國國名、國外主要地名、國內(nèi)外常見公司機構(gòu)、著名網(wǎng)站、報刊雜志名、風(fēng)景名勝名及國內(nèi)的省名、市名、地區(qū)名等采用如下編碼方案古今中外著名人名的編碼首位皆為“i”,其余取簡拼或前三個字的拼音首字母組成編碼;各國國名為四字以下的取國名簡拼+“g”組成編碼,四字以上的取前三個字的拼音首字母+“g”組成編碼;國內(nèi)外常見公司機構(gòu)、著名網(wǎng)站、報刊雜志名的編碼首位皆為“u”,其余取簡拼或前三個字的拼音首字母組成編碼;國內(nèi)省名、市名為四字以下的取省名、市名的簡拼+“s”組成編碼;市名為四字以上的取市名的簡拼作為編碼;地區(qū)名取區(qū)名的前三個字的拼音首字母+“q”組成編碼;國外主要地名、國內(nèi)外風(fēng)景名勝、河流山川名取簡拼+“d”或取前三個字的拼音首字母+“d”組成編碼。二.鍵位規(guī)定本方案屬于拼音類編碼方案,其鍵盤與全拼等輸入法較相似,即全部聲母對應(yīng)于鍵盤上相應(yīng)的英文字母,韻母a、o、e、i、u、ü分別對應(yīng)于鍵盤上的a、o、e、i、u、v。此外,還有一些特殊規(guī)定。1.對‘ü’的規(guī)定根據(jù)最新《漢語拼音方案》,本方案規(guī)定只有以‘l’、‘n’為聲母,以‘ü’為韻母的拼音,才用‘v’替代‘ü’。2.用‘m’代替‘ng’為了盡可能縮短編碼長度,減少擊鍵次數(shù),規(guī)定用‘m’替代鼻韻母尾部的‘ng’,如‘ing’->‘im’。3.用‘c’作為字詞分界符本方案不采用音節(jié)切分符,但無法避免一些歧義編碼的存在,如fan反,fan方案。因此規(guī)定,在有歧義的編碼的末尾加一個‘c’以表示詞組,如fanc方案。4.聲調(diào)鍵用“h”表示陰平和輕聲,“j”表示陽平,“k”表示上聲,“l(fā)”表示去聲。5.選擇鍵除了用數(shù)字鍵作為選擇鍵,本輸入法還設(shè)置了另外四個鍵作為選擇鍵,以提高輸入速度。這四個鍵分別是空格鍵(選第一項),分號鍵(“;”,選第二項),右斜杠鍵(“/”,選第三項),回車鍵(選第四項或最后一項)。6.翻頁鍵共有三個提示框翻頁鍵“v”鍵作為循環(huán)翻頁鍵;“[”鍵作為后退翻頁鍵;“]”鍵作為前進翻頁鍵。每頁最多四個選項。7.中英文狀態(tài)切換鍵用左“Shift”鍵可以在中英文狀態(tài)之間進行切換。8.復(fù)制鍵用右“Shift”鍵可以重復(fù)輸入上一次輸入的字或詞。9.英文確認鍵本輸入法采用的是直接在光標(biāo)位置顯示編碼輸入的獨特方式,而且由于本方案的字詞編碼與英文單詞的重疊情況極少,因此真正實現(xiàn)了無需狀態(tài)切換即可進行中英文混合輸入。當(dāng)輸入英文單詞或字母而出現(xiàn)有編碼與之重疊時,本法規(guī)定在英文單詞(字母)末尾加數(shù)字鍵“0”以確認為英文的輸入。10.幫助鍵在拼完全部編碼后,如果沒有找到所要的字詞,可以再加一個“x”鍵求助,計算機會自動進行相應(yīng)的模糊音、易混音轉(zhuǎn)換,提供最可能的選項。三.編碼舉例1.第一層(一級單字)+空格鍵+‘;’鍵+‘/’鍵+回車鍵a愛 阿 啊 按b不 把 比 被y一 有 已 要2.第二層(一級二字詞)+空格鍵+‘;’鍵+‘/’鍵+回車鍵ag愛國昂貴愛過挨個fm方面發(fā)明繁忙父母sx首先實現(xiàn)思想熟悉3.第三層(二級單字及大部分二字詞)+空格鍵+‘;’鍵+‘/’鍵+回車鍵yi 以宜易 已shi 時事十 市xiam想向像 項jdi 降低 較低 基地 境地......zwen中文 正文 征文 皺紋......lxiam 聯(lián)想 老鄉(xiāng) 亮相 兩項......4.第四層(全部GBK大字符集漢字和一部分二字專業(yè)詞匯)+空格鍵+‘;’鍵+‘/’鍵+回車鍵yih醫(yī) 依 衣一......yij移 疑 遺宜......yik倚 乙 椅以......yil億 意 亦憶......ysuanh 鹽酸乙酸 油酸 煙酸(化學(xué)專業(yè))zfuw 振幅 (物理專業(yè))5.第五層(包括第四層單字中細分出來的六類單字及部分多字詞)+空格鍵 +‘;’鍵+‘/’鍵+回車鍵zgr 中國人撰稿人 中國日 中國熱zhmz 中華民族zhrg 中華人民共和國romjg镕瑢狨蠑......(古字)yimhs鷹鸚櫻鶯 (生物類)leijh鐳(化學(xué)類)eld 鄂堊 (地理類)yijy 胰痍 (醫(yī)學(xué)類)dijm 迪狄笛翟 (姓名類)idxp 鄧小平 (著名人名)hgg 韓國(各國國名)uwr 微軟 微軟公司 (公司)uqgr 全國人大 全國人大常委會全國人大常務(wù)委員會 (機構(gòu))ush 搜狐 搜狐網(wǎng)站 (網(wǎng)站)udnb 電腦報 《電腦報》 (報刊雜志)gzs 廣州市貴州省(省名市名)xgtq 香港特區(qū) 香港特別行政區(qū) (地區(qū)名)prd 平壤(國外地名)hgsd 黃果樹瀑布 (風(fēng)景名勝)cjd 長江(河流山川)四.字頻和詞頻的選取原則1.字頻通過分析大量的漢字單字及詞條知道某些漢字本身具有確定的含義,可以單獨使用;某些漢字本身并沒有確定的含義,必須與其他漢字構(gòu)成詞組才能表達某種含義。據(jù)此,本方案將漢字分為“獨義字”和“依賴字”兩種類型。獨義字的字頻高于依賴字,并且字的依賴性越高,其字頻也越低。單字按照字的依賴程度排序后,在同一字頻段內(nèi),再按照常用字、次常用字和生僻字的順序排列;因此,字頻的選取原則是①獨義字>依賴字;②常用字>次常用字>生僻字。2.詞頻詞頻的選取原則是常用詞>次常用詞>專業(yè)詞>生僻詞。3.高頻字和高頻詞這里所說的“高頻字”和“高頻詞”是指用戶在同一編碼區(qū)間內(nèi)上一次所選的字和詞。它是動態(tài)形成的,而與其物理位置沒有關(guān)系,因此有些生僻字、詞也可以成為高頻字、詞。本方案規(guī)定用戶上一次輸入的字或詞,在下一次輸入相同的編碼時,該字或詞自動跳到提示框的首位。五.智能選詞(字)本方案違背了輸入法的一般原則,即盡量減少重碼,而采用了一種“優(yōu)化多選的方案”以縮短編碼長度,提高輸入效率。“多選”即一二級單字、一級二字詞均為四個選擇項,其余級別字詞則與重碼量相關(guān)?!皟?yōu)化”即對字頻、詞頻進行靜態(tài)物理優(yōu)化和動態(tài)語法優(yōu)化。靜態(tài)物理優(yōu)化即事先按字頻和詞頻排列字詞在碼表的位置。動態(tài)語法優(yōu)化提供了計算機智能選詞的可能性。這一點跟某些智能輸入法類似,但它不是基于對海量語料的數(shù)學(xué)分析,而是基于對漢語語法規(guī)律的分析。本方案規(guī)定在碼表內(nèi)增加一個詞性字段,用小寫英文字母表示詞性分類(詳見圖二《詞性分類編碼表》),如‘m’表示名詞。一個詞(字)可有多個詞性。這樣,計算機就可以根據(jù)詞的上文(上一個詞的詞性),在四個選項中選擇最可能的一個選項置于首位,并根據(jù)與上文搭配的緊密度的高低排列四個選項。這樣便可以降低實際重碼率,提高輸入速度。如果語法優(yōu)化模型制定理想的話,將大大減少用戶手工選詞的概率。六.與其它輸入法的比較1.與五筆字型等形碼輸入法比較本輸入法可兩鍵(包括選擇鍵)輸入的一級常用字有92個,五筆只有26個;可三鍵輸入的一級常用詞有1820個,可四鍵輸入的就更多了,而五筆的詞組輸入一般需四鍵(四位編碼),且五筆沒有一級常用詞。本輸入法采用的碼表結(jié)構(gòu)可以容納全部GBK大字符集漢字及大部分二字詞、三字詞、成語、短語及一部分的專業(yè)詞匯、詩詞俗語等,且又是以詞組為基本輸入單位,這樣便大大縮短了整句的碼長。而五筆的收詞量有限,有很多詞語只能做到逐字輸入。從整句上比較,本輸入法的編碼總長度一般小于五筆,總擊鍵次數(shù)也少于五筆,彌補了手工選詞導(dǎo)致的效率降低,因而在某些情況下可達到與五筆同等的錄入速度。而且,五筆字型的學(xué)用不易,使用過程中容易出現(xiàn)字根遺忘、字形拆分錯誤等情況,以致造成輸入效率降低,而本輸入法則易學(xué)易用、不易遺忘。如果從生理心理學(xué)評估,本輸入法的純拼音編碼符合人們的語音交流習(xí)慣,降低了用戶的腦力勞動量;分級編碼之間相互銜接的特點符合人們的輸入習(xí)慣;以最短的編碼完成輸入任務(wù)又降低了用戶體力勞動量。因此,本輸入法具有很多五筆字型所不具有的優(yōu)點,同時可達到很高的錄入速度。2.與全拼、雙拼等拼音輸入法比較本輸入法與全拼相比,在單字輸入上差別不大,不過由于采取了分級方案,92個一級常用字只需兩鍵輸入;二級常用字只有4個重碼;三級單字由于有末尾聲調(diào)碼,重碼率也有降低;四級單字(古字等)由于有末尾分類碼,所以減少了翻頁的次數(shù),尤其適合某些專業(yè)的文字錄入需要。在詞組輸入方面,本輸入法的編碼明顯較短(比全拼平均約短30%),而且本輸入法將詞組進行科學(xué)的分級、分類并提供智能選詞的功能,使得詞句的輸入速度優(yōu)于全拼。與雙拼相比,則有比雙拼易學(xué)易用、實際重碼率低等優(yōu)點。全拼、雙拼還存在著一個南方音、北方音的限制,而本輸入法詞組編碼的特點實際上已經(jīng)部分克服了南北方音造成的使用障礙,再利用特有的“x”鍵模糊音、易混音輔助糾正功能,便可以使本輸入法同樣適用于普通話不標(biāo)準(zhǔn)的用戶群。
本輸入法與目前比較流行的智能拼音輸入法(如智能狂拼、微軟拼音輸入法)相比,則具有高錄入準(zhǔn)確率、不需返回修改、編碼短、總擊鍵次數(shù)少、錄入速度快等優(yōu)點。如果智能選詞技術(shù)進一步完善,本輸入法可以達到幾乎很少手工選詞(只需擊空格鍵確認輸入)便可做到整句的快速輸入。七.總結(jié)優(yōu)點通過實踐和比較,證明本輸入法具有以下優(yōu)點1.編碼短,詞句的平均擊鍵次數(shù)少??蓛涉I輸入的常用字(一碼)高達92個,可三鍵輸入的常用詞(二碼)高達1820個,其余二字詞平均約為四碼,三字詞一般為三碼,四字以上的詞為四碼。
2.以詞組為基本輸入單位,收錄幾乎所有詞條,使詞句的輸入速度大大提高。
3.獨特的編碼結(jié)構(gòu)和“x”幫助鍵克服了南方音、北方音等地方音限制,使普通話不標(biāo)準(zhǔn)的用戶也能方便使用。
4.智能選詞的功能減少了手工選詞的次數(shù),使整句的快速輸入成為可能。
5.塔形的編碼結(jié)構(gòu)簡便易學(xué),容易掌握,符合輸入習(xí)慣。獨有的十二個功能鍵分布合理、容易記憶、使用方便。
6.編碼或英文直接顯示在光標(biāo)插入處,實現(xiàn)了真正的中英文混合輸入而無需切換狀態(tài)。
7.將較生僻的漢字分成古字、姓名類等六大類,提高了生僻字和人名、地名等的錄入速度;將二字詞進行專業(yè)分類,提高了專業(yè)詞匯的錄入速度。因此,滿足了眾多行業(yè)的文字錄入需要。
8.由于編碼短,擊鍵次數(shù)少,因而腦力體力消耗少,特別適合于文字錄入量大的用戶和指法不熟練的用戶。文字錄入速度為中下的用戶可因此大大提高其錄入速度。
權(quán)利要求
1.一種全拼編碼和簡拼編碼相結(jié)合的漢字智能拼音輸入法,其特征是一級字用拼音首字母,二級字用全拼,三級字用全拼+聲調(diào)碼;高頻二字詞用前一字的拼音首字母+后一字的拼音首字母,低頻二字詞用前一字的拼音首字母+后一字的全拼;三字以上的詞用簡拼;同時規(guī)定一級字、二級字、高頻二字詞允許有四個重碼(四個選項);采用一種能根據(jù)上文詞組詞性由計算機自動排列當(dāng)前選項的智能技術(shù)。
2.權(quán)利要求1所述的拼音輸入法,其特征在于將漢字分為“獨義字”和“依賴字”兩種類型,獨義字的字頻高于依賴字,字的依賴程度越高其字頻越低。
3.權(quán)利要求1所述的拼音輸入法,其特征在于對于二字專業(yè)詞匯,取第一個字的拼音首字母+第二個字的全拼+該詞組的專業(yè)分類碼作為編碼。
4.權(quán)利要求1所述的拼音輸入法,其特征在于把冷僻字劃分為古文類、生物類、化學(xué)類、地理類、醫(yī)學(xué)類和姓名類六類單字,取全拼+聲調(diào)碼+分類碼作為編碼。
5.權(quán)利要求1所述的拼音輸入法,其特征在于用“h”表示陰平和輕聲,“j”表示陽平,“k”表示上聲,“l(fā)”表示去聲。
6.權(quán)利要求1所述的拼音輸入法,其特征在于用空格鍵選第一項,分號鍵(“;”)選第二項,右斜杠鍵(“/”)選第三項,回車鍵選第四項或最后一項;“v”鍵作為循環(huán)翻頁鍵。
7.權(quán)利要求1所述的拼音輸入法,其特征在于用“x”鍵作為幫助鍵,按該鍵計算機會自動進行相應(yīng)的模糊音、易混音轉(zhuǎn)換。
全文摘要
本發(fā)明涉及一種漢字拼音輸入法,采用全拼編碼和簡拼編碼相結(jié)合的塔形編碼結(jié)構(gòu),其基本特征是一級字用拼音首字母,二級字用全拼,三級字用全拼+聲調(diào)碼;高頻二字詞用前一字的拼音首字母+后一字的拼音首字母,低頻二字詞用前一字的拼音首字母+后一字的全拼;三字以上的詞用簡拼。同時規(guī)定一級字、二級字、高頻二字詞允許有四個重碼。發(fā)明采用一種根據(jù)上文詞組詞性由計算機自動排列選項的智能技術(shù)以減少手工選擇,降低實際重碼率。由于編碼短、平均擊鍵次數(shù)少、規(guī)則簡單和以詞組輸入為主,符合了對于漢字輸入既要求易學(xué)易用又要求低強度高效率的普遍需求。
文檔編號G06F3/023GK1409193SQ01135318
公開日2003年4月9日 申請日期2001年9月25日 優(yōu)先權(quán)日2001年9月25日
發(fā)明者張凱旋 申請人:張凱旋