專利名稱:漢字形碼輸入法的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種計算機漢字的輸入法,它是基于形碼+形碼+形碼+音碼 的構(gòu)字方法和規(guī)則而產(chǎn)生的.
(二) 背景技術(shù):
現(xiàn)有漢字輸入法主要有五筆和拼音兩類,它們分別采用了單一形碼或音碼 來確定一個漢字的方法.但是這兩種都有各自的缺點.拼音輸入法主要是因為其 輸入速度慢且重碼多.i筆輸入法則是因為其編碼規(guī)則多,不易記,又有很多的;隹 拆字.重碼率仍無泅令^滿意,記正如王氨明敉授在他的<<漢字電腦輸入法形碼 設(shè)計三原理》中寫道
7. 編碼規(guī)則
對漢字拆分來說,取碼順序是個首要的問題。
許多初級的拼形方案,大都違反人們傳統(tǒng)的漢字書寫順序,對漢字進(jìn)行拆 分編碼。這樣做,雖然是出于無奈——以便取得更好的編碼離散性,使重碼減 少,但可以肯定地說,這種設(shè)計是難于被社會公眾接受的。因為正確的書寫習(xí) 慣和字根在漢字中的先后位置,是一切稍有中文修養(yǎng)的人們既有的知識和良好 的習(xí)慣,為了向電腦輸入漢字,迫使千百萬人改變這種既有習(xí)慣,那幾乎是不 可能的,它必然要遇到傳統(tǒng)習(xí)慣的強力抵制而失敗。
違背書寫習(xí)慣,方案設(shè)計的難度小一點,容易辦到,但社會很難接受。 遵從書寫習(xí)慣,社會公眾很容易接受,但方案設(shè)計的難度大一些。
8. 簡繁兼容
一個好的、或者高級的拼形組字"形碼"設(shè)計,除了能夠處理簡體字之外,還應(yīng)當(dāng)把與簡體字對應(yīng)的繁體字包括在內(nèi),同時處理,也就是實現(xiàn)"簡繁兼容"。 由于簡體、繁體的區(qū)別只在于字形不同,只要字形不同,其"形碼" 一般也就 不同,這正是"形碼"的優(yōu)勢所在。倘若是音碼,要做到"簡繁兼容",恐怕 就不是件容易的事。
"簡繁兼容"如能做到用同一個字根表、同一套編碼規(guī)則,那是最理想的。 9.高效與簡易并行的"雙軌制"
作為中文電腦用戶, 一般對一個編碼方案最直接的要求不外乎兩條第一 是規(guī)則簡便,規(guī)律性強,記憶量小,易學(xué)易記;第二是輸入速度高、效率高, 經(jīng)過培訓(xùn)能實現(xiàn)盲打。 *
同時做到這兩條,是用戶十分合情合理的要求。只可惜,這二者是既統(tǒng)一、 又矛盾的。時至今日,研究和使用人員都有了一個共同的經(jīng)驗,這就是好學(xué) 的方法打不快,能夠快的方法不好學(xué)。"
現(xiàn)在的中國非常需要一種能夠解決以上這對矛盾且能收錄27000個漢字的 輸入法軟件
好學(xué)的方法打不快,能夠快的方法不好學(xué)。 一直以來都困擾之輸入法的研究.
以上三點很好的說明了現(xiàn)有輸入法的不足之處.而這也正是漢字形碼輸入法 首先要解決的問題.
發(fā)明內(nèi)容
為了解決這些難題,用形碼+形碼+形碼+音碼的編碼規(guī)則和方法. l.其特點是前三個為形碼,后一個為音碼,以此來確定一個漢字. 漢字的確定有如下三種情況第一種:以圓字為例:口 + 口+貝+Y
它是以漢字的第一個部首(或第一筆)+第二個部首(或第二筆)+剩余部首(或 筆畫)的最后一個+這個漢字拼音的聲母. 第二種:以林字為例:木+木+^+L
它是以漢字的第一個部首(或第一筆)+第二個部首(或第二筆)+全字的最后 一筆(因為已沒有剩余的部首或筆畫)+這個漢字拼音的聲母. 第三種:以木字為例:木+—+^+M
它是以漢字的第一個部首(或第一筆)+這個漢字的第一個筆畫(因為已沒有 剩余的部首或筆畫)+全字的最后一筆+這個漢字拼音的聲母.
2. 組詞法,先確定第一個漢字+第二個漢字的第一個部首(或第一筆)+第二個部首 (或第二筆)
例如浙木沐+又+寸+S(到這已將"樹"字確定下來了)+木+— 漢語?十又+ +H(到這己將"漢"字確定下來了)+ i +五 部分立+口+IS +8(到這已將"部"字確定下來了)+八+刀
3. 除編碼規(guī)則外,還要有一個能夠適應(yīng)這個規(guī)則的字根表.
這是一個全新的字根表,它有一個明顯的特點就是絕大部分部首都是完整的, 而不像五筆將很多部首一個拆成兩個.
為什么要使用完整的部首呢 這完全是由漢字的結(jié)構(gòu)決定的. 大部分漢字是由兩到三個部首組成的,這也是為什么此輸入法采用三個形碼 加一個音碼的原因了.根據(jù)我的研究發(fā)現(xiàn),如果將一個完整的部首劃分為兩個(這在五筆輸入法中 是很常見的).那么由這個部首組成的漢字的編碼重碼率將提高7到15倍(因為這 等于將三個形碼減少一個,那么由概率學(xué)可以知道重碼率將提高7到15倍).
于是以這個理論為指導(dǎo),部首應(yīng)盡可能采用完整部首.只有少數(shù)的部首沒有 (那是因為這些部首的組字?jǐn)?shù)都在40個以下).出現(xiàn)重碼的概率不大.
按部首組字率的大小分別均分到26個按鍵上,最好是每個按鍵上的組字?jǐn)?shù) 相近.GB18030共約27000個漢字,能夠每個鍵上1000個左右最好.但是不可能, 能夠做到800到1200就很好了,這也是字根表的分布目標(biāo).
'以下為此輸入法的字根分布表
<formula>formula see original document page 8</formula>N:十尸乙"已已羽
O:火"、、米業(yè)(上部)亦(下部)鄉(xiāng)
P:才、豐—穴^ 5_ i_
Q: *毛氏(無七)勺食夕兒身
R:凈手白反(無又)看(無目)斤丘(一)
S:木(木)兩(w西)丁
T:禾《竹夂夂 j 舌
U:廣門.立^4 (爿)辛六3心
V:女示(《刀九臼
W:人U ) 入八 t 乃"酉
X:纟弓己毋匕比(左部)幺魚
Y:i工廣文方、\鹿麻高(上部)誰(去i及4 ) Z: 3馬黑缶走力jL倉(下部)也田 它有一個明顯的特點就是絕大部分部首都是完整的,而不像五筆將很多部首 一個拆成兩個.
以下是這個字根表比五筆多出來的完整部首
豸互耒魚氣牛舟片角歹
韋門中疋齒足血屮糸
凈氺穴食身舌酉魚
鹿麻3,馬蹈 川、缶走這樣使得輸入更遵從書寫習(xí)慣,社會公眾很容易接受.除了能夠處理簡體字 之外,還能夠把與簡體字對應(yīng)的繁體字包括在內(nèi),同時處理,也就是實現(xiàn)"簡 繁兼容"
由于采用了三個形碼+音碼,解決規(guī)則簡便,規(guī)律性強,記憶量小,易學(xué)易記; 又因為只用四個按鍵,所以輸入速度高、效率高,經(jīng)過培訓(xùn)能實現(xiàn)盲打.
這樣使得字根表的分布能夠適應(yīng)這個編碼規(guī)則,也使得大寫漢字能輕松輸入. 終于解決了王永明教授在他的《漢字電腦輸入法形碼設(shè)計三原理〉>中所提到的 7.編碼規(guī)則8.簡繁兼容9.高效與簡易并行的"雙軌制"三大難題。
權(quán)利要求
它是以形碼+形碼+形碼+音碼的構(gòu)字方法和規(guī)則來確定漢字的一種漢字處理法.1.其特點是前三個為形碼,后一個為音碼,以此來確定一個漢字.漢字的確定有如下三種情況第一種以圓字為例口+口+貝+Y它是以漢字的第一個部首(或第一筆)+第二個部首(或第二筆)+剩余部首(或筆畫)的最后一個+這個漢字拼音的聲母.第二種以林字為例木+木+ id="icf0001" file="A2007100275140002C1.tif" wi="3" he="3" top= "107" left = "78" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>+L它是以漢字的第一個部首(或第一筆)+第二個部首(或第二筆)+全字的最后一筆(因為已沒有剩余的部首或筆畫)+這個漢字拼音的聲母.第三種以木字為例木+一+ id="icf0002" file="A2007100275140002C2.tif" wi="3" he="3" top= "136" left = "77" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>+M它是以漢字的第一個部首(或第一筆)+這個漢字的第一個筆畫(因為已沒有剩余的部首或筆畫)+全字的最后一筆+這個漢字拼音的聲母.
1. 其特點是前三個為形碼,后一個為音碼,以此來確定一個漢字.漢字的確定有如下三種情況 第一種:以圓字為例:口+口+貝+Y它,以漢字的第一個部首(或第一筆)+第二個部首(或第二筆)+剩余部首(或 筆畫)的最后一個+這個漢字拼音的聲母.第二種:以林字為例沐+木+^+L它是以漢字的第一個部首(或第一筆)+第二個部首(或第二筆)+全字的最后 一筆(因為已沒有剩余的部首或筆畫)+這個漢字拼音的聲母. 第三種:以木字為例:木+—+ +M它是以漢字的第一個部首(或第一筆)+這個漢字的第一個筆畫(因為己沒有 剩余的部首或筆畫)+全字的最后一筆+這個漢字拼音的聲母.
2. 組詞法,先確定第一個漢字再確定第二個漢字.詞語:第一個漢字+第二個漢字的第一個部首(或第一筆)+第二個部首(或第二筆)例如:樹木沐+又+寸+S(到這已將"樹"字確定下來了)+木+— 漢語、? +又+\+11(到這已將"漢"字確定下來了)+ i +五 部分立+口+|5十B(到這已將"部"字確定下來了)+八+刀
3.以下為此輸入法的字根分布表:A:工卄升七弋戈B:耳金子(孑"F孓)了 u言〈〈PC:馬豸厶又互巴矛(頂部)D:大廠二羊匚耒石縣E:魚月氣角片牛舟-豕衣(底部)用F:十土士二干寸雨G: —王歹韋青(上部)五淺(右部)門H: 1田百中疋止虎(上部)齒卜I: 水小J:曰曰蟲早'JK: 口川L:足車□甲四血皿 w 骨(上部)M:山(屮)貝幾門由N:個尸乙,已巳羽O:火>"、米業(yè)(上部)亦(下部)糸P:卑年穴^ l_ i_Q:韋毛氏(無七)勺食夕兒身R:矛手白反(無又)看(無目)斤丘(無一)S:木(本)兩(西西)丁T:禾f竹夂夂〗舌U:廣門立?4 (爿)辛六3心V:女示〈〈〈刀九臼力W:人(4 ) 入八 1: 乃"酉X:纟弓己毋匕比(左部)幺魚Y:i二廣文方、\鹿麻高(上部)誰(去i及4 )Z:3馬黑缶走力jL倉(下部)也田這是一個全新的字根表,它有一個明顯的特點就是絕大部分部首都是完整的, 而不像五筆將很多部首一個拆成兩個.為什么要使用完整的部首呢 這完全是由漢字的結(jié)構(gòu)決定的. 大部分漢字是由兩到三個部首組成的,這也是為什么此輸入法采用三個形碼 加一個音碼的原因了.根據(jù)我的研究發(fā)現(xiàn),如果將一個完整的部首劃分為兩個(這在五筆輸入法中 是很常見的).那么由這個部首組成的漢字的編碼重碼率將提高7到15倍(因為這 等于將三個形碼減少一個,那么由概率學(xué)可以知道重碼率將提高7到15倍).于是以這個理論為指導(dǎo),部首應(yīng)盡可能采用完整部首.只有少數(shù)的部首沒有 (那是因為這些部首的組字?jǐn)?shù)都在40個以下).出現(xiàn)重碼的概率不大.以下是這個字根表比五筆多出來的完整部首豸耒魚氣牛舟片角歹韋門中疋齒足血屮糸卑穴食身舌酉魚鹿麻3馬黑缶走這樣使得字根表的分布能夠適應(yīng)這個編碼規(guī)則,也使得大寫漢字能輕松輸入
全文摘要
漢字形碼輸入法涉及一種計算機漢字的輸入法。采用了形碼+形碼+形碼+音碼的編碼規(guī)則和方法,以此來確定一個漢字。它是以漢字的第一個部首(或第一筆)+第二個部首(或第二筆)+剩余部首(或筆畫)的最后一個+這個漢字拼音的聲母。組詞法,首先確定第一個漢字+第二個漢字的第一個部首(或第一筆)+第二個部首(或第二筆)。字根表上的部首基本上都是完整的部首。
文檔編號G06F3/023GK101286089SQ20071002751
公開日2008年10月15日 申請日期2007年4月12日 優(yōu)先權(quán)日2007年4月12日
發(fā)明者邱楚盛 申請人:邱楚盛