專利名稱:一種漢字形符輸入系統(tǒng)的制作方法
技術領域:
本發(fā)明屬于中文信息處理領域,為漢字提供了一種查字法、排序法、造字法,為計算機提供了一種漢字輸入方法。
現(xiàn)有的技術資料見于中國專利申請《一種圖形文字的輸入方法及其鍵盤》,申請?zhí)?5110690.2,它提出了采用字元作為漢字的輸入碼元;與本發(fā)明有關的漢字結構理論研究可參考本人所撰《漢字的字元結構》,該文詳細論述了漢字形體結構的基本單元是字元,并深入探討了漢字的結構層次,給出了漢字各級構件明確的定義和分類,建立起筆劃、部件、塊件、塊組、單字等層層具有字元特征的漢字構件系統(tǒng),實現(xiàn)了漢字各級構件確定和歸類的系統(tǒng)性、客觀性,本發(fā)明在此基礎上對前一申請進行改進,與本發(fā)明相關的內(nèi)容可參考該文,必須指出本發(fā)明不受該文限制。
眾多的國內(nèi)外漢字研究者對漢字字形進行分析后,獲得的構件數(shù)就有驚人的差異105、128、160、166、177、205、250、255、256、297、300、320、344、370、496、500、504、512、588、686,等等。而本發(fā)明在GB2310-80的6763字中初步找到的部件只有320種左右,為什么會有這么大的差異呢?原因是多方面的,一個主要的原因還是,在不同的選取準則下,有的不僅挑選了一些部件,還選取了組合塊件,甚至塊件組合,有的則是先硬性確定了一些“優(yōu)選”構件,對其它構件進行了人為處理,因此在編碼界廣泛存在“人工部件”和“自然部件”的提法。本發(fā)明希望構件的多少與記憶的難易間不存在對立的關系,最好能實現(xiàn)音碼那樣“無編碼”的形碼方案。
本發(fā)明的目的在于通過對漢字進行科學分析,根據(jù)包括簡、繁兩體漢字以及日本、南朝鮮漢字在內(nèi)的全體漢字的結體構形原理,提供一組源自漢字本身的形符作為基礎代號,使得漢字能直觀方便地由平面圖形轉(zhuǎn)換成一串有序的、線性的形符集合,為漢字信息處理提供一種容易操作的方法。
本發(fā)明的優(yōu)點在于它找到了漢字的拼形符號,可以實現(xiàn)漢字的形符鍵盤,所有構件遵循相同的結構原理且與形符相對應,記憶量少、操作簡便。
本發(fā)明通過如下方法實現(xiàn)字元是漢字的形符,結構簡單、形體規(guī)范、數(shù)目較少、容易識記,對應著漢字的組成構件,可以作為漢字的輸入碼元,根據(jù)漢字的形體特征可以建立漢字的字元屬性字典,可以提取字元信息編成漢字的字元代碼,而且字元可以和鍵位建立對應關系,還可以用來標識鍵盤,采用這樣的字元鍵盤通過敲擊字元代碼來輸入漢字。
字元由漢字“田”蛻變而來,反映了漢字“田”上各直線段在不同取舍情形下的64種狀態(tài),基本結構有 以及這19種結構單元的各種方位圖。經(jīng)過整理,字元分為3類,共55種(1)零維字元一丨; 為了按照首尾一貫、既科學又方便的原則來分解所有的漢字,本發(fā)明選取部件作為漢字分解的基本構件。
漢字中只有一個部件的“單質(zhì)”并不多,大多是若干部件拼合而成的“混合物”。要從“混合物”中將“單質(zhì)”離析出來,首先要了解“混合物”的組成。單個的組合塊件就是最簡單的“混合物”,更復雜的漢字可以先分解成若干個塊件,然后逐個將部件離析出來。由此可見部件離析是對漢字很自然的分解,與一般形碼的部件拆分是不同的概念。
一般情況下,漢字的分解只需遵循一個準則按照各部件首筆的先后順序離析。例如 根據(jù)部件的定義,將漢字的全部部件列舉出來是完全沒有必要的,而且將來新造的漢字難免出現(xiàn)新的部件,但是為了便于使用,本發(fā)明還是針對GB2310-80中6763個漢字的部件根據(jù)其零階字元進行了歸類,可以參看附表,其它未列出的部件可以按照相同的方法分析。
部件根據(jù)其字元特征可細分為兩類(1)元形部件 這類部件與字元字符相近,可直接根據(jù)其形狀取相應的字元代碼,同元異形部件可據(jù)此進行歸類。例如 (2)衍生部件 這類部件與衍生字符相近,具有多層次的字元特征。同元衍生部件具有相同的零階字元,可據(jù)此進行歸類。例如 可以用字元式(字元盒子)來描述部件的結構,下面舉幾個例子。
部件的字元式實際上是部件的一種編碼,漢字全部部件的字元式集合構成漢字的字元屬性字典。
漢字按照各部件首筆的先后離析出部件后,依次輸入各部件字元式的全部或部分元素即可輸入相應的漢字(括號可以省略)。例如中十(口丨)或十口丨或十口或十丨 或口丨沖二十(口丨)或二十口丨或二十口或二十丨 或二口丨 一般情況下,漢字按照各部件首筆的先后離析成部件的組合后,依次輸入各部件的零階字元即可輸入相應的漢字。例如
據(jù)本發(fā)明統(tǒng)計,國標GB2310-80中一級字平均每字4.05個部件,前1000高頻字平均每字3.26個部件。部件編碼的平均碼長較短,一般不多于四碼,因此對于不少于四個部件的漢字,可選取各部件的零階字元,通常只取一、二、三、末部件的零階字元,對于少于四個部件的單字,除了選取各部件的零階字元外,可以考慮追加衍生部件的取代字元,也可以考慮追加單字的字型字元作為輔助碼元。
為提高輸入效律,詞語也可以采用字元編碼輸入計算機,各類詞的碼長均不超過四碼,可采用如下方法a.雙字詞的編碼=第一字一二碼+第二字一二碼 b.三字詞的編碼=第一字一二碼+第二字一碼+第三字一碼例沖擊力=沖(二十)擊(土)力(十)可行性=可(丁口)行(一)性(川)c.四字以上詞的編碼=第一字一碼+第二字一碼+第三字一碼+末字一碼例無中生有=無(干) 中(十) 生(土) 有(十)中華人民共和國=中(十) 華(丁)人 國(口)d.雙字詞三字詞中單部件字可以只取一碼,也可以追加輔助碼元補足碼長。例漂浮=漂(三工)浮(三十)畫冊=畫(一田)冊(十)畫冊=畫(一田) 畫冊=畫(一田)冊(十冂)畫冊=畫(一田)冊(十一)中國人=中(十口)國(口) 中國人=中(十丨)國(口) 字元“十”所對應的構件較多,其中有5類衍生構件的字元式至少有一個一階字元是一維字元,根據(jù)這種情況可分別用一級衍生字符“卄卅 豐井”對應相應的構件并作為碼元,這些碼元也可以選作漢字的形符。例如件亻(T)牛 件亻(T)牛 件亻(T)牛 漢字有了自己的一套形符,因此我們可以設計輸入漢字的中文鍵盤,在鍵面上標識形符,通過輸入漢字的形符代碼來輸入漢字。
借助普通西文小鍵盤輸入漢字,通常要建立漢字與拉丁字母所構成的字符串之間的對應關系,這種對應關系要求直觀、自然、簡單,字元輸入法可以達到這種要求。首先,字元編碼本身就是一種字符串,字元完全可以象字母一樣標識在鍵面上;其次,字元與字母之間還可以建立一種對應關系,字元多達55個,字母只有26個。這種對應關系不可能是一一對應,更不可能是唯一的。
本發(fā)明下面提供一種方案,對于熟知英文鍵面的人來說,使用中文字元鍵盤輸入字元編碼和敲打字母基本上是一回事。字元與字母建立如下對應關系 字母“IRPS”沒有對應的字元,可以安排它們與碼元“ 豐豐”相對應。
本發(fā)明下面還提供另一種較好的方案,字母和形符建立如下對應關系 這種方案將零維字元都安排在一個鍵上,因為零維部件都是直線段,大寫字母“I”也是直線段,小寫字母“i”還有一個點。
在同一鍵盤上兼容漢字形符和拉丁字母的輸入,這才是真正的中西文鍵盤,用這樣的鍵盤輸入漢字可以兼容漢語拼音,有兩種基本方法一種方法是形音輸入法形符代碼+音符代碼例如千=干+QIAN另一種方法是音形輸入法音符代碼+形符代碼例如千=QIAN+干漢字部件明細表
權利要求
1.一種漢字形符輸入方法,其特征在于采用漢字的形符作為漢字的輸入碼元,形符對應著漢字的組成構件,形符可以和鍵位建立對應關系,通過輸入形符代碼來輸入漢字。
2.根據(jù)權利要求1的一種漢字輸入方法,其特征在于所述漢字的形符是指字元,包括 及這19種結構單元的各種方位圖。
3.根據(jù)權利要求1的一種漢字輸入方法,其特征在于選取部件作為漢字編碼的基本構件,部件的結構可用字元式表達,漢字按照各部件首筆的先后分解,依次輸入各部件字元式的全部或部分元素即可輸入相應的漢字。
4.根據(jù)權利要求1、2和3的一種漢字輸入方法,其特征在于選取各部件的零階字元作為漢字輸入的基本碼元,對于不少于四個部件的漢字,通常只取一、二、三、末部件的零階字元,對于少于四個部件的單字,可以追加衍生部件的取代字元,也可以追加單字的字型字元作為輔助碼元。
5.根據(jù)權利要求1、2、3和4的一種漢字輸入方法,其特征在于詞語采用字元編碼輸入計算機a.雙字詞的編碼=第一字一二碼+第二字一二碼b.三字詞的編碼=第一字一二碼+第二字一碼+第三字一碼c.四字以上詞的編碼=第一字一碼+第二字一碼+第三字一碼+末字一碼d.雙字詞、三字詞中單部件字可以只取一碼,也可以追加輔助碼元補足碼長。
6.根據(jù)權利要求1和3的一種漢字輸入方法,其特征在于增加“廾卅 豐井”作為漢字的形符。
7.根據(jù)權利要求1的一種漢字形符鍵盤,其特征在于采用漢字的形符作為鍵元,在鍵面上標識漢字的形符,建立形符與拉丁字母間的對應關系,借用普通西文小鍵盤輸入漢字。
8.根據(jù)權利要求1和7的一種漢字輸入方法,其特征在于字母和形符建立如下對應關系
9.根據(jù)權利要求1和7的一種漢字輸入方法,其特征在于字母和形符建立如下對應關系
10.根據(jù)權利要求1的一種漢字輸入方法,其特征在于在同一鍵盤上兼容漢字形符和拉丁字母的輸入,用這樣的鍵盤可以兼容漢語拼音輸入漢字,有兩種基本方法(1)形音輸入法形符代碼+音符代碼(2)音形輸入法音符代碼+形符代碼
全文摘要
本發(fā)明為漢字提供查字法、排序法、造字法、輸入法。根據(jù)漢字結體構形原理,找到了漢字的拼形符號(字元),實現(xiàn)了漢字的形符鍵盤。漢字可轉(zhuǎn)換成字元集合,串:十(二(口口)丨)。字元可以作為輸入碼元,科(干
文檔編號G06F3/02GK1285539SQ9911173
公開日2001年2月28日 申請日期1999年8月20日 優(yōu)先權日1999年8月20日
發(fā)明者胡敬禹 申請人:胡敬禹