專(zhuān)利名稱(chēng):漢字全息數(shù)字碼的制作方法
科學(xué)技術(shù)的根本目的是為人們工作生活帶來(lái)方便和舒適,漢字編碼的研究應(yīng)用幾十年不斷朝著這個(gè)目標(biāo)邁進(jìn),成千上萬(wàn)的人為之努力,三十年來(lái),數(shù)百種編碼問(wèn)世,十?dāng)?shù)種商品化,但漢字輸入的瓶頸問(wèn)題未獲突破。網(wǎng)絡(luò)時(shí)代已來(lái)臨,人們渴望一種簡(jiǎn)單易學(xué)且高效的漢字輸入方法問(wèn)世。
縱觀問(wèn)世的漢字編碼方法,絕大多數(shù)的研究者在漢字的偏傍和字根問(wèn)題上作文章,其弊端是記憶轉(zhuǎn)化的信息多,令非專(zhuān)業(yè)應(yīng)用的人們望而卻步,拼音碼簡(jiǎn)單易學(xué),但需要深厚的漢語(yǔ)拼音知識(shí),且重碼率達(dá)600%,為了編碼大眾化,有研究者引入立體思維,從漢字的音形兩方面結(jié)合,對(duì)漢字編碼,但一直無(wú)有影響力的方案問(wèn)世,從較著名的華碼方案是這方面的代表,但信息量依然偏多,原因是漢字的原始信息被初步轉(zhuǎn)換組合,如占漢字輸入統(tǒng)治地位的王碼(五筆)。
漢字編碼關(guān)鍵是對(duì)“形”的研究,但在簡(jiǎn)單的前提下,漢字其“形”的原始信息,不能被轉(zhuǎn)換,一轉(zhuǎn)換就復(fù)雜,任何事物其原始信息總是最少且最為關(guān)鍵的部分。漢字原始信息,筆畫(huà)是其靈魂,但一直以來(lái)是編碼研究人員無(wú)法解決的一個(gè)矛盾,任何問(wèn)題一復(fù)雜就需要專(zhuān)業(yè)面對(duì),漢字編碼亦然。所以本發(fā)明是總結(jié)前輩的思考方法,從目前數(shù)百種編碼中吸取教訓(xùn),將簡(jiǎn)單立為第一宗旨,不破壞漢字原始的筆畫(huà)信息,從另外角度思考,經(jīng)數(shù)年研究,終于成熟,將復(fù)雜的漢字編碼最大限度的簡(jiǎn)單化。
本發(fā)明的全部?jī)?nèi)容將任何一個(gè)漢字分成直觀的兩個(gè)部分,分別取其第一筆和最末一筆筆畫(huà),用對(duì)應(yīng)的數(shù)字組成編碼,另加聲母對(duì)應(yīng)的數(shù)字碼。(漢字有最基本的6種筆畫(huà),橫、豎、撇、捺、折、點(diǎn)、其數(shù)字對(duì)應(yīng)為1、2、3、4、5、6(如表一)(表一)數(shù)字代碼表
舉例說(shuō)明“字”分成“宀”和“子”取筆畫(huà)編碼(點(diǎn)+折)+(折+橫))+聲母Z=數(shù)字碼6551(35)。
原理分析和規(guī)則確定原理用漢字音形的原始信息為工具,對(duì)漢字庫(kù)進(jìn)行層層分割,找出需要的字一、二級(jí)字庫(kù)收漢字6763個(gè),用23個(gè)聲母和6種筆畫(huà),共29個(gè)原始信息對(duì)6763個(gè)漢字進(jìn)行分割,找出需要的漢字,設(shè)定這些信息的出現(xiàn)頻率均等。
第一步 用23個(gè)聲母碼分割 6763÷23=294 每個(gè)音碼控制294個(gè)漢字第二步 用橫筆分割 294÷6=49 第一筆為橫控制49個(gè)漢字第三步 用豎筆分割 49÷6≈8 第二筆為豎控制范圍有8個(gè)漢字第四步用撇筆分割8÷6≈1.3要找的字接近目標(biāo)第五步 用捺筆分割1.3÷6≈0.2 大大超過(guò)需要的的精度(即最后出現(xiàn)一個(gè)字)如“木”字,五步分割把“木”從近6800個(gè)漢字中準(zhǔn)確找出由此可見(jiàn)用四個(gè)筆畫(huà),加聲母對(duì)漢字庫(kù)加以界字,就在理論上完全解決簡(jiǎn)單的編碼這個(gè)難題。
二、四個(gè)筆畫(huà)位置的確定音碼不需要確定,因?yàn)槲覀冋J(rèn)識(shí)要找的漢字,而聲母是漢字的音的最重要的原始信息,漢字發(fā)音在人們的潛意識(shí)里,根本不用思考,需要解決是漢字的筆畫(huà)位置。
如果四個(gè)筆畫(huà)位置的確定不簡(jiǎn)單直觀,則前功盡棄,如果按書(shū)寫(xiě)順序確定是行不通的,98%的漢字超過(guò)四筆,實(shí)際上漢字有十分直觀的規(guī)律,絕大部分漢字自然分成幾個(gè)非常直觀的部分,上下結(jié)構(gòu)、左右結(jié)構(gòu)、半包圍結(jié)構(gòu),全包圍結(jié)構(gòu)。如果將漢字分成幾個(gè)部分,就方便筆畫(huà)位置的確定,實(shí)際上,漢字除了2%左右的獨(dú)體字,98%的漢字可分成二份、三份,多份,根據(jù)方法論一分為二,分面治之的簡(jiǎn)單原則,把任何一個(gè)漢字分成兩個(gè)部分,(實(shí)際上2%獨(dú)體字也可以人為制定規(guī)則,分成合理的兩部分)分成兩個(gè)部分后,就方便四個(gè)筆畫(huà)在某些漢字作為偏旁時(shí),其筆畫(huà)有變?nèi)纭澳尽?、字的最后一筆“捺”在“相”中變?yōu)橐稽c(diǎn),土字最后一筆,橫在“墳”中變?yōu)椤疤帷奔雌病?br>
5、獨(dú)體字分碼原則獨(dú)體字定義在本碼中,獨(dú)體字指該字不存在任何一筆分開(kāi)現(xiàn)象,即筆畫(huà)全部相連。
如“玉”在本碼中不屬于獨(dú)體字,而“王”屬獨(dú)體字。
獨(dú)體字占漢字庫(kù)2%的比例,超過(guò)半數(shù)的獨(dú)體字可以再分,特點(diǎn)是筆畫(huà)少,常見(jiàn)(四筆以內(nèi)的獨(dú)體字中占80%)其分割原則如下(1)四筆以內(nèi)失去分割意義不分割,直接按筆畫(huà)排列其數(shù)字碼,如“日”“幣”直接寫(xiě)出數(shù)字碼2511和3252。
(2)不夠補(bǔ)零原則如“丁”碼為1500(3)分割后成字原則如“百”分成“橫”和“白”,其碼為1031“本”分成“木”和“橫”筆,其碼為1410如“單”“臣”不能分成獨(dú)立的常見(jiàn)漢字直接按書(shū)寫(xiě)規(guī)則編碼,6625和1525(4)取少原則如串可分成“口”和“中”不能分成“中”和“口”“串”數(shù)字碼為22216、散體字散體字極其稀少占漢字2‰,如“心”,散體筆畫(huà)簡(jiǎn)單,取碼參照獨(dú)體字。
四、對(duì)于詞的取碼的安排,每部分分別安排兩個(gè)筆畫(huà),經(jīng)綜合研究漢字結(jié)構(gòu),避免重碼,更重要的是取碼簡(jiǎn)單,且有代表性,且將記憶量壓到最低,取每部分的第一筆和最后一筆為取碼筆畫(huà),至此漢字全息數(shù)字碼編碼思想基本確立。
三、規(guī)則確定1、取頂取邊原則漢字有6態(tài)上下型、左右型、全包圍、半包圍、獨(dú)體、散體。
有些上下結(jié)構(gòu)實(shí)際上含有上中下,如“崽”左右型“湘”含左中右型,“型”為上下型,又含左右型。
為簡(jiǎn)單原則,特作規(guī)定左右型中含其它型一律不管,分成左右兩個(gè)部分。
如浙、鴻、湘、取最左邊三點(diǎn)水為第一部分,剩下的為第二部分,上下型中含其它結(jié)構(gòu)型一律不管,分成上下兩個(gè)部分。
如客、宮、案,取最頂寶蓋頭為第一部分,剩下的為第二部分。
2、先分后取碼原則在半包圍和全包圍結(jié)構(gòu)的漢字中,有筆畫(huà)相連的情況,如“國(guó)、困”等,取碼時(shí)應(yīng)分成□、玉、□、木后,再分別取碼,“國(guó)”數(shù)字碼-2116“困”數(shù)字碼2114。
3、先起筆先安排原則在半包圍中,有的漢字,其位置在前,但書(shū)寫(xiě)秩序在后,如適逢、迷等字,其偏旁走之底雖然位置在前,但最后書(shū)寫(xiě),如“適”的數(shù)字碼是3164,而不是6431。
4、起碼、筆畫(huà)名按正規(guī)書(shū)寫(xiě)確定。
取碼公式首未兩字聲母+第一字的起筆筆畫(huà)+最末一字的最后一筆,對(duì)應(yīng)相應(yīng)的數(shù)字碼。適合于二字詞三字詞四字詞多字詞,共六萬(wàn)個(gè)詞組。
如中國(guó) 取音碼ZG+形碼豎、橫。數(shù)字碼為321621中華 ZH+豎、豎。數(shù)字碼為321722社會(huì)主義 SY+點(diǎn) 捺 數(shù)字碼為273164改革開(kāi)放 GF+折捺 數(shù)字碼為161554另外10個(gè)使用頻率最高的漢字的、最、一、在、這、主、不、和、人、們,分別對(duì)應(yīng)10個(gè)數(shù)字鍵,一次擊出。
特殊鍵選入空格鍵P代替特殊不知發(fā)音或難確定筆畫(huà),用Q鍵進(jìn)入詞語(yǔ)編碼。
綜合比較與其它所有流行編碼相比,本碼具有信息最少的特點(diǎn),簡(jiǎn)單程度超過(guò)目前的流行編碼。單字輸入速度達(dá)到360字/分鐘。
其最大特點(diǎn)是全數(shù)字化,適合手機(jī)、BB機(jī)靜態(tài)傳訊,在電腦鍵盤(pán)上,每個(gè)手指控制一個(gè)鍵位,輸入時(shí)手指不需要上下左右移動(dòng),如果頭腦反應(yīng)時(shí)間忽略不計(jì),數(shù)字碼輸入時(shí)手指移動(dòng)距離比其它輸入法縮短4倍,擊鍵次數(shù)大大提高,王碼(五筆輸入法)每秒擊鍵10次,本數(shù)字碼每秒可達(dá)40次,雖然碼長(zhǎng)6位。但全由非常簡(jiǎn)單的原始信息組成,易記、易學(xué),且重碼率低于10%,其中80%重碼為二字重碼(即不需要選擇的概率占40%)??梢哉Z(yǔ)言輸入漢字,手寫(xiě)輸入,由于全部數(shù)字化,識(shí)別字提高數(shù)倍。
權(quán)利要求
1.一種漢字全息數(shù)字碼,其特征在于它以漢字的拼音及筆畫(huà)序數(shù)決定其代碼。
2.根據(jù)權(quán)利要求1所述的漢字全息數(shù)字碼,其拼音取碼特征為按漢字漢語(yǔ)拼音的第一個(gè)字母取碼。
3.根據(jù)權(quán)利要求1所述的漢字全息數(shù)字碼,其筆畫(huà)序數(shù)取碼的特征為將任何一個(gè)漢字按1分為二的原則,分成最直觀兩個(gè)部分。(1)第一部分取碼部位是第一筆和最末一筆。(2)第二部分取碼部位是第一筆和最末一筆。
4.根據(jù)權(quán)利要求3所述的漢了全息數(shù)字碼,其取碼公式的關(guān)鍵部分為第一部分的首末兩筆加第二部分的首末兩筆。
5.根據(jù)權(quán)利要求1、2、3、4所述的漢字全息數(shù)字碼,引伸出詞組,編碼公式為首末二字聲母加第一個(gè)字的第一筆和最后一字的末筆。
6.根據(jù)權(quán)利要求1、2、3、4、5所述的漢字全息數(shù)字碼其特征是字詞代碼的最后表現(xiàn)形式都是拼音及筆畫(huà)所映射對(duì)應(yīng)的數(shù)字代碼。
7.根據(jù)權(quán)利要求3所述的漢字全息數(shù)字碼,其筆畫(huà)特征為6種筆畫(huà),橫、豎、撇、捺、折、點(diǎn)
全文摘要
本發(fā)明涉及一種漢字編碼方法,本方法放棄了目前流行的字根和編旁取碼方法,其取碼宗旨是將任何一個(gè)漢字分成兩個(gè)部分,分別取其第一筆和最后一筆另加聲母碼組成編碼,編碼用數(shù)字表示。直觀、形象、科學(xué)、合理。表現(xiàn)在電腦鍵盤(pán)上就是26個(gè)字母全部不用,因?yàn)槭种笩o(wú)須上下左右移動(dòng)距離,擊鍵速度可達(dá)40次/秒,小學(xué)文化10分鐘學(xué)會(huì),特點(diǎn)是易學(xué)、高速,單字輸入極限為360字/分鐘,重碼率低于10%。
文檔編號(hào)G06F3/023GK1249456SQ99110258
公開(kāi)日2000年4月5日 申請(qǐng)日期1999年7月10日 優(yōu)先權(quán)日1999年7月10日
發(fā)明者何明智 申請(qǐng)人:何明智