專利名稱:模糊碼輸入計算機的方法
我國著名學(xué)者,中國中文信息學(xué)會理事長錢偉長教授指出,“人們通常在記憶中所保持的字形是一種模糊映象,多屬字的外圍輪廓部份”(引之潘德孚編著《漢字輸入一日通》)。錢教授的這一真知灼見,客觀的揭示了人們對漢字的認(rèn)知心理,然而,目前的漢字編碼,大多都是對漢字“全拆全拼”,其結(jié)果是部件數(shù)量多,有的100多,有的300多,編碼規(guī)則也復(fù)雜,難學(xué)難記,不易普及推廣。
本發(fā)明的目的是提供一種漢字模糊碼輸入計算機的方法,這種模糊碼對字音、部件、字形,都采用漢字的模糊信息,編碼結(jié)構(gòu)定位在音形碼,對認(rèn)識和不認(rèn)識的字都能同軌輸入,方法簡單好學(xué),重碼少,輸入速度快,規(guī)范、科學(xué),適宜普及推廣。
本發(fā)明的技術(shù)方案是依據(jù)人們對漢字的認(rèn)識心理,用26個拉丁字母作漢字字音、部件、字形有關(guān)模糊信息的代碼;對字音,只用漢語拼音的第一個符號;對部件,在采用了筆畫和少量的部首同時,按漢字筆畫關(guān)系形成的特征信息定義了模糊部件;對字形,只用字首、次首(第二個部件)和字尾三個位置的部件參與編碼;編碼時用漢語拼音第一個符號做編碼的第一個代碼,后面依次加上字首、次首和字尾三個位置部件的代碼就是模糊碼;用一個符號替代編碼的第一個代碼,對認(rèn)識和不認(rèn)識的字就能同軌輸入。
下面對本發(fā)明的技術(shù)方案作詳細(xì)闡述一、筆畫模糊碼對漢字筆畫分類遵照《現(xiàn)代漢語通用字筆順規(guī)范》(以下簡稱《筆順規(guī)范》),見表1。
表1 說明在運筆過程中,筆畫方向突然變化都?xì)w折筆,如 、 二、部件(一)筆畫部件模糊碼把《筆順規(guī)范》中規(guī)定的五種筆畫也稱為筆畫部件,見表1。
(二)定形部件模糊碼把國家有關(guān)規(guī)范規(guī)定的一些檢字部首、部件,都統(tǒng)稱為定形部件,共56個
“ 貝、宀、髟、疒、艸( )、廾、寸、扌( 扌)、 攵、夂、氵、廣、灬、蟲、金、钅、車、見、巾、鹿、力、刂、木( )、目、麻、門、皿、鳥(烏、 )、欠、日(曰)、冖、纟、幺、示、土(士)、田、辶(之)、山、亠、 石、大、王、瓦、小、心、月( )、雨( )、讠、言、頁、又、竹()、佳”說明括號中的部件與前面的部件等同,規(guī)定的定形部件不準(zhǔn)用其它部件替代,如 ≠小、丷≠八、 ≠月、文≠攵(三)模糊部件漢字由部件構(gòu)成,部件由筆畫構(gòu)成,筆畫互相間的“關(guān)系”不一樣,形成的部件也不一樣。如“工”和“土”兩個字,雖然筆畫數(shù)量、筆順都完全相同,但是形成的字不一樣,這是因為兩個字的筆畫關(guān)系不一樣,“土”字中的筆畫關(guān)系有“交叉”,有“相觸”,而“工”字中的筆畫關(guān)系只有“相觸”。漢字的部件能分為五、六百種,但是,漢字的筆畫關(guān)系用七大類就能概括。
a)分觸類部件的筆畫關(guān)系只有分離和相觸,如江、工、心;b)銜接類部件的筆畫關(guān)系只有銜接,如阝、廠、己、口、凹;c)分接類部件的筆畫關(guān)系只有分觸和銜接,如山、石、月、日;d)交叉類部件的筆畫關(guān)系只有交叉,如力、豐、車、井;e)分叉類部件筆畫關(guān)系只有分觸和交義,如禾、米、半;f)叉接類部件筆畫關(guān)系只有交叉和銜接,如尹、聿、吏、由;g)完全類部件筆畫關(guān)系有分觸,也有交叉和銜接,如鬼、魚、舟。
以上每大類還可以細(xì)化,如“豐”字,可稱為“≥2叉”;“凹、口”字,可稱為“≥3接”;“廠、弓、”字,可稱為“≤2接”。
綜上所述,模糊部件是利用漢字筆畫關(guān)系形成的特征信息,對漢字部件進行分類,這種部件和我們通常用的部件不一樣,通常用的部件是“定性、定量、定形”,而模糊部件“定性而不定形”。
模糊部件分為三種,一種是筆順部件,一種是獨體部件,一種是并列部件。
1)筆順部件按筆順排序由兩畫構(gòu)成的分觸類筆畫關(guān)系,稱為筆順部件,共有4個a)撇點筆順是先撇后點。如“是、亥、其”字,字尾都是筆順部件“撇點”;“愛、采、番”字,字首都是筆順部件“撇點”;b)撇折筆順是先撇后折。如“爭、夕、句、爾”字,字首都是筆順部件“撇折”;“能、比”字,字尾都是筆順部件“撇折”;c)折撇筆順是先折后撇。如“召、盈”字,字首都是筆順部件“折撇”;“ 方”字,字尾都是筆順部件“折撇”;
d)橫折筆順是先橫后折。如“至、比”字,字首都是筆順部件“橫折”;“乞”字,字尾是筆順部件“橫折”;2)獨體部件把“銜接類”、“交叉類”、“叉接類”筆畫關(guān)系結(jié)構(gòu)塊整體視為一個部件,稱為獨體部件,共有5個a)≤2接只有一個或兩個接點。如“廠、幾、弓、己”;b)≥3接有三個或三個以上接點。如“口、凸、凹”;c)1叉只有一個叉點。如“十、九”;d)≥2叉有兩個或兩個以上叉點。如“女、也、豐、井”;e)叉接筆畫關(guān)系的叉接點交織在一起。如“尹、中、曲、吏”。
3)并列部件在漢字中,有些筆畫關(guān)系形成的結(jié)構(gòu)塊互相并列,如“保、堡、葆”三個字中,“亻”和“呆”互相并列。
并列部件是把并列結(jié)構(gòu)塊中的每一塊整體,在特定條件下視為一個部件,但是,如果并列結(jié)構(gòu)塊是筆畫、定形或獨體部件,仍按筆畫、定形或獨體部件處理。
a)如果全字只是由兩個并列結(jié)構(gòu)塊構(gòu)成,只準(zhǔn)許用左面的結(jié)構(gòu)塊做并列部件,而且它右面的結(jié)構(gòu)塊必須由兩個以上部件構(gòu)成才行。如“保”字,“亻”是并列部件;“仲”字,“亻”就不是并列部件,因為它右而并列的“中”只是由一個獨體部件構(gòu)成;b)如果全字只是由三個并列結(jié)構(gòu)塊構(gòu)成,只能取前兩個結(jié)構(gòu)塊為并列部件,如“褓”字,只能取“衤”、“亻”為并列部件;“糊”字,“米”、“古”是并列部件,“月”是定形部件;c)如果全字是由三個以上結(jié)構(gòu)塊構(gòu)成,其中有兩個結(jié)構(gòu)塊并列,只要符合定義,就可視為是并列部件。如“葆、堡”字,“亻”、“呆”是并列部件,“艸”、“土”是定形部件。
并列部件共有7個a)2分有兩畫分觸類筆畫關(guān)系構(gòu)成。如“伴、冰、姿”字中的“亻”和“冫”;b)3分有三畫分觸類筆畫關(guān)系構(gòu)成。如“衍、忙、駝”字中的“彳、亍、忄、馬”;c)4分有四畫或四畫以上分觸類筆畫關(guān)系構(gòu)成。如“社、紫、貌”字中的“礻、止、豸”;d)分接由分接類筆畫關(guān)系構(gòu)成。如“路、夠”字中的“足、句”;e)分叉由分叉類筆畫關(guān)系構(gòu)成。如“稱、藉”字中的“禾、耒”;f)叉接由叉接類筆畫關(guān)系構(gòu)成(由一個銜接類和一個叉接類獨體部件構(gòu)成,或者由兩個叉接獨體部件構(gòu)成)。如“鞍、糊”字中的“革、古”;
g)完全由完全類筆畫關(guān)系構(gòu)成。如“魁、船、薊、藉”字中的“鬼、舟、魚、昔”。
(四)部件界定、排序1)筆畫部件、獨體部件這兩種部件和其它部件之間筆畫關(guān)系只要是“分觸”就可以界定,排序遵照《筆順規(guī)范》。如“上”字,界定排序是“丨、一、一”;“重”字,界定排序是“丿、車、一”;“白”字,界定排序是“丿、曰”;“君”字,界定排序是“尹、口”2)定形部件筆順遵照《筆順規(guī)范》,先起筆的部件排序在前并取大。如“國”字,部件界定排序是“口、王、丶”;“主”字,部件界定排序是“亠、土”。
3)筆順部件筆順部件按定義界定,排序遵照《筆順規(guī)范》,但是,筆順部件不準(zhǔn)在定形部件上“拆借”筆畫進行界定。如“系”字,不能在定形部件“幺”上借用“折”筆畫界定出筆順部件“撇折”,“系”字只能界定為“丿、幺、小”。
4)并列部件筆順遵照《筆順規(guī)范》,并列部件在界定時,最明顯的特征是它和相鄰的部件相分離(有明顯間隙),在兩個結(jié)構(gòu)塊之間又沒有其它筆畫相隔離。如“尬、排、魁、趔、瀚、逖”這些字都是并列結(jié)構(gòu),結(jié)構(gòu)塊之間都相分離;“翟、祭、癸、脊、然、繁”這些字,上部都是并列結(jié)構(gòu),結(jié)構(gòu)塊之間都有明顯間隙;“ ”字,上部就不是并列結(jié)構(gòu),因它和“冖”之間沒有分離(沒有間隙)。
部件界定示例“傻”字,界定排序是“亻(并列部件“2分”)、丿(筆畫部件“撇筆”)、口(獨體部件“≥3接”)、×(獨體部件“1叉”)、八(筆順部件“撇點”)、夂(定形部件“夂”)”。三、代碼(一)音母字的漢語拼音第一個字母,采用的代碼、讀音、使用規(guī)則遵照《漢語拼音方案》;(二)形母漢字部件的代碼,共采用26個拉丁字母;(三)轉(zhuǎn)換符號“I”,兩字詞編碼第一個字母;“U”,多字詞編碼第一個字母;“V”,模糊形碼第一個字母。
(四)代碼表各種代碼見表2。
表2 說明代碼表中有“·”標(biāo)記的是獨體和筆順部件;有“*”標(biāo)記的是并列部件;音母中有括號的三個字母是轉(zhuǎn)換符號。四、編碼規(guī)則(一)字編碼規(guī)則1)音形碼編碼規(guī)則用字音和字形信息編碼稱為音形碼。模糊碼音形碼編碼規(guī)則是用音母及字首、次首(第二個部件)和字尾部件的形母依次排序;2)形碼編碼規(guī)則只用字形信息編碼稱為形碼。模糊碼形碼編碼規(guī)則是用轉(zhuǎn)換符號“V”替代音形碼中的音母。
編碼示例“傻”字漢語拼音第一個字母“S”;字首“亻”,是并列部件“2分*”,代碼“A”;次首“丿”,是筆畫部件,代碼“P”;字尾“夂”,是定形部件,代碼“F”;傻字音形碼“SAPF”;傻字形碼“VAPF”。
(二)詞編碼規(guī)則1)兩字詞編碼規(guī)則用轉(zhuǎn)換符號“I”及第一個字音母、字首形母和第二個字音母依次排序;2)多字詞編碼規(guī)則用轉(zhuǎn)換符號“U”及第1、2字和最后一個字的音母依次排序。
編碼示例模糊-IMMH模糊碼-UMHM模糊輸入-UMHR五、模糊碼一級簡碼表模糊碼只設(shè)一級簡碼,共230個,使用頻度在49%以上,見表3表3
本發(fā)明的有益效果使用部件少,只有77個,編規(guī)則簡單好學(xué),只有一條,一級簡碼數(shù)量多,230個,不用記憶,對認(rèn)識和不認(rèn)識的字及詞都能同軌輸入;由于方法簡單好學(xué),科學(xué)、規(guī)范,適宜推廣普及。
附圖1是漢字模糊碼輸入計算機方法的鍵元分布圖。
下面結(jié)合
本發(fā)明的最佳實施例本發(fā)明共用筆畫部件5個,定形部件56個,筆順部件4個,獨體部件5個,并列部件7個,總共77個部件;音母符號23個;轉(zhuǎn)換符號3個,分別布局在26個字母鍵上,其含義見表2。
在輸入時a)輸入字時以音形碼為主,當(dāng)輸入第一個字母(音母)時,提示行就有十個一級簡碼字隨機出現(xiàn),按排序用數(shù)字鍵選擇;b)輸入字時,按編碼字母排序依次輸入,不知音母的字,用形碼輸入;c)沒有重碼,不足4碼擊空格鍵再接著輸下一個字,有重碼字按提示排序用數(shù)字鍵選擇后再接著輸下一個字;用形碼輸入,有重碼字提示行中若是沒有,翻頁查找;d)輸入詞時,按編碼排序依次輸入,有重碼詞按提示排序用數(shù)字鍵選擇后再接著輸入下一個字或詞。
權(quán)利要求
1.一種漢字模糊碼輸入計算機的方法,其特征是用26個拉丁字母做代碼;編碼的第一個代碼稱音母,是漢語拼音第一個符號,輸入時,擊一鍵就有十個高頻字隨機出現(xiàn);音母之后依次是字首、次首和字尾三個位置部件代碼排序;部件有筆畫、部首和本發(fā)明按漢字筆畫關(guān)系形成的特征信息定義的模糊部件;用轉(zhuǎn)換符號“V”替代音母,對認(rèn)識和不認(rèn)識的字就能同軌輸入;
2.根據(jù)權(quán)利要求1所述的模糊碼輸入計算機的方法,其特征在于,按漢字筆畫關(guān)系形成的特征信息是A、分觸類部件的筆畫關(guān)系只有分離和相觸;B、銜接類部件的筆畫關(guān)系只有銜接;C、分接類部件的筆畫關(guān)系只有分觸和銜接;D、交叉類部件的筆畫關(guān)系只有交叉;E、分叉類部件筆畫關(guān)系只有分觸和交叉;F、叉接類部件筆畫關(guān)系只有交叉和銜接;G、完全類部件筆畫關(guān)系有分觸,也有交叉和銜接。
3.根據(jù)權(quán)利要求1、2所述的模糊碼輸入計算機的方法,其特征在于模糊部件分為筆順部件、獨體部件、并列部件;筆順部件是按筆順排序由兩畫構(gòu)成的分觸類筆畫關(guān)系;獨體部件是把“銜接類”、“交叉類”、“叉接類”筆畫關(guān)系整體視為一個部件;并列部件是把并列結(jié)構(gòu)塊中的每一塊整體,在特定條件下視為一個部件;
4.根據(jù)權(quán)利要求2、3所述的模糊部件,其特征在于并列部件的特定條件是A、如果并列結(jié)構(gòu)塊是筆畫、定形或獨體部件,仍按筆畫、定形或獨體部件處理;B、如果全字只是由兩個并列結(jié)構(gòu)塊構(gòu)成,只準(zhǔn)許用左面的結(jié)構(gòu)塊做并列部件,而且它右面的結(jié)構(gòu)塊必須由兩個以上部件構(gòu)成才行;C、如果全字只是由三個并列結(jié)構(gòu)塊構(gòu)成,只能取前兩個結(jié)構(gòu)塊為并列部件;D、如果全字是由三個以上結(jié)構(gòu)塊構(gòu)成,其中有兩個結(jié)構(gòu)塊并列,只要符合定義,就可視為是并列部件。
全文摘要
本發(fā)明是漢字模糊碼輸入計算機的方法,編碼第一個代碼稱音母,是拼音第一個符號,輸入時擊一鍵就有十個高頻字隨機出現(xiàn)供選擇;音母之后依次是字首、次首和字尾三個位置部件代碼排序;部件只用了77個,有筆畫、部首和本發(fā)明按漢字筆畫關(guān)系形成的特征信息定義的模糊部件;用符號“V”替代音母,對認(rèn)識和不認(rèn)識的字就能同軌輸入。本輸入方法編碼規(guī)則只有一條,簡單好學(xué),重碼少,輸入速度快,規(guī)范、科學(xué),適宜普及推廣。
文檔編號G06F3/023GK1407435SQ0114208
公開日2003年4月2日 申請日期2001年9月11日 優(yōu)先權(quán)日2001年9月11日
發(fā)明者單巖山 申請人:單巖山