專利名稱:雙向識別的漢字形聲碼的制作方法
雙向識別的漢字形聲碼是一種形碼,應(yīng)用于中文信息處理。它是對漢字形聲碼(專利申請?zhí)?1108178.x)與改進(jìn)的漢字形聲碼(專利申請?zhí)?5111006.3)的改進(jìn)。這是實(shí)現(xiàn)了雙向識別的漢字形聲碼。
90年代的漢字編碼方案發(fā)展到了一個新的高度,其數(shù)量已超過1000種?;绢愋腿允且舸a、形碼、音形碼三類。就形碼而言,易學(xué)性、規(guī)范性均有所提高,主要有如下的改進(jìn)趨勢(1)字根定碼規(guī)則趨向嚴(yán)格,較多的采用按音定碼(或部分地按音定碼)。如杜冰蟾的全息碼。
(2)拆分規(guī)則趨向嚴(yán)格。如杜冰蟾的全息碼嚴(yán)格地按照筆順取碼。
(3)簡化識別碼,采用簡碼消重。如五筆字型碼新版已采用簡碼消重。簡繁五筆碼識別碼改用末筆,省去字型。有的形碼方案采用本字讀音(聲母或首字母)作識別碼,如陳愛文的表形碼、栗興民的四筆形聲碼。
(4)采用預(yù)提示功能。利用提示行可逐鍵地實(shí)現(xiàn)系統(tǒng)設(shè)計(jì)者意愿提供給用戶的提示,如簡碼字、重碼字、高頻字等。
(5)實(shí)現(xiàn)了三碼一字或大部分三碼一字,如栗興民的四筆形聲碼。
(6)采用動態(tài)自造詞。
但對于形碼的反向識別(見碼識字)還僅是一種設(shè)想,未見有這方面的實(shí)際介紹。
本發(fā)明的目的在于介紹漢字形聲碼實(shí)現(xiàn)反向識別的原理、條件以及用途。
本發(fā)明的構(gòu)思原理與基本結(jié)構(gòu)如下漢字是一種拼形文字。漢字現(xiàn)代化就是漢字符號化,也就是為漢字創(chuàng)造一種“文字碼”。文字碼與一般編碼不同之處,就在于要求編碼過程中、符號轉(zhuǎn)換中不允許存在文字學(xué)以外的指令手段。它的任務(wù)是盡可能完善地描述漢字、表達(dá)漢字,以達(dá)到實(shí)現(xiàn)反向識別的高度。這種編碼不只用于漢字電腦輸入,還可用于漢字排序檢索,拼讀法識字教學(xué),指導(dǎo)漢字的簡化與簡繁體漢字的統(tǒng)一。它就是人們夢寐以求的漢字的另一種形式,是人腦與電腦共同使用的文字。
問題的核心在于反向識別。
漢字形聲碼一直以實(shí)現(xiàn)反向識別為其研究目的。91108178.x的發(fā)明由于①識別碼過于復(fù)雜,②實(shí)施反向識別采用“分析法”,而歸于失敗。95111006.3的發(fā)明已簡化了識別碼,并意識到實(shí)施反向識別應(yīng)采用“聯(lián)想法”,但沒有找到實(shí)施的具體途徑,且字根定碼還存在缺點(diǎn)。
本發(fā)明實(shí)現(xiàn)反向識別采用“聯(lián)想法”。它包含三個方面,即(1)字、碼聯(lián)想,(2)字間聯(lián)想,(3)上下文聯(lián)想。今分別扼要說明(一)字、碼聯(lián)想這是反向識別的基礎(chǔ)。下分五點(diǎn)加以說明(1)字形縮寫字、碼聯(lián)想的依據(jù)是把編碼設(shè)計(jì)成漢字字形名稱的縮寫??s寫采用字根讀音的聲母。將Ch、Sh、Zh定位于V、I、A鍵,YU音字根定位于U鍵。字根“木”、“十”按象形法定位于O鍵。共26鍵位。于是張→GongChang→GV;少→XiaoPie→XP;意→LiRiXin→LRX;求→HengShuiDian→HID;照→RiDaoKouHuo→RDKH。
一級字集字一般不加識別碼,一字1-4碼。二字根字、三字根字遇重碼時才加識別碼。識別碼用本字讀音首字母。
如必→XinPieBi→XPB;劉→WenDaoLiu→WDL。
二級字集字用本字末筆畫碼作識別碼,一字3-4碼。
這樣,編碼就與國際通用的縮寫,如CHN、USA、DOS、CPU相似。所以是可能雙向識別的。
字根的讀音一般采用學(xué)校中與社會上當(dāng)今流行的名稱,只個別字根例外。
(2)反映全貌漢字形聲碼采用四位限長碼。當(dāng)分解所得的字根超過四個時,選取前3末1,其余字根舍棄,叫字根溢出。這對正向識別無關(guān)緊要,但對反向識別不利。所以,要求反向識別的形碼的字根總量要比不要求反向識別的形碼多些,以減少字根溢出。
(3)一一對應(yīng)實(shí)現(xiàn)雙向識別要求常用字字、碼一一對應(yīng),即一級字集沒有重碼或重碼極少。
當(dāng)今形碼要求規(guī)范性如此之高,規(guī)則如此的簡單,在四位限長碼中沒有重碼或重碼極少是不可能的;實(shí)際上是通過妥善的重碼處理來達(dá)到上述要求的。如形聲碼V4.0一級字集經(jīng)處理后,重碼字5個,這些字用空格鍵送入。
以往的形碼常常為了抑制重碼,對二字根字、三字根字附加識別碼。選成簡碼時,又把識別碼去掉。重碼字還要將識別碼換成消重碼。識別碼、簡碼、消重碼各自獨(dú)立處理,是一大缺陷。像形聲碼有1400個三字根字,要加1400個識別碼,1300個又是三級簡碼,又一個一個地去掉。浪費(fèi)多大的記憶量。形聲碼在研究過程中發(fā)現(xiàn)了這個問題,便著手統(tǒng)籌處理識別碼、簡碼、與消重碼;即一級字集一般不用識別碼,遇重碼時才加識別碼,識別碼起到消重碼作用。至于哪些字需加識別碼,由軟件的預(yù)提示告知用戶。
(4)碼長要短初學(xué)英語,字母少的生詞好記,初學(xué)漢字,筆畫越少越好記。編碼的反向識別亦如此。形聲碼放棄了四位等長碼的概念,改用四位限長碼。一級簡碼字就是一碼字,二級簡碼字就是二碼字,簡碼就是它們的正碼。形聲碼沒有容錯碼、消重碼,只有正碼、副碼。一級字集的正碼是沒有重碼的(除5個重碼字),副碼可能是重碼。這樣,3755個一級字集字,按照恰當(dāng)?shù)臄?shù)量,被分配在四個區(qū)域一碼、二碼、三碼、四碼。這大大有利于字、碼聯(lián)想。假如說三字根字不是不用識別碼,三字根字與>=四字根字?jǐn)D在同一個四碼區(qū),在這近3000個字中要實(shí)現(xiàn)字、碼聯(lián)想、反向識別,恐怕就不可能。
(5)字根總量綜合以上要求,形聲碼選擇正體字根約160個,加上變體、變形字根共約260個。
(二)字間聯(lián)想這是反向識別的關(guān)鍵。下分二點(diǎn)加以說明(1)字族、族根、族根碼現(xiàn)代漢字字形雖然復(fù)雜,但是由648個部件或約1400個偏旁組成。獨(dú)體為文,合體為字。漢字中90%是形聲字,形聲字由形旁和聲旁組成。所以字碼中的字根碼不是各自獨(dú)立的無機(jī)組合,而是有層次的有機(jī)組合;字根碼間的關(guān)系不是等距的,而有親疏之別。如字碼CWG(CaoWenGou),WG先組合成“方”,再與C組合成“芳”。像化學(xué)分子式H2SO4,SO4先結(jié)合成酸根,再與H2結(jié)合成硫酸。
在雙向識別的形碼設(shè)計(jì)中,把一些具有部分相同字形,而又不是一個字根,即需分解成>=2個字根的字歸并為一族,稱字族;這些字稱為同族字,而這相同字形稱為族根,它的編碼稱為族根碼。顯然,族根碼由2-4個字根碼組成。
如“方”是個用頻很高的字,又是個組字能力很強(qiáng)的族根。在一級字集中,同族字就有簇awgd,邀bwgz,芳cwg,防ewg,敷fwgw,淤lwgd,游lwgz,妨nwg,仿rwg,紡swg,坊twg,肪uwg,旋wgra,族wgrd,旗wgrq,旅wgry,施wgr.y,放wgw,訪ywg,房diwg,耪fblg(溢出),磅iltg(溢出),鎊jltg(溢出),旁ltwg,榜oltg(溢出),楞oswg,傍rltg(溢出),膀ultg(溢出),謗yltg(溢出),29個。(由點(diǎn)表示簡碼,撇表示重碼)在二級字集中,有舫awg,敫bwgw,菸cwgd,蔟cwgd′,鈁jwg,鏇jwga,鏃jwgd,嗾kwgd,漩lwga,閼mwgd,枋owga,彷rwga,蝣vwgz,邡wge,旎wgrb,於wgrd′,旌wgrh,旆wgrj,旖wgrk,旄wgrq′,旒wgrv,旃wgrw,滂lltg(溢出),魴uhwg,愣xswg;25個。
字族還有大小、層次,字族內(nèi)還有字族,如“方”族內(nèi)有
族、“旁”族。族根較大,同族字就較少?!芭浴钡淖甯a為ltwg,w字根溢出,剩下的ltg仍有識別作用。
又如“民”是個用頻很高的字,又是個組字能力不強(qiáng)的族根,在一、二級字集中,還是有10個同族字民kaq,眠mkaq,氓wakq(溢出),岷ikaq,泯lkaq,抿fkaq,緡skar(溢出),珉wkaq,苠ckaq,愍kaqx。
一個字根碼平均對應(yīng)10個字根,若無機(jī)組合,二個字根碼就有100種字根組合,三個字根碼就有1000種字根組合。但是二個字根碼組成的族根碼一般只對應(yīng)1-2個族根,少數(shù)3-4個。>=3個字根碼組成的族根碼一般只對應(yīng)一個族根,少數(shù)為2個。這樣,形碼的反向識別就是從字碼中尋找族根的問題。一級字集中,1400個是4碼字,其余都是1、2、3碼字,要尋找族根就不太困難。利用族根的聯(lián)想,不僅減少了記憶量,而且同族字的反復(fù)出現(xiàn),又相互強(qiáng)化了記憶。族根的發(fā)現(xiàn)與應(yīng)用,使形碼的反向識別成為可能。
族根與字根一樣,在文字學(xué)上亦有其實(shí)際意義。由于作為形旁的部首,多數(shù)已選為字根,很少為族根,聲旁選為字根較少,故族根多數(shù)為漢字的聲旁。
(2)同字同碼同一漢字(或部件)在獨(dú)體字中或合體字不同部位的偏旁中,應(yīng)具有相同的編碼。下分二小點(diǎn)說明1)字形轉(zhuǎn)化按照漢字傳統(tǒng),有些漢字在合體字的不同部位,字形要作適當(dāng)?shù)淖兓纭柏Q”轉(zhuǎn)為“撇”,這時編碼應(yīng)該不變。例如半-判,辛-辯,手-看,戈-武,羊-著,尚-賞,等。所以,形聲碼總是把“冂”與“冖”按排在同一鍵位上。
2)字根溢出同一族根在不同的同族字中,族根碼應(yīng)該相同。一旦字根溢出,族根碼就發(fā)生變化。形聲碼要盡量減少此事發(fā)生。這除了要選擇適當(dāng)?shù)淖指偭颗c字根字形盡量完整外,還要在拆分規(guī)則上精心安排。
形聲碼的拆分原則是要盡量符合造字原則;如束→木、口,戍→戈、人,生→牛、一(“一”象征地平線)。它采用二步分解,先分解為部件,再分解為字根。對每個獨(dú)體字與基本部件按照人們的文字習(xí)慣與意愿,和文字碼的要求,試分成字根。然后,根據(jù)這些結(jié)果,歸納出五條順序運(yùn)用的優(yōu)先準(zhǔn)則①最少字根優(yōu)先,②非相交優(yōu)先,③單筆畫、非折筆畫優(yōu)先,④筆順連續(xù)優(yōu)先,⑤筆畫先分優(yōu)先。對于使用者,又簡化為一條——先分部件,抽取一個最大字根而解體。這種按照字形結(jié)構(gòu)直接拆分的靜態(tài)分解法比“筆順為序、取大優(yōu)先”的動態(tài)分解法好,它解決了字形組合方式與書寫順序方式之間的矛盾,分得的字根較少,較完整。
“最少字根優(yōu)先”成為第一準(zhǔn)則,至關(guān)重要。它使不少族根優(yōu)先分解為2、3個字根,從而減少了字根溢出。如①僉→RenErXiao→REX同族字一級字集簽arex,檢orex,撿frex,儉rrex,臉urex,斂rexw,劍rexd,險erex,驗(yàn)mrex,鹼irex;二級字集瞼mrex′,殮hxrx(溢出),瀲lrew(溢出),薟crex,蘞crew(溢出),獫qrex。
若②僉→RenHengXiaoHeng→RHXH;則同族字全部溢出,且有rhh、rhx、rh三種族根碼的形式。顯然①比②好。
(三)上下文聯(lián)想形聲碼的反向識別是在正向識別的基礎(chǔ)上自然出現(xiàn)的。一般在掌握26個一簡字與400-500個二簡字的雙向識別后,就可以實(shí)施在連續(xù)文本中的反向識別。二簡字多數(shù)是族根,不太困難地衍生出二、三千個同族字的反向識別。通過上下文的聯(lián)想,可以讀出全文。個別字想不起來,見過幾次,就記得了。
形聲碼的一些其它內(nèi)容,詳見形聲碼漢字輸入法、字根鍵位圖。
形聲碼在研究反向識別的過程中,曾面臨二個問題①能不能實(shí)現(xiàn),②有沒有用途?,F(xiàn)在就來回答第二個問題。
當(dāng)一種文字碼在中小學(xué)、全社會全面推廣,將使人們對漢字的認(rèn)識從字形整體上把握轉(zhuǎn)化為從字形結(jié)構(gòu)上掌握,這對漢字文化將會產(chǎn)生深遠(yuǎn)的積極的影響。但這是以后的事。就當(dāng)前而論,形聲碼的反向識別有如下幾點(diǎn)作用。
(1)形碼品質(zhì)的綜合性指標(biāo)形碼的反向識別對形碼的各項(xiàng)品質(zhì)提出了更高、更全面的要求。所以,形碼有無反向識別功能是評價形碼品質(zhì)的一個綜合性指標(biāo)。
但反向識別功能未能很好包容“協(xié)調(diào)性”要求。為此,形聲碼對字輸入的“鍵位用頻分布”、“手指用頻分布”、“同指異鍵連擊率”進(jìn)行了測算,其結(jié)果與英文輸入、王碼字輸入相比,處于同一水平。
(2)小學(xué)生快速培訓(xùn)法形碼培訓(xùn),常采用“分析法”,即背字根、記規(guī)則,然后,一個字一個字地去拆分。學(xué)習(xí)效率不高。
形聲碼在反向識別采用“聯(lián)想法”的啟發(fā)下,將“聯(lián)想法”應(yīng)用于正向識別,對小學(xué)四上學(xué)生進(jìn)行試驗(yàn),取得成功。50小時機(jī)上練習(xí),取得①標(biāo)準(zhǔn)指法英文字母錄入120字符/分;②編碼練習(xí)生稿、字輸入30字/分;③語文課本28課,通錄一遍。不背字根,不記規(guī)則,在邊談笑、邊擊鍵的輕松、歡樂的氣氛中進(jìn)行。
小學(xué)生學(xué)電腦,以標(biāo)準(zhǔn)指法與漢字輸入、文稿編輯為宜,這方面小學(xué)生有駕馭、主宰電腦的感覺。漢字輸入又以形碼為宜。音碼在低速8-12字/分時才顯得易學(xué),當(dāng)要求20-30字/分的實(shí)用速度時,形聲碼可以與之相比。錄入速度太低,體現(xiàn)不了電腦的快速性。
(3)使用雙向識別的編碼在心理上有舒適感。
(4)對小學(xué)生有利于漢字字形的記憶。在培訓(xùn)中,學(xué)生已有此反映。
本發(fā)明已開發(fā)出商品軟件XS V4.0,自由懸掛式輸入系統(tǒng),具有一、二級字集、一萬詞條的字、詞輸入,以及予提示、查詢、自造詞、聯(lián)想等功能。
形聲碼的書寫格式,初步設(shè)計(jì)如下以字為單位,采用字的正碼書寫。一簡字、二簡字用簡碼書寫,但二簡、>=3字根字應(yīng)附全碼,中間用點(diǎn)分隔。四碼字用四碼書寫,如用簡碼消重的,應(yīng)用點(diǎn)表出其簡碼。重碼字用撇表示。
字碼用小寫,每一句的第一個字的首字母用大寫。專有名詞每個字的首字母用大寫,若專名太長,可參照漢語拼音規(guī)范分詞書寫,每個詞的首字母大寫,詞中字之間用“-”分隔。標(biāo)題可參照拼音文字習(xí)慣處理。
例將來的漢字編碼,將是漢字與電腦之間的中介,是漢字的另一種形式,是人腦與電腦共同使用的文字。國家要統(tǒng)一,文字要統(tǒng)一,編碼也要統(tǒng)一。
——卓晴君Pxc hm d Lyh Bz sdic imm,pxc i Lyh Bz kh rad uw.k ad mr d kirdj,i Lyh Bz d kl y hki hci qg.d,i r uw.k kh rad uw.k nb th.krhkv u d wdh bz。Gw.d bi xn swse y,wdh bz xn swse y,sdic immya xn swse y。
——Broz Rqu Xpk附漢字輸入法與字根鍵位圖XS V4.0形聲碼漢字輸入法V4.0發(fā)明人嵇政一.編碼要領(lǐng)“字形讀出聲,碼就來啦!”即漢字用它的可讀的字根表示。
注常見的、不宜拆分的、可讀的偏旁、部首均為字根,有的偏旁、部首不常用、筆畫較多需拆分為二個、三個較簡的字根。二.編碼流程附
圖1三.字例注V鍵表示聲母Ch意—→立、日、心—→LRX;照—→日、刀、口、灬—→RDKH;少—→小、丿—→XP;必—→心、丿—→XPB;張—→弓、長—→GV;劉 必劉—→文、
—→WDL;蜜—→宀、必、蟲—→宀、心、丿、蟲—→BXPV;費(fèi)—→弗、貝—→弓、刂、貝—→GDB;王—→WH;兒—→EP;心—→XD四.二級字集字識別碼改用字的末筆畫碼,一字3-4碼。五.字根讀音、名稱提示分別用( )、[ ]表示(青),亠(文),冂(同)[同字框],冖(禿)[禿寶蓋],彡(衫)
(撇)[撇橫、撇撇、撇折],冫(冬),癶(登),扌(扶)[扶手旁],
(奉),
(反),勹(勾),
(革),廴(建),
(考),灬(火),凵、匚、(框)[上框、右框、左框],氵(流),辶(走)[走之],彐(雪),乂(叉),
(踏)[踏步踏],口(國)。六.詞輸入一詞四碼二字詞用字的前二碼輸入,一級簡碼字連擊簡碼二次。多字詞(>=3)用字的讀音首字母,不足四碼的用“;”補(bǔ)足。自造詞可按音定碼。
形聲碼字根鍵位表V4.0
日—→U僅用于“昌、冒、冕、汩”;ナ—→o僅用于“戎、辯”。
權(quán)利要求
1.一種用于中文信息處理的雙向識別的漢字形聲碼,其特征在于字根按其讀音聲母取碼,采用字根的靜態(tài)分解法,采用本字讀音首字母、本字末筆畫碼作識別碼,組成字根碼在前、識別碼在后,而以聯(lián)想法實(shí)現(xiàn)反向識別的四位限長碼。
2.根據(jù)權(quán)利要求1所述的雙向識別的漢字形聲碼,其特征在于正體字根選取約160個,加變體、變形字根共約260個。
3.根據(jù)權(quán)利要求1所述的雙向識別的漢字形聲碼,其特征在于字根按其讀音聲母取碼,Ch、Sh、Zh分別占用V、I、A鍵,首字母Y作音時,改用U鍵,Er音用E鍵,字根“木”、“十”定碼于“O”,共26鍵位。
4.根據(jù)權(quán)利要求1所述的雙向識別的漢字形聲碼,其特征在于字根的讀音一般采用學(xué)校中與社會上當(dāng)今流行的名稱,只個別字根例外;如氵、冫、扌、勹、
,定音為流、冬、扶、鉤、踏,
用首筆畫定碼,而“木、十”按象形法定碼。
5.根據(jù)權(quán)利要求1所述的雙向識別的漢字形聲碼,其特征在于字根冂-冖、
、十-
(右下區(qū)無筆畫)、羊-
等分別安排在同一鍵位上,以滿足同字同碼。
6.根據(jù)權(quán)利要求1所述的雙向識別的漢字形聲碼,其特征在于字根的靜態(tài)分解法規(guī)定字根的拆分原則要符合造字原則,分二步進(jìn)行,先分為部件,再分為字根,分解字根時按五條順序運(yùn)用的優(yōu)先準(zhǔn)則進(jìn)行①最少字根優(yōu)先,②非相交優(yōu)先,③單筆畫、非折筆畫優(yōu)先,④筆順連續(xù)優(yōu)先,⑤筆畫先分優(yōu)先。
7.根據(jù)權(quán)利要求1所述的雙向識別的漢字形聲碼,其特征在于字碼碼長為1-4位(用于全漢字編碼也可1-5位),其字碼結(jié)構(gòu)如下a) 一級字集 一字1-4位(1) 雙字根字 二個字根碼, 重碼時加字音識別碼(2) 三字根字 三個字根碼, 重碼時加字音識別碼(3)>=四字根字 一、二、三、末字根碼(4)字根字 字根碼十首、次、末筆畫碼,一般取2-3位(5) 26個一級簡碼字為一碼字,按讀音聲母取碼;b) 二級字集本字末筆畫碼作識別碼,一字3-4位。
8.根據(jù)權(quán)利要求1所述的雙向識別的漢字形聲碼,其特征在于字碼的字根碼中蘊(yùn)含著族根碼,族根碼由2-4個字根碼組成。
9.根據(jù)權(quán)利要求1所述的雙向識別的漢字形聲碼,參照字碼結(jié)構(gòu),可編制詞碼二字詞用字的前二碼輸入,一級簡碼字連擊簡碼二次,多字詞(>=3)用字的讀音首字母輸入,不足四碼的用“;”補(bǔ)足,自造詞可按音定碼。
全文摘要
雙向識別的漢字形聲碼是漢字字形的縮寫,是一種依靠“字—碼聯(lián)想、字間聯(lián)想”而實(shí)現(xiàn)了反向識別的形碼。形聲碼培訓(xùn)小學(xué)四上學(xué)生,應(yīng)用“聯(lián)想法”,50小時機(jī)上練習(xí),可達(dá)到用標(biāo)準(zhǔn)指法錄入生稿30字/分。不背字根,不記規(guī)則,在邊談笑、邊擊鍵的輕松、歡樂的氣氛中進(jìn)行。這種形聲碼是人腦與電腦共同使用的漢字的另一種形式。
文檔編號G06F3/023GK1200507SQ9710684
公開日1998年12月2日 申請日期1997年2月12日 優(yōu)先權(quán)日1997年2月12日
發(fā)明者嵇政 申請人:嵇政