專利名稱:拼音文字化的漢字編碼方法
技術(shù)領(lǐng)域:
本發(fā)明是適用于漢字拼音化,特別適用于漢字信息處理的拼音文字化的漢字編碼方法。
目前,在各路漢字攻堅部隊的不懈努力下,見之于公開報道的漢字編碼方案已達800種之多,其中能實際上機運行的也有60多種,除記憶碼(電報碼、國標(biāo)碼、區(qū)位碼)外,概括起來,大致分為形碼、音碼、音形(形音、音義)碼三大類,也有進一步引入詞匯因素、詞組聯(lián)想或向人工智能靠攏的,取得了有益的成果,但令人十分遺憾的是,迄今為止,漢字編碼并沒有完全實現(xiàn)人們所期待的目的,漢字編碼歷來的矛盾就是一句話,容易學(xué)的,快不了,輸入快的,不易學(xué)。
我國著名科學(xué)家,中文信息學(xué)會理事長錢偉長教授曾經(jīng)指出“好的編碼方案應(yīng)該是一種文字或是文字的一部分?!贝砦淖职l(fā)展方向的“容易學(xué)”的拼音,顯而易見會成為今后“好的編碼方案”的主體,問題是怎樣徹底解決“快不了”的中心矛盾-要么同音詞(字)或者重碼數(shù)太多,要么碼元數(shù)(編碼所用的代碼鍵數(shù))或者碼元位數(shù)太多,另外還要兼顧碼符的語音習(xí)慣及漢字過渡到拼音文字的方便性等問題。本發(fā)明的目的正在于從碼符的選用、聲調(diào)的標(biāo)示、易混音節(jié)的分隔及同音詞(字)的標(biāo)識上入手解決這些問題,用易學(xué)、輸入快、熊掌和魚可以兼得的優(yōu)勢推動漢字編碼的拼音文字化,并在社會中逐步延伸直至成熟,最終象英文、法文、德文、等拼音文字一樣,實現(xiàn)編碼與文字的合二為一。
本發(fā)明提供的拼音文字化的漢字編碼方法是在專利申請文件《以語音為主的漢字編碼方法》(申請?zhí)?2113502.5)及其補正文件的基礎(chǔ)上的補充和完善,編碼一般以詞(或單字)為一個編碼單元,每個編碼單元由含調(diào)音碼和同音詞(字)標(biāo)識碼構(gòu)成,以形定詞(或定字),或可進一步引入詞組聯(lián)想、人工智能等,代碼形式為拉丁字母,能在小鍵盤上輸入。
本發(fā)明的第一個特征是,含調(diào)音碼中各含調(diào)音節(jié)的韻母由前位韻素(包括韻頭、韻腹)和后位韻素(包括韻尾或疊成韻尾)組成,韻素的代碼符號設(shè)計為兩類,聲調(diào)統(tǒng)一通過前、后韻素代碼符號的類別組合直觀標(biāo)示。權(quán)利要求2進一步說明,韻素的代碼符號一般根據(jù)“五度制標(biāo)記法”可按調(diào)值設(shè)計為高調(diào)值韻素(調(diào)值為最高音5度)和低調(diào)值韻素(調(diào)值小于5度)兩類,前位韻素按音節(jié)聲調(diào)的起調(diào)值選類,后位韻素按音節(jié)聲調(diào)的訖調(diào)值選類,聲調(diào)的具體標(biāo)示為高起調(diào)值前位韻素+高訖調(diào)值后位韻素=55陰平低起調(diào)值前位韻素+高訖調(diào)值后位韻素=35陽平低起調(diào)值前位韻素+低訖調(diào)值后位韻素=214上聲高起調(diào)值前位韻素+低訖調(diào)值后位韻素=51去聲所謂韻素,系指韻母所含的音素;所謂前位韻素,系指韻母所含的處于前面位置的音素;所謂后位韻素,系指韻母所含的處于后面位置的音素。當(dāng)韻母含有韻頭,韻腹、韻尾三個韻素時(通常一個音節(jié)最多只含三個韻素),一般規(guī)定韻頭、韻腹為前位韻素,韻尾為后位韻素,“e”系韻腹的韻腹碼符一般可以省略;當(dāng)韻母只含韻頭、韻腹二個韻素時,一般先將韻腹重疊后形成一個疊成韻尾,然后規(guī)定韻頭韻腹為前位韻素,疊成韻尾為后位韻素,“e”系韻腹的韻腹碼符一般可以省略;當(dāng)韻母只含韻腹、韻尾二個韻素時,一般規(guī)定韻腹為前位韻素、韻尾為后位韻素;當(dāng)韻母只含韻頭(或韻腹)一個韻素時,一般先將韻頭(或韻腹)重疊后形成一個疊成韻尾,然后規(guī)定韻頭(或韻腹)為前位韻素,疊成韻尾為后位韻素。當(dāng)前、后韻素的碼符類別相同(即陰平、上聲),如果音節(jié)的界限不易發(fā)生混淆,疊成韻尾的碼符一般可以省略。
本發(fā)明的第二個特征是,含調(diào)音碼中易混的含調(diào)音節(jié)的界限采用韻母碼位定數(shù)確定法自然確定。即,音節(jié)界限只需依情形按韻碼的碼符位數(shù)為定數(shù),從左至右地數(shù)一數(shù),便都能自然確定,疊成韻尾被省寫時,疊成韻尾的碼符位也應(yīng)計算在內(nèi)。一般無須隔音符號。
本發(fā)明的第三個特征是,同音(含調(diào))的詞(或單字)主要采用偏旁部首定詞(定字)法標(biāo)識。即根據(jù)漢字的偏旁部首定詞(定字)、進行同音詞(字)的標(biāo)識。作為拼音文字,為了便于理解文意,為了便于無漢字基礎(chǔ)者的學(xué)習(xí),理當(dāng)選用規(guī)范的表意(詞性、詞意范圍等)標(biāo)識碼進行同音詞(字)的標(biāo)識;但為了兼顧漢字過渡到拼音文字的方便性,更為了完整地繼承漢字文化,采用既具有表形作用又兼有粗略的表意作用的偏旁部首,作為同音詞(字)的標(biāo)識依據(jù),顯得更加方便、更加實用。
(2)聲調(diào)標(biāo)示方法“高高”表55陰平;“低高”表35陽平;“低低”表214上聲;“高低”表51去聲;輕聲一般由“低低”兼表,但當(dāng)輕聲字具有同形、同聲韻的非輕聲字時,按意義相同或接近的原則進行歸并。
(3)、含韻頭、“/e/”系起調(diào)韻素,無論實際音值是否真正含有韻素“/e/”,拼寫韻母時,一律省略系屬“/e/”,只保留韻頭。
(4)、如果音節(jié)界限不易混淆,表中的疊成韻尾可以省寫,即韻母“ii.jj.ww.uu.vv.yy.aa. .oo.ee.iaa.j .waa.u ”可分別省寫成“i.j.w.u.v.y.a. .o.e.ia.j .wa.u ”。
(五)詞兒連寫規(guī)則詞兒連寫,按國家教委、語委聯(lián)合公布的《漢語拼音正詞法基本規(guī)則》執(zhí)行。總原則如下(1)拼寫普通話基本上以詞為書寫單位;
(2)表示一個整體概念的雙音節(jié)和三音節(jié)結(jié)構(gòu),連寫;
(3)四音節(jié)以上表示一個整體概念的名稱,按詞(或語節(jié))分開寫,不能按詞(或語節(jié))劃分的,全部連寫;
(4)單音節(jié)詞重疊,連寫;雙音節(jié)詞重疊,分寫;
(5)為了便于閱讀和理解,在某些場合可以用短橫。
(六)音節(jié)界限的確定方法音節(jié)界限只需依情形按韻母的字母個數(shù)為定數(shù),從左至右的數(shù)一數(shù),便都能自然確定,無須隔音符號。含韻頭且屬“/a/”系時,韻母為三個字母;其它情形,韻母均為二個字母。疊成韻尾被省寫時,省寫的疊成韻尾也應(yīng)計算在內(nèi)。
注(1)標(biāo)識方法首先在同音詞中,以詞為統(tǒng)計對象,按使用頻率最高的原則確定基準詞,基準詞的標(biāo)識尾一律省略。在非基準詞中,一般以詞的詞末字的偏旁部首(出現(xiàn)二個及以上偏旁部首時,按表意作用最強的原則選擇其中之一)為依據(jù),確定該詞的標(biāo)識尾。當(dāng)加注同音標(biāo)識尾后,如果仍存在同音同尾詞,在同音同尾詞中再按使用頻率最高的原則確定一尾定形詞,在剩下的詞中,或者作特殊歸并;或者進一步作二尾標(biāo)識。
(八)補充說明1、之所以先用“ㄗ、ㄘ、ㄙ”變讀“ㄐ、ㄑ、ㄒ”而不選用“ㄍ、ㄎ、ㄏ”或“ㄓ、ㄔ、尸”,是因為“ㄗ、ㄘ、ㄙ”與齊齒呼或撮口呼韻母拼讀時,受介音[i]或[y]的影響,拼讀形成的實際音值非常接近,甚至完全等同于“ㄐ、ㄑ、ㄒ”(前者約為 2/3 、后者約為 1/3 ),而其它兩組音卻做不到這一點。
2、之所以采用單字母(qg)表/-η/,而不采用雙字母{ngng}或{mgng},不僅僅是出于減短音節(jié)長度的需要,更重要的是出于無符確定音節(jié)界限的需要,因為采用雙字母后,會嚴重破壞韻母字母位數(shù)的定數(shù)規(guī)律,需要采用比較復(fù)雜的補救措施。
3、如果不刻意減少字母位數(shù),聲母“ .q..x.r”可改為“zh.ch.x.r”;另外,聲母也可按《漢語拼音方案》保持不變,韻素表相應(yīng)地改為高調(diào)值韻素 a o i w (i)w (n)m (n)q l低調(diào)值韻素 a e y u (y)u (n)n (n)g r
權(quán)利要求
1.拼音文字化的漢字編碼方法,編碼一般以詞(或單字)為一個編碼單元,每個編碼單元由含調(diào)音碼和同音詞(字)標(biāo)識碼構(gòu)成,以形定詞(或定字),或可進一步引入詞組聯(lián)想、人工智能等,代碼形式為拉丁字母,能在小鍵盤上輸入,本發(fā)明的特征是,含調(diào)音碼中各含調(diào)音節(jié)的韻母由前位韻素(包括韻頭、韻腹)和后位韻素(包括韻尾或疊成韻尾)組成,韻素的代碼符號設(shè)計為兩類,聲調(diào)統(tǒng)一通過前、后韻素代碼符號的類別組合直觀標(biāo)示,含調(diào)音碼中易混的含調(diào)音節(jié)的界限采用韻母碼位定數(shù)確定法自然確定,同音(含調(diào))的詞(或單字)主要采用偏旁部首定詞(定字)法標(biāo)識。
2.按權(quán)利要求1所述的前、后韻素代碼符號的類別組合和聲調(diào),韻素的代碼符號一般根據(jù)“五度制標(biāo)記法”可按調(diào)值設(shè)計為高調(diào)值韻素(調(diào)值為最高音5度)和低調(diào)值韻素(調(diào)值小于5度)兩類,前位韻素按音節(jié)聲調(diào)的起調(diào)值選類,后位韻素按音節(jié)聲調(diào)的訖調(diào)值選類,聲調(diào)的具體標(biāo)示為高起調(diào)值前位韻素+高訖調(diào)值后位韻素=55陰平低起調(diào)值前位韻素+高訖調(diào)值后位韻素=35陽平低起調(diào)值前位韻素+低訖調(diào)值后位韻素=214上聲高起調(diào)值前位韻素+低訖調(diào)值后位韻素=51去聲
全文摘要
拼音文字化的漢字編碼方法。著名科學(xué)家錢偉長教授曾經(jīng)指出“好的編碼方案應(yīng)該是一種文字或是文字的一部分?!北景l(fā)明的目的正在于從拼音入手解決漢字過渡到拼音文字的中心矛盾——要么同音詞(字)或者重碼數(shù)太多,要么碼元數(shù)(編碼所用的代碼鍵數(shù))或者碼元位數(shù)太多,易學(xué)、輸入快、熊掌和魚可以兼得的優(yōu)勢。拼音文字化,并在社會中逐步延伸直至成熟,最終象英文、德文、等拼音文字一樣,實現(xiàn)編碼與文字的合二為一。
文檔編號G06F3/023GK1107238SQ94101958
公開日1995年8月23日 申請日期1994年2月19日 優(yōu)先權(quán)日1994年2月19日
發(fā)明者吳鐵柱 申請人:吳鐵柱