專利名稱:以語音為主的漢字編碼方法
技術(shù)領(lǐng)域:
本發(fā)明是適用于漢字拼音化,特別適用于漢字信息處理的一種以語音為主的漢字編碼方法。
目前,在各路漢字攻堅部隊的不懈努力下,見之于公開報道的漢字編碼方案已達(dá)800種之多,其中能實際上機運行的也有60多種,除記憶碼(電報碼、國標(biāo)碼、區(qū)位碼)外,概括起來,大致分為形碼、音碼、音形(形音、音意)碼三大類,也有進一步加入詞匯因素,詞匯聯(lián)想或向人工智能靠攏的,取得了有益的成果,但令人十分遺憾的是,迄今為止,漢字編碼并沒有完全實現(xiàn)人們所期待的目的。目前,郭淑珍等人的UYBX,即聲韻部形方案在音形碼中較有影響,該方案的一般編碼規(guī)則是,每個漢字由四個拉丁字母表示,前兩個字母表示字音,即對漢字的音采用雙拼法以縮短編碼的長度;后兩個字母表示部形,第三位字符按部首字義的五大類自然、生物、生理、生活和余類的聲母來確定,第四位字符按照部首分類和除去部首后的第一筆的交叉字母來確定。該方案既具有以音為主,易記的特點;又具有碼長壓縮到四位,簡單的長處。但是,由于表示字音的前兩個字母反映不出字音的聲調(diào),需進行標(biāo)識的同音字太多,所以后面二位同音字標(biāo)識碼仍然顯得過分復(fù)雜。漢字編碼歷來的矛盾就是一句話,容易學(xué)的,快不了;輸入快的,不易學(xué)。
我國著名科學(xué)家,中文信息學(xué)會理事長錢偉長教授,曾經(jīng)指出“好的編碼方案應(yīng)該是一種文字或是文字的一部分”,代表文字發(fā)展方向的“容易學(xué)”的拼音,顯而易見會成為今后“好的編碼方案”的主體,問題是怎樣消除或減輕“快不了”的中心矛盾-同音字太多。本發(fā)明的目的是提供一種與現(xiàn)有方案相比較,碼位更少,需標(biāo)識的同音字顯著減少的,碼符(或碼的助記符)符合語音習(xí)慣,向文字更加靠攏的以語音為主的漢字編碼方法。
本發(fā)明提供的以語音為主的漢字編碼方法的特征在于,聲碼、韻碼為含調(diào)三拼結(jié)構(gòu)或含調(diào)雙拼結(jié)構(gòu),聲調(diào)通過韻碼的“形”直觀標(biāo)明,碼符(或碼的助記符)符合語音習(xí)慣,同音字標(biāo)識碼可以為數(shù)字選擇碼,也可以為形碼或意碼,還可以為意形梯級碼,聲碼韻碼為含調(diào)三拼結(jié)構(gòu)的特征在于,聲碼為一位,韻碼為兩位,構(gòu)成韻碼的兩個碼元各代表一個韻素或一個復(fù)合韻素,碼元的符號設(shè)計為兩類,并符合語音習(xí)慣,聲調(diào)通過韻碼的兩位碼元符號所屬類別的四種組合關(guān)系,直觀標(biāo)明(如“甲甲”表陰平、“甲乙”表陽平、“乙甲”表上聲、“乙乙”表去聲);聲碼、韻碼為含調(diào)雙拼結(jié)構(gòu)的特征在于,聲碼一位,韻碼也只有一位,每個韻碼(也是碼元)代表一個韻母,韻碼的符號設(shè)計為甲、乙兩類,其主要助記符借用含調(diào)三拼結(jié)構(gòu)的韻母或漢語拼音的韻母,聲調(diào)的大類,(如平仄)通過韻碼的符號所屬類別(甲、乙)直觀標(biāo)明(如“甲”表平聲,“乙”表仄聲),為了減少韻碼的碼符量,主要根據(jù)大部分齊齒呼、合口呼、撮口呼韻母各自只與少量聲母相拼的特點,將這些韻母設(shè)置為與相應(yīng)的開口呼(或合口呼)共用同一韻碼,另外新增部分專用聲碼與之配合,消除由于共用同一韻碼造成的相容現(xiàn)象。
具體實施例方式例1主碼為單元化含調(diào)三拼結(jié)構(gòu)一般特點是每個漢字用四個位丁字母表示,前三個字母表示字音,即對漢字的音,化為含調(diào)三拼結(jié)構(gòu);后一個字母表示同音字標(biāo)識。
少數(shù)韻碼為兩重復(fù)碼元的漢字,也用四個位丁字母表示,但前兩個字母表示字音(重復(fù)的韻碼碼元省略其中之一),后兩個字母表示同音字標(biāo)識,碼符量可為26個,最低可壓縮為23個,為了符合語音習(xí)慣,避免一碼多母,還可以擴展為34個。
(1)聲碼除雙字母zhchsh用單字母gcs代表,讀[y]的y保留y作為聲碼、無聲母字為“O”零聲母外,一律和漢字拼音相同。
(2)韻碼“碼長二位(少數(shù)重復(fù)碼元省略其中之一后為一位),碼元符號為16個,(其中,碼元助記符借用聲碼碼符5個,碼元符可全部或部分借用聲碼碼符,為保持語音習(xí)慣不變,也可只借用聲碼碼符5個),韻碼碼元符號的種類及代表的韻素或復(fù)合韻素見《表1》(3)聲調(diào)按韻碼碼元所屬類別的組合關(guān)系確定,“甲甲”表陰平、“甲乙”表陽平、“乙甲”表上聲、“乙乙”表去聲(有含調(diào)本意詞的輕聲歸于該含調(diào)本意詞的聲調(diào),無含調(diào)本意詞的輕聲歸為去聲)如果代換一個概念,陰仄等效于上聲,陽仄等效于去聲,則聲調(diào)的表示法非常規(guī)則韻碼的第一個碼元表平、仄,屬于甲類符號時為“平”,屬“乙”類符號時為“仄”;韻碼的第二個碼元標(biāo)明陰、陽,屬甲類符號時表“陰”,屬乙類符號時表“陽”,韻碼碼元的組合關(guān)系及其聲調(diào)的詳細(xì)情況見《表2》
表2韻碼碼元的組合關(guān)系及其聲調(diào)的詳細(xì)情況表
注表中{}表括號內(nèi)韻母前有非零聲母;()表括號內(nèi)韻母前加碼y;<>表括號內(nèi)韻母前無非零聲母(4)同音字標(biāo)識碼可以選用數(shù)字選擇碼、形碼、意碼、意形梯級碼等(意形梯級碼在下面的例2中介紹)
例2主碼為文字化含調(diào)三拼結(jié)構(gòu)主要特點碼長最少1位,最多5位(極少);碼符34個,最低可壓縮為32個。碼形具有簡單,表音、表意準(zhǔn)確的特點;符合拉丁字母的拼讀習(xí)慣,盡量滿足文字化要求,是漢字編碼走向文字化的一種嘗試。
(1)聲碼碼長1位或0位,碼符22個,比單元化含調(diào)三拼結(jié)構(gòu)少一個零聲碼,零聲母字的聲碼(除[y]打頭的字外)一律省略。
(2)韻碼碼長二位或一位,碼元符號16個(借用聲碼4個),其它與單元化含調(diào)三拼結(jié)構(gòu)相同。
(3)同音字標(biāo)識碼為了配合文字化的需要,最宜選用意形梯級碼。
意形梯級碼,碼長0位、1位或2位,首級為意碼,次級為形碼,標(biāo)識方法為出現(xiàn)同意字,預(yù)先選擇使用頻率最高的字,省略標(biāo)識符;在非最高頻率的字中,首先選用意碼進行標(biāo)識,繼續(xù)出現(xiàn)同碼時,然后對使用頻率最高的同碼字省略形碼;對使用頻率不是最高的同碼字再用形碼進行標(biāo)識,繼續(xù)出現(xiàn)同碼時,設(shè)置容錯碼。意形梯級碼的符號及其標(biāo)識的內(nèi)容如《表3》(4)引入詞匯因素非單音節(jié)詞可以引入詞匯因素,代碼形式如下
表3意形梯級碼及其標(biāo)識的內(nèi)容
注意碼碼符采用標(biāo)識內(nèi)容中心字的聲碼,“*”者為不規(guī)則碼符;形碼碼符采用首筆名稱的聲母。
雙音節(jié)首字聲碼十首字韻碼十尾字聲碼十尾字韻碼十尾字意形梯級碼。
多音節(jié)首字聲碼十首字韻碼十第二字聲碼十第二字韻碼十……十尾字聲碼十尾字韻碼十尾字意形梯級碼。
各碼的解釋與本例(1)、(2)、(3)中的解釋基本相同,但也有如下幾點區(qū)別其一、詞匯碼省略了非尾字的意形梯級碼;
其二、詞匯碼采用了詞兒連寫方法;
其三、詞匯碼按韻碼為二位碼元,自然分割音節(jié),當(dāng)韻碼的兩個碼元相同時,如果后接的是純聲碼碼符(不含兼表韻碼的碼符)可以省略其中之一,反則易然。
其四、保留尾字的意形梯級碼。這既是減少同音詞的有效措施,也是減輕大腦音意轉(zhuǎn)換負(fù)擔(dān)的關(guān)鍵之舉,作為文字,應(yīng)當(dāng)盡量避免從一個極端“會音性恒小于會意性”,轉(zhuǎn)向另一個極端“會意性恒小于會音性”,忽視任何一個方面都會對理解、識讀文字增加困難。
其五、尾字的意形梯級碼也可只作為識讀的助記符,而不強求作為詞匯碼的必要部分,尤其是對于漢字信息處理或漢字輸入,因為速度比識讀通常顯得更加重要。
例3、主碼為含調(diào)雙拼結(jié)構(gòu)特點碼長最多四位,碼符最多32個(1)聲碼碼長一位,碼符31個,其中普碼19位,專碼12位(2)韻碼碼長一位,碼符31個,其中平聲碼16個,仄聲碼16個(3)聲韻拼合規(guī)律普通聲碼只能與開口呼、及u、uo、unonguani等韻母的韻碼相拼;專用聲碼只能與齊齒呼、撮口呼、及除u、uounonguan外的閉口呼相拼。含調(diào)雙拼結(jié)構(gòu)的聲碼、韻碼、聲調(diào)及其拼合規(guī)律與含調(diào)三拼結(jié)構(gòu)的對應(yīng)關(guān)系如下表4(表中三拼韻碼均以去聲作為代表)
表4含調(diào)雙拼結(jié)構(gòu)的聲、韻、調(diào)及其拼合規(guī)律與含調(diào)三拼結(jié)構(gòu)的對應(yīng)關(guān)系圖
(4)同音字標(biāo)識碼可選用數(shù)字選擇碼、意碼、形碼、意形梯級碼等。另外根據(jù)《現(xiàn)代漢語詞典》統(tǒng)計,超過30個、40個、50個同音字的語音(含調(diào))分別只有14種、7種和3種,最高不超過69個,如果將專用名詞專用字,非單音節(jié)非詞尾專用字作特殊處理(如詞匯因素、通假字替代),則超過30個、40個同音字的語音(含調(diào)),分別只有5種和2種,最多的同音字不超過47個。
再根據(jù)專用聲碼(j)(q)(r)(y)與wi不相拼,專用聲碼(l)(g)(y)與ii不相拼的特點,可以設(shè)置專用韻碼。
對于總?cè)萘繛?2×2=64個標(biāo)識符,要區(qū)別47個以內(nèi)的同音字,顯然存在可行性。由此,主碼為含調(diào)雙拼結(jié)構(gòu)的漢字編碼的碼長可以縮短到最多只需3位,(不含少量需輔助進行陰、陽調(diào)轉(zhuǎn)換的空格碼)。
(5)加入詞匯因素碼長四位(含空格碼),不足四碼時,加空格碼收尾;
單字或單音節(jié)詞與本例(1)(2)(3)(4)相同雙音節(jié)詞首字聲碼十首字韻碼十尾字聲碼十尾字韻碼三音節(jié)詞首字聲碼十首字韻碼十第二字聲碼十尾字聲碼四音節(jié)及以上詞首字聲碼十第二字聲碼十第三字聲碼十……十尾字聲碼
權(quán)利要求
1.以語音為主的漢字編碼方法,單字或單音節(jié)詞由聲碼、韻碼、同音字標(biāo)識碼組成(或其中若干部分組成),多音節(jié)(含雙音節(jié))另可引入詞匯因素,代碼形式為拉丁字母,能在小鍵盤上輸入,本發(fā)明的特征是,聲碼、韻碼為含調(diào)三拼結(jié)構(gòu)或含調(diào)雙拼結(jié)構(gòu),聲調(diào)通過韻碼的“形”直觀標(biāo)明。
2.按權(quán)利要求1所述的含調(diào)三拼結(jié)構(gòu)和聲調(diào),其特征是,聲碼一位,韻碼二位,構(gòu)成韻碼的兩個碼元各代表一韻素或一個復(fù)合韻素,碼元符號設(shè)計為兩類,聲調(diào)通過韻碼的兩位碼元符號所屬類別的四種組合關(guān)系(如、甲甲、甲乙、乙甲、乙乙)直觀標(biāo)明。
3.按權(quán)利要求1所述的含調(diào)雙拼結(jié)構(gòu)和聲調(diào),其特征是,聲碼一位,韻碼一位,每個韻碼(也是碼元)代表一個韻母,韻碼的符號設(shè)計為兩類,聲調(diào)的大類(如平、仄)通過韻碼的符號所屬類別(如、甲、乙)直觀標(biāo)明,為了減少韻碼的碼符量,主要根據(jù)大部分齊齒呼、合口呼撮口呼韻母,各自只與少量聲母相拼的特點,將這些韻母設(shè)置為與相應(yīng)的開口呼(或少量合口呼)共用同一韻碼,另外新增部分專用聲碼,消除由此造成的相容現(xiàn)象。
全文摘要
一種以語音為主的漢字編碼方法。該方法的關(guān)鍵特點是主碼(聲碼、韻碼)采用含調(diào)三拼結(jié)構(gòu)或含調(diào)雙拼結(jié)構(gòu),聲調(diào)通過韻碼碼元的“形”,或“形”的組合關(guān)系直觀標(biāo)明。主碼采用含調(diào)三拼結(jié)構(gòu),特別適用于初學(xué)者使用,該方法不僅解決了重碼率多的問題,而且編碼更加簡短。主碼采用含調(diào)雙拼結(jié)構(gòu),特別適用于專業(yè)人員使用。該方法使碼長能減少到最少限度,單字編碼可以做到最多不超過3位。
文檔編號G06F3/023GK1087186SQ9211350
公開日1994年5月25日 申請日期1992年11月17日 優(yōu)先權(quán)日1992年11月17日
發(fā)明者吳鐵柱 申請人:吳鐵柱