專利名稱:雙拼漢語編碼法及其鍵盤的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于漢語信息處理技術(shù)領(lǐng)域。
計算機在漢語世界的廣泛應(yīng)用,必須解決漢語人機對話這個技術(shù)關(guān)鍵,包括漢語的語音鍵盤錄入,語音識別,語音合成和文字的鍵盤錄入,字型識別和字型打印等漢語信息處理技術(shù)的幾個方面。這些都要涉及漢語編碼,至今未能統(tǒng)一解決。漢字的編碼方案雖比較完善,也沒有一種方案可接受為國家標準而廣泛推行。
目前,已有近千種漢字編碼方案相繼問世,大致可分為字形碼、語音碼和字形語音混和碼三種類型。字形碼以漢字的形體特征為編碼依據(jù),以“優(yōu)化五筆字型編碼法及其鍵盤(發(fā)明專利CN85100837)”最為典型。但由于漢字結(jié)構(gòu)比較復(fù)雜,導(dǎo)致形碼的編碼法也很復(fù)雜,操作者必須學會拆字組碼,增加學習負擔和大腦的工作量,使計算機的應(yīng)用也避免不了漢字繁難復(fù)雜這一固有缺憾,不利于漢字的改革和漢語的現(xiàn)代化。事實上,五筆字型漢字編碼法只在打字、印刷和統(tǒng)計等專業(yè)領(lǐng)域得到應(yīng)用,一般人員難以學習和掌握,甚至計算機專業(yè)的技術(shù)人員也望而生畏。
字型語音混和碼有以字形為主的,也有以語音碼為主的,采用交叉特征作為編碼依據(jù),多少帶有字形繁難這一因素,也不盡理想。
語音碼應(yīng)該是最理想的,因為只有語音碼才是語言的本質(zhì)特征碼,才與人們以語音為基礎(chǔ)的思維方式相吻合??陬^語言和書面語言的共同點也僅在語音相同這一點上;同時,書面語言不過是口頭語言的記載符號,文字有變更的余地,而語音卻比較穩(wěn)定。就漢語的自身優(yōu)勢而言,漢語口語是比較簡單的,應(yīng)該加以利用。從編碼規(guī)則上看,只有語音碼的取碼依據(jù)是自有的,取碼方法也是簡單易學的。此外,還有漢語拼音多年普及這一社會基礎(chǔ)。
字形編碼不能用于語音編碼,而語音編碼卻可以擴展為文字編碼。因此,只有建立在語音基礎(chǔ)上的編碼法才能成為統(tǒng)一的漢語編碼法。
現(xiàn)有語音編碼法主要是針對漢字的,一般沒有把漢語語音作為一個編碼目標,只是用作漢字編碼的依據(jù)和中介。以《漢語拼音方案》為直接編碼依據(jù)的各種編碼法,獲得一個完整語音音節(jié)的編碼均不少于3次,還要浪費近一半的主要編碼空間。如“漢語拼音電腦鍵盤(CN85102628)”必須逐次輸入聲、韻、調(diào)才構(gòu)成一個完整音節(jié)。為了減少編碼次數(shù)、縮短碼長,大多數(shù)方案舍棄了聲調(diào)而直接進入下一個編碼層次,即所謂“聲韻雙拼”,與實際的語音相偏離,并造成同音碼的增加,為進一步的分離增加了難度。被廣泛采用的拼音編碼“雙音編碼輸入體系”,也未能解決這一問題。
“兩位半全信息漢語拼音編碼法(CN86106542)”把聲調(diào)的信息并入形碼信息之中,也沒有明顯的優(yōu)勢。而“雙程鍵中文小鍵盤和雙程鍵雙拼四聲漢字輸入(CN88104949.2)”改變了現(xiàn)有的擊鍵方式,把鍵位分成輕、重2檔,雖可擊2次鍵輸入一個完整音節(jié),但增加了系統(tǒng)費用和鍵盤操作的難度,難以推廣應(yīng)用。
總之,還沒有一種方案能夠在標準鍵盤上擊鍵2次即輸入一個完整音節(jié),即實現(xiàn)真正的漢語雙拼。
本發(fā)明的目的在于解決漢語信息處理技術(shù)領(lǐng)域的統(tǒng)一編碼問題,實現(xiàn)漢語語音編碼的真正雙拼,提供一種高效、簡易且實用的雙拼漢語編碼法,進而擴展為漢字編碼法,使?jié)h語的信息處理更加方便。
漢語語音由聲、韻、調(diào)三個要素構(gòu)成,對應(yīng)漢語拼音的聲母、韻母和聲調(diào)。有23個聲母(無聲母的合并視為“零聲母”)、35個韻母和5個聲調(diào),組成近1300個漢語語音音節(jié)。如何獲得這1300個音節(jié)的編碼,是語音編碼的關(guān)鍵所在。
把1300個音節(jié)直接分布在一個大鍵盤上,即可獲得一鍵定音的效果。若按正方形排列,至少需要36行×36列。為了便于檢索,必須使每個音節(jié)與其所在鍵位的行和列相關(guān),最好是實現(xiàn)行和列的雙拼,這和通用小鍵盤上的雙拼要求是相近的。
在通用小鍵盤上實現(xiàn)雙拼,也就是在小鍵盤上把大鍵盤上的行和列分2次對應(yīng)出來。通用小鍵盤的主要鍵位一般為4行10列,實現(xiàn)這種對應(yīng)從數(shù)量上是不成問題的,畢竟有1600個組合,比1300還要多。關(guān)鍵問題是要使這種對應(yīng)具有較強的規(guī)律性,便于記憶和應(yīng)用。
本發(fā)明首先確立了雙拼的目標,通過分析漢語語音節(jié)表,才找出一定的規(guī)律,從而實現(xiàn)雙拼。
不區(qū)分聲調(diào)的漢語語音節(jié)表共有415個無調(diào)音節(jié),而23個聲母和1個“零聲母”可與35個韻母有840種聲韻組合,無效組合達425個。這些無效組合在音節(jié)表內(nèi)形成空位,并且大多成方成塊很有規(guī)律,如j、q、x和g、k、h,兩者的空位正好互補。說明聲母和韻母是有選擇而相拼的。由此,可把聲母按是否能與相同的韻母相拼而分組,一般可分成b、p、m;d、t;n、l;g、k、h;j、q、x、y;zh、ch、sh;z、c、s;f、r、w和零聲母。除n、l幾個特例外,每個聲母至多可拼成20個無調(diào)音節(jié),而r、f、w和零聲母只能拼出10個左右。j、q、x與ü為首韻母相拼,正好可以填補Z、C、S相應(yīng)的空位。根據(jù)這些規(guī)律,可以把漢語語音帶調(diào)音節(jié)分解為雙拼母音,再合并為一組雙拼聲母碼元和一組雙拼韻母碼元,并得到一個聲韻雙拼無調(diào)音節(jié)表,見圖1至圖4。具體規(guī)則如下所述把能與i和u為首韻母相拼的聲母分離出來,加一個“′”號區(qū)分,再把能與ü為首韻母相拼的聲母并入前述聲母中,jü與Z′合并記為z′j,qü與c′合并記為c′q,xü與s′合并記為s′x,能與ü和üe相拼的聲母y與f合并記為fy,能與üan和üen相拼的聲母y與ch′合并記為ch′y;r′與p′合并記為p′r′,fu即f′只有一個,可直接并入f中。從而組成40個左右的雙拼聲母碼元。
一般不能與雙拼聲母碼元同時相拼的韻母合為一組,即ang、iang、uan;an、üan、ian、ua;ai、ia、u;a、iu、ui;ong、o、iong、uo;e、ei、i;en、in、un;eng、er、ün、ing、üeng和ou、üe、ie、uang共10組。每組再按陰平、陽平、上聲、去聲各分為4個,輕聲則并入陰平(也可并入其它聲調(diào)之中)。這就組成40個雙拼韻母碼元。
雙拼聲母碼元和雙拼韻母碼元組成雙拼母音碼元,可以拼出絕大部分漢語語音的帶調(diào)音節(jié)。有幾個疊加的音節(jié)因使用概率較小而且字數(shù)也不多,可以直接合并,必要時還可以安排在雙拼的空碼位置上特殊記憶。在GB2312-80的全部漢語帶調(diào)音節(jié)中,雙拼時出現(xiàn)重疊音節(jié)的有diǎ-dǔ、gě-gěi、hē-hēi、liáng-luáng、liǎng-luǎn、liàng-luàn,lao-lü、lǒu-lüě、lòu-luè、nè-nèi、nǎo-nǔ、nào-nù、nóu-nùè、shé-shéi、yō-yōng、zé-zéi、zhè-zhèi、pì-rì,pìn-rùn,總計22個,是由于聲母或韻母的合并產(chǎn)生的,占雙拼音節(jié)總數(shù)1271個的1.7%,對于一般的應(yīng)用來說不必再進行分離或特殊記憶。如果需要的話,可以既保留合并的音節(jié)組,又把其中一個音節(jié)安排在另一個空碼位上,如把gei編入g′ei,hei編入h′ei,lü編入len、luan編入b′uan,nuan編入m′uan等等,與所在空碼位上的聲母或者韻母相對應(yīng),盡可能的方便記憶。
當然,雙拼碼元的確定并不是唯一的,還可以有其它的方法;對拼碼元的數(shù)量也可以稍加增減;增可簡化分類便于記憶,減可縮小碼元空間提高碼元利用率??偟脑瓌t是,既要實現(xiàn)雙拼,又要便于歸類和記憶,還要便于在通用小鍵盤上應(yīng)用。例如,對于南方人就可以根據(jù)發(fā)音差別,把不易區(qū)分的母音合并,使雙拼碼元進一步減少。
雙拼碼元確定之后,雙拼的目的也就達到了。雙拼是漢語語音音節(jié)的雙拼,也就是漢語語音音節(jié)的一種兩元分解和兩元拼合形式,特點是只有一個層次的分合,應(yīng)用起來十分方便。雙拼編碼空間有1600個,有效音節(jié)占用至少是1271個,利用率為79.4%,是語音編碼中最高的。多余的空間可供擴充,使常用的數(shù)字、字母、標點等符號也編入雙拼編碼范圍。
在漢語信息處理技術(shù)領(lǐng)域,雙拼編碼可以用作計算機的內(nèi)部代碼統(tǒng)一使用。語音和拼音類文字的鍵盤輸入可以直接采用雙拼編碼;語音識別可按雙拼原則分解語音,反之按雙拼原則合成語音;拼音文字的識別和打印輸出可按雙拼原則分級處理;漢字的信息處理則可看作語音信息的更深層次。更重要的在于,雙拼編碼可以用作這些技術(shù)的通用編碼,以便相互適應(yīng)和相互轉(zhuǎn)換,為漢語計算機的協(xié)調(diào)發(fā)展和各項技術(shù)的綜合應(yīng)用創(chuàng)造統(tǒng)一的編碼條件。
此外,雙拼編碼還可用于其它領(lǐng)域,如漢語速記、漢語盲文、漢語手指語等等。漢語雙拼還是漢字改革的一個方向,至少可以在計算機上首先應(yīng)用,使計算機的漢語人機對話更為方便。
漢語雙拼編碼的主要優(yōu)點,還是體現(xiàn)在漢語信息的鍵盤輸入上,包括漢語語音、漢語拼音及其它書寫形式的漢語拼音類文字和漢字的鍵盤錄入。在此,我們把它們包含的語言信息中,語音音節(jié)的公有特征作為唯一的探討對象,而把各自獨有的特征放在下一步分別對待。這些語音音節(jié)的統(tǒng)計資料,全部來自書面漢語,由漢字的統(tǒng)計資料轉(zhuǎn)換過來。我們把GB2312-80的漢字語音作為編碼對象,把《現(xiàn)代漢語常用詞詞頻詞典(音序部分)》(宇航出版社,1990年6月第一版)作為主要的統(tǒng)計依據(jù)。
我們現(xiàn)在確定的雙拼碼元總計80個,恰好可以安排在通用小鍵盤的主鍵位即4行10列的鍵位上。每個鍵位既要代表一個雙拼聲母碼元,又要代表一個雙拼韻母碼元,按每個音節(jié)輸入時的先后順序區(qū)分。4行10列的鍵位設(shè)置,是人手十指操作鍵盤的界限,超過這個數(shù)量,就進入了大鍵盤的操作方式,不利于快速鍵入和盲打。現(xiàn)有編碼技術(shù)的鍵盤設(shè)計,雖有26或36鍵等各種布局,本質(zhì)上還是4行10列的模式。最上一行數(shù)字鍵雖未直接采用,但在屏幕提示選擇時還是經(jīng)常用到的。為了便于盲打,盡量少用數(shù)字鍵,這是設(shè)計時應(yīng)該注意的。
雙拼碼元需要安排在鍵位上。由于人手十指擊鍵速度不同,一般由快至慢的順序是食指、中指、無名指、小指和拇指,而一般人右手又快于左手;漢語信息處理時每個碼元的使用概率也有差別,這就要求把高頻碼元安排在擊鍵速度快的鍵位上。圖1至圖4給出了各個音節(jié)不分聲調(diào)時的使用概率。相同聲母碼元的音節(jié)使用概率之和就是該聲母碼元的使用概率;同樣,相同韻母碼元的音節(jié)使用概率之和就是該韻母碼元的使用概率。這是設(shè)計鍵位的主要依據(jù)。
雙拼韻母碼元的規(guī)律性很強,應(yīng)該首先安排鍵位。雙拼韻母碼元共有10組不帶調(diào)碼元,它們又各有陰平、陽平、上聲和去聲4個主要聲調(diào),正好與鍵位的4行10列相對應(yīng)。因此,韻母碼元應(yīng)該同列同韻母、同行同聲調(diào),這樣便于記憶。我們按每組不帶調(diào)韻母碼元的概率分布和它們之間的相似關(guān)系確定橫向布局;按每個聲調(diào)的概率分布及相互關(guān)系確定豎向排列方式。圖5中鍵盤圖的上側(cè)和左側(cè)用虛線框給出了這種排列。
雙拼聲母碼元的鍵位安排要難一些。可以單純按它們的使用概率和分組關(guān)系及它們在漢語拼音字母表或聲母表的順序排列,這樣便于記憶。然而,為了便于國際通用并享用現(xiàn)有的英文軟件成果,還是兼顧通用小鍵盤的鍵位布局更為必要。
通用小鍵盤的26個字母鍵中,與聲母碼元同字母且使用概率次序相近的,大部分可以保留,其余的就可另行設(shè)置了。圖5是我們優(yōu)選的一個方案,每個鍵位圖的中心是原有符號,其左上方為雙拼聲母碼元,其左下角給出相應(yīng)聲母碼元的使用概率。10個數(shù)字鍵被占用后,輸入數(shù)字可在擴展型通用小鍵盤的右側(cè)專用數(shù)字鍵上進行。中文數(shù)字因使用頻率較高,可安排在S鍵入后的最上一排數(shù)字鍵上,除數(shù)字0對應(yīng)“十”外,其余按數(shù)字的意義對應(yīng)。
由于前40個高頻音節(jié)的使用概率之和高達24.5%,所以定義一級簡碼是必要的。這些高頻音節(jié)需與一個高頻單音節(jié)詞相對應(yīng),一級簡碼就是一級簡碼詞。為了便于相互對應(yīng)和簡化記憶,選取含有聲母碼元的高頻一字詞為一級簡碼。圖5中每個鍵位圖的右下角即是。一級簡碼只需鍵入該鍵再加一個空格即可。
由于雙拼聲母碼元是與雙拼韻母碼元相配合鍵入的,除一級簡碼外,要考慮這種搭配是否使左右手相繼操作的次數(shù)更多一些。把雙拼韻母碼元按左右手分開,減掉一級簡碼的使用概率,分別算出與之相拼聲母碼元的使用概率,經(jīng)比較發(fā)現(xiàn),有的聲母碼元適合左手鍵位,有的則適合右手鍵位。為了沿用通用小鍵盤的鍵位布局,采用了圖5所示的韻母碼元的橫向順序而不是相反。
雙拼編碼鍵盤在本發(fā)明中的地位是舉足輕重的,這里只能給出圖5這一參考方案,其最終的布局需要許多人多年的實際應(yīng)用和大量的數(shù)據(jù)統(tǒng)計才能確定。如必須考慮漢語口語的有關(guān)統(tǒng)計資料,才能適合廣泛的需要。因為漢語口語的語音鍵盤輸入對輸入速度的要求最高,而有關(guān)的統(tǒng)計資料卻很少。
利用雙拼漢語鍵盤,可以輸入漢語的多種語言信息,概括地說,就是語音、拼音和漢字的鍵盤輸入。
漢語語音的鍵盤輸入,是與語音識別相聯(lián)系及相補充的一種輸入方式。語音是由音節(jié)串構(gòu)成的,只要逐個地輸入音節(jié),就可以把語音記錄下來。雙拼編碼是音節(jié)的編碼,只要使編碼和音節(jié)一一對應(yīng),消除個別的重疊碼,避免編碼的二義性,就可以用雙拼鍵盤直接輸入。由于音節(jié)的雙拼碼是等長二碼,音節(jié)之間可以消除間隔符,由計算機自動劃分音節(jié),所以能達到很高的輸入速度。一般專職打字員的擊鍵速度為400鍵/分,則語音的輸入速度可達200音節(jié)/分,和漢語口語的表達速度相接近,這就可以用在漢語口語的實時記錄上,實現(xiàn)漢語口語速記的電腦化。輸入后的音節(jié)可以用漢語拼音的單個音節(jié)串顯示、存儲和打印,也可以用語音輸出。如果配有語音自動分詞系統(tǒng),可以轉(zhuǎn)化為漢語拼音詞語;還可以用人工分詞,直至轉(zhuǎn)化為漢字文件。
漢語拼音及其它書寫形式的漢語拼音類文字,可以用雙拼編碼及雙拼鍵盤直接輸入。所說的其它書寫形式,是指漢語速記、漢語盲文、漢語的國際音標書寫形式等拼音類文字。它們大多數(shù)都分詞斷空,碼長不等,需要用空格區(qū)分。如果把雙音詞的4個編碼定為常規(guī)碼,不足4碼的一律補一個空格,多余4碼的一律只取4碼,也可以減少擊鍵次數(shù)。這類輸入可以統(tǒng)稱為拼音輸入,主要用于不同文字形式的相互翻譯,漢語語音教學,漢語程序設(shè)計等領(lǐng)域。如果把雙拼漢語編碼發(fā)展為雙拼文字,那么這種拼音輸入就要成為主要的漢語輸入形式了。拼音輸入是語音輸入的更深層次,增加了音節(jié)的組詞屬性,包含了更豐富的語言信息。
雙拼編碼的最廣泛應(yīng)用,則是漢字的編碼及其鍵盤錄入。漢字是漢語的書面表達形式,既有久遠的歷史,又有眾多的使用者,是世界上使用人數(shù)最多的文字。漢字鍵盤輸入的速度對全世界都有影響,很小的一點兒進步都會節(jié)約大量的人力和物料消耗。因此,雙拼漢字輸入法也是本發(fā)明的重點。
國標GB2312-80中的6763個漢字,共有音節(jié)1302個,其中輕聲音節(jié)為36個,帶調(diào)音節(jié)1266個。把輕聲與陰平合并后還有1250個音節(jié),平均每個音節(jié)5.3個字,按音節(jié)分布的字數(shù)很不平衡,但區(qū)分聲調(diào)之后總比不區(qū)分聲調(diào)的“聲韻雙拼”好一些,重音碼的數(shù)量明顯減少??梢园褲h字按雙拼編碼分組后,再加一個序號區(qū)別同音字。這些字可按高頻先見的原則排列,在屏幕上按序號提示,用數(shù)字鍵選擇,不選擇時則自動輸入最高頻字。這是最基本的按字編碼輸入方式。
雙拼編碼允許設(shè)定40個一級簡碼字,如果按漢字的字頻順序選取,前40個漢字的累計使用頻率為24.5%;若再和雙拼聲母碼元相對應(yīng)按音選擇,40個一級簡碼字的累計使用頻率可達21%。一級簡碼只擊一次主鍵位,再加一個空格即可,碼長為2。也可按雙拼韻母碼元選取一級簡碼。
雙拼編碼允許設(shè)定至少1250個單音節(jié)的二級簡碼,若取每個音節(jié)的最高頻字為簡碼,則累計字頻可達60%,只需按該字雙拼音節(jié)編碼輸入2鍵,再加一空格即可輸入該字,碼長為3;若設(shè)定碼長為2,也可自動區(qū)分。
由于每個雙拼音節(jié)超過10個字的不多,即使超過10個字,其字頻也很低,所以,一般的應(yīng)用條件下,只需再加一個序號就可輸入絕大部分漢字。個別超過10個字的音節(jié),可增設(shè)翻頁鍵繼續(xù)選擇,或者把每個字和40個鍵位一一對應(yīng),擊鍵一次即可選定,碼長為3;若設(shè)定碼長為2,則要增加進入選擇狀態(tài)的標志鍵,碼長變?yōu)?。
這種編碼法的最低平均動態(tài)碼長為一級簡碼0.42,二級簡碼1.2,其余漢字0.76,總計2.38,是一般編碼法難以達到的。
雙拼編碼還可設(shè)計成聯(lián)想漢字輸入方式,把漢字做為語句中的一個構(gòu)成單元,按照語句的構(gòu)成規(guī)律來縮小接續(xù)字的選擇范圍。這和人們的思維方式相接近,使計算機具有詞語輸入的預(yù)先判定能力。這種雙拼聯(lián)想漢字輸入法的設(shè)計原則是,按照詞頻高低的順序把一、二級簡碼設(shè)定為高頻1字詞,并盡量使同音高頻字區(qū)分為不同的簡碼,再把其余的字按照組合使用的頻率安排在簡碼輸入后出現(xiàn)的選擇項目之內(nèi)。
更為理想的聯(lián)想輸入方式是,把雙拼鍵盤的輸入和聯(lián)想提示結(jié)合起來,每完成一個漢字的輸入,其后續(xù)字的字頻就要受到前一漢字的限定,由全部漢字的空間變?yōu)椴糠譂h字的空間,字頻的排序就要發(fā)生變化,選擇范圍縮小。此時再輸入一個音節(jié),出現(xiàn)的選擇項目就大為減少。如果能按前面輸入的所有語句信息引出聯(lián)想,則選擇的范圍在輸入一個音節(jié)之后甚至可以縮小為1個,使?jié)h字的輸入和雙拼音節(jié)的輸入相等同。這是一種智能化的雙拼輸入法,雖占用大量的計算機內(nèi)存空間,卻很有意義。
還可以采用其它的編碼方法,實現(xiàn)漢字音節(jié)編碼基礎(chǔ)上的進一步區(qū)分,如按同音字的字形信息相互區(qū)分。原則上,任何一個在拼音基礎(chǔ)上形成的編碼法,都可以用于雙拼方式,并且總會收到更好的編碼效果。
現(xiàn)有技術(shù)方案中,采用詞匯編碼已經(jīng)成為一種發(fā)展趨勢,雙拼編碼也不例外。區(qū)分聲調(diào)之后,同音詞的數(shù)量明顯減少,特別是2字及2字以上的詞,其同音的數(shù)量及其使用頻率,小到可以忽略的程度。
現(xiàn)代漢語中,1字詞的詞頻為57.53%,字數(shù)占總字數(shù)的39.07%;2字詞的詞頻為39.25%,字數(shù)占總字數(shù)的53.33%;多字詞的詞頻為3.22%,字數(shù)占總字數(shù)的7.6%。而前1848個高頻詞的詞頻累計達75%,其中1字詞863個,2字詞16個,4字詞7個。可見,同音較多的1字詞,使用頻率也高,比較難于處理,是詞匯編碼的難點。
詞匯編碼的另一個難點是,詞的音節(jié)數(shù)不等,碼長也不等,難以共容。
我們可以沿用前述的漢字編碼法給1字詞編碼,但不能限定碼長,即一級簡碼為2碼,二級簡碼為3碼,其余的為4碼,均加空格作為結(jié)尾標志。2字詞的編碼只輸入2個字的各個雙拼音節(jié)編碼即可,不加空格鍵自動結(jié)束。多字詞可直接輸入前4個字的雙拼聲母碼元,不足的再補第3個字的韻母碼元。當出現(xiàn)重碼時,再加一個序號結(jié)束。
1字詞的編碼也可以通過2字詞的編碼來實現(xiàn)。如《雙音編碼輸入體系》就是一種。缺點是1字詞通常需要4碼或5碼,但可以實現(xiàn)盲打。此外,雙拼編碼還可以實現(xiàn)另一種快速輸入的方案,是前所未有的把一級和二級簡碼均設(shè)計成高頻詞的簡碼,其中一級簡碼主要是高頻1字詞;二級簡碼主要是高頻2字詞,并盡可能多地包含高頻1字詞,還要把高頻同音字分配在不同的簡碼之中。所有簡碼都按高頻詞的詞首字雙拼音節(jié)而選定。只要輸入2鍵,就顯示一個高頻雙字詞及其所包含的2個高頻字,還可同時顯示首字音節(jié)相同的另外一些2字詞,并按高頻先見的原則排序和選擇。可以選擇所提示詞的全詞、首字、尾字或逆序2字詞。這種選擇可以在鍵盤上一次完成,即,把所選擇的詞按主鍵位的列對應(yīng),而把主鍵位的行對應(yīng)不同的選擇方式,如第3行對應(yīng)全詞,其余行分別對應(yīng)首字、尾字和逆序的選擇方式。由于高頻1字詞的組詞能力很強,為了減少選擇次數(shù),可把一級簡碼也對應(yīng)首音節(jié)相同詞的選擇。如果要求盲打,可以放棄選擇,而把簡碼之外的詞,用2字詞的雙音節(jié)方式引出,再進進行選字。這就需要把二級簡碼補加空格鍵結(jié)束;或者區(qū)分單音和雙音兩種不同的狀態(tài);也可設(shè)定等長2碼,而雙音輸入時,中間加一空格鍵以便區(qū)別,這可從整體上減小平均動態(tài)碼長。和雙音體系相比,增加了簡碼的雙音工作狀態(tài),兩者可以共容。這種單音體現(xiàn)雙音的工作方式,也可以用到其它的編碼方法之中。
對于雙音及多音詞編碼,可以只取雙拼音節(jié)的部分碼元進行編碼,例如只取雙拼聲母碼元的多音詞的編碼。有時,雙音詞也可只取首音的雙拼聲母碼元和尾音的雙拼聲母碼元,必要時再補加尾音的雙拼韻母碼元。
總之,雙拼編碼是一種全新的語音輸入方法,使原來需要3個碼元(聲、韻、調(diào))確定的語音簡化為只需2個碼元即可確定,可以節(jié)省一組碼元;或者使語音的區(qū)分更加精確;使拼音編碼法上升到一個新的臺階,確立了拼音編碼法的新地位。與現(xiàn)有技術(shù)相比,雙拼編碼法的優(yōu)點可概括如下1、兩鍵輸入一個語音音節(jié),減少了擊鍵次數(shù);或者,在同是兩鍵輸入的情況下,減少了同音選擇的數(shù)量。
2、一級簡碼40個,二級簡碼1250個,占全部國標漢字使用頻率的80%,可以縮短漢字編碼的平均動態(tài)碼長,提高輸入速度。
3、如果按詞編碼,一般只需4鍵即可輸入一個雙音詞或者一個詞中的2個字,需要進一步選擇的很少。
4、如果二級簡碼按雙音詞編碼,則可以容納絕大部分常用詞和常用字,累計詞頻達75%,可以縮短漢字詞的平均動態(tài)碼長,提高輸入速度。
5、編碼規(guī)則簡單,不需要拆字組碼,便于學習和記憶。
6、具有良好的編碼兼容性,可通用于漢語信息處理技術(shù)領(lǐng)域的各個方面。
7、既適合專業(yè)應(yīng)用,節(jié)約人力和物料的大量消耗;又可全面普及,使一般人員也可獲得較快的輸入速度。
8、可以用于漢語語音的鍵盤輸入,專業(yè)化的輸入速度可與漢語口語的表達速度相接近,可使?jié)h語速記電腦化。
9、為漢語的語音識別和語音合成,找到了一條與鍵盤輸入相兼容的途徑,有利于這些技術(shù)的協(xié)調(diào)發(fā)展和綜合應(yīng)用。
10、適應(yīng)漢字改革的時代要求,為漢字拼音化找到了一個與信息時代相適應(yīng)的出路。
11、經(jīng)過不斷的改進和完善,可以做為國家標準強制推行,達到了漢語編碼的最高境界。
本發(fā)明的最佳實施例如下1、采用圖5所示的雙拼漢語編碼鍵盤、雙拼聲母碼元和雙拼韻母碼元。
2、把雙拼聲母碼元和雙拼韻母碼元用作計算機的內(nèi)部代碼,安排在GB2312-80的第10區(qū),通用于漢語信息處理技術(shù)的各個方面;必要時,可把全部的漢語語音音節(jié)安排在這些空位上,以便節(jié)省內(nèi)存空間。
3、漢語語音音節(jié)的編碼為等長2碼,由一個雙拼聲母碼元和一個雙拼韻母碼元拼合而成,可直接用于漢語語音的鍵盤輸入。
4、漢語拼音采用雙拼漢語編碼,按其書寫格式用空格鍵分詞輸入。
5、建立雙拼漢字編碼輸入系統(tǒng),外設(shè)區(qū)位碼、電報碼等常規(guī)漢字輸入系統(tǒng)。
6、漢字按詞編碼,區(qū)分為普通和快速兩種輸入狀態(tài),并與語音和拼音的輸入相兼容。
7、普通的雙拼漢字編碼法包括在快速漢字編碼法之中,是后者的特殊應(yīng)用形式。兩者結(jié)合構(gòu)成雙拼漢字編碼輸入法。
8、一級簡碼為高頻1字詞,如圖5所示,只需鍵入相應(yīng)鍵位和一個空格即可輸入。
9、二級簡碼為高頻2字詞,取首字的雙拼音節(jié)編碼與二級簡碼音節(jié)對應(yīng),尾字則盡可能多的包含高頻1字詞,并使同音高頻1字詞分配在不同的二級簡碼之內(nèi)。當進入普通輸入狀態(tài)時,則只輸入首字。
10、等長2碼,自動區(qū)分和識別。
11、簡碼之外的字和詞,安排在簡碼對應(yīng)的窗口內(nèi),如果輸入一個簡碼之后,再輸入一個主鍵位,則自動輸入這個簡碼;否則,若輸入一個空格,即進入選擇狀態(tài)。
12、選擇狀態(tài)下,若處于普通輸入狀態(tài),則屏幕上提示與簡碼同音的單個漢字,按高頻先見的選擇排序,用對應(yīng)的主鍵位輸入;若處于快速輸入狀態(tài),則可再輸入一個雙拼音節(jié),屏幕提示由這兩個音節(jié)確定的雙字詞,只有一個時則自動輸入;否則,用音響告警,并按高頻先見的原則排序,用專用數(shù)字鍵選擇輸入。
13、多字詞拆成1字詞和2字詞分別輸入。也可另設(shè)多字詞狀態(tài)取每個字的雙拼聲母碼元輸入,不足4碼的取尾字的雙拼韻母碼元補足4碼。
14、語音音節(jié),拼音和漢字可以相互轉(zhuǎn)換,漢字可直接變?yōu)槠匆艉驼Z音音節(jié),拼音可直接變成語音音節(jié)。語音音節(jié)變?yōu)槠匆魰r,可以直接消除空格而實現(xiàn)。拼音變?yōu)闈h字時,一一對應(yīng)的可由計算機自行轉(zhuǎn)化,其余的由計算機按詞分別顯示,并提示同音詞,用鍵盤選擇輸入。一個文件中的同一詞匯,可以由計算機一次性提示和一次性的選擇和轉(zhuǎn)化。這一方法也可用于輸入漢字。
15、可以編制專用程序,實現(xiàn)語音音節(jié)、拼音和漢字的自動轉(zhuǎn)化。
說明書
圖1~圖3雙拼漢語語音無調(diào)音節(jié)表圖4圖1和圖3的整體圖。
圖5雙拼漢語編碼鍵盤圖。
權(quán)利要求
1.一種用于漢語信息處理技術(shù)領(lǐng)域的雙拼漢語編碼法,其特征是根據(jù)漢語語音的拼合規(guī)律和鍵盤輸入的要求,把漢語語音帶調(diào)音節(jié)分解為雙拼母音,再合并為一組雙拼聲母碼元和一組雙拼韻母碼元,實現(xiàn)漢語語音帶調(diào)音節(jié)及其各種文字形式的雙拼編碼。
2.一種雙拼漢語編碼的計算機內(nèi)部代碼系統(tǒng),其特征是一個雙拼聲母碼元和一個雙拼韻母碼元,即可拼出漢語語音的帶調(diào)音節(jié),直接用于漢語語音的鍵盤錄入、語音識別、語音合成和漢語拼音類文字的鍵盤錄入、字形識別和字形打印,以及漢語程序設(shè)計等漢語信息處理技術(shù)領(lǐng)域。
3.一種雙拼漢語鍵盤的雙拼碼元排列方式,其特征是由4行10列共40個主要鍵位組成,每個鍵位既代表一個雙拼聲母碼元,又代表一個雙拼韻母碼元,按輸入順序相區(qū)分,兩次擊鍵即可輸入一個帶調(diào)音節(jié)。
4.按照權(quán)利要求1所述的漢語編碼法,其特征是根據(jù)能否與中介韻母i、u或ü為首的韻母相拼,把聲母區(qū)分為不同的雙拼聲母;把基本上不能與雙拼聲母同時相拼的韻母合并為雙拼韻母組。再根據(jù)通用小鍵盤主鍵位的數(shù)量限制確定出雙拼聲母碼元和雙拼韻母碼元。
5.按照權(quán)利要求1和3所述的雙拼漢語鍵盤雙拼碼元排列方式,其特征是根據(jù)雙拼漢語編列碼元的相容關(guān)系,參考各個碼元在漢語信息處理時的使用概率和鍵盤的指法,排列在通用小鍵盤的相應(yīng)主要鍵位上,力求快速擊鍵,便于學習、操作和記憶。
6.按照權(quán)利要求5所述的漢語編碼法,其特征是把能與i或u為首韻母相拼的聲母分離出來,加一個“′”號區(qū)別;再把能與ü為首韻母相拼的聲母并入前述聲母中,jü與z′合并,記為z′j;qü與c′合并,記為c′q;xü與s′合并,記為s′x;能與ü和üe相拼的聲母y與f合并,記為fy;能與üan和üen相拼的聲母y與ch′合并,記為ch′y;p′與r′合并,記為p′r′;f′只有一個fu,并入f中;從而組成40個雙拼聲母碼元。一般不能與雙拼聲母碼元同時相拼的韻母合為一組,即ang、iang、uan;an、üan、ian、ua;ai、ia、u;a、iu、ui、ong、o、iong、uo;e、ei、i;en、in、un;eng、er、ün、ing、ueng和ou、üe、ie、uang共10組。每組再按陰平、陽平、上聲、去聲各分4個,輕聲并入陰平。這就組成40個雙拼韻母碼元。
7.按照權(quán)利要求5和6所述的雙拼漢語鍵盤雙拼碼元排列方式,其特征是雙拼韻母碼元同列同韻母,同行同聲調(diào);雙拼聲母碼元則與通用小鍵盤的字母數(shù)字鍵相兼容。
8.按照權(quán)利要求6和7所述的雙拼漢語編碼輸入法,其特征是漢語語音帶調(diào)音節(jié)等長2碼,可以用于漢語語音的鍵盤輸入。
9.按照權(quán)利要求6和7所述的雙拼漢語編碼輸入法,其特征是漢語拼音類文字按書寫格式直接分詞輸入。
10.按照權(quán)利要求6和7所述的雙拼漢語編碼輸入法,其特征是把漢字的讀音分解為雙拼聲母和雙拼韻母,再輔以區(qū)分相同讀音的方法,對漢字、詞或句子及其組合進行編碼,從而形成雙拼漢字編碼輸入法。
11.按照權(quán)利要求10所述的雙拼漢字編碼輸入法,其特征是取包含雙拼碼元的最高頻字為一級簡碼;取雙拼編碼音節(jié)的最高頻字為二級簡碼。
12.按照權(quán)利要求10所述的雙拼漢字編碼輸入法,其特征是取包含雙拼碼元的最高頻詞為一級簡碼;取包含雙拼編碼音節(jié)的最高頻詞為二級簡碼??梢允?字詞;也可以是包含1字詞的2字詞;或者是設(shè)置這兩種不同的狀態(tài)。
13.按照權(quán)利要求11或12所述的雙拼漢字編碼輸入法,其特征是簡碼之外的字或詞,按照高頻先見的原則在同音碼范圍內(nèi)按序號提示和選擇輸入。
14.按照權(quán)利要求11或12所述的雙拼漢字編碼輸入法,其特征是簡碼之外的字或詞,按照聯(lián)想提示的方式進行屏幕選擇和輸入。
15.按照權(quán)利要求11或12所述的雙拼漢字編碼輸入法,其特征是簡碼之外的字或詞,用雙音節(jié)或單字的聯(lián)想雙音節(jié)進行屏幕提示、選擇和輸入。
16.按照權(quán)利要求11或12所述的雙拼漢字編碼輸入法,其特征是等長4碼,不足4碼的補充一個空格,超過4碼的只取4碼。
17.按照權(quán)利要求11或12所述的雙拼漢字編碼輸入法,其特征是等長2碼,不足2碼的補充一個空格,超過2碼的,第3碼增加一個空格進入屏幕提示或進一步編碼的選擇狀態(tài)。
18.按照權(quán)利要求1-17中的任何一項,對漢語信息進行編碼和輸入的方法,可以用于一切大、中、小、微型計算機漢語信息處理系統(tǒng),電傳機,打字機,漢語終端機及漢語通訊系統(tǒng)中。
全文摘要
一種用于漢語信息處理技術(shù)領(lǐng)域的雙拼漢語編碼法,主要解決漢語信息的統(tǒng)一編碼和鍵盤輸入問題。本發(fā)明的主要技術(shù)特征是根據(jù)漢語語音的拼合規(guī)律和鍵盤輸入的要求,把漢語語音帶調(diào)音節(jié)分解為雙拼母音,再合并為一組雙拼聲母碼元和一組雙拼韻母碼元,實現(xiàn)漢語語音帶調(diào)音節(jié)及其各種文字形式的雙拼編碼??捎糜谝磺写?、中、小、微型計算機漢語信息處理系統(tǒng),電傳機,打字機,漢語終端機及漢語通訊系統(tǒng)中。
文檔編號G06F3/023GK1081523SQ92105929
公開日1994年2月2日 申請日期1992年7月20日 優(yōu)先權(quán)日1992年7月20日
發(fā)明者梁晨 申請人:梁晨