專利名稱:中文音形根數(shù)字編碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于中文信息處理的漢字和詞組的數(shù)字編碼方案。
目前現(xiàn)有拼音碼類漢字編碼方案中,只有以英文字母為代碼的編碼方案,而沒(méi)有以數(shù)字為代碼的編碼方案。多數(shù)英文字母拼音碼方案需要掌握漢字的普通話讀音,這給漢語(yǔ)識(shí)字能力及普通話水平較低的人掌握其編碼造成了困難。智能全拼輸入法提出了模糊拼音方式,但只解決了部分漢字的聲母的編碼困難。自然碼提出了形義碼輸入方法,但需掌握其形義部分的鍵位圖,并需進(jìn)行漢字的拆分,而且該輸入法是一種與其音形碼輸入法并存的為彌補(bǔ)音形碼不足而制定的編碼規(guī)則。
本發(fā)明說(shuō)明書涉及的常用名詞說(shuō)明如下漢語(yǔ)拼音音節(jié)包含有聲母、韻頭(又稱介音、介母),韻腹和韻尾四個(gè)音素中的至少一個(gè)。如音節(jié)“jiang”中j是聲母,i是韻頭,a是韻腹,ng是韻尾。iou、uei、uen前面加聲母時(shí)寫成iu、ui、un;本編碼方案將in、ing、ün也看成是ien、ieng、üen的簡(jiǎn)寫。聲母和韻頭合稱結(jié)合聲母。韻頭、韻腹和韻尾合稱韻母。韻頭和韻腹不是i、u、ü的韻母稱為開口呼韻母,韻頭或韻腹為i的為齊齒呼韻母,為u的為合口呼韻母,為ü的為撮口呼韻母。
本發(fā)明將聲母按發(fā)音部位和發(fā)音方法的相似性進(jìn)行歸并,分為十類,分別給出了數(shù)字代碼,稱為聲碼。詳見元代碼表。表中零指零聲母,即以y、w、a、o、e開頭音節(jié)的聲母。本編碼方法中,許多在不少方言中讀音相同而在普通話讀音中聲母不同的漢字,其聲母給出了相同的代碼,故無(wú)需掌握其普通話讀音,也能給出正確編碼。如不少方言中“波”和“潑”讀音相同,而b、p代碼均為1,故同樣能給出正確編碼。不少方言讀音中結(jié)合聲母為gi、gü的絕大多數(shù)漢字,其漢語(yǔ)拼音聲母為j,而普通話中并沒(méi)有結(jié)合聲母為gi、gü的音節(jié),所以凡是讀音結(jié)合聲母為gi、gü的漢字代碼一般為6,而不是4。與此類似的結(jié)合聲母均用括號(hào)表示列入元代碼表中。
將韻母去掉韻頭后相同的歸類為一類,全部韻母歸并為十類,分別給出了數(shù)字代碼,稱為韻碼。如an、ian、uan、üan歸為一類,代碼為2。由于部分方言中,開口呼和齊齒呼韻母讀法相同,合口呼和撮口呼韻母讀法相同,本編碼方法避免了區(qū)分韻頭的困難。韻母代碼詳見元代碼表。
一個(gè)字的聲碼和韻碼合起來(lái)就是它的音碼。把形聲字聲旁的音碼稱為該字的聲音碼。如果聲旁不是成字,則以其通常表示的讀音的音碼為該字的聲音碼,形聲字的音碼和聲音碼多數(shù)是相同的,例如“浮”、“福”音碼、聲音碼均為50。但也有不同的,如“江”音碼為63,聲音碼為47。這是漢語(yǔ)語(yǔ)音演變的結(jié)果。
將形聲字形旁讀音的聲母代碼稱為該形聲字的形碼。形旁不是成字的,除有特殊規(guī)定者,其形碼均為6。
將合體非形聲字的第一個(gè)最大字根(漢字“一”除外)讀音的聲碼稱為該字的字根碼。如“拿”,字根碼為“合”的聲碼5,而不是“人”的聲碼3。
形旁或字根是漢字的繁體或變形的,其代碼仍是相應(yīng)漢字的讀音的聲碼。如“灬”是“火”的變形,代碼為5。
形旁和字根的代碼有一些特殊規(guī)定見元代碼表。其中包括一些常用非成字形旁和字根。
獨(dú)體字的聲碼即是其字根碼。
形聲字聲旁的第一個(gè)最大字根為該字的字根碼。如“福”字根碼為“口”的聲碼4,“浮”字根碼為“爪”的聲碼7。
聲旁為形聲字的,其字根碼就是聲旁的形碼。如“葫”字根碼為“月”旁的代碼5。
對(duì)于特定的一些常用字,以其音碼為代碼,稱為簡(jiǎn)碼字的音碼。簡(jiǎn)碼字特點(diǎn)是一字一碼,一碼一字。
對(duì)于除簡(jiǎn)碼字以外的非形聲字,以其音碼加上字根碼為其代碼,稱為音根碼。
對(duì)于形聲字,以其音碼加形碼再加字根碼為其代碼。不知道本字讀音的,可以用聲音碼代替音碼。這稱為音形根碼。
對(duì)于詞組,選取其中漢字的聲碼和韻碼中的四個(gè)為代碼,稱為聲韻碼。如二字詞代碼為“聲韻聲韻”,三字詞代碼為“聲聲聲韻”,多字詞代碼為一、二、三、末字的聲碼。
本編碼方案是一種漢字認(rèn)讀能力較差的人也較容易掌握的中文信息處理用數(shù)字編碼方案。
元代碼表
權(quán)利要求
一種中文信息處理用中文音形根數(shù)字編碼,以漢字的聲母、韻母、拼音和漢字形旁和字根讀音的聲母以及漢字聲旁讀音為信息源,形成聲碼、韻碼、音碼、形碼、字根碼和聲音碼等幾種元代碼,按一定規(guī)則組成漢字和詞組的代碼,其特征是,該編碼方案以數(shù)字為代碼,它將漢語(yǔ)拼音聲母按發(fā)音方法和發(fā)音部位歸類編成聲碼,將韻母去掉韻頭后歸類編成韻碼,以漢字形旁和第一個(gè)最大字根讀音的聲碼為形碼和字根碼,以形聲字聲旁的音碼為形聲字的聲音碼(是一種特殊的音碼),按音碼、音根碼、音形根碼和聲韻碼等四種編碼方法分別為簡(jiǎn)碼字、非形聲字、形聲字和詞組編碼。
全文摘要
一種中文信息處理用中文音形根數(shù)字編碼,以漢字的聲母、韻母、拼音和漢字形旁和字根讀音的聲母以及漢字聲旁讀音為信息源,形成聲碼、韻碼、音碼、形碼、字根碼和聲音碼等幾種元代碼,按一定規(guī)則組成漢字和詞組的代碼,其特征是,該編碼方案以數(shù)字為代碼,它將漢語(yǔ)拼音聲母按發(fā)音方法和發(fā)音部位歸類編成聲碼,將韻母去掉韻頭后歸類編成韻碼,以漢字形旁和第一個(gè)最大字根讀音的聲碼為形碼和字根碼,以形聲字聲旁的音碼為形聲字的聲音碼(是一種特殊的音碼),按音碼、音根碼、音形根碼和聲韻碼等四種編碼方法分別為簡(jiǎn)碼字、非形聲字、形聲字和詞組編碼。
文檔編號(hào)G06F3/023GK1287303SQ0012987
公開日2001年3月14日 申請(qǐng)日期2000年10月24日 優(yōu)先權(quán)日2000年10月24日
發(fā)明者寧顯臣 申請(qǐng)人:寧顯臣