專利名稱:漢字編碼新技術(shù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于中文信息處理技術(shù)領(lǐng)域,涉及漢字編碼輸入中聯(lián)想字、重碼字及重碼短語(yǔ)的處理方法,中文短語(yǔ)及簡(jiǎn)碼的分區(qū)取碼方法。
目前重碼字及聯(lián)想字的選取方法,如CN85100837,CN85100277等,是按漢字的統(tǒng)計(jì)頻度,在屏幕上顯示出來(lái),然后用一數(shù)字鍵來(lái)選取。用這種方法,用戶必須通過(guò)觀察屏幕來(lái)確定,有時(shí)甚至需要多次屏幕顯示才能找到所需的字。
現(xiàn)行的所有漢字編碼方法中,對(duì)取碼相同的幾個(gè)漢字或短語(yǔ),無(wú)論它們?cè)谑褂妙l度上有多大的差別,每次都讓它們?nèi)砍霈F(xiàn)在重碼字或重碼短語(yǔ)的被選行列中,從而使得要么出現(xiàn)大量的重碼字及重碼短語(yǔ)選擇次數(shù),要么使系統(tǒng)能編碼的漢字較少或取碼長(zhǎng)度較長(zhǎng),目前僅對(duì)6763個(gè)漢字進(jìn)行編碼,其取碼長(zhǎng)度就是四個(gè)碼元了。
在中文短語(yǔ)(或漢字詞)的編碼方面,目前世界上無(wú)非有兩種方法來(lái)指定短語(yǔ)取碼區(qū)的方法,其一是將短語(yǔ)與漢字共用一個(gè)編碼區(qū),使?jié)h字取碼優(yōu)先,即一個(gè)字與一個(gè)短語(yǔ),若對(duì)應(yīng)的編碼相同,則把該碼分配給漢字,而把短語(yǔ)去掉;其二是在漢字取碼區(qū)外,還為短語(yǔ)定義一個(gè)取碼區(qū)。對(duì)于方法一,存在著大量用短語(yǔ)碼取不出短語(yǔ)的現(xiàn)象;方法二雖不存在上述現(xiàn)象,但由于中文短語(yǔ)數(shù)量之多,就連比較常用的也有數(shù)萬(wàn)條之多,遠(yuǎn)遠(yuǎn)超過(guò)一二級(jí)漢字的6763這個(gè)數(shù)。由漢字編碼的情況可知,要對(duì)這么多的中文短語(yǔ)進(jìn)行編碼,不可避免地要采用較長(zhǎng)的碼長(zhǎng),否則重碼便會(huì)大量出現(xiàn)。
此外在快速漢字輸入方法中,簡(jiǎn)碼的使用是很重要的,而目前的各種方案中,由于短語(yǔ)未分區(qū)取碼,所能定義的簡(jiǎn)碼短語(yǔ)少,在字詞混合編碼時(shí),甚至不能定義簡(jiǎn)碼詞。
本發(fā)明的目的就是要改進(jìn)上述聯(lián)想字和重碼字的選取方法,中文短語(yǔ)及簡(jiǎn)碼的取碼方法,并最終實(shí)現(xiàn)以詞為單位的中文輸入。
本發(fā)明中提出了漢字重碼字和聯(lián)想字的漢字屬性識(shí)別法,其中的漢字屬性是指漢字的音、形、義。其中的形包括字形、筆型、角型、筆劃及字根;音包括漢字及其漢字的構(gòu)字部件的讀音。其方法是這樣實(shí)現(xiàn)的將漢字的一種或幾種屬性進(jìn)行編碼,所得到的碼稱為漢字屬性碼,當(dāng)需要選擇漢字重碼字或聯(lián)想字時(shí),輸入一個(gè)所選字的屬性碼來(lái)確定所需的重碼字或聯(lián)想字。將所使用的屬性碼稱為被選字的識(shí)別碼。
在輸入一個(gè)漢字后,若要輸入它的聯(lián)想字,則輸入一個(gè)相應(yīng)識(shí)別碼,再?gòu)逆I盤輸入一個(gè)聯(lián)想字定義鍵來(lái)得到??梢杂每崭矜I或其它鍵來(lái)充當(dāng)聯(lián)想字定義鍵。
在重碼字選定狀態(tài)下,即可通過(guò)輸入一個(gè)識(shí)別碼又可根據(jù)屏幕顯示,通過(guò)輸入一個(gè)數(shù)字鍵來(lái)確定所需的重碼字。
在上述方法的基礎(chǔ)上,設(shè)計(jì)了下列三種優(yōu)選的漢字屬性碼取碼方法方法一,取字根屬性碼,也就是將漢字的某字根作為屬性碼,當(dāng)遇到要選擇重碼字或聯(lián)想字時(shí),從鍵盤輸入相應(yīng)的字根屬性碼作為識(shí)別碼。
方法二,取首音屬性碼,將漢字或構(gòu)字部件名之拼音的首字母取作首音字母,考慮到發(fā)音不準(zhǔn)的人常常把首音L和首音N搞混,碼,這樣一共可得到25個(gè)“前后筆型屬性碼”,將它們分別安排到二十五個(gè)字母鍵上,每一個(gè)字母鍵代表一個(gè)二維筆型碼,當(dāng)需要確定重碼字或聯(lián)想字時(shí),輸入一相應(yīng)的字母鍵來(lái)識(shí)別。
本發(fā)明中,中文短語(yǔ)和簡(jiǎn)碼短語(yǔ)分區(qū)取碼的方法,是指按中文短語(yǔ)的屬性進(jìn)行分區(qū)取碼的方法。其中的短語(yǔ)屬性包括組成短語(yǔ)的各漢字的屬性,短語(yǔ)的長(zhǎng)度(即短語(yǔ)中所含漢字的個(gè)數(shù)),短語(yǔ)中的標(biāo)點(diǎn)符號(hào),短語(yǔ)所屬的專業(yè)領(lǐng)域。這里所說(shuō)的短語(yǔ)包括單個(gè)的漢語(yǔ)詞。本方法是這樣實(shí)現(xiàn)的,根據(jù)中文短語(yǔ)的一種或幾種屬性,將短語(yǔ)分成幾個(gè)不同的類別,為每一類短語(yǔ)指定一個(gè)不同的編碼區(qū)間。在這種方法的基礎(chǔ)上設(shè)計(jì)了兩種優(yōu)選的短語(yǔ)的劃分方法,兩種中文短語(yǔ)三元編碼法和一種以詞為單位的中文輸入方法。
短語(yǔ)劃分方法一按短語(yǔ)的長(zhǎng)度,即短語(yǔ)中所含漢字的個(gè)數(shù)來(lái)劃分,分為長(zhǎng)度等于2,3,4和長(zhǎng)度等于或大于5的四類短語(yǔ),通過(guò)四個(gè)分區(qū)定義鍵分配到四個(gè)不同的編碼區(qū)。或者將短語(yǔ)分為長(zhǎng)度等于1,2,3,4,和長(zhǎng)度等于或大于5的短語(yǔ)(長(zhǎng)度為一的短語(yǔ)表示單字詞),通過(guò)五個(gè)分區(qū)定義鍵分配到五個(gè)不同的編碼區(qū)。
短語(yǔ)劃分方法二按筆劃劃分,根據(jù)短語(yǔ)中第一個(gè)漢字的首筆或末筆來(lái)劃分,可分為橫,豎,撇,點(diǎn),折五類短語(yǔ),用五個(gè)定義鍵來(lái)指定五個(gè)相應(yīng)的分區(qū)。
短語(yǔ)編碼方法一三元首音編碼法,其方法是按長(zhǎng)度劃分短語(yǔ),短語(yǔ)的碼長(zhǎng)定為三。對(duì)長(zhǎng)度為二的短語(yǔ),分別取第一二字的首音和第一字的第二碼元為短語(yǔ)的三個(gè)碼元,取第二字的第二碼元作為重碼短語(yǔ)識(shí)別碼;對(duì)長(zhǎng)度為三的短語(yǔ),依次取第一二三字的首音作為三個(gè)碼元,取第三字的第二碼元作為重碼短語(yǔ)識(shí)別碼;對(duì)長(zhǎng)度等于或大于四的短語(yǔ),取第一,二末字的首音作為三個(gè)碼元,取第三字的首音作為重碼短語(yǔ)的識(shí)別碼。
短語(yǔ)編碼方法二三元首字根編碼法,方法是按長(zhǎng)度劃分短語(yǔ),短語(yǔ)的長(zhǎng)度定為三。對(duì)長(zhǎng)度等于二的短語(yǔ),依次取第一字的第一二碼元和第二字的首字根作為三個(gè)碼元,取第二字的第二碼元作為重碼短語(yǔ)識(shí)別碼;對(duì)長(zhǎng)度為三的短語(yǔ),依次取第一,二,三字的首字根為三個(gè)碼元,取第三字的第二碼元為重碼短語(yǔ)識(shí)別碼;對(duì)長(zhǎng)度等于或大于四的短語(yǔ),取第一,二,末字的首字根作為三個(gè)碼元,取第三字的首字根為重碼短語(yǔ)識(shí)別碼。
中文以詞為單位的輸入方法,這是一種通用的方法,無(wú)論是對(duì)音碼,型碼,或是音型碼均是適用的。本方法是這樣實(shí)現(xiàn)的按長(zhǎng)度將短語(yǔ)劃分為長(zhǎng)度等于一、二、三、四和長(zhǎng)度等于或大于五的五類短語(yǔ),用五個(gè)定義鍵來(lái)定義這五類短語(yǔ),在輸入短語(yǔ)時(shí),無(wú)論是按簡(jiǎn)碼或是全碼,均以定義鍵作為短語(yǔ)碼結(jié)束鍵,當(dāng)輸入了一個(gè)全碼而未鍵定義鍵便接著輸入下個(gè)短語(yǔ)碼時(shí),系統(tǒng)將所輸入的碼默認(rèn)為單字詞的碼。
本發(fā)明中按頻度分級(jí)隔離重碼字和重碼短語(yǔ)的方法,是指按統(tǒng)計(jì)頻度(統(tǒng)計(jì)頻度可以是綜合統(tǒng)計(jì)頻度,也可以是某專業(yè)的統(tǒng)計(jì)頻度)把重碼字或重碼短語(yǔ)分為高頻級(jí)和低頻級(jí)兩個(gè)不同的級(jí)別,對(duì)于一個(gè)重碼,系統(tǒng)是否進(jìn)入重碼字或重碼短語(yǔ)選擇狀態(tài),由高頻級(jí)重碼字或重碼短語(yǔ)是否唯一來(lái)決定,若不唯一,則進(jìn)入重碼字或重碼短語(yǔ)選擇狀態(tài),此時(shí)無(wú)論是哪一級(jí)的重碼字或重碼短語(yǔ),均可由所輸入的識(shí)別碼或數(shù)字鍵來(lái)確定;若高頻重碼字或重碼短因此把首音N合并到首音L中,共得到22個(gè)首音字母A、B、C、D、E、F、G、H、J、K、L、M、O、P、Q、R、S、T、W、X、Y、Z,把這22個(gè)首音字母稱為基本首音字母,將基本首音字母中頻度最高的一部份,例如B、C、J、L、S、X、Y、Z每一個(gè)分離成兩個(gè)首音字母,以使?jié)h字分布更均勻。其分離方法是把分布在這些音區(qū)的漢字,按其拼音韻母中是否含某一拼音字母(例如N)來(lái)區(qū)分,對(duì)拼音韻母中含有該拼音字母的漢字,其首音定義為一個(gè)新的首音,對(duì)應(yīng)的首音字母用上述韻母中的拼音字母符號(hào)附加在原首音字母的右下角來(lái)表示(例如JN等)。將這些有角標(biāo)的首音稱為復(fù)首音,對(duì)應(yīng)的首音字母稱為復(fù)首音字母。
按所取高頻首音字的多少,可得到數(shù)量不同的復(fù)首音,按前面給出的8個(gè)高頻首音,就可取出8個(gè)復(fù)首音。將部分復(fù)首音安排到4個(gè)低頻首音字母鍵A、E、O、R鍵上,另外的復(fù)首音安排到基本首音字母未用到的I、N、U、V和符號(hào)鍵上。
分離首音的優(yōu)選方法有兩種,其一是根據(jù)高頻首音漢字的拼音韻母中是否含N來(lái)分離,由此得到的首音字母總表由
圖1給出。其二是按高頻首音漢字的拼音韻母是否含A來(lái)分離,由此得到的首音字母總表由圖2給出。圖1中的首音字母在標(biāo)準(zhǔn)鍵盤上的分布由圖3給出,圖3中的每個(gè)方格表示一個(gè)鍵,左上角的字母表示首音字母。
方法三,取筆型屬性碼。將漢字的五種基本筆劃歸為橫(一),豎(丨),撇(丿),點(diǎn)(丶),折(乙),依次取代號(hào)為1,2,3,4,5,取漢字的某個(gè)筆劃作為前筆,取另一筆劃作后筆,把與這個(gè)筆劃對(duì)中兩筆劃的代號(hào)相對(duì)應(yīng)的一個(gè)二維數(shù)字碼,稱為前后筆型語(yǔ)唯一,則系統(tǒng)直接輸入高頻重碼字或重碼短語(yǔ),而把低頻字或短語(yǔ)在屏幕提示區(qū)顯示出來(lái)。如果此時(shí)輸入的不是所需要的漢字或短語(yǔ),則按一下“降頻鍵”,例如“/”鍵來(lái)刪除所輸入的漢字或短語(yǔ),并使系統(tǒng)檢索低頻級(jí)的重碼字或短語(yǔ),若此時(shí)低頻級(jí)的漢字或短語(yǔ)唯一,則輸入低頻級(jí)的漢字或短語(yǔ),否則進(jìn)入重碼字或重碼短語(yǔ)選擇狀態(tài)。
本發(fā)明的意義在于,利用漢字屬性識(shí)別碼可以使重碼字和聯(lián)想字的確定象輸入一個(gè)普通編碼鍵一樣簡(jiǎn)單快速,并能使平均碼長(zhǎng)縮短;利用按短語(yǔ)屬性將短語(yǔ)分區(qū)編碼的方法,使得可以在碼長(zhǎng)不變的情況下,增加短語(yǔ)編碼量和降低重碼率,并最終實(shí)現(xiàn)以詞為單位的中文輸入;簡(jiǎn)碼短語(yǔ)分區(qū)取碼的方法,可以為用戶提供較多的簡(jiǎn)碼短語(yǔ)使用機(jī)會(huì),從而使?jié)h字輸入的平均碼長(zhǎng)進(jìn)一步縮短。重碼字和重碼短語(yǔ)按統(tǒng)計(jì)頻度分級(jí)隔離的方法,使得漢字編碼空間的取碼率上升,并可容納大量的漢字和短語(yǔ),而選擇重碼字和重碼短語(yǔ)的平均次數(shù)卻不增加或增加較少。
本發(fā)明中的若干方法,其最佳的實(shí)現(xiàn)方式就是用來(lái)設(shè)計(jì)大容量的,以詞輸入為主的聯(lián)想漢字操作系統(tǒng)。本發(fā)明中的技術(shù),也可用來(lái)改進(jìn)現(xiàn)有的各種漢字輸入方法,例如五筆字型的設(shè)計(jì)者可以利用本發(fā)明中的方法,來(lái)開發(fā)帶聯(lián)想識(shí)別和短語(yǔ)及簡(jiǎn)碼短語(yǔ)分區(qū)取碼的漢字操作系統(tǒng),或者開發(fā)以詞為單位的中文輸入系統(tǒng)。
權(quán)利要求
1.漢字編碼新技術(shù),特征是根據(jù)漢字的屬性,用屬性識(shí)別碼來(lái)識(shí)別漢字重碼字和聯(lián)想字,根據(jù)中文短語(yǔ)的屬性,將中文短語(yǔ)和簡(jiǎn)碼短語(yǔ)分區(qū)取碼,重碼字和重碼短語(yǔ)按頻度分級(jí)隔離。
2.權(quán)利要求1中所指的漢字屬性包括漢字的發(fā)音、字義、字型、角型、筆型、筆劃、字根、以及筆劃和字根的讀音;短語(yǔ)的屬性包括短語(yǔ)中每個(gè)漢字的屬性、短語(yǔ)的長(zhǎng)度、所含標(biāo)點(diǎn)及短語(yǔ)所屬專業(yè)領(lǐng)域,其中的短語(yǔ)包括漢語(yǔ)詞。
3.按權(quán)利要求1取得的首音識(shí)別碼,特征是將漢字拼音的首字母取作基本首音,并將基本首音中的N合并到L中,對(duì)基本首音中的幾個(gè)高頻首音,若其相應(yīng)音區(qū)內(nèi)漢字的韻母中含有某個(gè)指定的字母,則把該漢字的首音定義為一個(gè)新的首音,稱為復(fù)首音,按韻母中是否含N或是否含A所得到的兩種首音總表由圖1和圖2給出,按圖1的首音總表得到的首音鍵盤由圖3給出,本識(shí)別碼首音也可作漢字編碼的首音碼元。
4.權(quán)利要求1中的短語(yǔ)和簡(jiǎn)碼短語(yǔ)分區(qū)取碼的方法是按短語(yǔ)的一種或幾種屬性將短語(yǔ)分成幾個(gè)不同的類別,把不同類別的短語(yǔ)安排到不同的編碼區(qū),每個(gè)分區(qū)的短語(yǔ)碼或短語(yǔ)簡(jiǎn)碼用一個(gè)特定的分區(qū)定義鍵來(lái)區(qū)別。
5.權(quán)利要求1中劃分短語(yǔ)的兩種優(yōu)選方法其一是按長(zhǎng)度劃分;其二是按短語(yǔ)第一個(gè)字的首筆劃劃分。
6.按權(quán)利要求1的方法,實(shí)現(xiàn)按長(zhǎng)度分區(qū)取碼的方式有兩種,其一是以短語(yǔ)定義鍵作為短語(yǔ)(不包括單字詞)全碼的第一個(gè)碼元鍵,當(dāng)取簡(jiǎn)碼時(shí)則以定義鍵作為短語(yǔ)簡(jiǎn)碼的末碼元鍵;其二是,將字作為長(zhǎng)度為一的短語(yǔ),無(wú)論是全碼或是簡(jiǎn)碼,均以定義鍵作為結(jié)束鍵,當(dāng)取單字詞的全碼時(shí),若不鍵入定義鍵便接著輸入下個(gè)短語(yǔ)碼,則系統(tǒng)將所輸入的碼作為單字詞碼。
7.權(quán)利要求1中按頻度分級(jí)隔離的方法是根據(jù)漢字和短語(yǔ)的統(tǒng)計(jì)頻度或使用頻度,把重碼字或重碼短語(yǔ)劃分成不同的級(jí)別,對(duì)于一個(gè)重碼,若高頻重碼字或重碼短語(yǔ)不唯一,則進(jìn)入重碼字或重碼短語(yǔ)選擇狀態(tài),此時(shí)可輸入重碼識(shí)別碼或數(shù)字鍵來(lái)確定任意一個(gè)重碼字或重碼短語(yǔ);若唯一,則系統(tǒng)直接輸入高頻重碼字或重碼短語(yǔ),如果所輸入的不是所需要的字或短語(yǔ),則按一下降頻鍵來(lái)刪除它,并使系統(tǒng)進(jìn)入低頻重碼字或重碼短語(yǔ)的選擇狀態(tài)。
全文摘要
發(fā)明的目的是要解決重碼字和聯(lián)想字的盲打輸入,使中文輸入實(shí)現(xiàn)以詞為主,以減少重碼字或重碼短語(yǔ)的選擇次數(shù)。其技術(shù)是將漢字的一種或幾種屬性進(jìn)行編碼,當(dāng)需要選擇漢字的重碼字或聯(lián)想字時(shí),輸入所需字的屬性識(shí)別碼來(lái)確定相應(yīng)的漢字;將中文短語(yǔ)及簡(jiǎn)碼短語(yǔ)按其屬性劃分為不同的類別,為每一類短語(yǔ)指定一個(gè)取碼區(qū);將重碼字和重碼短語(yǔ)按其頻度分級(jí)隔離,當(dāng)高頻重碼字或重碼短語(yǔ)唯一時(shí),直接選中高頻字或高頻短語(yǔ)。
文檔編號(hào)G06F3/023GK1049416SQ8910616
公開日1991年2月20日 申請(qǐng)日期1989年8月9日 優(yōu)先權(quán)日1989年8月9日
發(fā)明者陳燎原 申請(qǐng)人:核工業(yè)西南物理研究院