漢字編碼新技術(shù)的制作方法

文檔序號(hào)：6405564閱讀：202來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：漢字編碼新技術(shù)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明屬于中文信息處理技術(shù)領(lǐng)域，涉及漢字編碼輸入中聯(lián)想字、重碼字及重碼短語(yǔ)的處理方法，中文短語(yǔ)及簡(jiǎn)碼的分區(qū)取碼方法。
目前重碼字及聯(lián)想字的選取方法，如CN85100837，CN85100277等，是按漢字的統(tǒng)計(jì)頻度，在屏幕上顯示出來(lái)，然后用一數(shù)字鍵來(lái)選取。用這種方法，用戶必須通過(guò)觀察屏幕來(lái)確定，有時(shí)甚至需要多次屏幕顯示才能找到所需的字。
現(xiàn)行的所有漢字編碼方法中，對(duì)取碼相同的幾個(gè)漢字或短語(yǔ)，無(wú)論它們?cè)谑褂妙l度上有多大的差別，每次都讓它們?nèi)砍霈F(xiàn)在重碼字或重碼短語(yǔ)的被選行列中，從而使得要么出現(xiàn)大量的重碼字及重碼短語(yǔ)選擇次數(shù)，要么使系統(tǒng)能編碼的漢字較少或取碼長(zhǎng)度較長(zhǎng)，目前僅對(duì)6763個(gè)漢字進(jìn)行編碼，其取碼長(zhǎng)度就是四個(gè)碼元了。
在中文短語(yǔ)(或漢字詞)的編碼方面，目前世界上無(wú)非有兩種方法來(lái)指定短語(yǔ)取碼區(qū)的方法，其一是將短語(yǔ)與漢字共用一個(gè)編碼區(qū)，使?jié)h字取碼優(yōu)先，即一個(gè)字與一個(gè)短語(yǔ)，若對(duì)應(yīng)的編碼相同，則把該碼分配給漢字，而把短語(yǔ)去掉;其二是在漢字取碼區(qū)外，還為短語(yǔ)定義一個(gè)取碼區(qū)。對(duì)于方法一，存在著大量用短語(yǔ)碼取不出短語(yǔ)的現(xiàn)象;方法二雖不存在上述現(xiàn)象，但由于中文短語(yǔ)數(shù)量之多，就連比較常用的也有數(shù)萬(wàn)條之多，遠(yuǎn)遠(yuǎn)超過(guò)一二級(jí)漢字的6763這個(gè)數(shù)。由漢字編碼的情況可知，要對(duì)這么多的中文短語(yǔ)進(jìn)行編碼，不可避免地要采用較長(zhǎng)的碼長(zhǎng)，否則重碼便會(huì)大量出現(xiàn)。
此外在快速漢字輸入方法中，簡(jiǎn)碼的使用是很重要的，而目前的各種方案中，由于短語(yǔ)未分區(qū)取碼，所能定義的簡(jiǎn)碼短語(yǔ)少，在字詞混合編碼時(shí)，甚至不能定義簡(jiǎn)碼詞。
本發(fā)明的目的就是要改進(jìn)上述聯(lián)想字和重碼字的選取方法，中文短語(yǔ)及簡(jiǎn)碼的取碼方法，并最終實(shí)現(xiàn)以詞為單位的中文輸入。
本發(fā)明中提出了漢字重碼字和聯(lián)想字的漢字屬性識(shí)別法，其中的漢字屬性是指漢字的音、形、義。其中的形包括字形、筆型、角型、筆劃及字根;音包括漢字及其漢字的構(gòu)字部件的讀音。其方法是這樣實(shí)現(xiàn)的將漢字的一種或幾種屬性進(jìn)行編碼，所得到的碼稱為漢字屬性碼，當(dāng)需要選擇漢字重碼字或聯(lián)想字時(shí)，輸入一個(gè)所選字的屬性碼來(lái)確定所需的重碼字或聯(lián)想字。將所使用的屬性碼稱為被選字的識(shí)別碼。
在輸入一個(gè)漢字后，若要輸入它的聯(lián)想字，則輸入一個(gè)相應(yīng)識(shí)別碼，再?gòu)逆I盤輸入一個(gè)聯(lián)想字定義鍵來(lái)得到?？梢杂每崭矜I或其它鍵來(lái)充當(dāng)聯(lián)想字定義鍵。
在重碼字選定狀態(tài)下，即可通過(guò)輸入一個(gè)識(shí)別碼又可根據(jù)屏幕顯示，通過(guò)輸入一個(gè)數(shù)字鍵來(lái)確定所需的重碼字。
在上述方法的基礎(chǔ)上，設(shè)計(jì)了下列三種優(yōu)選的漢字屬性碼取碼方法方法一，取字根屬性碼，也就是將漢字的某字根作為屬性碼，當(dāng)遇到要選擇重碼字或聯(lián)想字時(shí)，從鍵盤輸入相應(yīng)的字根屬性碼作為識(shí)別碼。
方法二，取首音屬性碼，將漢字或構(gòu)字部件名之拼音的首字母取作首音字母，考慮到發(fā)音不準(zhǔn)的人常常把首音L和首音N搞混，碼，這樣一共可得到25個(gè)“前后筆型屬性碼”，將它們分別安排到二十五個(gè)字母鍵上，每一個(gè)字母鍵代表一個(gè)二維筆型碼，當(dāng)需要確定重碼字或聯(lián)想字時(shí)，輸入一相應(yīng)的字母鍵來(lái)識(shí)別。
本發(fā)明中，中文短語(yǔ)和簡(jiǎn)碼短語(yǔ)分區(qū)取碼的方法，是指按中文短語(yǔ)的屬性進(jìn)行分區(qū)取碼的方法。其中的短語(yǔ)屬性包括組成短語(yǔ)的各漢字的屬性，短語(yǔ)的長(zhǎng)度(即短語(yǔ)中所含漢字的個(gè)數(shù))，短語(yǔ)中的標(biāo)點(diǎn)符號(hào)，短語(yǔ)所屬的專業(yè)領(lǐng)域。這里所說(shuō)的短語(yǔ)包括單個(gè)的漢語(yǔ)詞。本方法是這樣實(shí)現(xiàn)的，根據(jù)中文短語(yǔ)的一種或幾種屬性，將短語(yǔ)分成幾個(gè)不同的類別，為每一類短語(yǔ)指定一個(gè)不同的編碼區(qū)間。在這種方法的基礎(chǔ)上設(shè)計(jì)了兩種優(yōu)選的短語(yǔ)的劃分方法，兩種中文短語(yǔ)三元編碼法和一種以詞為單位的中文輸入方法。
短語(yǔ)劃分方法一按短語(yǔ)的長(zhǎng)度，即短語(yǔ)中所含漢字的個(gè)數(shù)來(lái)劃分，分為長(zhǎng)度等于2，3，4和長(zhǎng)度等于或大于5的四類短語(yǔ)，通過(guò)四個(gè)分區(qū)定義鍵分配到四個(gè)不同的編碼區(qū)。或者將短語(yǔ)分為長(zhǎng)度等于1，2，3，4，和長(zhǎng)度等于或大于5的短語(yǔ)(長(zhǎng)度為一的短語(yǔ)表示單字詞)，通過(guò)五個(gè)分區(qū)定義鍵分配到五個(gè)不同的編碼區(qū)。
短語(yǔ)劃分方法二按筆劃劃分，根據(jù)短語(yǔ)中第一個(gè)漢字的首筆或末筆來(lái)劃分，可分為橫，豎，撇，點(diǎn)，折五類短語(yǔ)，用五個(gè)定義鍵來(lái)指定五個(gè)相應(yīng)的分區(qū)。
短語(yǔ)編碼方法一三元首音編碼法，其方法是按長(zhǎng)度劃分短語(yǔ)，短語(yǔ)的碼長(zhǎng)定為三。對(duì)長(zhǎng)度為二的短語(yǔ)，分別取第一二字的首音和第一字的第二碼元為短語(yǔ)的三個(gè)碼元，取第二字的第二碼元作為重碼短語(yǔ)識(shí)別碼;對(duì)長(zhǎng)度為三的短語(yǔ)，依次取第一二三字的首音作為三個(gè)碼元，取第三字的第二碼元作為重碼短語(yǔ)識(shí)別碼;對(duì)長(zhǎng)度等于或大于四的短語(yǔ)，取第一，二末字的首音作為三個(gè)碼元，取第三字的首音作為重碼短語(yǔ)的識(shí)別碼。
短語(yǔ)編碼方法二三元首字根編碼法，方法是按長(zhǎng)度劃分短語(yǔ)，短語(yǔ)的長(zhǎng)度定為三。對(duì)長(zhǎng)度等于二的短語(yǔ)，依次取第一字的第一二碼元和第二字的首字根作為三個(gè)碼元，取第二字的第二碼元作為重碼短語(yǔ)識(shí)別碼;對(duì)長(zhǎng)度為三的短語(yǔ)，依次取第一，二，三字的首字根為三個(gè)碼元，取第三字的第二碼元為重碼短語(yǔ)識(shí)別碼;對(duì)長(zhǎng)度等于或大于四的短語(yǔ)，取第一，二，末字的首字根作為三個(gè)碼元，取第三字的首字根為重碼短語(yǔ)識(shí)別碼。
中文以詞為單位的輸入方法，這是一種通用的方法，無(wú)論是對(duì)音碼，型碼，或是音型碼均是適用的。本方法是這樣實(shí)現(xiàn)的按長(zhǎng)度將短語(yǔ)劃分為長(zhǎng)度等于一、二、三、四和長(zhǎng)度等于或大于五的五類短語(yǔ)，用五個(gè)定義鍵來(lái)定義這五類短語(yǔ)，在輸入短語(yǔ)時(shí)，無(wú)論是按簡(jiǎn)碼或是全碼，均以定義鍵作為短語(yǔ)碼結(jié)束鍵，當(dāng)輸入了一個(gè)全碼而未鍵定義鍵便接著輸入下個(gè)短語(yǔ)碼時(shí)，系統(tǒng)將所輸入的碼默認(rèn)為單字詞的碼。
本發(fā)明中按頻度分級(jí)隔離重碼字和重碼短語(yǔ)的方法，是指按統(tǒng)計(jì)頻度(統(tǒng)計(jì)頻度可以是綜合統(tǒng)計(jì)頻度，也可以是某專業(yè)的統(tǒng)計(jì)頻度)把重碼字或重碼短語(yǔ)分為高頻級(jí)和低頻級(jí)兩個(gè)不同的級(jí)別，對(duì)于一個(gè)重碼，系統(tǒng)是否進(jìn)入重碼字或重碼短語(yǔ)選擇狀態(tài)，由高頻級(jí)重碼字或重碼短語(yǔ)是否唯一來(lái)決定，若不唯一，則進(jìn)入重碼字或重碼短語(yǔ)選擇狀態(tài)，此時(shí)無(wú)論是哪一級(jí)的重碼字或重碼短語(yǔ)，均可由所輸入的識(shí)別碼或數(shù)字鍵來(lái)確定;若高頻重碼字或重碼短因此把首音N合并到首音L中，共得到22個(gè)首音字母A、B、C、D、E、F、G、H、J、K、L、M、O、P、Q、R、S、T、W、X、Y、Z，把這22個(gè)首音字母稱為基本首音字母，將基本首音字母中頻度最高的一部份，例如B、C、J、L、S、X、Y、Z每一個(gè)分離成兩個(gè)首音字母，以使?jié)h字分布更均勻。其分離方法是把分布在這些音區(qū)的漢字，按其拼音韻母中是否含某一拼音字母(例如N)來(lái)區(qū)分，對(duì)拼音韻母中含有該拼音字母的漢字，其首音定義為一個(gè)新的首音，對(duì)應(yīng)的首音字母用上述韻母中的拼音字母符號(hào)附加在原首音字母的右下角來(lái)表示(例如JN等)。將這些有角標(biāo)的首音稱為復(fù)首音，對(duì)應(yīng)的首音字母稱為復(fù)首音字母。
按所取高頻首音字的多少，可得到數(shù)量不同的復(fù)首音，按前面給出的8個(gè)高頻首音，就可取出8個(gè)復(fù)首音。將部分復(fù)首音安排到4個(gè)低頻首音字母鍵A、E、O、R鍵上，另外的復(fù)首音安排到基本首音字母未用到的I、N、U、V和符號(hào)鍵上。
分離首音的優(yōu)選方法有兩種，其一是根據(jù)高頻首音漢字的拼音韻母中是否含N來(lái)分離，由此得到的首音字母總表由

圖1給出。其二是按高頻首音漢字的拼音韻母是否含A來(lái)分離，由此得到的首音字母總表由圖2給出。圖1中的首音字母在標(biāo)準(zhǔn)鍵盤上的分布由圖3給出，圖3中的每個(gè)方格表示一個(gè)鍵，左上角的字母表示首音字母。
方法三，取筆型屬性碼。將漢字的五種基本筆劃歸為橫(一)，豎(丨)，撇(丿)，點(diǎn)(丶)，折(乙)，依次取代號(hào)為1，2，3，4，5，取漢字的某個(gè)筆劃作為前筆，取另一筆劃作后筆，把與這個(gè)筆劃對(duì)中兩筆劃的代號(hào)相對(duì)應(yīng)的一個(gè)二維數(shù)字碼，稱為前后筆型語(yǔ)唯一，則系統(tǒng)直接輸入高頻重碼字或重碼短語(yǔ)，而把低頻字或短語(yǔ)在屏幕提示區(qū)顯示出來(lái)。如果此時(shí)輸入的不是所需要的漢字或短語(yǔ)，則按一下“降頻鍵”，例如“/”鍵來(lái)刪除所輸入的漢字或短語(yǔ)，并使系統(tǒng)檢索低頻級(jí)的重碼字或短語(yǔ)，若此時(shí)低頻級(jí)的漢字或短語(yǔ)唯一，則輸入低頻級(jí)的漢字或短語(yǔ)，否則進(jìn)入重碼字或重碼短語(yǔ)選擇狀態(tài)。
本發(fā)明的意義在于，利用漢字屬性識(shí)別碼可以使重碼字和聯(lián)想字的確定象輸入一個(gè)普通編碼鍵一樣簡(jiǎn)單快速，并能使平均碼長(zhǎng)縮短;利用按短語(yǔ)屬性將短語(yǔ)分區(qū)編碼的方法，使得可以在碼長(zhǎng)不變的情況下，增加短語(yǔ)編碼量和降低重碼率，并最終實(shí)現(xiàn)以詞為單位的中文輸入;簡(jiǎn)碼短語(yǔ)分區(qū)取碼的方法，可以為用戶提供較多的簡(jiǎn)碼短語(yǔ)使用機(jī)會(huì)，從而使?jié)h字輸入的平均碼長(zhǎng)進(jìn)一步縮短。重碼字和重碼短語(yǔ)按統(tǒng)計(jì)頻度分級(jí)隔離的方法，使得漢字編碼空間的取碼率上升，并可容納大量的漢字和短語(yǔ)，而選擇重碼字和重碼短語(yǔ)的平均次數(shù)卻不增加或增加較少。
本發(fā)明中的若干方法，其最佳的實(shí)現(xiàn)方式就是用來(lái)設(shè)計(jì)大容量的，以詞輸入為主的聯(lián)想漢字操作系統(tǒng)。本發(fā)明中的技術(shù)，也可用來(lái)改進(jìn)現(xiàn)有的各種漢字輸入方法，例如五筆字型的設(shè)計(jì)者可以利用本發(fā)明中的方法，來(lái)開發(fā)帶聯(lián)想識(shí)別和短語(yǔ)及簡(jiǎn)碼短語(yǔ)分區(qū)取碼的漢字操作系統(tǒng)，或者開發(fā)以詞為單位的中文輸入系統(tǒng)。
權(quán)利要求
1.漢字編碼新技術(shù)，特征是根據(jù)漢字的屬性，用屬性識(shí)別碼來(lái)識(shí)別漢字重碼字和聯(lián)想字，根據(jù)中文短語(yǔ)的屬性，將中文短語(yǔ)和簡(jiǎn)碼短語(yǔ)分區(qū)取碼，重碼字和重碼短語(yǔ)按頻度分級(jí)隔離。
2.權(quán)利要求1中所指的漢字屬性包括漢字的發(fā)音、字義、字型、角型、筆型、筆劃、字根、以及筆劃和字根的讀音;短語(yǔ)的屬性包括短語(yǔ)中每個(gè)漢字的屬性、短語(yǔ)的長(zhǎng)度、所含標(biāo)點(diǎn)及短語(yǔ)所屬專業(yè)領(lǐng)域，其中的短語(yǔ)包括漢語(yǔ)詞。
3.按權(quán)利要求1取得的首音識(shí)別碼，特征是將漢字拼音的首字母取作基本首音，并將基本首音中的N合并到L中，對(duì)基本首音中的幾個(gè)高頻首音，若其相應(yīng)音區(qū)內(nèi)漢字的韻母中含有某個(gè)指定的字母，則把該漢字的首音定義為一個(gè)新的首音，稱為復(fù)首音，按韻母中是否含N或是否含A所得到的兩種首音總表由圖1和圖2給出，按圖1的首音總表得到的首音鍵盤由圖3給出，本識(shí)別碼首音也可作漢字編碼的首音碼元。
4.權(quán)利要求1中的短語(yǔ)和簡(jiǎn)碼短語(yǔ)分區(qū)取碼的方法是按短語(yǔ)的一種或幾種屬性將短語(yǔ)分成幾個(gè)不同的類別，把不同類別的短語(yǔ)安排到不同的編碼區(qū)，每個(gè)分區(qū)的短語(yǔ)碼或短語(yǔ)簡(jiǎn)碼用一個(gè)特定的分區(qū)定義鍵來(lái)區(qū)別。
5.權(quán)利要求1中劃分短語(yǔ)的兩種優(yōu)選方法其一是按長(zhǎng)度劃分;其二是按短語(yǔ)第一個(gè)字的首筆劃劃分。
6.按權(quán)利要求1的方法，實(shí)現(xiàn)按長(zhǎng)度分區(qū)取碼的方式有兩種，其一是以短語(yǔ)定義鍵作為短語(yǔ)(不包括單字詞)全碼的第一個(gè)碼元鍵，當(dāng)取簡(jiǎn)碼時(shí)則以定義鍵作為短語(yǔ)簡(jiǎn)碼的末碼元鍵;其二是，將字作為長(zhǎng)度為一的短語(yǔ)，無(wú)論是全碼或是簡(jiǎn)碼，均以定義鍵作為結(jié)束鍵，當(dāng)取單字詞的全碼時(shí)，若不鍵入定義鍵便接著輸入下個(gè)短語(yǔ)碼，則系統(tǒng)將所輸入的碼作為單字詞碼。
7.權(quán)利要求1中按頻度分級(jí)隔離的方法是根據(jù)漢字和短語(yǔ)的統(tǒng)計(jì)頻度或使用頻度，把重碼字或重碼短語(yǔ)劃分成不同的級(jí)別，對(duì)于一個(gè)重碼，若高頻重碼字或重碼短語(yǔ)不唯一，則進(jìn)入重碼字或重碼短語(yǔ)選擇狀態(tài)，此時(shí)可輸入重碼識(shí)別碼或數(shù)字鍵來(lái)確定任意一個(gè)重碼字或重碼短語(yǔ);若唯一，則系統(tǒng)直接輸入高頻重碼字或重碼短語(yǔ)，如果所輸入的不是所需要的字或短語(yǔ)，則按一下降頻鍵來(lái)刪除它，并使系統(tǒng)進(jìn)入低頻重碼字或重碼短語(yǔ)的選擇狀態(tài)。
全文摘要
發(fā)明的目的是要解決重碼字和聯(lián)想字的盲打輸入，使中文輸入實(shí)現(xiàn)以詞為主，以減少重碼字或重碼短語(yǔ)的選擇次數(shù)。其技術(shù)是將漢字的一種或幾種屬性進(jìn)行編碼，當(dāng)需要選擇漢字的重碼字或聯(lián)想字時(shí)，輸入所需字的屬性識(shí)別碼來(lái)確定相應(yīng)的漢字；將中文短語(yǔ)及簡(jiǎn)碼短語(yǔ)按其屬性劃分為不同的類別，為每一類短語(yǔ)指定一個(gè)取碼區(qū)；將重碼字和重碼短語(yǔ)按其頻度分級(jí)隔離，當(dāng)高頻重碼字或重碼短語(yǔ)唯一時(shí)，直接選中高頻字或高頻短語(yǔ)。
文檔編號(hào)G06F3/023GK1049416SQ8910616
公開日1991年2月20日申請(qǐng)日期1989年8月9日優(yōu)先權(quán)日1989年8月9日
發(fā)明者陳燎原申請(qǐng)人:核工業(yè)西南物理研究院

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：陳燎原
技術(shù)所有人：核工業(yè)西南物理研究院
我是此專利的發(fā)明人

上一篇：一種計(jì)算機(jī)的接口裝置的制作方法
上一篇：通用電子計(jì)算機(jī)算盤接口裝置的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺(jué) 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

漢字編碼相關(guān)技術(shù)

漢字編碼查詢相關(guān)技術(shù)

漢字編碼查詢系統(tǒng)相關(guān)技術(shù)

ascii漢字編碼相關(guān)技術(shù)

漢字編碼簡(jiǎn)明對(duì)照表相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

漢字編碼新技術(shù)的制作方法