專利名稱:改進的丨丨丨漢字編碼方法
技術(shù)領域:
本發(fā)明屬于計算機漢字編碼領域,是對|||漢字編碼的補充和完善,它采用了音形結(jié)合的編碼方法,包涵了漢字音、形、義三大特點,克服了以形為主字根難記的不足,由于利用了重碼再分原則,避免了以音為主重碼多的缺點,為漢字編碼提供了一種簡易、規(guī)則、迅速、準確的方法。
本發(fā)明的任務通過以下方式完成。
1、采用漢字、部首、筆畫、近似字、部位字漢語發(fā)音的第一個字母所對應的拉丁字母,分別為A、B、C、D、E、F、G、H、J、K、L、M、N、O、P、Q、R、S、T、W、X、Y、Z。
2、采用漢字起筆的五種基本筆畫橫(一、-)、豎(|、 )、撇(丿、 )、點(丶、 )、折( 等)。分別用鍵盤符號對應,如U、I、O、V、A做為起筆筆畫的代碼,因為在漢語發(fā)音的第一個字母中沒有U、I、V,而O、A在漢語拼音中的第二位出現(xiàn)的頻率較小,也可用1、2、3、4、5鍵或U、I、V、<丶>等鍵代替。
3、將漢字按左右、上下、外內(nèi)、其它四種結(jié)構(gòu),并據(jù)此將漢字拆分成兩部分,漢字的四種結(jié)構(gòu)可與鍵盤的鍵符對應,如用U、I、V、<或1、2、3、4等。
4、筆畫及筆畫發(fā)音|||碼在筆畫分類上參照了小學生規(guī)范字典基本筆畫一(橫)、丨(豎)、丿(撇)、、(點)、 (折)變形筆畫,將折、鉤、彎合并為一類。
表1 筆畫及筆畫發(fā)音的第一個字母 4、|||碼的字根代碼|||碼在形義的編碼上,以義部分類為主,參照《現(xiàn)代漢語規(guī)范字典)》、《小學生規(guī)范字典)》的偏旁部首所代表意義的字的讀音的第一個字母作代碼,對個別偏旁、部首為避免重碼做了個別調(diào)整。
表二 偏旁、部首的代碼
6、字的編碼方法(1)第一碼取該字漢語拼音的第一個字母,如,我,取W。
(2)第二碼將漢字按左右、上下、外內(nèi)、其它四種結(jié)構(gòu)進行劃分,盡可能將漢字拆分成兩部分,然后取左右結(jié)構(gòu)中的左部,上下結(jié)構(gòu)中的上部,外內(nèi)結(jié)構(gòu)中的外部,其它結(jié)構(gòu)中的第一筆筆畫的發(fā)音的第一個字母。如我,取第一筆筆畫丿撇的第一個字母P。如果第二碼與第一碼重復或不發(fā)音,如鳳,第一碼為F,第二碼為外內(nèi)結(jié)構(gòu)“幾”的風字頭,F(xiàn)與第一碼相同,則將幾再按左右、上下、外內(nèi)、其它結(jié)構(gòu)劃分,可取其中任意一個部位部首、偏旁、筆畫的發(fā)音的第一個字母,如果有特征字或部位字,則取該特征字和部位字,如果各部位都沒明顯特征,則取第一部位第一筆筆畫的發(fā)音,如幾第一筆筆畫為撇,取P,即重碼再分原則,重碼再分時,再分至基本筆畫時為止,有時也可省略重碼再分原則。
(3)第三碼將漢字按結(jié)構(gòu)劃分后,取左右結(jié)構(gòu)中的右部,上下結(jié)構(gòu)中的下部,外內(nèi)結(jié)構(gòu)中的內(nèi)部,其它結(jié)構(gòu)中的第二筆筆畫的發(fā)音,如我為其它結(jié)構(gòu),第二筆筆筆畫為(橫)取H,鳳為外內(nèi)結(jié)構(gòu),內(nèi)部為又發(fā)音的第一個字母為Y,第三碼如果與第一碼重復或不發(fā)音則采用重碼再分原則,重碼再分時,第二、三碼與第一碼重復時再分,第二、三碼重復時不需再分,如博,第一碼為B,第二碼為S,第三碼不發(fā)音,則將 再分為上下結(jié)構(gòu),下部結(jié)構(gòu)中存在特征字寸字,則取寸發(fā)音的第一個字母C,博的編碼可為PSC。特征字,只要含有該字的形狀即視為存在該特征字,如芭,下部巴與第一碼B相同,但含有日,其代碼為R,芭的編碼為BCR,也可以將巴視為其它結(jié)構(gòu),第一筆筆畫的代碼為Z,芭的編碼可為BCZ,增加容錯碼。允許個別字第二、三碼與第一碼相同。
(4)插入碼規(guī)則1,在第二碼或第三碼后增加插入碼,取結(jié)構(gòu)的代碼,第一部分起筆筆畫的代碼,第二部分起筆筆畫的代碼,將第一部分再次拆分后取第二碼中未取的部位所對應的漢字、偏旁、部首、筆畫發(fā)音的代碼,取第三碼中未取部位所對應的漢字、偏旁、部首、筆畫發(fā)音的代碼,采取特殊方式等處理。在插入碼中,以第三碼或第二碼未取的部位所對應的近似字、偏旁、部首、筆畫發(fā)音的代碼或特征部位按結(jié)構(gòu)劃分未取的部分所對應的近似字、偏旁、部首、筆畫發(fā)音的第一個字母。如在第二碼加入插入碼,富與匐在|||碼中的編碼為FBT,在第二碼后插入富字起筆筆畫的代碼,如<鍵或富字第一筆筆畫發(fā)音的所對應的代碼D,富的編碼為FBT<或FBTD,在匐的第二碼后加入匐字起筆筆畫的代碼V或加入匐字第一筆筆畫發(fā)音所對應的代碼P,匐字的編碼為FBTP,或在第三碼后插入富或匐的結(jié)構(gòu)代碼。
插入規(guī)則2,依次取碼規(guī)則。在第二碼中,將漢字拆分成兩部分后,如第二碼不再拆分,則取第一部分所對應的字、近似字、偏旁、部首、筆畫發(fā)音的第一個字母。如果將第一部分再次拆分成兩部分,則取再次拆分后第一部分所對應的漢字、近似字、偏旁、部首、筆畫發(fā)音的每個字母。第三碼,如果第一部分再次拆分則以第一部分再次拆分后的第二部分所對應的漢字、近似字、偏旁、部首、筆畫發(fā)音的第一個字母,如果第一部分不再拆分,第二部分也不再拆分,則取第二部分所對應的漢字、近似字、偏旁、部首、筆畫發(fā)音的第一個字母。如果第二部分再次拆分,則取第二部分再次拆分后的第一部分所對應的漢字、近似字、偏旁、部首、筆畫發(fā)音的第一個字母,再取第二部分再次拆分后的第二部分所對應的漢字、近似字、偏旁、部首、筆畫發(fā)音的第一個字母做為插入碼。即依次取碼規(guī)則。
(5)在編碼中為避免重碼,可采用一些特別處理。
(6)在結(jié)構(gòu)劃分中,盡可能將漢字劃分兩部分,并且兩部分都有意義,如捌為左右結(jié)構(gòu),左部最大為拐,盒為上下結(jié)構(gòu),上部最大為合,鏖為外內(nèi)結(jié)構(gòu),外部最大為鹿,如兩部位都成字,如捌,左部拐和右部別都成宇,則以特征字為主,或增加容錯碼。其中左中右結(jié)構(gòu)和上中下結(jié)構(gòu),其它結(jié)構(gòu)也可劃分為外內(nèi)結(jié)構(gòu)如辦、亙、內(nèi)等。
(7)一級簡碼字,為第一碼加空格鍵。
(8)二級簡碼字為第一碼加該字起筆筆畫的代碼加該字第二碼,或加空格鍵。
(9)當不知道漢字發(fā)音或某一部位不發(fā)音時,可用V或?等鍵代替。
(10)字和字的重碼處理。
a、高頻先見和數(shù)字標記處理b、簡碼處理對一級重碼字進行了簡碼處理。
c、詞組轉(zhuǎn)入d、增加常用字、少用字、罕用字,功能鍵切換。
6、詞的編碼a、二字詞的編碼(1)第一碼取該詞第一個字漢語發(fā)音的第一個字母的代碼。
第二碼取該詞第一個字起筆筆畫的代碼。
第三碼取該詞第二個字漢語發(fā)音的第一個字母的代碼。
第四碼取該詞第二個字起筆筆畫的代碼。
(2)第一碼取該詞第一個字分成兩部分后第一部分所對應的近似字、偏旁、筆畫發(fā)音的第一個字母,第二碼取該詞第一個字第二部分所對應的近似字、偏旁、筆畫發(fā)音的第一字母。第三碼取該詞第二個字分成二部分后第一部分所對應的近似字、偏旁、筆畫發(fā)音的第一字母。第四碼取該詞第二個字分成二部分后第二部分所對應的近似字、偏旁、筆畫發(fā)音的第一字母。
(3)兩字詞一級簡碼的編碼取該詞每個字的第一碼加空格鍵(4)兩字二級簡碼詞的編碼取該詞每個字的第一碼加第二個字第的起筆筆畫的代碼加空格鍵。
b、三字詞的編碼(1)取三字詞鍵也可省略此鍵加該詞每個字的第一碼,加最后一個字拆分后第一部分對應的近似字、偏旁、部首、筆畫發(fā)音的第一個字母。
(2)或取該詞前兩個字的第一碼加最后一個字的起筆筆畫的代碼。
c、四字詞的編碼(1)取該詞前三個字的第一碼加最后一個字的第一碼。
(2)或取第一個字的起筆筆畫的代碼加第二、第三個字和第四個字的第一碼。
d、多字詞的編碼(1)取多字詞鍵,也可省略此鍵加前三個字的第一碼,加最后一個字的第一碼。
(2)或取多字詞鍵,也可省略此鍵加第一個字起筆筆畫的代碼,加后幾個字的第一碼。
e、對詞組的重碼詞也可做特殊規(guī)定。
f、可增加自定義詞和自造詞的編碼。
g、對字和詞、詞和詞的重碼,可采用高頻先見,標記提示,聯(lián)想功能,常用詞、少用詞功能鍵切換。
h、對容錯碼的處理采用字詞多碼方式進行處理,對個別重碼較多的字詞可做特別處理。
實施例1、捌字的編碼第一碼為捌字發(fā)音的第一個字母B,第二碼將捌字分為左右結(jié)構(gòu),左部成字最大為拐,拐發(fā)音的第一個字母為G,右部為刂,立刀旁代碼為D,捌的編碼為BGD,或加入插入碼,第一部分特征字拐字,并將拐字再拆分成扌和另,取另發(fā)音的第一個字母L,捌字的編碼為BGDI。
2、摸字的編碼,第一碼為摸字發(fā)音的第一個字母M,第二碼將摸分為左右結(jié)構(gòu),左部扌,提手旁的代碼為F,第三碼摸字右部有特征字日和大,取日對應的R,摸的編碼為MFR,或增加依次取碼,取特征部分剩余大對應的D,摸的編碼為MFRD。
3、摩字的編碼,第一碼為摩字發(fā)音的第一個字母M,第二碼將摩分為外內(nèi)結(jié)構(gòu),外部最大為麻與第一碼相同,將麻醉再分為廣和林,第三碼為摩下部手發(fā)音的第一個字母S,摩的編碼為MGS或MLS,也要在第二碼對麻再分成廣和林時依次取碼,則摩的編碼為MGLS。
4、一字的編碼第一碼為一字發(fā)音的第一個字母Y,第二碼為一字起筆筆畫的代碼H。
5、二字詞“我們”的編碼第一碼為我字發(fā)音的第一個字母W,第二碼為我字起筆筆畫撇的代碼V,第三碼為們字發(fā)音的第一個字母M,第四碼為們字起筆撇的代碼V,或用簡碼詞編碼即W+M+空格鍵。
6、三字詞“計算機”的編碼,第一碼為計字的第一碼丁,第二碼為算字的第一碼S,第三碼為機字起筆筆畫橫的代碼U,計算機的編碼為JSU。也可用計算機和三個字發(fā)音的第一個字母JSJ,加最后一個字拆分后第一部分相對應的M的代碼。
7、四字詞“恭喜發(fā)財”的編碼,第一碼為恭字起筆筆畫橫的代碼U,第二、三、四碼為喜、發(fā)、財?shù)陌l(fā)音的第一個字母X、F、C,恭喜發(fā)財?shù)木幋a為UXFC。
8、四字以上詞的編碼。“中華人民共和國”第一碼為第一個字中字起筆豎的代碼I,第二、三碼為第二、三個字華、人發(fā)音的第一個字母H、R,最后一碼為最后一個字母發(fā)音的第一個字母G,中華人民共和國的代碼為IHRG?;虿捎们叭齻€字的第一碼加最后一個字的第一碼即ZHRG。
權(quán)利要求
1.一種漢字編碼方法,其特征在于(1)以26個拉丁字母A、B、C、D、E、F、G、H、I、J、K、L、M、N、O、P、Q、R、S、T、U、V、W、X、Y、Z做為漢字編碼的碼元。其中A、B、C、D、E、F、G、H、J、K、L、M、N、O、P、Q、R、S、T、W、X、Y、Z為漢字的部位字、近似字、部首、偏旁、筆畫發(fā)音的代碼。(2)將漢字起筆的五種基本筆畫橫、豎、撇點、折與相應的鍵盤符號對應,如U、I、V、<、>或1、2、3、4、5等。
2.根據(jù)權(quán)利要求1的漢字編碼方法,其特征在于(1)字的編碼方法a、第一碼取該字漢語拼音的第一個字母。b、第二碼將漢字按左右、上下、外內(nèi)、其它四種結(jié)構(gòu)進行劃分,然后取左右結(jié)構(gòu)中的左部、上下結(jié)構(gòu)中的上部、外內(nèi)結(jié)構(gòu)中外部,其它結(jié)構(gòu)中的第一筆畫的發(fā)音代碼,如果在左右、上下、外內(nèi)三種結(jié)構(gòu)中該碼元與第一碼元相同或不發(fā)音則按此方法再次劃分結(jié)構(gòu),并再次取碼,至基本筆畫為止,再取碼時可取任意部位的碼元,但以第一部分成字最大,相對復雜或整部位成字或偏旁為原則,簡稱重碼再分原則,特殊情況下可省略重碼再分原則。c、第三碼,取該字左右結(jié)構(gòu)中的右部,上下結(jié)構(gòu)中的下部,外內(nèi)結(jié)構(gòu)中的內(nèi)部位部字,部首、偏旁、筆畫、近似字發(fā)音的第一個字母,其它結(jié)構(gòu)中的第二筆筆畫發(fā)音的第一個字母,在左右、上下、外內(nèi)三種結(jié)構(gòu)中如果第三碼碼元與第一碼相同或不發(fā)音則采用重碼再分原則。特殊情況下,在第三碼中可省略重碼再分原則。d、可增加插入碼或依次取碼規(guī)則,取結(jié)構(gòu)的代碼,首部起筆筆畫的代碼,次部起筆筆畫的代碼,將首部再次分解后取第二碼中未取的部位所對應的漢字、偏旁、部首、筆畫發(fā)音的代碼,取第三碼中未取部位所對應的漢字、偏旁、部首、筆畫發(fā)音的代碼,采取特殊方式等處理。在第四碼中以第三碼或第二碼未取的部位所對應的近似字、偏旁、部首、筆畫發(fā)音的代碼或特征部位按結(jié)構(gòu)劃分未取的部分所對應的近似字、偏旁、部首、筆畫發(fā)音的第一個字母為主?;虬唇Y(jié)構(gòu)再次劃分后依次取碼。e、對不會發(fā)音的漢字可用指定鍵盤上的鍵作為代替,如?鍵、V鍵等。
3.詞的編碼a、兩字詞的編碼(1)第一碼取該詞第一個字漢語發(fā)音的第一個字母的代碼。第二碼取該詞第一個字起筆筆畫的代碼。第三碼取該詞第二個字漢語發(fā)音的第一個字母的代碼。第四碼取該詞第二個字起筆筆畫的代碼。(2)第一碼取該詞第一個字分成兩部分后第一部分所對應的近似字、偏旁、筆畫發(fā)音的第一個字母,第二碼取該詞第一個字第二部分所對應的近似字、偏旁、筆畫發(fā)音的第一字母。第三碼取該詞第二個字分成二部分后第一部分所對應的近似字、偏旁、筆畫發(fā)音的第一字母。第四碼取該詞第二個字分成二部分后第二部分所對應的近似字、偏旁、筆畫發(fā)音的第一字母。(3)兩字詞一級簡碼的編碼取該詞每個字的第一碼加空格鍵(4)兩字二級簡碼詞的編碼取該詞每個字的第一碼加第二個字第一筆起筆筆畫的代碼或加第二個字第一部分所對應的近似字、偏旁、部首、筆畫發(fā)音的第一個字母或加空格鍵。b、三字詞的編碼(1)取三字詞鍵也可省略此鍵加該詞每個字的第一碼,加最后一個字拆分后第一部分對應的近似字、偏旁、部首、筆畫發(fā)音的第一個字母。(2)或取該詞前兩個字的第一碼加第一個字起筆筆畫的代碼加后幾個字的第一碼。(3)取第一個字起筆筆畫的代碼加第三個字的第一碼。c、四字詞的編碼(1)取該詞前三個字的第一碼加最后一個字的第一碼。(2)或取第一個字的起筆筆畫的代碼加第二、第三個字和第四個字的第一碼。d、多字詞的編碼(1)取多字詞鍵,也可省略此鍵加前三個字的第一碼,加最后一個字的第一碼。(2)或取多字詞鍵,也可省略此鍵加第一個字起筆筆畫的代碼,或加每個字的第一碼。e、(1)對詞組的重碼詞也可做特殊規(guī)定。(2)可增加自定義詞組規(guī)則。f、在詞的編碼中可省略重碼再分原則。
4.根據(jù)權(quán)利1、3、4對字字重碼、詞詞重碼、字詞重碼,可采用多碼處理或自定義詞組,或采用聯(lián)想功能處理,高頻先見等方式處理。
5.根據(jù)權(quán)利1、2、3、4對容錯碼處理可采用字詞多碼共同存在的形式,也可做一些特別處理。
6.本方法同樣適用于繁體漢字或其它非拼音類文字的編碼方法。
全文摘要
一種漢字編碼方法,它采用了漢字部首、筆畫發(fā)音的第一個字母和漢字書寫的第一筆筆畫的代碼,結(jié)合漢字結(jié)構(gòu)進行編碼。是對“|||”漢字編碼方法補充和完善,它包涵了漢字音、形、義三大特征,并采用了重碼再分原則,有效地實現(xiàn)了人機共同編碼,字、詞自動識別,具有規(guī)則、迅速、準確的特點。
文檔編號G06F3/023GK1409191SQ0113325
公開日2003年4月9日 申請日期2001年9月16日 優(yōu)先權(quán)日2001年9月16日
發(fā)明者劉瑞林 申請人:劉瑞林