專利名稱:中文檢索與編碼通用字元(部首)及鍵盤的制作方法
技術(shù)領(lǐng)域:
本發(fā)明用于中文(指字、詞、短語(yǔ)等)檢索和計(jì)算機(jī)(或其它機(jī)器)中文信息處理。
中文由于不能按形讀音,所以在檢索方面必須有按形和按音兩種排序;在計(jì)算機(jī)信息處理方面,必須有按形和按音兩種輸入法。中文音節(jié)數(shù)(約1100多個(gè))比字?jǐn)?shù)少得多,而產(chǎn)生很多同音字(重碼),為區(qū)分同音字,需在拼音的基礎(chǔ)上增加字形信息,這樣就形成了中文的音形序和音形碼,但從本質(zhì)上講,它們?nèi)詫儆谝粜蚝鸵舸a。
在中文檢索方面(指手工操作),目前用于中文排序的主要有拼音法、部首法、筆劃法和號(hào)碼法。
拼音法是一種類似西文的排序法,具有直接查檢的優(yōu)點(diǎn),但中文同音字多,因而影響了檢字速度。再者,如不知漢字的讀音,此法就無(wú)法使用。
部首法需要先確定部首,需要數(shù)部首的筆劃和所查字除去部首部分的筆劃,還要到檢字表里查字的頁(yè)碼,要三四步才能完成。另外,此法還存在部首位置不易確定的問題。
已故王竹溪教授搞出的順序部首法也屬于部首法(《新部首大字典》,王竹溪,上海翻譯出版公司,1988)。王先生用56個(gè)部首按先高后低、先左后右等規(guī)則(但不是按筆順)給漢字排序。此法雖有直接查檢和重碼少的特點(diǎn),但檢字規(guī)則與漢字的筆順相沖突,且規(guī)則應(yīng)用不統(tǒng)一,特例多,故難以推廣。另外,56個(gè)部首之間雖然有序,可按歌謠記憶,但并不押韻。
筆劃法需要先數(shù)漢字的筆劃,再按前兩筆的筆形一丨丿丶 查找。此法重碼很多,且數(shù)筆劃既花時(shí)間也容易出錯(cuò)。
號(hào)碼法主要有四角號(hào)碼法。張國(guó)防先生已獲專利的“五十字元法”也屬于號(hào)碼法。四角號(hào)碼法把漢字的筆形分為十類,用0~9十個(gè)數(shù)碼表示。五十字元法從漢字中分解出50個(gè)字元,歸為26類,用英文的26個(gè)字母表示(整套字元沒有次序,故只能依附在英文字母上)。此類方法都是用漢字四個(gè)角或三個(gè)角的筆形進(jìn)行編碼、排序。號(hào)碼法雖有速度較快、重碼較少的特點(diǎn),但由于漢字結(jié)構(gòu)比較復(fù)雜,很難用10種或26種筆形準(zhǔn)確表達(dá),再加上這類方法規(guī)則多,難以掌握,所以用起來(lái)并不方便。另外,各種號(hào)碼法都存在“號(hào)碼轉(zhuǎn)換”的問題,即筆形→號(hào)碼→檢字。這不能不說是一種負(fù)擔(dān)。
在計(jì)算機(jī)中文輸入方面,目前主要有拼音碼(音碼)、五筆字型(形碼)和自然碼(音形碼)。
拼音碼方便好用,但重碼多,且不知讀音時(shí)就無(wú)法使用。
五筆字型依形編碼,重碼少、速度較快,但難以為大眾所掌握,因?yàn)橐环矫嫠木幋a規(guī)則繁雜,另一方面,字根由于數(shù)量太多(約兩百多個(gè))而產(chǎn)生了不確定性。不確定性指字元本身的不確定,即不知道某筆形是不是編碼字元(因?yàn)橛洸蛔?,或指字元在鍵盤上的位置(鍵位)不確定。五筆字型既有字元不確定的問題,也有字元鍵位不確定的問題(即不知道字根在某區(qū)的哪個(gè)鍵上,需逐鍵查找)。
自然碼碼長(zhǎng)短、速度快,但表形的部首數(shù)量太多(約兩百多個(gè)),也是無(wú)法記憶的,因而也具有不確定性。
本發(fā)明的目的是,優(yōu)選一套有序、易記的漢字字元,使其既能應(yīng)用于中文按形和按音的排檢(排序與檢索)中,也能應(yīng)用于各種計(jì)算機(jī)按音輸入(指音形碼)和按形輸入的編碼中,從而使中文檢索和中文計(jì)算機(jī)輸入變得簡(jiǎn)單、明確、快捷。
本發(fā)明是這樣實(shí)現(xiàn)的通過對(duì)七千多漢字的構(gòu)成進(jìn)行分析,從使用頻度高低、構(gòu)字重碼多少等幾方面考慮,優(yōu)選出一套字元(部首)。本發(fā)明的特點(diǎn)是,整套字元組成了規(guī)則、押韻的詩(shī)句,字元在詩(shī)句中的位置就是字元之間的前后次序。
優(yōu)選出的字元,其數(shù)目可依詩(shī)句的格式(五言、七言等)和長(zhǎng)短而不同,筆者認(rèn)為84個(gè)比較理想。理由如下
漢字由一丨丿丶等30多個(gè)基本筆劃(類似于西文的字母)按先上后下、先左后右等書寫規(guī)則構(gòu)成。這些基本筆劃又構(gòu)成漢字的兩百多個(gè)基本筆形,稱為字元或部首。因此,漢字也可以說是由兩百多個(gè)字元(類似于西文的字母)按書寫規(guī)則(筆順)拼寫而成的。字元選的越少,就越容易記憶,但漢字編碼的碼長(zhǎng)就越長(zhǎng)(如用簡(jiǎn)碼-三碼、四碼或五碼,則重碼就會(huì)很多),用起來(lái)就不會(huì)便捷;字元選的越多,漢字的碼長(zhǎng)就會(huì)越短,但記憶起來(lái)就越困難,字元之間也就難以成序。筆者經(jīng)過對(duì)七千多漢字的構(gòu)成進(jìn)行分析,從使用頻度高、構(gòu)字重碼少、中文排檢與中文輸入(編碼)完全一致三方面考慮,經(jīng)過反復(fù)挑選、反復(fù)編碼,從兩百多個(gè)字元中優(yōu)選出84個(gè)(圖1)。為便于記憶,將它們編成了12句押韻的七言詩(shī)。所有漢字(包括繁體)按這84個(gè)字元的次序依規(guī)則(筆順、角形等)進(jìn)行排序或編碼。下面的詩(shī)句可用來(lái)幫助記憶(助記字的讀音即為字元的讀音)橫豎撇點(diǎn)彎折乙,八人寸土草木稀。
子口之言 工廠,日月似火止山雨。
王力冰心示寶弓,十車絲巾包兒女。
方頭大耳目又小,刀戈匕首金獅幾。
病蟲革門食竹骨,水鳥二爪立田西。
牛羊同舟叉魚貝,犬馬私蓋風(fēng)雪衣。
優(yōu)選出的字元因?yàn)橛行?,故可按?guī)則-筆順、角形等,直接進(jìn)行中文的排檢(按筆順的稱為字元拼寫法),而不需再轉(zhuǎn)換為英文字母碼(如五十字元法)或數(shù)字碼(如四角號(hào)碼法)。依照字形可構(gòu)成中文的全形序;依照拼音和字形可構(gòu)成音形序。
全形序-現(xiàn)結(jié)合84字元表(圖1),把全形序按筆順提取字元的排檢方法說明如下排檢方法所有漢字都由這84個(gè)字元按筆順拼寫而成,并按字元表排列成序。如“明”由“日月”構(gòu)成,“曼”由“日四又”構(gòu)成,“晶”由“日日日”構(gòu)成。在字元序列中,“日”在“月”之前,“月”在“四”之前,故三字的排隊(duì)次序?yàn)榫髀?。檢索時(shí),依次按構(gòu)成被查字的第一、第二、……字元查檢。如“境”字查“土立日兒”,就象英語(yǔ)的lace查l.a.c.e.一樣。為了使排檢更加快捷,對(duì)所有含字元數(shù)超過4的漢字采用簡(jiǎn)碼排檢,即只取前三個(gè)和最后一個(gè)字元(一二三末)。如“熔”字取“火宀八口”即可。當(dāng)然,也可以用三元簡(jiǎn)碼(一二末)或五元簡(jiǎn)碼(一二三四末)進(jìn)行排檢,但那樣要么增加很多重碼,要么增加碼長(zhǎng)。
字元提取的原則取碼時(shí)應(yīng)遵循“取大少連,兼顧直觀”的原則。現(xiàn)解釋如下組成漢字的字元之間的結(jié)構(gòu)關(guān)系可分為不連(即散)、相連和相交。不連是指字元之間沒有接觸,如“只”字的“口”和“八”沒有接觸,故“只”字的字元是散結(jié)構(gòu)。相連是指字元之間有接觸,但未構(gòu)成交叉,如“白”字的“丿”和“日”即是相連結(jié)構(gòu)。相交是指字元之間有交叉,如“果”字的“日”和“木”即是相交結(jié)構(gòu)。這樣,從不連到相交,字元之間的聯(lián)系(或接觸)是逐步增多的?!叭〈蟆笔侵该看翁崛」P劃最多的字元。如“章”字取“立日十”,而不取“ 一十”。“少連”是指字元之間的聯(lián)系(或接觸)越少越好,也就是說能取不連字元的,就不要取相連字元,能取相連字元的,就不要取相交字元。這樣提取的字元才明顯易辨。如“主”字取“丶王”,而不取“ 土”;“天”字取“一大”,而不取“二人”?!凹骖欀庇^”是指提取字元時(shí)要考慮漢字的直觀可辨性。如“歹”字和“?!弊职础叭〈蟆痹瓌t,第一筆應(yīng)取“廠”,但這兩個(gè)字分別取“一夕”和“一兒”更直觀些。需要“兼顧直觀”的只有四、五個(gè)字,不會(huì)引起檢索的困難。本排檢法按筆順提取字元,故對(duì)個(gè)別筆順有分歧的漢字,可按兩種筆順分別編碼。
重碼問題84個(gè)字元可構(gòu)成844=49787136個(gè)四元碼。筆者用字元拼寫法對(duì)《現(xiàn)代漢語(yǔ)通用字表》(國(guó)家語(yǔ)言文字工作委員會(huì)漢字處編,語(yǔ)文出版社出版)的7000漢字按“一二三末”四元簡(jiǎn)碼進(jìn)行排序,得出重碼字296個(gè),占4.23%。其中真重碼字只有117個(gè)(如唄-員、叭-只、吶-咼,等等),占1.67%,其余都是假重碼字。所謂假重碼字是指簡(jiǎn)碼相同而全碼不同的字,如“稈”和“秤”的簡(jiǎn)碼都是“ 木一十”,但它們的全碼分別為“ 木一十”和“ 木一 十”。這些重碼字對(duì)檢字速度絲毫沒有影響,因?yàn)樗鼈兇蟛糠侄际蔷o挨著的兩個(gè)字。它們的前后次序可通過全碼、正體/變體或字形差異來(lái)確定。
音形序-漢語(yǔ)拼音雖常用于中文的排檢,但同音字之間其實(shí)并無(wú)序。筆者認(rèn)為,克服這一缺陷的唯一途徑是在拼音碼的基礎(chǔ)上增加漢字的字形信息。具體地說,就是對(duì)所有同音字按上段所述的字元拼寫法進(jìn)行排序。如“藝”是“yì艸乙”,“嶧”是“yì山又 ”,“薏”是“yì艸立日心”,等等。這樣它們的次序即為藝薏嶧。但實(shí)際編排辭書時(shí),書眉上的標(biāo)識(shí)編碼并不需要這么復(fù)雜,只要按辭書的收字容量取一個(gè)(最多兩個(gè))字元就夠了。如“藝”和“薏”可在“yì艸”頁(yè)上查到,“嶧”可在“yì山”頁(yè)上查到。對(duì)收字不多的中小型辭書,甚至可按基本筆劃字元“一丨丿丶 乙”排檢就夠了。如“藝”和“薏”可在“yì一(橫)”頁(yè)上查到,“嶧”可在“yì丨(豎)”頁(yè)上查到。也許對(duì)一些特大型辭書才需要兩個(gè)字元。如“藝”可在“yì艸乙”頁(yè)上查到,“薏”可在“yì艸立”頁(yè)上查到。
本發(fā)明的優(yōu)選字元可作為各種計(jì)算機(jī)中文輸入法(指和字形有關(guān)的編碼)的通用字元,這些字元由于組成了規(guī)則、押韻的詩(shī)句,因而就具備了易記性、有序性和確定性的特點(diǎn)。這里的確定性是由易記性或有序性決定的。有了易記性,某筆形是不是編碼字元就是確定的了;有了有序性,字元的位置就是確定的了。
本發(fā)明可以把字元按其讀音的聲母安排在計(jì)算機(jī)的26個(gè)字母鍵上(圖2,其中“骨”和“舟”因其自身鍵位已滿,即字元字-用作字元的單字-已達(dá)四個(gè),故將其安排在緊臨的鍵位上),按規(guī)則-筆順、角形等,依字形構(gòu)成中文的全形聲碼;依拼音和字形構(gòu)成音形碼。
全形聲碼-現(xiàn)結(jié)合圖2,把全形聲碼按筆順取碼的編碼方法說明如下單字按“一二三末”取碼。取碼原則與中文檢索中采用的完全相同,即“取大少連,兼顧直觀”。取完字元不足4碼時(shí),加一空格鍵,表示取碼結(jié)束(詞輸入時(shí)也是如此)。如“時(shí)”為RC,“境”為TLRE。
字元字和高頻字處在鍵上第幾位,就將該鍵敲幾下。不足4碼時(shí),加一空格鍵,表示取碼結(jié)束。如“人”為R,“巾”為JJJJ。圖2中加點(diǎn)的字為字元字以外的高頻字,編碼方法與字元字相同。如“在”為Z,“我”為WW。
雙字詞取兩字的前兩個(gè)字元。如“按照”為ORRD,“時(shí)間”為RCMR。對(duì)含有字元字的雙字詞,可實(shí)際取元組成二元碼(兩字都是字元字)與三元碼,或重復(fù)該單字元組成四元碼。如“革命”為GRH,或GGRH。
三字詞取每字的第一字元,組成三元碼,或重復(fù)第三字的字元組成四元碼。如“計(jì)算機(jī)”為UAM,或UAMM。
四字詞取每字的第一字元。如“漢語(yǔ)拼音”為OUOL。
五字以上取前三個(gè)和最后一個(gè)字的第一字元。如“石油輸出國(guó)組織”為VOVS。
音形碼-音形碼主要用于輸入單字(輸入詞和短語(yǔ)時(shí)用雙拼音碼會(huì)更方便些)。編碼方法是在雙拼音碼的后面增加一個(gè)(或兩個(gè))字元碼。如,按筆順編碼,“時(shí)”為IIR(或IIRC),“境”為JYT(或JYTL)。
本發(fā)明還可以把字元按詩(shī)句的順序安排在21個(gè)字母鍵上(圖3),按規(guī)則-筆順、角形等,依字形可構(gòu)成中文的全形序碼。其余鍵用于快速輸入高頻字(可留一鍵作萬(wàn)能鍵用)。其編碼方法與全形聲碼完全相同。如,按筆順編碼,“時(shí)”為WR,“境”為TBWJ。這一輸入法利用字元的有序性來(lái)確定其在鍵盤上的位置,主要面向那些對(duì)漢語(yǔ)拼音不熟悉的人。
本發(fā)明由于把字元組成了規(guī)則、押韻的詩(shī)句,從而使?jié)h字字元具有了易記性和有序性。這種易記、有序的字元既可用于中文的手工檢索(如辭書排檢、資料目錄等),也可用于信息處理的中文編碼,因而又具有了通用性。這種易記、有序字元的應(yīng)用,可使中文檢索和中文輸入變得簡(jiǎn)單、明確、快捷。把字元用于中文檢索,可使中文辭書、圖書目錄象西文那樣實(shí)現(xiàn)直接翻檢(即直接翻檢詞典正文、目錄卡片),而不再需要數(shù)筆劃或查檢字表;可使中文按音排序不再為同音字太多而困惑。從而使中文難查這個(gè)困擾世人數(shù)百年的問題得以解決。把字元應(yīng)用于計(jì)算機(jī)中文處理時(shí),就使中文編碼具有了確定性,再結(jié)合人們?nèi)粘J褂玫臅鴮懸?guī)則-筆順,可使中文輸入真正實(shí)現(xiàn)易學(xué)、快速的目標(biāo)。從而使中文輸入面向了大眾-了解拼音的,可使用全形聲碼或音形碼;不懂拼音的,可使用全形序碼。
圖1-優(yōu)選的84字元表。
圖2-把字元按其讀音的聲母安排在26個(gè)字母鍵上構(gòu)成的中文鍵盤。
圖3-把字元按詩(shī)句的次序安排在21個(gè)字母鍵上構(gòu)成的中文鍵盤。
權(quán)利要求
1.一套用于中文檢索與編碼的優(yōu)選字元(部首),其特征在于整套字元組成了規(guī)則、押韻的詩(shī)句,具有類似西文字母的有序性。
2.權(quán)利要求1所述的優(yōu)選字元,其數(shù)目可依詩(shī)句的格式(五言、七言等)和長(zhǎng)短而不同,其特征在于優(yōu)選字元的理想數(shù)目為84個(gè),構(gòu)成十二句七言詩(shī)。
3.權(quán)利要求1所述的優(yōu)選字元,其特征在于它們可以按規(guī)則-筆順、角形等,直接進(jìn)行中文的排序和檢索(而不需再轉(zhuǎn)換為英文字母碼或數(shù)字碼),依字形構(gòu)成中文的全形序;依拼音和字形構(gòu)成音形序。
4.權(quán)利要求1所述的優(yōu)選字元,可作為各種計(jì)算機(jī)(或其他機(jī)器)中文輸入法(指和字形有關(guān)的編碼)的通用字元,其特征在于它們具有易記性和確定性。
5.權(quán)利要求4所述的優(yōu)選字元,其特征在于把字元按其讀音的聲母安排在計(jì)算機(jī)的26個(gè)字母鍵上,按規(guī)則-筆順、角形等,依字形可構(gòu)成中文的全形聲碼;依拼音和字形可構(gòu)成音形碼。
6.權(quán)利要求4所述的優(yōu)選字元,其特征在于把字元按詩(shī)句的順序安排在21個(gè)字母鍵上,按規(guī)則-筆順、角形等,依字形可構(gòu)成中文的全形序碼。
7.權(quán)利要求5或6所述的中文輸入法(全形聲碼和全形序碼),其特征在于,三字詞的輸入可取每字的第一字元組成三元碼,或重復(fù)第三字的字元組成四元碼;含有字元字的二字詞可實(shí)際取元組成二元碼(兩字都是字元字)與三元碼(有一個(gè)字元字),或重復(fù)該單字元組成四元碼。
全文摘要
一套用于中文檢索和計(jì)算機(jī)中文信息處理的通用字元(84個(gè))。本發(fā)明把字元組成了規(guī)則、押韻的詩(shī)句,使?jié)h字字元具有了易記性和有序性。把字元用于中文檢索,可使中文辭書、圖書目錄象西文那樣實(shí)現(xiàn)直接翻檢,而不再需要數(shù)筆劃或查檢字表;把字元按其讀音的聲母或詩(shī)句的次序安排在鍵盤上,可分別構(gòu)成全形聲碼、音形碼和全形序碼,供不同用戶(懂拼音或不懂拼音)使用,從而使中文輸入面向了大眾,并真正實(shí)現(xiàn)了易學(xué)、快速的目標(biāo)。
文檔編號(hào)G06F3/023GK1104351SQ9410208
公開日1995年6月28日 申請(qǐng)日期1994年4月10日 優(yōu)先權(quán)日1994年4月10日
發(fā)明者張?zhí)旃?申請(qǐng)人:張?zhí)旃?br>