專利名稱:漢字筆順數(shù)字碼的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于漢字編碼,適用于編排漢語詞典、漢外詞典和計(jì)算機(jī)輸入漢字。
一、背景描述目前國內(nèi)通用的查字法主要有四種,即1.部首查字法;2.四角號(hào)碼查字法;3.筆畫查字法;4.漢語拼音查字法。前三種是形碼,后一種是音碼。
部首查字法是傳統(tǒng)的查字法,沿用了一千多年。其缺點(diǎn)是部首太多,難學(xué)難記,有些字難分清屬于何種部首,查字麻煩,本應(yīng)一步查到的字用該法卻分成三步,即(1)查部首;(2)查檢字表;(3)翻到該字所在頁。費(fèi)時(shí)費(fèi)神,十分不便。
四角號(hào)碼查字法有一步到位之功,但有10%以上的漢字難以取碼。由于取碼困難,故目前大多數(shù)漢語詞典已不采用按四角號(hào)碼編排字序。
筆畫查字法每個(gè)漢字都要數(shù)筆畫,同一筆畫的字太多,查一個(gè)字要分兩步走,也是件十分費(fèi)勁的事。
漢語拼音是我國中小學(xué)語文教學(xué)的重點(diǎn),從啟蒙開始,就要花四、五個(gè)星期教拼音字母,多數(shù)青少年都能掌握漢語拼音,現(xiàn)在的漢語詞典大部分是按字的拼音字母編排順序的。但是,由于中國幅員廣大,方言相差甚遠(yuǎn),各人的漢字讀音難予標(biāo)準(zhǔn)化、歸一化。而且要查的字常常是不知其讀音的,如果按拼音字母編排的漢語詞典沒有《部首檢字表》或《筆畫檢字表》,則查字無從下手。每本詞典前印上五、六十頁甚至一百多頁的檢字表實(shí)屬浪費(fèi)。
本世紀(jì)七十年代以來,隨著計(jì)算機(jī)技術(shù)進(jìn)入我國,為了解決計(jì)算機(jī)輸入漢字問題,已研究了四、五百種漢字編碼方案,各有其特長(zhǎng)與不足。目前在全國一定范圍內(nèi)推廣應(yīng)用的方案約有二十幾種(參見《常用漢字編碼字典》,宇航出版社,1990年)。其中有代表性的有《五筆字型》、《前三末一》、《漢字表形編碼》等。這些編碼有一個(gè)共同點(diǎn),即將漢字按其結(jié)構(gòu)特征分解成一百多個(gè)字元(或字根),再將這些字元按筆形特征分布在25個(gè)或多到64個(gè)鍵上。優(yōu)點(diǎn)是可以快速輸入漢字,適用于專職操作員。缺點(diǎn)是難學(xué)易忘,一般需要一個(gè)星期的學(xué)習(xí)期,熟練掌握需要大約一個(gè)月時(shí)間。所以非專職操作員寧愿用重碼率最高、輸入速度較慢的(每分鐘約20字)《緊縮拼音漢字輸入法》。
目前已進(jìn)入實(shí)用的漢字?jǐn)?shù)字碼有1.國際區(qū)位碼;2.電報(bào)碼;3.天府碼;4.筆形編碼;5.四筆法(前三末一簡(jiǎn)碼);6.五筆畫。前兩種按拼音和部首順序排列,4鍵一字,缺點(diǎn)是字碼難記。中間兩種按筆形特征編碼,基本上單字單碼,缺點(diǎn)是字碼太長(zhǎng),有的高達(dá)8位,輸入速度慢。最后兩種易學(xué)易記,但重碼率太高,有的翻頁多達(dá)七、八次,輸入速度慢。
二、發(fā)明的目的本發(fā)明的目的是要推出一種易學(xué)易用既適用于編排漢語、漢外詞典又適用于計(jì)算機(jī)快速輸入漢字的編碼系統(tǒng)。解決漢字排序問題。使查漢字的速度比從英語詞典查英文單詞還要快,計(jì)算機(jī)輸入漢字的速度超過輸入英語單詞的速度。統(tǒng)一漢字筆順。
三、發(fā)明的內(nèi)容本發(fā)明的要點(diǎn)是將構(gòu)成漢字的38種筆畫按對(duì)稱形式分成十類,再將選出的65種起筆部首和字元按筆畫特征也分成相關(guān)的十類。碼元為0-9十個(gè)數(shù)字。制造了筆順法則,統(tǒng)一了筆順,然后嚴(yán)格按筆順法則取碼。
本發(fā)明含A碼本和B碼本。A碼本適用于編排漢語、漢外詞典。B碼本適用于計(jì)算機(jī)漢字輸入。兩碼本按同一原理、同一思路取碼。不相同之處僅在于A碼本的漢字都為四位數(shù)字碼,不足四位以0補(bǔ)之。含辭海中包括繁體字共16345個(gè)漢字(《辭?!房s印本,1980年第1版,上海辭書出版社)。全部字按字碼順序排列,包括字的筆畫和頁碼。用A碼本可以迅速查到辭海中任何漢字。B碼本對(duì)國家一、二級(jí)漢字共6763個(gè)字符按出現(xiàn)頻率取碼,常用高頻字的碼長(zhǎng)為一位、二位,普通字的碼長(zhǎng)為三位、四位。碼本按字碼順序排列。只用小鍵盤十個(gè)數(shù)字鍵或大鍵盤中間十個(gè)鍵(用V、B、G、T、N、H、Y、M、J、U鍵代替0-9十個(gè)數(shù)字鍵)另加上排選字?jǐn)?shù)字鍵可快速輸入漢字,不含詞匯碼的平均碼長(zhǎng)為1.8位。
本發(fā)明的詳細(xì)內(nèi)容如下漢字筆順數(shù)字碼1.本編碼以印刷仿宋體字的筆畫為編碼依據(jù)。
2.所有漢字都是由38種基本筆畫中的數(shù)種構(gòu)成,為便于記憶,將這些筆畫按對(duì)稱形式分成十類,列表如下表1 筆畫分類
3.選出的65種起筆部首和字元按筆畫特征也分成相關(guān)的十類。
①三畫或少于三畫的起筆部首按第一畫取碼,例如0=宀、廣、忄、門;1=扌;2=口、山;3=饣、犭;6=尸、馬;8=女、纟、鄉(xiāng)、幺、。
②四畫起筆部首按第一畫前面加4取碼,例如40=方、礻;42=日、貝。同理,五畫起筆部首按第一畫前面加5取碼,例如51=石;53=禾。所有六畫以上的起筆部首按第一畫前面加7取碼,例如70=
、鹿、…;71=雨、耳、…。
③按字元筆畫碼的和取碼,例如4=工、士、扌、干(121→1+2+1=4,或112→1+1+2=4);4=
(0103→0+1+0+3=4);5=艸(122→1+2+2=5);6=爫(3003→3+0+0+3=6);8=冂、匚(26→2+6=8,17→1+7=8)。
④按字取碼的有一個(gè)字元,即8=
、八。注意此兩畫一定是分開的。
⑤按九大行星(金星、木星、水星、火星、土星)的名取碼,即9=钅、木、氵、火、土。
以上綜合列表如下表2 65個(gè)起筆部首和字元的分類
4.筆順法則 我國當(dāng)前的漢字筆順沒有統(tǒng)一。現(xiàn)行的小學(xué)語文課本以及教學(xué)參考書對(duì)某些字,例如車、皮、匡等,按幾種筆順教學(xué)。辭海中對(duì)同一字元的筆順也沒有統(tǒng)一。本發(fā)明的任務(wù)之一是要統(tǒng)一筆順,故制定了筆順法則。制定此法則時(shí),照顧到了當(dāng)前全國通用小學(xué)語文教材中的寫字筆順習(xí)慣。凡有不同之處,以下舉例作出說明。
表3 筆順法則
注①按表1中的筆畫和表2中的字元依筆順取碼。以上所有例字都是A碼本的,即每個(gè)字的字碼為4位,不足4位以0補(bǔ)之。B碼本的取碼原則和A碼本相同,不同的是按字的出現(xiàn)頻率取碼,常用高頻字的碼長(zhǎng)為一、二位,也即為A碼本中該字字碼的前一、二位。例如,在A碼本中,就=0127,經(jīng)=8604;在B碼本中,就=0,經(jīng)=8。
②在寫字取筆順時(shí),把乛、、看作橫系列。
③左撇高出橫應(yīng)先撇后橫,如先=3437,萬=1360。
④現(xiàn)行小學(xué)語文教材中此類字按兩種筆順教學(xué)。一是先寫中間后加左框;另一是先寫框架后寫里面。本法則按后者取碼。
⑤比字的筆畫豎折是主體,應(yīng)先寫主體再寫橫、撇,符合從左到右的法則。
⑥這幾個(gè)繁體字按傳統(tǒng)寫字習(xí)慣,從左到右,與辭海中的筆畫筆順相符合。學(xué)、興之類的字應(yīng)按傳統(tǒng)寫字習(xí)慣,從左到右。
⑦一般說來,左右對(duì)稱的字、中間為口、言、白的左右對(duì)稱的字,應(yīng)先寫中間后寫兩邊。出字與山字同屬左右對(duì)稱的字,規(guī)定起筆都為豎。
5.取碼法則①嚴(yán)格按筆順法則。
②大元優(yōu)先,即凡是遇到表2中的字元一律按字元碼取碼,而不是按單筆畫碼元取碼。
6.編碼舉例 請(qǐng)參見表3筆順法則中的例字以及附錄一A碼本(適用于編排漢語詞典、漢外詞典)和附錄二B碼本(適用于計(jì)算機(jī)輸入漢字)(節(jié)選的)。
五、效果對(duì)比1.與現(xiàn)有先進(jìn)編碼相比《五筆字型》選用了一百多個(gè)字根安排在25個(gè)鍵上?!肚叭┮弧愤x用了一百多個(gè)字元安排在26個(gè)鍵上。每個(gè)鍵上的字元雖有助記詞也非常難記,對(duì)于非專職操作人員,編碼規(guī)則難學(xué)易忘,這些編碼只適用于專職操作員,不易普及。本編碼只選用65個(gè)字元,字元碼與筆形發(fā)生關(guān)系,按第一畫取碼,規(guī)律性強(qiáng),十分好記,一般半個(gè)小時(shí)可以記住所有筆畫和字元碼。本碼用的鍵位少,鍵位集中,有利于快速輸入漢字。本碼與查字法緊密相關(guān)。當(dāng)A碼本被推廣用于詞典,則B碼本的規(guī)則無需專門記憶,人人皆會(huì),有利于計(jì)算機(jī)普及化?!段骞P字型》與《前三末一》對(duì)大多數(shù)字都需要四鍵一字。本編碼有一千多個(gè)常用高頻字只需要擊一、兩鍵就見字,包括一次選字鍵,平均每字擊鍵2.8次。
2.與現(xiàn)有數(shù)字編碼相比《國際區(qū)位碼》和《電報(bào)碼》都是四鍵一字,但字碼無規(guī)律,要死記硬背。本編碼按字的筆順取碼,見字知碼,2.8鍵一字。《天府碼》和《筆形編碼》碼長(zhǎng)最長(zhǎng)8位,《筆形編碼》平均每字3.3鍵。《四筆法》和《五筆畫》對(duì)大多數(shù)字都是四鍵一字和五鍵一字,而且重碼率高,要多次翻頁。本編碼的最長(zhǎng)碼位數(shù),平均碼長(zhǎng)和翻頁次數(shù)(極少數(shù)字碼最多翻頁一次)都低于上述同類數(shù)字碼。
六、發(fā)明的優(yōu)點(diǎn)和積極效果1.本編碼設(shè)計(jì)科學(xué),每個(gè)碼元和字碼段的字分布均勻,這為減少重碼、縮短碼長(zhǎng)創(chuàng)造了有利條件。
2.筆畫、字元分類科學(xué)。筆畫按對(duì)稱形式編排,金、木、水、火、土為九大行星的名字,把钅、木、氵、火、土巧妙地安排在碼元9上;起筆部首按第一畫,四畫部首筆畫碼前加4,五畫部首筆畫碼前加5,六畫以上部首筆畫碼前加7取碼;其它幾個(gè)字元都按組合筆畫碼元之和取碼。如此科學(xué)安排筆畫和字元碼,并嚴(yán)格按筆順取碼,做到了見字知碼,易學(xué)易用。碼長(zhǎng)短,碼鍵少、集中,可快速輸入漢字。
3.用于詞典的A碼本和用于計(jì)算機(jī)的B碼本按同一原則取碼。只要A碼本被推廣用于編排字典則B碼本自然為大家掌握,為計(jì)算機(jī)普及化、家庭化創(chuàng)造了有利條件。
我國出版的新華字典、現(xiàn)代漢語詞典和辭海的數(shù)量多達(dá)數(shù)千萬冊(cè),若按本發(fā)明A碼本編排字典、詞典,每本詞典可刪去五、六十頁甚至一百多頁的部首檢字表、筆畫檢字表,光這一項(xiàng)可節(jié)約財(cái)富數(shù)百萬元甚至數(shù)千萬元。按數(shù)字碼查字,速度快,簡(jiǎn)便,給億萬炎黃子孫帶來方便,其精神財(cái)富,無法估計(jì)。
4.有利于編輯漢外詞典,如漢英、漢日、漢俄…等詞典。從事這項(xiàng)工作的人皆知,編輯漢外詞典給每個(gè)漢語詞匯注上拼音,然后按拼音字母排序,這是件十分困難之事。而利用本碼給漢語詞匯排序,此項(xiàng)工作將變得簡(jiǎn)便。
5.統(tǒng)一了筆順,為改善中小學(xué)語文教學(xué)創(chuàng)造了有利條件,今后的中小學(xué)語文教學(xué)無須花費(fèi)大量時(shí)間去分清和記憶難查漢字的部首,可使中、小學(xué)生節(jié)約大量檢字時(shí)間。
6.本編碼兼顧繁體字,有利于向海外華人推廣。
7.為圖書、檔案、單位名錄、電話本的漢字排序提供了科學(xué)方法。
七、實(shí)施方式1.向中國專利局申請(qǐng)專利,并要求提前公開。
2.專利受理以后向國家語言文字工作委員會(huì)和國家教委提出報(bào)告,請(qǐng)求推廣應(yīng)用《漢字筆順數(shù)字碼》A碼本。并建議修改小學(xué)語文教材,按統(tǒng)一筆順進(jìn)行教學(xué)。首先向《新華字典》推廣,應(yīng)用本碼編排字序。
3.與計(jì)算機(jī)廠家聯(lián)系,推廣應(yīng)用《漢字筆順數(shù)字碼》B碼本。
附錄二 漢字筆順數(shù)字碼(B碼本)字碼 字 字碼 字8 能級(jí)經(jīng)如因同女八鄉(xiāng)幺 8121 嫣8* 纟冂匚 8122 縉婭80 綜統(tǒng)簡(jiǎn)縮管臺(tái)編篇參纊 8123 筮80* 厶 8125 筇801 嫁叁紋絞篙綻籬姣婷嬗 813 恩籠緬娠緘盎鴦箴绔綺8012 縞 8131 縟8013 縭弁畚毿 8134 繚802 怠迨炱邰綰 8136 紱803 允圈箭嫌絆牟矣婉娣綣 8137 籀8031 罔縊縑姘姹 8138 囿8032 嬪繽 814 筻綆8034 簞嬋 815 韁箝8036 箢綈媯 816 姨筢籜婕8038 繒 817 囤兮簪紂804 纏嬸 818 圃縛箍篥簟嫖縹806 娘妒筷匾 819 繞嬈808 壘熊逡皴 82 回娛妙織幅籃紗巾叵809 嫻嬤 820 恕嫦迥筲綃绱81 練線純團(tuán)固續(xù)策園籌央 821 匪綽緋幃幬811 圍緯絨箋綁竽竺笄紆妍 822 幟幀貼皿頤纜煕匱賾幞8112 篝媾 8221 繾繢簣8113 嫵 8222 繰8118 紜 823 篩帕帆帳帷帙幡812 姑筑嫩典妓圄簌籟縝筘 824 圓繩帽幌幢幔幛8120 嬙 825 幘字碼 字 字碼 字826 臣臥幄帔 837 見紙匹婚笫姊827 緝媸絀 838 篦媲828 娟絹絮媧幗 84 等結(jié)紅妨紡緒妹竿奸冉83 四答絕圖終約給區(qū)內(nèi)筆 840 簇締圉830 剛歐縱欲姚網(wǎng)肉鷗岡囚 841 笠匭嫜8301 甌 842 笛紳匣纓嬉娼妯娌縵緹8302 鵒 8421 妲笪纈8303 毆 8422 娉831 醫(yī)纖笑妖娥嬌翳綞紇笮 8427 緄832 符維緞筏筱篌筵緶縋緱 8428 郾媼833 匠篪笊絎 843 繃筋姥箸834 繪爸父簽綿繳谷斧爹妊 844 娃8340 囹饗妗 848 嫡綾8342 婢篼篁 85 國算組細(xì)績(jī)媒姐緲匡籮8343 筅姝纘 850 嫉箜8344 釜 851 簧匿箕紺箬紲慝簸8345 筌 852 篡纂篾嫘箅緦縲繯圜8346 爺 853 繡婊8347 綸圇 854 簀嫫835 姓媳笙 858 圊箐婧836 奶綢絡(luò)縫篷絢娩絳箏紈 86 第好分努婦紀(jì)她貧巨媽8360 妁 幻篤8362 笱 860 綴簦妤媛紓綬繆8363 笏姍?quán)? 861 緩綠筍紐娜簫妃妞緩紼8364 絳綹笈 8611 簋8366 縐 8612 笥字碼 字 字碼 字8617 緡 9 本地機(jī)沒法流活根木火862 婿媚笆婀 9* 钅氵863 頒紹幼盆紉岔忿娓笤笳 90 注增校述術(shù)深濟(jì)液演濃8630 籩 鍆壙8634 坌 900 杰鐮燜濂鈄櫸864 奴怒繹帑弩胬孥駑 901 核杭滾棕墳淬淀瀾壤錠867 妮囝 9011 烷锎淙浣垸868 綏 9012 墩鑲淳壕鎬锿鐓椋濠汴87 繼籍糾嫂緣姆繕縷簍糸 槁榱槨870 姒簏籪 9013 坑炕漓銥鎵垴鈧沆汶瀏871 孀篳紕緙妣 9014 楦渲煊876 篆 9017 檸濘瀛88 公始綱頌筒絲匝巡紛納 9018 澈鉸梳柿檀檁鈰銃鑭垓880 翁甕紿笞 锍炫鎏澶泫鉉881 姻囡畿鷥篋 902 棺櫚涫882 姬笸篚 903 欄洲滋梯銳溯溢濱爛銻883 嫗筧 9031 燧湔鐠錈鎰885 筐 9032 檳鑌888 巢剿邕緇繅甾邋 9034 泮888* 巛 9036 涕镲檫溈89 困簿笨箔筠箱緗 9037 樽904 樁澗锏瀋滓905 渡潤(rùn)柱鍍炷鏘906 浪滬泳沈沉爐瀉枕塘渾9061 榔溏墉鏞鋃9063 榷滸
權(quán)利要求
本發(fā)明屬于漢字編碼,用0-9十個(gè)數(shù)字作碼元進(jìn)行編碼。1、本發(fā)明的特征是將構(gòu)成漢字的38種筆畫按對(duì)稱形式分成10類。再將選出的65種字元按起筆筆畫、字元筆畫數(shù)、字元組合筆畫碼之和以及天文學(xué)9大行星名稱的特征將它們分成相關(guān)的10類。
2.根據(jù)權(quán)利要求1所述,38種筆畫按對(duì)稱形式分成10類以0代表丶
;以1代表一;以2代表丨;以3代表
丿
;以4代表
;以5代表
;以6代表橫系列的13種筆畫乛
ㄋ
乙
(與碼元1的筆畫對(duì)稱);以7代表豎系列的8種筆畫亅
(與碼元2的筆畫對(duì)稱);以8代表撇系列的
(與碼元3的筆畫對(duì)稱);以9代表
(與碼元4的筆畫對(duì)稱)。
3.根據(jù)權(quán)利要求1所述,選出的65種字元按起筆筆畫、字元筆畫數(shù)、字元組合筆畫碼之和以及9大行星名稱的特征將它們分成相關(guān)的10類按起筆部首第一畫取碼的有以0代表宀、廣、忄、門;以1代表扌;以2代表口、山;以3代表饣、犭;以6代表尸、馬;以8代表女、纟、鄉(xiāng)、幺、
(糹)。按字元筆畫數(shù)及第一畫取碼的有以40代表方、礻;以41代表王、歹、車(車);以42代表日、貝(貝);以43代表月;以50代表立、
、疒、衤;以51代表石;以52代表目、且、田、罒;以53代表禾;以70代表
、鹿、
、羊、
、米;以71代表
、走、耳、革、酉;以72代表虍、齒、髟、且、
、蟲、骨、黑;以73代表臼、魚(魚)、舟。按字元組合筆畫碼之和取碼的有以4代表工、土、扌、干(121→1+2+1=4或112→1+1+2=4)、
(0103→0+1+0+3=4);以5代表王、
、羊、
(1121→1+1+2+1=5或1112→1+1+1+2=6)、艸(122→1+2+2=5);以6代表爫(3003→3+0+0+3=6);以8代表冂、
(26→2+6=8)、匚(17→1+7=8)、(310310→3+1+0+3+1+0=8)。按9大行星名稱取碼的有以9代表钅(
)、木(木)、氵、火(火)、土。
全文摘要
將構(gòu)成漢字的38種筆畫按對(duì)稱形式分成十類,再將選出的65種起筆部首和字元按筆畫特征分成相關(guān)的十類。制定了筆順法則,統(tǒng)一了筆順。然后嚴(yán)格按筆順取碼。見字知碼,易學(xué)易用。本發(fā)明含A、B碼本。A碼本含辭海中16345個(gè)漢字,適用于編排漢語、漢外詞典,為四位數(shù)字碼。按字碼可迅速查到辭海中任何漢字。B碼本適用于計(jì)算機(jī),對(duì)6763個(gè)漢字按出現(xiàn)頻率取碼,碼長(zhǎng)1—4位,高頻字為1—2位。用10個(gè)數(shù)字鍵就可快速輸入漢字。不含詞匯碼的平均碼長(zhǎng)為1.8位。
文檔編號(hào)G06F3/023GK1066334SQ9210194
公開日1992年11月18日 申請(qǐng)日期1992年3月28日 優(yōu)先權(quán)日1992年3月28日
發(fā)明者萬孟章, 胡金 申請(qǐng)人:萬孟章, 胡金