專利名稱:多功能漢字筆劃字庫的制作方法
目前通用的漢字字庫,如GB2312-80的6763個(gè)字符采用“區(qū)位”排列,1601是“啊”,1602是“阿”,1643是“八”,5027是“一”,7664是“爨”。區(qū)位碼與所代表的字之間具有單一的對應(yīng)性,起到交換作用,除了有部分拼音和部首聯(lián)系外,沒有更多的功能,比如排序功能。某種代碼具有多種功能是事物科學(xué)性的追求,那么6763個(gè)字符,還有沒有其它的排列方法,使其既具有區(qū)位碼的單一對應(yīng)性,同時(shí)又能對字符進(jìn)行筆劃、部首和拼音排序,使字庫兼有多種文字處理能力。
本發(fā)明就是針對以上追求而設(shè)計(jì)的一種新的多功能漢字筆劃字庫,它是這樣實(shí)現(xiàn)的對字庫的內(nèi)容,如現(xiàn)行國家標(biāo)準(zhǔn)GB2312-80字庫所包括的6763個(gè)字符,按漢字傳統(tǒng)的筆劃筆順次序排列,組建成多功能漢字筆劃字庫(附圖
)。0001是,“一”,1000是“噸”,6763是“爨”。
字符排列的方法是筆劃少的在前,筆劃多的在后。筆劃相同時(shí),用筆形相區(qū)別。按字的結(jié)構(gòu),依筆順順序分解成單筆筆形。再依某種筆形排序的規(guī)定,分出先后。如目前通用的“札”字法,即一、丨、丿、丶、乙五種筆形,按1、2、3、4、5的次序排列。筆順筆形相同時(shí),加拼音相區(qū)別。拼音相同時(shí),求異讀異聲相區(qū)別。仍然相同時(shí),加修正值相區(qū)別。務(wù)求精確區(qū)分,達(dá)到“1對1”映射。修正值從字的形、音、義上尋找區(qū)別因素,進(jìn)行復(fù)分。應(yīng)有原則性、靈活性、可比性和操作性并約定俗成。如以字形中不相同的部分加拼音相區(qū)分挨+s(提手),埃+t(提土);驛+m(馬),繹+s(絲);以字形簡繁長短相區(qū)分,卩在阝前,矢在失前。多功能漢字筆劃字庫排列法提高了漢字筆劃排序的科學(xué)性,加拼音區(qū)分出末(M)、示(S)、未(w),取偏旁區(qū)分出挨(提手)、埃(提土)、驛(馬)、繹(絲),解決了原來筆劃筆順排序中無法區(qū)分的“盲區(qū)”。另列出字符的部首代碼,供部首筆劃排序時(shí)使用。代碼依某種工具書而定,如《辭源》采用250個(gè)部首,“丨”在第2位,“口”在第31位,那么“中”字的《辭源》部首代碼是002,“國”字是031。
筆劃字庫碼與區(qū)位碼之間,由于和同一字符都具有單一對應(yīng)性,也自然形成對應(yīng)關(guān)系因此筆劃碼與現(xiàn)有機(jī)內(nèi)碼之間可以轉(zhuǎn)換,與現(xiàn)有中文信息存取制機(jī)兼容,可以作為交換碼成為國家標(biāo)準(zhǔn)。如“啊”的區(qū)位碼是1601,筆劃碼是3052?!耙弧钡膮^(qū)位碼是5027,筆劃碼是0001。“爨”的區(qū)位碼是7664,筆劃碼是6763。字庫筆劃碼同時(shí)也是字符排序碼。用這種區(qū)位對應(yīng)碼,可以直接進(jìn)行6763個(gè)字符內(nèi)的排序。用原始的字庫筆劃碼做排序數(shù)據(jù)庫,如“啊”的原始筆劃碼為(030)(《辭源》中“口”部列30位)10(10劃)2515212512(筆順筆形丨、乙、一、乙、丨、一、丨、乙、一、丨)aa(拼音一聲),則可以接待6763個(gè)字符之外新加字的排序,具有開放性。以原始碼或區(qū)位對應(yīng)碼作字庫排序附屬卡或軟件同樣具有排序功能。
多功能筆劃字庫的優(yōu)點(diǎn)是既具有區(qū)位碼單一對應(yīng)性,又有字的筆劃、筆順筆形、拼音和部首的內(nèi)在聯(lián)系,筆劃字庫碼同時(shí)也是字的筆劃排序次序碼。小的排在前,大的排在后,使筆劃字庫碼直接具有對字符進(jìn)行筆劃、拼音和部首排序的功能。提高了字庫的合理性、科學(xué)性和完善性,符合漢字傳統(tǒng)的排序習(xí)慣。在辭書編纂,人名筆劃排序、筆劃目錄、檢字表索引編制和文字識別,傳輸,壓縮等領(lǐng)域有應(yīng)用前景。
以前漢字筆劃排序有多種排序規(guī)定,如“元享利貞”法(一、丶、丿、丨),“江山千古”法(丶、丨、丿、一), “寒來暑往”法(丶、一、丨、丿),“札”字法(一、丨、丿、丶、乙)等。讀者要懂得多種排序規(guī)定才能檢索使用各種工具書?,F(xiàn)在通過多功能筆劃字庫無形中使筆劃排序規(guī)定有了統(tǒng)一標(biāo)準(zhǔn),非常有利于工具書編纂、編目、索引編制和讀者檢索利用。
多功能筆劃字庫的組建方法適用于漢字繁體,對使用漢字的外國字庫和信息處理具有模式意義。所形成的原始字庫筆劃碼具有兼容性和開放性。字庫直接具有字符排序功能。如能被國際通用則促成了世界漢字排序方法和標(biāo)準(zhǔn)的統(tǒng)一,有利于文化和信息交流,是漢文出版界和讀者盼望的一件喜事。
權(quán)利要求
本發(fā)明提出了一種新的組建多功能漢字筆劃字庫的方法,其特征是1、對字庫的內(nèi)容,如現(xiàn)行國家標(biāo)準(zhǔn)GB2312----80字庫所包括的6763個(gè)字符,按漢字傳統(tǒng)的筆劃筆順次序排列,組建成多功能筆劃字庫。0001是“一”,6763是“爨”。
2.字符排列的方法是筆劃少的在前,筆劃多的在后。筆劃相同時(shí),用筆形相區(qū)別。按字的結(jié)構(gòu),依筆順順序分解成單筆筆形。再依某種筆形排序的規(guī)定,分出先后。如目前通用的“札”字法,即一、丨、丿、丶、乙五種筆形,按1、2、3、4、5的次序排列。筆順筆形相同時(shí),加拼音相區(qū)別。拼音相同時(shí),求異讀異聲相區(qū)別。仍然相同時(shí),加修正值相區(qū)別。務(wù)求精確區(qū)分,達(dá)到“1對1”映射。
3.修正值從字的形、音、義上尋找區(qū)分因素,進(jìn)行復(fù)分。應(yīng)有原則性、靈活性、可比性和操作性并約定俗成。如以字形中不相同的部分加拼音相區(qū)分挨+s(提手),埃+t(提土);驛+m(馬),繹+s(絲);以字形簡繁長短相區(qū)分,卩在阝前,矢在失前。
4.另列出字符的部首代碼,供部首筆劃排序時(shí)使用。代碼依某種工具書而定,如《辭源》采用250個(gè)部首,“丨”在第2位,“口”在第31位,那么“中”字的《辭源》部首代碼是002,“國”字是031。
5.筆劃字庫碼與區(qū)位碼之間,由于和同一字符都具有單一對應(yīng)性,也自然形成對應(yīng),因此,筆劃碼與現(xiàn)有機(jī)內(nèi)碼之間可以轉(zhuǎn)換,與現(xiàn)有中文信息存取機(jī)制兼容,可以作為交換碼成為國家標(biāo)準(zhǔn)。如“啊”的區(qū)位碼是1601,筆劃碼是3052,“一”的區(qū)位碼是5027,筆劃碼是0001?!办唷钡膮^(qū)位碼是7664,筆劃碼是6763。用這種區(qū)位對應(yīng)碼,可以直接進(jìn)行6763個(gè)字符內(nèi)的排序。用原始的多功能字庫筆劃碼做字符排序數(shù)據(jù)庫,如“啊”的筆劃原始碼為(030)(《辭源》中“口”部列30位)10(10劃)2515212512(筆順筆形丨、乙、一、乙、丨、一、丨、乙、一、丨)aa(拼音一聲),則可以接待6763個(gè)字符之外新加字的排序,具有開放性。以原始碼或區(qū)位對應(yīng)碼作字庫排序附屬卡或軟件同樣具有字符排序功能。
6.多功能筆劃字庫的優(yōu)點(diǎn)是既具有區(qū)位碼的單一對應(yīng)性,又有字的筆劃、筆順筆形、拼音和部首的內(nèi)在聯(lián)系,字庫碼同時(shí)也是字的次序碼。小的排在前,大的排在后,使筆劃字庫碼直接具有對字符進(jìn)行筆劃、拼音和部首排序的功能。提高了字庫的合理性、科學(xué)性、完善性,也符合漢字傳統(tǒng)的排序習(xí)慣。在辭書編纂,人名筆劃排序、筆劃目錄、檢字表、索引編制和中文識別,傳輸,壓縮等領(lǐng)域有應(yīng)用性前景。
7.以前漢字筆劃排序有多種規(guī)定,讀者要懂得多種排序規(guī)定才能檢索使用各種工具書?,F(xiàn)在通過多功能漢字筆劃字庫無形中使筆劃排序規(guī)定有了統(tǒng)一標(biāo)準(zhǔn),非常有利于工具書編纂、編目、索引編制和讀者檢索利用。
8.多功能筆劃字庫的組建方法適用于漢字繁體。對使用漢字的外國字庫和信息處理具有模式意義。所形成的原始字庫筆劃碼具有兼容性和開放性,直接具有字符排序功能。如能被國際通用,則促成了世界漢字排序方法和標(biāo)準(zhǔn)的統(tǒng)一,有利于文化和信息交流,是漢文出版界和讀者盼望的一件喜事。
全文摘要
本發(fā)明設(shè)計(jì)出一種新的按字符筆劃多少排列字庫的方法。筆劃少的在前,多的在后,筆劃相同時(shí)按筆順筆形某種規(guī)定順序排列。筆順筆形相同時(shí)按拼音排列。拼音相同時(shí)求異讀異聲區(qū)別。仍然相同時(shí)加修正值區(qū)別。如“啊”的區(qū)位碼是1601,筆劃碼是3052?!耙弧钡膮^(qū)位碼是5027,筆劃碼是0001?!?爨”的區(qū)位碼是7664,筆劃碼是6763。筆劃碼既有單一對應(yīng)性,又是字符排序的順序,字庫直接具有字符排序功能,使?jié)h字排序標(biāo)準(zhǔn)統(tǒng)一并有兼容性和開放性。多功能漢字筆劃字庫的組建方法適用漢字繁體。對使用漢字的外國字庫和信息處理具有模式意義。
文檔編號G06F3/023GK1200508SQ97109898
公開日1998年12月2日 申請日期1997年5月28日 優(yōu)先權(quán)日1997年5月28日
發(fā)明者王仁富 申請人:王仁富