亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法

文檔序號(hào):6648253閱讀:295來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法
技術(shù)領(lǐng)域
本發(fā)明屬于計(jì)算機(jī)漢字信息處理領(lǐng)域,具體涉及一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法。
背景技術(shù)
截至目前,已經(jīng)頒布的國(guó)際編碼標(biāo)準(zhǔn)ISO/IEC 106462003、即將頒布的國(guó)家編碼標(biāo)準(zhǔn)GB13000、GB18030中,已收錄CJK統(tǒng)一漢字、CJK統(tǒng)一漢字?jǐn)U充集A、CJK統(tǒng)一漢字?jǐn)U充集B,共計(jì)70195字。CJK統(tǒng)一漢字?jǐn)U充集C1,正在制定過(guò)程中。
但是,如此龐大的字符集,仍不能滿(mǎn)足公民個(gè)人信息中姓名、住址用字的需求。也就是說(shuō),公民個(gè)人信息中姓名、住址中的冷僻字,目前仍然沒(méi)有被國(guó)際編碼標(biāo)準(zhǔn)所收錄,因而現(xiàn)有的符合國(guó)際或國(guó)家編碼標(biāo)準(zhǔn)的字庫(kù),都無(wú)法支持公民個(gè)人信息中的大量冷僻字的錄入、顯示、打印、存儲(chǔ)、讀取、傳輸、交換及處理。在涉及到公民個(gè)人信息處理的領(lǐng)域,如公安人口信息管理系統(tǒng)、第二代居民身份證制證系統(tǒng)、銀行、保險(xiǎn)、海關(guān)等,經(jīng)常會(huì)遇到居民姓名、住址中的冷僻字的處理問(wèn)題。
目前的現(xiàn)狀是用戶(hù)發(fā)現(xiàn)自己使用的輸入法無(wú)法錄入的漢字,并不清楚是國(guó)際或國(guó)家編碼標(biāo)準(zhǔn)中尚未收錄該漢字,還是輸入法未能覆蓋現(xiàn)有的國(guó)際或國(guó)家編碼標(biāo)準(zhǔn),也就是未經(jīng)編碼查重,就隨便地補(bǔ)一個(gè)字型;然后也未經(jīng)數(shù)據(jù)整理和字形規(guī)范,就隨便地將該字型放到了用戶(hù)自定義區(qū)的某個(gè)位置。如此以來(lái),用戶(hù)自定義區(qū)的漢字,不僅存貯無(wú)序,而且由于未經(jīng)查重、整理,自身就有可能存在字型重復(fù)。更為嚴(yán)重的是,這樣產(chǎn)生的字庫(kù),無(wú)法與其它系統(tǒng)進(jìn)行傳輸、交換。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的是提供一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,該字庫(kù)中存儲(chǔ)有冷僻字,從而能夠解決公民個(gè)人信息姓名、住址中的冷僻字的錄入、顯示、打印、存儲(chǔ)、讀取、傳輸、交換及處理,能夠?qū)崿F(xiàn)公民個(gè)人信息姓名、住址中的冷僻字在全國(guó)范圍內(nèi)的存儲(chǔ)、讀取。
為了實(shí)現(xiàn)以上目的,本發(fā)明采用的技術(shù)方案是
一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,該冷僻字?jǐn)U充字庫(kù)所存儲(chǔ)的漢字為冷僻字,所述的冷僻字為現(xiàn)有國(guó)際或國(guó)家編碼標(biāo)準(zhǔn)中尚未收錄的漢字,包括以下步驟(1)首先確認(rèn)冷僻字為現(xiàn)有的國(guó)際或國(guó)家編碼標(biāo)準(zhǔn)中并未收錄的字;(2)進(jìn)行數(shù)據(jù)整理和字形規(guī)范處理,得出字形信息;;(3)最后根據(jù)每個(gè)冷僻字自身的字形信息,確定出其在該冷僻字?jǐn)U充字庫(kù)中的存貯序列。
進(jìn)一步來(lái)說(shuō),步驟(2)進(jìn)行數(shù)據(jù)整理及字形規(guī)范處理和步驟(3)中的根據(jù)所述字形信息確定出每個(gè)冷僻字在該冷僻字?jǐn)U充字庫(kù)中的存貯序列時(shí)采用如下的方法1)首先選定要擴(kuò)充到字庫(kù)中的冷僻字,然后確定冷僻字的間架結(jié)構(gòu),并根據(jù)冷僻字所含有的部首對(duì)冷僻字進(jìn)行歸部,所述的間架結(jié)構(gòu)包括左右結(jié)構(gòu),上下結(jié)構(gòu),左中右結(jié)構(gòu),上中下結(jié)構(gòu),全包圍結(jié)構(gòu),從上包圍結(jié)構(gòu),從下包圍結(jié)構(gòu),從左包圍結(jié)構(gòu),從左上包圍結(jié)構(gòu),從右上包圍結(jié)構(gòu),從左下包圍結(jié)構(gòu),相嵌結(jié)構(gòu);2)確定冷僻字的剩余筆畫(huà)數(shù)對(duì)于經(jīng)過(guò)第1)步后已經(jīng)歸部的冷僻字,除去部首的筆畫(huà)數(shù),確定該冷僻字的剩余筆畫(huà)數(shù);3)確定冷僻字的剩余筆順序列根據(jù)冷僻字除去部首后的剩余筆畫(huà)的順序,就可以得到該冷僻字的剩余筆畫(huà)順序列,所述的筆畫(huà)為一(橫)、丨(豎)、丿(撇)、丶(點(diǎn))、乛(乚乙)(折),分別用序號(hào)1、2、3、4、5表示;4)依據(jù)冷僻字的使用頻率,對(duì)其進(jìn)行分級(jí),即分為使用頻率相對(duì)較高的一級(jí)和使用頻率相對(duì)較低的一級(jí);5)確定該冷僻字在擴(kuò)充字庫(kù)中的存貯序列。
再進(jìn)一步,上述確定冷僻字的存貯序列方法的步驟4)中,將使用頻率相對(duì)較高的冷僻字,放到了GB18030雙字節(jié)編碼對(duì)應(yīng)的GB13000用戶(hù)自定義區(qū),而將使用頻率相對(duì)較低的冷僻字,放到了GB18030四字節(jié)編碼對(duì)應(yīng)的GB13000用戶(hù)自定義區(qū)。
上述確定冷僻字的存貯序列方法的步驟5)中,首先按使用頻率分級(jí);對(duì)于使用頻率級(jí)別相同的冷僻字,按冷僻字歸入的部首排序;歸部相同的冷僻字,按剩余筆畫(huà)數(shù)排序;剩余筆畫(huà)數(shù)相同的冷僻字,按剩余筆順序列排序。
更進(jìn)一步,步驟(1)中被擴(kuò)充的字庫(kù)采用國(guó)家編碼標(biāo)準(zhǔn)GB18030-2000、GB13000.1-1993或國(guó)際編碼標(biāo)準(zhǔn)ISO/IEC 106462003。目前,收錄漢字?jǐn)?shù)最多的國(guó)家編碼標(biāo)準(zhǔn)是GB18030-2000。
使用本發(fā)明的方法創(chuàng)建的冷僻字?jǐn)U充字庫(kù)的字庫(kù)格式是TrueType字庫(kù)、PostScript字庫(kù)或者用戶(hù)自定義形式的字庫(kù)格式。
本發(fā)明的效果在于采用本發(fā)明所述的冷僻字?jǐn)U充字庫(kù),可以有效地解決公民個(gè)人信息姓名、住址中的冷僻字的錄入、顯示、打印、存儲(chǔ)、讀取、傳輸、交換及處理,從而能夠?qū)崿F(xiàn)公民個(gè)人信息姓名、住址中的冷僻字在全國(guó)范圍內(nèi)的存儲(chǔ)、讀取。


圖1是本發(fā)明所述確定冷僻字的存貯序列方法的流程圖;圖2是三個(gè)冷僻字的示意圖。
具體實(shí)施例方式
如圖1所示,以圖2中的三個(gè)冷僻字為例,現(xiàn)將這三個(gè)冷僻字加入到現(xiàn)有國(guó)際或國(guó)家標(biāo)準(zhǔn)編碼中,創(chuàng)建冷僻字?jǐn)U充字庫(kù)a)編碼查重,確認(rèn)冷僻字這三個(gè)字,都是目前的輸入法無(wú)法錄入的漢字。
經(jīng)查這三個(gè)字,在現(xiàn)有的國(guó)際或國(guó)家編碼標(biāo)準(zhǔn)中并未收錄。
b)冷僻字的歸部確定字的間架結(jié)構(gòu)這三個(gè)冷僻字,都是左右結(jié)構(gòu)。
根據(jù)所含部首進(jìn)行歸部這三個(gè)冷僻字,可歸入相同的部首,“韋”部,部首筆畫(huà)數(shù)為4,部首筆順序列為“1152”。
c)確定冷僻字的剩余筆畫(huà)數(shù)確定除部首外的剩余筆畫(huà)數(shù)這三個(gè)冷僻字,除去部首筆畫(huà)數(shù)4,剩余筆畫(huà)數(shù)均為6。
d)確定冷僻字的剩余筆順序列確定除部首外的剩余筆順序列這三個(gè)冷僻字,除去部首筆順序列“1152”,剩余筆順序列分別為“153512”、“323512”、“451512”。
e)依據(jù)冷僻字的使用頻率分級(jí)依據(jù)使用頻率,這三個(gè)冷僻字,第二個(gè)字使用頻率相對(duì)較高,因此放到了GB18030雙字節(jié)編碼對(duì)應(yīng)的GB13000用戶(hù)自定義區(qū),而第一、第三個(gè)字使用頻率相對(duì)較低,因此放到了GB18030四字節(jié)編碼對(duì)應(yīng)的GB13000用戶(hù)自定義區(qū)。
這種冷僻字的擴(kuò)充字庫(kù),可以直接安裝到Windows、MAC OS、Unix、Linux等操作系統(tǒng)中,供用戶(hù)使用。
安裝了本發(fā)明所述的冷僻字?jǐn)U充字庫(kù)后,可以采用申請(qǐng)?zhí)枮?1115560.4的“電腦漢字典碼輸入方法”中國(guó)發(fā)明專(zhuān)利申請(qǐng)文獻(xiàn)中所公開(kāi)的漢字輸入方法輸入本發(fā)明冷僻字?jǐn)U充字庫(kù)中所擴(kuò)充的冷僻字,各種計(jì)算機(jī)信息處理裝置也可以處理所擴(kuò)充的冷僻字。
本實(shí)施例中的冷僻字?jǐn)U充字庫(kù)的格式是TrueType字庫(kù),當(dāng)然還可以是其他格式的字庫(kù)或者是任何自定義形式的字庫(kù)格式。
本發(fā)明所述的方法并不限于具體實(shí)施方式
中所述的實(shí)施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實(shí)施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,該冷僻字?jǐn)U充字庫(kù)所存儲(chǔ)的漢字為冷僻字,所述的冷僻字為現(xiàn)有國(guó)際或國(guó)家編碼標(biāo)準(zhǔn)中尚未收錄的漢字,包括以下步驟(1)首先確認(rèn)冷僻字為現(xiàn)有的國(guó)際或國(guó)家編碼標(biāo)準(zhǔn)中并未收錄的字;(2)進(jìn)行數(shù)據(jù)整理和字形規(guī)范處理,得出字形信息;(3)最后根據(jù)每個(gè)冷僻字自身的字形信息,確定出其在該冷僻字?jǐn)U充字庫(kù)中的存貯序列。
2.如權(quán)利要求1所述的一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,其特征是步驟(2)進(jìn)行數(shù)據(jù)整理及字形規(guī)范處理和步驟(3)中的根據(jù)所述字形信息確定出每個(gè)冷僻字在該冷僻字?jǐn)U充字庫(kù)中的存貯序列時(shí)采用如下的方法1)首先選定要擴(kuò)充到字庫(kù)中的冷僻字,然后確定冷僻字的間架結(jié)構(gòu),并根據(jù)冷僻字所含有的部首對(duì)冷僻字進(jìn)行歸部,所述的間架結(jié)構(gòu)包括左右結(jié)構(gòu),上下結(jié)構(gòu),左中右結(jié)構(gòu),上中下結(jié)構(gòu),全包圍結(jié)構(gòu),從上包圍結(jié)構(gòu),從下包圍結(jié)構(gòu),從左包圍結(jié)構(gòu),從左上包圍結(jié)構(gòu),從右上包圍結(jié)構(gòu),從左下包圍結(jié)構(gòu),相嵌結(jié)構(gòu);2)確定冷僻字的剩余筆畫(huà)數(shù)對(duì)于經(jīng)過(guò)第1)步后已經(jīng)歸部的冷僻字,除去部首的筆畫(huà)數(shù),確定該冷僻字的剩余筆畫(huà)數(shù);3)確定冷僻字的剩余筆順序列根據(jù)冷僻字除去部首后的剩余筆畫(huà)的順序,就可以得到該冷僻字的剩余筆畫(huà)順序列,所述的筆畫(huà)為橫、豎、撇、點(diǎn)、折,分別用序號(hào)1、2、3、4、5表示;4)依據(jù)冷僻字的使用頻率,對(duì)其進(jìn)行分級(jí),即分為使用頻率相對(duì)較高的一級(jí)和使用頻率相對(duì)較低的一級(jí);5)確定該冷僻字在擴(kuò)充字庫(kù)中的存貯序列。
3.如權(quán)利要求2所述的一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,其特征是所述確定冷僻字的存貯序列方法的步驟4)中,將使用頻率相對(duì)較高的冷僻字,放到了GB18030雙字節(jié)編碼對(duì)應(yīng)的GB13000用戶(hù)自定義區(qū),而將使用頻率相對(duì)較低的冷僻字,放到了GB18030四字節(jié)編碼對(duì)應(yīng)的GB13000用戶(hù)自定義區(qū)。
4.如權(quán)利要求2或3所述的一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,其特征是所述確定冷僻字的存貯序列方法的步驟5)中,冷僻字的存貯序列為首先按使用頻率分級(jí);對(duì)于使用頻率級(jí)別相同的冷僻字,按冷僻字歸入的部首排序;歸部相同的冷僻字,按剩余筆畫(huà)數(shù)排序;剩余筆畫(huà)數(shù)相同的冷僻字,按剩余筆順序列排序。
5.如權(quán)利要求1、2或3所述的一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,其特征是步驟(1)中被擴(kuò)充的字庫(kù)采用國(guó)家編碼標(biāo)準(zhǔn)GB18030-2000、GB13000.1-1993或國(guó)際編碼標(biāo)準(zhǔn)ISO/IEC 106462003。
6.如權(quán)利要求4所述的一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,其特征是步驟(1)中被擴(kuò)充的字庫(kù)采用國(guó)家編碼標(biāo)準(zhǔn)GB18030-2000、GB13000.1-1993或國(guó)際編碼標(biāo)準(zhǔn)ISO/IEC 106462003。
7.如權(quán)利要求1、2或3所述的一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,其特征是使用本發(fā)明的方法創(chuàng)建的冷僻字?jǐn)U充字庫(kù)的字庫(kù)格式是TrueType字庫(kù)、PostScript字庫(kù)或者用戶(hù)自定義形式的字庫(kù)格式。
8.如權(quán)利要求6所述的一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,其特征是使用本發(fā)明的方法創(chuàng)建的冷僻字?jǐn)U充字庫(kù)的字庫(kù)格式是TrueType字庫(kù)、PostScript字庫(kù)或者用戶(hù)自定義形式的字庫(kù)格式。
全文摘要
本發(fā)明涉及一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,屬于計(jì)算機(jī)漢字信息處理領(lǐng)域?,F(xiàn)有的公民個(gè)人信息的姓名、住址等信息中常會(huì)有冷僻字,無(wú)法實(shí)現(xiàn)計(jì)算機(jī)的存儲(chǔ)和讀取。本發(fā)明所述的一種創(chuàng)建冷僻字?jǐn)U充字庫(kù)的方法,采用字庫(kù)技術(shù),對(duì)現(xiàn)有的公民個(gè)人信息中姓名、住址中出現(xiàn)的冷僻字,根據(jù)每個(gè)漢字的字形信息,給出了它們?cè)谧謳?kù)中特定的存貯序列,用于實(shí)現(xiàn)姓名、住址中的冷僻字的計(jì)算機(jī)等信息處理設(shè)備的錄入、顯示、打印、存儲(chǔ)、讀取、傳輸、交換及處理。采用本發(fā)明所述的擴(kuò)充字庫(kù),可以實(shí)現(xiàn)對(duì)公民個(gè)人信息中的姓名、住址中的冷僻字進(jìn)行整理、規(guī)范,該字庫(kù)可廣泛地應(yīng)用于涉及到公民個(gè)人信息的姓名、住址的領(lǐng)域。
文檔編號(hào)G06F17/27GK1741006SQ20051010496
公開(kāi)日2006年3月1日 申請(qǐng)日期2005年9月22日 優(yōu)先權(quán)日2005年9月22日
發(fā)明者尹江紅, 高玉軍, 唐英敏 申請(qǐng)人:北京北大方正電子有限公司, 北京大學(xué)
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1