亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種支持四字節(jié)的典籍數據庫與歷史地理信息系統(tǒng)關聯的方法

文檔序號:6559221閱讀:152來源:國知局
專利名稱:一種支持四字節(jié)的典籍數據庫與歷史地理信息系統(tǒng)關聯的方法
技術領域
本發(fā)明屬于計算機技術領域,具體涉及一種實現支持四字節(jié)的典籍數據庫 與歷史地理信息系統(tǒng)關聯的方法。
背景技術
統(tǒng)一碼(Unicode)的學名是〃Universal Multiple-Octet Coded Character Set",簡稱為UCS。 UCS規(guī)定了如何用多個字節(jié)表示各種文字的具體方法。目前 在UCS中已經被編碼的東亞表意字符大約有7萬多個,其中大部分是生僻漢字。 UCS有兩種格式UCS-2和UCS-4 。顧名思義,UCS-2就是用兩個字節(jié)編碼,UCS-4 是用4個字節(jié)編碼(實際上只用了31位,最高位必須為0)。這些編碼的傳輸依 照UTF(UCS Transformation Format)設定的規(guī)范進行,常見的UTF規(guī)范包括 UTF-7、 UTF-8以及UTF-16。典籍數據庫是將古籍文獻和出土文獻等內容加以整理并錄入計算機的電子 資源數據庫。目前北京時代瀚堂科技公司的古籍檢索系統(tǒng) (http:〃www. neohytung.com)及其在數據庫中的應用"龍語瀚堂典籍數據庫" (http:〃ww. dragoninfo. cn)就是一個可以支持UCS-4標準的典籍數據庫,目 前可以對于包括大量生僻漢字在內的七萬多漢字實現査詢、顯示等各種功能。地理信息系統(tǒng)(GIS, Geographic Information System)是一種基于計算機 的工具,它可以對地球上存在的東西和發(fā)生的事件進行成圖和分析。GIS技術可 以將具有獨特視覺化效果和地理分析功能的地圖與一般的數據庫操作(例如查詢 和統(tǒng)計分析等)集成在一起。隨著科學技術的進步,GIS技術日漸成熟,將歷史 數據輸入GIS已經不存在技術上的障礙,通過因特網發(fā)布GIS的成果已經完全可
歷史地理信息系統(tǒng)(HGIS)是各個歷史時期基礎地理信息系統(tǒng)數據庫,該系 統(tǒng)依據GIS技術,表達隨著時間變遷而改變的基礎地理信息空間分布,同時為用 戶提供最簡潔的數據査詢、檢索、編繪數據地圖和連接用戶數據的功能。如輸入 歷史年份、地名等關鍵詞,就可以査詢在特定時間,特定地點的歷史地理信息。目前與中國相關的歷史地理信息系統(tǒng),如"中華文明之時空基礎架構"(臺 灣中央研究院http:〃ccts. sinica. edu. tw),其采用遵循BIG5標準的格式存儲 和傳輸這些編碼;又如"中國歷史地理信息系統(tǒng)"(復旦大學歷史地理研究中心 http:〃yugong. fudan. edu. cn/Ichg/Chgis—Intr. asp),其采用遵循GB2312標準 的格式存儲和傳輸這些編碼。它們都只能處理雙字節(jié)字符的査詢和顯示,對于符 合統(tǒng)一碼(Unicode)標準的所有含有四字節(jié)的文本內容無法進行查詢。這些系 統(tǒng)對于UCS-2以外的漢字采用圖片替代或自行造字的方式進行顯示,用自行設定 的編碼進行存儲。歷史地理信息和中文典籍數據之間有著緊密的聯系。 一方面,中文典籍數據 的整理和研究需要依靠歷史地理信息,如對于著名詩人李白生平經歷的研究, 在歷史地理信息系統(tǒng)的協(xié)助下會更為有效準確,可將時間、地點、人物同時呈現 給査詢者;另一方面,歷史地理信息需要中文典籍數據的豐富內容來補充,如 對于黃河改道的研究中,將典籍數據中對黃河改道的描述與歷史地理信息對應和 聯系起來就可以更加便捷準確地得出結論,典籍數據庫可為歷史地理信息研究提 供史料支持。由于使用統(tǒng)一碼(Unicode)編碼的四字節(jié)生僻漢字主要出現在古 代地名、人名等專有名詞中,因此在將歷史地理信息系統(tǒng)和中文典籍數據庫進行 結合的過程中,需要考慮生僻漢字的問題?,F有的歷史信息系統(tǒng)對UCS-2以外的漢字通常使用自行造字或圖片替代的 處理方法。圖片替代的方法僅能解決非UCS-2漢字在系統(tǒng)中的顯示問題;同時, 現有歷史信息系統(tǒng)使用造字的方法雖可解決非UCS-2漢字的顯示問題,卻無法與 其他系統(tǒng)相互兼容。由于現有的使用圖片或造字的方法不符合任何國際或者國內 標準,使得常規(guī)的歷史地理信息系統(tǒng)的內容無法完全在系統(tǒng)外使用通用瀏覽器顯 示和保存,也無法實現對包含四字節(jié)編碼的東亞表意文字進行搜索和査詢,所以 目前的系統(tǒng)無法實現典籍數據庫與歷史地理信息系統(tǒng)之間正常、全面的關聯。

發(fā)明內容
鑒于上述原因,本發(fā)明的主要目的是提供一種實現支持四字節(jié)的中文典籍數 據庫與支持四字節(jié)的歷史地理信息系統(tǒng)相互之間關聯的方法。
為了能對含有四字節(jié)文字的文本內容進行檢索,需要將歷史地理信息與典籍 數據中的文本內容建立相應的索引,并將它們中的所有的地名、人名等專有名詞 信息抽取出來組成轉換對應表。
兩個系統(tǒng)的關聯方式如下-
A、 當從典籍數據庫向歷史地理信息系統(tǒng)關聯時,將典籍數據庫中該記錄的 地名信息通過轉換對應表進行轉換,對轉換后的地名信息附加上年代等 專有名詞信息在歷史地理信息索引中檢索,從而關聯到歷史地理信息系統(tǒng)。
B、 當從歷史地理信息系統(tǒng)向典籍數據庫關聯時,將歷史地理信息系統(tǒng)中該 記錄的地名信息通過轉換對應表進行轉換,對轉換后的地名信息附加上 年代等信息在典籍數據索引中檢索從而關聯到典籍數據庫。
本發(fā)明的優(yōu)點與技術效果
由于四字節(jié)生僻漢字在典籍數據庫與歷史地理信息系統(tǒng)中的客觀存在,導致 在目前的典籍數據庫與歷史地理信息系統(tǒng)之間建立全面關聯存在困難。本發(fā)明使用了支持統(tǒng)一碼(Unicode)四字節(jié)編碼東亞表意文字的搜索引擎和支持統(tǒng)一碼 (Unicode)四字節(jié)編碼東亞表意文字的繁簡、中日韓、異體字的相互轉換和包 含統(tǒng)一碼(Unicode)四字節(jié)編碼東亞表意文字地名、山脈、河流、湖泊、沙漠、 海岸線等主要自然地理要素的古今名稱、俗稱、別名的相互對應模塊,極大地提 高了歷史地理信息和典籍數據間關聯的有效性和全面性;并將歷史地理信息系統(tǒng) 和中文典籍數據庫的功能進行了擴展,用戶通過這種方法可以更為方便地使用這 兩個系統(tǒng),更為有效地獲取索取信息,提高研究工作的效率。


圖1為本發(fā)明在典籍數據庫與歷史地理信息系統(tǒng)之間的關聯方式示意圖
具體實施方式
本發(fā)明對典籍數據與歷史地理信息建立索引及結合對四字節(jié)文字的特殊處 理方法,具體實施步驟如下A. 在典籍數據庫中,記錄與文檔相關的地名、時間等信息。如對某一首詩歌的記錄,補充詩歌的創(chuàng)作年代,寫作地點;對甲骨文、金文、簡帛、璽印等 出土文獻、文物的記錄補充出土地點,文物年代信息。這樣有利于將典籍數據和 歷史地理信息更準確、有效、全面的聯系起來;B. 使用支持統(tǒng)一碼(Unicode)四字節(jié)編碼東亞表意文字的搜索引擎對典籍 數據庫中的所有文檔內容(包括A步驟記錄的內容)建立査詢索引。所謂建立索 引就是使用支持四字節(jié)編碼文字的方式對含有四字節(jié)編碼文字的文檔內容進行 分析,從而建立倒排表的過程。通過這個過程,可以得到供査詢檢索時所使用的 倒排表。而含有四字節(jié)編碼文字的文檔的內容是指以某種格式保存的典籍數據內 容,包括在A步驟中額外補充的與歷史地理信息相關的內容。C. 使用支持統(tǒng)一碼(Unicode)四字節(jié)編碼東亞表意文字的搜索引擎對歷史地理信息系統(tǒng)中的地名、時間以及相關的各種補充信息等建立査詢索引。對包含 統(tǒng)一碼(Unicode)四字節(jié)編碼東亞表意文字的信息,尤其是四字節(jié)漢字圖片和 造字字符需改成統(tǒng)一碼(Unicode)編碼格式。和B步驟類似,這里是對歷史地 理信息系統(tǒng)中的文本內容建立倒排表索引。歷史地理信息系統(tǒng)中的文本內容包括 地名,時間,相關事件,補充描述等,地名包括聚落、行政區(qū)域和疆域、自然地 理要素;時間包括公元紀年、年號紀年、干支紀年等多種時間信息的綜合。D. 將歷史地理信息和典籍數據中的所有地名、年代信息抽取出來組成轉換 對應表,該表含有四字節(jié)編碼的文字。例如歷史地理信息系統(tǒng)的"永巷"對應典 籍數據庫的"永銜"、"永銜"。E. 通過包含統(tǒng)一碼(Unicode)四字節(jié)編碼東亞表意文字的繁簡、中日韓、 異體字的相互對應,以及使用轉換對應表對包含統(tǒng)一碼(Unicode)四字節(jié)編碼
東亞表意文字地名的簡體、繁體、今地所在、古今俗稱、別名的相互對應,從而 實現針對歷史地理信息的對應轉換。F. 從典籍數據庫向歷史地理信息系統(tǒng)關聯時,將典籍數據庫中該記錄的地名等信息通過E中的方式進行轉換,得到一系列査詢關鍵詞,并按照一定的査詢 邏輯在C步驟建立的索引中進行査詢檢索,得到與典籍數據庫該條記錄相關的一 系列歷史地理信息,從而關聯到歷史地理信息系統(tǒng)。G. 從歷史地理信息系統(tǒng)向典籍數據庫關聯時,將歷史地理信息系統(tǒng)中該記 錄的地名等信息通過E中的方式進行轉換,得到一系列査詢關鍵詞,并按照一定 的査詢邏輯在在B步驟建立的索引中進行查詢檢索,得到與歷史地理信息系統(tǒng)該 條記錄相關的一系列典籍數據信息,從而關聯到典籍數據庫。通過上述步驟可以實現在中文典籍數據庫與歷史地理信息系統(tǒng)在含有統(tǒng)一 碼(Unicode)四字節(jié)編碼文字的超大字符集之上的兩者相互之間關聯。為了理 解本發(fā)明的關聯方法,我們在此公開了本發(fā)明的具體實施的步驟和附圖,以期本 領域的技術人員可以理解。由于含有統(tǒng)一碼(Unicode)四字節(jié)編碼文字的自然 含有單字節(jié)和二字節(jié)字符,在不脫離本發(fā)明及所附的權利要求的精神和范圍內, 各種相關的替換、變化和修改方案都是可能的,因此,本發(fā)明得不局限于實例和 附圖所公開的內容。
權利要求
1. 一種可以實現支持四字節(jié)編碼東亞表意文字的典籍數據庫與歷史地理信息系統(tǒng)關 聯的方法,包括將歷史地理信息中的文本內容與典籍數據中的文本內容使用支持含Unicode四字節(jié)編碼東亞表意文字的搜索引擎分別建立相應的索引庫。
2. —種可以實現支持四字節(jié)編碼東亞表意文字的典籍數據庫與歷史地理信息系統(tǒng)關 聯的方法,包括將典籍數據和歷史地理信息兩者中的地名、人名等專有名詞信息 抽取出來,并建立同義詞表性質的,含有Unicode四字節(jié)編碼東亞表意文字的專 有名字轉換對應表,對包含人名、地名等專有名詞的古今俗稱、別名的相互對應 實現關鍵詞的轉換。
3. 如在權利要求l、 2所述的可以實現支持四字節(jié)編碼東亞表意文字的典籍數據庫與 歷史地理信息系統(tǒng)關聯的方法,其特征在于對轉換后的地名等專有名詞信息附 加上年代等信息在歷史地理信息索引中檢索,從而關聯到歷史地理信息系統(tǒng)。
4. 如在權利要求l、 2所述的可以實現支持四字節(jié)編碼東亞表意文字的典籍數據庫與 歷史地理信息系統(tǒng)關聯的方法,其特征在于對轉換后的地名等專有名詞信息附 加上年代等信息在典籍數據索引中檢索,從而關聯到典籍數據庫。
5. 如在權利要求l、 2、 3、 4所述的可以實現支持四字節(jié)編碼東亞表意文字的典籍數 據庫與歷史地理信息系統(tǒng)關聯的方法,其特征在于在對典籍數據庫和歷史地理 信息系統(tǒng)進行檢索時,或者調用轉換對應表時,通過包含Unicode四字節(jié)編碼東 亞表意文字的繁簡、中日韓、異體字的相互對應來實現關鍵詞的轉換。
全文摘要
本發(fā)明公開了一種實現支持四字節(jié)的典籍數據與歷史地理信息關聯的方法。該方法使用支持統(tǒng)一碼(Unicode)四字節(jié)編碼東亞表意文字的搜索引擎對典籍數據與歷史地理信息建立查詢索引庫,通過對包含統(tǒng)一碼(Unicode)四字節(jié)編碼東亞表意文字的繁簡、中日韓、異體字的相互對應,以及使用轉換對應表對包含統(tǒng)一碼(Unicode)四字節(jié)編碼東亞表意文字地名的古今俗稱、別名的相互對應實現關鍵詞的轉換,并按照一定的查詢邏輯進行查詢檢索,從而得到相關的記錄內容。本發(fā)明很好的解決了當前典籍數據與歷史地理信息之間因為存在統(tǒng)一碼(Unicode)四字節(jié)編碼東亞表意文字而無法關聯匹配問題及當前歷史地理信息系統(tǒng)中的統(tǒng)一碼(Unicode)四字節(jié)顯示、存儲、檢索及不同系統(tǒng)間的兼容性問題。
文檔編號G06F17/30GK101122905SQ20061008916
公開日2008年2月13日 申請日期2006年8月8日 優(yōu)先權日2006年8月8日
發(fā)明者馮健康, 張向輝, 王宏源, 鋒 趙 申請人:王宏源
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1