本實(shí)用新型涉及信息共享技術(shù)領(lǐng)域,具體涉及一種SaaS古籍知識(shí)服務(wù)云平臺(tái)。
背景技術(shù):
傳統(tǒng)的古籍文獻(xiàn)管理方法或是對文獻(xiàn)的外部特征進(jìn)行標(biāo)引,或是按文獻(xiàn)的學(xué)科性質(zhì)進(jìn)行分類,或是按照文獻(xiàn)的主要內(nèi)容選取主題詞,以提供檢索,但對用戶需要解決的問題來說,并不能全面準(zhǔn)確提供知識(shí)信息。因此,如何為用戶提供準(zhǔn)確的、精簡的知識(shí),已成為當(dāng)前的熱點(diǎn)研究之一,其核心是如何實(shí)現(xiàn)傳統(tǒng)的信息資源服務(wù)向智能化知識(shí)服務(wù)發(fā)展。“知識(shí)服務(wù)”是指以知識(shí)資源為對象,以信息知識(shí)的組織、關(guān)聯(lián)、挖掘、重構(gòu)等為手段,為用戶提供個(gè)性化的智能服務(wù)?!爸R(shí)服務(wù)”明確提出了現(xiàn)代信息服務(wù)業(yè)的任務(wù)和目標(biāo),成為當(dāng)今知識(shí)信息資源共享模式設(shè)計(jì)的核心指導(dǎo)思想。在這種共享模式下,人們從信息資源中獲取的不僅僅是一條一條的信息,而是一個(gè)一個(gè)針對特定問題的解決方案,即“知識(shí)”。由于知識(shí)的多粒度、內(nèi)在關(guān)聯(lián)等特性,以傳統(tǒng)古籍文獻(xiàn)檢索和傳遞為核心的知識(shí)資源服務(wù)難以滿足人們對知識(shí)服務(wù)的需求。
技術(shù)實(shí)現(xiàn)要素:
本實(shí)用新型的目的在于克服現(xiàn)有技術(shù)的不足,提供一種充分利用SaaS的運(yùn)營模式的基于互聯(lián)網(wǎng)應(yīng)用的專有名詞自動(dòng)化標(biāo)引、全文檢索、智能提取的為傳統(tǒng)文化愛好者提供全方位的個(gè)性化知識(shí)發(fā)現(xiàn)方面服務(wù)的SaaS古籍知識(shí)服務(wù)云平臺(tái)。
本實(shí)用新型解決其技術(shù)問題是采取以下技術(shù)方案實(shí)現(xiàn)的:
一種SaaS古籍知識(shí)服務(wù)云平臺(tái),包括文本數(shù)據(jù)庫和數(shù)字古籍檔案庫,所述文本數(shù)據(jù)庫分別與網(wǎng)絡(luò)資源數(shù)據(jù)庫、自主收集數(shù)據(jù)庫相連接,古籍依次通過掃描裝置、圖像處理模塊、古籍圖像庫、文字識(shí)別裝置和文字校對裝置存儲(chǔ)于所述自主收集數(shù)據(jù)庫中,所述文本數(shù)據(jù)庫通過分別與專家知識(shí)庫相連接的自動(dòng)分詞模塊、自動(dòng)分類模塊、自動(dòng)標(biāo)引模塊與所述數(shù)字古籍檔案庫相連接,所述數(shù)字古籍檔案庫連接Web檢索模塊,所述數(shù)字古籍檔案庫包括三個(gè)層次,分別為原始數(shù)據(jù)文獻(xiàn)庫、關(guān)系索引文獻(xiàn)庫、邏輯學(xué)習(xí)文獻(xiàn)庫,所述數(shù)字古籍檔案庫通過聚類模塊將信息存儲(chǔ)于所述原始數(shù)據(jù)文獻(xiàn)庫,所述數(shù)字古籍檔案庫依次通過特征識(shí)別模塊、特征提取模塊、相關(guān)性計(jì)算模塊、聚類模塊將信息存儲(chǔ)于所述關(guān)系索引文獻(xiàn)庫,所述邏輯學(xué)習(xí)文獻(xiàn)庫通過智能分析模塊與記錄模塊相連接,所述邏輯學(xué)習(xí)文獻(xiàn)庫包括閱讀熱度數(shù)據(jù)庫和日常檢索數(shù)據(jù)庫。
在上述SaaS古籍知識(shí)服務(wù)云平臺(tái)中,進(jìn)一步的,所述文本數(shù)據(jù)庫包括年代信息數(shù)據(jù)庫、標(biāo)題信息數(shù)據(jù)庫、作者信息數(shù)據(jù)庫、長度信息數(shù)據(jù)庫、來源信息數(shù)據(jù)庫、簡介信息數(shù)據(jù)庫、版本信息數(shù)據(jù)庫、章節(jié)信息數(shù)據(jù)庫和頁碼信息數(shù)據(jù)庫,所述原始數(shù)據(jù)文獻(xiàn)庫包括年號(hào)數(shù)據(jù)庫、人名數(shù)據(jù)庫、書名數(shù)據(jù)庫、地名數(shù)據(jù)庫、官名數(shù)據(jù)庫和事件數(shù)據(jù)庫,所述關(guān)系索引文獻(xiàn)庫包括年號(hào)相關(guān)數(shù)據(jù)庫、人名相關(guān)數(shù)據(jù)庫、書名相關(guān)數(shù)據(jù)庫、地名相關(guān)數(shù)據(jù)庫、官名相關(guān)數(shù)據(jù)庫和事件相關(guān)數(shù)據(jù)庫。
在上述SaaS古籍知識(shí)服務(wù)云平臺(tái)中,進(jìn)一步的,所述Web檢索模塊包括普通檢索模塊和高級檢索模塊,普通檢索模塊基于所述原始數(shù)據(jù)文獻(xiàn)庫檢索,高級檢索模塊基于所述關(guān)系索引文獻(xiàn)庫檢索。
在上述SaaS古籍知識(shí)服務(wù)云平臺(tái)中,進(jìn)一步的,所述自動(dòng)分詞模塊采用逆向最大匹配法(RMM法)、基于詞頻度統(tǒng)計(jì)、基于知識(shí)理解的分詞方法。
在上述SaaS古籍知識(shí)服務(wù)云平臺(tái)中,進(jìn)一步的,所述掃描裝置是一種數(shù)字化的掃描儀。
在上述SaaS古籍知識(shí)服務(wù)云平臺(tái)中,進(jìn)一步的,所述網(wǎng)絡(luò)資源數(shù)據(jù)庫、所述自主收集數(shù)據(jù)庫、所述文本數(shù)據(jù)庫、所述數(shù)字古籍檔案庫之間通過局域網(wǎng)連接,所述數(shù)字古籍檔案庫和所述Web檢索模塊通過廣域網(wǎng)連接。
本實(shí)用新型的優(yōu)點(diǎn)和積極效果是:
1、本實(shí)用新型采用SaaS架構(gòu)運(yùn)營模式,提供全方位的個(gè)性化知識(shí)發(fā)現(xiàn)方面的服務(wù),用戶無需購置軟硬件,降低了估計(jì)信息化應(yīng)用的門檻與風(fēng)險(xiǎn),同時(shí)整合古籍?dāng)?shù)據(jù)庫在云端服務(wù)器,提供的強(qiáng)大的資源整合能力,提高知識(shí)服務(wù)的整體能力,避免了重復(fù)建設(shè)和遺棄的現(xiàn)象,另外通過專家信息平臺(tái),規(guī)范了古籍?dāng)?shù)字化的統(tǒng)一性。
2、本實(shí)用新型綜合采用逆向最大匹配法、基于詞的頻度統(tǒng)計(jì)的分詞方法和基于知識(shí)理解的分詞方法三種方式,實(shí)現(xiàn)快速對古籍文本的分詞,錯(cuò)誤率低。
3、本實(shí)用新型通過用戶的日常檢索和閱讀發(fā)現(xiàn)文獻(xiàn)的熱度及其他信息,提供決策支持,便于用戶的知識(shí)供需的實(shí)現(xiàn)。
附圖說明
以下將結(jié)合附圖和實(shí)施例來對本實(shí)用新型的技術(shù)方案作進(jìn)一步的詳細(xì)描述,但是應(yīng)當(dāng)知道,這些附圖僅是為解釋目的而設(shè)計(jì)的,因此不作為本實(shí)用新型范圍的限定。此外,除非特別指出,這些附圖僅意在概念性地說明此處描述的結(jié)構(gòu)構(gòu)造,而不必要依比例進(jìn)行繪制。
圖1是實(shí)施例的系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施方式
首先,需要說明的是,以下將以示例方式來具體說明本實(shí)用新型的SaaS古籍知識(shí)服務(wù)云平臺(tái)的具體結(jié)構(gòu)、特點(diǎn)和優(yōu)點(diǎn)等,然而所有的描述僅是用來進(jìn)行說明的,而不應(yīng)將其理解為對本實(shí)用新型形成任何限制。此外,在本文所提及各實(shí)施例中予以描述或隱含的任意單個(gè)技術(shù)特征,或者被顯示或隱含在各附圖中的任意單個(gè)技術(shù)特征,仍然可在這些技術(shù)特征(或其等同物)之間繼續(xù)進(jìn)行任意組合或刪減,從而獲得可能未在本文中直接提及的本實(shí)用新型的更多其他實(shí)施例。另外,為了簡化圖面起見,相同或相類似的技術(shù)特征在同一附圖中可能僅在一處進(jìn)行標(biāo)示。
如圖1所示,一種SaaS古籍知識(shí)服務(wù)云平臺(tái),包括文本數(shù)據(jù)庫和數(shù)字古籍檔案庫,文本數(shù)據(jù)庫分別與網(wǎng)絡(luò)資源數(shù)據(jù)庫、自主收集數(shù)據(jù)庫相連接,古籍依次通過掃描裝置、圖像處理模塊、古籍圖像庫、文字識(shí)別裝置和文字校對裝置存儲(chǔ)于自主收集數(shù)據(jù)庫中,文本數(shù)據(jù)庫通過分別與專家知識(shí)庫相連接的自動(dòng)分詞模塊、自動(dòng)分類模塊、自動(dòng)標(biāo)引模塊與數(shù)字古籍檔案庫相連接,數(shù)字古籍檔案庫連接Web檢索模塊,數(shù)字古籍檔案庫包括三個(gè)層次,分別為原始數(shù)據(jù)文獻(xiàn)庫、關(guān)系索引文獻(xiàn)庫、邏輯學(xué)習(xí)文獻(xiàn)庫,數(shù)字古籍檔案庫通過聚類模塊將信息存儲(chǔ)于原始數(shù)據(jù)文獻(xiàn)庫,數(shù)字古籍檔案庫依次通過特征識(shí)別模塊、特征提取模塊、相關(guān)性計(jì)算模塊、聚類模塊將信息存儲(chǔ)于關(guān)系索引文獻(xiàn)庫,邏輯學(xué)習(xí)文獻(xiàn)庫通過智能分析模塊與記錄模塊相連接,邏輯學(xué)習(xí)文獻(xiàn)庫包括閱讀熱度數(shù)據(jù)庫和日常檢索數(shù)據(jù)庫。
文本數(shù)據(jù)庫包括年代信息數(shù)據(jù)庫、標(biāo)題信息數(shù)據(jù)庫、作者信息數(shù)據(jù)庫、長度信息數(shù)據(jù)庫、來源信息數(shù)據(jù)庫、簡介信息數(shù)據(jù)庫、版本信息數(shù)據(jù)庫、章節(jié)信息數(shù)據(jù)庫和頁碼信息數(shù)據(jù)庫,原始數(shù)據(jù)文獻(xiàn)庫包括年號(hào)數(shù)據(jù)庫、人名數(shù)據(jù)庫、書名數(shù)據(jù)庫、地名數(shù)據(jù)庫、官名數(shù)據(jù)庫和事件數(shù)據(jù)庫,關(guān)系索引文獻(xiàn)庫包括年號(hào)相關(guān)數(shù)據(jù)庫、人名相關(guān)數(shù)據(jù)庫、書名相關(guān)數(shù)據(jù)庫、地名相關(guān)數(shù)據(jù)庫、官名相關(guān)數(shù)據(jù)庫和事件相關(guān)數(shù)據(jù)庫。
Web檢索模塊包括普通檢索模塊和高級檢索模塊,普通檢索模塊基于原始數(shù)據(jù)文獻(xiàn)庫檢索,高級檢索模塊基于關(guān)系索引文獻(xiàn)庫檢索,自動(dòng)分詞模塊采用逆向最大匹配法(RMM法)、基于詞頻度統(tǒng)計(jì)、基于知識(shí)理解的分詞方法,掃描裝置是一種數(shù)字化的掃描儀,網(wǎng)絡(luò)資源數(shù)據(jù)庫、自主收集數(shù)據(jù)庫、文本數(shù)據(jù)庫、數(shù)字古籍檔案庫之間通過局域網(wǎng)連接,數(shù)字古籍檔案庫和Web檢索模塊通過廣域網(wǎng)連接。
具體工作過程為:文本數(shù)據(jù)庫作為平臺(tái)的基礎(chǔ)通過兩種途徑獲取古籍文獻(xiàn),一種為直接通過網(wǎng)絡(luò)資源數(shù)據(jù)庫獲取,另一種為紙質(zhì)版古籍,通過掃描、圖像處理、文字識(shí)別、文字校對一系列步驟存儲(chǔ)于自主收集數(shù)據(jù)庫,由自主收集數(shù)據(jù)庫傳送至文本數(shù)據(jù)庫,文本數(shù)據(jù)庫內(nèi)包括多個(gè)子數(shù)據(jù)庫,例如年代信息數(shù)據(jù)庫,標(biāo)題信息數(shù)據(jù)庫,所有錄入文本數(shù)據(jù)庫內(nèi)的古籍文獻(xiàn)的基本信息均存儲(chǔ)于不同的子數(shù)據(jù)庫內(nèi),通過對文本數(shù)據(jù)庫內(nèi)的古籍文獻(xiàn)進(jìn)行自動(dòng)分詞、自動(dòng)分類和自動(dòng)標(biāo)引,將文本數(shù)據(jù)庫內(nèi)的古籍文獻(xiàn)以詞為單位存儲(chǔ)于數(shù)字古籍檔案庫,通過聚類過程,將詞單位相同的古籍文獻(xiàn)存儲(chǔ)于原始數(shù)據(jù)文獻(xiàn)庫的各個(gè)子數(shù)據(jù)庫內(nèi),例如年號(hào)數(shù)據(jù)庫、人名數(shù)據(jù)庫,通過特征識(shí)別、特征提取、相關(guān)性計(jì)算和聚類過程,將以特定詞為特征識(shí)別單位的相關(guān)古籍文獻(xiàn)存儲(chǔ)于關(guān)系索引文獻(xiàn)庫的各個(gè)子數(shù)據(jù)庫內(nèi),例如年號(hào)相關(guān)數(shù)據(jù)庫、人名相關(guān)數(shù)據(jù)庫,經(jīng)過分類后的古籍文獻(xiàn),在各類之間的相似程度很小,在某一類內(nèi)部,相似度很大,專家知識(shí)庫進(jìn)行自動(dòng)標(biāo)引、檢索、增刪、修改和擴(kuò)充等功能,即時(shí)建立全文檢索數(shù)據(jù)索引,提高檢索效率,對系統(tǒng)自動(dòng)標(biāo)注的專有名詞通過專家確認(rèn)后加入數(shù)字古籍檔案庫,記錄模塊記錄用戶檢索內(nèi)容,通過用戶的日常檢索和閱讀發(fā)現(xiàn)文獻(xiàn)的熱度及其他信息,提供決策支持,便于用戶的知識(shí)供需的實(shí)現(xiàn)。
本實(shí)施例本實(shí)用新型采用SaaS架構(gòu)運(yùn)營模式,提供全方位的個(gè)性化知識(shí)發(fā)現(xiàn)方面的服務(wù),用戶無需購置軟硬件,降低了估計(jì)信息化應(yīng)用的門檻與風(fēng)險(xiǎn),同時(shí)整合古籍?dāng)?shù)據(jù)庫在云端服務(wù)器,提供的強(qiáng)大的資源整合能力,提高知識(shí)服務(wù)的整體能力,避免了重復(fù)建設(shè)和遺棄的現(xiàn)象。
以上實(shí)施例對本實(shí)用新型進(jìn)行了詳細(xì)說明,但所述內(nèi)容僅為本實(shí)用新型的較佳實(shí)施例,不能被認(rèn)為用于限定本實(shí)用新型的實(shí)施范圍。凡依本實(shí)用新型申請范圍所作的均等變化與改進(jìn)等,均應(yīng)仍歸屬于本實(shí)用新型的專利涵蓋范圍之內(nèi)。