本發(fā)明涉及一種文檔管理技術(shù),尤其是涉及一種文檔結(jié)構(gòu)化方法和設(shè)備。
背景技術(shù):
目前上海計(jì)量中心的結(jié)構(gòu)化文檔及非結(jié)構(gòu)化文檔,存放分散,隨著計(jì)量業(yè)務(wù)的發(fā)展,各種計(jì)量標(biāo)準(zhǔn)、技術(shù)文件越來越多,沒有一種集中存放及快速搜索的軟件,已經(jīng)無法支撐計(jì)量業(yè)務(wù)的正常發(fā)展及無法滿足國家電網(wǎng)推動信息化產(chǎn)業(yè)、快速、高效的工作理念。長期以來,上海計(jì)量中心的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),都是存儲在各應(yīng)用人員各自電腦或是存儲設(shè)備中,無法共享資料,對于新發(fā)布的文件、規(guī)則制度,只能通過郵件或是硬盤共享的方式提供給他人使用,這種方式往往會造成安全保密度低,尋找一份文檔繁瑣,甚至出現(xiàn)文檔丟失的情況,而原先舊文檔服務(wù)器,搜索效率慢,樹形結(jié)構(gòu)不合理,且無備份就權(quán)限控制的功能,對于用戶重要機(jī)密文件無法安全、可靠的保存,相關(guān)人員也無意愿繼續(xù)使用。
隨著互聯(lián)網(wǎng)的迅猛發(fā)展、WEB信息的增加,用戶要在信息海洋里查找自己所需的信息,就象大海撈針一樣,搜索引擎技術(shù)恰好解決了這一難題。搜索引擎是指互聯(lián)網(wǎng)上專門提供檢索服務(wù)的一類網(wǎng)站,這些站點(diǎn)的服務(wù)器通過網(wǎng)絡(luò)搜索軟件或網(wǎng)絡(luò)登錄等方式,將Intenet上大量網(wǎng)站的頁面信息收集到本地,經(jīng)過加工處理建立信息數(shù)據(jù)庫和索引數(shù)據(jù)庫,從而對用戶提出的各種檢索作出響應(yīng),提供用戶所需的信息或相關(guān)指針。用戶的檢索途徑主要包括自由詞全文檢索、關(guān)鍵詞檢索、分類檢索及其他特殊信息的檢索。而我們將這種技術(shù)運(yùn)設(shè)計(jì)開發(fā)出一套符合計(jì)量標(biāo)準(zhǔn)化信息管理的系統(tǒng),使得計(jì)量中心內(nèi)部的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)能夠集中存儲,同時(shí)能夠快速響應(yīng)并找到目標(biāo)文件。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種文檔結(jié)構(gòu)化方法和設(shè)備。
本發(fā)明的目的可以通過以下技術(shù)方案來實(shí)現(xiàn):
一種文檔結(jié)構(gòu)化方法,包括:
步驟S1:接收文檔,創(chuàng)建該文檔的結(jié)構(gòu)化描述文件,并將文檔保存至文檔服務(wù)器中;
步驟S2:創(chuàng)建數(shù)據(jù)庫,并存儲所有文檔的結(jié)構(gòu)化描述文件;
步驟S3:在數(shù)據(jù)庫中檢索得到結(jié)構(gòu)化描述文件后,于文檔服務(wù)器中提取對應(yīng)的文檔。
所述步驟S1具體包括步驟:
步驟S11:接收文檔;
步驟S12:提取文檔已有標(biāo)簽;
步驟S13:生成文檔的摘要;
步驟S14:用標(biāo)記描述文檔的標(biāo)簽和摘要生成該文檔的結(jié)構(gòu)化描述文件;
步驟S15:將文檔保存至文檔服務(wù)器中。
所述文檔已有標(biāo)簽至少包括文檔大小、文檔來源、文檔類別、文檔修改時(shí)間、文檔所屬標(biāo)準(zhǔn)體系。
所述步驟S13具體包括步驟:
步驟S131:判斷是否存在支持該文檔的閱讀模塊,若為是,則執(zhí)行步驟S132,若為否,則執(zhí)行步驟S133;
步驟S132:采用該閱讀模塊打開該文檔并提取文檔中的部分文本作為文檔的摘要;
步驟S133:接收由用戶端輸入的對該文檔的摘要。
所述步驟S3具體為:在數(shù)據(jù)庫中檢索得到結(jié)構(gòu)化描述文件后,判斷當(dāng)前用戶是否存在對對應(yīng)文檔的操作權(quán)限,若為是,則于文檔服務(wù)器中提取對應(yīng)的文檔,若為否,則返回錯(cuò)誤信息。
一種文檔結(jié)構(gòu)化設(shè)備,包括:
用于接收文檔,創(chuàng)建該文檔的結(jié)構(gòu)化描述文件,并將文檔保存至文檔服務(wù)器中的第一裝置;
用于創(chuàng)建數(shù)據(jù)庫,并存儲所有文檔的結(jié)構(gòu)化描述文件的第二裝置;
用于在數(shù)據(jù)庫中檢索得到結(jié)構(gòu)化描述文件后,于文檔服務(wù)器中提取對應(yīng)的文檔的第三裝置。
所述第一裝置包括:
用于接收文檔的第一模塊;
用于提取文檔已有標(biāo)簽的第二模塊;
用于生成文檔的摘要的第三模塊;
用于用標(biāo)記描述文檔的標(biāo)簽和摘要生成該文檔的結(jié)構(gòu)化描述文件的第四模塊;
用于將文檔保存至文檔服務(wù)器中的第五模塊。
所述文檔已有標(biāo)簽至少包括文檔大小、文檔來源、文檔類別、文檔修改時(shí)間、文檔所屬標(biāo)準(zhǔn)體系。
所述第三模塊包括:
用于判斷是否存在支持該文檔的閱讀模塊的第一單元;
用于采用該閱讀模塊打開該文檔并提取文檔中的部分文本作為文檔的摘要的第二單元;
用于接收由用戶端輸入的對該文檔的摘要的第三單元。
其特征在于,所述第三裝置包括
用于在數(shù)據(jù)庫中檢索得到結(jié)構(gòu)化描述文件后,判斷當(dāng)前用戶是否存在對對應(yīng)文檔的操作權(quán)限的第六模塊;
用于于文檔服務(wù)器中提取對應(yīng)的文檔的第七模塊;
用于返回錯(cuò)誤信息的第八模塊。
與現(xiàn)有技術(shù)相比,本發(fā)明具有以下優(yōu)點(diǎn):
1)為文檔生成一個(gè)結(jié)構(gòu)化描述文件,便于對文檔進(jìn)行平臺化管理,響應(yīng)速度更快,各種簡單操作<0.5秒,查詢統(tǒng)計(jì)<1秒。
2)在描述文件中用標(biāo)記語言描述文檔的摘要,支持關(guān)鍵字、模糊字、文件類型等多種查詢方式。
3)支持的文件更多,包括:WORD、EXCEL、PDF、CEB、RMVB、AVI等多種文檔及流媒體文件。
4)文檔保密性高,通過各種權(quán)限的配置,是不同級別的用戶訪問。
附圖說明
圖1為本發(fā)明的主要步驟流程示意圖;
圖2為基于發(fā)明的文檔管理系統(tǒng)的架構(gòu)示意圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施例對本發(fā)明進(jìn)行詳細(xì)說明。本實(shí)施例以本發(fā)明技術(shù)方案為前提進(jìn)行實(shí)施,給出了詳細(xì)的實(shí)施方式和具體的操作過程,但本發(fā)明的保護(hù)范圍不限于下述的實(shí)施例。
一種文檔結(jié)構(gòu)化方法,如圖1所示,包括:
步驟S1:接收文檔,創(chuàng)建該文檔的結(jié)構(gòu)化描述文件,并將文檔保存至文檔服務(wù)器中,具體包括步驟:
步驟S11:接收文檔;
步驟S12:提取文檔已有標(biāo)簽,文檔已有標(biāo)簽至少包括文檔大小、文檔來源、文檔類別、文檔修改時(shí)間、文檔所屬標(biāo)準(zhǔn)體系;
步驟S13:生成文檔的摘要,具體包括步驟:
步驟S131:判斷是否存在支持該文檔的閱讀模塊,若為是,則執(zhí)行步驟S132,若為否,則執(zhí)行步驟S133;
步驟S132:采用該閱讀模塊打開該文檔并提取文檔中的部分文本作為文檔的摘要;
步驟S133:接收由用戶端輸入的對該文檔的摘要。
步驟S14:用標(biāo)記描述文檔的標(biāo)簽和摘要生成該文檔的結(jié)構(gòu)化描述文件;
步驟S15:將文檔保存至文檔服務(wù)器中。
步驟S2:創(chuàng)建數(shù)據(jù)庫,并存儲所有文檔的結(jié)構(gòu)化描述文件;
步驟S3:在數(shù)據(jù)庫中檢索得到結(jié)構(gòu)化描述文件后,于文檔服務(wù)器中提取對應(yīng)的文檔,具體為:在數(shù)據(jù)庫中檢索得到結(jié)構(gòu)化描述文件后,判斷當(dāng)前用戶是否存在對對應(yīng)文檔的操作權(quán)限,若為是,則于文檔服務(wù)器中提取對應(yīng)的文檔,若為否,則返回錯(cuò)誤信息。
基于本申請可以開發(fā)出一套信息系統(tǒng),能夠通過關(guān)鍵字、模塊查詢等條件快速響應(yīng)搜索,能通過登陸權(quán)限的設(shè)置對各種級別的文檔的訪問權(quán)限進(jìn)行控制,且定期對文檔進(jìn)行備份,以免數(shù)據(jù)丟失。其設(shè)計(jì)理念如下:
(一)標(biāo)準(zhǔn)化結(jié)構(gòu)設(shè)計(jì)
設(shè)計(jì)出一套符合計(jì)量標(biāo)準(zhǔn)化的樹形結(jié)構(gòu),可以持續(xù)擴(kuò)充,用來展示結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),如表1所示:
表1
(二)功能設(shè)計(jì)
設(shè)計(jì)系統(tǒng)功能模塊,包括:標(biāo)準(zhǔn)查閱模塊、標(biāo)準(zhǔn)管理、系統(tǒng)管理等模塊及其下屬子模塊。詳細(xì)如下:
1、用戶和功能范圍
標(biāo)準(zhǔn)化管理系統(tǒng)的用戶覆蓋范圍為中心的所有內(nèi)網(wǎng)用戶,支持(1)免登錄標(biāo)準(zhǔn)查閱、(2)登錄后進(jìn)行對應(yīng)角色的標(biāo)準(zhǔn)化管理操作兩種使用模式,系統(tǒng)所包含的各個(gè)功能模塊及其子功能如表2所示。
表2
系統(tǒng)整體架構(gòu)
系統(tǒng)采用瀏覽器/服務(wù)器的結(jié)構(gòu)。客戶端通過IE瀏覽器來訪問系統(tǒng)。
整體架構(gòu)如下圖所示:
3、功能設(shè)計(jì)
1)標(biāo)準(zhǔn)文檔建立管理
(1)標(biāo)準(zhǔn)發(fā)布
根據(jù)計(jì)量標(biāo)準(zhǔn)化工作過程的管理需要,由綜合室負(fù)責(zé)發(fā)布在線的正式版本到相應(yīng)的文件目錄,文件目錄可以由檔案管理員進(jìn)行增加/刪除,并設(shè)置文檔的瀏覽查閱權(quán)限。檔案管理員可在此基礎(chǔ)上整理接收相關(guān)檔案資料,支持文檔、掃描圖片等各種文檔類型附件的管理。
文件編號和文件名的唯一性限制功能,可以通過系統(tǒng)自動生成建議的文件編號的基礎(chǔ)上支持手工修改;文件名唯一性限制通過系統(tǒng)檢索來提示。
(2)標(biāo)準(zhǔn)更新
可依據(jù)業(yè)務(wù)需要,根據(jù)多種組合查詢出符合條件的標(biāo)準(zhǔn)信息列表,從中選取需要更新的記錄,重新編輯、增加或刪除??烧{(diào)整排列順序;支持歷史記錄的管理,如存在歷史標(biāo)準(zhǔn)修改記錄,系統(tǒng)支持存儲歷史版本信息,根據(jù)時(shí)間順序進(jìn)行排列和管理。
所有新建、更改和刪除的操作均計(jì)入日志,可以根據(jù)操作人員、時(shí)間跨度、戶號、戶名等條件進(jìn)行查詢檢索。
(3)標(biāo)準(zhǔn)作廢
標(biāo)準(zhǔn)隱藏:對需要暫時(shí)停用的標(biāo)準(zhǔn)信息進(jìn)行隱藏操作,并支持檔案的恢復(fù)啟用。
標(biāo)準(zhǔn)廢止:對經(jīng)過審批需要廢止的標(biāo)準(zhǔn)資料進(jìn)行廢止操作,并進(jìn)行廢止登記,保留歷史資料。
(4)標(biāo)準(zhǔn)備份
對更新和廢止的標(biāo)準(zhǔn),保留歷史操作記錄的同時(shí),進(jìn)行歷史版本備份,供管理員查詢。
2、標(biāo)準(zhǔn)查閱模塊
以在線瀏覽的模式,根據(jù)不同的權(quán)限設(shè)置,提供標(biāo)準(zhǔn)化信息的查詢、瀏覽、下載操作。
(1)標(biāo)準(zhǔn)瀏覽和檢索
普通訪問用戶可以登錄瀏覽頁面,通過關(guān)鍵字查詢、模塊查詢、文件目錄選擇等方式,對具備普通開放瀏覽權(quán)限的電子信息瀏覽,并支持下載、打印功能。
(2)高權(quán)限瀏覽
注冊訪問用戶可以通過用戶登錄瀏覽頁面,通過關(guān)鍵字查詢、模糊查詢、文件目錄選擇等方式,實(shí)現(xiàn)高級全權(quán)限瀏覽功能,并支持下載、打印功能。
3、系統(tǒng)用戶權(quán)限管理
(1)系統(tǒng)設(shè)置
主要進(jìn)行權(quán)限管理、日志管理和查詢、系統(tǒng)參數(shù)管理等功能。
能夠根據(jù)操作人員的工作崗位不同,設(shè)置不同的操作權(quán)限,如標(biāo)準(zhǔn)分類管理、上傳、修改等。
(2)用戶管理
定義系統(tǒng)的管理員用戶和普通用戶,并提供賬戶新增、刪除修改等功能。
以web形式,依據(jù)用戶名/密碼的驗(yàn)證,登錄系統(tǒng),根據(jù)不同授權(quán)權(quán)限訪問系統(tǒng)資源。
(3)標(biāo)準(zhǔn)體系管理
初始化標(biāo)準(zhǔn)閱覽室的文件目錄,并提供對目錄的新增、刪除等修改功能。
(4)組織管理
對日志管理:各類標(biāo)準(zhǔn)信息的增加、刪除、修改等操作記入日志。
模板管理:根據(jù)計(jì)量標(biāo)準(zhǔn)化工作需要,提供標(biāo)準(zhǔn)電子文件模板,包括:標(biāo)準(zhǔn)化工作規(guī)范指導(dǎo)性文件發(fā)布,標(biāo)準(zhǔn)化管理文件模板發(fā)布和下載及其他政策性文件的發(fā)布。
(三)備份恢復(fù)
對于結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)備份及恢復(fù)策略。
1、數(shù)據(jù)庫備份
使用邏輯備份,由系統(tǒng)定期對數(shù)據(jù)進(jìn)行邏輯備份,如下表所示。
2、非結(jié)構(gòu)化文檔備份
前臺增加備份功能模塊,每天進(jìn)行文檔備份,將文檔服務(wù)器上的傳輸?shù)絺浞莘?wù)器上,若出現(xiàn)備份失敗則會告警,第二天人工備份。
3、數(shù)據(jù)恢復(fù)
有了上述幾種備份方法,即使計(jì)算機(jī)發(fā)生故障,如介質(zhì)損壞、軟件系統(tǒng)異常等情況時(shí),可以通過備份進(jìn)行不同程度的恢復(fù),使數(shù)據(jù)庫系統(tǒng)盡快恢復(fù)到正常狀態(tài)。
(1)數(shù)據(jù)文件損壞
這種情況可以用最近所做的數(shù)據(jù)庫文件備份進(jìn)行恢復(fù),即將備份中的對應(yīng)文件恢復(fù)到原來位置,重新啟動數(shù)據(jù)庫,運(yùn)行恢復(fù)命令就可以完成恢復(fù)。
(2)控制文件損壞
由于控制文件是數(shù)據(jù)庫中是多重鏡像的,單個(gè)文件的損壞不影響系統(tǒng)正常運(yùn)行,但若數(shù)據(jù)庫系統(tǒng)中的全部控制文件損壞,則數(shù)據(jù)庫系統(tǒng)將不能運(yùn)行,那么,只須將數(shù)據(jù)庫系統(tǒng)關(guān)閉,然后從備份中將相應(yīng)的控制文件恢復(fù)到原位置,重新啟動數(shù)據(jù)庫系統(tǒng),運(yùn)行恢復(fù)命令就可以完成恢復(fù)。
(3)整個(gè)文件系統(tǒng)損壞
由于磁盤或磁盤陣列的介質(zhì)不可靠或損壞是經(jīng)常發(fā)生的,這將導(dǎo)致整個(gè)數(shù)據(jù)庫系統(tǒng)崩潰,這種情形只能:
a)將磁盤或磁盤陣列重新初始化,去掉失效或不可靠的壞塊
b)重新創(chuàng)建文件系統(tǒng)
c)利用備份將數(shù)據(jù)庫系統(tǒng)恢復(fù)到備份時(shí)間點(diǎn)
d)重新啟動數(shù)據(jù)庫系統(tǒng)
e)運(yùn)行恢復(fù)命令恢復(fù)到損壞點(diǎn)
f)將最近的數(shù)據(jù)重新錄入
如圖2所示的搜索引擎系統(tǒng)架構(gòu)。其核心的文檔處理和查詢處理過程與傳統(tǒng)信息檢索系統(tǒng)的運(yùn)行原理基本類似,但其所處理的數(shù)據(jù)對象的繁雜特性決定了搜索引擎系統(tǒng)必須進(jìn)行系統(tǒng)結(jié)構(gòu)的調(diào)整,以適應(yīng)處理數(shù)據(jù)和用戶查詢的需要。
1、用戶在搜索引擎界面輸入關(guān)鍵詞,單擊“搜索”按鈕后,搜索引擎程序即對搜索詞進(jìn)行處理,如中文特有的分詞處理,去除停止詞,判斷是否需要啟動整合搜索,判斷是否有拼寫錯(cuò)誤或錯(cuò)別字等情況。搜索詞的處理必須十分快速。
2、對搜索詞處理后,搜索引擎程序便開始工作,從索引數(shù)據(jù)庫中找出所有包含搜索詞的結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),并且根據(jù)日期、文檔結(jié)構(gòu)大小等默認(rèn)方法計(jì)算出哪些文檔應(yīng)該排在前面,然后按照一定格式返回到“搜索”頁面。
3、用戶根據(jù)展示出的數(shù)據(jù)進(jìn)行在線閱覽、下載或是打印。
4、定期的備份為整個(gè)套系統(tǒng)做好安全保障。