專(zhuān)利名稱(chēng):一種元數(shù)據(jù)并行采集系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種元數(shù)據(jù)并行采集系統(tǒng),屬于網(wǎng)絡(luò)通信領(lǐng)域,用于對(duì)等網(wǎng)絡(luò)搜索優(yōu)化和資源采集優(yōu)化問(wèn)題。
背景技術(shù):
OAI提供了一個(gè)基于元數(shù)據(jù)采集的獨(dú)立于具體應(yīng)用的互操作框架,主要有兩個(gè)不同角色:數(shù)據(jù)提供者(DataProvider, DP)和服務(wù)提供者(ServiceProvider, SP)。DP是元數(shù)據(jù)的擁有者,元數(shù)據(jù)用公共元數(shù)據(jù)DC表達(dá),遵從OAI發(fā)布元數(shù)據(jù),并對(duì)采集請(qǐng)求以XML格式編碼響應(yīng)。SP是數(shù)據(jù)采集方,也是利用采集到的元數(shù)據(jù)向用戶(hù)提供增值服務(wù)的主體?;贠AI的元數(shù)據(jù)采集工作原理流程如圖1所示:在OAI框架中SP從每個(gè)DP中采集并提取元數(shù)據(jù),經(jīng)過(guò)處理、合并后集中保存在本地?cái)?shù)據(jù)庫(kù)中,并以采集到的元數(shù)據(jù)為基礎(chǔ)為用戶(hù)提供增值服務(wù)。然而在OAI框架中存在性能瓶頸、采集周期長(zhǎng)、性能要求高、單點(diǎn)失敗、負(fù)載過(guò)重等缺點(diǎn),為了解決這些缺點(diǎn),提高采集系統(tǒng)的性能,很多研究機(jī)構(gòu)和學(xué)者探討利用新出現(xiàn)的網(wǎng)格技術(shù),嘗試采用多個(gè)采集節(jié)點(diǎn)對(duì)DPs進(jìn)行并行采集來(lái)加快元數(shù)據(jù)的采集速度,如OldDominion大學(xué)的數(shù)字圖書(shū)館研究組利用網(wǎng)格技術(shù)提高元數(shù)據(jù)采集性能和國(guó)內(nèi)的鄭志蘊(yùn)博士研究數(shù)字圖書(shū)館網(wǎng)格下的互操作框架等?,F(xiàn)有的元數(shù)據(jù)并行采集框架存在如下缺點(diǎn):(1)采集調(diào)度服務(wù)器的實(shí)時(shí)監(jiān)控問(wèn)題:對(duì)采集節(jié)點(diǎn)進(jìn)行資源調(diào)度的過(guò)程中,雖然利用現(xiàn)有的集群技術(shù),利用RSS算法在采集節(jié)點(diǎn)之間可以實(shí)現(xiàn)均衡分布采集任務(wù),但在采集過(guò)程中沒(méi)有考慮采集節(jié)點(diǎn)、DP節(jié)點(diǎn)狀態(tài)的動(dòng)態(tài)變化,沒(méi)有體現(xiàn)出網(wǎng)格的動(dòng)態(tài)性,沒(méi)有對(duì)采集節(jié)點(diǎn)進(jìn)行實(shí)時(shí)監(jiān)控,無(wú)法保證采集數(shù)據(jù)的完整性。(2)同步更新問(wèn)題:SP不能主動(dòng)及時(shí)地反映DPs中的數(shù)據(jù)更新操作。(3)元數(shù)據(jù)存儲(chǔ)組織問(wèn)題:對(duì)采集到的元數(shù)據(jù)進(jìn)行負(fù)載均衡分布存儲(chǔ)。這在一定程度上解決了集中存儲(chǔ)帶來(lái)的數(shù)據(jù)量過(guò)大、檢索周期長(zhǎng)、單點(diǎn)失敗等問(wèn)題,但是從用戶(hù)檢索的角度出發(fā)應(yīng)改進(jìn)存儲(chǔ)的方式,進(jìn)一步提高檢索效率和準(zhǔn)確率。
發(fā)明內(nèi)容
本發(fā)明技術(shù)解決問(wèn)題:克服現(xiàn)有技術(shù)的什么不足,提供一種元數(shù)據(jù)并行采集系統(tǒng),提高并行采集的速度,增加系統(tǒng)的容錯(cuò)性、穩(wěn)定性,提高了信息檢索的性能,最終達(dá)到比較高效的數(shù)字圖書(shū)館信息資源管理和共享的目的。本發(fā)明的技術(shù)解決方案:一種元數(shù)據(jù)并行采集系統(tǒng),包括:應(yīng)用模塊、元數(shù)據(jù)存儲(chǔ)模塊、元數(shù)據(jù)處理模塊、采集模塊、采集調(diào)度模塊、數(shù)字資源處理模塊和注冊(cè)服務(wù)器;提供共享元數(shù)據(jù)的數(shù)字圖書(shū)館經(jīng)過(guò)數(shù)字資源處理模塊轉(zhuǎn)換成符合OAI架構(gòu)的元數(shù)據(jù)倉(cāng)儲(chǔ),成為DP,并向注冊(cè)服務(wù)器注冊(cè)能被采集調(diào)度模塊利用的有關(guān)信息;采集調(diào)度模塊根據(jù)采集節(jié)點(diǎn)的靜態(tài)和動(dòng)態(tài)信息對(duì)采集任務(wù)分組分配,采集模塊通過(guò)采集調(diào)度模塊得到所分配的DPs基地址進(jìn)行元數(shù)據(jù)采集,在采集完后將元數(shù)據(jù)傳輸至元數(shù)據(jù)處理模塊;元數(shù)據(jù)處理模塊對(duì)元數(shù)據(jù)進(jìn)行處理后傳輸至元數(shù)據(jù)存儲(chǔ)模塊分布存儲(chǔ);應(yīng)用模塊在采集的元數(shù)據(jù)的基礎(chǔ)上為用戶(hù)提供檢索服務(wù)。所述采集調(diào)度模塊和采集模塊實(shí)現(xiàn)過(guò)程為:( I)采集調(diào)度模塊在注冊(cè)服務(wù)器獲取采集任務(wù)信息;(2)集調(diào)度模塊實(shí)時(shí)獲取各個(gè)采集節(jié)點(diǎn)的靜態(tài)信息和動(dòng)態(tài)信息;(3)集調(diào)度模塊存儲(chǔ)各個(gè)采集節(jié)點(diǎn)的采集信息;(4)集調(diào)度模塊計(jì)算各個(gè)采集節(jié)點(diǎn)的權(quán)值(權(quán)值計(jì)算公式見(jiàn)采集調(diào)度模塊詳細(xì)介紹);(5)集調(diào)度模塊如圖3所示,采集調(diào)度節(jié)點(diǎn)根據(jù)計(jì)算的各個(gè)采集節(jié)點(diǎn)的權(quán)值,來(lái)進(jìn)行各個(gè)采集節(jié)點(diǎn)任務(wù)目標(biāo)的調(diào)整,把采集任務(wù)分組,配置給各個(gè)采集節(jié)點(diǎn);(6)集調(diào)度模塊將任務(wù)發(fā)送給各個(gè)采集節(jié)點(diǎn);(7)采集節(jié)點(diǎn)收取采集調(diào)度模塊的任務(wù)信息;(8)采集節(jié)點(diǎn)根據(jù)任務(wù)信息調(diào)用封裝好的采集算法進(jìn)行采集;(在任務(wù)組內(nèi)采集時(shí),利用移動(dòng)Agent技術(shù)實(shí)現(xiàn)元數(shù)據(jù)的并行采集);(9)采集到的信息封裝后傳送給存儲(chǔ)模塊;采集調(diào)度模塊和采集模塊是控制與被控制關(guān)系,采集調(diào)度模塊可以對(duì)采集模塊進(jìn)行調(diào)度,采集模塊部署在采集節(jié)點(diǎn),在采集模塊內(nèi)部封裝有采集算法,利于采集調(diào)度模塊的任務(wù)調(diào)度,接受任務(wù)后可以單點(diǎn)執(zhí)行采集任務(wù)。所述元數(shù)據(jù)處理模塊和存儲(chǔ)模塊;具體實(shí)現(xiàn)過(guò)程和相互之間的聯(lián)系過(guò)程如下:(I)收集采集節(jié)點(diǎn)采集的元數(shù)據(jù);(2)元數(shù)據(jù)查重,將重復(fù)采集的元數(shù)據(jù)合并;(3)將采集到的數(shù)據(jù)通過(guò)GridFTP負(fù)載均衡地傳輸至存儲(chǔ)模塊,進(jìn)行分布存儲(chǔ)(臨時(shí)存儲(chǔ));(4)存儲(chǔ)模塊對(duì)存儲(chǔ)的元數(shù)據(jù)記錄進(jìn)行DOM或SAX解析后,實(shí)現(xiàn)聚類(lèi)操作;(5)存儲(chǔ)模塊在聚類(lèi)的基礎(chǔ)上分類(lèi)并存儲(chǔ),建立分類(lèi)索引;(6)建立的索引數(shù)據(jù)要用元數(shù)據(jù)進(jìn)行描述,建立完成后清楚所建立的臨時(shí)倉(cāng)儲(chǔ),在本地服務(wù)器上利用OGSA-DAI對(duì)分布存儲(chǔ)的元數(shù)據(jù)庫(kù)進(jìn)行邏輯集中管理(這樣的存儲(chǔ)方式進(jìn)一步縮小了搜索的范圍,提供了并行檢索的功能,整體上提高了信息檢索的準(zhǔn)確度和效率)。所述應(yīng)用模塊具體實(shí)現(xiàn)過(guò)程:(I)應(yīng)用模塊在原有的6個(gè)OAI請(qǐng)求動(dòng)詞的基礎(chǔ)上,增加了一個(gè)ListAuthority謂語(yǔ)動(dòng)詞;(2)ListAuthority用來(lái)采集所有DPs的全文查看授權(quán)信息,應(yīng)用模塊在元數(shù)據(jù)倉(cāng)儲(chǔ)中采集用戶(hù)的權(quán)限信息;(3)將采集到的DPs的全文查看授權(quán)信息保存在搜索集群中;(4)用戶(hù)檢索后想獲得某個(gè)數(shù)字資源的內(nèi)容時(shí)需要進(jìn)行認(rèn)證;(5)用戶(hù)進(jìn)行權(quán)限認(rèn)證時(shí),直接在搜索機(jī)群中進(jìn)行認(rèn)證。本發(fā)明與現(xiàn)有技術(shù)相比的優(yōu)點(diǎn)在于:(I)在現(xiàn)有元數(shù)據(jù)并行采集框架基礎(chǔ)上進(jìn)行了改進(jìn),為了提高元數(shù)據(jù)采集速度,達(dá)到比較高效的聯(lián)邦檢索服務(wù),結(jié)合網(wǎng)格技術(shù)、移動(dòng)Agent技術(shù)、OAI框架模型,本發(fā)明提出的并行采集系統(tǒng)采用分組策略,不僅在外部實(shí)現(xiàn)了并行采集,而且在組內(nèi)也對(duì)元數(shù)據(jù)進(jìn)行并行采集,整體上提高了采集速度,對(duì)元數(shù)據(jù)的存儲(chǔ)實(shí)行均衡分類(lèi)存儲(chǔ),滿(mǎn)足系統(tǒng)在響應(yīng)檢索請(qǐng)求時(shí)并行檢索,提高了檢索速度和準(zhǔn)確度。(2)本發(fā)明增加了系統(tǒng)的容錯(cuò)性、穩(wěn)定性,提高了信息檢索的性能,最終達(dá)到比較高效的數(shù)字圖書(shū)館信息資源管理和共享的目的。
圖1為基于OAI的元數(shù)據(jù)采集原理圖;圖2為本發(fā)明并行采集系統(tǒng)組成框圖;圖3為本發(fā)明中組內(nèi)的并行采集原理圖;圖4為本發(fā)明中采集模塊和調(diào)度模塊的交互及流程圖;圖5為 本發(fā)明中元數(shù)據(jù)處理模塊和存儲(chǔ)模塊實(shí)現(xiàn)框圖;圖6為本發(fā)明中存儲(chǔ)模塊內(nèi)部處理流程框圖。
具體實(shí)施例方式如圖2所示,本發(fā)明的并行采集系統(tǒng)由6大模塊:應(yīng)用模塊、元數(shù)據(jù)存儲(chǔ)模塊、元數(shù)據(jù)處理模塊、采集模塊、采集調(diào)度模塊、數(shù)字資源處理模塊和注冊(cè)服務(wù)器組成;提供共享元數(shù)據(jù)的數(shù)字圖書(shū)館經(jīng)過(guò)數(shù)字資源處理模塊轉(zhuǎn)換成符合OAI架構(gòu)的元數(shù)據(jù)倉(cāng)儲(chǔ),成為DP,并向注冊(cè)服務(wù)器注冊(cè)能被采集調(diào)度模塊利用的有關(guān)信息;采集調(diào)度模塊根據(jù)采集節(jié)點(diǎn)的靜態(tài)和動(dòng)態(tài)信息對(duì)采集任務(wù)分組分配,采集模塊通過(guò)采集調(diào)度模塊得到所分配的DPs基地址進(jìn)行元數(shù)據(jù)采集,在采集完后將元數(shù)據(jù)傳輸至元數(shù)據(jù)處理模塊;元數(shù)據(jù)處理模塊對(duì)元數(shù)據(jù)進(jìn)行處理后傳輸至元數(shù)據(jù)存儲(chǔ)模塊分布存儲(chǔ);應(yīng)用模塊在采集的元數(shù)據(jù)的基礎(chǔ)上為用戶(hù)提供檢索服務(wù)。下面說(shuō)明幾個(gè)主要模塊的具體功能和交互過(guò)程。1、采集調(diào)度模塊和采集模塊采集調(diào)度模塊是安裝有網(wǎng)格應(yīng)用軟件的節(jié)點(diǎn),負(fù)責(zé)采集節(jié)點(diǎn)之間的負(fù)載均衡。對(duì)整個(gè)網(wǎng)格狀態(tài)信息的監(jiān)控利用Condot_G,它為Condor提供面向網(wǎng)格環(huán)境的一個(gè)接口,用戶(hù)可以訪(fǎng)問(wèn)遠(yuǎn)程機(jī)器上的資源和進(jìn)行作業(yè)管理,并可以及時(shí)地監(jiān)視作業(yè)的遠(yuǎn)程執(zhí)行情況。進(jìn)行資源調(diào)度時(shí)利用Condot_G獲得米集節(jié)點(diǎn)的靜態(tài)信息和動(dòng)態(tài)信息,靜態(tài)信息如操作系統(tǒng)類(lèi)型、CPU類(lèi)型、內(nèi)存空間大小等;動(dòng)態(tài)信息如主機(jī)負(fù)載、隊(duì)列長(zhǎng)度等變化頻率比較快的信息。根據(jù)這些信息計(jì)算每個(gè)采集節(jié)點(diǎn)的權(quán)值W(Hi),并根據(jù)權(quán)值對(duì)采集節(jié)點(diǎn)和DPs進(jìn)行分組(每個(gè)采集節(jié)點(diǎn)和它所分配的DPs組建成一組)。權(quán)值計(jì)算公式如下:
權(quán)利要求
1.一種元數(shù)據(jù)并行采集系統(tǒng),其特征在于包括:應(yīng)用模塊、元數(shù)據(jù)存儲(chǔ)模塊、元數(shù)據(jù)處理模塊、采集模塊、采集調(diào)度模塊、數(shù)字資源處理模塊和注冊(cè)服務(wù)器;提供共享元數(shù)據(jù)的數(shù)字圖書(shū)館經(jīng)過(guò)數(shù)字資源處理模塊轉(zhuǎn)換成符合OAI架構(gòu)的元數(shù)據(jù)倉(cāng)儲(chǔ),成為DP,并向注冊(cè)服務(wù)器注冊(cè)能被采集調(diào)度模塊利用的有關(guān)信息;采集調(diào)度模塊根據(jù)采集節(jié)點(diǎn)的靜態(tài)和動(dòng)態(tài)信息對(duì)采集任務(wù)分組分配,采集模塊通過(guò)采集調(diào)度模塊得到所分配的DPs基地址進(jìn)行元數(shù)據(jù)采集,在采集完后將元數(shù)據(jù)傳輸至元數(shù)據(jù)處理模塊;元數(shù)據(jù)處理模塊對(duì)元數(shù)據(jù)進(jìn)行處理后傳輸至元數(shù)據(jù)存儲(chǔ)模塊分布存儲(chǔ);應(yīng)用模塊在采集的元數(shù)據(jù)的基礎(chǔ)上為用戶(hù)提供檢索服務(wù)。
2.根據(jù)權(quán)利要求1所述的元數(shù)據(jù)并行采集系統(tǒng),其特征在于:所述采集調(diào)度模塊和采集模塊實(shí)現(xiàn)過(guò)程為: (1)采集調(diào)度模塊在注冊(cè)服務(wù)器獲取采集任務(wù)信息; (2)采集調(diào)度模塊實(shí)時(shí)獲取各個(gè)采集節(jié)點(diǎn)的靜態(tài)信息和動(dòng)態(tài)信息; (3)采集調(diào)度模塊存儲(chǔ)各個(gè)采集節(jié)點(diǎn)的采集信息; (4)采集調(diào)度模塊計(jì)算各個(gè)采集節(jié)點(diǎn)的權(quán)值; (5)采集調(diào)度模塊采集調(diào)度節(jié)點(diǎn)根據(jù)計(jì)算的各個(gè)采集節(jié)點(diǎn)的權(quán)值,來(lái)進(jìn)行各個(gè)采集節(jié)點(diǎn)任務(wù)目標(biāo)的調(diào)整,把采集任務(wù)分組,配置給各個(gè)采集節(jié)點(diǎn); (6)采集調(diào)度模塊將任務(wù)發(fā)送給采集模塊的各個(gè)采集節(jié)點(diǎn); (7)采集節(jié)點(diǎn)收取采集調(diào)度模塊的任務(wù)信息; (8)采集節(jié)點(diǎn)根據(jù)任務(wù)信息調(diào)用封裝好的采集算法進(jìn)行采集;在任務(wù)組內(nèi)采集時(shí),利用移動(dòng)Agent技術(shù)實(shí)現(xiàn)元數(shù)據(jù)的并行采集; (9)采集到的信息封裝后傳送給存儲(chǔ)模塊。
3.根據(jù)權(quán)利要求1所述的元數(shù)據(jù)并行采集系統(tǒng),其特征在于:所述元數(shù)據(jù)處理模塊和存儲(chǔ)模塊實(shí)現(xiàn)過(guò)程如下: (O收集采集節(jié)點(diǎn)采集的元數(shù)據(jù); (2)元數(shù)據(jù)查重,將重復(fù)采集的元數(shù)據(jù)合并; (3)將采集到的數(shù)據(jù)通過(guò)GridFTP負(fù)載均衡地傳輸至存儲(chǔ)模塊,進(jìn)行分布存儲(chǔ),即臨時(shí)存儲(chǔ); (4)存儲(chǔ)模塊對(duì)存儲(chǔ)的元數(shù)據(jù)記錄進(jìn)行DOM或SAX解析后,實(shí)現(xiàn)聚類(lèi)操作; (5)存儲(chǔ)模塊在聚類(lèi)的基礎(chǔ)上分類(lèi)并存儲(chǔ),建立分類(lèi)索引; (6)建立的索引數(shù)據(jù)要用元數(shù)據(jù)進(jìn)行描述,建立完成后清楚所建立的臨時(shí)倉(cāng)儲(chǔ),在本地服務(wù)器上利用OGSA-DAI對(duì)分布存儲(chǔ)的元數(shù)據(jù)庫(kù)進(jìn)行邏輯集中管理。
4.根據(jù)權(quán)利要求1所述的元數(shù)據(jù)并行采集系統(tǒng),其特征在于:所述應(yīng)用模塊具體實(shí)現(xiàn)過(guò)程: (1)在原有的6個(gè)OAI請(qǐng)求動(dòng)詞的基礎(chǔ)上,增加了一個(gè)ListAuthority謂語(yǔ)動(dòng)詞; (2)ListAuthority用來(lái)采集所有DPs的全文查看授權(quán)信息,應(yīng)用模塊在元數(shù)據(jù)倉(cāng)儲(chǔ)中采集用戶(hù)的權(quán)限信息; (3)將采集到的DPs的全文查看授權(quán)信息保存在搜索集群中; (4)用戶(hù)檢索后想獲得某個(gè)數(shù)字資源的內(nèi)容時(shí)需要進(jìn)行認(rèn)證; (5)用戶(hù)進(jìn)行權(quán)限認(rèn)證時(shí),直接在搜索機(jī)群中進(jìn)行認(rèn)證。
全文摘要
一種元數(shù)據(jù)并行采集系統(tǒng),在現(xiàn)有元數(shù)據(jù)并行采集框架基礎(chǔ)上進(jìn)行了改進(jìn),為了提高元數(shù)據(jù)采集速度,達(dá)到比較高效的聯(lián)邦檢索服務(wù),結(jié)合網(wǎng)格技術(shù)、移動(dòng)Agent技術(shù)、OAI框架模型提出一種改進(jìn)的元數(shù)據(jù)并行采集框架。本發(fā)明采用分組策略,不僅在外部實(shí)現(xiàn)了并行采集,而且在組內(nèi)也對(duì)元數(shù)據(jù)進(jìn)行并行采集,整體上提高了采集速度,對(duì)元數(shù)據(jù)的存儲(chǔ)實(shí)行均衡分類(lèi)存儲(chǔ),滿(mǎn)足系統(tǒng)在響應(yīng)檢索請(qǐng)求時(shí)并行檢索,提高了檢索速度和準(zhǔn)確度。
文檔編號(hào)G06F17/30GK103207920SQ20131015427
公開(kāi)日2013年7月17日 申請(qǐng)日期2013年4月28日 優(yōu)先權(quán)日2013年4月28日
發(fā)明者王麗華, 尹科, 王寶會(huì), 陳浩, 王海泉, 于雷 申請(qǐng)人:北京航空航天大學(xué)