專利名稱:一種基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及深層網(wǎng)頁數(shù)據(jù)獲取方法,尤其涉及一種基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法。
背景技術(shù):
目前主流搜索引擎還只能搜索Internet表面可索引的信息,在Internet深處還隱含著大量通過主流搜索引擎少量或無法涉及的海量信息,這些信息我們稱之為深層網(wǎng)頁(Deep Web,又稱為 Invisible Web 或Hidden Web) oDeep Web 的信息一般存儲在服務(wù)端 Web數(shù)據(jù)庫中,與靜態(tài)頁面相比通常信息量更大、主題更專一、信息質(zhì)量和結(jié)構(gòu)更好。為了方便 用戶快捷高效的使用De印Web信息,國內(nèi)外學(xué)者對Deep Web數(shù)據(jù)集成進行了廣泛的研究。Deep Web數(shù)據(jù)集成的一種方案是與構(gòu)建傳統(tǒng)搜索引擎一樣,將Deep Web數(shù)據(jù)庫里內(nèi)容爬取出來,存儲到本地拷貝庫中并建立索引,它能在最短時間內(nèi)響應(yīng)用戶的查詢要求。目前這種方案在許多特定領(lǐng)域已成為Deep Web數(shù)據(jù)集成研究的主流。由于集成系統(tǒng)可能需要集成數(shù)十個甚至更多的Deep Web數(shù)據(jù)源,因此,該方案中一個關(guān)鍵并十分有挑戰(zhàn)性問題是如何高效的獲取De印Web數(shù)據(jù)。目前DeepWeb數(shù)據(jù)集成的實現(xiàn)方法為首先獨立窮盡獲取每一個待集成的DeepWeb數(shù)據(jù)源,然后通過數(shù)據(jù)清洗、實體識別、合并去重等步驟完成獲取數(shù)據(jù)的集成。這種實現(xiàn)方法在數(shù)據(jù)獲取方面主要存在兩個缺陷第一,每個數(shù)據(jù)源數(shù)據(jù)獲取的后期代價十分巨大,花費較大的代價僅僅獲取極少的新數(shù)據(jù),同時數(shù)據(jù)集成時需要處理來自不同數(shù)據(jù)源的大量重復(fù)數(shù)據(jù),數(shù)據(jù)集成的代價也非常巨大;第二,每個數(shù)據(jù)源數(shù)據(jù)獲取獨立進行,爬蟲主要依據(jù)該數(shù)據(jù)源已獲取數(shù)據(jù)的統(tǒng)計信息進行查詢選擇,由于統(tǒng)計信息缺乏和查詢候選池有限,該方法存在查詢選擇的準(zhǔn)確性較差、數(shù)據(jù)獲取覆蓋率較低等問題。
發(fā)明內(nèi)容
針對上述技術(shù)問題,本發(fā)明設(shè)計開發(fā)了一種基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法。本發(fā)明的一個目的在于,提供一種基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法。集成系統(tǒng)中待集成的數(shù)據(jù)源之間并不是相互獨立的,而是相互關(guān)聯(lián)。數(shù)據(jù)源之間數(shù)據(jù)相互覆蓋,甚至一些數(shù)據(jù)源之間相互依賴。具體而言,就是在集成環(huán)境中,從某一數(shù)據(jù)源獲取的數(shù)據(jù),可能從另一個或一些待集成的數(shù)據(jù)源中獲取,因此從某一數(shù)據(jù)源數(shù)據(jù)獲取后期獲取的數(shù)據(jù),可能出現(xiàn)在另一個或一些數(shù)據(jù)源數(shù)據(jù)獲取的前期或中期。在這一研究發(fā)現(xiàn)的基礎(chǔ)之上,本發(fā)明提出使用循環(huán)策略分多次完成對所有數(shù)據(jù)源的數(shù)據(jù)獲取,當(dāng)獲取某一數(shù)據(jù)源的效率下降到某一閾值時,中止當(dāng)前數(shù)據(jù)源的數(shù)據(jù)獲取,爬蟲開始獲取下一個數(shù)據(jù)源的數(shù)據(jù),依次類推直到把所有待集成數(shù)據(jù)源都獲取一遍;然后再重復(fù)上述過程,直到所有待集成數(shù)據(jù)源都已達到結(jié)束條件。本發(fā)明使一部分應(yīng)該從一些數(shù)據(jù)源數(shù)據(jù)獲取后期獲得的數(shù)據(jù),從另一些數(shù)據(jù)源數(shù)據(jù)獲取的前期或中期獲得。與傳統(tǒng)一次性窮盡數(shù)據(jù)獲取方法相比,本發(fā)明能減少數(shù)據(jù)源后期的數(shù)據(jù)獲取,降低了數(shù)據(jù)獲取的代價,同時也能減少重復(fù)數(shù)據(jù)的獲取,降低數(shù)據(jù)集成的代價。本發(fā)明的另一個目的在于,提供一種基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法。集成系統(tǒng)中待集成的數(shù)據(jù)源之間并不是相互獨立的,而是相互關(guān)聯(lián)。數(shù)據(jù)源之間數(shù)據(jù)相互覆蓋,甚至一些數(shù)據(jù)源之間相互依賴。基于上述情況,還發(fā)現(xiàn)了這樣的規(guī)律,即同領(lǐng)域的數(shù)據(jù)源之間具有相似的屬性值并且這些屬性值也具有相似的分布特征。本發(fā)明利用集成系統(tǒng)已獲取的數(shù)據(jù)動態(tài)構(gòu)建知識,并在集成系統(tǒng)動態(tài)知識的基礎(chǔ)之上進行查詢關(guān)鍵詞的選擇。本發(fā)明豐富了查詢選擇的知識,提高了查詢選擇的準(zhǔn)確性,同時擴展了查詢候選池,可提高數(shù)據(jù)獲取的覆蓋率。在使用循環(huán)策略進行數(shù)據(jù)獲取時,對于每個數(shù)據(jù)源可以多次利用豐富后的集成系統(tǒng)動態(tài)知識進行查詢選擇,從而有效率提高查詢選擇的準(zhǔn)確性,提高數(shù)據(jù)獲取的效率。本發(fā)明提供的技術(shù)方案為 一種基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法,包括以下步驟步驟一、分別對多個同一領(lǐng)域的數(shù)據(jù)源中的每一個數(shù)據(jù)源預(yù)設(shè)多個不同的查詢關(guān)鍵詞;步驟二、依次對每一個數(shù)據(jù)源進行數(shù)據(jù)獲取,其中,當(dāng)對所述多個數(shù)據(jù)源中的第一個數(shù)據(jù)源進行數(shù)據(jù)獲取時,計算當(dāng)前數(shù)據(jù)源中的各查詢關(guān)鍵詞的查詢效率,并按照查詢效率對當(dāng)前數(shù)據(jù)源中的查詢關(guān)鍵詞進行排序,根據(jù)查詢效率從大到小的順序依次選擇各查詢關(guān)鍵詞對當(dāng)前數(shù)據(jù)源進行一次又一次的數(shù)據(jù)獲取,直到所述當(dāng)前數(shù)據(jù)源的連續(xù)進行的a次數(shù)據(jù)獲取的新數(shù)據(jù)獲取率均不大于一新數(shù)據(jù)獲取率閾值,則中止對當(dāng)前數(shù)據(jù)源的數(shù)據(jù)獲取,并對當(dāng)前數(shù)據(jù)源的下一個數(shù)據(jù)源進行數(shù)據(jù)獲取,直到最后一個數(shù)據(jù)源達到中止;步驟三、檢驗所述多個數(shù)據(jù)源的數(shù)據(jù)獲取是否均滿足預(yù)設(shè)結(jié)束條件,如果不滿足,則重復(fù)步驟一,直至所述多個數(shù)據(jù)源的數(shù)據(jù)獲取均滿足預(yù)設(shè)結(jié)束條件,其中,當(dāng)對所述多個數(shù)據(jù)源中的任一個數(shù)據(jù)源滿足預(yù)設(shè)結(jié)束條件時,則結(jié)束對該數(shù)據(jù)源的數(shù)據(jù)獲取。優(yōu)選的是,所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述步驟二中,對多個數(shù)據(jù)源中的任一個數(shù)據(jù)源進行數(shù)據(jù)獲取,通過以下步驟實現(xiàn),(I)當(dāng)前數(shù)據(jù)源預(yù)設(shè)有n個查詢關(guān)鍵詞,計算各查詢關(guān)鍵詞的查詢效率,并按照查詢效率對查詢關(guān)鍵詞進行排序,根據(jù)查詢效率從大到小的順序選擇第一個查詢關(guān)鍵詞,根據(jù)該查詢關(guān)鍵詞在當(dāng)前數(shù)據(jù)源上進行第一次數(shù)據(jù)獲取,所述數(shù)據(jù)獲取過程為在當(dāng)前數(shù)據(jù)源上執(zhí)行,從當(dāng)前數(shù)據(jù)源下載與當(dāng)前查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄;(2)重復(fù)步驟(I),且當(dāng)重復(fù)步驟(I)的次數(shù)達到rK次之后,其中,rK<n,r為大于等于I的整數(shù),在根據(jù)第rK+1個查詢關(guān)鍵詞在當(dāng)前數(shù)據(jù)源上獲得與第rK+1個查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄之后,再從已經(jīng)下載的數(shù)據(jù)記錄中提取z個新的查詢關(guān)鍵詞,使得當(dāng)前數(shù)據(jù)源對應(yīng)的查詢關(guān)鍵詞的個數(shù)為n+z個。優(yōu)選的是,所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述K值逐漸增大。優(yōu)選的是,所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述查詢關(guān)鍵詞的查詢效率Ef f i c i ent (qi,DBj)與該查詢關(guān)鍵詞qi在當(dāng)前數(shù)據(jù)源DB」上的查詢回報率Reward (Qi, DBj)成正比,且與該查詢關(guān)鍵詞%在當(dāng)前的數(shù)據(jù)源DBj上的數(shù)據(jù)獲取代價Cost (qi; DB」)成反比。優(yōu)選的是,所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述查詢關(guān)鍵詞qi在當(dāng)前數(shù)據(jù)源上的查詢回報率RewarcKqi, DBj)為在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞qi匹配的數(shù)據(jù)記錄數(shù)中減去在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞Qi匹配的已經(jīng)下載的數(shù)據(jù)記錄數(shù)numh, DBjj Local),在當(dāng)前數(shù)據(jù)源中與該查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄數(shù)num(qi,DBj)通過以下方式得到,
權(quán)利要求
1.一種基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,包括以下步驟 步驟一、分別對多個同一領(lǐng)域的數(shù)據(jù)拳中的每一個數(shù)據(jù)源預(yù)設(shè)多個不同的查詢關(guān)鍵詞; 步驟二、依次對每一個數(shù)據(jù)源進行數(shù)據(jù)獲取,其中,當(dāng)對所述多個數(shù)據(jù)源中的第一個數(shù)據(jù)源進行數(shù)據(jù)獲取時,計算當(dāng)前數(shù)據(jù)源中的各查詢關(guān)鍵詞的查詢效率,并按照查詢效率對當(dāng)前數(shù)據(jù)源中的查詢關(guān)鍵詞進行排序,根據(jù)查詢效率從大到小的順序依次選擇各查詢關(guān)鍵詞對當(dāng)前數(shù)據(jù)源進行一次又一次的數(shù)據(jù)獲取,直到所述當(dāng)前數(shù)據(jù)源的連續(xù)進行的a次數(shù)據(jù)獲取的新數(shù)據(jù)獲取率均不大于一新數(shù)據(jù)獲取率閾值,則中止對當(dāng)前數(shù)據(jù)源的數(shù)據(jù)獲取,并對當(dāng)前數(shù)據(jù)源的下一個數(shù)據(jù)源進行數(shù)據(jù)獲取,直到最后一個數(shù)據(jù)源達到中止; 步驟三、檢驗所述多個數(shù)據(jù)源的數(shù)據(jù)獲取是否均滿足預(yù)設(shè)結(jié)束條件,如果不滿足,則重復(fù)步驟一,直至所述多個數(shù)據(jù)源的數(shù)據(jù)獲取均滿足預(yù)設(shè)結(jié)束條件,其中,當(dāng)對所述多個數(shù)據(jù)源中的任一個數(shù)據(jù)源滿足預(yù)設(shè)結(jié)束條件時,則結(jié)束對該數(shù)據(jù)源的數(shù)據(jù)獲取。
2.如權(quán)利要求I所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于, 所述步驟二中,對多個數(shù)據(jù)源中的任一個數(shù)據(jù)源進行數(shù)據(jù)獲取,通過以下步驟實現(xiàn), (1)當(dāng)前數(shù)據(jù)源預(yù)設(shè)有n個查詢關(guān)鍵詞,計算各查詢關(guān)鍵詞的查詢效率,并按照查詢效率對查詢關(guān)鍵詞進行排序,根據(jù)查詢效率從大到小的順序選擇第一個查詢關(guān)鍵詞,根據(jù)該查詢關(guān)鍵詞在當(dāng)前數(shù)據(jù)源上進行第一次數(shù)據(jù)獲取,所述數(shù)據(jù)獲取過程為在當(dāng)前數(shù)據(jù)源上執(zhí)行,從當(dāng)前數(shù)據(jù)源下載與當(dāng)前查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄; (2)重復(fù)步驟(I),且當(dāng)重復(fù)步驟(I)的次數(shù)達到rK次之后,其中,rK<n,r為大于等于I的整數(shù),在根據(jù)第rK+1個查詢關(guān)鍵詞在當(dāng)前數(shù)據(jù)源上獲得與第rK+1個查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄之后,再從已經(jīng)下載的數(shù)據(jù)記錄中提取z個新的查詢關(guān)鍵詞,使得當(dāng)前數(shù)據(jù)源對應(yīng)的查詢關(guān)鍵詞的個數(shù)為n+z個。
3.如權(quán)利要求2所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,所述K值逐漸增大。
4.如權(quán)利要求I或2或3所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,所述查詢關(guān)鍵詞的查詢效率Efficient (Qi, DBj)與該查詢關(guān)鍵詞qi在當(dāng)前數(shù)據(jù)源DB」上的查詢回報率RewarcKqi, DBj)成正比,且與該查詢關(guān)鍵詞qi在當(dāng)前的數(shù)據(jù)源DBj上的數(shù)據(jù)獲取代價Cost (qi; DB」)成反比。
5.如權(quán)利要求4所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,所述查詢關(guān)鍵詞qi在當(dāng)前數(shù)據(jù)源上的查詢回報率RewarcKqi, DBj)為在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞qi匹配的數(shù)據(jù)記錄數(shù)nun^qyDBj)中減去在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞Qi匹配的已經(jīng)下載的數(shù)據(jù)記錄數(shù)num(qi,DBj^ocal), 在當(dāng)前數(shù)據(jù)源中與該查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄數(shù)num(qi,DBj)通過以下方式得到, num(qi, DBj) = P (qi; DBj) X | DBj | , Idbj為當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計值,p(qi,DBj)為在當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計值中與查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)所占的比例, 其中,P(qi, DBj) = P(qi; Slocal), P(qi; Slocal)為在已經(jīng)下載的數(shù)據(jù)記錄數(shù)I Sltjeal |中與查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)所占的比例, 則 numh, DBj) = P (q” Sloocal) X | DBj |。
6.如權(quán)利要求5所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,還有, P(Q[1, Slocal) = PDBj), PDBj)為在當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計值中與已經(jīng)執(zhí)行的i_l個查詢關(guān)鍵詞qu, 匹配的數(shù)據(jù)記錄數(shù)所占的比例,P(qtl, ...h],Slocal)為在已經(jīng)下載的數(shù)據(jù)記錄數(shù)中與已經(jīng)執(zhí)行的i_l個查詢關(guān)鍵詞q[1,匹配的數(shù)據(jù)記錄數(shù)所占的比例,
7.如權(quán)利要求5或6所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,查詢關(guān)鍵詞qi在當(dāng)前數(shù)據(jù)源DB」上的數(shù)據(jù)獲取代價Cost (qi,DBJ與在當(dāng)前數(shù)據(jù)源DB」中與該查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)num(qi,DBj)具有線性關(guān)系。
8.如權(quán)利要求5或6所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,有Slocal _ ^ I DBj, local |。
9.如權(quán)利要求7所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,所述步驟三中,所述預(yù)設(shè)結(jié)束條件為, 當(dāng)對多個數(shù)據(jù)源中的任一個數(shù)據(jù)源進行數(shù)據(jù)獲取時,對當(dāng)前數(shù)據(jù)源的數(shù)據(jù)獲取次數(shù)不小于數(shù)據(jù)獲取次數(shù)閾值。
10.如權(quán)利要求7所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,所述步驟三中,所述預(yù)設(shè)結(jié)束條件為, 當(dāng)對多個數(shù)據(jù)源中的任一個數(shù)據(jù)源進行數(shù)據(jù)獲取時,對當(dāng)前數(shù)據(jù)源已產(chǎn)生的數(shù)據(jù)獲取代價Cost (DBj)不小于一數(shù)據(jù)獲取代價閾值,其中,Cost(DBj)= ^l1 Cosliqi,DBj)。
全文摘要
本發(fā)明公開了一種基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法。本發(fā)明提出使用循環(huán)策略分多次完成對所有數(shù)據(jù)源的數(shù)據(jù)獲取,當(dāng)獲取某一數(shù)據(jù)源的效率下降到某一閾值時,停止當(dāng)前數(shù)據(jù)源的數(shù)據(jù)獲取,爬蟲開始獲取下一個數(shù)據(jù)源的數(shù)據(jù),依次類推直到把所有待集成數(shù)據(jù)源都獲取一遍;然后再重復(fù)上述過程,直到所有待集成數(shù)據(jù)源都已達到結(jié)束條件。本發(fā)明使一部分應(yīng)該從一些數(shù)據(jù)源數(shù)據(jù)獲取后期獲得的數(shù)據(jù),從另一些數(shù)據(jù)源數(shù)據(jù)獲取的前期或中期獲得。與傳統(tǒng)一次性窮盡數(shù)據(jù)獲取方法相比,本發(fā)明能減少數(shù)據(jù)源后期的數(shù)據(jù)獲取,降低了數(shù)據(jù)獲取的代價,同時也能減少重復(fù)數(shù)據(jù)的獲取,降低數(shù)據(jù)集成的代價。
文檔編號G06F17/30GK102682125SQ20121015188
公開日2012年9月19日 申請日期2012年5月16日 優(yōu)先權(quán)日2012年5月16日
發(fā)明者崔志明, 楊元峰, 梁穎紅, 趙朋朋, 鮮學(xué)豐 申請人:江蘇省現(xiàn)代企業(yè)信息化應(yīng)用支撐軟件工程技術(shù)研發(fā)中心