專利名稱:一種基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及深層網(wǎng)頁數(shù)據(jù)獲取方法,尤其涉及一種基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法。
背景技術(shù):
目前主流搜索引擎還只能搜索Internet表面可索引的信息,在Internet深處還隱含著大量通過主流搜索引擎少量或無法涉及的海量信息,這些信息我們稱之為深層網(wǎng)頁(Deep Web,又稱為 Invisible Web 或 Hidden Web)。DeepWeb 的信息一般存儲在服務(wù)端 Web數(shù)據(jù)庫中,與靜態(tài)頁面相比通常信息量更大、主題更專一、信息質(zhì)量和結(jié)構(gòu)更好。為了方便 用戶快捷高效的使用De印Web信息,國內(nèi)外學(xué)者對Deep Web數(shù)據(jù)集成進(jìn)行了廣泛的研究。Deep Web數(shù)據(jù)集成的一種方案是與構(gòu)建傳統(tǒng)搜索引擎一樣,將Deep Web數(shù)據(jù)庫里內(nèi)容爬取出米,存儲到本地拷貝庫中并建立索引,它能在最短時間內(nèi)響應(yīng)用戶的查詢要求。目前這種方案在許多特定領(lǐng)域已成為Deep Web數(shù)據(jù)集成研究的主流。由于集成系統(tǒng)可能需要集成數(shù)十個甚至更多的Deep Web數(shù)據(jù)源,因此,該方案中一個關(guān)鍵并十分有挑戰(zhàn)性問題是如何高效的獲取De印Web數(shù)據(jù)。目前DeepWeb數(shù)據(jù)集成的實(shí)現(xiàn)方法為首先獨(dú)立窮盡獲取每一個待集成的DeepWeb數(shù)據(jù)源,然后通過數(shù)據(jù)清洗、實(shí)體識別、合并去重等步驟完成獲取數(shù)據(jù)的集成。這種實(shí)現(xiàn)方法在數(shù)據(jù)獲取方面主要存在兩個缺陷第一,每個數(shù)據(jù)源數(shù)據(jù)獲取的后期代價十分巨大,花費(fèi)較大的代價僅僅獲取極少的新數(shù)據(jù),同時數(shù)據(jù)集成時需要處理米自不同數(shù)據(jù)源的大量重復(fù)數(shù)據(jù),數(shù)據(jù)集成的代價也非常巨大;第二,每個數(shù)據(jù)源數(shù)據(jù)獲取獨(dú)立進(jìn)行,爬蟲主要依據(jù)該數(shù)據(jù)源已獲取數(shù)據(jù)的統(tǒng)計(jì)信息進(jìn)行查詢選擇,由于統(tǒng)計(jì)信息缺乏和查詢候選池有限,該方法存在查詢選擇的準(zhǔn)確性較差、數(shù)據(jù)獲取覆蓋率較低等問題。
發(fā)明內(nèi)容
針對上述技術(shù)問題,本發(fā)明設(shè)計(jì)開發(fā)了一種基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法。本發(fā)明的一個目的在于,提供一種基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法。集成系統(tǒng)中待集成的數(shù)據(jù)源之間并不是相互獨(dú)立的,而是相互關(guān)聯(lián)。數(shù)據(jù)源之間數(shù)據(jù)相互覆蓋,甚至一些數(shù)據(jù)源之間相互依賴?;谏鲜銮闆r,還發(fā)現(xiàn)了這樣的規(guī)律,即同領(lǐng)域的數(shù)據(jù)源之間具有相似的屬性值并且這些屬性值也具有相似的分布特征。本發(fā)明利用集成系統(tǒng)已獲取的數(shù)據(jù)動態(tài)構(gòu)建知識,并在集成系統(tǒng)動態(tài)知識的基礎(chǔ)之上進(jìn)行查詢關(guān)鍵詞的選擇。本發(fā)明豐富了查詢選擇的知識,提高了查詢選擇的準(zhǔn)確性,同時擴(kuò)展了查詢候選池,可提高數(shù)據(jù)獲取的覆蓋率。在使用循環(huán)策略進(jìn)行數(shù)據(jù)獲取時,對于每個數(shù)據(jù)源可以多次利用豐富后的集成系統(tǒng)動態(tài)知識進(jìn)行查詢選擇,從而有效率提高查詢選擇的準(zhǔn)確性,提高數(shù)據(jù)獲取的效率。本發(fā)明的另一個目的在于,提供一種基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法。集成系統(tǒng)中待集成的數(shù)據(jù)源之間并不是相互獨(dú)立的,而是相互關(guān)聯(lián)。數(shù)據(jù)源之間數(shù)據(jù)相互覆蓋,甚至一些數(shù)據(jù)源之間相互依賴。具體而言,就是在集成環(huán)境中,從某一數(shù)據(jù)源獲取的數(shù)據(jù),可能從另一個或一些待集成的數(shù)據(jù)源中獲取,因此從某一數(shù)據(jù)源數(shù)據(jù)獲取后期獲取的數(shù)據(jù),可能出現(xiàn)在另一個或一些數(shù)據(jù)源數(shù)據(jù)獲取的前期或中期。在這一研究發(fā)現(xiàn)的基礎(chǔ)之上,本發(fā)明提出使用循環(huán)策略分多次完成對所有數(shù)據(jù)源的數(shù)據(jù)獲取,當(dāng)獲取某一數(shù)據(jù)源的效率下降到某一閾值時,中止當(dāng)前數(shù)據(jù)源的數(shù)據(jù)獲取,爬蟲開始獲取下一個數(shù)據(jù)源的數(shù)據(jù),依次類推直到把所有待集成數(shù)據(jù)源都獲取一遍;然后再重復(fù)上述過程,直到所有待集成數(shù)據(jù)源都已達(dá)到結(jié)束條件。本發(fā)明使一部分應(yīng)該從一些數(shù)據(jù)源數(shù)據(jù)獲取后期獲得的數(shù)據(jù),從另一些數(shù)據(jù)源數(shù)據(jù)獲取的前期或中期獲得。與傳統(tǒng)一次性窮盡數(shù)據(jù)獲取方法相比,本發(fā)明能減少數(shù)據(jù)源后期的數(shù)據(jù)獲取,降低了數(shù)據(jù)獲取的代價,同時也能減少重復(fù)數(shù)據(jù)的獲取,降低數(shù)據(jù)集成的代價。本發(fā)明提供的技術(shù)方案為一種基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法, 對同一領(lǐng)域的多個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,其中,對所述多個數(shù)據(jù)源中的一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,是通過以下過程實(shí)現(xiàn)的,包括以下步驟步驟一、為當(dāng)前數(shù)據(jù)源預(yù)設(shè)n個查詢關(guān)鍵詞,從n個查詢關(guān)鍵詞中選擇第一個查詢關(guān)鍵詞,根據(jù)該查詢關(guān)鍵詞在當(dāng)前數(shù)據(jù)源上進(jìn)行第一次數(shù)據(jù)獲取,所述數(shù)據(jù)獲取過程為在當(dāng)前數(shù)據(jù)源上執(zhí)行,從當(dāng)前數(shù)據(jù)源下載與當(dāng)前查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄;步驟二、重復(fù)步驟一,且當(dāng)重復(fù)步驟一的次數(shù)達(dá)到iK次之后,其中rK < n,r為大于等于I的整數(shù),在根據(jù)第rK+1個查詢關(guān)鍵詞在當(dāng)前數(shù)據(jù)源上獲得第rK+1個查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄之后,再從已經(jīng)下載的數(shù)據(jù)記錄中提取z個新的查詢關(guān)鍵詞,使得當(dāng)前數(shù)據(jù)源對應(yīng)的查詢關(guān)鍵詞的個數(shù)為n+z個。優(yōu)選的是,所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述K值逐漸增大。優(yōu)選的是,所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,對所述多個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,通過以下過程實(shí)現(xiàn)的,(I)依次對每一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,其中,當(dāng)對所述多個數(shù)據(jù)源中的第一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取時,從n個查詢關(guān)鍵詞中依次選擇各查詢關(guān)鍵詞對當(dāng)前數(shù)據(jù)源進(jìn)行一次又一次的數(shù)據(jù)獲取,直到所述當(dāng)前數(shù)據(jù)源的連續(xù)進(jìn)行的a次數(shù)據(jù)獲取的新數(shù)據(jù)獲取率均不大于一新數(shù)據(jù)獲取率閾值,則中止對當(dāng)前數(shù)據(jù)源的數(shù)據(jù)獲取,并對當(dāng)前數(shù)據(jù)源的下一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,直到最后一個數(shù)據(jù)源達(dá)到中止,(2)檢驗(yàn)所述多個數(shù)據(jù)源的數(shù)據(jù)獲取是否均滿足預(yù)設(shè)結(jié)束條件,如果不滿足,則重復(fù)步驟(I),直至所述多個數(shù)據(jù)源的數(shù)據(jù)獲取均滿足預(yù)設(shè)結(jié)束條件,其中,當(dāng)對所述多個數(shù)據(jù)源中的任一個數(shù)據(jù)源滿足預(yù)設(shè)結(jié)束條件時,則結(jié)束對該數(shù)據(jù)源的數(shù)據(jù)獲取。優(yōu)選的是,所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述步驟(I)中,計(jì)算當(dāng)前數(shù)據(jù)源中的各查詢關(guān)鍵詞的查詢效率,并按照查詢效率對當(dāng)前數(shù)據(jù)源中的查詢關(guān)鍵詞進(jìn)行排序,根據(jù)查詢效率從大到小的順序依次選擇各查詢關(guān)鍵詞對當(dāng)前數(shù)據(jù)源進(jìn)行一次又一次的數(shù)據(jù)獲取。優(yōu)選的是,所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,查詢關(guān)鍵詞的查詢效率Efficient (qi,DB」)與該查詢關(guān)鍵詞qi在當(dāng)前數(shù)據(jù)源DB」上的查詢回報(bào)率RewarcKqi,DBj)成正比,且與該查詢關(guān)鍵詞qi在當(dāng)前的數(shù)據(jù)源DBj上的數(shù)據(jù)獲取代價Cost (Qi, DBj)成反比。優(yōu)選的是,所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述查詢關(guān)鍵詞qi在當(dāng)前數(shù)據(jù)源上的查詢回報(bào)率RewarcKqi, DBj)為在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞qi匹配的數(shù)據(jù)記錄數(shù)中減去在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞Qi匹配的已經(jīng)下載的數(shù)據(jù)記錄數(shù)numh, DBjj Local),在當(dāng)前數(shù)據(jù)源中與該查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄數(shù)num(qi,DBj)通過以下方式得到,num(qi, DBj) = P (qi; DBj) X | DBj |, Idbj為當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計(jì)值,p(Qi, DBj)為在當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計(jì)值中與查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)所占的比例,其中,PQpDBj)= P (qi; Slocal) ,P (qi; Slocal)為在已經(jīng)下載的數(shù)據(jù)記錄數(shù) I Sltjeal | 中與查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)所占的比例,則numh, DBj) = P (qi; Slocal) X | DBj |。優(yōu)選的是,所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,還有,PSlocal) = PDBj), PDBj)為在當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計(jì)值中與已經(jīng)執(zhí)行的i_l個查詢關(guān)鍵詞qum]匹配的數(shù)據(jù)記錄數(shù)所占的比例,P(q[1, ...i# Slocal)為在已經(jīng)下載的數(shù)據(jù)記錄數(shù)中與已經(jīng)執(zhí)行的i_l個查詢關(guān)鍵詞q[1,...i-!]匹配的數(shù)據(jù)記錄數(shù)所占的比例,P(q[lj DBjO = IDBj. local I/Idbj I, DBjjlocal 為當(dāng)前數(shù)據(jù)源已經(jīng)下載的數(shù)據(jù)記錄數(shù),
r n m ,I/揭細(xì) |x/%Aora;)^nmniqlfDBj)=^—--—~^。
Local)優(yōu)選的是,所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,查詢關(guān)鍵詞Qi在當(dāng)前數(shù)據(jù)源DBj上的數(shù)據(jù)獲取代價Cost (Qi, DBj)與在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)具有線性關(guān)系。優(yōu)選的是,所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,有
Slocal _ ^ I DBj’ local |。優(yōu)選的是,所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述步驟(2)中,所述預(yù)設(shè)結(jié)束條件為,當(dāng)對多個數(shù)據(jù)源中的一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取時,從當(dāng)前數(shù)據(jù)源已經(jīng)下載的數(shù)據(jù)記錄數(shù)IDButxJ占當(dāng)前數(shù)據(jù)源可獲取的數(shù)據(jù)記錄的估計(jì)值IDB」的比例不小于一比例閾值。本發(fā)明所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法具有以下有益效果(I)根據(jù)同領(lǐng)域數(shù)據(jù)源之間所存在的下述規(guī)律,即同領(lǐng)域的數(shù)據(jù)源之間具有相似的屬性值并且這些屬性值也具有相似的分布特征。本發(fā)明利用集成系統(tǒng)已獲取的數(shù)據(jù)動態(tài)構(gòu)建知識,并設(shè)計(jì)基于集成系統(tǒng)動態(tài)知識的查詢選擇方法。本發(fā)明豐富了查詢選擇的知識,提高了查詢選擇的準(zhǔn)確性,同時擴(kuò)展了查詢候選池,可提高數(shù)據(jù)獲取的覆蓋率。在使用循環(huán)策略進(jìn)行數(shù)據(jù)獲取時,對于每個數(shù)據(jù)源可以多次利用豐富后的集成系統(tǒng)動態(tài)知識進(jìn)行查詢選擇,從而有效率提高查詢選擇的準(zhǔn)確性,提高數(shù)據(jù)獲取的效率。
(2)在集成環(huán)境中,從某一數(shù)據(jù)源獲取的數(shù)據(jù),可能從另一個或一些待集成的數(shù)據(jù)源中獲取,因此從某一數(shù)據(jù)源數(shù)據(jù)獲取后期獲取的數(shù)據(jù),可能出現(xiàn)在另一個或一些數(shù)據(jù)源數(shù)據(jù)獲取的前期或中期。在這一研究發(fā)現(xiàn)的基礎(chǔ)之上,本發(fā)明提出使用循環(huán)策略分多次完成對所有數(shù)據(jù)源的數(shù)據(jù)獲取,當(dāng)獲取某一數(shù)據(jù)源的效率下降到某一閾值時,中止當(dāng)前數(shù)據(jù)源的數(shù)據(jù)獲取,爬蟲開始獲取下一個數(shù)據(jù)源的數(shù)據(jù),依次類推直到把所有待集成數(shù)據(jù)源都獲取一遍;然后再重復(fù)上述過程,直到所有待集成數(shù)據(jù)源都已達(dá)到結(jié)束條件。本發(fā)明使一部分應(yīng)該從一些數(shù)據(jù)源數(shù)據(jù)獲取后期獲得的數(shù)據(jù),從另一些數(shù)據(jù)源數(shù)據(jù)獲取的前期或中期獲得。與傳統(tǒng)一次性窮盡數(shù)據(jù)獲取方法相比,本發(fā)明能減少數(shù)據(jù)源后期的數(shù)據(jù)獲取,降低了數(shù)據(jù)獲取的代價,同時也能減少重復(fù)數(shù)據(jù)的獲取,降低數(shù)據(jù)集成的代價。
圖I為基于循環(huán)策略的多個數(shù)據(jù)源的數(shù)據(jù)獲取的流程示意圖。圖2為本發(fā)明所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法的流程示意圖。 圖3為本發(fā)明所述的基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法與現(xiàn)有技術(shù)的獨(dú)立數(shù)據(jù)獲取策略的深層網(wǎng)頁數(shù)據(jù)獲取方法的效率對比情況,圖3(a)為針對第一類測試數(shù)據(jù)的效率對比情況,圖3(b)為針對第二類測試數(shù)據(jù)的效率對比情況,▲代表基于循環(huán)策略的深層網(wǎng)頁數(shù)據(jù)獲取方法, 代表現(xiàn)有I技術(shù)的獨(dú)立數(shù)據(jù)獲取策略的深層網(wǎng)頁數(shù)據(jù)獲取方法。圖4為基于動態(tài)知識的查詢選擇方法與現(xiàn)有技術(shù)的查詢選擇方法的效率對比情況,圖4(a)為針對第一類測試數(shù)據(jù)的效率對比情況,圖4(b)為針對第二類測試數(shù)據(jù)的效率對比情況,▲代表基于動態(tài)知識的查詢選擇方法,■代表現(xiàn)有技術(shù)的查詢選擇方法。圖5為DK的查詢間隔次數(shù)K對數(shù)據(jù)獲取效率的影響情況,其測試數(shù)據(jù)為第一類測試數(shù)據(jù),圖5(a)為針對第一種情況,對應(yīng)DK為空的情況,圖5(b)為針對第二種情況,對應(yīng)DK較豐富的情況,▲代表K = I的情況,■代表K = 10的情況,▼代表K = 30的情況。
具體實(shí)施例方式下面結(jié)合附圖對本發(fā)明做進(jìn)一步的詳細(xì)說明,以令本領(lǐng)域技術(shù)人員參照說明書文字能夠據(jù)以實(shí)施。如圖2所示,本發(fā)明提供一種基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法,對同一領(lǐng)域的多個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,其中,對所述多個數(shù)據(jù)源中的一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,是通過以下過程實(shí)現(xiàn)的,包括以下步驟步驟一、為當(dāng)前數(shù)據(jù)源預(yù)設(shè)n個查詢關(guān)鍵詞,從n個查詢關(guān)鍵詞中選擇第一個查詢關(guān)鍵詞,根據(jù)該查詢關(guān)鍵詞在當(dāng)前數(shù)據(jù)源上進(jìn)行第一次數(shù)據(jù)獲取,所述數(shù)據(jù)獲取過程為在當(dāng)前數(shù)據(jù)源上執(zhí)行,從當(dāng)前數(shù)據(jù)源下載與當(dāng)前查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄;步驟二、重復(fù)步驟一,且當(dāng)重復(fù)步驟一的次數(shù)達(dá)到iK次之后,其中rK < n,r為大于等于I的整數(shù),在根據(jù)第rK+1個查詢關(guān)鍵詞在當(dāng)前數(shù)據(jù)源上獲得第rK+1個查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄之后,再從已經(jīng)下載的數(shù)據(jù)記錄中提取z個新的查詢關(guān)鍵詞,使得當(dāng)前數(shù)據(jù)源對應(yīng)的查詢關(guān)鍵詞的個數(shù)為n+z個。上述步驟二中,已經(jīng)下載的數(shù)據(jù)記錄指的是S1(x;al。
所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述K值逐漸增大。如圖I所示,所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,對所述多個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,通過以下過程實(shí)現(xiàn)的,(I)依次對每一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,其中,當(dāng)對所述多個數(shù)據(jù)源中的第一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取時,從n個查詢關(guān)鍵詞中依次選擇各查詢關(guān)鍵詞對當(dāng)前數(shù)據(jù)源進(jìn)行一次又一次的數(shù)據(jù)獲取,直到所述當(dāng)前數(shù)據(jù)源的連續(xù)進(jìn)行的a次數(shù)據(jù)獲取的新數(shù)據(jù)獲取率均不大于一新數(shù)據(jù)獲取率閾值,則中止對當(dāng)前數(shù)據(jù)源的數(shù)據(jù)獲取,并對當(dāng)前數(shù)據(jù)源的下一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,直到最后一個數(shù)據(jù)源達(dá)到中止,(2)檢驗(yàn)所述多個數(shù)據(jù)源的數(shù)據(jù)獲取是否均滿足預(yù)設(shè)結(jié)束條件,如果不滿足,則重復(fù)步驟(I),直至所述多個數(shù)據(jù)源的數(shù)據(jù)獲取均滿足預(yù)設(shè)結(jié)束條件,其中,當(dāng)對所述多個數(shù)據(jù)源中的任一個數(shù)據(jù)源滿足預(yù)設(shè)結(jié)束條件時,則結(jié)束對該數(shù)據(jù)源的數(shù)據(jù)獲取。
所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述步驟(I)中,計(jì)算當(dāng)前數(shù)據(jù)源中的各查詢關(guān)鍵詞的查詢效率,并按照查詢效率對當(dāng)前數(shù)據(jù)源中的查詢關(guān)鍵詞進(jìn)行排序,根據(jù)查詢效率從大到小的順序依次選擇各查詢關(guān)鍵詞對當(dāng)前數(shù)據(jù)源進(jìn)行一次又一次的數(shù)據(jù)獲取。所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,查詢關(guān)鍵詞的查詢效率Efficient (Qi, DBj)與該查詢關(guān)鍵詞qi在當(dāng)前數(shù)據(jù)源DB」上的查詢回報(bào)率RewarcKqi, DBj)成正比,且與該查詢關(guān)鍵詞Qi在當(dāng)前的數(shù)據(jù)源DBj上的數(shù)據(jù)獲取代價Cost (Qi, DBj)成反比。所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述查詢關(guān)鍵詞Qi在當(dāng)前數(shù)據(jù)源上的查詢回報(bào)率RewarcKqi, DBj)為在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞qi匹配的數(shù)據(jù)記錄數(shù)中減去在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞Qi匹配的已經(jīng)下載的數(shù)據(jù)記錄數(shù)num(qi,DBj, ^al),在當(dāng)前數(shù)據(jù)源中與該查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄數(shù)通過以下方式得到,num(qi, DBj) = P (qi; DBj) X | DBj |,Idbj為當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計(jì)值,p(Qi, DBj)為在當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計(jì)值中與查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)所占的比例,其中,P(qi; DBj) = P(qi; Slocal),P ( , Slocal)為在已經(jīng)下載的數(shù)據(jù)記錄數(shù)ISltrcalI中與查詢關(guān)鍵詞屮匹配的數(shù)據(jù)記錄數(shù)所占的比例,則num(qi, DBj) = P (q” Slocal) X | DBj |。所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,還有,P (q[i, -i-i]) Slocal) —P(q[i, ...i-J,DBj-),P(Q[1, ...^,DBj)為在當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計(jì)值中與已經(jīng)執(zhí)行的i-1個查詢關(guān)鍵詞qu, ...h]匹配的數(shù)據(jù)記錄數(shù)所占的比例,P(q[1, Slocal)為在已經(jīng)下載的數(shù)據(jù)記錄數(shù)中與已經(jīng)執(zhí)行的i_l個查詢關(guān)鍵詞qu, 匹配的數(shù)據(jù)記錄數(shù)所占的比例,P (q[1,…h(huán)],DBj) = I DBjuocal I / I DBj |,IDBjuocal為當(dāng)前數(shù)據(jù)源已經(jīng)下載的數(shù)據(jù)記錄數(shù),則
\ DBjjo專P(qi,SLocal)IiumiqljDBj)=^-。
Local)
所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,查詢關(guān)鍵詞Qi在當(dāng)前數(shù)據(jù)源DBj上的數(shù)據(jù)獲取代價Cost(qi,DBj)與在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)numhi, DBj)具有線性關(guān)系。所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,有ISltxJ= E I DBjaocal U所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法中,所述步驟(2)中,所述預(yù)設(shè)結(jié)束條件為,當(dāng)對多個數(shù)據(jù)源中的一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取時,從當(dāng)前數(shù)據(jù)源已經(jīng)下載的數(shù)據(jù)記錄數(shù)IDBiltxJ占當(dāng)前數(shù)據(jù)源 可獲取的數(shù)據(jù)記錄的估計(jì)值|DB」的比例不小于一比例閾值。Deep Web數(shù)據(jù)獲取方式結(jié)構(gòu)化的Web數(shù)據(jù)庫可看做一張關(guān)系數(shù)據(jù)表DB,DB包含的數(shù)據(jù)記錄為T = It1, t2,…tx},每條記錄包含y個屬性A=Ia1, a2,…ay}。獲取Deep Web中的數(shù)據(jù)只能通過從查詢接口上提交查詢,從返回結(jié)果頁面獲得Deep Web中包含該查詢的記錄集,對于一個潛在的查詢1,R(Qi)表示在DB上執(zhí)行查詢Qi所返回的記錄集,即DB中所有包含Qi的記錄集合(假設(shè)不考慮返回記錄限制的情況),R(Qi)為T的一個子集。Deep Web數(shù)據(jù)獲取代價模型爬蟲在DB上執(zhí)行查詢qi和獲取qi所返回的記錄集都需要一定的代價,如時間、網(wǎng)絡(luò)帶寬等。對于一個查詢1,使用Cost ( , DB)表示爬蟲在DB上執(zhí)行查詢Qi和獲取Qi所返回的記錄集的各種代價總和(即De印Web數(shù)據(jù)獲取代價)。對于結(jié)構(gòu)化的Web數(shù)據(jù)庫,數(shù)據(jù)獲取的代價主要包括爬蟲提交查詢到站點(diǎn)的查詢代價(也即在數(shù)據(jù)源上執(zhí)行一個查詢關(guān)鍵詞的代價),爬蟲與Web服務(wù)器交互的代價(也即在執(zhí)行查詢關(guān)鍵詞時與數(shù)據(jù)源的交互代價),爬蟲下載結(jié)果頁面的代價。交互次數(shù)和查詢提交次數(shù)是不一樣的,每個結(jié)果頁面通常包含固定k個與查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄,每次初始連接得到至多k個數(shù)據(jù)記錄。例如,在圖書數(shù)據(jù)庫中有104個圖書記錄匹配屬性值“書名,Java”,并且每個結(jié)果頁面顯示10 (k= 10)個數(shù)據(jù)記錄,則獲取所有結(jié)果記錄集的總交互次數(shù)為[104/10] = 11次。即每獲取一頁的數(shù)據(jù)記錄,都需要和Web服務(wù)器交互一次。執(zhí)行查詢Qi的過程實(shí)際上就是指在數(shù)據(jù)源上執(zhí)行查詢關(guān)鍵詞qi,并尋找與查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄的過程,也就是在數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取的過程。定義爬蟲提交一次查詢的代價為C,,爬蟲與Web服務(wù)器交互一次的代價為Cm,爬蟲下載一個結(jié)果頁面的數(shù)據(jù)記錄的代價為Cd。對于一個查詢qi,在DB上執(zhí)行查詢qi和獲取Qi所返回的記錄集的各種代價總和Cost (q” DB)可表示為Cost (qi; DB) = Cq+CmM+CdN (I)其中C,,Cffl, Cd為常量,M為爬蟲與Web服務(wù)器交互次數(shù),N為爬蟲需下載的結(jié)果頁
面數(shù)量。
、u_”DBY其他
M = \7kz(2)
Yk 存在最大返冋記錄其中numhi, DB)為DB中所有與查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù),k為一個結(jié)果頁面最多可顯示的數(shù)據(jù)記錄數(shù)。如果DB存在最大返回記錄限制,則L為DB的一次查詢的最大返回記錄數(shù)。爬蟲需下載的結(jié)果頁面數(shù)量N和爬蟲與Web服務(wù)器交互次數(shù)M相等。單個Deep Web數(shù)據(jù)源的數(shù)據(jù)獲取對于一個Deep Web數(shù)據(jù)源DB」,DeepWeb數(shù)據(jù)獲取問題可形式化定義為尋找一組查詢關(guān)鍵詞集合Qn={qi,q2,...,qj使得P(Ql V q2 V ... V qn,DBj)值最大,其約束條件是H14,其中t」為爬蟲獲取
DBj中數(shù)據(jù)可使用的最大代價。對于一個給定的查詢關(guān)鍵詞QyP(QpDBj)表示在DBj上執(zhí)行查詢關(guān)鍵詞1, 與查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)在當(dāng)前數(shù)據(jù)源DBj的可獲取的數(shù)據(jù)記錄數(shù)中所占的比例。在本發(fā)明中,一個數(shù)據(jù)源DBj的可獲取的數(shù)據(jù)記錄數(shù)可以表示為|DB」,實(shí)際上是一個估計(jì)值,是一個數(shù)據(jù)源的估計(jì)大小。面向De印Web數(shù)據(jù)集成的數(shù)據(jù)獲取對于一個集成系統(tǒng)I,S=^B1, DB2, -,DB1I為I待集成的所有Deep Web數(shù)據(jù)源的集合,面向De印Web數(shù)據(jù)集成的數(shù)據(jù)獲取可形式化定義為需找一組查詢關(guān)鍵詞集合Q= (Q1, Q2, ...,Q1I使得P (Q1 V Q2 V ... V Q1)最大,其約束
條件是沿,1堤^^其中T為集成系統(tǒng)I的可使用的最大代價,Qj為獲取第j個
數(shù)據(jù)源所提交的查詢集合 Qj= Iq1, q2,…,qn},P (Qj)為 P (Q1 V q2 V V qn,DBj)。對于一個集成系統(tǒng)I,S=IDB1, DB2,…,DBj為I待集成的所有De印Web數(shù)據(jù)源的集合。針對現(xiàn)有技術(shù)的Deep Web數(shù)據(jù)集成實(shí)現(xiàn)方法在數(shù)據(jù)獲取方面存在的缺陷,本發(fā)明基于同領(lǐng)域數(shù)據(jù)源之間的關(guān)聯(lián)關(guān)系,提出使用循環(huán)策略分多次完成數(shù)據(jù)源的數(shù)據(jù)獲取。該過程為,首先對S中的數(shù)據(jù)源,根據(jù)其可能對集成系統(tǒng)I貢獻(xiàn)的效用大小進(jìn)行排序。效用評價標(biāo)準(zhǔn)可以根據(jù)數(shù)據(jù)源的大小、數(shù)據(jù)源的數(shù)據(jù)質(zhì)量等,或者是由這些量組成的一個函數(shù)。然后從S中排在第一位的數(shù)據(jù)源開始進(jìn)行數(shù)據(jù)獲取,數(shù)據(jù)獲取的策略是當(dāng)前數(shù)據(jù)源的特定特征達(dá)到閾值,則中止獲取當(dāng)前數(shù)據(jù)源,根據(jù)達(dá)到閾值的特征判斷當(dāng)前數(shù)據(jù)源是繼續(xù)保持在S中等待下一次獲取,還是從S中刪除當(dāng)前數(shù)據(jù)源,結(jié)束當(dāng)前數(shù)據(jù)源的獲取任務(wù);然后爬蟲開始獲取下一個數(shù)據(jù)源的數(shù)據(jù),依次類推把S中的所有數(shù)據(jù)源都獲取一遍;再重復(fù)上述過程,直到S為空,S中的數(shù)據(jù)源都達(dá)到獲取結(jié)束條件。S中的數(shù)據(jù)源具有不同的特征,例如數(shù)據(jù)源的大小、數(shù)據(jù)源的質(zhì)量等;另外數(shù)據(jù)源之間的覆蓋率也各不相同,一些數(shù)據(jù)源之間覆蓋率較高、而另一些覆蓋率較低,甚至一些可能是包含另一些。因此不同的數(shù)據(jù)源對集成系統(tǒng)的貢獻(xiàn)效用是有差異的。為了提高數(shù)據(jù)集成的效率,本發(fā)明在開始數(shù)據(jù)獲取前首先利用排序算法SourceSortO對S中的數(shù)據(jù)源按它們可能對集成系統(tǒng)I貢獻(xiàn)的效用大小進(jìn)行排序,SourceSortO是一種數(shù)據(jù)源排序方法,該方法主要依據(jù)數(shù)據(jù)源可能給集成系統(tǒng)貢獻(xiàn)的效用大小進(jìn)行排序,這里的效用是指數(shù)據(jù)源能為集成系統(tǒng)新增新數(shù)據(jù)量與新數(shù)據(jù)質(zhì)量(數(shù)據(jù)的完整性、一致性和冗余性等)的函數(shù)。完成對S中數(shù)據(jù)源的排序之后,算法開始進(jìn)行數(shù)據(jù)獲取,在一個數(shù)據(jù)源上的一次數(shù)據(jù)獲取流程為首先由SelectQuery ()選擇一個查詢關(guān)鍵詞qi;然后Query (qi;DBj)在DBj上執(zhí)行查詢1,并返回結(jié)果頁面記錄集R(Qi),接著Dowload(R(qi))實(shí)現(xiàn)從結(jié)果頁面下載數(shù)據(jù)記錄到本地DBjatjeal ;最后把該次數(shù)據(jù)獲取的代價Cost (qi,DBj)計(jì)入獲取DBj已耗費(fèi)的總代價Cost (DBj)。數(shù)據(jù)獲取的過程為不斷重復(fù)該流程直到滿足循環(huán)停止條件。對于該算法停止條件的設(shè)置非常重要,該算法的停止條件可以分為兩類。第一類為中止條件對數(shù)據(jù)源DBd勺數(shù)據(jù)獲取暫時停止,仍然保留在S中,等待下一次獲??;第二類為結(jié)束條件結(jié)束數(shù)據(jù)源DB」的數(shù)據(jù)獲取,并將當(dāng)前數(shù)據(jù)源從S中刪除。中止條件設(shè)置為,對于數(shù)據(jù)源DB」,如果SelectQueryO連續(xù)進(jìn)行的a次數(shù)據(jù)獲取的新數(shù)據(jù)獲取率都不大于新數(shù)據(jù)獲取率閾值9,則說明SelectQueryO在目前的知識下已經(jīng)不能進(jìn)行有效查詢選擇,繼續(xù)對DB」進(jìn)行獲取的代價將非常高,需要暫時停止對DB」的數(shù)據(jù)獲取,等待下一次循環(huán)時再繼續(xù)獲取。在下一次獲取時則可利用豐富后的動態(tài)知識進(jìn)行查詢選擇。結(jié)束條件設(shè)置為,當(dāng)對數(shù)據(jù)源DB」進(jìn)行數(shù)據(jù)獲取時,DBj的特征滿足以下3種結(jié)束條件之一,即可從S中刪除DBp結(jié)束對DB」的數(shù)據(jù)獲取。(I)如果從DBj中已獲取的數(shù)據(jù)量IDButxJ達(dá)到DBj估計(jì)大小的一定比例,SP DBj-L0cal彡IDBjI X ,則結(jié)束DB」的數(shù)據(jù)獲取。其中, 可以設(shè)為 95%。DBJjLocal代表了
DBi已經(jīng)獲取的數(shù)據(jù)記錄數(shù)。IDBy1I彡IdbjIx 說明集成系統(tǒng)已經(jīng)獲取了 DBj的絕大部分?jǐn)?shù)據(jù),剩下的少量數(shù)據(jù)對集成系統(tǒng)的影響較小,并且獲取這部分?jǐn)?shù)據(jù)的付出的代價也可能較高,所以可以結(jié)束DB」的數(shù)據(jù)獲取。(2)如果集成系統(tǒng)I分配給DB」的數(shù)據(jù)獲取資源耗盡,即Cosl(DBj) =Si;,則結(jié)束 DB」的數(shù)據(jù)獲取。(3)如果DBj被數(shù)據(jù)獲取的次數(shù)Uj達(dá)到閾值P,即Uj > P,則結(jié)束DBj的數(shù)據(jù)獲取。對于數(shù)據(jù)源DBj經(jīng)過了 P /K次查詢候選池?cái)U(kuò)展和統(tǒng)計(jì)知識豐富的數(shù)據(jù)獲取后,從DBj中繼續(xù)獲取新數(shù)據(jù)的可能性也較小,同時獲取數(shù)據(jù)的代價隨著數(shù)據(jù)獲取的次數(shù)增加也不斷增大,因此可以結(jié)束DB」的數(shù)據(jù)獲取。在基于循環(huán)策略的數(shù)據(jù)獲取方法中,利用動態(tài)知識可以進(jìn)一步提高數(shù)據(jù)獲取的效率。集成系統(tǒng)的知識實(shí)際包括查詢候選池以及查詢關(guān)鍵詞的統(tǒng)計(jì)知識兩部分內(nèi)容,動態(tài)知識的形成過程則是指集成系統(tǒng)的知識并不是固定不變的,而是可以隨著集成系統(tǒng)的數(shù)據(jù)獲取過程不斷更新上述查詢候選池和查詢關(guān)鍵詞的統(tǒng)計(jì)知識。查詢候選池用米形象描述查詢關(guān)鍵詞,其中包括有集成系統(tǒng)所對應(yīng)的若干查詢關(guān)鍵詞。根據(jù)上文,本發(fā)明中的查詢候選池為 Q= {Qi, Q2J , Qil。根據(jù)同領(lǐng)域數(shù)據(jù)源之間的相關(guān)性,S中數(shù)據(jù)源之間通常具有相似的屬性值并且這些屬性值也具有相似的分布特征,例如在圖書領(lǐng)域不同圖書銷售網(wǎng)站(此處圖書銷售網(wǎng)站就是一種數(shù)據(jù)源)所銷售的圖書具有一定的相似性,并且圖書書名出現(xiàn)的頻率也是相似的。本發(fā)明提出利用集成系統(tǒng)已獲取的數(shù)據(jù)構(gòu)建動態(tài)知識,并在基礎(chǔ)系統(tǒng)動態(tài)知識的基礎(chǔ)之上進(jìn)行查詢選擇。與現(xiàn)有技術(shù)相比,上述過程使爬蟲獲得更廣泛的分類屬性值,擴(kuò)展了查詢候選池,從而能避免信息孤島問題,提高數(shù)據(jù)獲取的覆蓋率;同時動態(tài)知識使爬蟲獲得了更全面和時新的統(tǒng)計(jì)知識,利用動態(tài)知識可提高查詢回報(bào)率估算的準(zhǔn)確性,從而提高查詢選擇的效率。查詢選擇過程是指在對一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取過程中,對查詢關(guān)鍵詞的選擇過程。對于一個集成系統(tǒng)LStDBpDB2, - ,DB1I為I待集成的所有De印Web數(shù)據(jù)源的集合,在數(shù)據(jù)獲取進(jìn)行到某一階段時I已獲取的數(shù)據(jù)集合為=Sf1 = DB1;Local U DB2;Local
U DBljLocal, DBj, Local為集成系統(tǒng)I從DBj中已獲取的數(shù)據(jù),集成系統(tǒng)的動態(tài)知識(DynamicKnowledge) DK可定義為從SLocal中得到的查詢關(guān)鍵詞以及該查詢關(guān)鍵詞在S^al中出現(xiàn)的概率對的集合,即DK = U |〈如P (QiAtjeal)I,其中,Qi代表查詢關(guān)鍵詞,P ( , S^al)表示Qi出現(xiàn)在S^1中概率——也就是在ISltxJ中與qi匹配的數(shù)據(jù)記錄數(shù)所占的比例,Slocal為集成系統(tǒng)已獲取的數(shù)據(jù)記錄數(shù)。
權(quán)利要求
1.一種基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在干, 對同一領(lǐng)域的多個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,其中,對所述多個數(shù)據(jù)源中的ー個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,是通過以下過程實(shí)現(xiàn)的,包括以下步驟 步驟ー、為當(dāng)前數(shù)據(jù)源預(yù)設(shè)η個查詢關(guān)鍵詞,從η個查詢關(guān)鍵詞中選擇第一個查詢關(guān)鍵詞,根據(jù)該查詢關(guān)鍵詞在當(dāng)前數(shù)據(jù)源上進(jìn)行第一次數(shù)據(jù)獲取,所述數(shù)據(jù)獲取過程為在當(dāng)前數(shù)據(jù)源上執(zhí)行,從當(dāng)前數(shù)據(jù)源下載與當(dāng)前查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄; 步驟ニ、重復(fù)步驟一,且當(dāng)重復(fù)步驟一的次數(shù)達(dá)到rK次之后,其中rK < n,r為大于等于I的整數(shù),在根據(jù)第rK+Ι個查詢關(guān)鍵詞在當(dāng)前數(shù)據(jù)源上獲得第rK+Ι個查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄之后,再從已經(jīng)下載的數(shù)據(jù)記錄中提取z個新的查詢關(guān)鍵詞,使得當(dāng)前數(shù)據(jù)源對應(yīng)的查詢關(guān)鍵詞的個數(shù)為n+z個。
2.如權(quán)利要求I所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,所述K值逐漸増大。
3.如權(quán)利要求I或2所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,對所述多個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,通過以下過程實(shí)現(xiàn)的, (1)依次對每ー個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,其中,當(dāng)對所述多個數(shù)據(jù)源中的第一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取時,從η個查詢關(guān)鍵詞中依次選擇各查詢關(guān)鍵詞對當(dāng)前數(shù)據(jù)源進(jìn)行一次又一次的數(shù)據(jù)獲取,直到所述當(dāng)前數(shù)據(jù)源的連續(xù)進(jìn)行的α次數(shù)據(jù)獲取的新數(shù)據(jù)獲取率均不大于一新數(shù)據(jù)獲取率閾值,則中止對當(dāng)前數(shù)據(jù)源的數(shù)據(jù)獲取,并對當(dāng)前數(shù)據(jù)源的下一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取,直到最后ー個數(shù)據(jù)源達(dá)到中止, (2)檢驗(yàn)所述多個數(shù)據(jù)源的數(shù)據(jù)獲取是否均滿足預(yù)設(shè)結(jié)束條件,如果不滿足,則重復(fù)步驟(I),直至所述多個數(shù)據(jù)源的數(shù)據(jù)獲取均滿足預(yù)設(shè)結(jié)束條件,其中,當(dāng)對所述多個數(shù)據(jù)源中的任一個數(shù)據(jù)源滿足預(yù)設(shè)結(jié)束條件吋,則結(jié)束對該數(shù)據(jù)源的數(shù)據(jù)獲取。
4.如權(quán)利要求3所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,所述步驟(I)中,計(jì)算當(dāng)前數(shù)據(jù)源中的各查詢關(guān)鍵詞的查詢效率,并按照查詢效率對當(dāng)前數(shù)據(jù)源中的查詢關(guān)鍵詞進(jìn)行排序,根據(jù)查詢效率從大到小的順序依次選擇各查詢關(guān)鍵詞對當(dāng)前數(shù)據(jù)源進(jìn)行一次又一次的數(shù)據(jù)獲取。
5.如權(quán)利要求4所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在干,查詢關(guān)鍵詞的查詢效率Efficient (qi,DBp與該查詢關(guān)鍵詞qi在當(dāng)前數(shù)據(jù)源DBj上的查詢回報(bào)率RewarcKqi, DBj)成正比,且與該查詢關(guān)鍵詞Qi在當(dāng)前的數(shù)據(jù)源DBj上的數(shù)據(jù)獲取代價Cost (qi; DBj)成反比。
6.如權(quán)利要求5所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,所述查詢關(guān)鍵詞qi在當(dāng)前數(shù)據(jù)源上的查詢回報(bào)率RewarcKqi, DBj)為在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞qi匹配的數(shù)據(jù)記錄數(shù)nun^qyDBj)中減去在當(dāng)前數(shù)據(jù)源DBj中與該查詢關(guān)鍵詞Qi匹配的已經(jīng)下載的數(shù)據(jù)記錄數(shù)num(qi,DBj^ocal), 在當(dāng)前數(shù)據(jù)源中與該查詢關(guān)鍵詞匹配的數(shù)據(jù)記錄數(shù)num(qi,DBj)通過以下方式得到, num(qi; DBj) = P (qi; DBj) X | DBj | , Idbj為當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計(jì)值,PQiJBj)為在當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計(jì)值中與查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)所占的比例, 其中,P(qi, DBj) = P(qi; Slocal), P(qi; Slocal)為在已經(jīng)下載的數(shù)據(jù)記錄數(shù)I Sltjeal |中與查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)所占的比例,則 numh, DBj) = P (qi; Slocal) X | DBj |。
7.如權(quán)利要求6所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,還有, P(Q[1, Slocal) = PDBj), PDBj)為在當(dāng)前數(shù)據(jù)源的可獲取的數(shù)據(jù)記錄的估計(jì)值中與已經(jīng)執(zhí)行的i_l個查詢關(guān)鍵詞qu, 匹配的數(shù)據(jù)記錄數(shù)所占的比例,P(qtl, ...h],Slocal)為在已經(jīng)下載的數(shù)據(jù)記錄數(shù)中與已經(jīng)執(zhí)行的i_l個查詢關(guān)鍵詞q[1,匹配的數(shù)據(jù)記錄數(shù)所占的比例, P(q[1, ],DBP = IDBj^al I/IDBj |,IDBjaocal為當(dāng)前數(shù)據(jù)源已經(jīng)下載的數(shù)據(jù)記錄數(shù), \ DBuocai \xP{qn SLoctl) MnumiqhDBj)=1^。
8.如權(quán)利要求6或7所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,查詢關(guān)鍵詞qi在當(dāng)前數(shù)據(jù)源DB」上的數(shù)據(jù)獲取代價Cost (qi,DBJ與在當(dāng)前數(shù)據(jù)源DB」中與該查詢關(guān)鍵詞Qi匹配的數(shù)據(jù)記錄數(shù)num(qi,DBj)具有線性關(guān)系。
9.如權(quán)利要求6或7所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,有Slcal _ ^ I DBj, local I。
10.如權(quán)利要求3所述的基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法,其特征在于,所述步驟(2)中,所述預(yù)設(shè)結(jié)束條件為, 當(dāng)對多個數(shù)據(jù)源中的一個數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取時,從當(dāng)前數(shù)據(jù)源已經(jīng)下載的數(shù)據(jù)記錄數(shù)IDBy1I占當(dāng)前數(shù)據(jù)源可獲取的數(shù)據(jù)記錄的估計(jì)值|DB」的比例不小于一比例閾值。
全文摘要
本發(fā)明公開了一種基于動態(tài)知識的深層網(wǎng)頁數(shù)據(jù)獲取方法。本發(fā)明利用集成系統(tǒng)已獲取的數(shù)據(jù)動態(tài)構(gòu)建知識,并在集成系統(tǒng)動態(tài)知識的基礎(chǔ)之上進(jìn)行查詢關(guān)鍵詞的選擇,也就是說在對數(shù)據(jù)源進(jìn)行數(shù)據(jù)獲取時,利用所獲取的數(shù)據(jù)提取新的查詢關(guān)鍵詞,以擴(kuò)展查詢候選池,并更新查詢關(guān)鍵詞的統(tǒng)計(jì)知識,從而提高了查詢選擇的準(zhǔn)確性,并進(jìn)一步提高了數(shù)據(jù)獲取的覆蓋率。在使用循環(huán)策略進(jìn)行數(shù)據(jù)獲取時,對于每個數(shù)據(jù)源可以多次利用豐富后的集成系統(tǒng)動態(tài)知識進(jìn)行查詢選擇,從而有效率提高查詢選擇的準(zhǔn)確性,提高數(shù)據(jù)獲取的效率。
文檔編號G06F17/30GK102682119SQ201210150789
公開日2012年9月19日 申請日期2012年5月16日 優(yōu)先權(quán)日2012年5月16日
發(fā)明者崔志明, 楊元峰, 趙朋朋, 鮮學(xué)豐 申請人:崔志明, 楊元峰, 趙朋朋, 鮮學(xué)豐