專利名稱::網(wǎng)頁類別知識(shí)庫的建立系統(tǒng)及方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,具體涉及一種網(wǎng)頁類別知識(shí)庫的建立系統(tǒng)及方法。
背景技術(shù):
:在搜索技術(shù)中,基本上分為兩大類。一類是以整個(gè)互聯(lián)網(wǎng)為對(duì)象,抓取全部網(wǎng)頁(目前在一個(gè)站點(diǎn)內(nèi)會(huì)限制抓取深度,且一般不處理js(Javascript),而且只是處理部分動(dòng)態(tài)頁面),并對(duì)網(wǎng)頁進(jìn)行處理和分析的網(wǎng)頁搜索,即全網(wǎng)搜索。另一類是只針對(duì)某類頁面進(jìn)行抓取和分析處理的垂直搜索,如圖片搜索、視頻搜索、博客搜索、論壇搜索、新聞搜索等。對(duì)于大部分垂直搜索來說,目前都是基于種子(也稱作列表頁)進(jìn)行處理。垂直搜索的處理可分為兩個(gè)部分其一是找種子;其二是從種子頁面上發(fā)現(xiàn)具體產(chǎn)品頁面,即不同類另IJ(圖片、視頻、新聞等)的頁面,然后對(duì)這些產(chǎn)品頁面進(jìn)行處理。現(xiàn)有的全網(wǎng)搜索,基本上不考慮垂直搜索的需求,無法分類不同的產(chǎn)品,即無法區(qū)分網(wǎng)頁類別,只能為垂直搜索輔助發(fā)掘一些有用的信息。如果既有垂直搜索,由于網(wǎng)頁搜索,兩者的分析處理方式不同。系統(tǒng)之間互相獨(dú)立,全網(wǎng)搜索下載、分析處理過的頁面,垂直搜索還會(huì)獨(dú)立的進(jìn)行下載和分析處理,無法共享資源,兩者不能有機(jī)的整合使垂直搜索共享全網(wǎng)搜索的資源。因此,建立能夠自動(dòng)識(shí)別網(wǎng)頁類別的知識(shí)庫是亟待解決的問題。
發(fā)明內(nèi)容鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的網(wǎng)頁類別知識(shí)庫的建立系統(tǒng)及方法。依據(jù)本發(fā)明的一個(gè)方面,提供了網(wǎng)頁類別知識(shí)庫的建立系統(tǒng),包括樣本頁面框架ID計(jì)算模塊,適于抽取樣本網(wǎng)頁的頁面框架,計(jì)算樣本網(wǎng)頁的頁面框架ID;模式累計(jì)模塊,適于累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算樣本網(wǎng)頁的頁面框架模式;知識(shí)庫建立模塊,適于建立樣本網(wǎng)頁的類別和所述頁面框架模式的映射關(guān)系以生成網(wǎng)頁類別知識(shí)庫。可選地,所述知識(shí)庫建立模塊進(jìn)一步包括權(quán)重設(shè)定模塊,適于按照不同樣本網(wǎng)頁的類別,為該類別的頁面框架模式中的各個(gè)網(wǎng)頁特征賦予預(yù)先設(shè)定權(quán)重;映射表建立模塊,適于建立樣本網(wǎng)頁的類別與該類別的各個(gè)網(wǎng)頁特征及權(quán)重的關(guān)系映射表,以生成網(wǎng)頁類別知識(shí)庫??蛇x地,頁面框架ID計(jì)算模塊進(jìn)一步包括頁面框架抽取模塊,適于根據(jù)樣本網(wǎng)頁源代碼中的html語言標(biāo)簽抽取所述樣本網(wǎng)頁的頁面框架。可選地,頁面框架ID計(jì)算模塊進(jìn)一步包括頁面框架抽取模塊,適于按標(biāo)點(diǎn)識(shí)別出樣本網(wǎng)頁的正文,去除正文以得到所述樣本網(wǎng)頁的頁面框架。可選地,所述模式累計(jì)模塊進(jìn)一步包括待定列表頁識(shí)別模塊,適于判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定所述樣本網(wǎng)頁為待定列表頁;列表頁框架模式確定模塊,適于每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述樣本網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式。根據(jù)本發(fā)明的另一方面,提供了網(wǎng)頁類別知識(shí)庫的建立方法,包括以下步驟抽取樣本網(wǎng)頁的頁面框架,計(jì)算樣本網(wǎng)頁的頁面框架ID;累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算樣本網(wǎng)頁的頁面框架模式;建立樣本網(wǎng)頁的類別和所述頁面框架模式的映射關(guān)系,以生成網(wǎng)頁類別知識(shí)庫。可選地,所述建立樣本網(wǎng)頁的類別和所述頁面框架模式的映射關(guān)系以生成網(wǎng)頁類別知識(shí)庫具體包括按照不同樣本網(wǎng)頁的類別,為該類別的頁面框架模式中的各個(gè)網(wǎng)頁特征賦予預(yù)先設(shè)定權(quán)重;建立樣本網(wǎng)頁的類別與該類別的各個(gè)網(wǎng)頁特征及權(quán)重的關(guān)系映射表,以生成網(wǎng)頁類別知識(shí)庫??蛇x地,抽取所述樣本網(wǎng)頁的頁面框架的方式為根據(jù)樣本網(wǎng)頁源代碼中的html語言標(biāo)簽抽取所述樣本網(wǎng)頁的頁面框架??蛇x地,抽取所述樣本網(wǎng)頁的頁面框架的方式為按標(biāo)點(diǎn)識(shí)別出樣本網(wǎng)頁的正文,去除正文以得到所述樣本網(wǎng)頁的頁面框架??蛇x地,列表頁框架模式計(jì)算的方式為判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定所述樣本網(wǎng)頁為待定列表頁;每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述樣本網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式。根據(jù)本發(fā)明的網(wǎng)頁類別知識(shí)庫的建立系統(tǒng)及方法可以建立識(shí)別網(wǎng)頁類別的知識(shí)庫以快速識(shí)別網(wǎng)頁類別,由此解決了全網(wǎng)搜索無法區(qū)分網(wǎng)頁類別的問題,取得了快速識(shí)別網(wǎng)頁類別的有益效果。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中圖I示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁類別知識(shí)庫的建立方法流程圖;圖2示出了圖I中步驟S130的具體流程圖;圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的網(wǎng)頁類別知識(shí)庫的建立系統(tǒng)結(jié)構(gòu)示意圖;圖4示出了圖3中知識(shí)庫建立模塊具體結(jié)構(gòu)示意圖。具體實(shí)施例方式下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。本實(shí)施例的網(wǎng)頁類別知識(shí)庫的建立方法流程如圖I所示,包括步驟S110,抽取樣本網(wǎng)頁的頁面框架,并計(jì)算樣本網(wǎng)頁的頁面框架ID。樣本網(wǎng)頁是預(yù)先選取的已知其網(wǎng)頁類別的網(wǎng)頁。抽取樣本網(wǎng)頁的頁面框架的方式為根據(jù)網(wǎng)頁源代碼中的html語言標(biāo)簽抽取樣本網(wǎng)頁的頁面框架,抽取時(shí)只保留html語言標(biāo)簽中框架類的標(biāo)記,如frame>table等,同時(shí)保留id、name、class屬性,去掉其余屬性。還可以按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁正文,去除正文以得到樣本網(wǎng)頁的頁面框架。抽取頁面框架后將頁面內(nèi)屬性根據(jù)哈希算法計(jì)算頁面框架的hash值,即為頁面框架ID,例如抽取頁面框架后利用MD5或FNV等哈希技術(shù)方法計(jì)算頁面框架的hash值,即將框架類的標(biāo)記。如frame、table及其id、name、class屬性等按哈希算法進(jìn)行計(jì)算,所得結(jié)果值即為樣本網(wǎng)頁的頁面框架ID。由于采用相同的哈希函數(shù),相同的頁面框架計(jì)算出的頁面框架ID也相同。步驟S120,累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算樣本網(wǎng)頁的頁面框架模式。計(jì)算時(shí)分標(biāo)題、時(shí)間、正文等分別計(jì)算,計(jì)算方法可以采用機(jī)器自動(dòng)學(xué)習(xí)機(jī)制,如采用支持向量機(jī)(supportvectormachine,SVM)計(jì)算頁面框架模式。學(xué)習(xí)時(shí)將樣本網(wǎng)頁轉(zhuǎn)換成基于Html語言的源代碼,并抽取html語言標(biāo)簽關(guān)鍵標(biāo)記,得到頁面框架,這一步在步驟SllO中已經(jīng)實(shí)現(xiàn)。將頁面框架輸入SVM進(jìn)行學(xué)習(xí),即對(duì)頁面框架進(jìn)行html語言標(biāo)簽關(guān)鍵標(biāo)記的匹配,若干相同ID的頁面框架中的html語言標(biāo)簽關(guān)鍵標(biāo)記能夠完全匹配,因此,對(duì)于相同ID的頁面框架學(xué)習(xí)到上述閾值的數(shù)量后,SVM便輸出相應(yīng)頁面框架的頁面框架模式。在學(xué)習(xí)之前對(duì)于頁面框架還需要做如下操作將標(biāo)題與title或anchor(錨點(diǎn))里的可變內(nèi)容匹配;時(shí)間要按照時(shí)間的格式計(jì)算;正文要有一定的可變比率和長(zhǎng)度要求,這樣可以剔除廣告等垃圾內(nèi)容。為了防止某些樣本網(wǎng)頁長(zhǎng)時(shí)間得不到處理,判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的樣本網(wǎng)頁的頁面框架數(shù)量是否累計(jì)達(dá)到該閾值,若沒有,則將該ID對(duì)應(yīng)的閾值以一定的步長(zhǎng)遞減。其中該閾值優(yōu)選為23。步驟S130,建立樣本網(wǎng)頁的類別和其頁面框架模式的映射關(guān)系,以生成網(wǎng)頁類別知識(shí)庫。其具體生成步驟如圖2所示,包括步驟S210,按照不同樣本網(wǎng)頁的類別,為該類別的頁面框架模式中的各個(gè)網(wǎng)頁特征賦予預(yù)先設(shè)定權(quán)重。步驟S220,建立樣本網(wǎng)頁的類別與該類別的各個(gè)網(wǎng)頁特征及權(quán)重的關(guān)系映射表,以生成網(wǎng)頁類別知識(shí)庫。其中,樣本類別包括圖片、視頻、博客、論壇(bbs)及新聞等網(wǎng)頁類別。每個(gè)類別的樣本網(wǎng)頁的頁面框架模式具有若干不同的網(wǎng)頁特征,若干不同的網(wǎng)頁特征共同表征一個(gè)頁面框架模式,即一種類別的網(wǎng)頁。當(dāng)然,兩個(gè)不同的類別的網(wǎng)頁可能包含一個(gè)或多個(gè)(不是全部)相同的網(wǎng)頁特征,但是權(quán)重可能不同,例如論壇(bbs)和新聞都包括“標(biāo)題、時(shí)間、正文”的網(wǎng)頁特征。按上述步驟生成的網(wǎng)頁類別知識(shí)庫具體形式為網(wǎng)頁類別與其對(duì)應(yīng)的頁面框架模式下的網(wǎng)頁特征及權(quán)重映射表,如下表I所示表I網(wǎng)頁類別與其對(duì)應(yīng)的頁面框架模式下的網(wǎng)頁特征及權(quán)重映射表權(quán)利要求1.一種網(wǎng)頁類別知識(shí)庫的建立系統(tǒng),包括樣本頁面框架ID計(jì)算模塊,適于抽取樣本網(wǎng)頁的頁面框架,計(jì)算樣本網(wǎng)頁的頁面框架ID;模式累計(jì)模塊,適于累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算樣本網(wǎng)頁的頁面框架模式;知識(shí)庫建立模塊,適于建立樣本網(wǎng)頁的類別和所述頁面框架模式的映射關(guān)系以生成網(wǎng)頁類別知識(shí)庫。2.如權(quán)利要求I所述的網(wǎng)頁類別知識(shí)庫的建立方法,其特征在于,所述知識(shí)庫建立模塊進(jìn)一步包括權(quán)重設(shè)定模塊,適于按照不同樣本網(wǎng)頁的類別,為該類別的頁面框架模式中的各個(gè)網(wǎng)頁特征賦予預(yù)先設(shè)定權(quán)重;映射表建立模塊,適于建立樣本網(wǎng)頁的類別與該類別的各個(gè)網(wǎng)頁特征及權(quán)重的關(guān)系映射表,以生成網(wǎng)頁類別知識(shí)庫。3.如權(quán)利要求I或2所述的網(wǎng)頁類別知識(shí)庫的建立系統(tǒng),其特征在于,頁面框架ID計(jì)算模塊進(jìn)一步包括頁面框架抽取模塊,適于根據(jù)樣本網(wǎng)頁源代碼中的html語言標(biāo)簽抽取所述樣本網(wǎng)頁的頁面框架。4.如權(quán)利要求廣3中任一項(xiàng)所述的網(wǎng)頁類別知識(shí)庫的建立系統(tǒng),其特征在于,頁面框架ID計(jì)算模塊進(jìn)一步包括頁面框架抽取模塊,適于按標(biāo)點(diǎn)識(shí)別出樣本網(wǎng)頁的正文,去除正文以得到所述樣本網(wǎng)頁的頁面框架。5.如權(quán)利要求廣4中任一項(xiàng)所述的網(wǎng)頁類別知識(shí)庫的建立系統(tǒng),其特征在于,所述模式累計(jì)模塊進(jìn)一步包括待定列表頁識(shí)別模塊,適于判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定所述樣本網(wǎng)頁為待定列表頁;列表頁框架模式確定模塊,適于每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述樣本網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式。6.一種網(wǎng)頁類別知識(shí)庫的建立方法,包括以下步驟抽取樣本網(wǎng)頁的頁面框架,計(jì)算樣本網(wǎng)頁的頁面框架ID;累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算樣本網(wǎng)頁的頁面框架模式;建立樣本網(wǎng)頁的類別和所述頁面框架模式的映射關(guān)系,以生成網(wǎng)頁類別知識(shí)庫。7.如權(quán)利要求6所述的網(wǎng)頁類別知識(shí)庫的建立方法,其特征在于,所述建立樣本網(wǎng)頁的類別和所述頁面框架模式的映射關(guān)系以生成網(wǎng)頁類別知識(shí)庫具體包括按照不同樣本網(wǎng)頁的類別,為該類別的頁面框架模式中的各個(gè)網(wǎng)頁特征賦予預(yù)先設(shè)定權(quán)重;建立樣本網(wǎng)頁的類別與該類別的各個(gè)網(wǎng)頁特征及權(quán)重的關(guān)系映射表,以生成網(wǎng)頁類別知識(shí)庫。8.如權(quán)利要求6或7所述的網(wǎng)頁類別知識(shí)庫的建立方法,其特征在于,抽取所述樣本網(wǎng)頁的頁面框架的方式為根據(jù)樣本網(wǎng)頁源代碼中的html語言標(biāo)簽抽取所述樣本網(wǎng)頁的頁面框架。9.如權(quán)利要求61中任一項(xiàng)所述的網(wǎng)頁類別知識(shí)庫的建立方法,其特征在于,抽取所述樣本網(wǎng)頁的頁面框架的方式為按標(biāo)點(diǎn)識(shí)別出樣本網(wǎng)頁的正文,去除正文以得到所述樣本網(wǎng)頁的頁面框架。10.如權(quán)利要求6、中任一項(xiàng)所述的網(wǎng)頁類別知識(shí)庫的建立方法,其特征在于,列表頁框架模式計(jì)算的方式為判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定所述樣本網(wǎng)頁為待定列表頁;每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述樣本網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式。全文摘要本發(fā)明公開了一種網(wǎng)頁類別知識(shí)庫的建立系統(tǒng),涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,該系統(tǒng)包括樣本頁面框架ID計(jì)算模塊,適于抽取樣本網(wǎng)頁的頁面框架,計(jì)算樣本網(wǎng)頁的頁面框架ID;模式累計(jì)模塊,適于累計(jì)相同ID的頁面框架數(shù)量達(dá)到閾值時(shí),計(jì)算樣本網(wǎng)頁的頁面框架模式;知識(shí)庫建立模塊,適于建立樣本網(wǎng)頁的類別和所述頁面框架模式的映射關(guān)系以生成網(wǎng)頁類別知識(shí)庫。本發(fā)明還公開了一種網(wǎng)頁類別知識(shí)庫的建立方法。根據(jù)本發(fā)明的網(wǎng)頁類別知識(shí)庫的建立系統(tǒng)及方法可以建立識(shí)別網(wǎng)頁類別的知識(shí)庫以快速識(shí)別網(wǎng)頁類別,由此解決了全網(wǎng)搜索無法區(qū)分網(wǎng)頁類別的問題,取得了快速識(shí)別網(wǎng)頁類別的有益效果。文檔編號(hào)G06F17/30GK102890717SQ20121037638公開日2013年1月23日申請(qǐng)日期2012年9月29日優(yōu)先權(quán)日2012年9月29日發(fā)明者盧宏林申請(qǐng)人:北京奇虎科技有限公司,奇智軟件(北京)有限公司