專利名稱::列表頁(yè)識(shí)別系統(tǒng)及方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,具體涉及一種列表頁(yè)識(shí)別系統(tǒng)及方法。
背景技術(shù):
:在搜索技術(shù)中,基本上分為兩大類。一類是以整個(gè)互聯(lián)網(wǎng)為對(duì)象,抓取全部網(wǎng)頁(yè)(目前在一個(gè)站點(diǎn)內(nèi)會(huì)限制抓取深度,且一般不處理js(Javascript),而且只是處理部分動(dòng)態(tài)頁(yè)面),并對(duì)網(wǎng)頁(yè)進(jìn)行處理和分析的網(wǎng)頁(yè)搜索,即全網(wǎng)搜索。另一類是只針對(duì)某類頁(yè)面進(jìn)行抓取和分析處理的垂直搜索,如圖片搜索、視頻搜索、博客搜索、論壇搜索、新聞搜索等。對(duì)于大部分垂直搜索來(lái)說(shuō),目前都是基于種子(也稱作列表頁(yè))進(jìn)行處理。垂直搜索的處理可分為兩個(gè)部分其一是找種子;其二是從種子頁(yè)面上發(fā)現(xiàn)具體產(chǎn)品頁(yè)面,即不同類另IJ(圖片、視頻、新聞等)的頁(yè)面,然后對(duì)這些產(chǎn)品頁(yè)面進(jìn)行處理?;诹斜眄?yè)進(jìn)行垂直搜索。先以人工或以某些預(yù)先指定的規(guī)則發(fā)現(xiàn)種子,然后對(duì)列表頁(yè)進(jìn)行變頻抓取,從列表頁(yè)面上發(fā)現(xiàn)垂直搜索產(chǎn)品的具體產(chǎn)品頁(yè)面,對(duì)這些產(chǎn)品頁(yè)面進(jìn)行下載、分析處理,最終形成垂直搜索系統(tǒng)需要的數(shù)據(jù)。傳統(tǒng)的以人工方式或已知的一些規(guī)則收集列表頁(yè),很難把所有的列表頁(yè)面收集全。而且網(wǎng)站改版后,舊的列表頁(yè)會(huì)失效,而新的列表頁(yè)又可能會(huì)漏掉。所以,在傳統(tǒng)的垂直搜索引擎內(nèi),總有很多內(nèi)容搜索不到,導(dǎo)致搜索的準(zhǔn)確度不高。
發(fā)明內(nèi)容鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的列表頁(yè)識(shí)別系統(tǒng)及方法。依據(jù)本發(fā)明的一個(gè)方面,提供了一種列表頁(yè)識(shí)別系統(tǒng),包括頁(yè)面框架ID計(jì)算模塊,適于抽取預(yù)先獲取的網(wǎng)頁(yè)的頁(yè)面框架,計(jì)算頁(yè)面框架ID;模式累計(jì)模塊,適于累計(jì)相同ID的頁(yè)面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁(yè)面框架模式;列表頁(yè)識(shí)別模塊,適于按所述頁(yè)面框架模式與事先建立的產(chǎn)品知識(shí)庫(kù)中列表頁(yè)的頁(yè)面框架模式比對(duì),以識(shí)別出列表頁(yè)??蛇x地,頁(yè)面框架ID計(jì)算模塊進(jìn)一步包括頁(yè)面框架抽取模塊,適于根據(jù)網(wǎng)頁(yè)源代碼中的html語(yǔ)言標(biāo)簽抽取所述網(wǎng)頁(yè)的頁(yè)面框架。可選地,頁(yè)面框架ID計(jì)算模塊進(jìn)一步包括頁(yè)面框架抽取模塊,適于按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁(yè)正文,去除正文以得到所述網(wǎng)頁(yè)的頁(yè)面框架??蛇x地,所述模式累計(jì)模塊進(jìn)一步包括閾值調(diào)節(jié)模塊,適于判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的頁(yè)面框架數(shù)量是否累計(jì)達(dá)到所述閾值,若沒(méi)有,則將該ID對(duì)應(yīng)的閾值以一定的步長(zhǎng)遞減??蛇x地,所述模式累計(jì)模塊進(jìn)一步包括待定列表頁(yè)識(shí)別模塊,適于判斷是否有位于頁(yè)面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定該網(wǎng)頁(yè)為待定列表頁(yè);列表頁(yè)框架模式確定模塊,適于每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁(yè),如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁(yè)的頁(yè)面框架模式設(shè)為列表頁(yè)框架模式。可選地,所述產(chǎn)品知識(shí)庫(kù)存儲(chǔ)有已知類別頁(yè)面框架模式及該模式下各網(wǎng)頁(yè)特征的權(quán)重,所述列表頁(yè)識(shí)別模塊進(jìn)一步包括特征匹配模塊,適于將所述頁(yè)面框架模式的各網(wǎng)頁(yè)特征與知識(shí)庫(kù)中已知類別的頁(yè)面框架模式的各網(wǎng)頁(yè)特征進(jìn)行匹配;特征評(píng)分模塊,適于對(duì)匹配上的網(wǎng)頁(yè)特征按不同的類別為所述頁(yè)面框架模式增加相應(yīng)的權(quán)重;權(quán)重累計(jì)模塊,適于按類別累計(jì)所述頁(yè)面框架模式在該類別下所得的權(quán)重,若對(duì)應(yīng)列表頁(yè)類別所得的權(quán)重最高,則所述頁(yè)面為列表頁(yè)??蛇x地,所述系統(tǒng)還包括列表頁(yè)處理模塊,適于若識(shí)別出網(wǎng)頁(yè)為列表頁(yè),則提取所述列表頁(yè)的內(nèi)容,進(jìn)一步獲取所述列表頁(yè)中列出的信息對(duì)應(yīng)的網(wǎng)頁(yè)??蛇x地,所述系統(tǒng)還包括網(wǎng)頁(yè)獲取模塊,適于通過(guò)全網(wǎng)搜索獲取網(wǎng)頁(yè),并以站點(diǎn)為單位獲取網(wǎng)頁(yè),同一站點(diǎn)下不同域名的對(duì)應(yīng)的網(wǎng)頁(yè)存儲(chǔ)在相同的根目錄下。根據(jù)本發(fā)明的另一方面,提供了一種列表頁(yè)識(shí)別方法,包括以下步驟抽取預(yù)先獲取的網(wǎng)頁(yè)的頁(yè)面框架,并計(jì)算頁(yè)面框架ID;累計(jì)相同ID的頁(yè)面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁(yè)面框架模式;按所述頁(yè)面框架模式與事先建立的產(chǎn)品知識(shí)庫(kù)中列表頁(yè)的頁(yè)面框架模式比對(duì),以識(shí)別出列表頁(yè)??蛇x地,抽取所述網(wǎng)頁(yè)的頁(yè)面框架的方式為根據(jù)網(wǎng)頁(yè)源代碼中的html語(yǔ)言標(biāo)簽抽取所述網(wǎng)頁(yè)的頁(yè)面框架??蛇x地,抽取所述網(wǎng)頁(yè)的頁(yè)面框架的方式為按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁(yè)正文,去除正文以得到所述網(wǎng)頁(yè)的頁(yè)面框架。可選地,判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的頁(yè)面框架數(shù)量是否累計(jì)達(dá)到所述閾值,若沒(méi)有,則將該ID對(duì)應(yīng)的閾值以一定的步長(zhǎng)遞減??蛇x地,所述列表頁(yè)框架模式的計(jì)算方式為判斷是否有位于頁(yè)面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定該網(wǎng)頁(yè)為待定列表頁(yè);每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁(yè),如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁(yè)的頁(yè)面框架模式設(shè)為列表頁(yè)框架模式。可選地,所述產(chǎn)品知識(shí)庫(kù)存儲(chǔ)有已知類別頁(yè)面框架模式及該模式下各網(wǎng)頁(yè)特征的權(quán)重,將所述頁(yè)面框架模式與事先建立的產(chǎn)品知識(shí)庫(kù)中已知類別的頁(yè)面框架模式比對(duì)的方式為將所述頁(yè)面框架模式的各網(wǎng)頁(yè)特征與知識(shí)庫(kù)中已知類別的頁(yè)面框架模式的各網(wǎng)頁(yè)特征進(jìn)行匹配;對(duì)匹配上的網(wǎng)頁(yè)特征按不同的類別為所述頁(yè)面框架模式增加相應(yīng)的權(quán)重;按類別累計(jì)所述頁(yè)面框架模式在該類別下所得的權(quán)重,若對(duì)應(yīng)列表頁(yè)類別所得的權(quán)重最高,則所述頁(yè)面為列表頁(yè)??蛇x地,若識(shí)別出網(wǎng)頁(yè)為列表頁(yè),則提取所述列表頁(yè)的內(nèi)容,進(jìn)一步獲取所述列表頁(yè)中列出的信息對(duì)應(yīng)的網(wǎng)頁(yè)??蛇x地,通過(guò)全網(wǎng)搜索獲取網(wǎng)頁(yè),并以站點(diǎn)為單位獲取網(wǎng)頁(yè),同一站點(diǎn)下不同域名的對(duì)應(yīng)的網(wǎng)頁(yè)存儲(chǔ)在相同的根目錄下。根據(jù)本發(fā)明的列表頁(yè)識(shí)別系統(tǒng)及方法通過(guò)計(jì)算網(wǎng)頁(yè)的頁(yè)面框架模式并按模式在產(chǎn)品知識(shí)庫(kù)比對(duì),以識(shí)別出列表頁(yè),由此解決了列表頁(yè)很難搜集全的問(wèn)題,取得了全面搜集列表頁(yè),搜索的準(zhǔn)確度高的有益效果。上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中圖I示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的列表頁(yè)識(shí)別方法流程圖;圖2示出了圖I中步驟S130的具體流程圖;圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的列表頁(yè)識(shí)別系統(tǒng)結(jié)構(gòu)示意圖;圖4示出了圖3中列表頁(yè)識(shí)別模塊的具體結(jié)構(gòu)示意圖。具體實(shí)施例方式下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。本實(shí)施例的列表頁(yè)識(shí)別方法流程如圖I所示,包括步驟S110,抽取預(yù)先獲取的網(wǎng)頁(yè)的頁(yè)面框架,并計(jì)算頁(yè)面框架ID。預(yù)先獲取的網(wǎng)頁(yè)可以是全網(wǎng)搜索抓取的網(wǎng)頁(yè)。抽取所述網(wǎng)頁(yè)的頁(yè)面框架的方式為根據(jù)網(wǎng)頁(yè)源代碼中的html語(yǔ)言標(biāo)簽抽取所述網(wǎng)頁(yè)的頁(yè)面框架,抽取時(shí)只保留html語(yǔ)言標(biāo)簽中框架類的標(biāo)記,如frame、table等,同時(shí)保留id、name、class屬性,去掉其余屬性。還可以按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁(yè)正文,去除正文以得到網(wǎng)頁(yè)的頁(yè)面框架。抽取頁(yè)面框架后將頁(yè)面內(nèi)屬性根據(jù)哈希算法計(jì)算頁(yè)面框架的hash值,即為頁(yè)面框架ID,例如抽取頁(yè)面框架后利用MD5或FNV等哈希技術(shù)方法計(jì)算頁(yè)面框架的hash值,即將框架類的標(biāo)記,如frame、table及其id、name、class屬性等按哈希算法進(jìn)行計(jì)算,所得結(jié)果值即為頁(yè)面框架ID。由于采用相同的哈希函數(shù),相同的頁(yè)面框架計(jì)算出的頁(yè)面框架ID也相同。步驟S120,累計(jì)相同ID的頁(yè)面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁(yè)面框架模式。計(jì)算時(shí)分標(biāo)題、時(shí)間、正文等分別計(jì)算,計(jì)算方法可以采用機(jī)器自動(dòng)學(xué)習(xí)機(jī)制,如采用支持向量機(jī)(supportvectormachine,SVM)計(jì)算頁(yè)面框架模式。學(xué)習(xí)時(shí)將網(wǎng)頁(yè)轉(zhuǎn)換成基于Html語(yǔ)言的源代碼,并抽取html語(yǔ)言標(biāo)簽關(guān)鍵標(biāo)記,得到頁(yè)面框架,這一步在步驟SllO中已經(jīng)實(shí)現(xiàn)。將頁(yè)面框架輸入SVM進(jìn)行學(xué)習(xí),即對(duì)頁(yè)面框架進(jìn)行html語(yǔ)言標(biāo)簽關(guān)鍵標(biāo)記的匹配,若干相同ID的頁(yè)面框架中的html語(yǔ)言標(biāo)簽關(guān)鍵標(biāo)記能夠完全匹配,因此,對(duì)于相同ID的頁(yè)面框架學(xué)習(xí)到上述閾值的數(shù)量后,SVM便輸出相應(yīng)頁(yè)面框架的頁(yè)面框架模式。在學(xué)習(xí)之前對(duì)于頁(yè)面框架還需要做如下操作將標(biāo)題與title或anchor(錨點(diǎn))里的可變內(nèi)容匹配;時(shí)間要按照時(shí)間的格式計(jì)算;正文有可變比率及長(zhǎng)度要求,這樣可以剔除廣告等垃圾內(nèi)容。為了防止某些網(wǎng)頁(yè)長(zhǎng)時(shí)間得不到處理,判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的頁(yè)面框架數(shù)量是否累計(jì)達(dá)到該閾值,若沒(méi)有,則將該ID對(duì)應(yīng)的閾值以一定的步長(zhǎng)遞減。其中該閾值優(yōu)選為23。步驟S130,將頁(yè)面框架模式與事先建立的產(chǎn)品知識(shí)庫(kù)中已知類別的頁(yè)面框架模式比對(duì),以識(shí)別出列表頁(yè)。其中產(chǎn)品知識(shí)庫(kù)存儲(chǔ)有已知類別(列表頁(yè)為其中一種網(wǎng)頁(yè)類別)頁(yè)面框架模式及該模式下各網(wǎng)頁(yè)特征的權(quán)重,網(wǎng)頁(yè)類別與其對(duì)應(yīng)的頁(yè)面框架模式下的網(wǎng)頁(yè)特征及權(quán)重可以以映射表的形式記錄在產(chǎn)品知識(shí)庫(kù)中,如下表I所示表I網(wǎng)頁(yè)類別與其對(duì)應(yīng)的頁(yè)面框架模式下的網(wǎng)頁(yè)特征及權(quán)重映射表權(quán)利要求1.一種列表頁(yè)識(shí)別系統(tǒng),包括頁(yè)面框架ID計(jì)算模塊,適于抽取預(yù)先獲取的網(wǎng)頁(yè)的頁(yè)面框架,計(jì)算頁(yè)面框架ID;模式累計(jì)模塊,適于累計(jì)相同ID的頁(yè)面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁(yè)面框架模式;列表頁(yè)識(shí)別模塊,適于按所述頁(yè)面框架模式與事先建立的產(chǎn)品知識(shí)庫(kù)中列表頁(yè)的頁(yè)面框架模式比對(duì),以識(shí)別出列表頁(yè);其中,頁(yè)面框架ID計(jì)算模塊進(jìn)一步包括頁(yè)面框架抽取模塊,適于根據(jù)網(wǎng)頁(yè)源代碼中的html語(yǔ)言標(biāo)簽抽取所述網(wǎng)頁(yè)的頁(yè)面框架。2.如權(quán)利要求I所述的列表頁(yè)識(shí)別系統(tǒng),其特征在于,頁(yè)面框架ID計(jì)算模塊進(jìn)一步包括頁(yè)面框架抽取模塊,適于按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁(yè)正文,去除正文以得到所述網(wǎng)頁(yè)的頁(yè)面框架。3.如權(quán)利要求廣2中任一項(xiàng)所述的列表頁(yè)識(shí)別系統(tǒng),其特征在于,所述模式累計(jì)模塊進(jìn)一步包括閾值調(diào)節(jié)模塊,適于判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的頁(yè)面框架數(shù)量是否累計(jì)達(dá)到所述閾值,若沒(méi)有,則將該ID對(duì)應(yīng)的閾值以一定的步長(zhǎng)遞減。4.如權(quán)利要求廣3中任一項(xiàng)所述的列表頁(yè)識(shí)別系統(tǒng),其特征在于,所述模式累計(jì)模塊進(jìn)一步包括待定列表頁(yè)識(shí)別模塊,適于判斷是否有位于頁(yè)面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定該網(wǎng)頁(yè)為待定列表頁(yè);列表頁(yè)框架模式確定模塊,適于每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁(yè),如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁(yè)的頁(yè)面框架模式設(shè)為列表頁(yè)框架模式。5.如權(quán)利要求Γ4中任一項(xiàng)所述的列表頁(yè)識(shí)別系統(tǒng),其特征在于,所述產(chǎn)品知識(shí)庫(kù)存儲(chǔ)有已知類別頁(yè)面框架模式及該模式下各網(wǎng)頁(yè)特征的權(quán)重,所述列表頁(yè)識(shí)別模塊進(jìn)一步包括特征匹配模塊,適于將所述頁(yè)面框架模式的各網(wǎng)頁(yè)特征與知識(shí)庫(kù)中已知類別的頁(yè)面框架模式的各網(wǎng)頁(yè)特征進(jìn)行匹配;特征評(píng)分模塊,適于對(duì)匹配上的網(wǎng)頁(yè)特征按不同的類別為所述頁(yè)面框架模式增加相應(yīng)的權(quán)重;權(quán)重累計(jì)模塊,適于按類別累計(jì)所述頁(yè)面框架模式在該類別下所得的權(quán)重,若對(duì)應(yīng)列表頁(yè)類別所得的權(quán)重最高,則所述頁(yè)面為列表頁(yè)。6.如權(quán)利要求f5中任一項(xiàng)所述的列表頁(yè)識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)還包括列表頁(yè)處理模塊,適于若識(shí)別出網(wǎng)頁(yè)為列表頁(yè),則提取所述列表頁(yè)的內(nèi)容,進(jìn)一步獲取所述列表頁(yè)中列出的信息對(duì)應(yīng)的網(wǎng)頁(yè)。7.如權(quán)利要求1飛中任一項(xiàng)所述的列表頁(yè)識(shí)別系統(tǒng),其特征在于,所述系統(tǒng)還包括網(wǎng)頁(yè)獲取模塊,適于通過(guò)全網(wǎng)搜索獲取網(wǎng)頁(yè),并以站點(diǎn)為單位獲取網(wǎng)頁(yè),同一站點(diǎn)下不同域名的對(duì)應(yīng)的網(wǎng)頁(yè)存儲(chǔ)在相同的根目錄下。8.一種列表頁(yè)識(shí)別方法,包括以下步驟抽取預(yù)先獲取的網(wǎng)頁(yè)的頁(yè)面框架,并計(jì)算頁(yè)面框架ID;累計(jì)相同ID的頁(yè)面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁(yè)面框架模式;按所述頁(yè)面框架模式與事先建立的產(chǎn)品知識(shí)庫(kù)中列表頁(yè)的頁(yè)面框架模式比對(duì),以識(shí)別出列表頁(yè);其中,抽取所述網(wǎng)頁(yè)的頁(yè)面框架的方式為根據(jù)網(wǎng)頁(yè)源代碼中的html語(yǔ)言標(biāo)簽抽取所述網(wǎng)頁(yè)的頁(yè)面框架。9.如權(quán)利要求8所述的列表頁(yè)識(shí)別方法,其特征在于,抽取所述網(wǎng)頁(yè)的頁(yè)面框架的方式為按標(biāo)點(diǎn)識(shí)別出網(wǎng)頁(yè)正文,去除正文以得到所述網(wǎng)頁(yè)的頁(yè)面框架。10.如權(quán)利要求8、中任一項(xiàng)所述的列表頁(yè)識(shí)別方法,其特征在于,判斷在預(yù)定時(shí)間內(nèi)對(duì)應(yīng)同一ID的頁(yè)面框架數(shù)量是否累計(jì)達(dá)到所述閾值,若沒(méi)有,則將該ID對(duì)應(yīng)的閾值以一定的步長(zhǎng)遞減。11.如權(quán)利要求810中任一項(xiàng)所述的列表頁(yè)識(shí)別方法,其特征在于,所述列表頁(yè)框架模式的計(jì)算方式為判斷是否有位于頁(yè)面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時(shí)間的鏈接,若有,則設(shè)定該網(wǎng)頁(yè)為待定列表頁(yè);每隔一段時(shí)間內(nèi)調(diào)度一次所述待定列表頁(yè),如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁(yè)的頁(yè)面框架模式設(shè)為列表頁(yè)框架模式。12.如權(quán)利要求811中任一項(xiàng)所述的列表頁(yè)識(shí)別方法,其特征在于,所述產(chǎn)品知識(shí)庫(kù)存儲(chǔ)有已知類別頁(yè)面框架模式及該模式下各網(wǎng)頁(yè)特征的權(quán)重,將所述頁(yè)面框架模式與事先建立的產(chǎn)品知識(shí)庫(kù)中已知類別的頁(yè)面框架模式比對(duì)的方式為將所述頁(yè)面框架模式的各網(wǎng)頁(yè)特征與知識(shí)庫(kù)中已知類別的頁(yè)面框架模式的各網(wǎng)頁(yè)特征進(jìn)行匹配;對(duì)匹配上的網(wǎng)頁(yè)特征按不同的類別為所述頁(yè)面框架模式增加相應(yīng)的權(quán)重;按類別累計(jì)所述頁(yè)面框架模式在該類別下所得的權(quán)重,若對(duì)應(yīng)列表頁(yè)類別所得的權(quán)重最高,則所述頁(yè)面為列表頁(yè)。13.如權(quán)利要求812中任一項(xiàng)所述的列表頁(yè)識(shí)別方法,其特征在于,若識(shí)別出網(wǎng)頁(yè)為列表頁(yè),則提取所述列表頁(yè)的內(nèi)容,進(jìn)一步獲取所述列表頁(yè)中列出的信息對(duì)應(yīng)的網(wǎng)頁(yè)。14.如權(quán)利要求813中任一項(xiàng)所述的列表頁(yè)識(shí)別方法,其特征在于,通過(guò)全網(wǎng)搜索獲取網(wǎng)頁(yè),并以站點(diǎn)為單位獲取網(wǎng)頁(yè),同一站點(diǎn)下不同域名的對(duì)應(yīng)的網(wǎng)頁(yè)存儲(chǔ)在相同的根目錄下。全文摘要本發(fā)明公開(kāi)了一種列表頁(yè)識(shí)別系統(tǒng),涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域:
,該系統(tǒng)包括頁(yè)面框架ID計(jì)算模塊,適于抽取預(yù)先獲取的網(wǎng)頁(yè)的頁(yè)面框架,計(jì)算頁(yè)面框架ID;模式累計(jì)模塊,適于累計(jì)相同ID的頁(yè)面框架數(shù)量達(dá)到閾值時(shí),計(jì)算頁(yè)面框架模式;列表頁(yè)識(shí)別模塊,適于按所述頁(yè)面框架模式與事先建立的產(chǎn)品知識(shí)庫(kù)中列表頁(yè)的頁(yè)面框架模式比對(duì),以識(shí)別出列表頁(yè);頁(yè)面框架ID計(jì)算模塊進(jìn)一步包括頁(yè)面框架抽取模塊。本發(fā)明還公開(kāi)了一種列表頁(yè)識(shí)別方法。本發(fā)明的列表頁(yè)識(shí)別系統(tǒng)及方法通過(guò)計(jì)算網(wǎng)頁(yè)的頁(yè)面框架模式并按模式在產(chǎn)品知識(shí)庫(kù)比對(duì),以識(shí)別出列表頁(yè),由此解決了列表頁(yè)很難搜集全的問(wèn)題,取得了全面搜集列表頁(yè),搜索的準(zhǔn)確度高的有益效果。文檔編號(hào)G06F17/30GK102902792SQ20121037638公開(kāi)日2013年1月30日申請(qǐng)日期2012年9月29日優(yōu)先權(quán)日2012年9月29日發(fā)明者盧宏林申請(qǐng)人:北京奇虎科技有限公司,奇智軟件(北京)有限公司