亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁分類系統(tǒng)及方法

文檔序號:6378247閱讀:195來源:國知局

專利名稱::網(wǎng)頁分類系統(tǒng)及方法
技術(shù)領(lǐng)域
:本發(fā)明涉及互聯(lián)網(wǎng)
技術(shù)領(lǐng)域
,具體涉及一種網(wǎng)頁分類系統(tǒng)及方法。
背景技術(shù)
:在搜索技術(shù)中,基本上分為兩大類。一類是以整個互聯(lián)網(wǎng)為對象,抓取全部網(wǎng)頁(目前在一個站點內(nèi)會限制抓取深度,且一般不處理js(Javascript),而且只是處理部分動態(tài)頁面),并對網(wǎng)頁進行處理和分析的網(wǎng)頁搜索,即全網(wǎng)搜索。另一類是只針對某類頁面進行抓取和分析處理的垂直搜索,如圖片搜索、視頻搜索、博客搜索、論壇搜索、新聞搜索等。對于大部分垂直搜索來說,目前都是基于種子(也稱作列表頁)進行處理。垂直搜索的處理可分為兩個部分其一是找種子;其二是從種子頁面上發(fā)現(xiàn)具體產(chǎn)品頁面,即不同類另IJ(圖片、視頻、新聞等)的頁面,然后對這些產(chǎn)品頁面進行處理?,F(xiàn)有的全網(wǎng)搜索,基本上不考慮垂直搜索的需求。對每一個頁面的處理原則基本·上是一致的。就是分析這個頁面后,獲取其上全部的鏈接。全網(wǎng)搜索系統(tǒng)不需要區(qū)別這些鏈接是本網(wǎng)站的鏈接,還是指向其他網(wǎng)站的鏈接。所有新發(fā)現(xiàn)的鏈接都會回饋給系統(tǒng)進行新一輪的調(diào)度、下載和分析處理。在抽取頁面上的內(nèi)容時,全網(wǎng)搜索基于單獨頁面進行處理。如果使用通用算法,只能抽取粗略的內(nèi)容,無法仔細區(qū)分不同的數(shù)據(jù)項。如果采用定向模板的方式進行抽取,雖然可以精確抽取各種數(shù)據(jù)內(nèi)容,卻存在人工工作量大,且無法適用網(wǎng)站改版的問題。而且,現(xiàn)有的全網(wǎng)搜索無法區(qū)分網(wǎng)頁類別,只能為垂直搜索輔助發(fā)掘一些有用的信息。如果既有垂直搜索,由于網(wǎng)頁搜索,兩者的分析處理方式不同。系統(tǒng)之間互相獨立,全網(wǎng)搜索下載、分析處理過的頁面,垂直搜索還會獨立的進行下載和分析處理,無法共享資源。
發(fā)明內(nèi)容鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的網(wǎng)頁分類系統(tǒng)及方法。依據(jù)本發(fā)明的一個方面,提供了一種網(wǎng)頁分類系統(tǒng),包括頁面框架ID計算模塊,適于抽取預先獲取的網(wǎng)頁的頁面框架,計算頁面框架ID;模式累計模塊,適于累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式;網(wǎng)頁類別識別模塊,適于將所述頁面框架模式與事先建立的產(chǎn)品知識庫中已知類別的頁面框架模式比對,以識別出網(wǎng)頁所屬的類別??蛇x地,頁面框架ID計算模塊進一步包括頁面框架抽取模塊,適于根據(jù)網(wǎng)頁源代碼中的html語言標簽抽取所述網(wǎng)頁的頁面框架。可選地,頁面框架ID計算模塊進一步包括頁面框架抽取模塊,適于按標點識別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架??蛇x地,所述模式累計模塊進一步包括閾值調(diào)節(jié)模塊,適于判斷在預定時間內(nèi)對應(yīng)同一ID的頁面框架數(shù)量是否累計達到所述閾值,若沒有,則將該ID對應(yīng)的閾值以一定的步長遞減??蛇x地,所述模式累計模塊進一步包括待定列表頁識別模塊,適于判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時間的鏈接,若有,則設(shè)定該網(wǎng)頁為待定列表頁;列表頁框架模式確定模塊,適于每隔一段時間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式??蛇x地,所述產(chǎn)品知識庫存儲有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,所述網(wǎng)頁類別識別模塊進一步包括特征匹配模塊,適于將所述頁面框架模式的各網(wǎng)頁特征與知識庫中已知類別的頁面框架模式的各網(wǎng)頁特征進行匹配;特征評分模塊,適于對匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應(yīng)的權(quán)重;權(quán)重累計模塊,適于按類別累計所述頁面框架模式在該類別下所得的權(quán)重,將所述頁面框架模式歸為對應(yīng)最高權(quán)重的類別。可選地,所述系統(tǒng)還包括列表頁處理模塊,適于若識別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進一步獲取所述列表頁中列出的信息對應(yīng)的網(wǎng)頁??蛇x地,所述系統(tǒng)還包括網(wǎng)頁獲取模塊,適于通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點為單位獲取網(wǎng)頁,同一站點下不同域名的對應(yīng)的網(wǎng)頁存儲在相同的根目錄下。根據(jù)本發(fā)明的另一方面,提供了一種網(wǎng)頁分類方法,包括以下步驟抽取預先獲取的網(wǎng)頁的頁面框架,并計算頁面框架ID;累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式;將所述頁面框架模式與事先建立的產(chǎn)品知識庫中已知類別的頁面框架模式比對,以識別出網(wǎng)頁所屬的類別??蛇x地,抽取所述網(wǎng)頁的頁面框架的方式為根據(jù)網(wǎng)頁源代碼中的html語言標簽抽取所述網(wǎng)頁的頁面框架。可選地,抽取所述網(wǎng)頁的頁面框架的方式為按標點識別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架??蛇x地,判斷在預定時間內(nèi)對應(yīng)同一ID的頁面框架數(shù)量是否累計達到所述閾值,若沒有,則將該ID對應(yīng)的閾值以一定的步長遞減。可選地,所述列表頁框架模式的計算方式為判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時間的鏈接,若有,則設(shè)定該網(wǎng)頁為待定列表頁;每隔一段時間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式??蛇x地,所述產(chǎn)品知識庫存儲有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,將所述頁面框架模式與事先建立的產(chǎn)品知識庫中已知類別的頁面框架模式比對的方式為將所述頁面框架模式的各網(wǎng)頁特征與知識庫中已知類別的頁面框架模式的各網(wǎng)頁特征進行匹配;對匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應(yīng)的權(quán)重,按類別累計所述頁面框架模式在該類別下所得的權(quán)重,將所述頁面框架模式歸為對應(yīng)最聞權(quán)重的類別??蛇x地,若識別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進一步獲取所述列表頁中列出的信息對應(yīng)的網(wǎng)頁??蛇x地,通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點為單位獲取網(wǎng)頁,同一站點下不同域名的對應(yīng)的網(wǎng)頁存儲在相同的根目錄下。根據(jù)本發(fā)明的網(wǎng)頁分類系統(tǒng)及方法可以將全網(wǎng)搜索與垂直搜索結(jié)合在一起,對全網(wǎng)搜索的結(jié)果按網(wǎng)頁類別進行分類,垂直搜索系統(tǒng)根據(jù)不同的類別采用不同的方式進行抽取,由此解決了過去通用算法抽取粗略而定向方式抽取精細但人工工作量大且適應(yīng)性差的問題,能夠抽取更精確的數(shù)據(jù)內(nèi)容,同時解決了全網(wǎng)搜索和垂直搜索資源共享問題。不僅僅是提高了資源的利用效率,關(guān)鍵是能充分發(fā)揮網(wǎng)頁搜索覆蓋度全面的優(yōu)點,明顯提升垂直搜索的覆蓋度。上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中圖I示出了根據(jù)本發(fā)明一個實施例的一種網(wǎng)頁分類方法流程圖;圖2示出了圖I中步驟S130中識別網(wǎng)頁類別的具體流程圖;圖3示出了根據(jù)本發(fā)明一個實施例的一種網(wǎng)頁分類系統(tǒng)結(jié)構(gòu)示意圖;圖4示出了圖3中網(wǎng)頁類別識別模塊的具體結(jié)構(gòu)示意圖。具體實施例方式下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應(yīng)當理解,可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。本實施例的網(wǎng)頁分類方法流程如圖I所示,包括步驟S110,抽取預先獲取的網(wǎng)頁的頁面框架,并計算頁面框架ID。預先獲取的網(wǎng)頁可以是全網(wǎng)搜索抓取的網(wǎng)頁。抽取所述網(wǎng)頁的頁面框架的方式為根據(jù)網(wǎng)頁源代碼中的html語言標簽抽取所述網(wǎng)頁的頁面框架,抽取時只保留html語言標簽中框架類的標記,如frame、table等,同時保留id、name、class屬性,去掉其余屬性。還可以按標點識別出網(wǎng)頁正文,去除正文以得到網(wǎng)頁的頁面框架。抽取頁面框架后將頁面內(nèi)屬性根據(jù)哈希算法計算頁面框架的hash值,即為頁面框架ID,例如抽取頁面框架后利用MD5或FNV等哈希技術(shù)方法計算頁面框架的hash值,即將框架類的標記,如frame、table及其id、name、class屬性等按哈希算法進行計算,所得結(jié)果值即為頁面框架ID。由于采用相同的哈希函數(shù),相同的頁面框架計算出的頁面框架ID也相同。步驟S120,累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式。計算時分標題、時間、正文等分別計算,計算方法可以采用機器自動學習機制,如采用支持向量機(supportvectormachine,SVM)計算頁面框架模式。學習時將網(wǎng)頁轉(zhuǎn)換成基于Html語言的源代碼,并抽取html語言標簽關(guān)鍵標記,得到頁面框架,這一步在步驟SI10中已經(jīng)實現(xiàn)。將頁面框架輸入SVM進行學習,即對頁面框架進行html語言標簽關(guān)鍵標記的匹配,若干相同ID的頁面框架中的html語言標簽關(guān)鍵標記能夠完全匹配,因此,對于相同ID的頁面框架學習到上述閾值的數(shù)量后,SVM便輸出相應(yīng)頁面框架的頁面框架模式。在學習之前對于頁面框架還需要做如下操作將標題與title或anchor(錨點)里的可變內(nèi)容匹配;時間要按照時間的格式計算;正文有可變比率及長度要求,這樣可以剔除廣告等垃圾內(nèi)容。為了防止某些網(wǎng)頁長時間得不到處理,判斷在預定時間內(nèi)對應(yīng)同一ID的頁面框架數(shù)量是否累計達到該閾值,若沒有,則將該ID對應(yīng)的閾值以一定的步長遞減。其中該閾值優(yōu)選為23。步驟S130,將所述頁面框架模式與事先建立的產(chǎn)品知識庫中已知類別的頁面框架模式比對,以識別出網(wǎng)頁所屬的類別。其中產(chǎn)品知識庫存儲有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,網(wǎng)頁類別與其對應(yīng)的頁面框架模式下的網(wǎng)頁特征及權(quán)重可以以映射表的形式記錄在產(chǎn)品知識庫中,如下表I所示表I網(wǎng)頁類別與其對應(yīng)的頁面框架模式下的網(wǎng)頁特征及權(quán)重映射表權(quán)利要求1.一種網(wǎng)頁分類系統(tǒng),包括頁面框架ID計算模塊,適于抽取預先獲取的網(wǎng)頁的頁面框架,計算頁面框架ID;模式累計模塊,適于累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式;網(wǎng)頁類別識別模塊,適于將所述頁面框架模式與事先建立的產(chǎn)品知識庫中已知類別的頁面框架模式比對,以識別出網(wǎng)頁所屬的類別。2.如權(quán)利要求I所述的網(wǎng)頁分類系統(tǒng),其特征在于,頁面框架ID計算模塊進一步包括頁面框架抽取模塊,適于根據(jù)網(wǎng)頁源代碼中的html語言標簽抽取所述網(wǎng)頁的頁面框架。3.如權(quán)利要求I或2所述的網(wǎng)頁分類系統(tǒng),其特征在于,頁面框架ID計算模塊進一步包括頁面框架抽取模塊,適于按標點識別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架。4.如權(quán)利要求廣3中任一項所述的網(wǎng)頁分類系統(tǒng),其特征在于,所述模式累計模塊進一步包括閾值調(diào)節(jié)模塊,適于判斷在預定時間內(nèi)對應(yīng)同一ID的頁面框架數(shù)量是否累計達到所述閾值,若沒有,則將該ID對應(yīng)的閾值以一定的步長遞減。5.如權(quán)利要求廣4中任一項所述的網(wǎng)頁分類系統(tǒng),其特征在于,所述模式累計模塊進一步包括待定列表頁識別模塊,適于判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時間的鏈接,若有,則設(shè)定該網(wǎng)頁為待定列表頁;列表頁框架模式確定模塊,適于每隔一段時間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式。6.如權(quán)利要求廣5中任一項所述的網(wǎng)頁分類系統(tǒng),其特征在于,所述產(chǎn)品知識庫存儲有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,所述網(wǎng)頁類別識別模塊進一步包括特征匹配模塊,適于將所述頁面框架模式的各網(wǎng)頁特征與知識庫中已知類別的頁面框架模式的各網(wǎng)頁特征進行匹配;特征評分模塊,適于對匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應(yīng)的權(quán)重;權(quán)重累計模塊,適于按類別累計所述頁面框架模式在該類別下所得的權(quán)重,將所述頁面框架模式歸為對應(yīng)最高權(quán)重的類別。7.如權(quán)利要求廣6中任一項所述的網(wǎng)頁分類系統(tǒng),其特征在于,所述系統(tǒng)還包括列表頁處理模塊,適于若識別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進一步獲取所述列表頁中列出的信息對應(yīng)的網(wǎng)頁。8.如權(quán)利要求f7中任一項所述的網(wǎng)頁分類系統(tǒng),其特征在于,所述系統(tǒng)還包括網(wǎng)頁獲取模塊,適于通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點為單位獲取網(wǎng)頁,同一站點下不同域名的對應(yīng)的網(wǎng)頁存儲在相同的根目錄下。9.一種網(wǎng)頁分類方法,包括以下步驟抽取預先獲取的網(wǎng)頁的頁面框架,并計算頁面框架ID;累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式;將所述頁面框架模式與事先建立的產(chǎn)品知識庫中已知類別的頁面框架模式比對,以識別出網(wǎng)頁所屬的類別。10.如權(quán)利要求9所述的網(wǎng)頁分類方法,其特征在于,抽取所述網(wǎng)頁的頁面框架的方式為根據(jù)網(wǎng)頁源代碼中的html語言標簽抽取所述網(wǎng)頁的頁面框架。11.如權(quán)利要求9或10所述的網(wǎng)頁分類方法,其特征在于,抽取所述網(wǎng)頁的頁面框架的方式為按標點識別出網(wǎng)頁正文,去除正文以得到所述網(wǎng)頁的頁面框架。12.如權(quán)利要求iTll中任一項所述的網(wǎng)頁分類方法,其特征在于,判斷在預定時間內(nèi)對應(yīng)同一ID的頁面框架數(shù)量是否累計達到所述閾值,若沒有,則將該ID對應(yīng)的閾值以一定的步長遞減。13.如權(quán)利要求擴12中任一項所述的網(wǎng)頁分類方法,其特征在于,所述列表頁框架模式的計算方式為判斷是否有位于頁面內(nèi)固定位置塊內(nèi)且穩(wěn)定存在一定時間的鏈接,若有,則設(shè)定該網(wǎng)頁為待定列表頁;每隔一段時間內(nèi)調(diào)度一次所述待定列表頁,如果所述鏈接不斷更新為新鏈接,就將所述網(wǎng)頁的頁面框架模式設(shè)為列表頁框架模式。14.如權(quán)利要求擴13中任一項所述的網(wǎng)頁分類方法,其特征在于,所述產(chǎn)品知識庫存儲有已知類別頁面框架模式及該模式下各網(wǎng)頁特征的權(quán)重,將所述頁面框架模式與事先建立的產(chǎn)品知識庫中已知類別的頁面框架模式比對的方式為將所述頁面框架模式的各網(wǎng)頁特征與知識庫中已知類別的頁面框架模式的各網(wǎng)頁特征進行匹配;對匹配上的網(wǎng)頁特征按不同的類別為所述頁面框架模式增加相應(yīng)的權(quán)重,按類別累計所述頁面框架模式在該類別下所得的權(quán)重,將所述頁面框架模式歸為對應(yīng)最聞權(quán)重的類別。15.如權(quán)利要求擴14中任一項所述的網(wǎng)頁分類方法,其特征在于,若識別出網(wǎng)頁為列表頁,則提取所述列表頁的內(nèi)容,進一步獲取所述列表頁中列出的信息對應(yīng)的網(wǎng)頁。16.如權(quán)利要求擴15中任一項所述的網(wǎng)頁分類方法,其特征在于,通過全網(wǎng)搜索獲取網(wǎng)頁,并以站點為單位獲取網(wǎng)頁,同一站點下不同域名的對應(yīng)的網(wǎng)頁存儲在相同的根目錄下。全文摘要本發(fā)明公開了一種網(wǎng)頁分類系統(tǒng),涉及搜索引擎
技術(shù)領(lǐng)域
,包括以下步驟頁面框架ID計算模塊,適于抽取預先獲取的網(wǎng)頁的頁面框架,并計算頁面框架ID;模式累計模塊,適于累計相同ID的頁面框架數(shù)量達到閾值時,計算頁面框架模式;網(wǎng)頁類別識別模塊,適于將所述頁面框架模式與事先建立的產(chǎn)品知識庫中已知類別的頁面框架模式比對,以識別出網(wǎng)頁所屬的類別。本發(fā)明還公開了一種網(wǎng)頁分類方法。根據(jù)本發(fā)明的網(wǎng)頁分類系統(tǒng)及方法可以將全網(wǎng)搜索與垂直搜索結(jié)合在一起,由此解決了過去通用算法抽取粗略而定向方式抽取精細但人工工作量大且適應(yīng)性差的問題,能夠抽取更精確的數(shù)據(jù)內(nèi)容,同時解決了全網(wǎng)搜索和垂直搜索資源共享問題。文檔編號G06F17/30GK102902790SQ20121037629公開日2013年1月30日申請日期2012年9月29日優(yōu)先權(quán)日2012年9月29日發(fā)明者盧宏林申請人:北京奇虎科技有限公司,奇智軟件(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1