本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領域,尤其涉及一種識別網(wǎng)頁欄目的方法及裝置。
背景技術(shù):
網(wǎng)頁欄目是指由網(wǎng)頁中的點擊控件所鏈接的、具有一定主題性和時效性的特定頁面內(nèi)容。實際生活中,點擊控件多以字符串或圖片的形式出現(xiàn),當用戶觸發(fā)點擊控件后,瀏覽器跳轉(zhuǎn)到該控件所鏈接的二級頁面,顯示對應的網(wǎng)頁欄目內(nèi)容。通常情況下,網(wǎng)頁欄目可以從主題、內(nèi)容來源(本站或第三方)、所屬站點等維度進行分類,不同類別的網(wǎng)頁欄目之間既具有相對的獨立性,又在一些情況下存在交叉關系。
網(wǎng)站分析的基礎在于對網(wǎng)站層級結(jié)構(gòu)的爬取,而網(wǎng)頁欄目作為網(wǎng)站層級結(jié)構(gòu)的血肉,自然是網(wǎng)站分析的核心對象?,F(xiàn)有對網(wǎng)頁欄目的識別主要是通過分析統(tǒng)一資源定位符(Uniform Resource Locator,簡稱URL)實現(xiàn)的。包括網(wǎng)頁欄目在內(nèi)的每個頁面內(nèi)容都對應有一個URL,在進行網(wǎng)頁欄目識別時,需要將URL端口號之后的路徑部分提取出來進行路徑特征分析。對于站點而言,由于網(wǎng)頁欄目與非網(wǎng)頁欄目的存儲路徑有所差異,因此通過分析路徑特征的方式可以實現(xiàn)對網(wǎng)頁欄目的識別。
但是上述識別網(wǎng)頁欄目的方式并不是絕對準確的。如前所述,這種方式需要以站點對包括網(wǎng)頁欄目、廣告在內(nèi)的所有頁面內(nèi)容進行明確的路徑劃分為前提條件,如果網(wǎng)頁欄目與其他頁面內(nèi)容的路徑相同或相似,那么就無法通過URL中的路徑特征對網(wǎng)頁欄目進行識別。因此,當URL的路徑特征與網(wǎng)頁欄目之間不具有完全的對應關系時,如何找出一種替代方案對網(wǎng)頁欄目進行有效識別,就成為一個亟待解決的問題。
技術(shù)實現(xiàn)要素:
本發(fā)明提供了一種識別網(wǎng)頁欄目的方法及裝置,能夠解決無法準確識別網(wǎng)頁欄目的問題。
為解決上述問題,第一方面,本發(fā)明提供了一種識別網(wǎng)頁欄目的方法,該方法包括:
通過網(wǎng)絡爬蟲工具對目標頁面進行N次爬取,其中N為大于或等于1的正整數(shù);
從歷次采集的頁面代碼中提取超鏈接;
統(tǒng)計同一個超鏈接在N次爬取過程中出現(xiàn)的總次數(shù);
若所述總次數(shù)等于N的倍數(shù),則確定所述超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目。
第二方面,本發(fā)明提供了一種識別網(wǎng)頁欄目的裝置,該裝置包括:
采集單元,用于通過網(wǎng)絡爬蟲工具對目標頁面進行N次爬取,其中N為大于或等于1的正整數(shù);
提取單元,用于從所述采集單元歷次采集的頁面代碼中提取超鏈接;
統(tǒng)計單元,用于統(tǒng)計所述提取單元提取的同一個超鏈接在N次爬取過程中出現(xiàn)的總次數(shù);
確定單元,用于當所述統(tǒng)計單元統(tǒng)計的所述總次數(shù)等于N的倍數(shù)時,確定所述超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目。
本發(fā)明提供的識別網(wǎng)頁欄目的方法及裝置,能夠通過網(wǎng)絡爬蟲工具對目標頁面進行多次爬取,并獲取多次爬取到的超鏈接。然后判斷獲取超鏈接的總次數(shù)是否等于N的倍數(shù),如果結(jié)果為是,則確定超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目。由于網(wǎng)頁欄目相對廣告、通知等其他頁面內(nèi)容更加固定,網(wǎng)站不會在短時間內(nèi)改變超鏈接指向的頁面內(nèi)容,因此與現(xiàn)有技術(shù)相比,本發(fā)明可以通過比較獲得同一頁面內(nèi)容的次數(shù)是否小于爬取次數(shù)的方式,對網(wǎng)頁欄目進行有效識別。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂,以下特舉本發(fā)明的具體實施方式。
附圖說明
通過閱讀下文優(yōu)選實施方式的詳細描述,各種其他的優(yōu)點和益處對于本領域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的,而并不認為是對本發(fā)明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
圖1示出了本實施例提供的一種識別網(wǎng)頁欄目的方法的流程圖;
圖2示出了本實施例提供的另一種識別網(wǎng)頁欄目的方法的流程圖;
圖3示出了本實施例提供的一種識別網(wǎng)頁欄目的裝置的結(jié)構(gòu)示意圖;
圖4示出了本實施例提供的另一種識別網(wǎng)頁欄目的裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現(xiàn)本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達給本領域的技術(shù)人員。
請參考圖1,其示出了本實施例提供的一種識別網(wǎng)頁欄目的方法的流程圖。如圖1所示,識別網(wǎng)頁欄目的方法可以包括以下步驟:
101、通過網(wǎng)絡爬蟲工具對目標頁面進行N次爬取。
網(wǎng)絡爬蟲(又被稱為網(wǎng)頁蜘蛛、網(wǎng)絡機器人或網(wǎng)頁追逐者),是一種按照一定的規(guī)則,自動的抓取萬維網(wǎng)信息的程序或者腳本。其中,N可以為大于或等于1的正整數(shù)。
在本實施例中,進行爬取的時機可以為隨機的,也可以為用戶設置的,或者還可以是在網(wǎng)絡較為空閑時進行爬取等。
102、從歷次采集的頁面代碼中提取超鏈接。
103、統(tǒng)計同一個超鏈接在N次爬取過程中出現(xiàn)的總次數(shù)。
在一次爬取過程中,如果同一個超鏈接指向的頁面內(nèi)容只位于頁面的一個位置上,則網(wǎng)絡爬蟲在一次爬取過程中,可以從該網(wǎng)頁中爬取到一次超鏈接,即在一次爬取過程中該超鏈接出現(xiàn)了1次,此時,N次爬取過程中出現(xiàn)的總次數(shù)應為N次。如果同一個超鏈接指向的頁面內(nèi)容位于頁面的 M個位置上,則網(wǎng)絡爬蟲在一次爬取過程中,可以從該網(wǎng)頁中爬取到M次超鏈接,即在一次爬取過程中該超鏈接出現(xiàn)了M次,此時,N次爬取過程中出現(xiàn)的總次數(shù)應為M*N次。
104、若總次數(shù)等于N的倍數(shù),則確定超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目。
由于網(wǎng)頁欄目在頁面上不會發(fā)生變化,因此,可以將頁面上不經(jīng)常發(fā)生變化的超鏈接指向的頁面內(nèi)容確定為網(wǎng)頁欄目。
可以理解,若總次數(shù)等于N的倍數(shù),則可以說明該超鏈接指向的頁面內(nèi)容不經(jīng)常發(fā)生變動。由此,可以將總次數(shù)等于N的倍數(shù)的超鏈接指向的頁面內(nèi)容確定為網(wǎng)頁欄目。
本實施例提供的識別網(wǎng)頁欄目的方法,能夠通過網(wǎng)絡爬蟲工具對目標頁面進行多次爬取,并獲取多次爬取到的超鏈接。然后判斷獲取超鏈接的總次數(shù)是否等于N的倍數(shù),如果結(jié)果為是,則確定超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目。由于網(wǎng)頁欄目相對廣告、通知等其他頁面內(nèi)容更加固定,網(wǎng)站不會在短時間內(nèi)改變超鏈接指向的頁面內(nèi)容,因此與現(xiàn)有技術(shù)相比,本發(fā)明可以通過比較獲得同一頁面內(nèi)容的次數(shù)是否小于爬取次數(shù)的方式,對網(wǎng)頁欄目進行有效識別。
本實施例提供另一種識別網(wǎng)頁欄目的方法,該方法是對圖1所示的方法的進一步擴展和優(yōu)化。請參考圖2,其示出了本實施例提供的另一種識別網(wǎng)頁欄目的方法的流程圖。如圖2所示,圖1所示的步驟104進一步可以包括步驟201:
201、若總次數(shù)等于N,則確定超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目。
可選的,N的倍數(shù)不限于為N的一倍,即N,還可以為N的其他整數(shù)倍,如,2N、3N等。如果總次數(shù)為2N,則可以說明同一個超鏈接指向的頁面內(nèi)容在網(wǎng)頁中位于兩個位置上,且在每次爬去過程中該超鏈接出現(xiàn)的次數(shù)為2。其他情況類似,在這里不一一贅述。
進一步地,如圖2所示,圖1所示的步驟101“通過網(wǎng)絡爬蟲工具對目標頁面進行N次爬取”可以包括步驟202和步驟203。
202、設定時間間隔T。
203、以時間間隔T為周期,對目標頁面進行N次爬取。
在本實施例中,T可以取6小時、12小時、24小時等,具體可以根據(jù)實際需要進行設定。
進一步地,如圖2所示,圖1所示的步驟101“通過網(wǎng)絡爬蟲工具對目標頁面進行N次爬取”還可以包括步驟204。
204、采用不同的爬蟲方式對目標頁面進行N次爬取。
爬蟲方式原理上可以包括但不限于以下兩種方式:廣度優(yōu)先爬取和深度優(yōu)先爬取。不同的爬取方式獲得的爬取結(jié)果的準確性不同。
在本實施例中,可以但不限于通過上述兩種爬取方式中的至少一種。如,可以采用單一爬取方式,可以包括:只使用廣度優(yōu)先爬取,或者,只使用深度優(yōu)先爬取等;另外,還可以采用混合爬取方式,可以包括:先使用廣度優(yōu)先爬取后使用深度優(yōu)先爬取,或者,先使用深度優(yōu)先爬取后使用廣度優(yōu)先爬取等。爬取方式具體可以根據(jù)實際需要進行設置,在此不作贅述。
對于不同結(jié)構(gòu)的網(wǎng)站,采用單一爬取方式獲得的爬取結(jié)果可能更準確。如,對同層級結(jié)構(gòu)的網(wǎng)站,例如門戶網(wǎng)站等,使用廣度優(yōu)先爬取方式進行爬取得到的爬取結(jié)果可能更準確。而對于層級結(jié)構(gòu)網(wǎng)站,例如垂直搜索網(wǎng)站等,使用深度優(yōu)先爬取方式進行爬取得到的爬取結(jié)果可能更準確。
在無法確定網(wǎng)站層級結(jié)構(gòu)的情況下,可以但不限于采用混合爬取方式進行爬取。
另外,采用混合爬取方式,可以彌補單一爬取方式對爬取結(jié)果的影響,使爬取結(jié)果的準確性更高。因為少爬取到一次也會導致總次數(shù)不等于N的倍數(shù),這會直接導致識別結(jié)果的準確性。
進一步地,如圖2所示,在圖1所示的步驟104“確定超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目”之后,還可以包括步驟205至步驟206。
205、將確定為網(wǎng)頁欄目的頁面內(nèi)容添加到網(wǎng)頁欄目候選集合中。
206、通過預設的內(nèi)容特征規(guī)則,從網(wǎng)頁欄目候選集合中選取預定種類的網(wǎng)頁欄目。
在本實施例中,可以設置預定種類的網(wǎng)頁欄目的內(nèi)容特征規(guī)則。如, 可以設置預定種類的網(wǎng)頁欄目對應的預定關鍵詞、預定超鏈接文本長度等至少一項特征。在本實施例中,以同時包括上述兩項特征為例進行說明。在獲取到網(wǎng)頁欄目候選集合后,可以提取網(wǎng)頁欄目候選集合中包括的網(wǎng)頁欄目的關鍵詞、超鏈接文本長度等,確定提取的關鍵詞是否為預定關鍵詞,同時,還可以確定提取的超鏈接文本長度,是否為預定超鏈接文本長度。如果提取的關鍵詞是預定關鍵詞,且提取的超鏈接文本長度為預定超鏈接文本長度,則確定該網(wǎng)頁欄目為預定種類的網(wǎng)頁欄目。
為了實現(xiàn)上述方法實施例,本實施例提供一種與上述方法實施例對應的裝置實施例。請參考圖3,其示出了本實施例提供的一種識別網(wǎng)頁欄目的裝置的結(jié)構(gòu)示意圖。該裝置與圖1或圖2所示的方法對應。如圖3所示,識別網(wǎng)頁欄目的裝置可以包括:
采集單元301,用于通過網(wǎng)絡爬蟲工具對目標頁面進行N次爬取,其中N為大于或等于1的正整數(shù);
提取單元302,用于從采集單元301歷次采集的頁面代碼中提取超鏈接;
統(tǒng)計單元303,用于統(tǒng)計提取單元302提取的同一個超鏈接在N次爬取過程中出現(xiàn)的總次數(shù);
確定單元304,用于當統(tǒng)計單元303統(tǒng)計的總次數(shù)等于N的倍數(shù)時,確定超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目。
進一步地,圖3所示的確定單元304,用于當總次數(shù)等于N時,確定超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目。
進一步地,圖3所示的采集單元301,用于:
設定時間間隔T;
以時間間隔T為周期,對目標頁面進行N次爬取。
進一步地,圖3所示的采集單元301,用于采用不同的爬蟲方式對目標頁面進行N次爬取。
進一步地,請參考圖4,其示出了本實施例提供的另一種識別網(wǎng)頁欄目的裝置的結(jié)構(gòu)示意圖。
如圖4所示,該裝置進一步包括:
添加單元401,用于在確定單元304確定超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目之后,將確定為網(wǎng)頁欄目的頁面內(nèi)容添加到網(wǎng)頁欄目候選集合中;
選取單元402,用于通過預設的內(nèi)容特征規(guī)則,從添加單元401獲得的網(wǎng)頁欄目候選集合中選取預定種類的網(wǎng)頁欄目。
本實施例提供的識別網(wǎng)頁欄目的裝置,能夠通過網(wǎng)絡爬蟲工具對目標頁面進行多次爬取,并獲取多次爬取到的超鏈接。然后判斷獲取超鏈接的總次數(shù)是否等于N的倍數(shù),如果結(jié)果為是,則確定超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目。由于網(wǎng)頁欄目相對廣告、通知等其他頁面內(nèi)容更加固定,網(wǎng)站不會在短時間內(nèi)改變超鏈接指向的頁面內(nèi)容,因此與現(xiàn)有技術(shù)相比,本實施例可以通過比較獲得同一頁面內(nèi)容的次數(shù)是否小于爬取次數(shù)的方式,對網(wǎng)頁欄目進行有效識別。
識別網(wǎng)頁欄目的裝置包括處理器和存儲器,上述采集單元、提取單元、統(tǒng)計單元和確定單元等均作為程序單元存儲在存儲器中,由處理器執(zhí)行存儲在存儲器中的上述程序單元來實現(xiàn)相應的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲器中調(diào)取相應的程序單元。內(nèi)核可以設置一個或以上,通過調(diào)整內(nèi)核參數(shù)來實現(xiàn)對網(wǎng)頁欄目的準確識別。
存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM),存儲器包括至少一個存儲芯片。
本申請還提供了一種計算機程序產(chǎn)品,當在數(shù)據(jù)處理設備上執(zhí)行時,適于執(zhí)行初始化有如下方法步驟的程序代碼:通過網(wǎng)絡爬蟲工具對目標頁面進行N次爬取,其中N為大于或等于1的正整數(shù);從歷次采集的頁面代碼中提取超鏈接;統(tǒng)計同一個超鏈接在N次爬取過程中出現(xiàn)的總次數(shù);若總次數(shù)等于N的倍數(shù),則確定超鏈接指向的頁面內(nèi)容為網(wǎng)頁欄目。
本領域內(nèi)的技術(shù)人員應明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產(chǎn)品的 形式。
本申請是參照根據(jù)本申請實施例的方法、設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出接口、網(wǎng)絡接口和內(nèi)存。
存儲器可能包括計算機可讀介質(zhì)中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內(nèi)存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。存儲器是計算機可讀介質(zhì)的示例。
計算機可讀介質(zhì)包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術(shù)來實現(xiàn)信息存儲。信息可以是計算機可讀指令、數(shù)據(jù)結(jié)構(gòu)、程序的模塊或其他數(shù)據(jù)。計算機的存儲介質(zhì)的例子包括,但不限于相變內(nèi)存(PRAM)、靜態(tài)隨機存取存儲器(SRAM)、動態(tài)隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內(nèi)存技術(shù)、只讀光 盤只讀存儲器(CD-ROM)、數(shù)字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質(zhì),可用于存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質(zhì)不包括暫存電腦可讀媒體(transitory media),如調(diào)制的數(shù)據(jù)信號和載波。
以上僅為本申請的實施例而已,并不用于限制本申請。對于本領域技術(shù)人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內(nèi)所作的任何修改、等同替換、改進等,均應包含在本申請的權(quán)利要求范圍之內(nèi)。