專利名稱:一種網(wǎng)頁抓取周期調(diào)整方法和裝置的制作方法
技術(shù)領(lǐng)域:
本申請涉及網(wǎng)絡(luò)信息處理技術(shù)領(lǐng)域,特別涉及一種網(wǎng)頁抓取周期調(diào)整方法和裝置。
背景技術(shù):
網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,是搜索引擎的重要組成部分。通過網(wǎng)絡(luò)爬蟲對網(wǎng)頁的網(wǎng)頁信息進(jìn)行抓取,并對抓取的網(wǎng)頁信息進(jìn)行分析,判斷該網(wǎng)頁中是否產(chǎn)生新的鏈接以確定該網(wǎng)頁中是否產(chǎn)生新的內(nèi)容頁(即鏈接所指向的實(shí)際頁面內(nèi)容),從而可以監(jiān)測到網(wǎng)頁的變化。一般情況下,網(wǎng)絡(luò)爬蟲是按照目標(biāo)網(wǎng)頁的抓取周期,以固定的時間間隔來抓取該目標(biāo)網(wǎng)頁的網(wǎng)頁信息,但是如果網(wǎng)絡(luò)爬蟲對該目標(biāo)網(wǎng)頁的抓取頻率過低,則很可能會錯過該目標(biāo)網(wǎng)頁中新產(chǎn)生的內(nèi)容頁,無法獲取到相應(yīng)的有用信息;如果抓取頻率過高,則可能會導(dǎo)致資源的浪費(fèi)。因此,需要根據(jù)網(wǎng)頁的更新頻率來調(diào)整網(wǎng)絡(luò)爬蟲對該網(wǎng)頁的抓取周期,以減少錯過有用信息,并避免資源浪費(fèi)。在調(diào)整某網(wǎng)頁的抓取周期時,一般是根據(jù)指定時間內(nèi)該網(wǎng)絡(luò)爬蟲連續(xù)若干次抓取到的網(wǎng)頁信息,確定在該指定時間內(nèi)該網(wǎng)頁中新增的鏈接數(shù)量或比例等,進(jìn)而根據(jù)新增的鏈接數(shù)量或比例來調(diào)整抓取該目標(biāo)網(wǎng)頁的周期。然而對于某一個目標(biāo)網(wǎng)頁而言,某些情況下雖然該目標(biāo)網(wǎng)頁中產(chǎn)生了新的鏈接,但如果該新的鏈接所指向的內(nèi)容頁是與該目標(biāo)網(wǎng)頁沒有任何關(guān)聯(lián)關(guān)系的頁面,那么網(wǎng)絡(luò)爬蟲從該新的鏈接所指向的內(nèi)容頁中并不能獲取到與該目標(biāo)網(wǎng)頁相關(guān)的有用信息。也就是說,當(dāng)目標(biāo)網(wǎng)頁中的新產(chǎn)生的鏈接僅僅是指向與該目標(biāo)網(wǎng)頁展現(xiàn)的內(nèi)容信息毫無關(guān)聯(lián)的內(nèi)容頁時,此時網(wǎng)絡(luò)爬蟲抓取該目標(biāo)網(wǎng)頁時,并不會獲取到新的有用信息。因此,在這種情況下,即使目標(biāo)網(wǎng)頁中新產(chǎn)生了鏈接,并不能從實(shí)際上反映出該目標(biāo)網(wǎng)頁發(fā)生了更新。這樣,如果僅以目標(biāo)網(wǎng)頁中新增的鏈接的數(shù)量和比例來調(diào)整抓取該目標(biāo)網(wǎng)頁的周期,則可能確定出與該目標(biāo)網(wǎng)頁的實(shí)際更新頻率不符的抓取周期,導(dǎo)致抓取頻率過高,造成資源浪費(fèi)。
發(fā)明內(nèi)容
本申請?zhí)峁┮环N網(wǎng)頁抓取周期調(diào)整方法和裝置,以提高確定出的網(wǎng)頁抓取周期的精度,減少資源浪費(fèi)。本申請還提供了一種網(wǎng)頁抓取周期調(diào)整裝置,用以保證上述方法在實(shí)際中的實(shí)現(xiàn)及應(yīng)用。為了解決上述問題,本申請公開了一種網(wǎng)頁抓取周期調(diào)整方法,包括:獲取網(wǎng)絡(luò)爬蟲當(dāng)前抓取的目標(biāo)網(wǎng)頁中所包含的鏈接集合以及所述鏈接集合中的鏈接所指向的信息頁;確定所述鏈接集合中屬于所述目標(biāo)網(wǎng)頁中新產(chǎn)生的鏈接;判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同;
將所述新產(chǎn)生的鏈接中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接;依據(jù)指定時間內(nèi)在不同抓取時刻抓取到的所述目標(biāo)網(wǎng)頁中存在的待分析鏈接,調(diào)整對所述目標(biāo)網(wǎng)頁的抓取周期。優(yōu)選的,所述目標(biāo)網(wǎng)頁為Hub網(wǎng)頁。優(yōu)選的,所述判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同之前,還包括:依據(jù)預(yù)置的廣告鏈接庫,確定出所述鏈接集合中屬于廣告鏈接的鏈接;所述將所述新產(chǎn)生的鏈接中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接,包括:從所述新產(chǎn)生的鏈接中提取出不屬于廣告鏈接的鏈接組成的第一子鏈接集合;所述判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同,包括:判斷是否所述第一子鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同;所述將所述新產(chǎn)生的鏈接中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接,包括:將所述第一子鏈接集合中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接。優(yōu)選的,所述判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,包括:判斷所述鏈接集合中的鏈接的域名與所述第一網(wǎng)頁地址的域名是否相同。優(yōu)選的,所述判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同,包括:判斷是否所述新產(chǎn)生的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同。另一方面,本申請還提供了一種網(wǎng)頁抓取周期調(diào)整裝置,包括:信息獲取單元,用于獲取網(wǎng)絡(luò)爬蟲當(dāng)前抓取的目標(biāo)網(wǎng)頁中所包含的鏈接集合以及所述鏈接集合中的鏈接所指向的信息頁;新鏈接確定單元,用于確定所述鏈接集合中屬于所述目標(biāo)網(wǎng)頁中新產(chǎn)生的鏈接;判斷單元,用于判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同;待分析鏈接確定單元,用于將所述新產(chǎn)生的鏈接中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接;周期調(diào)整單元,用于依據(jù)指定時間內(nèi)在不同抓取時刻抓取到的所述目標(biāo)網(wǎng)頁中存在的待分析鏈接,調(diào)整對所述目標(biāo)網(wǎng)頁的抓取周期。優(yōu)選的,所述目標(biāo)網(wǎng)頁為Hub網(wǎng)頁。優(yōu)選的,還包括:廣告鏈接確定單元,用于依據(jù)預(yù)置的廣告鏈接庫,確定出所述鏈接集合中屬于廣告鏈接的鏈接;第一集合確定單元,用于從所述新產(chǎn)生的鏈接中提取出不屬于廣告鏈接的鏈接組成的第一子鏈接集合;所述判斷單元,具體為:用于判斷是否所述第一子鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同;所述待分析鏈接確定單元,具體包括:鏈接確定子單元,用于將所述第一子鏈接集合中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接。優(yōu)選的,所述判斷單元,包括:域名判斷單元,用于判斷所述鏈接集合中的鏈接的域名與所述第一網(wǎng)頁地址的域名是否相同。優(yōu)選的,所述判斷單元具體為:用于判斷是否所述新產(chǎn)生的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同。與現(xiàn)有技術(shù)相比,本申請包括以下優(yōu)點(diǎn):在本申請該網(wǎng)頁抓取周期調(diào)整方法中,當(dāng)確定出獲取到網(wǎng)絡(luò)爬蟲抓取的該目標(biāo)網(wǎng)頁中所包含的鏈接集合中新產(chǎn)生的鏈接后,僅將從該新產(chǎn)生的鏈接中所屬網(wǎng)站與該目標(biāo)網(wǎng)頁所屬的網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航鏈接中所包含的網(wǎng)頁地址與該目標(biāo)網(wǎng)頁的網(wǎng)頁地址相同的鏈接作為待分析鏈接,從而使得待分析鏈接能夠反應(yīng)目標(biāo)網(wǎng)頁的實(shí)際變化情況,進(jìn)而使得依據(jù)不同次抓取操作所確定出的待分析鏈接,確定出的對該目標(biāo)網(wǎng)頁的抓取周期與該目標(biāo)網(wǎng)頁的實(shí)際更新頻率相適應(yīng),既避免了錯過有用信息又減少了由于抓取過于頻率則造成資源浪費(fèi)。當(dāng)然,實(shí)施本申請的任一產(chǎn)品并不一定需要同時達(dá)到以上所述的所有優(yōu)點(diǎn)。
為了更清楚地說明本申請實(shí)施例中的技術(shù)方案,下面將對實(shí)施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1示出了本申請的一種網(wǎng)頁抓取周期調(diào)整方法一個實(shí)施例的流程示意圖;圖2示出了本申請的一種網(wǎng)頁抓取周期調(diào)整方法另一個實(shí)施例的流程示意圖3示出了本申請一種網(wǎng)頁抓取周期調(diào)整裝置一個實(shí)施例的結(jié)構(gòu)示意圖;圖4示出了本申請一種網(wǎng)頁抓取周期調(diào)整裝置另一個實(shí)施例的結(jié)構(gòu)示意圖。
具體實(shí)施例方式下面將結(jié)合本申請實(shí)施例中的附圖,對本申請實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請一部分實(shí)施例,而不是全部的實(shí)施例?;诒旧暾堉械膶?shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本申請保護(hù)的范圍。本申請可用于眾多通用或?qū)S玫挠嬎阊b置環(huán)境或配置中。例如:個人計算機(jī)、服務(wù)器計算機(jī)、手持設(shè)備或便攜式設(shè)備、平板型設(shè)備、多處理器裝置、包括以上任何裝置或設(shè)備的分布式計算環(huán)境等等。本申請可以在由計算機(jī)執(zhí)行的計算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實(shí)踐本申請,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計算機(jī)存儲介質(zhì)中。參考圖1,其示出了本申請一種網(wǎng)頁抓取周期調(diào)整方法一個實(shí)施例的流程示意圖,本實(shí)施例的方法可以包括以下步驟:步驟101:獲取網(wǎng)絡(luò)爬蟲當(dāng)前抓取的目標(biāo)網(wǎng)頁中所包含的鏈接集合以及該鏈接集合中的鏈接所指向的信息頁。其中,鏈接也稱超級鏈接,是指從一個網(wǎng)頁指向一個目標(biāo)的連接關(guān)系,所指向的目標(biāo)可以是另一個網(wǎng)頁,也可以是相同網(wǎng)頁上的不同位置,還可以是圖片、電子郵件地址、文件、甚至是應(yīng)用程序。網(wǎng)絡(luò)爬蟲可以按照預(yù)先設(shè)定的抓取周期來周期性的抓取網(wǎng)頁的網(wǎng)頁信息,且網(wǎng)絡(luò)爬蟲可以根據(jù)抓取到的網(wǎng)頁信息提取出該網(wǎng)頁中所包含的所有鏈接。如,網(wǎng)絡(luò)爬蟲可以依據(jù)網(wǎng)頁的統(tǒng)一資源定位符(URL,Uniform Resource Locator)來進(jìn)行網(wǎng)頁抓取,并獲取到該網(wǎng)頁的源碼,進(jìn)而對源碼進(jìn)行分析處理,建立DOM樹,然后遍歷該DOM提取出所有的鏈接。在具體實(shí)現(xiàn)時,構(gòu)建出DOM樹后,可以提取出所有<A>標(biāo)簽里的鏈接。當(dāng)然,此處僅僅是為了便于理解網(wǎng)絡(luò)爬蟲如何獲取該網(wǎng)頁中所包含的鏈接集合而以一種實(shí)現(xiàn)方式為例進(jìn)行描述,但是在實(shí)際應(yīng)用中網(wǎng)絡(luò)爬蟲通過其他方式來獲取網(wǎng)頁中的鏈接集合也同樣適用于本實(shí)施例。與現(xiàn)有技術(shù)不同的是,在本申請實(shí)施例中,除了需要獲取網(wǎng)絡(luò)爬蟲抓取的該目標(biāo)網(wǎng)頁所包含的鏈接集合外,還需要通過網(wǎng)絡(luò)爬蟲下載該目標(biāo)網(wǎng)頁中所包含的各個鏈接對應(yīng)的信息頁。其中,該信息頁也可以稱為內(nèi)容頁是指該鏈接所指向的資源頁面,也就是通過該鏈接實(shí)際可以訪問的頁面內(nèi)容。網(wǎng)絡(luò)爬蟲獲取鏈接所指向的信息頁的方式可以采用現(xiàn)有的任意方式,在此不加以限定。在本申請實(shí)施例中,該網(wǎng)絡(luò)爬蟲所抓取的目標(biāo)網(wǎng)頁可以是任意的網(wǎng)站網(wǎng)頁??蛇x的,考慮到實(shí)際應(yīng)用中,對網(wǎng)頁更新的監(jiān)測一般是針對Hub網(wǎng)頁,本申請實(shí)施例中該目標(biāo)網(wǎng)頁可以是目標(biāo)Hub網(wǎng)頁。Hub網(wǎng)頁是指網(wǎng)站中用于產(chǎn)生和指向?qū)嶋H內(nèi)容頁的網(wǎng)頁,Hub頁的主要功能是按照一定的分類體系對內(nèi)容頁進(jìn)行組織,并提供鏈接供訪問者進(jìn)行瀏覽、點(diǎn)擊
坐寸O步驟102:確定該鏈接集合中屬于該目標(biāo)網(wǎng)頁中新產(chǎn)生的鏈接。為了能夠分析出與網(wǎng)頁的更新頻率相匹配的抓取周期,獲取到該目標(biāo)網(wǎng)頁中所包含的鏈接集合后,還可以確定出該本次抓取到的鏈接集合中,屬于該目標(biāo)網(wǎng)頁中新產(chǎn)生的鏈接。一般是預(yù)先存儲當(dāng)前時刻之前預(yù)設(shè)時間段內(nèi)抓取到的該目標(biāo)網(wǎng)頁所包含的鏈接集合,將本次確定出的該目標(biāo)網(wǎng)頁所包含鏈接集合與該預(yù)設(shè)時間段內(nèi)抓取到的該目標(biāo)網(wǎng)頁所包含的鏈接集合進(jìn)行對比,進(jìn)而確定出本次抓取的目標(biāo)網(wǎng)頁所包含的鏈接中新增加的鏈接。例如,將本次確定出的鏈接集合與存儲的當(dāng)前時刻之前最近一次抓取出的該目標(biāo)網(wǎng)頁所包含的鏈接集合進(jìn)行對比,進(jìn)而判斷出本次抓取相對于最近一次抓取所新產(chǎn)生的鏈接。具體的,可以將網(wǎng)絡(luò)爬蟲每次對目標(biāo)網(wǎng)頁的抓取結(jié)果存儲在指定的數(shù)據(jù)庫中,該抓取結(jié)果中至少包括:每次抓取該目標(biāo)網(wǎng)頁時,該目標(biāo)網(wǎng)頁中所包含的鏈接以及該鏈接所指向的內(nèi)容頁。在該數(shù)據(jù)庫中還可以存儲該網(wǎng)絡(luò)爬蟲每次抓取該目標(biāo)網(wǎng)頁的時間,以區(qū)分不同時刻抓取到的目標(biāo)網(wǎng)頁中所包含的鏈接以及相應(yīng)的內(nèi)容頁。當(dāng)然,在該數(shù)據(jù)庫中還可以存儲該網(wǎng)絡(luò)爬蟲抓取到該目標(biāo)網(wǎng)頁的其他關(guān)聯(lián)信息。為了減少數(shù)據(jù)存儲量,還可以設(shè)定該數(shù)據(jù)庫對數(shù)據(jù)的保存時長,當(dāng)某信息在數(shù)據(jù)庫中保存時間超出該保持時長時,則可以刪除超過保存時長的信息。其中,該保存時長可以根據(jù)當(dāng)前設(shè)定的對該目標(biāo)網(wǎng)頁的抓取周期來確定,也可以根據(jù)實(shí)際需要來進(jìn)行設(shè)定。步驟103:判斷是否該鏈接集 合中的鏈接所屬的網(wǎng)站與該目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與該目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同。由于在實(shí)際應(yīng)用中,如果目標(biāo)網(wǎng)頁中的鏈接與該目標(biāo)網(wǎng)頁的網(wǎng)站或者與該目標(biāo)網(wǎng)頁所屬的類別無關(guān),那么網(wǎng)絡(luò)爬蟲抓取在目標(biāo)網(wǎng)頁進(jìn)行抓取時,并不會從該鏈接中獲取到有用信息。如果網(wǎng)頁中更新僅僅是該種鏈接,并不能表明該目標(biāo)網(wǎng)頁中存在實(shí)際意義上的更新,那么網(wǎng)絡(luò)爬蟲不斷的進(jìn)行抓取,則會造成資源浪費(fèi)。因此,在本申請實(shí)施例中對于該鏈接集合中的任意一個鏈接,均需要判斷該鏈接所屬的網(wǎng)站與該目標(biāo)網(wǎng)頁所屬的網(wǎng)站是否相同,并判斷該鏈接所指向的信息頁中的面包屑導(dǎo)航中所包含的網(wǎng)頁地址是否與該目標(biāo)網(wǎng)頁的網(wǎng)頁地址相同。其中,判斷該鏈接集合中的鏈接所屬的網(wǎng)站是否與該目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同可以通過鏈接中的域名與該目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址的域名是否相同。如果鏈接集合中的鏈接的域名與第一網(wǎng)頁地址中的域名相同,則說明該鏈接所屬的網(wǎng)站為該目標(biāo)網(wǎng)頁所屬的網(wǎng)站。其中,信息頁的面包屑導(dǎo)航是用于表達(dá)內(nèi)容歸屬關(guān)系的界面元素,面包屑導(dǎo)航一般是“主分類地址 > 一級分類> 二級分類 > 三級分類 >……> 最終內(nèi)容頁面”的形式,可見該面包屑導(dǎo)航中的各級內(nèi)容頁面之間實(shí)際上為屬于同一網(wǎng)站上具有關(guān)聯(lián)關(guān)系的各級內(nèi)容頁面,各級內(nèi)容頁面的網(wǎng)頁地址與該主分類對應(yīng)的網(wǎng)頁地址相同。這樣,如果該鏈接集合中的鏈接所指向的信息頁為該目標(biāo)網(wǎng)頁的某一級分類的內(nèi)容頁面,那么該信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與該目標(biāo)網(wǎng)頁的網(wǎng)頁地址相同。為了描述方便,本申請實(shí)施例中將該目標(biāo)網(wǎng)站的網(wǎng)頁地址稱為第一網(wǎng)頁地址,將該目標(biāo)網(wǎng)頁所屬的網(wǎng)站稱為第一網(wǎng)站。可以理解的是,判斷該鏈接集合中的鏈接所屬的網(wǎng)站與該目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站是否相同,以及判斷鏈接集合中鏈接所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與該目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址是否相同,這兩個判斷動作的先后順序并不加以限制,可以同時進(jìn)行,也可以先完成一個判斷之后再進(jìn)行另一個判斷??蛇x的,為了減少數(shù)據(jù)處理量,可以先判斷判斷該鏈接集合中的鏈接所屬的網(wǎng)站與該目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站是否相同,再判斷鏈接集合中所屬的網(wǎng)站與第一網(wǎng)站相同的鏈接所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與該目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址是否相同。這樣,只對所屬網(wǎng)站與第一網(wǎng)站的相同的鏈接所指向的信息頁中的面包屑導(dǎo)航進(jìn)行分析,可以大大減少分析的信息頁的數(shù)量,從而減少了數(shù)據(jù)處理量。步驟104:將該新產(chǎn)生的鏈接中,所屬網(wǎng)站與該第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中所包含的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接。與現(xiàn)有的調(diào)整網(wǎng)頁抓取周期不同的是,本申請實(shí)施例中并不是將抓取到的目標(biāo)網(wǎng)頁中所有的新增鏈接均作為待分析的鏈接,而是從新產(chǎn)生的鏈接中去除了不屬于該目標(biāo)網(wǎng)頁所屬的網(wǎng)站以及指向的信息頁與該目標(biāo)網(wǎng)頁沒有關(guān)聯(lián)的鏈接,從而使得確定出的待分析鏈接能夠更加準(zhǔn)確的反映出該目標(biāo)網(wǎng)頁的實(shí)際變化情況。步驟105:依據(jù)指定時間內(nèi)在不同抓取時刻抓取到的該目標(biāo)網(wǎng)頁中存在的待分析鏈接,調(diào)整對所述目標(biāo)網(wǎng)頁的抓取周期。對于每次獲取到的該目標(biāo)網(wǎng)頁所包含的鏈接集合,均采用如上步驟確定出鏈接集合中新產(chǎn)生的鏈接中的待分析鏈接,在確定目標(biāo)網(wǎng)頁的抓取周期時,則依據(jù)針對不同次抓取所得到的待分析鏈接,來分析該目標(biāo)網(wǎng)頁中具有實(shí)際意義的鏈接的變化情況,從而確定出該目標(biāo)網(wǎng)頁的實(shí)際變化情況,進(jìn)而確定與該目標(biāo)網(wǎng)頁的更新頻率相適應(yīng)的抓取周期。其中,該指定時間可以根據(jù)實(shí)際情況進(jìn)行設(shè)定,也可以依據(jù)當(dāng)前該目標(biāo)網(wǎng)頁的抓取周期來確定一個適合的指定時長。如,可以每天進(jìn)行一次該目標(biāo)網(wǎng)頁的抓取周期的調(diào)整;也可以是根據(jù)目標(biāo)網(wǎng)頁當(dāng)前的抓取周期確定出一個調(diào)整抓取周期的時間長度作為該指定長度。在本實(shí)施例中,當(dāng)確定出獲取到網(wǎng)絡(luò)爬蟲抓取的該目標(biāo)網(wǎng)頁中所包含的鏈接集合中新產(chǎn)生的鏈接后,僅將從該新產(chǎn)生的鏈接中所屬網(wǎng)站與該目標(biāo)網(wǎng)頁所屬的網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航鏈接中所包含的網(wǎng)頁地址與該目標(biāo)網(wǎng)頁的網(wǎng)頁地址相同的鏈接作為待分析鏈接,從而使得待分析鏈接能夠反應(yīng)目標(biāo)網(wǎng)頁的實(shí)際變化情況,進(jìn)而依據(jù)不同次抓取操作所確定出的待分析鏈接,確定出對該目標(biāo)網(wǎng)頁的抓取周期與該目標(biāo)網(wǎng)頁的實(shí)際更新頻率相適應(yīng),即避免了錯過有用信息又減少了由于抓取過于頻率則造成資源浪費(fèi)。需要說明的是,在本申請圖1所示實(shí)施例中該步驟102和步驟103的順序并不限定為圖1所示,在實(shí)際應(yīng)用中,該步驟102和步驟103的操作順序可以互換,該步驟102和步驟103也可以同時進(jìn)行。為了能夠減少數(shù)據(jù)處理量,可以選擇確定出該鏈接集合中屬于該目標(biāo)網(wǎng)頁新產(chǎn)生的鏈接之后,在進(jìn)行步驟103的判斷操作,且在步驟103中可以僅判斷是否新產(chǎn)生的鏈接所屬的網(wǎng)站與該目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與該目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同,從而可以無需對不屬于新產(chǎn)生的鏈接再進(jìn)行判斷處理,進(jìn)而減少了數(shù)據(jù)處理量。在實(shí)際應(yīng)用中,即使目標(biāo)網(wǎng)頁中新產(chǎn)生的鏈接是與該目標(biāo)網(wǎng)頁屬于相同網(wǎng)站相同類型且具有關(guān)聯(lián)關(guān)系的鏈接,但如果該新產(chǎn)生的鏈接為廣告鏈接,那么該目標(biāo)網(wǎng)頁實(shí)際上也不存在任何具有抓取價值的新增內(nèi)容出現(xiàn)。為了避免由于廣告鏈接影響到對該目標(biāo)網(wǎng)頁中更新情況的判斷,參見圖2,示出了本發(fā)明一種網(wǎng)頁抓取周期調(diào)整方法另一個實(shí)施例的流程示意圖,本實(shí)施例的方法可以包括:步驟201:獲取網(wǎng)絡(luò)爬蟲當(dāng)前抓取的目標(biāo)網(wǎng)頁中所包含的鏈接集合以及該鏈接集合中的鏈接所指向的信息頁。步驟202:確定該鏈接集合中屬于該目標(biāo)網(wǎng)頁中新產(chǎn)生的鏈接。其中,該步驟201和步驟202的操作過程分別與圖1所示實(shí)施例中的步驟101和步驟102的操作過程類似,具體可以參見圖1所示實(shí)施例的相關(guān)描述,在此不再贅述。步驟203:依據(jù)預(yù)置的廣告鏈接庫,確定出該鏈接集合中屬于廣告鏈接的鏈接。為了識別出鏈接中的廣告鏈接,可以參照預(yù)先設(shè)置的廣告鏈接庫,從而將該鏈接集合中的各個鏈接與廣告鏈接庫中的各個鏈接進(jìn)行比對。如果鏈接集合中的某個鏈接屬于廣告鏈接庫中的鏈接,那么該鏈接便屬于廣告鏈接。步驟204:從該新產(chǎn)生的鏈接中提取出不屬于廣告鏈接的鏈接組成第一子鏈接集
口 ο本實(shí)施例中在確定出的新產(chǎn)生的鏈接中提取出不屬于廣告鏈接的鏈接組成一個第一子鏈接集合,以便后續(xù)對第一子鏈接集合中的鏈接進(jìn)行過濾,以得到最終的待分析鏈接集合。步驟205:判斷是否該第一子鏈接集合中的鏈接所屬的網(wǎng)站與該目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與該目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同。在本實(shí)施例中該步驟203的操作過程分別與圖1所示實(shí)施例中的步驟103的操作過程類似,不同之處僅在于在本實(shí)施例中,可以僅僅對該鏈接集合中不屬于廣告鏈接的鏈接所組成的第一鏈接集合中的鏈接進(jìn)行判斷,從而減少了對鏈接的分析數(shù)量以及對信息頁的處理量,進(jìn)而減少了數(shù)據(jù)處理量。步驟206:將該第一子鏈接集合中,所屬網(wǎng)站與該第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與該第一網(wǎng)頁地址相同的鏈接作為待分析鏈接。在本實(shí)施例中該待分析鏈接集合中的待分析鏈接除了是所屬的網(wǎng)站與該目標(biāo)網(wǎng)站所屬的網(wǎng)站相同、所指向信息頁包含的面包屑導(dǎo)航中的網(wǎng)頁地址與該目標(biāo)網(wǎng)站的第一網(wǎng)頁地址相同之外,該待分析鏈接還不能是廣告鏈接。步驟207:依據(jù)指定時間內(nèi)在不同抓取時刻抓取到的該目標(biāo)網(wǎng)頁中存在的待分析鏈接,調(diào)整對該目標(biāo)網(wǎng)頁的抓取周期。在本實(shí)施例中在待分析鏈接不包含屬于廣告鏈接的鏈接,從而使得待分析鏈接更能夠反映出該目標(biāo)網(wǎng)頁的實(shí)際變化情況,進(jìn)而使得后續(xù)依據(jù)該待分析鏈接確定出的抓取周期能夠與該目標(biāo)網(wǎng)頁的實(shí)際更新周期更加匹配,進(jìn)而使得確定出的抓取周期更加精準(zhǔn)。另外,目標(biāo)網(wǎng)頁中經(jīng)常會在廣告欄中動態(tài)的加入廣告,如在側(cè)邊欄上動態(tài)的切換廣告等,這樣即使目標(biāo)網(wǎng)頁沒有任何更新時,由于廣告欄中的廣告動態(tài)的切換,相應(yīng)的廣告鏈接地址也會相應(yīng)的發(fā)生改變,從而使得前后兩次抓取到該目標(biāo)網(wǎng)頁時,該網(wǎng)頁中的所包含的鏈接會所有不同。因此,如果不去除掉廣告鏈接,也會錯誤的判斷出該目標(biāo)網(wǎng)頁會存在新增的廣告鏈接,而導(dǎo)致錯誤的判斷出該目標(biāo)網(wǎng)頁存在更新。本申請中在待分析鏈接中去除了廣告鏈接,可以減少誤判情況出現(xiàn),提高了抓取周期的確定精度。相應(yīng)的,由于在目標(biāo)網(wǎng)頁中的側(cè)邊欄等區(qū)域內(nèi)也經(jīng)常會動態(tài)的添加一些推薦鏈接或友情鏈接,這樣,即使該目標(biāo)網(wǎng)頁中不存在任何內(nèi)容的更新,但由于該側(cè)邊欄等區(qū)域內(nèi)的內(nèi)容動態(tài)更新,使得前后兩次抓取到的該目標(biāo)網(wǎng)頁中所包含的鏈接不同,也會導(dǎo)致錯誤的判斷出該目標(biāo)網(wǎng)頁中存在新增的鏈接??紤]到實(shí)際應(yīng)用中,一般在該側(cè)邊欄等區(qū)域內(nèi)添加的推薦內(nèi)容或友情鏈接所指向的信息頁中面包屑導(dǎo)航內(nèi)的網(wǎng)頁地址一般都不同于該目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址,即該在該側(cè)邊欄內(nèi)的友情鏈接或推薦鏈接一般都不是該目標(biāo)網(wǎng)頁的下一級分類頁面,因此,在待分析鏈接中過濾到所指向的信息頁中面包屑導(dǎo)航內(nèi)的網(wǎng)頁地址與該第一網(wǎng)頁地址不同的鏈接,同樣可以減少由于側(cè)邊欄內(nèi)的動態(tài)切換內(nèi)容而導(dǎo)致錯誤判斷出該目標(biāo)網(wǎng)頁中存在新增鏈接的情況。需要說明的是,在本實(shí)施例中該步驟202和203的操作順序并不限定于圖2所示,這兩個步驟的先后順序可以互換,也可以同時進(jìn)行。為了減少數(shù)據(jù)處理量,在本實(shí)施例中,可以在確定出該鏈接集合中新產(chǎn)生的鏈接后,確定新產(chǎn)生的鏈接中不屬于廣告鏈接的鏈接;或者是在將鏈接集合中去除了屬于廣告鏈接的鏈接后,從不包含廣告鏈接的鏈接集合中確定新產(chǎn)生的鏈接??梢岳斫獾氖?,本申請以上任意一個網(wǎng)頁抓取周期調(diào)整方法的實(shí)施例中,在獲取到目標(biāo)網(wǎng)頁所包含的鏈接集合以及該鏈接集合中的鏈接指向的信息頁后,便可以確定出本次抓取的該鏈接集合中的待分析鏈接,并在后續(xù)需要確定抓取周期時,根據(jù)已經(jīng)確定出的各次抓取結(jié)果中的待分析鏈接來確定抓取周期。也可以是獲取到該目標(biāo)網(wǎng)頁中所包含的鏈接集合以及該信息頁后,并不進(jìn)行確定待分析鏈接的操作,而是將本次獲取到的鏈接集合以及相應(yīng)的信息頁進(jìn)行存儲,在需要確定抓取周期時,再分別對于每次抓取到的該目標(biāo)網(wǎng)頁的鏈接集合,來確定本次鏈接集合中的待分析鏈接,并依據(jù)各次抓取所確定的待分析鏈接來確定抓取周期。對于前述的各方法實(shí)施例,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請并不受所描述的動作順序的限制,因為依據(jù)本申請,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作和模塊并不一定是本申請所必須的。與上述本申請一種網(wǎng)頁抓取周期調(diào)整方法相對應(yīng),本申請還提供了一種網(wǎng)頁抓取周期調(diào)整裝置,參見圖3,示出了本發(fā)明一種網(wǎng)頁抓取周期調(diào)整裝置一個實(shí)施例的結(jié)構(gòu)示意圖,在本實(shí)施例中該裝置可以包括:信息獲取單元301、新鏈接確定單元302、判斷單元303、待分析確定單元304和周期調(diào)整單元305。該信息獲取單元301,用于獲取網(wǎng)絡(luò)爬蟲當(dāng)前抓取的目標(biāo)網(wǎng)頁中所包含的鏈接集合以及所述鏈接集合中的鏈接所指向的信息頁。其中,該信息獲取單元獲取到目標(biāo)網(wǎng)頁中所包含的鏈接集合可以是任意網(wǎng)頁中所包含的鏈接集合??蛇x的,該目標(biāo)網(wǎng)頁可以為Hub網(wǎng)頁,相應(yīng)的,信息獲取單元具體為獲取網(wǎng)絡(luò)爬蟲當(dāng)前抓取的目標(biāo)Hub網(wǎng)頁中所包含的鏈接集合。
新鏈接確定單元302,用于確定該信息獲取單元獲取到的鏈接集合中屬于該目標(biāo)網(wǎng)頁中新產(chǎn)生的鏈接。該新鏈接確定單元確定該鏈接集合中的鏈接是否為該目標(biāo)網(wǎng)頁新產(chǎn)生的鏈接可以通過將該鏈接集合中的鏈接與網(wǎng)絡(luò)爬蟲之前所抓取的該目標(biāo)網(wǎng)頁中所包含的鏈接集合中的鏈接進(jìn)行對比,來確定出該信息獲取單元獲取到的鏈接集合中為該目標(biāo)網(wǎng)頁中新產(chǎn)生的鏈接。可選的,該新鏈接確定單元可以將本次獲取到的鏈接集合與數(shù)據(jù)庫中存儲的歷史抓取記錄中所記錄的該目標(biāo)網(wǎng)頁中所包含的鏈接集合進(jìn)行對比,進(jìn)而確定出本次獲取到的該鏈接集合中屬于新產(chǎn)生的各個鏈接。判斷單元303,用于判斷是否該鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同。待分析鏈接確定單元304,用于將所述新產(chǎn)生的鏈接中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接。通過判斷單元對信息獲取單元所獲取到的鏈接集合中的各個鏈接進(jìn)行判斷,可以確定出各個鏈接所屬的網(wǎng)站是否與該目標(biāo)網(wǎng)頁的第一網(wǎng)站相同,以及各個鏈接所指向的信息頁中所包含的面包屑導(dǎo)航中的網(wǎng)頁地址是否與該目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同,從而使得該待分析確定單元可以從獲取到的鏈接集合中過濾出符合相應(yīng)條件的鏈接作為待分析鏈接,得到待分析鏈接集合。周期調(diào)整單元305,用于依據(jù)指定時間內(nèi)在不同抓取時刻抓取到的所述目標(biāo)網(wǎng)頁中存在的待分析鏈接,調(diào)整對所述目標(biāo)網(wǎng)頁的抓取周期。該周期調(diào)整單元利用該待分析鏈接確定單元對于不同次抓取的鏈接集合所確定出的待分析鏈接作為分析對象,進(jìn)而分析出該目標(biāo)網(wǎng)頁的實(shí)際更新情況,進(jìn)而確定與該目標(biāo)網(wǎng)頁實(shí)際更新情況相適應(yīng)的抓取周期。在本實(shí)施例中,當(dāng)確定出獲取到網(wǎng)絡(luò)爬蟲抓取的該目標(biāo)網(wǎng)頁中所包含的鏈接集合中新產(chǎn)生的鏈接后,僅將從該新產(chǎn)生的鏈接中所屬網(wǎng)站與該目標(biāo)網(wǎng)頁所屬的網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航鏈接中所包含的網(wǎng)頁地址與該目標(biāo)網(wǎng)頁的網(wǎng)頁地址相同的鏈接作為待分析鏈接,從而使得待分析鏈接能夠反應(yīng)目標(biāo)網(wǎng)頁的實(shí)際變化情況,進(jìn)而依據(jù)不同次抓取操作所確定出的待分析鏈接,確定出對該目標(biāo)網(wǎng)頁的抓取周期與該目標(biāo)網(wǎng)頁的實(shí)際更新頻率相適應(yīng),即避免了錯過有用信息又減少了由于抓取過于頻率則造成資源浪費(fèi)。其中,該判斷單元判斷該鏈接集合中的鏈接所屬的網(wǎng)站是否與該目標(biāo)網(wǎng)頁的第一網(wǎng)站相同時,可以根據(jù)預(yù)先存儲的屬于該第一網(wǎng)站的鏈接,來確定該鏈接集合中的鏈接是否屬于該第一網(wǎng)站??蛇x的,該判斷單元,可以包括:域名判斷單元,用于判斷所述鏈接集合中的鏈接的域名與所述第一網(wǎng)頁地址的域名是否相同。該域名判斷單元可以判斷鏈接中所包含的域名是否與該目標(biāo)網(wǎng)站的第一網(wǎng)頁地址中的域名是否相同,如果鏈接中所包含的域名與該第一網(wǎng)頁地址中的域名相同,則說明該鏈接所屬的網(wǎng)站與該目標(biāo)網(wǎng)頁所屬的網(wǎng)站相同。為了減少數(shù)據(jù)處理量,該判斷單元判斷具體為,用于判斷是否新產(chǎn)生的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同。該判斷單元可以直接對該新鏈接確定單元確定出的新產(chǎn)生的鏈接進(jìn)行判斷,從而無需對鏈接集合中的所有鏈接均進(jìn)行判斷,進(jìn)而減少了判斷鏈接的數(shù)量,減少了數(shù)據(jù)處理量。當(dāng)然,判斷該新產(chǎn)生的鏈接所屬的網(wǎng)站是否與該第一網(wǎng)站相同也可以是通過判斷該新產(chǎn)生的鏈接中的域名是否與該目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址中的域名是否相同。由于目標(biāo)網(wǎng)頁中廣告欄內(nèi)頻繁更新廣告,會導(dǎo)致每次抓取到的該目標(biāo)網(wǎng)頁中的鏈接會所有變化,從而會導(dǎo)致系統(tǒng)錯誤的判斷出該目標(biāo)網(wǎng)頁中出現(xiàn)新增的廣告鏈接,為了解決該問題,參見圖4,示出了本申請一種網(wǎng)頁抓取周期調(diào)整裝置另一個實(shí)施例的結(jié)構(gòu)示意圖,本實(shí)施例的抓取周期調(diào)整裝置與圖3所示實(shí)施例的不同之處在于:本實(shí)施例中還包括:廣告鏈接確定單元306,用于依據(jù)預(yù)置的廣告鏈接庫,確定出所述鏈接集合中屬于廣告鏈接的鏈接。第一集合確定單元307,用于從所述新產(chǎn)生的鏈接中提取出不屬于廣告鏈接的鏈接組成第一子鏈接集合;相應(yīng)的,該判斷單元303,具體為:用于判斷是否該第一子鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同該待分析鏈接確定單元304,具體包括:鏈接確定子單元3041,用于將所述第一子鏈接集合中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接。本實(shí)施例中在待分析鏈接中過濾除了屬于廣告鏈接的鏈接,從而避免了由于目標(biāo)網(wǎng)頁的廣告欄中不斷切換廣告,而導(dǎo)致在該目標(biāo)網(wǎng)頁中未出現(xiàn)新的鏈接的情況下,錯誤的判斷出該目標(biāo)網(wǎng)頁中有新增的鏈接。同時,由于廣告更新并不能反映出該目標(biāo)網(wǎng)頁的實(shí)際更新情況,在待分析鏈接中過濾了廣告鏈接也可使得分析出的目標(biāo)網(wǎng)頁更新情況更加符合實(shí)際。為了減少數(shù)據(jù)處理量,該廣告鏈接確定單元306也可以依據(jù)預(yù)置的廣告鏈接庫,也可以僅僅判斷該新鏈接確定單元確定出的新鏈接中屬于廣告鏈接的鏈接,從而進(jìn)一步減少數(shù)據(jù)處理量。需要說明的是,本說明書中的各個實(shí)施例均采用遞進(jìn)的方式描述,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個實(shí)施例之間相同相似的部分互相參見即可。對于裝置類實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。為了描述的方便,描述以上裝置時以功能分為各種單元分別描述。當(dāng)然,在實(shí)施本申請時可以把各單元的功能在同一個或多個軟件和/或硬件中實(shí)現(xiàn)。通過以上的實(shí)施方式的描述可知,本領(lǐng)域的技術(shù)人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn)?;谶@樣的理解,本申請的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如R0M/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請各個實(shí)施例或者實(shí)施例的某些部分所述的方法。以上對本申請所提供的一種網(wǎng)頁抓取周期調(diào)整方法和裝置進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本申請的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請 的限制。
權(quán)利要求
1.一種網(wǎng)頁抓取周期調(diào)整方法,其特征在于,包括: 獲取網(wǎng)絡(luò)爬蟲當(dāng)前抓取的目標(biāo)網(wǎng)頁中所包含的鏈接集合以及所述鏈接集合中的鏈接所指向的信息頁; 確定所述鏈接集合中屬于所述目標(biāo)網(wǎng)頁中新產(chǎn)生的鏈接; 判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同; 將所述新產(chǎn)生的鏈接中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接; 依據(jù)指定時間內(nèi)在不同抓取時刻抓取到的所述目標(biāo)網(wǎng)頁中存在的待分析鏈接,調(diào)整對所述目標(biāo)網(wǎng)頁的抓取周期。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述目標(biāo)網(wǎng)頁為Hub網(wǎng)頁。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同之前,還包括: 依據(jù)預(yù)置的廣告鏈接庫,確定出所述鏈接集合中屬于廣告鏈接的鏈接; 從所述新產(chǎn)生的鏈接中提取出不屬于廣告鏈接的鏈接組成第一子鏈接集合; 所述判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同,包括: 判斷是否所述第一子鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同; 所述將所述新產(chǎn)生的鏈接中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接,包括: 將所述第一子鏈接集合中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,包括: 判斷所述鏈接集合中的鏈接的域名與所述第一網(wǎng)頁地址的域名是否相同。
5.根據(jù)權(quán)利要求1或4所述的方法,其特征在于,所述判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同,包括: 判斷是否所述新產(chǎn)生的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同。
6.一種網(wǎng)頁抓取周期調(diào)整裝置,其特征在于,包括: 信息獲取單元,用于獲取網(wǎng)絡(luò)爬蟲當(dāng)前抓取的目標(biāo)網(wǎng)頁中所包含的鏈接集合以及所述鏈接集合中的鏈接所指向的信息頁; 新鏈接確定單元,用于確定所述鏈接集合中屬于所述目標(biāo)網(wǎng)頁中新產(chǎn)生的鏈接; 判斷單元,用于判斷是否所述鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同; 待分析鏈接確定單元,用于將所述新產(chǎn)生的鏈接中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接; 周期調(diào)整單元,用于依據(jù)指定時間內(nèi)在不同抓取時刻抓取到的所述目標(biāo)網(wǎng)頁中存在的待分析鏈接,調(diào)整對所述目標(biāo)網(wǎng)頁的抓取周期。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述目標(biāo)網(wǎng)頁為Hub網(wǎng)頁。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,還包括: 廣告鏈接確定單元,用于依據(jù)預(yù)置的廣告鏈接庫,確定出所述鏈接集合中屬于廣告鏈接的鏈接; 第一集合確定單元,用于從所述新產(chǎn)生的鏈接中提取出不屬于廣告鏈接的鏈接組成第一子鏈接集合; 所述判斷單元,具體為:用于判斷是否所述第一子鏈接集合中的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同; 所述待分析鏈接確定單元,具體包括: 鏈接確定子單元,用于將所述第一子鏈接集合中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中 的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述判斷單元,包括: 域名判斷單元,用于判斷所述鏈接集合中的鏈接的域名與所述第一網(wǎng)頁地址的域名是否相同。
10.根據(jù)權(quán)利要求6或9所述的裝置,其特征在于,所述判斷單元具體為:用于判斷是否所述新產(chǎn)生的鏈接所屬的網(wǎng)站與所述目標(biāo)網(wǎng)頁所屬的第一網(wǎng)站相同,且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述目標(biāo)網(wǎng)頁的第一網(wǎng)頁地址相同。
全文摘要
本申請?zhí)峁┝艘环N網(wǎng)頁抓取周期調(diào)整方法和裝置,該方法獲取網(wǎng)絡(luò)爬蟲當(dāng)前抓取的目標(biāo)網(wǎng)頁中所包含的鏈接集合以及該鏈接集合中的鏈接所指向的信息頁;確定該鏈接集合中屬于所述目標(biāo)網(wǎng)頁中新產(chǎn)生的鏈接,并將所述新產(chǎn)生的鏈接中,所屬網(wǎng)站與所述第一網(wǎng)站相同且所指向的信息頁的面包屑導(dǎo)航中的網(wǎng)頁地址與所述第一網(wǎng)頁地址相同的鏈接作為待分析鏈接;依據(jù)指定時間內(nèi)在不同抓取時刻抓取到的所述目標(biāo)網(wǎng)頁中存在的待分析鏈接,調(diào)整對目標(biāo)網(wǎng)頁的抓取周期。該方法可以提高確定出的網(wǎng)頁抓取周期的精度,減少資源浪費(fèi)。
文檔編號G06F17/30GK103092999SQ20131005662
公開日2013年5月8日 申請日期2013年2月22日 優(yōu)先權(quán)日2013年2月22日
發(fā)明者崔世起, 楊青 申請人:人民搜索網(wǎng)絡(luò)股份公司