時(shí)效性種子頁(yè)的抓取方法及裝置制造方法
【專利摘要】本發(fā)明公開(kāi)了一種時(shí)效性種子頁(yè)的抓取方法及裝置,其中方法包括:對(duì)于一時(shí)效性種子頁(yè),獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子,基于所述頻率調(diào)整因子計(jì)算頻率調(diào)整系數(shù);確定與所述當(dāng)前預(yù)設(shè)時(shí)間段存在對(duì)應(yīng)關(guān)系的歷史預(yù)設(shè)時(shí)間段的抓取頻率;判斷所述當(dāng)前預(yù)設(shè)時(shí)間段是否屬于節(jié)假日與工作日之間的切換時(shí)間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子;根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動(dòng)態(tài)調(diào)整所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。根據(jù)本發(fā)明可以動(dòng)態(tài)調(diào)整節(jié)假日因子、抓取頻率,降低對(duì)種子頁(yè)不必要的抓取,也能保證新鏈接被及時(shí)發(fā)現(xiàn)而不丟失。
【專利說(shuō)明】時(shí)效性種子頁(yè)的抓取方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)【技術(shù)領(lǐng)域】,具體涉及一種時(shí)效性種子頁(yè)的抓取方法及裝置。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)總是在不斷產(chǎn)生新的內(nèi)容,比如新聞、各種熱門的討論等等。這些新內(nèi)容分散在互聯(lián)網(wǎng)不同的角落,搜索引擎為了能及時(shí)對(duì)它們提供檢索,需要從浩如煙海的互聯(lián)網(wǎng)上及時(shí)把它們找到并抓取回來(lái)。幸運(yùn)的是,指向時(shí)效性內(nèi)容的鏈接幾乎總是在一類特定的頁(yè)面上出現(xiàn),這類頁(yè)面叫做時(shí)效性種子頁(yè)(簡(jiǎn)稱hub頁(yè)),比如http://news.sina.com.cn/。所以理論上只需要找到這些hub頁(yè),然后及時(shí)檢查它們的變化,便能把時(shí)效性鏈接全部找到。
[0003]hub頁(yè)面的內(nèi)容是在不斷變化的,新鏈接出現(xiàn)一段時(shí)間后就很可能會(huì)消失。像論壇的版面,滾動(dòng)非常快,新帖子要不了多久就沉下去了。如果不能及時(shí)發(fā)現(xiàn)它們的變化,就會(huì)導(dǎo)致新鏈接丟失。但是每檢查一次頁(yè)面,就需要發(fā)起一次抓取,假如搜索引擎不停地檢查這類頁(yè)面,則會(huì)對(duì)所屬網(wǎng)站產(chǎn)生大量抓取。這種大量的抓取在很多情況下未必能發(fā)現(xiàn)新鏈接,造成大量無(wú)意義抓取,而且也是一種很不禮貌的行為,甚至?xí)|發(fā)網(wǎng)站對(duì)搜索引擎爬蟲的封禁,導(dǎo)致一段時(shí)間內(nèi)爬蟲無(wú)法訪問(wèn)網(wǎng)站。由于節(jié)假日與工作日上網(wǎng)人數(shù)的明顯不同,網(wǎng)上的信息產(chǎn)生量也明顯不同,所以如果搜索引擎在節(jié)假日與工作日保持相同的頻率抓取就會(huì)造成一些新鏈接沒(méi)有被抓取或者造成無(wú)意義抓取。
[0004]因此,既保證時(shí)效性新鏈接不丟失,又不會(huì)過(guò)度對(duì)網(wǎng)站進(jìn)行訪問(wèn),這是搜索引擎爬蟲在時(shí)效性鏈接發(fā)現(xiàn)問(wèn)題上期望達(dá)到的目標(biāo)。
【發(fā)明內(nèi)容】
[0005]鑒于上述問(wèn)題,提出了本發(fā)明以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的時(shí)效性種子頁(yè)的抓取裝置和相應(yīng)的抓取方法。
[0006]根據(jù)本發(fā)明的一個(gè)方面,提供了一種時(shí)效性種子頁(yè)的抓取方法,包括:對(duì)于一時(shí)效性種子頁(yè),獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子,基于所述頻率調(diào)整因子計(jì)算頻率調(diào)整系數(shù);確定與所述當(dāng)前預(yù)設(shè)時(shí)間段存在對(duì)應(yīng)關(guān)系的歷史預(yù)設(shè)時(shí)間段的抓取頻率;判斷所述當(dāng)前預(yù)設(shè)時(shí)間段是否屬于節(jié)假日與工作日之間的切換時(shí)間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子;根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動(dòng)態(tài)調(diào)整所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。
[0007]可選地,所述判斷所述當(dāng)前預(yù)設(shè)時(shí)間段是否屬于節(jié)假日與工作日之間的切換時(shí)間進(jìn)一步包括:若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于工作日,而該工作日的前一日為節(jié)假日,則判定所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日與工作日之間的切換時(shí)間;若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則判定所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日與工作日之間的切換時(shí)間。
[0008]可選地,所述根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子進(jìn)一步包括:若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于工作日,而該工作日的前一日為節(jié)假日,則確定節(jié)假日因子為大于I的第一預(yù)定值;若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則確定節(jié)假日因子為小于I的第二預(yù)定值。
[0009]可選地,所述根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子進(jìn)一步包括:通過(guò)在當(dāng)前預(yù)設(shè)時(shí)間段之前若干次節(jié)假日與工作日之間切換時(shí)的抓取情況,動(dòng)態(tài)調(diào)整所述節(jié)假日因子。
[0010]可選地,所述根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動(dòng)態(tài)調(diào)整所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率具體為:將所述抓取頻率、所述頻率調(diào)整系數(shù)以及所述節(jié)假日因子的乘積作為動(dòng)態(tài)調(diào)整后的所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。
[0011]可選地,所述獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子具體為:對(duì)于發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子。
[0012]可選地,所述對(duì)于發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子具體包括:如果該次抓取發(fā)現(xiàn)新鏈接,則確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子為大于I的第三預(yù)定值;如果該次抓取沒(méi)有發(fā)現(xiàn)新鏈接,則確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子為小于I的第四預(yù)定值。
[0013]可選地,所述獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子具體為:對(duì)于發(fā)起的一次抓取,根據(jù)該次抓取之前一段預(yù)設(shè)時(shí)間內(nèi)發(fā)現(xiàn)新鏈接的次數(shù)與發(fā)起抓取的次數(shù)的比率確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子。
[0014]可選地,所述當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)已經(jīng)發(fā)起的抓取次數(shù)為n ;所述基于所述頻率調(diào)整因子計(jì)算頻率調(diào)整系數(shù)具體為:計(jì)算n次抓取對(duì)應(yīng)的頻率調(diào)整因子的乘積作為所述頻率調(diào)整系數(shù)。
[0015]可選地,所述方法方法還包括:如果所述歷史預(yù)設(shè)時(shí)間段的抓取頻率為無(wú)效值,則根據(jù)與所述歷史預(yù)設(shè)時(shí)間段相鄰的預(yù)設(shè)時(shí)間段的抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動(dòng)態(tài)調(diào)整所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。
[0016]可選地,所述方法進(jìn)一步包括基于所述動(dòng)態(tài)調(diào)整后的抓取頻率在所述當(dāng)前預(yù)設(shè)時(shí)間段中對(duì)所述種子頁(yè)進(jìn)行抓取。
[0017]根據(jù)本發(fā)明的另一方面,提供了一種時(shí)效性種子頁(yè)的抓取裝置,包括:獲取模塊,用于對(duì)于一時(shí)效性種子頁(yè),獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子;計(jì)算模塊,用于基于所述頻率調(diào)整因子計(jì)算頻率調(diào)整系數(shù);抓取頻率確定模塊,用于確定所述當(dāng)前預(yù)設(shè)時(shí)間段存在對(duì)應(yīng)關(guān)系的歷史預(yù)設(shè)時(shí)間段的抓取頻率;節(jié)假日因子確定模塊,用于判斷所述當(dāng)前預(yù)設(shè)時(shí)間段是否屬于節(jié)假日與工作日之間的切換時(shí)間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子;調(diào)整模塊,用于根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動(dòng)態(tài)調(diào)整所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。
[0018]可選地,所述節(jié)假日因子確定模塊包括:
[0019]判斷單元,用于若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于工作日,而該工作日的前一日為節(jié)假日,則判定所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日與工作日之間的切換時(shí)間;若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則判定所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日與工作日之間的切換時(shí)間。[0020]可選地,所述節(jié)假日因子確定模塊還包括:
[0021]節(jié)假日因子確定單元,用于若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于工作日,而該工作日的前一日為節(jié)假日,則確定節(jié)假日因子為大于I的第一預(yù)定值;若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則確定節(jié)假日因子為小于I的第二預(yù)定值。
[0022]可選地,所述節(jié)假日因子確定模塊還用于:通過(guò)在當(dāng)前預(yù)設(shè)時(shí)間段之前若干次節(jié)假日與工作日之間切換時(shí)的抓取情況,動(dòng)態(tài)調(diào)整所述節(jié)假日因子。
[0023]可選地,所述調(diào)整模塊具體用于:將所述抓取頻率、所述頻率調(diào)整系數(shù)以及所述節(jié)假日因子的乘積作為動(dòng)態(tài)調(diào)整后的所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。
[0024]可選地,所述獲取模塊具體用于:對(duì)于發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子??蛇x地,所述獲取模塊進(jìn)一步用于:如果該次抓取發(fā)現(xiàn)新鏈接,則確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子為大于I的第三預(yù)定值;如果該次抓取沒(méi)有發(fā)現(xiàn)新鏈接,則確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子為小于I的第四預(yù)定值。
[0025]可選地,所述獲取模塊具體用于:對(duì)于發(fā)起的一次抓取,根據(jù)該次抓取之前一段預(yù)設(shè)時(shí)間內(nèi)發(fā)現(xiàn)新鏈接的次數(shù)與發(fā)起抓取的次數(shù)的比率確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子。
[0026]可選地,所述當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)已經(jīng)發(fā)起的抓取次數(shù)為n ;所述計(jì)算模塊具體用于:計(jì)算n次抓取對(duì)應(yīng)的頻率調(diào)整因子的乘積作為所述頻率調(diào)整系數(shù)。
[0027]可選地,所述調(diào)整模塊還用于:如果所述歷史預(yù)設(shè)時(shí)間段的抓取頻率為無(wú)效值,則根據(jù)與所述歷史預(yù)設(shè)時(shí)間段相鄰的預(yù)設(shè)時(shí)間段的抓取頻率、所述頻率調(diào)整系數(shù)以及所述節(jié)假日因子,動(dòng)態(tài)調(diào)整所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。
[0028]可選地,所述裝置還包括:抓取器,用于基于所述動(dòng)態(tài)調(diào)整后的抓取頻率在所述當(dāng)前預(yù)設(shè)時(shí)間段中對(duì)所述種子頁(yè)進(jìn)行抓取。
[0029]根據(jù)本發(fā)明提供的上述方案,對(duì)于一時(shí)效性種子頁(yè),通過(guò)獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子,基于頻率調(diào)整因子計(jì)算頻率調(diào)整系數(shù),根據(jù)抓取頻率以及頻率調(diào)整系數(shù),然后確定與當(dāng)前預(yù)設(shè)時(shí)間段存在對(duì)應(yīng)關(guān)系的歷史預(yù)設(shè)時(shí)間段的抓取頻率,判斷當(dāng)前預(yù)設(shè)時(shí)間段是否屬于節(jié)假日與工作日之間的切換時(shí)間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子,動(dòng)態(tài)調(diào)整當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。利用該方案,所得到的當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率與歷史時(shí)間段的抓取頻率和當(dāng)前預(yù)設(shè)時(shí)間段已經(jīng)發(fā)起的抓取情況有關(guān),也就是說(shuō),當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率與兩個(gè)維度的數(shù)據(jù)有關(guān),分別為實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)。歷史數(shù)據(jù)作為基點(diǎn),不容易有偏差;實(shí)時(shí)數(shù)據(jù)反映了實(shí)時(shí)的情況,又能應(yīng)對(duì)各種突發(fā)情況。而且本方案考慮到節(jié)假日與工作日的切換時(shí)間內(nèi)網(wǎng)上信息的產(chǎn)生量會(huì)發(fā)生很大的變化,因此進(jìn)一步引入了節(jié)假日因子,利用節(jié)假日因子調(diào)整抓取頻率,準(zhǔn)確性更高。本發(fā)明提供的方案能夠降低對(duì)種子頁(yè)不必要的抓取,也能保證新鏈接被及時(shí)發(fā)現(xiàn)而不丟失,更好地平衡了抓取次數(shù)與發(fā)現(xiàn)新鏈接之間的關(guān)系。
[0030]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【專利附圖】
【附圖說(shuō)明】
[0031]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0032]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的時(shí)效性種子頁(yè)的抓取方法的流程圖;
[0033]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的時(shí)效性種子頁(yè)的抓取方法的流程圖;
[0034]圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的時(shí)效性種子頁(yè)的抓取裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0035]下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0036]圖1示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的時(shí)效性種子頁(yè)的抓取方法的流程圖。如圖1所示,該方法包括如下步驟:
[0037]步驟S110,對(duì)于一時(shí)效性種子頁(yè),獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子,基于頻率調(diào)整因子計(jì)算頻率調(diào)整系數(shù)。
[0038]種子頁(yè)是指包含時(shí)效性內(nèi)容鏈接的頁(yè)面,搜索引擎通過(guò)爬蟲技術(shù)對(duì)該種子頁(yè)進(jìn)行抓取。當(dāng)前預(yù)設(shè)時(shí)間段是指將一天所劃分的若干個(gè)平均時(shí)間段,以一個(gè)預(yù)設(shè)時(shí)間段為單位I小時(shí)為例,如果當(dāng)前時(shí)間為8:30,那么當(dāng)前預(yù)設(shè)時(shí)間段就是8:00-8:59這個(gè)時(shí)間段,當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)種子頁(yè)發(fā)起的抓取指的是8:00-8:30這段時(shí)間所發(fā)起的抓取,即已經(jīng)發(fā)起的抓取。其中已經(jīng)發(fā)起的每次抓取都會(huì)對(duì)應(yīng)一個(gè)頻率調(diào)整因子,根據(jù)該多個(gè)頻率調(diào)整因子計(jì)算頻率調(diào)整系數(shù)。
[0039]步驟S120,確定與當(dāng)前預(yù)設(shè)時(shí)間段存在對(duì)應(yīng)關(guān)系的歷史預(yù)設(shè)時(shí)間段的抓取頻率。
[0040]具體地,對(duì)于一 hub頁(yè),如以一個(gè)預(yù)設(shè)時(shí)間段為單位I小時(shí)為例,則按小時(shí)統(tǒng)計(jì)每個(gè)hub頁(yè)在過(guò)去一天每個(gè)小時(shí)的抓取頻率,作為第二天同一時(shí)段的參考值。歷史預(yù)設(shè)時(shí)間段的抓取頻率的初始值可以為預(yù)定值,例如每小時(shí)10次。舉例來(lái)說(shuō),搜索引擎通過(guò)爬蟲技術(shù)于11月26日8:00-9:00時(shí)間段對(duì)hub頁(yè)發(fā)起了抓取,其抓取次數(shù)(即抓取頻率)為5次,那么則確定11月27日8:00-9:00時(shí)間段的歷史預(yù)設(shè)時(shí)間段的抓取頻率就是5次。
[0041]步驟S130,判斷當(dāng)前預(yù)設(shè)時(shí)間段是否屬于節(jié)假日與工作日之間的切換時(shí)間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子。
[0042]步驟S140,根據(jù)抓取頻率、頻率調(diào)整系數(shù)以及節(jié)假日因子,動(dòng)態(tài)調(diào)整當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。
[0043]根據(jù)歷史預(yù)設(shè)時(shí)間段的抓取頻率、頻率調(diào)整系數(shù)以及節(jié)假日因子計(jì)算當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率,根據(jù)計(jì)算得到的當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率獲取下一次抓取的時(shí)機(jī)。
[0044]根據(jù)本發(fā)明上述實(shí)施例提供的方法,通過(guò)獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子,基于頻率調(diào)整因子計(jì)算頻率調(diào)整系數(shù),根據(jù)抓取頻率以及頻率調(diào)整系數(shù),然后確定與當(dāng)前預(yù)設(shè)時(shí)間段存在對(duì)應(yīng)關(guān)系的歷史預(yù)設(shè)時(shí)間段的抓取頻率,判斷當(dāng)前預(yù)設(shè)時(shí)間段是否屬于節(jié)假日與工作日之間的切換時(shí)間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子,動(dòng)態(tài)調(diào)整當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。利用該方法,所得到的當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率與歷史時(shí)間段的抓取頻率和當(dāng)前預(yù)設(shè)時(shí)間段已經(jīng)發(fā)起的抓取情況有關(guān),也就是說(shuō),當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率與兩個(gè)維度的數(shù)據(jù)有關(guān),分別為實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)。歷史數(shù)據(jù)作為基點(diǎn),不容易有偏差;實(shí)時(shí)數(shù)據(jù)反映了實(shí)時(shí)的情況,又能應(yīng)對(duì)各種突發(fā)情況。而且本方案考慮到節(jié)假日與工作日的切換時(shí)間內(nèi)網(wǎng)上信息的產(chǎn)生量會(huì)發(fā)生很大的變化,因此進(jìn)一步引入了節(jié)假日因子,利用節(jié)假日因子調(diào)整抓取頻率,準(zhǔn)確性更高,從而能夠降低對(duì)種子頁(yè)不必要的抓取,也能保證新鏈接被及時(shí)發(fā)現(xiàn)而不丟失,更好地平衡了抓取次數(shù)與發(fā)現(xiàn)新鏈接之間的關(guān)系。
[0045]圖2示出了根據(jù)本發(fā)明另一個(gè)實(shí)施例的時(shí)效性種子頁(yè)的抓取方法的流程圖。如圖2所示,該方法包括如下步驟:
[0046]步驟S210,對(duì)于一 hub頁(yè),針對(duì)當(dāng)前預(yù)設(shè)時(shí)間段已經(jīng)發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子,當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)種子頁(yè)已經(jīng)發(fā)起的抓取次數(shù)為n,計(jì)算n次抓取對(duì)應(yīng)的頻率調(diào)整因子的乘積作為頻率調(diào)整系數(shù)。
[0047]搜索引擎通過(guò)爬蟲技術(shù)對(duì)該hub頁(yè)進(jìn)行抓取,根據(jù)該次抓取是否發(fā)現(xiàn)了新鏈接的結(jié)果確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子??蛇x地,如果該次抓取發(fā)現(xiàn)新鏈接,則確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子為大于I的第三預(yù)定值;如果該次抓取沒(méi)有發(fā)現(xiàn)新鏈接,則確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子為小于I的第四預(yù)定值。舉例來(lái)說(shuō),如果該次抓取發(fā)現(xiàn)新鏈接,則該次抓取對(duì)應(yīng)的頻率調(diào)整因子為2 (即第三預(yù)定值);如果該次抓取沒(méi)有發(fā)現(xiàn)新鏈接,則確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子為0.5 (即第四預(yù)定值)。以一個(gè)預(yù)設(shè)時(shí)間段為單位I小時(shí)為例,如果當(dāng)前時(shí)間為8:30,那么當(dāng)前預(yù)設(shè)時(shí)間段就是8:00-8:59這個(gè)時(shí)間段,假設(shè)8:00-8:30這段時(shí)間已經(jīng)發(fā)起的抓取次數(shù)為n次,每次抓取對(duì)應(yīng)的頻率調(diào)整因子為Si,
iG [I, n] o對(duì)于第i次抓取,如果發(fā)現(xiàn)新鏈接,則Si=2,如果沒(méi)有發(fā)現(xiàn)新鏈接,Si=0.5。
[0048]作為另外一種可選地實(shí)施方式,為了精確的計(jì)算頻率調(diào)整因子,對(duì)于已經(jīng)發(fā)起的一次抓取,也可以根據(jù)該次抓取之前一段預(yù)設(shè)時(shí)間內(nèi)發(fā)現(xiàn)新鏈接的次數(shù)與發(fā)起抓取的次數(shù)的比率確定當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)種子頁(yè)已經(jīng)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子。
[0049]將發(fā)現(xiàn)新鏈接的次數(shù)與發(fā)起的`抓取的次數(shù)的比率定義為命中率(Ht)。對(duì)于任意hub頁(yè),在過(guò)去一段時(shí)間t內(nèi),用過(guò)去一小時(shí)的命中率Ht來(lái)估計(jì)合適的頻率調(diào)整因子Si,即:
[0050]Si=g (Ht)(I)
[0051]如果命中率過(guò)高,說(shuō)明頻率提升的幅度可能太小,可能會(huì)有一些新鏈接沒(méi)有被抓取,還需要再繼續(xù)加大抓取次數(shù)。如果命中率過(guò)低,說(shuō)明頻率下調(diào)的粒度太小,浪費(fèi)了不必要抓取,還可以再繼續(xù)降低抓取次數(shù)。
[0052]當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)搜索引擎對(duì)種子頁(yè)發(fā)起了 n次抓取,則可確定每次抓取的頻率調(diào)整因子分別為Sl、s2、…、sn。定義頻率調(diào)整系數(shù)為n次抓取對(duì)應(yīng)的頻率調(diào)整因子的乘積,表示為:
n
[0053]5 = ,即 S=si*s2*.? ? *sn(2)
/-1
[0054]舉例來(lái)說(shuō),當(dāng)前時(shí)間為8:30,8:00-8:30時(shí)間段內(nèi)搜索引擎對(duì)hub頁(yè)發(fā)起了 5次抓取,則可確定每次抓取的頻率調(diào)整因子分別為Sl、S2、S3、S4、S5。進(jìn)而計(jì)算得到頻率調(diào)整系數(shù)為:[0055]
【權(quán)利要求】
1.一種時(shí)效性種子頁(yè)的抓取方法,包括: 對(duì)于一時(shí)效性種子頁(yè),獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子,基于所述頻率調(diào)整因子計(jì)算頻率調(diào)整系數(shù); 確定與所述當(dāng)前預(yù)設(shè)時(shí)間段存在對(duì)應(yīng)關(guān)系的歷史預(yù)設(shè)時(shí)間段的抓取頻率; 判斷所述當(dāng)前預(yù)設(shè)時(shí)間段是否屬于節(jié)假日與工作日之間的切換時(shí)間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子; 根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動(dòng)態(tài)調(diào)整所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。
2.根據(jù)權(quán)利要求1所述的方法,所述判斷所述當(dāng)前預(yù)設(shè)時(shí)間段是否屬于節(jié)假日與工作日之間的切換時(shí)間進(jìn)一步包括: 若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于工作日,而該工作日的前一日為節(jié)假日,則判定所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日與工作日之間的切換時(shí)間; 若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則判定所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日與工作日之間的切換時(shí)間。
3.根據(jù)權(quán)利要求1或2所述的方法,所述根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子進(jìn)一步包括: 若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于工作日,而該工作日的前一日為節(jié)假日,則確定節(jié)假日因子為大于I的第一預(yù)定值; 若所述當(dāng)前預(yù)設(shè)時(shí)間段屬于節(jié)假日,而該節(jié)假日的前一日為工作日,則確定節(jié)假日因子為小于I的第二預(yù)定值。
4.根據(jù)權(quán)利要求1所述的方法,所述根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子進(jìn)一步包括: 通過(guò)在當(dāng)前預(yù)設(shè)時(shí)間段之前若干次節(jié)假日與工作日之間切換時(shí)的抓取情況,動(dòng)態(tài)調(diào)整所述節(jié)假日因子。
5.根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,所述根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動(dòng)態(tài)調(diào)整所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率具體為: 將所述抓取頻率、所述頻率調(diào)整系數(shù)以及所述節(jié)假日因子的乘積作為動(dòng)態(tài)調(diào)整后的所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。
6.根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,所述獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子具體為:對(duì)于發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子。
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,所述對(duì)于發(fā)起的一次抓取,根據(jù)該次抓取是否發(fā)現(xiàn)新鏈接的結(jié)果確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子具體包括: 如果該次抓取發(fā)現(xiàn)新鏈接,則確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子為大于I的第三預(yù)定值; 如果該次抓取沒(méi)有發(fā)現(xiàn)新鏈接,則確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子為小于I的第四預(yù)定值。
8.根據(jù)權(quán)利要求1-7任一項(xiàng)所述的方法,所述獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子具體為:對(duì)于發(fā)起的一次抓取,根據(jù)該次抓取之前一段預(yù)設(shè)時(shí)間內(nèi)發(fā)現(xiàn)新鏈接的次數(shù)與發(fā)起抓取的次數(shù)的比率確定該次抓取對(duì)應(yīng)的頻率調(diào)整因子。
9.根據(jù)權(quán)利要求1-8任一項(xiàng)所述的方法,所述當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)已經(jīng)發(fā)起的抓取次數(shù)為n ; 所述基于所述頻率調(diào)整因子計(jì)算頻率調(diào)整系數(shù)具體為:計(jì)算n次抓取對(duì)應(yīng)的頻率調(diào)整因子的乘積作為所述頻率調(diào)整系數(shù)。
10.一種時(shí)效性種子頁(yè)的抓取裝置,包括: 獲取模塊,用于對(duì)于一時(shí)效性種子頁(yè),獲取當(dāng)前預(yù)設(shè)時(shí)間段內(nèi)對(duì)所述種子頁(yè)發(fā)起的每次抓取對(duì)應(yīng)的頻率調(diào)整因子; 計(jì)算模塊,用于基于所述頻率調(diào)整因子計(jì)算頻率調(diào)整系數(shù); 抓取頻率確定模塊,用于確定所述當(dāng)前預(yù)設(shè)時(shí)間段存在對(duì)應(yīng)關(guān)系的歷史預(yù)設(shè)時(shí)間段的抓取頻率; 節(jié)假日因子確定模塊,用于判斷所述當(dāng)前預(yù)設(shè)時(shí)間段是否屬于節(jié)假日與工作日之間的切換時(shí)間,若是則根據(jù)節(jié)假日與工作日之間的切換情況確定節(jié)假日因子; 調(diào)整模塊,用于根據(jù)所述抓取頻率、所述頻率調(diào)整系數(shù)以及節(jié)假日因子,動(dòng)態(tài)調(diào)整所述當(dāng)前預(yù)設(shè)時(shí)間段的抓取頻率。
【文檔編號(hào)】G06F17/30GK103617264SQ201310638133
【公開(kāi)日】2014年3月5日 申請(qǐng)日期:2013年12月2日 優(yōu)先權(quán)日:2013年12月2日
【發(fā)明者】魏少俊 申請(qǐng)人:北京奇虎科技有限公司, 奇智軟件(北京)有限公司