br>[0055]第一索引標識設(shè)置模塊,用于在啟動所述待更新數(shù)據(jù)庫對應(yīng)的更新程序之后,將本地存儲的Value_SID_L設(shè)置為:Value_SID_D_值,Value_SID_Dnax為所述待更新數(shù)據(jù)庫中存儲的所述待更新數(shù)據(jù)庫中已存儲的數(shù)據(jù)記錄對應(yīng)的索引標識的最大值;
[0056]第二索引標識設(shè)置模塊,用于在所述第一索引標識設(shè)置模塊設(shè)置本地存儲的索引標識之后,將Value_SID_D_更新為:當前Value_SID_D_+預(yù)設(shè)的第四閾值;
[0057]第一索引標識更新模塊,用于在所述第一索引標識計算子模塊或所述第二索引標識計算子模塊計算得到所述目標網(wǎng)頁對應(yīng)的索引標識之后,將Value_SID_L值更新為所述目標網(wǎng)頁對應(yīng)的索引標識;
[0058]索引標識判斷模塊,用于判斷所述目標網(wǎng)頁對應(yīng)的索引標識是否大于Value_SID_
Dmax ?
[0059]第二索引標識更新模塊,用于在所述索引標識判斷模塊的判斷結(jié)果為是的情況下,則將Value_SID_D_更新為:當前Value_SID_D_+預(yù)設(shè)的第四閾值;
[0060]第三索引標識更新模塊,用于在結(jié)束所述待更新數(shù)據(jù)庫對應(yīng)的更新程序之后,將Value_SID_Dnax 更新為:Value_SID_Dnax = Value_SID_L。
[0061]可選的,所述數(shù)據(jù)庫更新裝置還包括:
[0062]索引標識發(fā)送模塊,用于在所述索引標識生成模塊生成索引標識之后,向網(wǎng)絡(luò)爬蟲模塊或者非所述待更新數(shù)據(jù)庫發(fā)送所生成的索引標識。
[0063]由以上可見,本發(fā)明實施例提供的方案中,在獲得目標網(wǎng)頁的網(wǎng)頁參數(shù)后,判斷待更新的數(shù)據(jù)庫中與目標網(wǎng)站對應(yīng)的數(shù)據(jù)表中是否存在目標網(wǎng)頁對應(yīng)的數(shù)據(jù)記錄,不存在時,生成目標網(wǎng)頁對應(yīng)的索引標識,并在目標網(wǎng)站對應(yīng)的數(shù)據(jù)表中增加該目標網(wǎng)頁對應(yīng)的數(shù)據(jù)記錄。與現(xiàn)有技術(shù)相比,本發(fā)明實施例提供的方案中將各個網(wǎng)頁對應(yīng)的數(shù)據(jù)記錄存儲在多個數(shù)據(jù)表中,而非一個數(shù)據(jù)表中,因此,在判斷待更新數(shù)據(jù)庫中是否存在目標網(wǎng)頁對應(yīng)的數(shù)據(jù)記錄時,只在目標網(wǎng)頁對應(yīng)的數(shù)據(jù)表中判斷即可,而無需在待更新數(shù)據(jù)庫所包含的全部信息中判斷,因此,能夠提高更新數(shù)據(jù)庫的速度。
【附圖說明】
[0064]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0065]圖1為本發(fā)明實施例提供的數(shù)據(jù)庫更新方法的第一種流程示意圖;
[0066]圖2為本發(fā)明實施例提供的數(shù)據(jù)庫更新方法的第二種流程示意圖;
[0067]圖3為本發(fā)明實施例提供的數(shù)據(jù)庫更新方法的第三種流程示意圖;
[0068]圖4為本發(fā)明實施例提供的數(shù)據(jù)庫更新方法的第四種流程示意圖;
[0069]圖5為本發(fā)明實施例提供的數(shù)據(jù)庫更新裝置的第一種結(jié)構(gòu)示意圖;
[0070]圖6為本發(fā)明實施例提供的數(shù)據(jù)庫更新裝置的第二種結(jié)構(gòu)示意圖;
[0071]圖7為本發(fā)明實施例提供的數(shù)據(jù)庫更新裝置的第三種結(jié)構(gòu)示意圖;
[0072]圖8為本發(fā)明實施例提供的數(shù)據(jù)庫更新裝置的第四種結(jié)構(gòu)示意圖。
【具體實施方式】
[0073]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0074]圖1為本發(fā)明實施例提供的數(shù)據(jù)庫更新方法的第一種流程示意圖,該方法包括:
[0075]S101:獲得目標網(wǎng)頁的網(wǎng)頁參數(shù)。
[0076]實際應(yīng)用中,搜索引擎為了能夠向用戶提供豐富的搜索服務(wù),一般由網(wǎng)絡(luò)爬蟲模塊獲得目標網(wǎng)頁的相關(guān)信息,并根據(jù)所獲得的信息更新相應(yīng)的數(shù)據(jù)庫,其中,網(wǎng)絡(luò)爬蟲模塊所獲得的信息中至少包括目標網(wǎng)頁的網(wǎng)址信息。
[0077]網(wǎng)絡(luò)爬蟲模塊獲得目標網(wǎng)頁的相關(guān)信息后,搜索引擎可根據(jù)所獲得的信息獲得目標網(wǎng)頁的網(wǎng)頁參數(shù),其中,上述網(wǎng)頁參數(shù)中可以包括:目標網(wǎng)頁對應(yīng)的目標網(wǎng)站的標識和目標網(wǎng)頁在目標網(wǎng)站中的標識。
[0078]本領(lǐng)域內(nèi)的技術(shù)人員可以理解的是,根據(jù)目標網(wǎng)頁的網(wǎng)址信息可以得到目標網(wǎng)頁對應(yīng)的目標網(wǎng)站的標識。
[0079]進一步的,目標網(wǎng)頁在目標網(wǎng)站中的標識可以是目標網(wǎng)頁的網(wǎng)址,也可以是目標網(wǎng)頁的網(wǎng)址去除目標網(wǎng)站標識之后的信息。
[0080]例如:網(wǎng)絡(luò)爬蟲獲得的目標網(wǎng)頁的網(wǎng)址為:http://item.jd.com/1184892, html,則根據(jù)該網(wǎng)址可知目標網(wǎng)頁對應(yīng)的目標網(wǎng)站的標識為:http://item.jd.com,去除目標網(wǎng)站標識之后的信息為:1184892。
[0081]S102:根據(jù)目標網(wǎng)頁對應(yīng)的目標網(wǎng)站的標識,在待更新數(shù)據(jù)庫中確定與目標網(wǎng)站對應(yīng)的數(shù)據(jù)表。
[0082]由于隨著網(wǎng)絡(luò)爬蟲模塊獲得的網(wǎng)頁信息越來越多,待更新數(shù)據(jù)庫中存儲網(wǎng)頁信息的數(shù)據(jù)表中存儲的數(shù)據(jù)也就越來越多。另外,更新數(shù)據(jù)庫時需先判斷待更新數(shù)據(jù)庫中是否存在網(wǎng)絡(luò)爬蟲模塊所獲得的信息對應(yīng)的目標網(wǎng)頁的相關(guān)信息,因此,隨著待更新數(shù)據(jù)庫中存儲網(wǎng)頁信息的數(shù)據(jù)表中存儲的數(shù)據(jù)越來越多,判斷是否存在目標網(wǎng)頁的相關(guān)信息的速度越來越慢,為提高更新數(shù)據(jù)庫的效率,可以將數(shù)據(jù)庫中的信息按照一定規(guī)則存儲在不同的數(shù)據(jù)表中,例如,來自一個或者多個網(wǎng)站的網(wǎng)頁存儲在一個數(shù)據(jù)表中等等。
[0083]鑒于上述情況,本實施例中,待更新數(shù)據(jù)庫中所包含數(shù)據(jù)表的數(shù)量> 1。
[0084]另外,實際應(yīng)用中,為進一步提高更新數(shù)據(jù)庫的效率,待更新數(shù)據(jù)庫中所包含的每個數(shù)據(jù)表可分別與一個網(wǎng)站的標識相對應(yīng)。
[0085]一種具體的應(yīng)用中,待更新數(shù)據(jù)庫還可以作為分布式文件系統(tǒng)中的一個文件存儲于分布式文件系統(tǒng)中。
[0086]其中,分布式文件系統(tǒng),是指文件系統(tǒng)管理的物理存儲資源不一定直接連接在本地存儲設(shè)備上,而是可以通過計算機網(wǎng)絡(luò)與網(wǎng)絡(luò)端存儲設(shè)備相連,進而將文件存儲在各個存儲節(jié)點中,其中,網(wǎng)絡(luò)端的一臺存儲設(shè)備可以稱之為一個存儲節(jié)點。
[0087]在本發(fā)明的一個具體實施例中,根據(jù)目標網(wǎng)頁對應(yīng)的目標網(wǎng)站的標識,在待更新數(shù)據(jù)庫中確定與目標網(wǎng)站對應(yīng)的數(shù)據(jù)表失敗的情況下,可在待更新數(shù)據(jù)庫中創(chuàng)建目標網(wǎng)站對應(yīng)的數(shù)據(jù)表。成功創(chuàng)建目標網(wǎng)站對應(yīng)的數(shù)據(jù)表之后,執(zhí)行生成目標網(wǎng)頁對應(yīng)的索引標識(S104)的步驟。
[0088]S103:根據(jù)目標網(wǎng)頁在目標網(wǎng)站中的標識,判斷目標網(wǎng)站對應(yīng)的數(shù)據(jù)表中是否存在目標網(wǎng)頁對應(yīng)的數(shù)據(jù)記錄,若不存在,執(zhí)行S104,否則,執(zhí)行S106。
[0089]其中,數(shù)據(jù)記錄中可以包括:目標網(wǎng)頁在目標網(wǎng)站中的標識和目標網(wǎng)頁對應(yīng)的索引標識,當然,本申請中并不限定數(shù)據(jù)記錄中所包括的信息。
[0090]在用戶根據(jù)搜索引擎提供的搜索結(jié)果瀏覽網(wǎng)頁時,搜索引擎可根據(jù)用戶要瀏覽的網(wǎng)頁對應(yīng)的索引標識向瀏覽器提供該網(wǎng)頁的網(wǎng)址信息。
[0091]例如:用戶通過搜索引擎搜索“網(wǎng)絡(luò)爬蟲”時,該搜索引擎可向用戶提供多條與“網(wǎng)絡(luò)爬蟲”相關(guān)的網(wǎng)頁摘要信息,其中,網(wǎng)頁摘要信息中包含網(wǎng)頁對應(yīng)的索引標識,但是該索弓丨標識可向用戶展示,也可以不向用戶展示;當用戶點擊某一網(wǎng)頁摘要信息時,網(wǎng)絡(luò)引擎獲得該網(wǎng)頁對應(yīng)的索引標識,并根據(jù)所獲得的索引標識在相應(yīng)的數(shù)據(jù)庫中進行檢索,獲得該網(wǎng)頁的網(wǎng)址信息,最后將該網(wǎng)頁的網(wǎng)址信息發(fā)送給瀏覽器,使得瀏覽器根據(jù)該網(wǎng)頁的網(wǎng)址信息向用戶展示網(wǎng)頁。
[0092]上述只是目標網(wǎng)頁對應(yīng)的索引標識的一種具體應(yīng)用場景,本申請并不對此進行限定。
[0093]S104:生成目標網(wǎng)頁對應(yīng)的索引標識。
[0094]S105:在目標網(wǎng)站對應(yīng)的數(shù)據(jù)表中增加目標網(wǎng)頁對應(yīng)的數(shù)據(jù)記錄。
[0095]優(yōu)選的,本發(fā)明的一種具體實現(xiàn)方式中,在生成目標網(wǎng)頁對應(yīng)的索引標識之后,還可以包括:向網(wǎng)絡(luò)爬蟲模塊或者非待更新數(shù)據(jù)庫發(fā)送所生成的索引標識。
[0096]實際應(yīng)用中,用于向用戶提供網(wǎng)頁的網(wǎng)址信息的數(shù)據(jù)庫可以與待更新數(shù)據(jù)庫是同一個數(shù)據(jù)庫,也可以不是同一個數(shù)據(jù)庫,當不是同一個數(shù)據(jù)庫時,生成目標網(wǎng)頁對應(yīng)的索引標識后,可