本發(fā)明涉及網(wǎng)絡(luò)信息搜索領(lǐng)域,特別涉及一種數(shù)據(jù)爬取方法及裝置。
背景技術(shù):
隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為海量信息的載體,人們通過搜索工具在這些海量數(shù)據(jù)中進(jìn)行檢索。搜索工具返回的結(jié)果含有大量用戶不關(guān)心的數(shù)據(jù),在這些數(shù)據(jù)中去搜索用戶關(guān)心的數(shù)據(jù)成為一個難題。在這種情況下定向抓取相關(guān)網(wǎng)頁資源的爬蟲系統(tǒng)應(yīng)運(yùn)而生,可以根據(jù)既定的抓取目標(biāo),有選擇的在萬維網(wǎng)的網(wǎng)頁或鏈接上獲取所需要的數(shù)據(jù)信息。
現(xiàn)有的爬蟲系統(tǒng)在爬取微博或者視頻數(shù)據(jù)時,通常采用的方式有基于搜索關(guān)鍵詞、列表頁的爬取。在進(jìn)行搜索關(guān)鍵詞爬取時,主要步驟有調(diào)用爬蟲系統(tǒng)的搜索接口,輸入搜索關(guān)鍵詞,然后下載搜索的結(jié)果;通過搜索到的結(jié)果提取內(nèi)容詳情頁URL,并進(jìn)行下載。該方式的主要缺點(diǎn)是搜索結(jié)果有個數(shù)限制,會導(dǎo)致爬取的數(shù)據(jù)不全面;而基于列表頁的爬取,由于受到列表頁數(shù)量的限制,也會存在爬取數(shù)據(jù)不全面的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例的目的在于提供一種數(shù)據(jù)爬取方法及裝置,用以爬取到全面的數(shù)據(jù)。
為達(dá)到上述目的,本發(fā)明實(shí)施例公開了一種數(shù)據(jù)爬取方法,預(yù)先獲得并存儲至少一個內(nèi)容生產(chǎn)者的標(biāo)識信息;所述方法包括:
根據(jù)至少一個所述內(nèi)容生產(chǎn)者的標(biāo)識信息,確定至少一個與所述內(nèi)容生產(chǎn)者一一對應(yīng)的內(nèi)容生產(chǎn)者個人主頁;
針對每一個內(nèi)容生產(chǎn)者,分別在其內(nèi)容生產(chǎn)者個人主頁中,爬取所述內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù)。
優(yōu)選的,獲得內(nèi)容生產(chǎn)者的標(biāo)識信息,包括:
從以關(guān)鍵詞進(jìn)行搜索的結(jié)果頁面中提取內(nèi)容生產(chǎn)者的標(biāo)識信息;
或
基于首頁深度爬取方案,從目標(biāo)網(wǎng)站中提取內(nèi)容生產(chǎn)者的標(biāo)識信息。
優(yōu)選的,所述方法還包括:
針對每一個內(nèi)容生產(chǎn)者,根據(jù)已爬取的所述內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù),確定所述內(nèi)容生產(chǎn)者生產(chǎn)數(shù)據(jù)的頻率;
以所確定的頻率,在所述內(nèi)容生產(chǎn)者個人主頁中,爬取未爬取過的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)。
優(yōu)選的,所述方法還包括:
根據(jù)用戶對已爬取的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)的評價信息,確定每一內(nèi)容生產(chǎn)者的優(yōu)先級;
按照所述優(yōu)先級自高至低的順序,在所述內(nèi)容生產(chǎn)者個人主頁中,爬取未爬取過的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)。
為達(dá)到上述目的,本發(fā)明實(shí)施例公開了一種數(shù)據(jù)爬取裝置,所述裝置包括:
獲得模塊,用于預(yù)先獲得并存儲至少一個內(nèi)容生產(chǎn)者的標(biāo)識信息;
第一確定模塊,用于根據(jù)至少一個所述內(nèi)容生產(chǎn)者的標(biāo)識信息,確定至少一個與所述內(nèi)容生產(chǎn)者一一對應(yīng)的內(nèi)容生產(chǎn)者個人主頁;
第一爬取模塊,用于針對每一個內(nèi)容生產(chǎn)者,分別在其內(nèi)容生產(chǎn)者個人主頁中,爬取所述內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù)。
優(yōu)選的,所述獲得模塊,具體用于:
從以關(guān)鍵詞進(jìn)行搜索的結(jié)果頁面中提取并存儲至少一個內(nèi)容生產(chǎn)者的標(biāo)識信息;
或
基于首頁深度爬取方案,從目標(biāo)網(wǎng)站中提取并存儲至少一個內(nèi)容生產(chǎn)者的標(biāo)識信息。
優(yōu)選的,所述裝置還包括:第二確定模塊和第二爬取模塊,
所述第二確定模塊,用于針對每一個內(nèi)容生產(chǎn)者,根據(jù)已爬取的所述內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù),確定所述內(nèi)容生產(chǎn)者生產(chǎn)數(shù)據(jù)的頻率;
所述第二爬取模塊,用于以所確定的頻率,在所述內(nèi)容生產(chǎn)者個人主頁中,爬取未爬取過的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)。
優(yōu)選的,所述裝置還包括:第三確定模塊和第三爬取模塊;
所述第三確定模塊,用于根據(jù)用戶對已爬取的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)的評價信息,確定每一內(nèi)容生產(chǎn)者的優(yōu)先級;
所述第三爬取模塊,用于按照所述優(yōu)先級自高至低的順序,在所述內(nèi)容生產(chǎn)者個人主頁中,爬取未爬取過的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)。
由上述的技術(shù)方案可見,本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取方法及裝置,預(yù)先獲得并存儲至少一個內(nèi)容生產(chǎn)者的標(biāo)識信息;根據(jù)至少一個內(nèi)容生產(chǎn)者的標(biāo)識信息,確定至少一個與內(nèi)容生產(chǎn)者一一對應(yīng)的內(nèi)容生產(chǎn)者個人主頁;針對每一個內(nèi)容生產(chǎn)者,分別在其內(nèi)容生產(chǎn)者個人主頁中,爬取內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù)。應(yīng)用本發(fā)明實(shí)施例提供的技術(shù)方案,在獲得內(nèi)容生產(chǎn)者的標(biāo)識信息后,根據(jù)該內(nèi)容生產(chǎn)者的標(biāo)志信息即可爬取到該內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù),從而爬取到全面的數(shù)據(jù)。
當(dāng)然,實(shí)施本發(fā)明的任一方法或裝置必不一定需要同時達(dá)到以上所述的所有優(yōu)點(diǎn)。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取方法的一種流程示意圖;
圖2為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取方法的另一種流程示意圖;
圖3為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取方法的再一種流程示意圖;
圖4為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取裝置的一種結(jié)構(gòu)示意圖;
圖5為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取裝置的另一種結(jié)構(gòu)示意圖;
圖6為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取裝置的再一種結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
為解決現(xiàn)有技術(shù)問題,本發(fā)明實(shí)施例提供了一種數(shù)據(jù)爬取方法及裝置,以下分別進(jìn)行詳細(xì)說明。
需要說明的是,本發(fā)明實(shí)施例提供的一種數(shù)據(jù)爬取方法及裝置,適用于爬蟲系統(tǒng)。實(shí)際應(yīng)用中,預(yù)先存儲至少一個內(nèi)容生產(chǎn)者的標(biāo)識信息,如視頻上傳者的個人ID、賬戶名稱等,作為后續(xù)爬取數(shù)據(jù)時使用。該過程為形成與搜索內(nèi)容相對應(yīng)的標(biāo)識,為進(jìn)行全面的內(nèi)容爬取工作做準(zhǔn)備。
圖1為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取方法的一種流程示意圖,包括如下步驟:
S101,根據(jù)至少一個所述內(nèi)容生產(chǎn)者的標(biāo)識信息,確定至少一個與所述內(nèi)容生產(chǎn)者一一對應(yīng)的內(nèi)容生產(chǎn)者個人主頁。
具體的,實(shí)際應(yīng)用中,預(yù)先獲得并存儲至少一個內(nèi)容生產(chǎn)者的標(biāo)識信息。其中,標(biāo)識信息可以為姓名、ID號、賬號等等,本發(fā)明實(shí)施例并不對標(biāo)識信息的具體表現(xiàn)形式進(jìn)行限定。
具體的,獲得內(nèi)容生產(chǎn)者的標(biāo)識信息,可以從以關(guān)鍵詞進(jìn)行搜索的結(jié)果頁面中提取內(nèi)容生產(chǎn)者的標(biāo)識信息。
示例性的,以“abcdefghijk”作為關(guān)鍵詞進(jìn)行搜索,得到網(wǎng)站“http://www.yyy.com/movies/key=abcdefghijk”,假設(shè),在該網(wǎng)頁中對應(yīng)3個視頻上傳者,ID分別為“AAAA1”、“AAAA2”和“AAAA3”。提取全部這些視頻上傳者的ID,ID“AAAA1”、“AAAA2”和“AAAA3”即為內(nèi)容生產(chǎn)者的標(biāo)識信息。若對應(yīng)ID存在對應(yīng)賬戶名,也可以提取對應(yīng)賬戶名作為內(nèi)容生產(chǎn)者的標(biāo)識信息。本發(fā)明實(shí)施例意在提取一個與該內(nèi)容生產(chǎn)者對應(yīng)的標(biāo)識信息,并不對該標(biāo)識信息的類型加以限制,只要能實(shí)現(xiàn)標(biāo)識信息與該內(nèi)容生產(chǎn)者的一一對應(yīng)關(guān)系即可。
具體的,獲得內(nèi)容生產(chǎn)者的標(biāo)識信息,還可以基于首頁深度爬取方案,從目標(biāo)網(wǎng)站中提取內(nèi)容生產(chǎn)者的標(biāo)識信息。
示例性的,目標(biāo)網(wǎng)站為首頁http://www.xyz.com,基于該網(wǎng)站進(jìn)行爬取,獲得其全部的視頻上傳者,假設(shè)存在5個視頻上傳者,ID分別為“aaa1”、“aaa2”、“aaa3”、“aaa4”、“aaa5”,提取全部的的ID,則對應(yīng)ID“aaa1”、“aaa2”、“aaa3”、“aaa4”、“aaa5”,即為該網(wǎng)站的全部內(nèi)容生產(chǎn)者的標(biāo)識信息。本發(fā)明實(shí)施例的提取ID作為內(nèi)容生產(chǎn)者標(biāo)識僅僅為示例性的,并不構(gòu)成對本發(fā)明的限定。
實(shí)際應(yīng)用中,在獲得并保存內(nèi)容生產(chǎn)者的標(biāo)識后,確定內(nèi)容生產(chǎn)者標(biāo)識對應(yīng)的主頁,即對應(yīng)的個人主頁。以內(nèi)容生產(chǎn)者ID為“aaa1”為例,假設(shè),“aaa1”對應(yīng)主頁為“http://www.xyz.com/ID=aaa1”,則將“http://www.xyz.com/ID=aaa1”確定為與內(nèi)容生產(chǎn)者“aaa1”對應(yīng)的個人主頁。
S102,針對每一個內(nèi)容生產(chǎn)者,分別在其內(nèi)容生產(chǎn)者個人主頁中,爬取所述內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù)。
本領(lǐng)域技術(shù)人員可以理解的是,在獲得的對應(yīng)個人主頁中,包含所有內(nèi)容生產(chǎn)者的信息并提取,即可獲得全面的信息。示例性的,內(nèi)容生產(chǎn)者ID“aaa1”的對應(yīng)個人主頁為“http://www.xyz.com/ID=aaa1”,在該主頁中包含內(nèi)容生產(chǎn)者“aaa1”所有上傳的數(shù)據(jù)信息,通過對該個人主頁的搜索即可得到“aaa1”生產(chǎn)的全部數(shù)據(jù),然后進(jìn)行全部數(shù)據(jù)的爬取,對網(wǎng)頁的數(shù)據(jù)爬取為現(xiàn)有技術(shù),本方案不做贅述。
可見,應(yīng)用本發(fā)明圖1的實(shí)施例,在獲得內(nèi)容生產(chǎn)者的標(biāo)識信息后,根據(jù)該內(nèi)容生產(chǎn)者的標(biāo)志信息即可爬取到該內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù),從而爬取到全面的數(shù)據(jù)。
圖2為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取方法的另一種流程示意圖,在圖1所示實(shí)施例的基礎(chǔ)上,增加S103和S104。
S103,針對每一個內(nèi)容生產(chǎn)者,根據(jù)已爬取的所述內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù),確定所述內(nèi)容生產(chǎn)者生產(chǎn)數(shù)據(jù)的頻率。
本領(lǐng)域技術(shù)人員可以理解的是,在提取爬取到的所有數(shù)據(jù)后進(jìn)行分析,示例性的,在爬取到內(nèi)容生產(chǎn)者“aaa1”生產(chǎn)的全部數(shù)據(jù)后,分析數(shù)據(jù)更新的頻率,假設(shè)為2天更新一次數(shù)據(jù),將內(nèi)容生產(chǎn)者“aaa1”對應(yīng)個人主頁的爬取頻率設(shè)定為2天/次。
S104,以所確定的頻率,在所述內(nèi)容生產(chǎn)者個人主頁中,爬取未爬取過的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)。
示例性的,ID為“aaa1”的內(nèi)容生產(chǎn)者,在設(shè)定對其的爬取頻率為2天/次后,假設(shè),最近一次數(shù)據(jù)爬取的日期為2016年6月5日14:00時,則下次爬取的時間為2016年6月7日14:00時,此次則只爬取2016年6月5日14:00時至2016年6月7日14:00之間更新的數(shù)據(jù),即進(jìn)行增量爬取。具體的增量爬取為現(xiàn)有技術(shù),本方案不做贅述。
可見,應(yīng)用本發(fā)明圖2的實(shí)施例,在獲得內(nèi)容生產(chǎn)者的數(shù)據(jù)生產(chǎn)頻率后,依據(jù)所確定的頻率在個人生產(chǎn)者主頁中實(shí)現(xiàn)增量爬取,在降低爬取頻率、減少爬取任務(wù)量的同時,保證能夠爬取到全面的數(shù)據(jù)。
圖3為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取方法的另一種流程示意圖,在圖1所示實(shí)施例的基礎(chǔ)上,增加S105和S106。
S105,根據(jù)用戶對已爬取的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)的評價信息,確定每一內(nèi)容生產(chǎn)者的優(yōu)先級。
實(shí)際應(yīng)用中,爬取到的數(shù)據(jù)往往含有關(guān)注度的信息,如點(diǎn)擊量、點(diǎn)贊數(shù)量、評價數(shù)量等,這些信息都能反映數(shù)據(jù)的受關(guān)注程度。對于視頻網(wǎng)站而言,每個視頻下面都會有評論、網(wǎng)友打分、點(diǎn)贊數(shù)量、以及與點(diǎn)贊相反的不受歡迎的評分信息等。在爬取數(shù)據(jù)的同時也獲得了這些反應(yīng)關(guān)注度的信息,以一個或若干個反應(yīng)關(guān)注度的信息為標(biāo)準(zhǔn),進(jìn)行視頻的優(yōu)先級劃分。示例性的,以點(diǎn)贊量進(jìn)行視頻的優(yōu)先級劃分,點(diǎn)贊的數(shù)量越多則優(yōu)先級越高;或以網(wǎng)友打分進(jìn)行優(yōu)先級的劃分,分?jǐn)?shù)越高則優(yōu)先級越高;或以不受歡迎的評分進(jìn)行劃分,得分越高優(yōu)先級越低。
示例性的,以點(diǎn)擊數(shù)量進(jìn)行劃分,“aaa1”、“aaa2”、“aaa3”、“aaa4”、“aaa5”網(wǎng)友點(diǎn)擊數(shù)量分別為900次,700次、300次、800次、100次,則優(yōu)先級自高到低的順序?yàn)椋?級“aaa1”、2級“aaa4”、3級“aaa2”、4級“aaa3”、5級“aaa5”。本發(fā)明實(shí)施例僅僅是示例性的,對于優(yōu)先級的具體劃分標(biāo)準(zhǔn)不做限定。
S106,按照所述優(yōu)先級自高至低的順序,在所述內(nèi)容生產(chǎn)者個人主頁中,爬取未爬取過的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)。
實(shí)際應(yīng)用中,在得到優(yōu)先級的劃分后進(jìn)行排序,優(yōu)先級越高的在爬取中優(yōu)先爬取。示例性的,ID為“aaa1”、“aaa2”、“aaa3”、“aaa4”、“aaa5”的內(nèi)容生產(chǎn)者經(jīng)過優(yōu)先級的排序,所得的優(yōu)先級順序?yàn)椋?級“aaa1”、2級“aaa4”、3級“aaa2”、4級“aaa3”、5級“aaa5”,在爬取開始時,先進(jìn)行與等級為1級的內(nèi)容生產(chǎn)者“aaa1”對應(yīng)的個人主頁http://www.xyz.com/ID=aaa1的數(shù)據(jù)爬取,依次為2級、3級等分別進(jìn)行爬取。本發(fā)明實(shí)施例提供的優(yōu)先級排序僅僅為示例性的,不構(gòu)成對本發(fā)明的限定。
優(yōu)先級越高往往在一定程度上反映信息越熱門、關(guān)注度越高,人們普遍獲得該信息的欲望越強(qiáng)烈,為盡早呈現(xiàn)給大眾,則優(yōu)先爬取優(yōu)先級高的信息,保證信息的及時性。
可見,應(yīng)用本發(fā)明圖3的實(shí)施例,在獲得內(nèi)容生產(chǎn)者的優(yōu)先級后,依據(jù)所確定的從高到低的優(yōu)先級在個人生產(chǎn)者主頁中實(shí)現(xiàn)順序爬取,以保證優(yōu)先級高的內(nèi)容生產(chǎn)者的信息可以優(yōu)先爬取。
圖4為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取裝置的一種結(jié)構(gòu)示意圖,可以包括獲得模塊201、第一確定模塊202、第一爬取模塊203。
獲得模塊201,用于預(yù)先獲得并存儲至少一個內(nèi)容生產(chǎn)者的標(biāo)識信息。
具體的,實(shí)際應(yīng)用中,所述獲得模塊201,具體用于:
從以關(guān)鍵詞進(jìn)行搜索的結(jié)果頁面中提取并存儲至少一個內(nèi)容生產(chǎn)者的標(biāo)識信息;
或
基于首頁深度爬取方案,從目標(biāo)網(wǎng)站中提取并存儲至少一個內(nèi)容生產(chǎn)者的標(biāo)識信息。
第一確定模塊202,用于根據(jù)至少一個所述內(nèi)容生產(chǎn)者的標(biāo)識信息,確定至少一個與所述內(nèi)容生產(chǎn)者一一對應(yīng)的內(nèi)容生產(chǎn)者個人主頁。
第一爬取模塊203,用于針對每一個內(nèi)容生產(chǎn)者,分別在其內(nèi)容生產(chǎn)者個人主頁中,爬取所述內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù)。
可見,應(yīng)用本發(fā)明圖4所示的實(shí)施例,在獲得內(nèi)容生產(chǎn)者的標(biāo)識信息后,根據(jù)該內(nèi)容生產(chǎn)者的標(biāo)志信息即可爬取到該內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù),從而爬取到全面的數(shù)據(jù)。
圖5為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取裝置的另一種結(jié)構(gòu)示意圖,本發(fā)明圖5所示實(shí)施例在圖4所示實(shí)施例的基礎(chǔ)上,增加第二確定模塊204和第二爬取模塊205。
第二確定模塊204,用于針對每一個內(nèi)容生產(chǎn)者,根據(jù)已爬取的所述內(nèi)容生產(chǎn)者生產(chǎn)的所有數(shù)據(jù),確定所述內(nèi)容生產(chǎn)者生產(chǎn)數(shù)據(jù)的頻率。
第二爬取模塊205,用于以所確定的頻率,在所述內(nèi)容生產(chǎn)者個人主頁中,爬取未爬取過的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)。
可見,應(yīng)用本發(fā)明圖5所示的實(shí)施例,在獲得內(nèi)容生產(chǎn)者的數(shù)據(jù)生產(chǎn)頻率后,依據(jù)所確定的頻率在個人生產(chǎn)者主頁中實(shí)現(xiàn)增量爬取,在降低爬取頻率、減少爬取任務(wù)量的同時,保證能夠爬取到全面的數(shù)據(jù)。
圖6為本發(fā)明實(shí)施例提供的數(shù)據(jù)爬取裝置的再一種結(jié)構(gòu)示意圖,本發(fā)明圖6所示實(shí)施例在圖4所示實(shí)施例的基礎(chǔ)上,增加第三確定模塊206和第三爬取模塊207。
第三確定模塊206,用于根據(jù)用戶對已爬取的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)的評價信息,確定每一內(nèi)容生產(chǎn)者的優(yōu)先級。
第三爬取模塊207,用于按照所述優(yōu)先級自高至低的順序,在所述內(nèi)容生產(chǎn)者個人主頁中,爬取未爬取過的所述內(nèi)容生產(chǎn)者生產(chǎn)的數(shù)據(jù)。
可見,應(yīng)用本發(fā)明圖6所示的實(shí)施例,在獲得內(nèi)容生產(chǎn)者的優(yōu)先級后,依據(jù)所確定的從高到低的優(yōu)先級在個人生產(chǎn)者主頁中實(shí)現(xiàn)順序爬取,以保證優(yōu)先級高的內(nèi)容生產(chǎn)者的信息可以優(yōu)先爬取。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實(shí)體或者操作與另一個實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中的各個實(shí)施例均采用相關(guān)的方式描述,各個實(shí)施例之間相同相似的部分互相參見即可,每個實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處。尤其,對于裝置實(shí)施例而言,由于其基本相似于方法實(shí)施例,所以描述的比較簡單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述方法實(shí)施方式中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于計(jì)算機(jī)可讀取存儲介質(zhì)中,這里所稱得的存儲介質(zhì),如:ROM/RAM、磁碟、光盤等。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。