本發(fā)明涉及大數(shù)據(jù)應(yīng)用與分析領(lǐng)域,特別涉及一種網(wǎng)絡(luò)數(shù)據(jù)分類式采集方法及裝置。
背景技術(shù):
:如今大數(shù)據(jù)時(shí)代悄然興起,網(wǎng)絡(luò)上充斥著大量的公開(kāi)信息,而且大型互聯(lián)網(wǎng)站比比皆是,因此這些網(wǎng)站成為了數(shù)據(jù)采集工作的重點(diǎn)對(duì)象。目前的數(shù)據(jù)采集方法為:在網(wǎng)站中找到所需數(shù)據(jù)對(duì)應(yīng)的列表頁(yè)面,由于信息量很大,該列表頁(yè)面包括很多分頁(yè),通過(guò)翻頁(yè)操作來(lái)對(duì)各個(gè)分頁(yè)對(duì)應(yīng)的數(shù)據(jù)進(jìn)行采集,其中,在針對(duì)每一個(gè)分頁(yè)進(jìn)行數(shù)據(jù)采集時(shí),需要逐條訪問(wèn)各個(gè)分頁(yè)中所列出的詳情頁(yè)鏈接,從而采集到網(wǎng)站上所有的所需數(shù)據(jù)。然而對(duì)于大型的互聯(lián)網(wǎng)站,其數(shù)據(jù)總量過(guò)大,以及受硬件環(huán)境的制約,網(wǎng)站上一般只會(huì)顯示一部分?jǐn)?shù)據(jù),現(xiàn)有的采集方式是針對(duì)顯示出的詳情頁(yè)鏈接進(jìn)行數(shù)據(jù)采集的,因此,無(wú)法實(shí)現(xiàn)網(wǎng)站信息的全部覆蓋,從而造成數(shù)據(jù)漏采問(wèn)題。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)數(shù)據(jù)分類式采集方法及裝置,能夠有效地解決現(xiàn)有技術(shù)中數(shù)據(jù)漏采的問(wèn)題。第一方面,本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)數(shù)據(jù)分類式采集方法包括:確定待采集數(shù)據(jù),并確定所述待采集數(shù)據(jù)對(duì)應(yīng)的至少一個(gè)分類參數(shù);確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值;根據(jù)每一個(gè)分類參數(shù)和對(duì)應(yīng)的參數(shù)值,生成各個(gè)分類參數(shù)分別對(duì)應(yīng)的入口鏈接;針對(duì)每一個(gè)入口鏈接,逐個(gè)采集相應(yīng)分類參數(shù)所對(duì)應(yīng)的數(shù)據(jù)。優(yōu)選地,所述確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值,包括:確定所述待采集數(shù)據(jù)所在的目標(biāo)網(wǎng)站;用于在所述目標(biāo)網(wǎng)站中獲取所述待采集數(shù)據(jù)對(duì)應(yīng)的列表頁(yè)面;在所述列表頁(yè)面中逐個(gè)選擇每一個(gè)分類參數(shù),得到每一個(gè)分類參數(shù)對(duì)應(yīng)的分類鏈接;根據(jù)得到的各個(gè)分類鏈接,確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值。優(yōu)選地,所述確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值,包括:獲取預(yù)先存儲(chǔ)的針對(duì)所述待采集數(shù)據(jù)的目標(biāo)參數(shù)列表;根據(jù)所述目標(biāo)參數(shù)列表存儲(chǔ)的對(duì)應(yīng)關(guān)系,確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值。優(yōu)選地,所述根據(jù)每一個(gè)分類參數(shù)和對(duì)應(yīng)的參數(shù)值,生成各個(gè)分類參數(shù)分別對(duì)應(yīng)的入口鏈接,包括:分別針對(duì)每一個(gè)當(dāng)前分類參數(shù)及對(duì)應(yīng)的當(dāng)前參數(shù)值,執(zhí)行如下操作:將所述當(dāng)前分類參數(shù)、當(dāng)前參數(shù)值以及設(shè)定的字符按設(shè)定形式進(jìn)行拼接;將拼接后的內(nèi)容添加到所述當(dāng)前分類參數(shù)對(duì)應(yīng)的分類鏈接中,得到所述當(dāng)前分類參數(shù)對(duì)應(yīng)的入口鏈接。優(yōu)選地,所述針對(duì)每一個(gè)入口鏈接,逐個(gè)采集相應(yīng)分類參數(shù)所對(duì)應(yīng)的數(shù)據(jù),包括:針對(duì)每一個(gè)當(dāng)前入口鏈接,分別進(jìn)行如下操作:獲取所述當(dāng)前入口鏈接對(duì)應(yīng)的目標(biāo)列表頁(yè)面;所述目標(biāo)列表頁(yè)面中包括至少一個(gè)分頁(yè)頁(yè)面;對(duì)每一個(gè)分頁(yè)頁(yè)面中的詳情鏈接進(jìn)行訪問(wèn),并對(duì)訪問(wèn)的詳情鏈接進(jìn)行數(shù)據(jù)采集。第二方面,本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)數(shù)據(jù)分類式采集裝置,包括:第一確定單元,用于確定待采集數(shù)據(jù),并確定所述待采集數(shù)據(jù)對(duì)應(yīng)的至少一個(gè)分類參數(shù);第二確定單元,用于確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值;生成單元,用于根據(jù)每一個(gè)分類參數(shù)和對(duì)應(yīng)的參數(shù)值,生成各個(gè)分類參數(shù)分別對(duì)應(yīng)的入口鏈接;采集單元,用于針對(duì)每一個(gè)入口鏈接,逐個(gè)采集相應(yīng)分類參數(shù)所對(duì)應(yīng)的數(shù)據(jù)。優(yōu)選地,所述第二確定單元,包括:第一確定子單元,用于確定所述待采集數(shù)據(jù)所在的目標(biāo)網(wǎng)站;第一獲取子單元,用于在所述目標(biāo)網(wǎng)站中獲取所述待采集數(shù)據(jù)對(duì)應(yīng)的列表頁(yè)面;選擇子單元,用于在所述列表頁(yè)面中逐個(gè)選擇每一個(gè)分類參數(shù),得到每一個(gè)分類參數(shù)對(duì)應(yīng)的分類鏈接;第二確定子單元,用于根據(jù)得到的各個(gè)分類鏈接,確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值。優(yōu)選地,所述第二確定單元,包括:第二獲取子單元,用于獲取預(yù)先存儲(chǔ)的針對(duì)所述待采集數(shù)據(jù)的目標(biāo)參數(shù)列表;第三確定子單元,用于根據(jù)所述目標(biāo)參數(shù)列表存儲(chǔ)的對(duì)應(yīng)關(guān)系,確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值。優(yōu)選地,所述生成單元,具體用于分別針對(duì)每一個(gè)當(dāng)前分類參數(shù)及對(duì)應(yīng)的當(dāng)前參數(shù)值,執(zhí)行如下操作:將所述當(dāng)前分類參數(shù)、當(dāng)前參數(shù)值以及設(shè)定的字符按設(shè)定形式進(jìn)行拼接;將拼接后的內(nèi)容添加到所述當(dāng)前分類參數(shù)對(duì)應(yīng)的分類鏈接中,得到所述當(dāng)前分類參數(shù)對(duì)應(yīng)的入口鏈接。優(yōu)選地,所述采集單元,具體用于針對(duì)每一個(gè)當(dāng)前入口鏈接,分別進(jìn)行如下操作:獲取所述當(dāng)前入口鏈接對(duì)應(yīng)的目標(biāo)列表頁(yè)面;所述目標(biāo)列表頁(yè)面中包括至少一個(gè)分頁(yè)頁(yè)面;對(duì)每一個(gè)分頁(yè)頁(yè)面中的詳情鏈接進(jìn)行訪問(wèn),并對(duì)訪問(wèn)的詳情鏈接進(jìn)行數(shù)據(jù)采集。本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)數(shù)據(jù)分類式采集方法及裝置,通過(guò)確定待采集數(shù)據(jù)的至少一個(gè)分類參數(shù),以將待采集數(shù)據(jù)進(jìn)行分類,利用每一個(gè)分類參數(shù)和相應(yīng)的參數(shù)值拼接成入口鏈接,通過(guò)訪問(wèn)該入口鏈接可以展示出對(duì)應(yīng)該入口鏈接的列表頁(yè)面,由于每一個(gè)分類對(duì)應(yīng)的列表頁(yè)面內(nèi)容較少,因此,即使網(wǎng)站對(duì)顯示頁(yè)數(shù)有限制,每一個(gè)分類的列表頁(yè)面也可能會(huì)完全顯示,通過(guò)對(duì)顯示的列表頁(yè)面進(jìn)行數(shù)據(jù)采集,從而能夠?qū)崿F(xiàn)防止數(shù)據(jù)漏采的功能。附圖說(shuō)明為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是本發(fā)明一個(gè)實(shí)施例提供的一種網(wǎng)絡(luò)數(shù)據(jù)分類式采集方法流程圖;圖2是本發(fā)明一個(gè)實(shí)施例提供的另一種網(wǎng)絡(luò)數(shù)據(jù)分類式采集方法流程圖;圖3是是本發(fā)明一個(gè)實(shí)施例提供的裝置所在設(shè)備的硬件架構(gòu)圖;圖4是本發(fā)明一個(gè)實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)分類式采集裝置結(jié)構(gòu)圖。具體實(shí)施方式為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例,基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。如圖1所示,本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)數(shù)據(jù)分類式采集方法,該方法可以包括以下步驟:步驟101:確定待采集數(shù)據(jù),并確定所述待采集數(shù)據(jù)對(duì)應(yīng)的至少一個(gè)分類參數(shù);步驟102:確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值;步驟103:根據(jù)每一個(gè)分類參數(shù)和對(duì)應(yīng)的參數(shù)值,生成各個(gè)分類參數(shù)分別對(duì)應(yīng)的入口鏈接;步驟104:針對(duì)每一個(gè)入口鏈接,逐個(gè)采集相應(yīng)分類參數(shù)所對(duì)應(yīng)的數(shù)據(jù)。本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)數(shù)據(jù)分類式采集方法,通過(guò)確定待采集數(shù)據(jù)的至少一個(gè)分類參數(shù),以將待采集數(shù)據(jù)進(jìn)行分類,利用每一個(gè)分類參數(shù)和相應(yīng)的參數(shù)值拼接成入口鏈接,通過(guò)訪問(wèn)該入口鏈接可以展示出對(duì)應(yīng)該入口鏈接的列表頁(yè)面,由于每一個(gè)分類對(duì)應(yīng)的列表頁(yè)面內(nèi)容較少,因此,即使網(wǎng)站對(duì)顯示頁(yè)數(shù)有限制,每一個(gè)分類的列表頁(yè)面也可能會(huì)完全顯示,通過(guò)對(duì)顯示的列表頁(yè)面進(jìn)行數(shù)據(jù)采集,從而能夠?qū)崿F(xiàn)防止數(shù)據(jù)漏采的功能。在本發(fā)明一個(gè)實(shí)施例中,為了使采集過(guò)程全面而且條理清晰,所述確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值,包括:確定所述待采集數(shù)據(jù)所在的目標(biāo)網(wǎng)站;在所述目標(biāo)網(wǎng)站中獲取所述待采集數(shù)據(jù)對(duì)應(yīng)的列表頁(yè)面;在所述列表頁(yè)面中逐個(gè)選擇每一個(gè)分類參數(shù),得到每一個(gè)分類參數(shù)對(duì)應(yīng)的分類鏈接;根據(jù)得到的各個(gè)分類鏈接,確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值。例如,待采集數(shù)據(jù)是美團(tuán)上北京地區(qū)的所有麥當(dāng)勞的數(shù)據(jù)信息,首先確定待采集數(shù)據(jù)所在的目標(biāo)網(wǎng)站是美團(tuán),將“麥當(dāng)勞”作為確定的分類參數(shù),其次打開(kāi)美團(tuán)的首頁(yè),在當(dāng)前首頁(yè)的搜索欄中輸入北京,系統(tǒng)會(huì)生成一個(gè)列表頁(yè)面,然后在所述的列表頁(yè)面中,找到麥當(dāng)勞選項(xiàng)并點(diǎn)擊,系統(tǒng)會(huì)生成一個(gè)與美團(tuán)上北京地區(qū)的麥當(dāng)勞對(duì)應(yīng)的列表頁(yè)面,最終在當(dāng)前所述的列表頁(yè)面中獲取麥當(dāng)勞對(duì)應(yīng)的分類鏈接,從而獲取到“麥當(dāng)勞”對(duì)應(yīng)的參數(shù)值。例如,得到的分類鏈接為:http://bj.meituan.com/shops/?w=%E9%BA%A6%E5%BD%93%E5%8A%B3&mtt=1,那么可以將該分類鏈接中的1作為該分類參數(shù)“麥當(dāng)勞”的參數(shù)值。通過(guò)在分類參數(shù)對(duì)應(yīng)的當(dāng)前鏈接中獲取到每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值,利用分類參數(shù)以及對(duì)應(yīng)的參數(shù)值可以將大型網(wǎng)站的全部數(shù)據(jù)進(jìn)行分類,可以避免由于網(wǎng)站顯示不全造成的數(shù)據(jù)漏采問(wèn)題。同時(shí),這種分類方法及參數(shù)值的獲取方式具有很好的適用性,操作簡(jiǎn)便,當(dāng)待采集數(shù)據(jù)的分類個(gè)數(shù)較少時(shí),可以簡(jiǎn)單方便的獲取每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值。在本發(fā)明一個(gè)實(shí)施例中,為了使采集過(guò)程全面而且條理清晰,所述確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值,包括:獲取預(yù)先存儲(chǔ)的針對(duì)所述待采集數(shù)據(jù)的目標(biāo)參數(shù)列表;根據(jù)所述目標(biāo)參數(shù)列表存儲(chǔ)的對(duì)應(yīng)關(guān)系,確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值。當(dāng)待采集數(shù)據(jù)的分類情況較多時(shí),例如,待采集數(shù)據(jù)是北京地區(qū)的麥當(dāng)勞、肯德基和味多美等數(shù)據(jù)信息,可首先通過(guò)獲取目標(biāo)參數(shù)列表,之后在目標(biāo)參數(shù)列表中找到分類參數(shù)與參數(shù)值的對(duì)應(yīng)關(guān)系。例如,該對(duì)應(yīng)關(guān)系可以包括如下表1:表1:分類參數(shù)參數(shù)值麥當(dāng)勞1肯德基2味多美3…………由表1中的對(duì)應(yīng)關(guān)系可以得到,“麥當(dāng)勞”對(duì)應(yīng)的參數(shù)值為1,“肯德基”對(duì)應(yīng)的參數(shù)值為2,“味多美”對(duì)應(yīng)的參數(shù)值為3。通過(guò)這種方式可以很快的得到每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值,尤其是當(dāng)待采集數(shù)據(jù)的分類較多時(shí),可以將每一個(gè)分類參數(shù)及其參數(shù)值的對(duì)應(yīng)關(guān)系調(diào)用出來(lái),能夠在數(shù)據(jù)采集的過(guò)程中節(jié)約一部分時(shí)間。在本發(fā)明一個(gè)實(shí)施例中,為了能夠?qū)崿F(xiàn)防止數(shù)據(jù)漏采的功能,所述根據(jù)每一個(gè)分類參數(shù)和對(duì)應(yīng)的參數(shù)值,生成各個(gè)分類參數(shù)分別對(duì)應(yīng)的入口鏈接,包括:分別針對(duì)每一個(gè)當(dāng)前分類參數(shù)及對(duì)應(yīng)的當(dāng)前參數(shù)值,執(zhí)行如下操作:將所述當(dāng)前分類參數(shù)、當(dāng)前參數(shù)值以及設(shè)定的字符按設(shè)定形式進(jìn)行拼接;將拼接后的內(nèi)容添加到所述當(dāng)前分類參數(shù)對(duì)應(yīng)的分類鏈接中,得到所述當(dāng)前分類參數(shù)對(duì)應(yīng)的入口鏈接。其中,該添加內(nèi)容形式也可以根據(jù)用戶需求來(lái)設(shè)定。例如,該添加形式為:先將分類參數(shù)、參數(shù)值和設(shè)定字符按照設(shè)定形式進(jìn)行拼接,之后將拼接的內(nèi)容添加到當(dāng)前分類鏈接的最后面。以分類參數(shù)為“麥當(dāng)勞”、參數(shù)值為“1”、設(shè)定字符為“&=”、設(shè)定形式為“分類參數(shù)、設(shè)定字符、參數(shù)值依次拼接”、當(dāng)前分類鏈接為“http://bj.meituan.com/shops/&mtt=1”為例,拼接后的內(nèi)容為“麥當(dāng)勞&=1”,得到的當(dāng)前分類參數(shù)對(duì)應(yīng)的入口鏈接為http://bj.meituan.com/shops/&mtt=1麥當(dāng)勞&=1。利用分類參數(shù)、參數(shù)值和設(shè)定字符生成的入口鏈接,覆蓋了當(dāng)前分類參數(shù)對(duì)應(yīng)的全部網(wǎng)站數(shù)據(jù)信息,通過(guò)訪問(wèn)當(dāng)前入口鏈接,而不是像傳統(tǒng)數(shù)據(jù)采集過(guò)程中訪問(wèn)網(wǎng)站上顯示的部分?jǐn)?shù)據(jù),因而可以采集到當(dāng)前分類參數(shù)對(duì)應(yīng)的全部數(shù)據(jù),防止了數(shù)據(jù)漏采的問(wèn)題。下面將北京的工作作為待采集數(shù)據(jù)為例,對(duì)本發(fā)明實(shí)施例中的網(wǎng)絡(luò)數(shù)據(jù)分類式采集方法進(jìn)行詳細(xì)說(shuō)明,如圖2所示,本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)數(shù)據(jù)分類式采集方法,該方法可以包括:步驟201:確定待采集數(shù)據(jù)為北京的工作。在本步驟中,一般的待采集數(shù)據(jù)會(huì)以文本的形式給出,只有先確定所述待采集數(shù)據(jù),之后才能對(duì)其進(jìn)行分類,從而確定所述待采集數(shù)據(jù)的至少一個(gè)分類參數(shù)。因此,首先獲取到該文本信息,然后仔細(xì)閱讀所給文本內(nèi)容,最終確定待采集數(shù)據(jù)。本發(fā)明實(shí)施例中的待采集數(shù)據(jù)確定為北京的工作。步驟202:確定北京的工作數(shù)據(jù)信息對(duì)應(yīng)的至少一個(gè)分類參數(shù)。在本步驟中,確定待采集數(shù)據(jù)之后,完成對(duì)所述待采集數(shù)據(jù)的分類,從而確定所述待采集數(shù)據(jù)的至少一個(gè)分類參數(shù),為后續(xù)相應(yīng)的參數(shù)值獲取奠定基礎(chǔ)。其中,對(duì)北京地區(qū)的工作數(shù)據(jù)進(jìn)行分類時(shí),分類參數(shù)的個(gè)數(shù)及類別可依照用戶需求進(jìn)行設(shè)定,但分類參數(shù)的個(gè)數(shù)至少為一個(gè),例如,北京地區(qū)的工作劃可劃分為四類,分別是“國(guó)企”、“本科”、“薪資”和“工作經(jīng)驗(yàn)”。本發(fā)明實(shí)施例中以分類參數(shù)為“國(guó)企”、“本科”為例,將北京地區(qū)的工作劃分為這兩類。步驟203:確定所述待采集數(shù)據(jù)所在的目標(biāo)網(wǎng)站為智聯(lián)招聘網(wǎng)站。在本步驟中,確定所述待采集數(shù)據(jù)對(duì)應(yīng)的至少一個(gè)分類參數(shù)之后,分類參數(shù)以“國(guó)企”、“本科”為例,為獲取每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值,首先應(yīng)根據(jù)確定的待采集數(shù)據(jù),確定所述待采集數(shù)據(jù)所在的目標(biāo)網(wǎng)站。其中,該目標(biāo)網(wǎng)站可以是任意的招聘網(wǎng)站,也可以根據(jù)用戶需求來(lái)選擇,例如“智聯(lián)招聘”、“前程無(wú)憂”和“大街網(wǎng)”。本發(fā)明實(shí)施例中以“智聯(lián)招聘”作為目標(biāo)網(wǎng)站。步驟204:在所述智聯(lián)招聘網(wǎng)站中獲取北京的工作所對(duì)應(yīng)的列表頁(yè)面。在本步驟中,確定所述待采集數(shù)據(jù)的目標(biāo)網(wǎng)站為智聯(lián)招聘之后,首先應(yīng)打開(kāi)該智聯(lián)招聘網(wǎng)站,然后在智聯(lián)招聘網(wǎng)站上通過(guò)輸入關(guān)鍵字,其中,該關(guān)鍵字為北京,獲取到網(wǎng)站上北京地區(qū)工作對(duì)應(yīng)的列表頁(yè)面,所述列表頁(yè)面中的數(shù)據(jù)是網(wǎng)站上顯示的部分北京地區(qū)的工作數(shù)據(jù)。步驟205:在所述列表頁(yè)面中逐個(gè)選擇每一個(gè)分類參數(shù),得到每一個(gè)分類參數(shù)對(duì)應(yīng)的分類鏈接。在本步驟中,獲取到目標(biāo)網(wǎng)站中待采集數(shù)據(jù)對(duì)應(yīng)的列表頁(yè)面之后,為獲取每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值,可通過(guò)生成每一個(gè)分類參數(shù)對(duì)應(yīng)的相應(yīng)鏈接的形式獲得。以分類參數(shù)為“國(guó)企”和“本科”、北京地區(qū)工作所對(duì)應(yīng)列表頁(yè)面的鏈接為“http://sou.zhaopin.com/jobs/=&sm=0&isfilter=1&p=1&ct=-1”為例,在當(dāng)前鏈接下的列表頁(yè)面中,找到公司性質(zhì)及學(xué)歷要求的分類項(xiàng),一般是在列表頁(yè)面的頂部或一側(cè),然后在這兩個(gè)分類項(xiàng)中分別點(diǎn)擊國(guó)企和本科,系統(tǒng)會(huì)依據(jù)每一個(gè)分類參數(shù)生成當(dāng)前分類參數(shù)下的列表頁(yè)面,最終會(huì)獲取到分類參數(shù)“國(guó)企”對(duì)應(yīng)下的列表頁(yè)面的鏈接為http://sou.zhaopin.com/jobs/sm=0&isfilter=1&p=1&ct=1,分類參數(shù)“本科”對(duì)應(yīng)下的列表頁(yè)面的鏈接為http://sou.zhaopin.com/jobs/=&sm=0&ct=-1&isfilter=1&p=1&el=4。步驟206:根據(jù)得到的國(guó)企、本科對(duì)應(yīng)的鏈接,確定國(guó)企、本科分別對(duì)應(yīng)的參數(shù)值。在本步驟中,可在網(wǎng)站的列表頁(yè)面的鏈接中獲取到每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值??蛇x地,獲取分類參數(shù)對(duì)應(yīng)的參數(shù)值的另一種方式為:通過(guò)鍵盤(pán)上的快捷鍵來(lái)獲取目標(biāo)網(wǎng)站上各個(gè)分類參數(shù)和相應(yīng)參數(shù)值的對(duì)應(yīng)關(guān)系,通過(guò)該對(duì)應(yīng)關(guān)系確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值。在目標(biāo)網(wǎng)站構(gòu)建時(shí),可以將各個(gè)分類參數(shù)和相應(yīng)參數(shù)值的對(duì)應(yīng)關(guān)系進(jìn)行存儲(chǔ),用戶可以直接獲取到該存儲(chǔ)的對(duì)應(yīng)關(guān)系。其中,該快捷鍵可以是開(kāi)發(fā)人員在進(jìn)行軟件開(kāi)發(fā)時(shí)設(shè)置的,例如,該快捷鍵為F12。步驟207:拼成入口鏈接。在本步驟中,若在網(wǎng)站上對(duì)數(shù)據(jù)信息進(jìn)行采集,需生成與分類參數(shù)相應(yīng)的入口鏈接,為接下來(lái)訪問(wèn)相應(yīng)的鏈接奠定基礎(chǔ),同時(shí)本步驟中生成的入口鏈接是以獲取到的分類參數(shù)以及與之對(duì)應(yīng)的參數(shù)值為基礎(chǔ)的,因此可以覆蓋到網(wǎng)站上所有待采集數(shù)據(jù)的內(nèi)容,從而可以使得采集過(guò)程全面而條理清晰,防止數(shù)據(jù)漏采的問(wèn)題。具體實(shí)現(xiàn)形式是:將至少一個(gè)分類參數(shù)、參數(shù)值以及設(shè)定的字符按照設(shè)定形式進(jìn)行拼接,之后將拼接后的內(nèi)容添加到當(dāng)前分類參數(shù)對(duì)應(yīng)的當(dāng)前鏈接中,從而獲取到當(dāng)前分類參數(shù)下的入口鏈接。其中,該設(shè)定的字符可以為任意字符,且字符個(gè)數(shù)可以為至少一個(gè)。例如,該設(shè)定的字符為“&”;再如,該設(shè)定的字符為“%&”。進(jìn)一步地,該設(shè)定形式也可以根據(jù)用戶需求來(lái)設(shè)定,例如,該設(shè)定形式為分類參數(shù)、字符和參數(shù)值依次拼接,以設(shè)定字符為“&”、分類參數(shù)為“國(guó)企”、參數(shù)值為“1”為例,拼接后的內(nèi)容為“國(guó)企&1”。更進(jìn)一步地,拼接內(nèi)容的添加形式也可以根據(jù)用戶需求來(lái)設(shè)定,例如,該添加形式為:將拼接內(nèi)容置于該分類參數(shù)當(dāng)前鏈接中的參數(shù)值前面。以分類參數(shù)為“國(guó)企”、“國(guó)企”對(duì)應(yīng)的當(dāng)前鏈接為“http://sou.zhaopin.com/jobs/sm=0&isfilter=1&p=1&ct=1”為例,獲取到“國(guó)企”對(duì)應(yīng)的入口鏈接為http://sou.zhaopin.com/jobs/sm=0&isfilter=1&p=1&ct=國(guó)企&11。步驟208:針對(duì)生成的兩個(gè)入口鏈接,逐個(gè)采集相應(yīng)分類參數(shù)所對(duì)應(yīng)的數(shù)據(jù)。本步驟主要是通過(guò)訪問(wèn)生成的入口鏈接,在網(wǎng)站數(shù)據(jù)全部覆蓋的基礎(chǔ)之上,最終全面的采集相應(yīng)分類參數(shù)對(duì)應(yīng)的數(shù)據(jù)。具體包括:獲取所述當(dāng)前入口鏈接對(duì)應(yīng)的目標(biāo)列表頁(yè)面;所述目標(biāo)列表頁(yè)面中包括至少一個(gè)分頁(yè)頁(yè)面;對(duì)每一個(gè)分頁(yè)頁(yè)面中的詳情鏈接進(jìn)行訪問(wèn),并對(duì)訪問(wèn)的詳情鏈接進(jìn)行數(shù)據(jù)采集。以分類參數(shù)“國(guó)企”對(duì)應(yīng)的入口鏈接為“http://sou.zhaopin.com/jobs/sm=0&isfilter=1&p=1&ct=國(guó)企&11”、“本科”對(duì)應(yīng)的入口鏈接為“http://sou.zhaopin.com/jobs/=&sm=0&ct=-1&isfilter=1&p=1&el=4本科&22”為例,首先對(duì)這兩個(gè)鏈接進(jìn)行依次訪問(wèn),系統(tǒng)會(huì)分別針對(duì)這兩個(gè)入口鏈接自動(dòng)生成兩個(gè)相應(yīng)的列表頁(yè)面。其中,由于采集的信息量大,所以每個(gè)列表頁(yè)面會(huì)有很多列表分頁(yè)面,例如“國(guó)企”對(duì)應(yīng)的全部工作數(shù)據(jù)信息共有20頁(yè),“本科”對(duì)應(yīng)的全部工作數(shù)據(jù)信息共有30頁(yè),然后針對(duì)所述生成的列表分頁(yè)面,按照翻頁(yè)的形式依次進(jìn)行訪問(wèn)。例如,以分類參數(shù)為“國(guó)企”生成的全部數(shù)據(jù)的列表頁(yè)面為例,可以從1至20頁(yè)依次對(duì)每一頁(yè)進(jìn)行訪問(wèn)。進(jìn)一步地,通過(guò)對(duì)國(guó)企和本科的列表分頁(yè)面的詳情鏈接進(jìn)行訪問(wèn),獲取到當(dāng)前分類下的全部數(shù)據(jù)信息。同樣的,以分類參數(shù)為“國(guó)企”生成的全部數(shù)據(jù)的列表頁(yè)面為例,在獲取到1至20頁(yè)的所有列表頁(yè)面之后,分別對(duì)每一頁(yè)上的每一條詳情鏈接進(jìn)行訪問(wèn),最終采集到所有北京地區(qū)國(guó)企的工作信息。如圖3、圖4所示,本發(fā)明實(shí)施例提供了一種網(wǎng)絡(luò)數(shù)據(jù)分類式采集裝置。裝置實(shí)施例可以通過(guò)軟件實(shí)現(xiàn),也可以通過(guò)硬件或者軟硬件結(jié)合的方式實(shí)現(xiàn)。從硬件層面而言,如圖3所示,為本發(fā)明實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)分類式采集裝置所在設(shè)備的一種硬件結(jié)構(gòu)圖,除了圖3所示的處理器、內(nèi)存、網(wǎng)絡(luò)接口、以及非易失性存儲(chǔ)器之外,實(shí)施例中裝置所在的設(shè)備通常還可以包括其他硬件,如負(fù)責(zé)處理報(bào)文的轉(zhuǎn)發(fā)芯片等等。以軟件實(shí)現(xiàn)為例,如圖4所示,作為一個(gè)邏輯意義上的裝置,是通過(guò)其所在設(shè)備的CPU將非易失性存儲(chǔ)器中對(duì)應(yīng)的計(jì)算機(jī)程序指令讀取到內(nèi)存中運(yùn)行形成的。本實(shí)施例提供的網(wǎng)絡(luò)數(shù)據(jù)分類式采集裝置,包括:第一確定單元401,用于確定待采集數(shù)據(jù),并確定所述待采集數(shù)據(jù)對(duì)應(yīng)的至少一個(gè)分類參數(shù);第二確定單元402,用于確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值;生成單元403,用于根據(jù)每一個(gè)分類參數(shù)和對(duì)應(yīng)的參數(shù)值,生成各個(gè)分類參數(shù)分別對(duì)應(yīng)的入口鏈接;采集單元404,用于針對(duì)每一個(gè)入口鏈接,逐個(gè)采集相應(yīng)分類參數(shù)所對(duì)應(yīng)的數(shù)據(jù)。在本發(fā)明一個(gè)實(shí)施例中,所述第二確定單元402,包括:第一確定子單元,用于確定所述待采集數(shù)據(jù)所在的目標(biāo)網(wǎng)站;第一獲取子單元,用于在所述目標(biāo)網(wǎng)站中獲取所述待采集數(shù)據(jù)對(duì)應(yīng)的列表頁(yè)面;選擇子單元,用于在所述列表頁(yè)面中逐個(gè)選擇每一個(gè)分類參數(shù),得到每一個(gè)分類參數(shù)對(duì)應(yīng)的分類鏈接;第二確定子單元,用于根據(jù)得到的各個(gè)分類鏈接,確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值。在本發(fā)明一個(gè)實(shí)施例中,所述第二確定單元402,包括:第二獲取子單元,用于獲取預(yù)先存儲(chǔ)的針對(duì)所述待采集數(shù)據(jù)的目標(biāo)參數(shù)列表;第三確定子單元,用于根據(jù)所述目標(biāo)參數(shù)列表存儲(chǔ)的對(duì)應(yīng)關(guān)系,確定每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值。在本發(fā)明一個(gè)實(shí)施例中,所述生成單元403,具體用于:分別針對(duì)每一個(gè)當(dāng)前分類參數(shù)及對(duì)應(yīng)的當(dāng)前參數(shù)值,執(zhí)行如下操作:將所述當(dāng)前分類參數(shù)、當(dāng)前參數(shù)值以及設(shè)定的字符按設(shè)定形式進(jìn)行拼接;將拼接后的內(nèi)容添加到所述當(dāng)前分類參數(shù)對(duì)應(yīng)的分類鏈接中,得到所述當(dāng)前分類參數(shù)對(duì)應(yīng)的入口鏈接。在本發(fā)明一個(gè)實(shí)施例中,所述采集單元404,具體用于:針對(duì)每一個(gè)當(dāng)前入口鏈接,分別進(jìn)行如下操作:獲取所述當(dāng)前入口鏈接對(duì)應(yīng)的目標(biāo)列表頁(yè)面;所述目標(biāo)列表頁(yè)面中包括至少一個(gè)分頁(yè)頁(yè)面;對(duì)每一個(gè)分頁(yè)頁(yè)面中的詳情鏈接進(jìn)行訪問(wèn),并對(duì)訪問(wèn)的詳情鏈接進(jìn)行數(shù)據(jù)采集。綜上,本發(fā)明各個(gè)實(shí)施例具有如下效果:1、在本發(fā)明實(shí)施例中,通過(guò)確定待采集數(shù)據(jù)的至少一個(gè)分類參數(shù),以將待采集數(shù)據(jù)進(jìn)行分類,利用每一個(gè)分類參數(shù)和相應(yīng)的參數(shù)值拼接成入口鏈接,通過(guò)訪問(wèn)該入口鏈接可以展示出對(duì)應(yīng)該入口鏈接的列表頁(yè)面,由于每一個(gè)分類對(duì)應(yīng)的列表頁(yè)面內(nèi)容較少,因此,即使網(wǎng)站對(duì)顯示頁(yè)數(shù)有限制,每一個(gè)分類的列表頁(yè)面也可能會(huì)完全顯示,通過(guò)對(duì)顯示的列表頁(yè)面進(jìn)行數(shù)據(jù)采集,從而能夠?qū)崿F(xiàn)防止數(shù)據(jù)漏采的功能。2、在本發(fā)明實(shí)施例中,通過(guò)在分類參數(shù)對(duì)應(yīng)的當(dāng)前鏈接中獲取到每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值,利用分類參數(shù)以及對(duì)應(yīng)的參數(shù)值可以將大型網(wǎng)站的全部數(shù)據(jù)進(jìn)行分類,可以避免由于網(wǎng)站顯示不全造成的數(shù)據(jù)漏采問(wèn)題。同時(shí),這種分類方法及參數(shù)值的獲取方式具有很好的適用性,操作簡(jiǎn)便,對(duì)于較少的分類時(shí),可以簡(jiǎn)單方便的獲取每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值。3、在本發(fā)明實(shí)施例中,通過(guò)目標(biāo)對(duì)應(yīng)參數(shù)列表得到每一個(gè)分類參數(shù)對(duì)應(yīng)的參數(shù)值,尤其是當(dāng)待采集數(shù)據(jù)的分類較多時(shí),可以將每一個(gè)分類參數(shù)及其參數(shù)值的對(duì)應(yīng)關(guān)系調(diào)用出來(lái),能夠在數(shù)據(jù)采集的過(guò)程中節(jié)約一部分時(shí)間。4、在本發(fā)明實(shí)施例中,利用分類參數(shù)、參數(shù)值和設(shè)定字符生成的入口鏈接,覆蓋了當(dāng)前分類參數(shù)對(duì)應(yīng)的全部網(wǎng)站數(shù)據(jù)信息,通過(guò)訪問(wèn)當(dāng)前入口鏈接,而不是像傳統(tǒng)數(shù)據(jù)采集過(guò)程中訪問(wèn)網(wǎng)站上顯示的部分?jǐn)?shù)據(jù),因而可以采集到當(dāng)前分類參數(shù)對(duì)應(yīng)的全部數(shù)據(jù),防止了數(shù)據(jù)漏采的問(wèn)題。上述裝置內(nèi)的各單元之間的信息交互、執(zhí)行過(guò)程等內(nèi)容,由于與本發(fā)明方法實(shí)施例基于同一構(gòu)思,具體內(nèi)容可參見(jiàn)本發(fā)明方法實(shí)施例中的敘述,此處不再贅述。需要說(shuō)明的是,在本文中,諸如第一和第二之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)〃·····”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同因素。本領(lǐng)域普通技術(shù)人員可以理解:實(shí)現(xiàn)上述方法實(shí)施例的全部或部分步驟可以通過(guò)程序指令相關(guān)的硬件來(lái)完成,前述的程序可以存儲(chǔ)在計(jì)算機(jī)可讀取的存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),執(zhí)行包括上述方法實(shí)施例的步驟;而前述的存儲(chǔ)介質(zhì)包括:ROM、RAM、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)中。最后需要說(shuō)明的是:以上所述僅為本發(fā)明的較佳實(shí)施例,僅用于說(shuō)明本發(fā)明的技術(shù)方案,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換、改進(jìn)等,均包含在本發(fā)明的保護(hù)范圍內(nèi)。當(dāng)前第1頁(yè)1 2 3