1.一種識(shí)別網(wǎng)頁(yè)欄目的方法,其特征在于,包括:
通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工具對(duì)目標(biāo)頁(yè)面進(jìn)行N次爬取,其中N為大于或等于1的正整數(shù);
從歷次采集的頁(yè)面代碼中提取超鏈接;
統(tǒng)計(jì)同一個(gè)超鏈接在N次爬取過(guò)程中出現(xiàn)的總次數(shù);
若所述總次數(shù)等于N的倍數(shù),則確定所述超鏈接指向的頁(yè)面內(nèi)容為網(wǎng)頁(yè)欄目。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法進(jìn)一步包括:
若所述總次數(shù)等于N,則確定所述超鏈接指向的頁(yè)面內(nèi)容為網(wǎng)頁(yè)欄目。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工具對(duì)目標(biāo)頁(yè)面進(jìn)行N次爬取,包括:
設(shè)定時(shí)間間隔T;
以所述時(shí)間間隔T為周期,對(duì)所述目標(biāo)頁(yè)面進(jìn)行N次爬取。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工具對(duì)目標(biāo)頁(yè)面進(jìn)行N次爬取,包括:
采用不同的爬蟲(chóng)方式對(duì)所述目標(biāo)頁(yè)面進(jìn)行N次爬取。
5.根據(jù)權(quán)利要求1至4中任一項(xiàng)所述的方法,其特征在于,在所述確定所述超鏈接指向的頁(yè)面內(nèi)容為網(wǎng)頁(yè)欄目之后,所述方法進(jìn)一步包括:
將確定為網(wǎng)頁(yè)欄目的頁(yè)面內(nèi)容添加到網(wǎng)頁(yè)欄目候選集合中;
通過(guò)預(yù)設(shè)的內(nèi)容特征規(guī)則,從網(wǎng)頁(yè)欄目候選集合中選取預(yù)定種類的網(wǎng)頁(yè)欄目。
6.一種識(shí)別網(wǎng)頁(yè)欄目的裝置,其特征在于,包括:
采集單元,用于通過(guò)網(wǎng)絡(luò)爬蟲(chóng)工具對(duì)目標(biāo)頁(yè)面進(jìn)行N次爬取,其中N為大于或等于1的正整數(shù);
提取單元,用于從所述采集單元?dú)v次采集的頁(yè)面代碼中提取超鏈接;
統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述提取單元提取的同一個(gè)超鏈接在N次爬取過(guò)程中出現(xiàn)的總次數(shù);
確定單元,用于當(dāng)所述統(tǒng)計(jì)單元統(tǒng)計(jì)的所述總次數(shù)等于N的倍數(shù)時(shí), 確定所述超鏈接指向的頁(yè)面內(nèi)容為網(wǎng)頁(yè)欄目。
7.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述確定單元,用于當(dāng)所述總次數(shù)等于N時(shí),確定所述超鏈接指向的頁(yè)面內(nèi)容為網(wǎng)頁(yè)欄目。
8.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述采集單元,用于:
設(shè)定時(shí)間間隔T;
以所述時(shí)間間隔T為周期,對(duì)所述目標(biāo)頁(yè)面進(jìn)行N次爬取。
9.根據(jù)權(quán)利要求6所述的裝置,其特征在于,所述采集單元,用于采用不同的爬蟲(chóng)方式對(duì)所述目標(biāo)頁(yè)面進(jìn)行N次爬取。
10.根據(jù)權(quán)利要求6至9中任一項(xiàng)所述的裝置,其特征在于,所述裝置進(jìn)一步包括:
添加單元,用于在所述確定單元確定所述超鏈接指向的頁(yè)面內(nèi)容為網(wǎng)頁(yè)欄目之后,將確定為網(wǎng)頁(yè)欄目的頁(yè)面內(nèi)容添加到網(wǎng)頁(yè)欄目候選集合中;
選取單元,用于通過(guò)預(yù)設(shè)的內(nèi)容特征規(guī)則,從所述添加單元獲得的網(wǎng)頁(yè)欄目候選集合中選取預(yù)定種類的網(wǎng)頁(yè)欄目。