技術編號:6364565
提示:您尚未登錄,請點 登 陸 后下載,如果您還沒有賬戶請點 注 冊 ,登陸完成后,請刷新本頁查看技術詳細信息。本發(fā)明涉及互聯(lián)網(wǎng),尤其涉及一種用于抓取網(wǎng)站數(shù)據(jù)的技術。背景技術現(xiàn)有技術中,從數(shù)據(jù)提供網(wǎng)站抓取數(shù)據(jù)一般需要針對每個網(wǎng)站單獨執(zhí)行一個腳本,但是當數(shù)據(jù)提供網(wǎng)站數(shù)量較多時,需要維護多套抓取腳本,因此腳本維護成本較高,數(shù)據(jù)抓取效率不高;同時,在數(shù)據(jù)提供網(wǎng)站設置分類信息后,在其服務器端會存有最后一次設置分類信息的cookie信息,但由于傳統(tǒng)數(shù)據(jù)抓取一般采用廣度優(yōu)先的抓取方式,且在同一頁面中更換分類信息時,該頁面鏈接的統(tǒng)一資源定位符(URL)不會改變,使得在訪問同一頁面...
注意:該技術已申請專利,請尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權人授權前,僅供技術研究參考不得用于商業(yè)用途。
該專利適合技術人員進行技術研發(fā)參考以及查看自身技術是否侵權,增加技術思路,做技術知識儲備,不適合論文引用。
請注意,此類技術沒有源代碼,用于學習研究技術思路。