技術(shù)總結(jié)
本發(fā)明公開了一種確定隱藏的URL的方法及裝置,涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,能夠基于網(wǎng)站的已知URL來確定出其隱藏的URL。本發(fā)明的方法主要包括:獲取網(wǎng)站的已知統(tǒng)一資源定位符URL的相關(guān)信息,所述已知URL為爬蟲能夠爬取到的URL,所述已知URL的相關(guān)信息包括用于擴(kuò)展URL的特征信息;根據(jù)所述已知URL的相關(guān)信息中用于擴(kuò)展URL的特征信息,對所述已知URL進(jìn)行擴(kuò)展,獲得擴(kuò)展后的URL;將所述擴(kuò)展后的URL發(fā)送給所述網(wǎng)站的服務(wù)器;根據(jù)所述服務(wù)器返回的結(jié)果,確定所述擴(kuò)展后的URL是否為所述網(wǎng)站隱藏的URL。本發(fā)明主要適用于利用爬蟲技術(shù)爬取網(wǎng)頁的場景中。
技術(shù)研發(fā)人員:王照旗
受保護(hù)的技術(shù)使用者:北京奇虎科技有限公司;北京奇安信科技有限公司
文檔號碼:201611206116
技術(shù)研發(fā)日:2016.12.23
技術(shù)公布日:2017.06.13