技術(shù)編號(hào):12465028
提示:您尚未登錄,請(qǐng)點(diǎn) 登 陸 后下載,如果您還沒(méi)有賬戶請(qǐng)點(diǎn) 注 冊(cè) ,登陸完成后,請(qǐng)刷新本頁(yè)查看技術(shù)詳細(xì)信息。本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種分布式爬蟲(chóng)引擎的URL抓取方法及系統(tǒng)。背景技術(shù)隨著互聯(lián)網(wǎng)信息爆炸式增長(zhǎng),用戶感興趣的信息淹沒(méi)于大量無(wú)關(guān)信息中,利用搜索引擎獲取感興趣的信息已經(jīng)成為人們獲取信息較為便捷的方式。作為搜索引擎基礎(chǔ)構(gòu)件之一的網(wǎng)絡(luò)爬蟲(chóng),需要直接面向互聯(lián)網(wǎng),不間斷的從互聯(lián)網(wǎng)上搜集信息,為搜索引擎提供數(shù)據(jù)來(lái)源。搜索的信息是否準(zhǔn)確均與網(wǎng)絡(luò)爬蟲(chóng)緊密相關(guān)。然而互聯(lián)網(wǎng)規(guī)模十分龐大,網(wǎng)站數(shù)目眾多,網(wǎng)頁(yè)數(shù)量幾千億,如此海量的數(shù)據(jù)對(duì)網(wǎng)絡(luò)爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)提出了更高的要求,構(gòu)件分布式網(wǎng)絡(luò)爬蟲(chóng)系統(tǒng)是一個(gè)有效...
注意:該技術(shù)已申請(qǐng)專利,請(qǐng)尊重研發(fā)人員的辛勤研發(fā)付出,在未取得專利權(quán)人授權(quán)前,僅供技術(shù)研究參考不得用于商業(yè)用途。
該專利適合技術(shù)人員進(jìn)行技術(shù)研發(fā)參考以及查看自身技術(shù)是否侵權(quán),增加技術(shù)思路,做技術(shù)知識(shí)儲(chǔ)備,不適合論文引用。
請(qǐng)注意,此類(lèi)技術(shù)沒(méi)有源代碼,用于學(xué)習(xí)研究技術(shù)思路。