亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、裝置及包含該裝置的瀏覽器的制造方法

文檔序號(hào):6487221閱讀:856來源:國(guó)知局
基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、裝置及包含該裝置的瀏覽器的制造方法
【專利摘要】本申請(qǐng)?zhí)峁┝艘环N基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、網(wǎng)頁爬取裝置及包含該裝置的瀏覽器。所述方法包括:從用戶獲取初始URL;利用瀏覽器內(nèi)核從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件;基于所述源代碼文件生成相應(yīng)的DOM樹;遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL;以及將所述靜態(tài)URL和動(dòng)態(tài)URL加入待爬URL隊(duì)列中。本申請(qǐng)的網(wǎng)頁爬取方法能夠支持各種網(wǎng)頁標(biāo)準(zhǔn),兼容各種不規(guī)范的網(wǎng)頁;通過事件觸發(fā)和HOOK手段能夠更多、更準(zhǔn)確的爬取URL。
【專利說明】基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、裝置及包含該裝置的瀏




Il^r OS.SaL 口口【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及信息檢索領(lǐng)域,尤其涉及基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、網(wǎng)頁爬取裝置及包含該網(wǎng)頁爬取裝置的瀏覽器。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)(World Wide Web,簡(jiǎn)稱Web)就是處在世界各地的計(jì)算機(jī)互相連接而成的一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)。網(wǎng)站的瀏覽者(用戶)坐在家中查看各種網(wǎng)站上的內(nèi)容,實(shí)際上就是從遠(yuǎn)程的計(jì)算機(jī)中讀取了一些內(nèi)容,然后在本地計(jì)算機(jī)上顯示出來的過程。因此,提供內(nèi)容信息的計(jì)算機(jī)就稱為“Web服務(wù)器”,用戶使用“瀏覽器”,例如集成在Windows操作系統(tǒng)中的Internet Explorer,就可以通過網(wǎng)絡(luò)取得Web服務(wù)器上的文件以及其他信息。
[0003]瀏覽器一般由兩部分組成:用戶界面和內(nèi)核,其中,用戶界面主要用于與用戶進(jìn)行交互,例如等,內(nèi)核作為瀏覽器的核心,主要負(fù)責(zé)取得網(wǎng)頁的內(nèi)容(HTML、XML、圖像等)、整理訊息(例如加入CSS等),計(jì)算網(wǎng)頁的顯示方式,解析Javascript語言,執(zhí)行Javascript語言代碼來實(shí)現(xiàn)網(wǎng)頁的動(dòng)態(tài)效果等。
[0004]當(dāng)用戶的計(jì)算機(jī)聯(lián)入互聯(lián)網(wǎng)后,用戶打開瀏覽器并在地址欄中輸入某個(gè)網(wǎng)站的地址,即URL (Uniform Resource Locator,統(tǒng)一資源定位符),瀏覽器內(nèi)核就會(huì)按照預(yù)定的通信協(xié)議,例如HTTP協(xié)議,向Web服務(wù)器發(fā)送請(qǐng)求,該請(qǐng)求中攜帶有用戶提供的URL,Web服務(wù)器響應(yīng)于瀏覽器內(nèi)核的請(qǐng)求,將與所述URL對(duì)應(yīng)的信息傳送到瀏覽器內(nèi)核,瀏覽器再將該信息呈現(xiàn)給用戶。
[0005]如何通過瀏覽器有效地從Web服務(wù)器獲取所需的網(wǎng)頁成為一個(gè)巨大的挑戰(zhàn)。目前瀏覽器主要基于以下兩種方案從Web服務(wù)器獲取用戶所需的網(wǎng)頁。
[0006]第一,正則匹配方案。在正則匹配方案中,瀏覽器內(nèi)核首先從Web服務(wù)器獲取URL對(duì)應(yīng)的網(wǎng)頁的源代碼文件,該源代碼文件通常是采用標(biāo)記語言,例如HTML語言編寫的。然后,將該源代碼文件作為一個(gè)長(zhǎng)字符串,用一系列預(yù)先定義的、被認(rèn)為可以匹配出URL的正則表達(dá)式分別去匹配該字符串。如果匹配成功,則認(rèn)為匹配到的是URL。
[0007]然而,正則匹配方案無法處理動(dòng)態(tài)構(gòu)造的URL,例如:
[0008]id=123;
[0009]url= “http://www.test, org/forum.php?id=,,+id;
[0010]此時(shí)正確的URL 為 “http://www.test, org/forum.php?id=123”,正則表達(dá)式則無
法處理。
[0011]第二,HTML解析庫方案。HTML解析庫是建立在正則表達(dá)式基礎(chǔ)上的,其首先通過正則表達(dá)式把網(wǎng)頁轉(zhuǎn)換成一系列標(biāo)簽,形成標(biāo)簽樹,再遍歷標(biāo)簽樹上的各個(gè)標(biāo)簽,找出可能包含URL的標(biāo)簽,判斷 標(biāo)簽是否有URL。但是,HTML解析庫方案也不能處理動(dòng)態(tài)URL的情況。例如:
[0012]<A href =,,javascript: window, open ( ‘http://www.test, com,),,>URL〈/A>[0013]基于HTML解析庫的爬取方法,往往會(huì)把A標(biāo)簽的href屬性的值作為一個(gè)發(fā)現(xiàn)的URL返回。

【發(fā)明內(nèi)容】

[0014]根據(jù)本申請(qǐng)的第一方面,提供了一種基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法,包括:從用戶獲取初始URL ;利用瀏覽器內(nèi)核從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件;基于所述源代碼文件生成相應(yīng)的DOM樹;遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL ;以及將所述靜態(tài)URL和動(dòng)態(tài)URL加入待爬URL隊(duì)列中。
[0015]根據(jù)本申請(qǐng)的第二方面,提供了一種網(wǎng)頁爬取裝置,包括:接口單元,從用戶獲取初始URL ;瀏覽器內(nèi)核,響應(yīng)于所述接口單元的調(diào)用,從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件,并基于該源代碼文件生成相應(yīng)的DOM樹;URL收集單元,遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL ;存儲(chǔ)單元,從所述URL收集單元接收并存儲(chǔ)所述靜態(tài)URL和動(dòng)態(tài)URL。
[0016]根據(jù)本申請(qǐng)的第三方面,提供了一種包含上述網(wǎng)頁爬取裝置的瀏覽器。
[0017]根據(jù)本申請(qǐng)的網(wǎng)頁爬取方法和裝置,能夠支持各種網(wǎng)頁標(biāo)準(zhǔn),兼容各種不規(guī)范的網(wǎng)頁;通過事件觸發(fā)和HOOK手段能夠更多、更準(zhǔn)確的爬取URL。
【專利附圖】

【附圖說明】
[0018]圖1示出了根據(jù)本申請(qǐng)第一方面的基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法的流程圖;
[0019]圖2示出了根據(jù)本申請(qǐng)的第二方面的一個(gè)實(shí)施方案的網(wǎng)頁爬取裝置的方框圖;
[0020]圖3示出了根據(jù)本申請(qǐng)的第二方面的另一個(gè)實(shí)施方案的網(wǎng)頁爬取裝置的方框圖。
【具體實(shí)施方式】
[0021]下面將參照?qǐng)D1詳細(xì)描述根據(jù)本申請(qǐng)的第一方面的基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法。
[0022]如圖1所示,在步驟1001,獲取用戶輸入的初始URL。優(yōu)選地,在獲取到用戶輸入的初始URL后將該URL放入待爬URL隊(duì)列中,然后,從待爬URL隊(duì)列中獲取所述初始URL作為待爬的URL。
[0023]接下來,在步驟1002,利用瀏覽器內(nèi)核從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件??梢岳斫?,獲取到待爬的URL后,可以調(diào)用瀏覽器內(nèi)核基于預(yù)定的通信協(xié)議(例如HTTP協(xié)議)向Web服務(wù)器發(fā)出訪問所述初始URL所對(duì)應(yīng)網(wǎng)頁的請(qǐng)求,其中所述請(qǐng)求中包含所述初始URL,Web服務(wù)器針對(duì)瀏覽器內(nèi)核的請(qǐng)求做出響應(yīng)。所述響應(yīng)的內(nèi)容通常包括:響應(yīng)碼、響應(yīng)頭、以及請(qǐng)求訪問的URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件。
[0024]響應(yīng)碼是指由三位十進(jìn)制數(shù)字組成、出現(xiàn)在由Web服務(wù)器發(fā)送的響應(yīng)的第一行的狀態(tài)碼。響應(yīng)頭允許服務(wù)器傳遞不能放在狀態(tài)行的附加信息,主要用來描述服務(wù)器的信息和Request-URI進(jìn)一步的信息。
[0025]本領(lǐng)域技術(shù)人員可以理解的是,當(dāng)瀏覽器內(nèi)核所發(fā)出的請(qǐng)求沒有被Web服務(wù)器接成功接收、理解、并接受時(shí),Web服務(wù)器不會(huì)在發(fā)送響應(yīng)碼和響應(yīng)頭的同時(shí),將請(qǐng)求訪問的URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件發(fā)送到瀏覽器內(nèi)核。[0026]例如,當(dāng)用戶輸入一個(gè)錯(cuò)誤的URL時(shí),Web服務(wù)器會(huì)發(fā)出響應(yīng)碼“404”,表明請(qǐng)求失敗,請(qǐng)求所希望得到的資源未在服務(wù)器上發(fā)現(xiàn)。此時(shí),Web服務(wù)器不會(huì)將請(qǐng)求訪問的URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件發(fā)送到瀏覽器內(nèi)核。在這種情況下,用戶需要輸入新的URL,以便從服務(wù)器獲取所需的信息。
[0027]再如,當(dāng)被請(qǐng)求的資源已永久移動(dòng)到新位置時(shí),Web服務(wù)器會(huì)向?yàn)g覽器內(nèi)核發(fā)送響應(yīng)碼“301”,并在響應(yīng)頭“Location”中指明新的URL地址。例如,響應(yīng)頭Location:www.baidu.com,其含義為該網(wǎng)頁需要跳轉(zhuǎn)到www.baidu.com,需要跟隨跳轉(zhuǎn)才能得到真正的頁面。此時(shí),需要調(diào)用瀏覽器內(nèi)核以新的URL “www.baidu.com”再次向Web服務(wù)器發(fā)出請(qǐng)求,才可獲得所需的網(wǎng)頁。
[0028]優(yōu)選地,在從Web服務(wù)器獲取到所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件(步驟1002)后利用瀏覽器內(nèi)核對(duì)該源代碼文件進(jìn)行解析,并且以Η00Κ方式獲取對(duì)所述源代碼文件進(jìn)行解析的過程中所述瀏覽器內(nèi)核主動(dòng)訪問的URL,并將獲取的URL放入待爬URL隊(duì)列中。
[0029]例如,瀏覽器內(nèi)核在對(duì)從Web服務(wù)器獲取的網(wǎng)頁的源代碼文件例如HTML文件進(jìn)行解析的過程中,會(huì)自動(dòng)運(yùn)行該HTML文件中的Javascript腳本,作為運(yùn)行結(jié)果而主動(dòng)訪問相應(yīng)的URL,例如運(yùn)行某個(gè)Javascript腳本的結(jié)果為訪問某個(gè)URL以獲取該URL處的資源,例如動(dòng)態(tài)廣告。
[0030]根據(jù)本申請(qǐng),可以以Η00Κ方式,即使用瀏覽器內(nèi)核提供的API函數(shù)(即Η00Κ函數(shù)),截獲瀏覽器內(nèi)核在解析HTML文件的過程中向Web服務(wù)器主動(dòng)發(fā)出的URL訪問請(qǐng)求,以從中分離出相應(yīng)的URL。
[0031]繼續(xù)參照?qǐng)D1,在步驟1003,基于獲取的網(wǎng)頁的源代碼文件生成相應(yīng)的DOM樹。網(wǎng)頁的源代碼文件通常是采用標(biāo)記語言,例如HTML語言編寫的。HTML文檔由若干個(gè)標(biāo)簽組成的,HTML文檔中的每個(gè)元素、屬性、文本等由DOM樹中的一個(gè)節(jié)點(diǎn)來表示。DOM樹起始于文檔(html)節(jié)點(diǎn),并由此繼續(xù)伸出枝條,直到處于這棵樹最低級(jí)別的所有文本節(jié)點(diǎn)為止。
[0032]接下來,在步驟1004,遍歷所生成的DOM樹以獲取網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL。
[0033]一方面,可以從所述DOM樹上的標(biāo)簽的屬性獲取所述網(wǎng)頁中包含的靜態(tài)URL。例如,DOM樹上A標(biāo)簽(節(jié)點(diǎn))的href屬性用于放置超鏈接的目標(biāo)地址,遍歷DOM樹時(shí)若發(fā)現(xiàn)A標(biāo)簽,則可從其href屬性的值獲取網(wǎng)頁中包含的靜態(tài)URL。
[0034]另一方面,通過觸發(fā)所生成的DOM樹上的標(biāo)簽的事件并執(zhí)行與所述事件綁定的事件處理代碼,從而以Hook的方式截獲作為執(zhí)行所述事件處理代碼的結(jié)果所訪問的網(wǎng)頁的動(dòng)態(tài)URL。具體地,當(dāng)瀏覽器內(nèi)核發(fā)起URL訪問請(qǐng)求時(shí),使用瀏覽器內(nèi)核提供的API函數(shù)(SPHook函數(shù))截獲該請(qǐng)求,從而獲取瀏覽器內(nèi)核發(fā)起的URL訪問請(qǐng)求信息。
[0035]可以理解,用戶在網(wǎng)頁上執(zhí)行操作時(shí)會(huì)觸發(fā)某個(gè)事件,例如常見的鼠標(biāo)點(diǎn)擊事件OnClick0當(dāng)用戶點(diǎn)擊網(wǎng)頁的元素時(shí)會(huì)觸發(fā)OnClick事件,一旦觸發(fā)了 OnClick事件,與該事件綁定的JavaScript函數(shù)就會(huì)被調(diào)用。然而在沒有用戶參與的情況下,需要觸發(fā)OnClick事件以調(diào)用其對(duì)應(yīng)的JavaScript函數(shù)時(shí),就需要進(jìn)行事件模擬了,通過Hook的方式把該事件劫持住,并直接調(diào)用該事件進(jìn)行觸發(fā)。
[0036]然后,在步驟1005,將獲取的靜態(tài)URL和動(dòng)態(tài)URL加入待爬URL隊(duì)列中。之后,就可以按照預(yù)定的爬取方案,依次爬取待爬URL隊(duì)列中所有URL所對(duì)應(yīng)的網(wǎng)頁。
[0037]下面將參照?qǐng)D2和圖3詳細(xì)描述根據(jù)本申請(qǐng)的第二方面的網(wǎng)頁爬取裝置。
[0038]如圖2所示,網(wǎng)頁爬取裝置10包括:接口單元100、瀏覽器內(nèi)核200、URL收集單元300和存儲(chǔ)單元400。
[0039]接口單元100從用戶獲取初始URL。例如,用戶打開瀏覽器后在地址欄中輸入期望訪問的某個(gè)網(wǎng)站的URL (初始URL)時(shí),接口單元100從瀏覽器的地址欄獲取用戶輸入的初始 URL0
[0040]之后,接口單元100例如通過瀏覽器內(nèi)核API調(diào)用瀏覽器內(nèi)核200,從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件,并基于該源代碼文件生成相應(yīng)的DOM樹。
[0041]URL收集單元300遍歷所生成的DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL。
[0042]存儲(chǔ)單元400從URL收集單元300接收并存儲(chǔ)所述靜態(tài)URL和動(dòng)態(tài)URL。
[0043]根據(jù)另一個(gè)實(shí)施方案,URL收集單元300可進(jìn)一步包括第一 URL收集單元301和第二 URL收集單元302,如圖3所示。
[0044]第一 URL收集單元301被配置為遍歷所生成的DOM樹以便從該DOM樹上的標(biāo)簽的屬性獲取靜態(tài)URL,以及在遍歷該DOM樹時(shí)觸發(fā)DOM樹上的標(biāo)簽的事件并執(zhí)行與所述事件綁定的事件處理代碼。
[0045]第二 URL收集單元302被配置為以HOOK方式截獲作為執(zhí)行所述事件處理代碼的結(jié)果所訪問的網(wǎng)頁的動(dòng)態(tài)URL。
[0046]根據(jù)一個(gè)實(shí)施方案,接口單元100可進(jìn)一步被配置為在從用戶獲取到初始URL之后,調(diào)用瀏覽器內(nèi)核200向Web服務(wù)器發(fā)出訪問所述初始URL所對(duì)應(yīng)網(wǎng)頁的請(qǐng)求,其中所述請(qǐng)求中包含所述初始URL。第二 URL收集單元302可進(jìn)一步被配置為以HOOK方式攔截所述請(qǐng)求以從中分離出所述初始URL,并將所述初始URL存儲(chǔ)到存儲(chǔ)單元400中。
[0047]根據(jù)另一個(gè)實(shí)施方案,瀏覽器內(nèi)核200可進(jìn)一步被配置為從Web服務(wù)器獲取到所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件后對(duì)該源代碼文件進(jìn)行解析。第二 URL收集單元302可進(jìn)一步被配置為以HOOK方式獲取對(duì)所述源代碼文件進(jìn)行解析的過程中瀏覽器內(nèi)核200主動(dòng)訪問的URL。
[0048]根據(jù)本申請(qǐng)的第三方面,提供了一種包含上述網(wǎng)頁爬取裝置的瀏覽器。
[0049]以上參照附圖對(duì)本申請(qǐng)的示例性的實(shí)施方案進(jìn)行了描述。本領(lǐng)域技術(shù)人員應(yīng)該理解,上述實(shí)施方案僅僅是為了說明的目的而所舉的示例,而不是用來進(jìn)行限制。凡在本申請(qǐng)的教導(dǎo)和權(quán)利要求保護(hù)范圍下所作的任何修改、等同替換等,均應(yīng)包含在本申請(qǐng)要求保護(hù)的范圍內(nèi)。
【權(quán)利要求】
1.一種基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法,包括: 從用戶獲取初始URL ; 利用瀏覽器內(nèi)核從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件; 基于所述源代碼文件生成相應(yīng)的DOM樹; 遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL ;以及 將所述靜態(tài)URL和動(dòng)態(tài)URL加入待爬URL隊(duì)列中。
2.如權(quán)利要求1所述的方法,其中,遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL的步驟包括:從所述DOM樹上的標(biāo)簽的屬性獲取所述靜態(tài)URL ;以及通過觸發(fā)所述DOM樹上的標(biāo)簽的事件并執(zhí)行與所述事件綁定的事件處理代碼,從而以HOOK方式截獲作為執(zhí)行所述事件處理代碼的結(jié)果所訪問的網(wǎng)頁的動(dòng)態(tài)URL。
3.如權(quán)利要求2所述的方法,進(jìn)一步包括: 在利用瀏覽器內(nèi)核從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件之前,調(diào)用瀏覽器內(nèi)核向Web服務(wù)器發(fā)出訪問所述初始URL所對(duì)應(yīng)網(wǎng)頁的請(qǐng)求,其中所述請(qǐng)求中包含所述初始URL。
4.如權(quán)利要求3所述的方法,進(jìn)一步包括: 以HOOK方式攔截所述請(qǐng)求以從中分離出所述初始URL,并將所述初始URL加入到待爬URL隊(duì)列中。
5.如權(quán)利要求1至4中·任一項(xiàng)所述的方法,進(jìn)一步包括: 從Web服務(wù)器獲取到所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件后利用瀏覽器內(nèi)核對(duì)該源代碼文件進(jìn)行解析,并且以HOOK方式獲取對(duì)所述源代碼文件進(jìn)行解析的過程中所述瀏覽器內(nèi)核主動(dòng)訪問的URL。
6.一種網(wǎng)頁爬取裝置,包括: 接口單元,從用戶獲取初始URL ; 瀏覽器內(nèi)核,響應(yīng)于所述接口單元的調(diào)用,從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件,并基于該源代碼文件生成相應(yīng)的DOM樹; URL收集單元,遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL ; 存儲(chǔ)單元,從所述URL收集單元接收并存儲(chǔ)所述靜態(tài)URL和動(dòng)態(tài)URL。
7.如權(quán)利要求6所述的網(wǎng)頁爬取裝置,其中,所述URL收集單元進(jìn)一步包括第一URL收集單元和第二 URL收集單元;所述第一 URL收集單元被配置為遍歷所述DOM樹以便從所述DOM樹上的標(biāo)簽的屬性獲取所述靜態(tài)URL,以及在遍歷所述DOM樹時(shí)觸發(fā)所述DOM樹上的標(biāo)簽的事件并執(zhí)行與所述事件綁定的事件處理代碼;所述第二 URL收集單元被配置為以HOOK方式截獲作為執(zhí)行所述事件處理代碼的結(jié)果所訪問的網(wǎng)頁的動(dòng)態(tài)URL。
8.如權(quán)利要求7所述的網(wǎng)頁爬取裝置,其中,所述瀏覽器內(nèi)核進(jìn)一步被配置為:在從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件之前向Web服務(wù)器發(fā)出訪問所述初始URL所對(duì)應(yīng)網(wǎng)頁的請(qǐng)求,其中所述請(qǐng)求中包含所述初始URL,所述第二 URL收集單元進(jìn)一步被配置為以HOOK方式攔截所述請(qǐng)求以從中分離出所述初始URL,并將所述初始URL存儲(chǔ)到所述存儲(chǔ)單元中。
9.如權(quán)利要求8所述的網(wǎng)頁爬取裝置,其中,所述瀏覽器內(nèi)核進(jìn)一步被配置為從Web服務(wù)器獲取到所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件后對(duì)該源代碼文件進(jìn)行解析,所述第二URL收集單元進(jìn)一步被配置為以HOOK方式獲取對(duì)所述源代碼文件進(jìn)行解析的過程中所述瀏覽器內(nèi)核主動(dòng)訪問的URL。
10.一種瀏覽器,包括如權(quán)利要求6-9中任一項(xiàng)所述的網(wǎng)頁爬取裝置。
【文檔編號(hào)】G06F17/30GK103577427SQ201210259864
【公開日】2014年2月12日 申請(qǐng)日期:2012年7月25日 優(yōu)先權(quán)日:2012年7月25日
【發(fā)明者】付俊, 張峰, 楊光華 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1