基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、裝置及包含該裝置的瀏覽器的制造方法

文檔序號(hào)：6487221閱讀：856來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、裝置及包含該裝置的瀏覽器的制造方法
【專利摘要】本申請(qǐng)?zhí)峁┝艘环N基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、網(wǎng)頁爬取裝置及包含該裝置的瀏覽器。所述方法包括：從用戶獲取初始URL；利用瀏覽器內(nèi)核從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件；基于所述源代碼文件生成相應(yīng)的DOM樹；遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL；以及將所述靜態(tài)URL和動(dòng)態(tài)URL加入待爬URL隊(duì)列中。本申請(qǐng)的網(wǎng)頁爬取方法能夠支持各種網(wǎng)頁標(biāo)準(zhǔn)，兼容各種不規(guī)范的網(wǎng)頁；通過事件觸發(fā)和HOOK手段能夠更多、更準(zhǔn)確的爬取URL。
【專利說明】基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、裝置及包含該裝置的瀏

Il^r OS.SaL 口口【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及信息檢索領(lǐng)域，尤其涉及基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、網(wǎng)頁爬取裝置及包含該網(wǎng)頁爬取裝置的瀏覽器。
【背景技術(shù)】
[0002]互聯(lián)網(wǎng)(World Wide Web,簡(jiǎn)稱Web)就是處在世界各地的計(jì)算機(jī)互相連接而成的一個(gè)計(jì)算機(jī)網(wǎng)絡(luò)。網(wǎng)站的瀏覽者(用戶)坐在家中查看各種網(wǎng)站上的內(nèi)容，實(shí)際上就是從遠(yuǎn)程的計(jì)算機(jī)中讀取了一些內(nèi)容，然后在本地計(jì)算機(jī)上顯示出來的過程。因此，提供內(nèi)容信息的計(jì)算機(jī)就稱為“Web服務(wù)器”，用戶使用“瀏覽器”，例如集成在Windows操作系統(tǒng)中的Internet Explorer,就可以通過網(wǎng)絡(luò)取得Web服務(wù)器上的文件以及其他信息。
[0003]瀏覽器一般由兩部分組成:用戶界面和內(nèi)核，其中，用戶界面主要用于與用戶進(jìn)行交互，例如等，內(nèi)核作為瀏覽器的核心，主要負(fù)責(zé)取得網(wǎng)頁的內(nèi)容(HTML、XML、圖像等)、整理訊息(例如加入CSS等),計(jì)算網(wǎng)頁的顯示方式,解析Javascript語言,執(zhí)行Javascript語言代碼來實(shí)現(xiàn)網(wǎng)頁的動(dòng)態(tài)效果等。
[0004]當(dāng)用戶的計(jì)算機(jī)聯(lián)入互聯(lián)網(wǎng)后，用戶打開瀏覽器并在地址欄中輸入某個(gè)網(wǎng)站的地址，即URL (Uniform Resource Locator,統(tǒng)一資源定位符),瀏覽器內(nèi)核就會(huì)按照預(yù)定的通信協(xié)議，例如HTTP協(xié)議，向Web服務(wù)器發(fā)送請(qǐng)求，該請(qǐng)求中攜帶有用戶提供的URL，Web服務(wù)器響應(yīng)于瀏覽器內(nèi)核的請(qǐng)求，將與所述URL對(duì)應(yīng)的信息傳送到瀏覽器內(nèi)核，瀏覽器再將該信息呈現(xiàn)給用戶。
[0005]如何通過瀏覽器有效地從Web服務(wù)器獲取所需的網(wǎng)頁成為一個(gè)巨大的挑戰(zhàn)。目前瀏覽器主要基于以下兩種方案從Web服務(wù)器獲取用戶所需的網(wǎng)頁。
[0006]第一，正則匹配方案。在正則匹配方案中，瀏覽器內(nèi)核首先從Web服務(wù)器獲取URL對(duì)應(yīng)的網(wǎng)頁的源代碼文件，該源代碼文件通常是采用標(biāo)記語言，例如HTML語言編寫的。然后，將該源代碼文件作為一個(gè)長(zhǎng)字符串，用一系列預(yù)先定義的、被認(rèn)為可以匹配出URL的正則表達(dá)式分別去匹配該字符串。如果匹配成功，則認(rèn)為匹配到的是URL。
[0007]然而，正則匹配方案無法處理動(dòng)態(tài)構(gòu)造的URL，例如:
[0008]id=123;
[0009]url= “http://www.test, org/forum.php?id=，，+id;
[0010]此時(shí)正確的URL 為 “http://www.test, org/forum.php?id=123”,正則表達(dá)式則無
法處理。
[0011]第二，HTML解析庫方案。HTML解析庫是建立在正則表達(dá)式基礎(chǔ)上的，其首先通過正則表達(dá)式把網(wǎng)頁轉(zhuǎn)換成一系列標(biāo)簽，形成標(biāo)簽樹，再遍歷標(biāo)簽樹上的各個(gè)標(biāo)簽，找出可能包含URL的標(biāo)簽，判斷標(biāo)簽是否有URL。但是，HTML解析庫方案也不能處理動(dòng)態(tài)URL的情況。例如:
[0012]<A href =，，javascript: window, open ( ‘http://www.test, com，)，，>URL〈/A>[0013]基于HTML解析庫的爬取方法，往往會(huì)把A標(biāo)簽的href屬性的值作為一個(gè)發(fā)現(xiàn)的URL返回。

【發(fā)明內(nèi)容】

[0014]根據(jù)本申請(qǐng)的第一方面，提供了一種基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法，包括:從用戶獲取初始URL ;利用瀏覽器內(nèi)核從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件；基于所述源代碼文件生成相應(yīng)的DOM樹；遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL ；以及將所述靜態(tài)URL和動(dòng)態(tài)URL加入待爬URL隊(duì)列中。
[0015]根據(jù)本申請(qǐng)的第二方面，提供了一種網(wǎng)頁爬取裝置，包括:接口單元，從用戶獲取初始URL ;瀏覽器內(nèi)核，響應(yīng)于所述接口單元的調(diào)用，從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件，并基于該源代碼文件生成相應(yīng)的DOM樹；URL收集單元，遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL ;存儲(chǔ)單元，從所述URL收集單元接收并存儲(chǔ)所述靜態(tài)URL和動(dòng)態(tài)URL。
[0016]根據(jù)本申請(qǐng)的第三方面，提供了一種包含上述網(wǎng)頁爬取裝置的瀏覽器。
[0017]根據(jù)本申請(qǐng)的網(wǎng)頁爬取方法和裝置，能夠支持各種網(wǎng)頁標(biāo)準(zhǔn)，兼容各種不規(guī)范的網(wǎng)頁；通過事件觸發(fā)和HOOK手段能夠更多、更準(zhǔn)確的爬取URL。
【專利附圖】

【附圖說明】
[0018]圖1示出了根據(jù)本申請(qǐng)第一方面的基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法的流程圖；
[0019]圖2示出了根據(jù)本申請(qǐng)的第二方面的一個(gè)實(shí)施方案的網(wǎng)頁爬取裝置的方框圖；
[0020]圖3示出了根據(jù)本申請(qǐng)的第二方面的另一個(gè)實(shí)施方案的網(wǎng)頁爬取裝置的方框圖。
【具體實(shí)施方式】
[0021]下面將參照?qǐng)D1詳細(xì)描述根據(jù)本申請(qǐng)的第一方面的基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法。
[0022]如圖1所示，在步驟1001，獲取用戶輸入的初始URL。優(yōu)選地，在獲取到用戶輸入的初始URL后將該URL放入待爬URL隊(duì)列中，然后，從待爬URL隊(duì)列中獲取所述初始URL作為待爬的URL。
[0023]接下來，在步驟1002，利用瀏覽器內(nèi)核從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件?？梢岳斫?，獲取到待爬的URL后，可以調(diào)用瀏覽器內(nèi)核基于預(yù)定的通信協(xié)議(例如HTTP協(xié)議)向Web服務(wù)器發(fā)出訪問所述初始URL所對(duì)應(yīng)網(wǎng)頁的請(qǐng)求，其中所述請(qǐng)求中包含所述初始URL，Web服務(wù)器針對(duì)瀏覽器內(nèi)核的請(qǐng)求做出響應(yīng)。所述響應(yīng)的內(nèi)容通常包括:響應(yīng)碼、響應(yīng)頭、以及請(qǐng)求訪問的URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件。
[0024]響應(yīng)碼是指由三位十進(jìn)制數(shù)字組成、出現(xiàn)在由Web服務(wù)器發(fā)送的響應(yīng)的第一行的狀態(tài)碼。響應(yīng)頭允許服務(wù)器傳遞不能放在狀態(tài)行的附加信息，主要用來描述服務(wù)器的信息和Request-URI進(jìn)一步的信息。
[0025]本領(lǐng)域技術(shù)人員可以理解的是，當(dāng)瀏覽器內(nèi)核所發(fā)出的請(qǐng)求沒有被Web服務(wù)器接成功接收、理解、并接受時(shí)，Web服務(wù)器不會(huì)在發(fā)送響應(yīng)碼和響應(yīng)頭的同時(shí)，將請(qǐng)求訪問的URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件發(fā)送到瀏覽器內(nèi)核。[0026]例如，當(dāng)用戶輸入一個(gè)錯(cuò)誤的URL時(shí)，Web服務(wù)器會(huì)發(fā)出響應(yīng)碼“404”，表明請(qǐng)求失敗，請(qǐng)求所希望得到的資源未在服務(wù)器上發(fā)現(xiàn)。此時(shí)，Web服務(wù)器不會(huì)將請(qǐng)求訪問的URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件發(fā)送到瀏覽器內(nèi)核。在這種情況下，用戶需要輸入新的URL，以便從服務(wù)器獲取所需的信息。
[0027]再如，當(dāng)被請(qǐng)求的資源已永久移動(dòng)到新位置時(shí)，Web服務(wù)器會(huì)向?yàn)g覽器內(nèi)核發(fā)送響應(yīng)碼“301”,并在響應(yīng)頭“Location”中指明新的URL地址。例如，響應(yīng)頭Location:www.baidu.com,其含義為該網(wǎng)頁需要跳轉(zhuǎn)到www.baidu.com,需要跟隨跳轉(zhuǎn)才能得到真正的頁面。此時(shí)，需要調(diào)用瀏覽器內(nèi)核以新的URL “www.baidu.com”再次向Web服務(wù)器發(fā)出請(qǐng)求，才可獲得所需的網(wǎng)頁。
[0028]優(yōu)選地，在從Web服務(wù)器獲取到所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件(步驟1002)后利用瀏覽器內(nèi)核對(duì)該源代碼文件進(jìn)行解析，并且以Η00Κ方式獲取對(duì)所述源代碼文件進(jìn)行解析的過程中所述瀏覽器內(nèi)核主動(dòng)訪問的URL，并將獲取的URL放入待爬URL隊(duì)列中。
[0029]例如，瀏覽器內(nèi)核在對(duì)從Web服務(wù)器獲取的網(wǎng)頁的源代碼文件例如HTML文件進(jìn)行解析的過程中，會(huì)自動(dòng)運(yùn)行該HTML文件中的Javascript腳本，作為運(yùn)行結(jié)果而主動(dòng)訪問相應(yīng)的URL，例如運(yùn)行某個(gè)Javascript腳本的結(jié)果為訪問某個(gè)URL以獲取該URL處的資源，例如動(dòng)態(tài)廣告。
[0030]根據(jù)本申請(qǐng)，可以以Η00Κ方式，即使用瀏覽器內(nèi)核提供的API函數(shù)(即Η00Κ函數(shù))，截獲瀏覽器內(nèi)核在解析HTML文件的過程中向Web服務(wù)器主動(dòng)發(fā)出的URL訪問請(qǐng)求，以從中分離出相應(yīng)的URL。
[0031]繼續(xù)參照?qǐng)D1，在步驟1003，基于獲取的網(wǎng)頁的源代碼文件生成相應(yīng)的DOM樹。網(wǎng)頁的源代碼文件通常是采用標(biāo)記語言，例如HTML語言編寫的。HTML文檔由若干個(gè)標(biāo)簽組成的，HTML文檔中的每個(gè)元素、屬性、文本等由DOM樹中的一個(gè)節(jié)點(diǎn)來表示。DOM樹起始于文檔(html)節(jié)點(diǎn)，并由此繼續(xù)伸出枝條，直到處于這棵樹最低級(jí)別的所有文本節(jié)點(diǎn)為止。
[0032]接下來，在步驟1004，遍歷所生成的DOM樹以獲取網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL。
[0033]一方面，可以從所述DOM樹上的標(biāo)簽的屬性獲取所述網(wǎng)頁中包含的靜態(tài)URL。例如，DOM樹上A標(biāo)簽(節(jié)點(diǎn))的href屬性用于放置超鏈接的目標(biāo)地址，遍歷DOM樹時(shí)若發(fā)現(xiàn)A標(biāo)簽，則可從其href屬性的值獲取網(wǎng)頁中包含的靜態(tài)URL。
[0034]另一方面，通過觸發(fā)所生成的DOM樹上的標(biāo)簽的事件并執(zhí)行與所述事件綁定的事件處理代碼，從而以Hook的方式截獲作為執(zhí)行所述事件處理代碼的結(jié)果所訪問的網(wǎng)頁的動(dòng)態(tài)URL。具體地，當(dāng)瀏覽器內(nèi)核發(fā)起URL訪問請(qǐng)求時(shí)，使用瀏覽器內(nèi)核提供的API函數(shù)(SPHook函數(shù))截獲該請(qǐng)求，從而獲取瀏覽器內(nèi)核發(fā)起的URL訪問請(qǐng)求信息。
[0035]可以理解，用戶在網(wǎng)頁上執(zhí)行操作時(shí)會(huì)觸發(fā)某個(gè)事件，例如常見的鼠標(biāo)點(diǎn)擊事件OnClick0當(dāng)用戶點(diǎn)擊網(wǎng)頁的元素時(shí)會(huì)觸發(fā)OnClick事件,一旦觸發(fā)了 OnClick事件,與該事件綁定的JavaScript函數(shù)就會(huì)被調(diào)用。然而在沒有用戶參與的情況下，需要觸發(fā)OnClick事件以調(diào)用其對(duì)應(yīng)的JavaScript函數(shù)時(shí),就需要進(jìn)行事件模擬了，通過Hook的方式把該事件劫持住，并直接調(diào)用該事件進(jìn)行觸發(fā)。
[0036]然后，在步驟1005，將獲取的靜態(tài)URL和動(dòng)態(tài)URL加入待爬URL隊(duì)列中。之后，就可以按照預(yù)定的爬取方案，依次爬取待爬URL隊(duì)列中所有URL所對(duì)應(yīng)的網(wǎng)頁。
[0037]下面將參照?qǐng)D2和圖3詳細(xì)描述根據(jù)本申請(qǐng)的第二方面的網(wǎng)頁爬取裝置。
[0038]如圖2所示，網(wǎng)頁爬取裝置10包括:接口單元100、瀏覽器內(nèi)核200、URL收集單元300和存儲(chǔ)單元400。
[0039]接口單元100從用戶獲取初始URL。例如，用戶打開瀏覽器后在地址欄中輸入期望訪問的某個(gè)網(wǎng)站的URL (初始URL)時(shí)，接口單元100從瀏覽器的地址欄獲取用戶輸入的初始 URL0
[0040]之后，接口單元100例如通過瀏覽器內(nèi)核API調(diào)用瀏覽器內(nèi)核200，從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件，并基于該源代碼文件生成相應(yīng)的DOM樹。
[0041]URL收集單元300遍歷所生成的DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL。
[0042]存儲(chǔ)單元400從URL收集單元300接收并存儲(chǔ)所述靜態(tài)URL和動(dòng)態(tài)URL。
[0043]根據(jù)另一個(gè)實(shí)施方案，URL收集單元300可進(jìn)一步包括第一 URL收集單元301和第二 URL收集單元302，如圖3所示。
[0044]第一 URL收集單元301被配置為遍歷所生成的DOM樹以便從該DOM樹上的標(biāo)簽的屬性獲取靜態(tài)URL，以及在遍歷該DOM樹時(shí)觸發(fā)DOM樹上的標(biāo)簽的事件并執(zhí)行與所述事件綁定的事件處理代碼。
[0045]第二 URL收集單元302被配置為以HOOK方式截獲作為執(zhí)行所述事件處理代碼的結(jié)果所訪問的網(wǎng)頁的動(dòng)態(tài)URL。
[0046]根據(jù)一個(gè)實(shí)施方案，接口單元100可進(jìn)一步被配置為在從用戶獲取到初始URL之后，調(diào)用瀏覽器內(nèi)核200向Web服務(wù)器發(fā)出訪問所述初始URL所對(duì)應(yīng)網(wǎng)頁的請(qǐng)求，其中所述請(qǐng)求中包含所述初始URL。第二 URL收集單元302可進(jìn)一步被配置為以HOOK方式攔截所述請(qǐng)求以從中分離出所述初始URL，并將所述初始URL存儲(chǔ)到存儲(chǔ)單元400中。
[0047]根據(jù)另一個(gè)實(shí)施方案，瀏覽器內(nèi)核200可進(jìn)一步被配置為從Web服務(wù)器獲取到所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件后對(duì)該源代碼文件進(jìn)行解析。第二 URL收集單元302可進(jìn)一步被配置為以HOOK方式獲取對(duì)所述源代碼文件進(jìn)行解析的過程中瀏覽器內(nèi)核200主動(dòng)訪問的URL。
[0048]根據(jù)本申請(qǐng)的第三方面，提供了一種包含上述網(wǎng)頁爬取裝置的瀏覽器。
[0049]以上參照附圖對(duì)本申請(qǐng)的示例性的實(shí)施方案進(jìn)行了描述。本領(lǐng)域技術(shù)人員應(yīng)該理解，上述實(shí)施方案僅僅是為了說明的目的而所舉的示例，而不是用來進(jìn)行限制。凡在本申請(qǐng)的教導(dǎo)和權(quán)利要求保護(hù)范圍下所作的任何修改、等同替換等，均應(yīng)包含在本申請(qǐng)要求保護(hù)的范圍內(nèi)。
【權(quán)利要求】
1.一種基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法，包括: 從用戶獲取初始URL ；利用瀏覽器內(nèi)核從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件；基于所述源代碼文件生成相應(yīng)的DOM樹；遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL ；以及將所述靜態(tài)URL和動(dòng)態(tài)URL加入待爬URL隊(duì)列中。
2.如權(quán)利要求1所述的方法，其中，遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL的步驟包括:從所述DOM樹上的標(biāo)簽的屬性獲取所述靜態(tài)URL ;以及通過觸發(fā)所述DOM樹上的標(biāo)簽的事件并執(zhí)行與所述事件綁定的事件處理代碼，從而以HOOK方式截獲作為執(zhí)行所述事件處理代碼的結(jié)果所訪問的網(wǎng)頁的動(dòng)態(tài)URL。
3.如權(quán)利要求2所述的方法，進(jìn)一步包括: 在利用瀏覽器內(nèi)核從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件之前，調(diào)用瀏覽器內(nèi)核向Web服務(wù)器發(fā)出訪問所述初始URL所對(duì)應(yīng)網(wǎng)頁的請(qǐng)求，其中所述請(qǐng)求中包含所述初始URL。
4.如權(quán)利要求3所述的方法，進(jìn)一步包括: 以HOOK方式攔截所述請(qǐng)求以從中分離出所述初始URL，并將所述初始URL加入到待爬URL隊(duì)列中。
5.如權(quán)利要求1至4中·任一項(xiàng)所述的方法，進(jìn)一步包括: 從Web服務(wù)器獲取到所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件后利用瀏覽器內(nèi)核對(duì)該源代碼文件進(jìn)行解析，并且以HOOK方式獲取對(duì)所述源代碼文件進(jìn)行解析的過程中所述瀏覽器內(nèi)核主動(dòng)訪問的URL。
6.一種網(wǎng)頁爬取裝置，包括: 接口單元，從用戶獲取初始URL ；瀏覽器內(nèi)核，響應(yīng)于所述接口單元的調(diào)用，從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件，并基于該源代碼文件生成相應(yīng)的DOM樹； URL收集單元，遍歷所述DOM樹以獲取所述網(wǎng)頁中包含的靜態(tài)URL和動(dòng)態(tài)URL ；存儲(chǔ)單元，從所述URL收集單元接收并存儲(chǔ)所述靜態(tài)URL和動(dòng)態(tài)URL。
7.如權(quán)利要求6所述的網(wǎng)頁爬取裝置，其中，所述URL收集單元進(jìn)一步包括第一URL收集單元和第二 URL收集單元；所述第一 URL收集單元被配置為遍歷所述DOM樹以便從所述DOM樹上的標(biāo)簽的屬性獲取所述靜態(tài)URL，以及在遍歷所述DOM樹時(shí)觸發(fā)所述DOM樹上的標(biāo)簽的事件并執(zhí)行與所述事件綁定的事件處理代碼；所述第二 URL收集單元被配置為以HOOK方式截獲作為執(zhí)行所述事件處理代碼的結(jié)果所訪問的網(wǎng)頁的動(dòng)態(tài)URL。
8.如權(quán)利要求7所述的網(wǎng)頁爬取裝置，其中，所述瀏覽器內(nèi)核進(jìn)一步被配置為:在從Web服務(wù)器獲取所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件之前向Web服務(wù)器發(fā)出訪問所述初始URL所對(duì)應(yīng)網(wǎng)頁的請(qǐng)求，其中所述請(qǐng)求中包含所述初始URL，所述第二 URL收集單元進(jìn)一步被配置為以HOOK方式攔截所述請(qǐng)求以從中分離出所述初始URL，并將所述初始URL存儲(chǔ)到所述存儲(chǔ)單元中。
9.如權(quán)利要求8所述的網(wǎng)頁爬取裝置，其中，所述瀏覽器內(nèi)核進(jìn)一步被配置為從Web服務(wù)器獲取到所述初始URL所對(duì)應(yīng)網(wǎng)頁的源代碼文件后對(duì)該源代碼文件進(jìn)行解析，所述第二URL收集單元進(jìn)一步被配置為以HOOK方式獲取對(duì)所述源代碼文件進(jìn)行解析的過程中所述瀏覽器內(nèi)核主動(dòng)訪問的URL。
10.一種瀏覽器，包括如權(quán)利要求6-9中任一項(xiàng)所述的網(wǎng)頁爬取裝置。
【文檔編號(hào)】G06F17/30GK103577427SQ201210259864
【公開日】2014年2月12日申請(qǐng)日期:2012年7月25日優(yōu)先權(quán)日:2012年7月25日
【發(fā)明者】付俊, 張峰, 楊光華申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：付俊;張峰;楊光華
技術(shù)所有人：中國(guó)移動(dòng)通信集團(tuán)公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

瀏覽器內(nèi)核相關(guān)技術(shù)

ie內(nèi)核瀏覽器相關(guān)技術(shù)

webkit內(nèi)核的瀏覽器相關(guān)技術(shù)

ie內(nèi)核瀏覽器有哪些相關(guān)技術(shù)

瀏覽器內(nèi)核有幾種相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、裝置及包含該裝置的瀏覽器的制造方法

基于瀏覽器內(nèi)核的網(wǎng)頁爬取方法、裝置及包含該裝置的瀏覽器的制造方法