則匹配規(guī)貝U,以應對網站改版導致的原模版失效問題,從而提高了網頁資源提取規(guī)則的靈活性。
[0151]如圖10所示,圖10是本發(fā)明實施例提出的提取網頁內容的終端的一種結構示意圖。
[0152]如圖10所示,該終端可以包括:處理器1001,例如CPU,網絡接口 1004,用戶接口1003,存儲器1005,通信總線1002。其中,通信總線1002用于實現這些組件之間的連接通信。用戶接口 1003可以包括顯示屏(Display)、鍵盤(Keyboard),可選用戶接口 1003還可以包括標準的有線接口、無線接口。網絡接口 1004可選的可以包括標準的有線接口、無線接口(如W1-FI接口)。存儲器1005可以是高速RAM存儲器,也可以是非不穩(wěn)定的存儲器(non-volatile memory),例如個磁盤存儲器。存儲器1005可選的還可以是個位于遠離前述處理器1001的存儲裝置。如圖10所示,作為一種計算機存儲介質的存儲器1005中可以包括操作系統(tǒng)、網絡通信模塊、用戶接口模塊以及提取網頁內容的應用程序。
[0153]在圖10所示的終端中,網絡接口 1004主要用于連接服務器,與服務器進行數據通信;用戶接口 1003主要用于連接后客戶端,與客戶端進行數據通信;而處理器1001可以用于調用存儲器1005中存儲的提取網頁內容的應用程序,并執(zhí)行以下操作:
[0154]通過用戶接口 1003響應用戶端在瀏覽器上觸發(fā)的網頁瀏覽指令,拉取對應的網頁;解析所述網頁,獲取網頁腳本中標簽的DOM節(jié)點;從所述DOM節(jié)點中獲取插件標簽節(jié)點;當所述插件標簽節(jié)點對應的插件標簽為預定類型標簽時,提取所述插件標簽對應的插件資源。
[0155]在一個實施例中,處理器1001調用存儲器1005中存儲的提取網頁內容的應用程序可以執(zhí)行以下操作:
[0156]當所述插件標簽節(jié)點對應的插件標簽不為預定類型標簽時,采用預定規(guī)則匹配所述網頁腳本的預定類型標簽對應的插件資源;當匹配成功后,從所述網頁腳本中提取預定類型標簽對應的插件資源。
[0157]在一個實施例中,處理器1001調用存儲器1005中存儲的提取網頁內容的應用程序可以執(zhí)行以下操作:
[0158]檢測是否有提取預定類型標簽對應的插件資源的預定規(guī)則更新,若有,則通過網絡接口 1004從瀏覽器后臺服務器獲取更新后的預定規(guī)則;否則執(zhí)行步驟:解析所述網頁,獲取網頁腳本中標簽的DOM節(jié)點。
[0159]在一個實施例中,處理器1001調用存儲器1005中存儲的提取網頁內容的應用程序可以執(zhí)行以下操作:
[0160]解析所述網頁,生成DOM樹;在所述DOM樹中創(chuàng)建網頁腳本中每個標簽的DOM節(jié)點。
[0161]在一個實施例中,處理器1001調用存儲器1005中存儲的提取網頁內容的應用程序可以執(zhí)行以下操作:
[0162]將提取的插件資源傳遞給相應的播放器進行播放。
[0163]本實施例通過上述方案,瀏覽器在用戶瀏覽網頁時,通過解析網頁,獲取網頁腳本中標簽的DOM節(jié)點;從DOM節(jié)點中獲取插件標簽節(jié)點;當所述插件標簽節(jié)點對應的插件標簽為預定類型標簽時,提取所述插件標簽對應的插件資源;將所述插件標簽對應的插件資源傳遞給相應的播放器進行播放,可在網頁尚未真正渲染時完成符合特定協(xié)議規(guī)范的內容的提取,由此提高了網頁預定內容的提取速度,同時也提高了網頁的展示速度,此外,由于本方案可以不依賴后臺服務器而是在瀏覽器終端側實現插件資源的提取,在技術上易于實現,可降低開發(fā)成本。另外,在網頁設計中存在可能無法獲得預定類型的插件標簽的應用場景下,采用正則匹配的方法,到網頁腳本資源里去查找到預定類型插件標簽的資源信息,由此提高了網頁資源信息的提取成功率,保證了網頁資源信息提取操作的可靠性。而且預定規(guī)則可以動態(tài)配置,即可以隨時修改,在視頻網站版本更新導致原有的網頁資源提取規(guī)則失效時,可以通過瀏覽器終端或者后臺服務器下發(fā)新的正則匹配規(guī)則,以應對網站改版導致的原模版失效問題,從而提高了網頁資源提取規(guī)則的靈活性。
[0164]還需要說明的是,在本文中,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者裝置不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者裝置所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括該要素的過程、方法、物品或者裝置中還存在另外的相同要素。
[0165]上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
[0166]通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到上述實施例方法可借助軟件加必需的通用硬件平臺的方式來實現,當然也可以通過硬件,但很多情況下前者是更佳的實施方式?;谶@樣的理解,本發(fā)明的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品存儲在一個存儲介質(如R0M/RAM、磁碟、光盤)中,包括若干指令用以使得一臺終端設備(可以是手機,計算機,月艮務器,或者網絡設備等)執(zhí)行本發(fā)明各個實施例所述的方法。
[0167]以上所述僅為本發(fā)明的優(yōu)選實施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說明書及附圖內容所作的等效結構或流程變換,或直接或間接運用在其它相關的技術領域,均同理包括在本發(fā)明的專利保護范圍內。
【主權項】
1.一種提取網頁內容的方法,其特征在于,包括: 響應移動客戶端在瀏覽器上觸發(fā)的網頁瀏覽指令,獲取對應的網頁; 解析所述網頁,獲取網頁腳本中標簽的文檔對象模型DOM節(jié)點; 從所述DOM節(jié)點中獲取插件標簽節(jié)點; 當所述插件標簽節(jié)點對應的插件標簽為預定類型標簽時,提取所述插件標簽對應的插件資源。
2.根據權利要求1所述的方法,其特征在于,所述瀏覽器支持與所述預定規(guī)則相適配的插件資源協(xié)議。
3.根據權利要求1所述的方法,其特征在于,所述從DOM節(jié)點中獲取插件標簽節(jié)點的步驟之后還包括: 當所述插件標簽節(jié)點對應的插件標簽不為預定類型標簽時,采用預定規(guī)則匹配所述網頁腳本的預定類型標簽對應的插件資源; 當匹配成功后,從所述網頁腳本中提取預定類型標簽對應的插件資源。
4.根據權利要求3所述的方法,其特征在于,所述響應瀏覽器上觸發(fā)的網頁瀏覽指令,獲取對應的網頁的步驟之后還包括: 檢測是否有提取預定類型標簽對應的插件資源的預定規(guī)則更新,若有,則從瀏覽器后臺服務器獲取更新后的預定規(guī)則;否則執(zhí)行步驟:解析所述網頁,獲取網頁腳本中標簽的DOM節(jié)點。
5.根據權利要求1-4中任一項所述的方法,其特征在于,所述解析網頁,獲取網頁腳本中標簽的DOM節(jié)點的步驟包括: 解析所述網頁,生成DOM樹; 在所述DOM樹中創(chuàng)建網頁腳本中每個標簽的DOM節(jié)點。
6.根據權利要求1-4中任一項所述的方法,其特征在于,還包括: 將提取的插件資源傳遞給相應的播放器進行播放。
7.一種提取網頁內容的裝置,其特征在于,包括: 拉取模塊,用于響應移動客戶端在瀏覽器上觸發(fā)的網頁瀏覽指令,獲取對應的網頁; 解析模塊,用于解析所述網頁,獲取網頁腳本中標簽的DOM節(jié)點; 獲取模塊,用于從所述DOM節(jié)點中獲取插件標簽節(jié)點; 提取模塊,用于當所述插件標簽節(jié)點對應的插件標簽為預定類型標簽時,提取所述插件標簽對應的插件資源。
8.根據權利要求7所述的裝置,其特征在于,所述瀏覽器支持與所述預定規(guī)則相適配的插件資源協(xié)議。
9.根據權利要求7所述的裝置,其特征在于,還包括: 匹配模塊,用于當所述插件標簽節(jié)點對應的插件標簽不為預定類型標簽時,采用預定規(guī)則匹配所述網頁腳本的預定類型標簽對應的插件資源; 所述提取模塊,還用于當匹配成功后,從所述網頁腳本中提取預定類型標簽對應的插件資源。
10.根據權利要求9所述的裝置,其特征在于,還包括: 配置模塊,用于檢測是否有提取預定類型標簽對應的插件資源的預定規(guī)則更新,若有,則從瀏覽器后臺服務器獲取更新后的預定規(guī)則;否則,由所述解析模塊解析所述網頁,獲取網頁腳本中標簽的DOM節(jié)點。
11.根據權利要求7-10中任一項所述的裝置,其特征在于, 所述解析模塊,還用于解析所述網頁,生成DOM樹;在所述DOM樹中創(chuàng)建網頁腳本中每個標簽的DOM節(jié)點。
12.根據權利要求7-10中任一項所述的裝置,其特征在于,還包括: 發(fā)送模塊,用于將提取的插件資源傳遞給相應的播放器進行播放。
13.一種提取網頁內容的系統(tǒng),其特征在于,包括:終端,所述終端包括權利要求7-12中任一項所述的裝置。
14.根據權利要求13所述的系統(tǒng),其特征在于,還包括:與所述終端通信連接的服務器; 所述服務器,用于向所述終端下發(fā)用于提取預定類型標簽對應的插件資源的預定規(guī)則。
【專利摘要】本發(fā)明涉及一種提取網頁內容的方法、裝置及系統(tǒng),其方法包括:響應移動客戶端在瀏覽器上觸發(fā)的網頁瀏覽指令,獲取對應的網頁;解析網頁,獲取網頁腳本中標簽的DOM節(jié)點;從DOM節(jié)點中獲取插件標簽節(jié)點;當插件標簽節(jié)點對應的插件標簽為預定類型標簽時,提取插件標簽對應的插件資源。本發(fā)明可在網頁尚未真正渲染時完成符合特定協(xié)議規(guī)范的內容的提取,由此提高了網頁預定內容的提取速度,同時也提高了網頁的展示速度,此外,由于本方案可以不依賴后臺服務器而是在瀏覽器終端側實現插件資源的提取,在技術上易于實現,可降低開發(fā)成本。
【IPC分類】G06F17-30
【公開號】CN104866512
【申請?zhí)枴緾N201410067190
【發(fā)明人】郭辛華, 蘇可, 馬寧, 王璟瑤
【申請人】騰訊科技(深圳)有限公司
【公開日】2015年8月26日
【申請日】2014年2月26日
【公告號】WO2015127882A1