亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)頁(yè)內(nèi)容提取方法及裝置的制造方法

文檔序號(hào):9432707閱讀:430來(lái)源:國(guó)知局
網(wǎng)頁(yè)內(nèi)容提取方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實(shí)施例涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁(yè)內(nèi)容提取方法及裝置。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)技術(shù)的發(fā)展,用戶通過(guò)瀏覽網(wǎng)頁(yè)獲得所需的信息已經(jīng)是常用的信息獲取方式。
[0003]現(xiàn)有技術(shù)中,用戶在瀏覽器的地址欄中輸入統(tǒng)一資源定位符(Uniform ResourceLocator,簡(jiǎn)稱URL)或者點(diǎn)擊某一個(gè)鏈接登錄到該URL或該鏈接對(duì)應(yīng)的服務(wù)器上,該服務(wù)器從數(shù)據(jù)庫(kù)中調(diào)取與該URL或該鏈接對(duì)應(yīng)的內(nèi)容,并將該內(nèi)容返回給用戶。
[0004]由于傳統(tǒng)靜態(tài)網(wǎng)頁(yè)逐漸發(fā)展為動(dòng)態(tài)呈現(xiàn)網(wǎng)頁(yè),傳統(tǒng)的服務(wù)器從數(shù)據(jù)庫(kù)中獲取內(nèi)容的方法已經(jīng)不適合動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容的提取,導(dǎo)致傳統(tǒng)服務(wù)器的兼容性較低。

【發(fā)明內(nèi)容】

[0005]本發(fā)明實(shí)施例提供一種網(wǎng)頁(yè)內(nèi)容提取方法及裝置,以提高傳統(tǒng)服務(wù)器的兼容性。
[0006]本發(fā)明實(shí)施例的一個(gè)方面是提供一種網(wǎng)頁(yè)內(nèi)容提取方法,包括:
[0007]服務(wù)器解析網(wǎng)頁(yè)獲得網(wǎng)頁(yè)類型,所述網(wǎng)頁(yè)類型包括靜態(tài)網(wǎng)頁(yè)和動(dòng)態(tài)網(wǎng)頁(yè);
[0008]若所述網(wǎng)頁(yè)類型為靜態(tài)網(wǎng)頁(yè),則所述服務(wù)器依據(jù)所述靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容;
[0009]若所述網(wǎng)頁(yè)類型為動(dòng)態(tài)網(wǎng)頁(yè),則所述服務(wù)器模擬瀏覽器發(fā)出動(dòng)態(tài)操作指示信息從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容。
[0010]本發(fā)明實(shí)施例的另一個(gè)方面是提供一種網(wǎng)頁(yè)內(nèi)容提取裝置,包括:
[0011]解析模塊,用于解析網(wǎng)頁(yè)獲得網(wǎng)頁(yè)類型,所述網(wǎng)頁(yè)類型包括靜態(tài)網(wǎng)頁(yè)和動(dòng)態(tài)網(wǎng)頁(yè);
[0012]獲取模塊,用于若所述網(wǎng)頁(yè)類型為靜態(tài)網(wǎng)頁(yè),則依據(jù)所述靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容;若所述網(wǎng)頁(yè)類型為動(dòng)態(tài)網(wǎng)頁(yè),則模擬瀏覽器發(fā)出動(dòng)態(tài)操作指示信息從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容。
[0013]本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)內(nèi)容提取方法及裝置,通過(guò)服務(wù)器解析網(wǎng)頁(yè)獲得網(wǎng)頁(yè)類型,對(duì)于靜態(tài)網(wǎng)頁(yè),服務(wù)器依據(jù)靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容,對(duì)于動(dòng)態(tài)網(wǎng)頁(yè),服務(wù)器模擬瀏覽器發(fā)出動(dòng)態(tài)操作指示信息從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容,使得服務(wù)器能夠?qū)崿F(xiàn)對(duì)動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容的提取,提高了傳統(tǒng)服務(wù)器的兼容性。
【附圖說(shuō)明】
[0014]圖1為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)內(nèi)容提取方法流程圖;
[0015]圖2為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)內(nèi)容提取裝置的結(jié)構(gòu)圖。
【具體實(shí)施方式】
[0016]圖1為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)內(nèi)容提取方法流程圖。本發(fā)明實(shí)施例針對(duì)傳統(tǒng)的服務(wù)器從數(shù)據(jù)庫(kù)中獲取內(nèi)容的方法已經(jīng)不適合動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容的提取,導(dǎo)致傳統(tǒng)服務(wù)器的兼容性較低,提供了網(wǎng)頁(yè)內(nèi)容提取方法,該方法具體步驟如下:
[0017]步驟S101、服務(wù)器解析網(wǎng)頁(yè)獲得網(wǎng)頁(yè)類型,所述網(wǎng)頁(yè)類型包括靜態(tài)網(wǎng)頁(yè)和動(dòng)態(tài)網(wǎng)頁(yè);
[0018]在本發(fā)明實(shí)施例中,用戶通過(guò)用戶終端向服務(wù)器發(fā)送請(qǐng)求獲取網(wǎng)頁(yè),服務(wù)器收到請(qǐng)求后先判斷該用戶請(qǐng)求的網(wǎng)頁(yè)的類型,網(wǎng)頁(yè)類型包括靜態(tài)網(wǎng)頁(yè)和動(dòng)態(tài)網(wǎng)頁(yè)。
[0019]步驟S102、若所述網(wǎng)頁(yè)類型為靜態(tài)網(wǎng)頁(yè),則所述服務(wù)器依據(jù)所述靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容;
[0020]若所述網(wǎng)頁(yè)類型為靜態(tài)網(wǎng)頁(yè),且靜態(tài)網(wǎng)頁(yè)以不同的結(jié)構(gòu)存儲(chǔ)在數(shù)據(jù)庫(kù)中,具體地,靜態(tài)網(wǎng)頁(yè)以樹(shù)形結(jié)構(gòu)或字符結(jié)構(gòu)存儲(chǔ)在數(shù)據(jù)庫(kù)。
[0021]步驟S103、若所述網(wǎng)頁(yè)類型為動(dòng)態(tài)網(wǎng)頁(yè),則所述服務(wù)器模擬瀏覽器發(fā)出動(dòng)態(tài)操作指示信息從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容。
[0022]所述動(dòng)態(tài)操作指示信息包括點(diǎn)擊操作指示信息、滾動(dòng)網(wǎng)頁(yè)指示信息。
[0023]若所述網(wǎng)頁(yè)類型為動(dòng)態(tài)網(wǎng)頁(yè),需要?jiǎng)討B(tài)操作才能觸發(fā)獲取到該網(wǎng)頁(yè)內(nèi)容,即對(duì)于某些網(wǎng)頁(yè),需要觸發(fā)網(wǎng)頁(yè)上的某些事件與服務(wù)器進(jìn)行交互才能獲取所需數(shù)據(jù),例如,瀏覽器用戶瀏覽網(wǎng)頁(yè)時(shí)經(jīng)常需要某些點(diǎn)擊網(wǎng)頁(yè)上的按鈕,才能在頁(yè)面上看到數(shù)據(jù),所述服務(wù)器模擬瀏覽器發(fā)出動(dòng)態(tài)操作指示信息從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容,具體的,服務(wù)器依據(jù)動(dòng)化的數(shù)據(jù)采集程序模擬真實(shí)用戶的行為,如點(diǎn)擊鼠標(biāo),滾動(dòng)頁(yè)面等,類似操作可以通過(guò)針對(duì)不同網(wǎng)站定制配置文件,植入相關(guān)代碼模擬觸發(fā)事件的動(dòng)作。
[0024]本發(fā)明實(shí)施例通過(guò)服務(wù)器解析網(wǎng)頁(yè)獲得網(wǎng)頁(yè)類型,對(duì)于靜態(tài)網(wǎng)頁(yè),服務(wù)器依據(jù)靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容,對(duì)于動(dòng)態(tài)網(wǎng)頁(yè),服務(wù)器模擬瀏覽器發(fā)出動(dòng)態(tài)操作指示信息從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容,使得服務(wù)器能夠?qū)崿F(xiàn)對(duì)動(dòng)態(tài)網(wǎng)頁(yè)內(nèi)容的提取,提高了傳統(tǒng)服務(wù)器的兼容性。
[0025]在上述實(shí)施例的基礎(chǔ)上,所述服務(wù)器依據(jù)所述靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容,包括:若所述靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)為樹(shù)形結(jié)構(gòu),且所述樹(shù)形結(jié)構(gòu)存儲(chǔ)在所述數(shù)據(jù)庫(kù)中,則所述服務(wù)器依據(jù)目標(biāo)特征信息從所述數(shù)據(jù)庫(kù)中獲取與所述目標(biāo)特征信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容,所述目標(biāo)特征信息包括目標(biāo)位置信息、目標(biāo)字體樣式、目標(biāo)關(guān)鍵詞;若所述靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)為字符結(jié)構(gòu),且所述字符結(jié)構(gòu)存儲(chǔ)在所述數(shù)據(jù)庫(kù)中,則所述服務(wù)器依據(jù)目標(biāo)字符或目標(biāo)字符串從所述數(shù)據(jù)庫(kù)中獲取與所述目標(biāo)字符或所述目標(biāo)字符串對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容。
[0026]若所述靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)為樹(shù)形結(jié)構(gòu),且所述樹(shù)形結(jié)構(gòu)存儲(chǔ)在所述數(shù)據(jù)庫(kù)中,則月艮務(wù)器基于HTML結(jié)構(gòu)的信息提取,通過(guò)解析器將網(wǎng)頁(yè)解析成語(yǔ)法樹(shù),然后根據(jù)DOM選擇器將信息體取。對(duì)同一個(gè)網(wǎng)站,那些與主題有關(guān)的部分常常有著相同的表現(xiàn)風(fēng)格,根據(jù)頁(yè)面的DOM結(jié)構(gòu)和CSS,能獲取到特定的內(nèi)容。
[0027]所述樹(shù)形結(jié)構(gòu)包括多個(gè)級(jí)別,每個(gè)級(jí)別包括多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)對(duì)應(yīng)有特征信息,所述特征信息包括位置信息、字體樣式、關(guān)鍵詞。
[0028]具體的,所述樹(shù)形結(jié)構(gòu)即為語(yǔ)法樹(shù),該語(yǔ)法樹(shù)括多個(gè)級(jí)別,每個(gè)級(jí)別包括多個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)對(duì)應(yīng)有特征信息,所述特征信息包括位置信息、字體樣式、關(guān)鍵詞,服務(wù)器依據(jù)目標(biāo)特征信息具體包括目標(biāo)位置信息、目標(biāo)字體樣式、目標(biāo)關(guān)鍵詞從該語(yǔ)法樹(shù)中獲取目標(biāo)特征信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容。
[0029]若所述靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)為字符結(jié)構(gòu),且所述字符結(jié)構(gòu)存儲(chǔ)在所述數(shù)據(jù)庫(kù)中,服務(wù)器根據(jù)HTML的字符串,使用正則表達(dá)式提取內(nèi)容。網(wǎng)頁(yè)中HTML標(biāo)記有一定的使用習(xí)慣和規(guī)貝1J,尤其是在各條內(nèi)容的邊界處。各條記錄和記錄邊界處的標(biāo)記往往呈現(xiàn)一定規(guī)律,這些規(guī)律可以幫助確定出內(nèi)容的邊界。例如,服務(wù)器從數(shù)據(jù)庫(kù)中獲取包括目標(biāo)字符或目標(biāo)字符串的所有字符串,或服務(wù)器從數(shù)據(jù)庫(kù)中獲取以目標(biāo)字符或目標(biāo)字符串開(kāi)頭的所有字符串,或者服務(wù)器從數(shù)據(jù)庫(kù)中獲取以目標(biāo)字符或目標(biāo)字符串結(jié)尾的所有字符串,或者服務(wù)器從數(shù)據(jù)庫(kù)中獲取以目標(biāo)字符或目標(biāo)字符串開(kāi)頭、且以目標(biāo)字符或目標(biāo)字符串結(jié)尾的所有字符串。
[0030]本發(fā)明實(shí)施例通過(guò)服務(wù)器依據(jù)靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)獲取靜態(tài)網(wǎng)頁(yè)的網(wǎng)頁(yè)內(nèi)容,增加了網(wǎng)頁(yè)內(nèi)容獲取方式的靈活性。
[0031]在本發(fā)明實(shí)施例中,服務(wù)器獲取網(wǎng)頁(yè)內(nèi)容的方式有三種:第一種為服務(wù)器依據(jù)目標(biāo)特征信息從所述數(shù)據(jù)庫(kù)中獲取與所述目標(biāo)特征信息對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;第二種為服務(wù)器依據(jù)目標(biāo)字符或目標(biāo)字符串從所述數(shù)據(jù)庫(kù)中獲取與所述目標(biāo)字符或所述目標(biāo)字符串對(duì)應(yīng)的網(wǎng)頁(yè)內(nèi)容;第三種為服務(wù)器模擬瀏覽器發(fā)出動(dòng)態(tài)操作指示信息從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容。服務(wù)器執(zhí)行這三種方式的速度依次減慢,但是兼容性逐漸增加。
[0032]圖2為本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)內(nèi)容提取裝置的結(jié)構(gòu)圖。本發(fā)明實(shí)施例提供的網(wǎng)頁(yè)內(nèi)容提取裝置可以執(zhí)行網(wǎng)頁(yè)內(nèi)容提取方法實(shí)施例提供的處理流程,如圖2所示,網(wǎng)頁(yè)內(nèi)容提取裝置20包括解析模塊21和獲取模塊22,其中,解析模塊21用于解析網(wǎng)頁(yè)獲得網(wǎng)頁(yè)類型,所述網(wǎng)頁(yè)類型包括靜態(tài)網(wǎng)頁(yè)和動(dòng)態(tài)網(wǎng)頁(yè);獲取模塊22用于若所述網(wǎng)頁(yè)類型為靜態(tài)網(wǎng)頁(yè),則依據(jù)所述靜態(tài)網(wǎng)頁(yè)的結(jié)構(gòu)從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容;若所述網(wǎng)頁(yè)類型為動(dòng)態(tài)網(wǎng)頁(yè),則模擬瀏覽器發(fā)出動(dòng)態(tài)操作指示信息從數(shù)據(jù)庫(kù)中獲取網(wǎng)頁(yè)內(nèi)容。
[0033]本發(fā)明實(shí)施例通過(guò)服務(wù)器解析網(wǎng)頁(yè)獲得網(wǎng)
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1