一種抓取網(wǎng)頁內(nèi)容的方法及裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及計算機應用技術領域,尤其涉及一種抓取網(wǎng)頁內(nèi)容的方法及裝置。
【背景技術】
[0002]網(wǎng)絡爬蟲是搜索引擎技術的基礎組成部分。網(wǎng)絡爬蟲技術是從一個或若干初始網(wǎng)頁的URL(Uniform Resource Locator,統(tǒng)一資源定位符)開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁信息的過程中,根據(jù)網(wǎng)頁的抓取規(guī)則,不斷從當前頁面上抽取新的URL放入隊列,直到滿足某種停止條件。然后將抓取到的網(wǎng)頁信息存儲在搜索引擎的服務器中,從而可以加快用戶的搜索速度。
[0003]目前,在采用網(wǎng)絡爬蟲技術對網(wǎng)頁進行抓取過程中,抓取規(guī)則為人工設置,針對不同類型的網(wǎng)頁,需要人工設置相應的抓取規(guī)則,當需要抓取的網(wǎng)頁類型眾多時,將耗費大量的人力去設置抓取規(guī)則,從而增加了網(wǎng)頁內(nèi)容抓取的復雜度。
[0004]由此可見,目前在對不同類型網(wǎng)頁內(nèi)容進行抓取的過程中,存在網(wǎng)頁內(nèi)容抓取復雜度高,以及網(wǎng)頁內(nèi)容抓取效率低的問題。
【發(fā)明內(nèi)容】
[0005]本發(fā)明實施例提供一種抓取網(wǎng)頁內(nèi)容的方法及裝置,用以解決目前在對不同類型網(wǎng)頁內(nèi)容進行抓取的過程中,存在網(wǎng)頁內(nèi)容抓取復雜度高,以及網(wǎng)頁內(nèi)容抓取效率低的問題。
[0006]本發(fā)明實施例提供的具體技術方案如下:
[0007]—種抓取網(wǎng)頁內(nèi)容的方法,包括:
[0008]獲取待抓取網(wǎng)頁的URL;
[0009]在抓取規(guī)則庫中,獲取所述待抓取網(wǎng)頁的URL對應的抓取規(guī)則;
[0010]當無法獲取到對應于所述待抓取網(wǎng)頁的URL的抓取規(guī)則時,對所述待抓取網(wǎng)頁中的內(nèi)容進行分析,并對滿足抓取條件的所述待抓取網(wǎng)頁生成抓取規(guī)則;
[0011]將所述待抓取網(wǎng)頁的URL以及對應于生成的所述待抓取網(wǎng)頁抓取規(guī)則在所述抓取規(guī)則庫中進行更新。
[0012]可選的,對所述待抓取網(wǎng)頁中包含的內(nèi)容進行分詞劃分,生成分詞組;計算所述分詞組與每一個預先建立的主題語義庫之間的相似度;當計算得到的所述分詞組與任一所述主題語義庫之間的相似度大于等于第一預設閾值時,對所述待抓取網(wǎng)頁對應的抓取規(guī)則進行生成。
[0013]可選的,獲取所述計算得到的相似度所對應的至少一個主題語義庫;獲取所述待抓取網(wǎng)頁對應的HTML文檔,將所述HTML文檔中最高層級的分段標簽作為根節(jié)點,其他層級對應的分段標簽作為分節(jié)點,構建樹狀結(jié)構;由根節(jié)點開始,逐層遍歷所述樹狀結(jié)構;在所述樹狀結(jié)構中,當存在任一分節(jié)點對應的文本內(nèi)容與所述至少一個主題語義庫之間的相似度大于等于第二預設閾值時,獲取所述任一分節(jié)點的標識;將所述任一分節(jié)點的標識及其對應的分段標簽,作為所述待抓取網(wǎng)頁的抓取規(guī)則。
[0014]進一步的,將所述待抓取網(wǎng)頁的URL以及對應于生成的所述待抓取網(wǎng)頁抓取規(guī)則在所述抓取規(guī)則庫中進行更新之后,將所述待抓取網(wǎng)頁對應的分詞組中包含的指定詞性的分詞組保存至主題內(nèi)容庫中;按照預設周期統(tǒng)計所述主題內(nèi)容庫中,每一個分詞組的出現(xiàn)頻率;從所述主題內(nèi)容庫中的所有分詞組中,選取出現(xiàn)頻率大于等于預設頻率閾值的分詞組,存儲至所述主題語義庫中。
[0015]可選的,所述抓取規(guī)則庫的生成方法,包括:獲取樣本網(wǎng)頁的URL;建立所述樣本網(wǎng)頁對應的預設抓取規(guī)則與所述樣本網(wǎng)頁的URL之間的對應關系,將所述對應關系存儲至抓取規(guī)則庫中;并獲取樣本網(wǎng)頁中包含的樣本內(nèi)容以及所述樣本網(wǎng)頁類型;根據(jù)所述樣本網(wǎng)頁中包含的樣本內(nèi)容,對所述樣本內(nèi)容進行分詞劃分,將生成的每一個樣本分詞組均作為特征值;將所有特征值存儲至與所述樣本網(wǎng)頁類型相對應的預設的主題語義庫中
[0016]一種抓取網(wǎng)頁內(nèi)容的裝置,包括:
[0017]第一獲取單元,用于獲取待抓取網(wǎng)頁的URL;
[0018]第二獲取單元,用于在抓取規(guī)則庫中,獲取所述待抓取網(wǎng)頁的URL對應的抓取規(guī)則;
[0019]抓取規(guī)則生成單元,用于當無法獲取到對應于所述待抓取網(wǎng)頁的URL的抓取規(guī)則時,對所述待抓取網(wǎng)頁中的內(nèi)容進行分析,并對滿足抓取條件的所述待抓取網(wǎng)頁生成抓取規(guī)則;
[0020]更新單元,用于將所述待抓取網(wǎng)頁的URL以及對應于生成的所述待抓取網(wǎng)頁抓取規(guī)則在所述抓取規(guī)則庫中進行更新。
[0021]可選的,所述抓取規(guī)則生成單元,具體用于:對所述待抓取網(wǎng)頁中包含的內(nèi)容進行分詞劃分,生成分詞組;計算所述分詞組與每一個預先建立的主題語義庫之間的相似度;當計算得到的所述分詞組與任一所述主題語義庫之間的相似度大于等于第一預設閾值時,對所述待抓取網(wǎng)頁對應的抓取規(guī)則進行生成。
[0022]可選的,所述抓取規(guī)則生成單元,具體用于:獲取所述計算得到的相似度所對應的至少一個主題語義庫;獲取所述待抓取網(wǎng)頁對應的HTML文檔,將所述HTML文檔中最高層級的分段標簽作為根節(jié)點,其他層級對應的分段標簽作為分節(jié)點,構建樹狀結(jié)構;由根節(jié)點開始,逐層遍歷所述樹狀結(jié)構;在所述樹狀結(jié)構中,當存在任一分節(jié)點對應的文本內(nèi)容與所述至少一個主題語義庫之間的相似度大于等于第二預設閾值時,獲取所述任一分節(jié)點的標識;將所述任一分節(jié)點的標識及其對應的分段標簽,作為所述待抓取網(wǎng)頁的抓取規(guī)則。
[0023]進一步的,上述裝置還包括存儲單元,用于:將所述待抓取網(wǎng)頁的URL以及對應于生成的所述待抓取網(wǎng)頁抓取規(guī)則在所述抓取規(guī)則庫中進行更新之后,將所述待抓取網(wǎng)頁對應的分詞組中包含的指定詞性的分詞組保存至主題內(nèi)容庫中;按照預設周期統(tǒng)計所述主題內(nèi)容庫中,每一個分詞組的出現(xiàn)頻率;從所述主題內(nèi)容庫中的所有分詞組中,選取出現(xiàn)頻率大于等于預設頻率閾值的分詞組,存儲至所述主題語義庫中。
[0024]進一步的,上述裝置還包括抓取規(guī)則庫生成單元,還用于:獲取樣本網(wǎng)頁的URL;建立所述樣本網(wǎng)頁對應的預設抓取規(guī)則與所述樣本網(wǎng)頁的URL之間的對應關系,將所述對應關系存儲至抓取規(guī)則庫中;并獲取樣本網(wǎng)頁中包含的樣本內(nèi)容以及所述樣本網(wǎng)頁類型;根據(jù)所述樣本網(wǎng)頁中包含的樣本內(nèi)容,對所述樣本內(nèi)容進行分詞劃分,將生成的每一個樣本分詞組均作為特征值;將所有特征值存儲至與所述樣本網(wǎng)頁類型相對應的預設的主題語義庫中。
[0025]本發(fā)明實施例中,當檢測到待抓取網(wǎng)頁時,即從預設的抓取規(guī)則庫中查找上述待抓取網(wǎng)頁的URL,當該抓取規(guī)則庫中不存在URL對應的抓取規(guī)則時,對待抓取網(wǎng)頁中的內(nèi)容進行分析,并對滿足條件的待抓取網(wǎng)頁生成抓取規(guī)則。采用本發(fā)明技術方案,對待抓取網(wǎng)頁中的內(nèi)容進行分析,根據(jù)分析結(jié)果自動生成待抓取網(wǎng)頁對應的抓取規(guī)則,無須人工設置抓取規(guī)則,有效降低了網(wǎng)頁內(nèi)容抓取的復雜度,提高了網(wǎng)頁內(nèi)容抓取的效率。
【附圖說明】
[0026]圖1為本發(fā)明實施例中通信系統(tǒng)架構示意圖;
[0027]圖2為本發(fā)明實施例中網(wǎng)頁內(nèi)容抓取流程圖;
[0028]圖3為本發(fā)明實施例中樣本網(wǎng)頁示意圖;
[0029]圖4為本發(fā)明實施例中依存句法樹示意圖;
[0030]圖5為本發(fā)明實施例中待抓取網(wǎng)頁示意圖;
[0031]圖6為本發(fā)明實施例中具體應用場景下的網(wǎng)頁內(nèi)容抓取流程圖;
[0032]圖7為本發(fā)明實施例中網(wǎng)頁內(nèi)容抓取裝置結(jié)構示意圖。
【具體實施方式】
[0033]為了解決目前在對不同類型網(wǎng)頁內(nèi)容進行抓取的過程中,存在網(wǎng)頁內(nèi)容抓取復雜度高,以及網(wǎng)頁內(nèi)容抓取效率低的問題。本發(fā)明實施例中,當檢測到待抓取網(wǎng)頁時,即從預設的抓取規(guī)則庫中查找上述待抓取網(wǎng)頁的URL,當該抓取規(guī)則庫中不存在URL對應的抓取規(guī)則時,對待抓取網(wǎng)頁中的內(nèi)容進行分析,并對滿足條件的待抓取網(wǎng)頁生成抓取規(guī)則。采用本發(fā)明技術方案,對待抓取網(wǎng)頁中的內(nèi)容進行分析,根據(jù)分析結(jié)果自動生成待抓取網(wǎng)頁對應的抓取規(guī)則,無須人工設置抓取規(guī)則,有效降低了網(wǎng)頁內(nèi)容抓取的復雜度,提高了網(wǎng)頁內(nèi)容抓取的效率。
[0034]參閱圖1所示,為本發(fā)明實施例中通信系統(tǒng)示意圖,該通信系統(tǒng)包括客戶端和至少一個web服務器;客戶端包含用戶界面,用戶可以通過該用戶界面與客戶端進行信息交互,指示客戶端呈現(xiàn)瀏覽器界面,以及根據(jù)用戶指示向web服務器請求相應的數(shù)據(jù)包,并根據(jù)該數(shù)據(jù)包呈現(xiàn)相應的網(wǎng)頁;web服務器,用戶根據(jù)客戶端發(fā)送的請求,向客戶端發(fā)送相應的數(shù)據(jù)包。
[0035]下面結(jié)合附圖對本發(fā)明優(yōu)選的實施方式進行詳細說明。
[0036]參閱圖2所示,本發(fā)明實施例中,網(wǎng)頁內(nèi)容抓取過程包括:
[0037]步驟200:獲取待抓取網(wǎng)頁的URL。
[0038]本發(fā)明實施例中,客戶端根據(jù)用戶指示,運行瀏覽器應用程序;當客戶端檢測到用戶在瀏覽器中輸入所請求的網(wǎng)頁信息時,根據(jù)該網(wǎng)頁信息