1.一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:該方法基于一網(wǎng)頁數(shù)據(jù)服務(wù)平臺實現(xiàn),所述網(wǎng)頁數(shù)據(jù)服務(wù)平臺包括客戶端、內(nèi)容服務(wù)器和分詞云服務(wù)器,所述內(nèi)容服務(wù)器上安裝有網(wǎng)頁抓取系統(tǒng)、內(nèi)容提取系統(tǒng)、內(nèi)容分析系統(tǒng)和數(shù)據(jù)庫,所述方法具體實現(xiàn)步驟如下:
S1、網(wǎng)頁抓取
所述網(wǎng)頁抓取系統(tǒng)獲取爬取任務(wù),將待爬取 URL 加入爬蟲隊列,抓取網(wǎng)頁頁面;
S2、內(nèi)容提取
所述內(nèi)容提取系統(tǒng)基于閱讀習慣對步驟S1抓取的網(wǎng)頁頁面進行分割,生成多個區(qū)塊,所述多個區(qū)塊包括主題塊和噪音塊,剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù);
S3、中文分詞
向所述分詞云服務(wù)器發(fā)送分詞任務(wù)請求,并提交步驟S2提取的核心文本數(shù)據(jù),分詞云服務(wù)器對核心文本數(shù)據(jù)進行中文分詞處理,并將分詞結(jié)果發(fā)送給所述內(nèi)容分析系統(tǒng);
S4、內(nèi)容分析
預(yù)先建立實體關(guān)系數(shù)據(jù)集,所述實體關(guān)系數(shù)據(jù)集包含一組命名實體以及與每個命名實體對應(yīng)的特征信息知識庫,內(nèi)容分析系統(tǒng)針提取所述步驟S3得到的分詞結(jié)果的關(guān)鍵詞,得到關(guān)鍵詞數(shù)據(jù)集,針對每個關(guān)鍵詞在特征信息知識庫搜索與該關(guān)鍵詞對應(yīng)的匹配結(jié)果,將該匹配結(jié)果對應(yīng)的命名實體作為屬性索引項添加到結(jié)構(gòu)化數(shù)據(jù)表,將該關(guān)鍵詞作為屬性值添加到結(jié)構(gòu)化數(shù)據(jù)表,遍歷關(guān)鍵詞數(shù)據(jù)集中的所有關(guān)鍵詞,得到結(jié)構(gòu)化數(shù)據(jù)集,基于結(jié)構(gòu)化數(shù)據(jù)集對核心文本數(shù)據(jù)及對應(yīng)的網(wǎng)頁頁面進行分類,并存儲到數(shù)據(jù)庫;
S5、結(jié)果呈現(xiàn)
客戶端從數(shù)據(jù)庫中調(diào)取數(shù)據(jù)結(jié)果,并呈現(xiàn)給用戶。
2.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟S2具體實現(xiàn)步驟如下:
S21、內(nèi)容提取系統(tǒng)針對步驟S1抓取的網(wǎng)頁頁面生成初始 DOM 樹;
S22、清理初始DOM 樹中無用節(jié)點,構(gòu)建目標 DOM 樹;
S23、利用基于視覺信息的網(wǎng)頁分塊算法對網(wǎng)頁頁面進行分割,生成多個區(qū)塊,所述區(qū)塊攜帶有語義屬性,所述語義屬性包括鏈接個數(shù)、鏈接長度及文本長度;
S24、根據(jù)網(wǎng)頁頁面的鏈接數(shù)量和鏈接密度判斷網(wǎng)頁類型,若網(wǎng)頁類型為導航頁,則中止,若網(wǎng)頁類型為主題頁,則執(zhí)行步驟 S25;
S25、根據(jù)各個區(qū)塊的語義屬性,對各個區(qū)塊進行分類,分為主題塊及噪音塊;
S26、剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟S22中的無用節(jié)點為初始DOM樹種與內(nèi)容提取無關(guān)的節(jié)點,其包括腳本、樣式控制信息、注釋及空格文本節(jié)點。
4.根據(jù)權(quán)利要求1至3任一所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述內(nèi)容服務(wù)器上安裝有第一壓縮/解壓縮系統(tǒng),所述分詞云服務(wù)器上安裝有第二壓縮/解壓縮系統(tǒng)以及中文分詞系統(tǒng),第一壓縮/解壓縮系統(tǒng)和第二壓縮/解壓縮系統(tǒng)均具有壓縮詞典,所述第一壓縮/解壓縮系統(tǒng)還包括第一壓縮模塊、第一解壓縮模塊及詞典升級模塊,所述第二壓縮/解壓縮系統(tǒng)還包括第二壓縮模塊、第二解壓縮模塊及詞典更新模塊;
所述步驟 S3 具體實現(xiàn)步驟如下:
S31、內(nèi)容服務(wù)器向分詞云服務(wù)器發(fā)送分詞任務(wù)請求,并利用第一壓縮模塊基于壓縮詞典對所述核心文本數(shù)據(jù)進行數(shù)據(jù)壓縮處理,發(fā)送給分詞云服務(wù)器;
S32、分詞云服務(wù)器對分詞任務(wù)請求進行安全驗證,驗證通過后利用第二解壓縮模塊進行數(shù)據(jù)解壓縮處理,還原出核心文本數(shù)據(jù);
S33、中文分詞系統(tǒng)對核心文本數(shù)據(jù)進行中文分詞處理,生成分詞結(jié)果;
S34、利用第二壓縮模塊基于壓縮詞典對分詞結(jié)果進行數(shù)據(jù)壓縮處理,發(fā)送給內(nèi)容服務(wù)器,同時將分詞結(jié)果存儲在分詞云服務(wù)器,對第二壓縮/解壓縮系統(tǒng)的壓縮詞典進行更新;
S35、內(nèi)容服務(wù)器利用第一解壓縮模塊進行數(shù)據(jù)解壓縮處理,還原出分詞結(jié)果,同時與分詞云服務(wù)器進行通信,對第一壓縮/解壓縮系統(tǒng)的壓縮詞典進行升級。
5.根據(jù)權(quán)利要求4所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟 S33中的中文分詞處理通過以下步驟實現(xiàn):
漢轉(zhuǎn)音剔除錯誤字詞;
通過同義匹配、詞性確認、語法切割、固定詞匹配、標點規(guī)范、縮進規(guī)范、冗余感知及網(wǎng)絡(luò)修正進行分詞處理。
6.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟S4還包括:
計算每個關(guān)鍵詞在核心文本數(shù)據(jù)出現(xiàn)的頻度,找出未與特征信息知識庫實現(xiàn)匹配且頻度高于預(yù)設(shè)頻度閾值的關(guān)鍵詞,并將該關(guān)鍵詞計入候選詞庫,存儲到數(shù)據(jù)庫中。