亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種網(wǎng)頁數(shù)據(jù)分析處理方法與流程

文檔序號:12667116閱讀:來源:國知局

技術(shù)特征:

1.一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:該方法基于一網(wǎng)頁數(shù)據(jù)服務(wù)平臺實現(xiàn),所述網(wǎng)頁數(shù)據(jù)服務(wù)平臺包括客戶端、內(nèi)容服務(wù)器和分詞云服務(wù)器,所述內(nèi)容服務(wù)器上安裝有網(wǎng)頁抓取系統(tǒng)、內(nèi)容提取系統(tǒng)、內(nèi)容分析系統(tǒng)和數(shù)據(jù)庫,所述方法具體實現(xiàn)步驟如下:

S1、網(wǎng)頁抓取

所述網(wǎng)頁抓取系統(tǒng)獲取爬取任務(wù),將待爬取 URL 加入爬蟲隊列,抓取網(wǎng)頁頁面;

S2、內(nèi)容提取

所述內(nèi)容提取系統(tǒng)基于閱讀習慣對步驟S1抓取的網(wǎng)頁頁面進行分割,生成多個區(qū)塊,所述多個區(qū)塊包括主題塊和噪音塊,剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù);

S3、中文分詞

向所述分詞云服務(wù)器發(fā)送分詞任務(wù)請求,并提交步驟S2提取的核心文本數(shù)據(jù),分詞云服務(wù)器對核心文本數(shù)據(jù)進行中文分詞處理,并將分詞結(jié)果發(fā)送給所述內(nèi)容分析系統(tǒng);

S4、內(nèi)容分析

預(yù)先建立實體關(guān)系數(shù)據(jù)集,所述實體關(guān)系數(shù)據(jù)集包含一組命名實體以及與每個命名實體對應(yīng)的特征信息知識庫,內(nèi)容分析系統(tǒng)針提取所述步驟S3得到的分詞結(jié)果的關(guān)鍵詞,得到關(guān)鍵詞數(shù)據(jù)集,針對每個關(guān)鍵詞在特征信息知識庫搜索與該關(guān)鍵詞對應(yīng)的匹配結(jié)果,將該匹配結(jié)果對應(yīng)的命名實體作為屬性索引項添加到結(jié)構(gòu)化數(shù)據(jù)表,將該關(guān)鍵詞作為屬性值添加到結(jié)構(gòu)化數(shù)據(jù)表,遍歷關(guān)鍵詞數(shù)據(jù)集中的所有關(guān)鍵詞,得到結(jié)構(gòu)化數(shù)據(jù)集,基于結(jié)構(gòu)化數(shù)據(jù)集對核心文本數(shù)據(jù)及對應(yīng)的網(wǎng)頁頁面進行分類,并存儲到數(shù)據(jù)庫;

S5、結(jié)果呈現(xiàn)

客戶端從數(shù)據(jù)庫中調(diào)取數(shù)據(jù)結(jié)果,并呈現(xiàn)給用戶。

2.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟S2具體實現(xiàn)步驟如下:

S21、內(nèi)容提取系統(tǒng)針對步驟S1抓取的網(wǎng)頁頁面生成初始 DOM 樹;

S22、清理初始DOM 樹中無用節(jié)點,構(gòu)建目標 DOM 樹;

S23、利用基于視覺信息的網(wǎng)頁分塊算法對網(wǎng)頁頁面進行分割,生成多個區(qū)塊,所述區(qū)塊攜帶有語義屬性,所述語義屬性包括鏈接個數(shù)、鏈接長度及文本長度;

S24、根據(jù)網(wǎng)頁頁面的鏈接數(shù)量和鏈接密度判斷網(wǎng)頁類型,若網(wǎng)頁類型為導航頁,則中止,若網(wǎng)頁類型為主題頁,則執(zhí)行步驟 S25;

S25、根據(jù)各個區(qū)塊的語義屬性,對各個區(qū)塊進行分類,分為主題塊及噪音塊;

S26、剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù)。

3.根據(jù)權(quán)利要求2所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟S22中的無用節(jié)點為初始DOM樹種與內(nèi)容提取無關(guān)的節(jié)點,其包括腳本、樣式控制信息、注釋及空格文本節(jié)點。

4.根據(jù)權(quán)利要求1至3任一所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述內(nèi)容服務(wù)器上安裝有第一壓縮/解壓縮系統(tǒng),所述分詞云服務(wù)器上安裝有第二壓縮/解壓縮系統(tǒng)以及中文分詞系統(tǒng),第一壓縮/解壓縮系統(tǒng)和第二壓縮/解壓縮系統(tǒng)均具有壓縮詞典,所述第一壓縮/解壓縮系統(tǒng)還包括第一壓縮模塊、第一解壓縮模塊及詞典升級模塊,所述第二壓縮/解壓縮系統(tǒng)還包括第二壓縮模塊、第二解壓縮模塊及詞典更新模塊;

所述步驟 S3 具體實現(xiàn)步驟如下:

S31、內(nèi)容服務(wù)器向分詞云服務(wù)器發(fā)送分詞任務(wù)請求,并利用第一壓縮模塊基于壓縮詞典對所述核心文本數(shù)據(jù)進行數(shù)據(jù)壓縮處理,發(fā)送給分詞云服務(wù)器;

S32、分詞云服務(wù)器對分詞任務(wù)請求進行安全驗證,驗證通過后利用第二解壓縮模塊進行數(shù)據(jù)解壓縮處理,還原出核心文本數(shù)據(jù);

S33、中文分詞系統(tǒng)對核心文本數(shù)據(jù)進行中文分詞處理,生成分詞結(jié)果;

S34、利用第二壓縮模塊基于壓縮詞典對分詞結(jié)果進行數(shù)據(jù)壓縮處理,發(fā)送給內(nèi)容服務(wù)器,同時將分詞結(jié)果存儲在分詞云服務(wù)器,對第二壓縮/解壓縮系統(tǒng)的壓縮詞典進行更新;

S35、內(nèi)容服務(wù)器利用第一解壓縮模塊進行數(shù)據(jù)解壓縮處理,還原出分詞結(jié)果,同時與分詞云服務(wù)器進行通信,對第一壓縮/解壓縮系統(tǒng)的壓縮詞典進行升級。

5.根據(jù)權(quán)利要求4所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟 S33中的中文分詞處理通過以下步驟實現(xiàn):

漢轉(zhuǎn)音剔除錯誤字詞;

通過同義匹配、詞性確認、語法切割、固定詞匹配、標點規(guī)范、縮進規(guī)范、冗余感知及網(wǎng)絡(luò)修正進行分詞處理。

6.根據(jù)權(quán)利要求1所述的一種網(wǎng)頁數(shù)據(jù)分析處理方法,其特征在于:所述步驟S4還包括:

計算每個關(guān)鍵詞在核心文本數(shù)據(jù)出現(xiàn)的頻度,找出未與特征信息知識庫實現(xiàn)匹配且頻度高于預(yù)設(shè)頻度閾值的關(guān)鍵詞,并將該關(guān)鍵詞計入候選詞庫,存儲到數(shù)據(jù)庫中。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1