本發(fā)明涉及互聯(lián)網(wǎng)數(shù)據(jù)挖掘分析技術(shù)領(lǐng)域,尤其涉及一種網(wǎng)頁數(shù)據(jù)分析處理方法。
背景技術(shù):
目前,互聯(lián)網(wǎng)充斥著大量各式各樣的信息,人們處于數(shù)據(jù)龐大、信息海 量的時(shí)代。這些大量數(shù)據(jù)需要通過一定的發(fā)現(xiàn)方法,才能實(shí)現(xiàn)對(duì)企業(yè)或者社 會(huì)發(fā)展有意義的信息進(jìn)行深度挖掘。
以往的信息挖掘的方式一般通過信息檢索或者數(shù)理統(tǒng)計(jì)的方法進(jìn)行,比 如普通個(gè)人用戶使用的百度、谷歌等搜索引擎,雖然可以檢索到詞條相關(guān)內(nèi) 容,但是絕大多數(shù)都是無用信息,在這樣大量的數(shù)據(jù)條件下很難得到所希望 的精準(zhǔn)結(jié)果。而其深度挖掘和分析的功能往往都是面向大型企業(yè)或事業(yè)單位, 相對(duì)于廣大中小企業(yè)或普通個(gè)人用戶來說成本及其昂貴。因此迫切需要面向 廣大中小企業(yè)和普通個(gè)人用戶的低成本、定向化、精準(zhǔn)化的大數(shù)據(jù)分析平臺(tái), 為其提供精準(zhǔn)的情報(bào)搜集、輿情分析及決策服務(wù),使得廣大中小企業(yè)能夠在 大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)中充分掘取更多商業(yè)價(jià)值,提升企業(yè)核心競(jìng)爭力。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種網(wǎng)頁數(shù)據(jù)分析處理方法,該方法具有低成本、定向化、精準(zhǔn)化的特點(diǎn)。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種網(wǎng)頁數(shù)據(jù)分析處理方法,該方法基于一網(wǎng)頁數(shù)據(jù)服務(wù)平臺(tái)實(shí)現(xiàn),所述網(wǎng)頁數(shù)據(jù)服務(wù)平臺(tái)包括客戶端、內(nèi)容服務(wù)器和分詞云服務(wù)器,所述內(nèi)容服務(wù)器上安裝有網(wǎng)頁抓取系統(tǒng)、內(nèi)容提取系統(tǒng)、內(nèi)容分析系統(tǒng)和數(shù)據(jù)庫,所述方法具體實(shí)現(xiàn)步驟如下:
S1、網(wǎng)頁抓取
所述網(wǎng)頁抓取系統(tǒng)獲取爬取任務(wù),將待爬取 URL 加入爬蟲隊(duì)列,抓取網(wǎng)頁頁面;
S2、內(nèi)容提取
所述內(nèi)容提取系統(tǒng)基于閱讀習(xí)慣對(duì)步驟S1抓取的網(wǎng)頁頁面進(jìn)行分割,生成多個(gè)區(qū)塊,所述多個(gè)區(qū)塊包括主題塊和噪音塊,剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù);
S3、中文分詞
向所述分詞云服務(wù)器發(fā)送分詞任務(wù)請(qǐng)求,并提交步驟S2提取的核心文本數(shù)據(jù),分詞云服務(wù)器對(duì)核心文本數(shù)據(jù)進(jìn)行中文分詞處理,并將分詞結(jié)果發(fā)送給所述內(nèi)容分析系統(tǒng);
S4、內(nèi)容分析
預(yù)先建立實(shí)體關(guān)系數(shù)據(jù)集,所述實(shí)體關(guān)系數(shù)據(jù)集包含一組命名實(shí)體以及與每個(gè)命名實(shí)體對(duì)應(yīng)的特征信息知識(shí)庫,內(nèi)容分析系統(tǒng)針提取所述步驟S3得到的分詞結(jié)果的關(guān)鍵詞,得到關(guān)鍵詞數(shù)據(jù)集,針對(duì)每個(gè)關(guān)鍵詞在特征信息知識(shí)庫搜索與該關(guān)鍵詞對(duì)應(yīng)的匹配結(jié)果,將該匹配結(jié)果對(duì)應(yīng)的命名實(shí)體作為屬性索引項(xiàng)添加到結(jié)構(gòu)化數(shù)據(jù)表,將該關(guān)鍵詞作為屬性值添加到結(jié)構(gòu)化數(shù)據(jù)表,遍歷關(guān)鍵詞數(shù)據(jù)集中的所有關(guān)鍵詞,得到結(jié)構(gòu)化數(shù)據(jù)集,基于結(jié)構(gòu)化數(shù)據(jù)集對(duì)核心文本數(shù)據(jù)及對(duì)應(yīng)的網(wǎng)頁頁面進(jìn)行分類,并存儲(chǔ)到數(shù)據(jù)庫;
S5、結(jié)果呈現(xiàn)
客戶端從數(shù)據(jù)庫中調(diào)取數(shù)據(jù)結(jié)果,并呈現(xiàn)給用戶。
在本發(fā)明一實(shí)施例中,所述步驟S2具體實(shí)現(xiàn)步驟如下:
S21、內(nèi)容提取系統(tǒng)針對(duì)步驟S1抓取的網(wǎng)頁頁面生成初始 DOM 樹;
S22、清理初始DOM 樹中無用節(jié)點(diǎn),構(gòu)建目標(biāo) DOM 樹;
S23、利用基于視覺信息的網(wǎng)頁分塊算法對(duì)網(wǎng)頁頁面進(jìn)行分割,生成多個(gè)區(qū)塊,所述區(qū)塊攜帶有語義屬性,所述語義屬性包括鏈接個(gè)數(shù)、鏈接長度及文本長度;
S24、根據(jù)網(wǎng)頁頁面的鏈接數(shù)量和鏈接密度判斷網(wǎng)頁類型,若網(wǎng)頁類型為導(dǎo)航頁,則中止,若網(wǎng)頁類型為主題頁,則執(zhí)行步驟 S25;
S25、根據(jù)各個(gè)區(qū)塊的語義屬性,對(duì)各個(gè)區(qū)塊進(jìn)行分類,分為主題塊及噪音塊;
S26、剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù)。
在本發(fā)明一實(shí)施例中,所述步驟S22中的無用節(jié)點(diǎn)為初始DOM樹種與內(nèi)容提取無關(guān)的節(jié)點(diǎn),其包括腳本、樣式控制信息、注釋及空格文本節(jié)點(diǎn)。
在本發(fā)明一實(shí)施例中,所述內(nèi)容服務(wù)器上安裝有第一壓縮/解壓縮系統(tǒng),所述分詞云服務(wù)器上安裝有第二壓縮/解壓縮系統(tǒng)以及中文分詞系統(tǒng),第一壓縮/解壓縮系統(tǒng)和第二壓縮/解壓縮系統(tǒng)均具有壓縮詞典,所述第一壓縮/解壓縮系統(tǒng)還包括第一壓縮模塊、第一解壓縮模塊及詞典升級(jí)模塊,所述第二壓縮/解壓縮系統(tǒng)還包括第二壓縮模塊、第二解壓縮模塊及詞典更新模塊;
所述步驟 S3 具體實(shí)現(xiàn)步驟如下:
S31、內(nèi)容服務(wù)器向分詞云服務(wù)器發(fā)送分詞任務(wù)請(qǐng)求,并利用第一壓縮模塊基于壓縮詞典對(duì)所述核心文本數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮處理,發(fā)送給分詞云服務(wù)器;
S32、分詞云服務(wù)器對(duì)分詞任務(wù)請(qǐng)求進(jìn)行安全驗(yàn)證,驗(yàn)證通過后利用第二解壓縮模塊進(jìn)行數(shù)據(jù)解壓縮處理,還原出核心文本數(shù)據(jù);
S33、中文分詞系統(tǒng)對(duì)核心文本數(shù)據(jù)進(jìn)行中文分詞處理,生成分詞結(jié)果;
S34、利用第二壓縮模塊基于壓縮詞典對(duì)分詞結(jié)果進(jìn)行數(shù)據(jù)壓縮處理,發(fā)送給內(nèi)容服務(wù)器,同時(shí)將分詞結(jié)果存儲(chǔ)在分詞云服務(wù)器,對(duì)第二壓縮/解壓縮系統(tǒng)的壓縮詞典進(jìn)行更新;
S35、內(nèi)容服務(wù)器利用第一解壓縮模塊進(jìn)行數(shù)據(jù)解壓縮處理,還原出分詞結(jié)果,同時(shí)與分詞云服務(wù)器進(jìn)行通信,對(duì)第一壓縮/解壓縮系統(tǒng)的壓縮詞典進(jìn)行升級(jí)。
在本發(fā)明一實(shí)施例中,所述步驟 S33中的中文分詞處理通過以下步驟實(shí)現(xiàn):
漢轉(zhuǎn)音剔除錯(cuò)誤字詞;
通過同義匹配、詞性確認(rèn)、語法切割、固定詞匹配、標(biāo)點(diǎn)規(guī)范、縮進(jìn)規(guī)范、冗余感知及網(wǎng)絡(luò)修正進(jìn)行分詞處理。
在本發(fā)明一實(shí)施例中,所述步驟S4還包括:
計(jì)算每個(gè)關(guān)鍵詞在核心文本數(shù)據(jù)出現(xiàn)的頻度,找出未與特征信息知識(shí)庫實(shí)現(xiàn)匹配且頻度高于預(yù)設(shè)頻度閾值的關(guān)鍵詞,并將該關(guān)鍵詞計(jì)入候選詞庫,存儲(chǔ)到數(shù)據(jù)庫中。
相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:
1、本發(fā)明采用基于閱讀習(xí)慣的網(wǎng)頁內(nèi)容提取技術(shù),能夠快速識(shí)別出網(wǎng)頁 的主題內(nèi)容并進(jìn)行提取,采用云分詞技術(shù)實(shí)現(xiàn)高效中文分詞,為大數(shù)據(jù)分析 提供了基礎(chǔ)保障,用戶無需投入軟硬件資源,能夠滿足中小企業(yè)和普通個(gè)人 用戶的大數(shù)據(jù)分析服務(wù)的低成本、定向化要求;
2、本發(fā)明基于關(guān)系抽取技術(shù)來實(shí)現(xiàn)網(wǎng)頁內(nèi)容分析和網(wǎng)頁分類,通過針對(duì) 不同行業(yè)和需求設(shè)定實(shí)體關(guān)系數(shù)據(jù)集,可實(shí)現(xiàn)數(shù)據(jù)分析的精準(zhǔn)性;
3、本發(fā)明采用云分詞技術(shù)進(jìn)行中文分詞處理的過程中,通過配備壓縮詞 典及相應(yīng)的壓縮、解壓縮模塊,可較小分詞數(shù)據(jù)上傳、回傳的數(shù)量,提升了 中文分詞的效率,壓縮詞典可進(jìn)行更新升級(jí)(自動(dòng)或定時(shí)),進(jìn)一步確保了 分詞數(shù)據(jù)的壓縮效果。
附圖說明
圖 1 為本發(fā)明網(wǎng)頁數(shù)據(jù)服務(wù)平臺(tái)的結(jié)構(gòu)示意圖;
圖 2 為本發(fā)明的工作流程圖。
具體實(shí)施方式
下面結(jié)合附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)行具體說明。
本發(fā)明的一種網(wǎng)頁數(shù)據(jù)分析處理方法,該方法基于一網(wǎng)頁數(shù)據(jù)服務(wù)平臺(tái)實(shí)現(xiàn),所述網(wǎng)頁數(shù)據(jù)服務(wù)平臺(tái)包括客戶端、內(nèi)容服務(wù)器和分詞云服務(wù)器,所述內(nèi)容服務(wù)器上安裝有網(wǎng)頁抓取系統(tǒng)、內(nèi)容提取系統(tǒng)、內(nèi)容分析系統(tǒng)和數(shù)據(jù)庫,所述方法具體實(shí)現(xiàn)步驟如下:
S1、網(wǎng)頁抓取
所述網(wǎng)頁抓取系統(tǒng)獲取爬取任務(wù),將待爬取 URL 加入爬蟲隊(duì)列,抓取網(wǎng)頁頁面;
S2、內(nèi)容提取
所述內(nèi)容提取系統(tǒng)基于閱讀習(xí)慣對(duì)步驟S1抓取的網(wǎng)頁頁面進(jìn)行分割,生成多個(gè)區(qū)塊,所述多個(gè)區(qū)塊包括主題塊和噪音塊,剔除所述噪音塊,提取主題塊的核心文本數(shù)據(jù);
S3、中文分詞
向所述分詞云服務(wù)器發(fā)送分詞任務(wù)請(qǐng)求,并提交步驟S2提取的核心文本數(shù)據(jù),分詞云服務(wù)器對(duì)核心文本數(shù)據(jù)進(jìn)行中文分詞處理,并將分詞結(jié)果發(fā)送給所述內(nèi)容分析系統(tǒng);
S4、內(nèi)容分析
預(yù)先建立實(shí)體關(guān)系數(shù)據(jù)集,所述實(shí)體關(guān)系數(shù)據(jù)集包含一組命名實(shí)體以及與每個(gè)命名實(shí)體對(duì)應(yīng)的特征信息知識(shí)庫,內(nèi)容分析系統(tǒng)針提取所述步驟S3得到的分詞結(jié)果的關(guān)鍵詞,得到關(guān)鍵詞數(shù)據(jù)集,針對(duì)每個(gè)關(guān)鍵詞在特征信息知識(shí)庫搜索與該關(guān)鍵詞對(duì)應(yīng)的匹配結(jié)果,將該匹配結(jié)果對(duì)應(yīng)的命名實(shí)體作為屬性索引項(xiàng)添加到結(jié)構(gòu)化數(shù)據(jù)表,將該關(guān)鍵詞作為屬性值添加到結(jié)構(gòu)化數(shù)據(jù)表,遍歷關(guān)鍵詞數(shù)據(jù)集中的所有關(guān)鍵詞,得到結(jié)構(gòu)化數(shù)據(jù)集,基于結(jié)構(gòu)化數(shù)據(jù)集對(duì)核心文本數(shù)據(jù)及對(duì)應(yīng)的網(wǎng)頁頁面進(jìn)行分類,并存儲(chǔ)到數(shù)據(jù)庫;
S5、結(jié)果呈現(xiàn)
客戶端從數(shù)據(jù)庫中調(diào)取數(shù)據(jù)結(jié)果,并呈現(xiàn)給用戶。
以下為本發(fā)明的具體實(shí)施過程。
請(qǐng)參閱圖 1 和圖 2,本發(fā)明公開了一種網(wǎng)頁數(shù)據(jù)分析處理方法,基于網(wǎng)頁數(shù)據(jù)服務(wù)平臺(tái)實(shí)現(xiàn),網(wǎng)頁數(shù)據(jù)服務(wù)平臺(tái)包括客戶端 10、內(nèi)容服務(wù)器 20 及分詞 云服務(wù)器 30,內(nèi)容服務(wù)器 20 上安裝有網(wǎng)頁抓取系統(tǒng) 21、內(nèi)容提取系統(tǒng) 22、 內(nèi)容分析系統(tǒng) 23 及數(shù)據(jù)庫 24,該方法包括以下步驟:
S1、網(wǎng)頁抓取
網(wǎng)頁抓取系統(tǒng) 21 獲取爬取任務(wù),將待爬取 URL 加入爬蟲隊(duì)列,抓取網(wǎng)頁頁面;
S2、內(nèi)容提取
內(nèi)容提取系統(tǒng) 22 基于閱讀習(xí)慣對(duì)網(wǎng)頁頁面進(jìn)行分割,生成多個(gè)區(qū)塊,多個(gè)區(qū)塊包括主題塊及噪音塊,剔除噪音塊,提取主題塊的核心文本數(shù)據(jù)。步驟 S2 具體包括以下分步驟:
S21、內(nèi)容提取系統(tǒng) 22 針對(duì)網(wǎng)頁頁面生成初始 DOM 樹。
S22、清理初始 DOM 樹中無用節(jié)點(diǎn),構(gòu)建目標(biāo) DOM 樹。無用節(jié)點(diǎn)為初始 DOM 樹中與內(nèi)容提取無關(guān)的節(jié)點(diǎn),其包括腳本、樣式控制信息、注釋及空格文本節(jié)點(diǎn)。
S23、利用基于視覺信息的網(wǎng)頁分塊算法(VIPS) 對(duì)網(wǎng)頁頁面進(jìn)行分割,生成多個(gè)區(qū)塊,區(qū)塊攜帶有語義屬性,語義屬性包括鏈接個(gè)數(shù)、鏈接長度及文本長度。
S24、根據(jù)網(wǎng)頁頁面的鏈接數(shù)量和鏈接密度判斷網(wǎng)頁類型,若網(wǎng)頁類型為導(dǎo)航頁,則中止,若網(wǎng)頁類型為主題頁,則執(zhí)行步驟 S25。
S25、根據(jù)各個(gè)區(qū)塊的語義屬性,對(duì)各個(gè)區(qū)塊進(jìn)行分類,分為主題塊及噪音塊。噪音塊包括導(dǎo)航欄、廣告欄及其他干擾信息
S26、剔除噪音塊,提取主題塊的核心文本數(shù)據(jù)。優(yōu)選地,無用節(jié)點(diǎn)為初始 DOM 樹中與內(nèi)容提取無關(guān)的節(jié)點(diǎn),其包括腳本、樣式控制信息、注釋及空格文本節(jié)點(diǎn)。
S3、中文分詞
向分詞云服務(wù)器 30 發(fā)送分詞任務(wù)請(qǐng)求,并提交核心文本數(shù)據(jù),分詞云服務(wù)器 30 對(duì)核心文本數(shù)據(jù)進(jìn)行中文分詞處理,并將分詞結(jié)果發(fā)送給內(nèi)容分析系統(tǒng)23。
為實(shí)現(xiàn)核心文本數(shù)據(jù)和分詞結(jié)果的傳輸效率,本實(shí)施例采用了詞典壓縮技術(shù)。在本實(shí)施例中,內(nèi)容服務(wù)器 20 上安裝有第一壓縮/解壓縮系統(tǒng) 25,分詞云服務(wù)器 30 上安裝有第二壓縮/解壓縮系統(tǒng) 31 以及中文分詞系統(tǒng) 32,第一壓縮/解壓縮系統(tǒng) 25 和第二壓縮/解壓縮系統(tǒng) 31 均具有壓縮詞典,第一壓縮/解壓縮系統(tǒng) 25 還包括第一壓縮模塊、第一解壓縮模塊及詞典升級(jí)模塊,第二壓縮/解壓縮系統(tǒng) 31 還包括第二壓縮模塊、第二解壓縮模塊及詞典更新模塊。壓縮詞典可根據(jù)行業(yè)特點(diǎn)和用戶需求進(jìn)行定制。
步驟 S3 包括以下分步驟:
S31、內(nèi)容服務(wù)器 20 向分詞云服務(wù)器 30 發(fā)送分詞任務(wù)請(qǐng)求,并利用第一壓縮模塊基于壓縮詞典對(duì)核心文本數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮處理,發(fā)送給分詞云服務(wù)器 30。
S32、分詞云服務(wù)器 30 對(duì)分詞任務(wù)請(qǐng)求進(jìn)行安全驗(yàn)證,驗(yàn)證通過后利用第二解壓縮模塊進(jìn)行數(shù)據(jù)解壓縮處理,還原出核心文本數(shù)據(jù)。
S33、中文分詞系統(tǒng) 32 對(duì)核心文本數(shù)據(jù)進(jìn)行中文分詞處理,生成分詞結(jié)果。中文分詞處理具體為,首先通過漢轉(zhuǎn)音剔除錯(cuò)誤字詞,然后通過同義匹 配、詞性確認(rèn)、語法切割、固定詞匹配、標(biāo)點(diǎn)規(guī)范、縮進(jìn)規(guī)范、冗余感知及網(wǎng)絡(luò)修正進(jìn)行分詞處理。
S34、利用第二壓縮模塊基于壓縮詞典對(duì)分詞結(jié)果進(jìn)行數(shù)據(jù)壓縮處理,發(fā)送給內(nèi)容服務(wù)器 20,同時(shí)將分詞結(jié)果存儲(chǔ)在分詞云服務(wù)器 30,對(duì)第二壓縮/解壓縮系統(tǒng) 31 的壓縮詞典進(jìn)行更新。
S35、內(nèi)容服務(wù)器 20 利用第一解壓縮模塊進(jìn)行數(shù)據(jù)解壓縮處理,還原出分詞結(jié)果,同時(shí)與分詞云服務(wù)器 30 進(jìn)行通信,對(duì)第一壓縮/解壓縮系統(tǒng) 25 的壓縮詞典進(jìn)行升級(jí)。
S4、內(nèi)容分析
預(yù)先建立實(shí)體關(guān)系數(shù)據(jù)集,建立實(shí)體關(guān)系數(shù)據(jù)集包含一組命名實(shí)體以及與每個(gè)命名實(shí)體對(duì)應(yīng)的特征信息知識(shí)庫。
內(nèi)容分析系統(tǒng) 23 針對(duì)分詞結(jié)果提取關(guān)鍵詞,得到關(guān)鍵詞數(shù)據(jù)集。
針對(duì)每個(gè)關(guān)鍵詞在特征信息知識(shí)庫搜索與該關(guān)鍵詞對(duì)應(yīng)的匹配結(jié)果,將該匹配結(jié)果對(duì)應(yīng)的命名實(shí)體作為屬性索引項(xiàng)添加到結(jié)構(gòu)化數(shù)據(jù)表,將該關(guān)鍵詞作為屬性值添加到結(jié)構(gòu)化數(shù)據(jù)表,遍歷關(guān)鍵詞數(shù)據(jù)集中的所有關(guān)鍵詞,得到結(jié)構(gòu)化數(shù)據(jù)集。
基于結(jié)構(gòu)化數(shù)據(jù)集對(duì)核心文本數(shù)據(jù)及對(duì)應(yīng)的網(wǎng)頁頁面進(jìn)行分類,并存儲(chǔ)到數(shù)據(jù)庫 24。
計(jì)算每個(gè)關(guān)鍵詞在核心文本數(shù)據(jù)出現(xiàn)的頻度,找出未與特征信息知識(shí)庫實(shí)現(xiàn)匹配且頻度高于預(yù)設(shè)頻度閾值的關(guān)鍵詞,并將該關(guān)鍵詞計(jì)入候選詞庫,存儲(chǔ)到數(shù)據(jù)庫 24 中,后續(xù)可通過人工方式對(duì)候選詞庫中的關(guān)鍵詞進(jìn)行評(píng)估,選擇添加到特征信息知識(shí)庫中或者刪除。
S5、結(jié)果呈現(xiàn)
客戶端 10 從數(shù)據(jù)庫 24 中調(diào)取數(shù)據(jù)結(jié)果,并呈現(xiàn)給用戶。
通過以上描述可以看出,本發(fā)明可根據(jù)用戶需求定制業(yè)務(wù)規(guī)則和分析模型,利用內(nèi)容服務(wù)器 20 進(jìn)行網(wǎng)頁主題內(nèi)容提取和數(shù)據(jù)分析,利用分詞云服務(wù)器 30 進(jìn)行中文分詞,利用客戶端 10 查看數(shù)據(jù)推送結(jié)果。用戶無需投入軟硬件資源,能夠滿足中小企業(yè)和普通個(gè)人用戶的大數(shù)據(jù)分析服務(wù)的低成本、定 向化要求。
以上所述,僅為本發(fā)明較佳的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。