專利名稱:一種基于內(nèi)容的網(wǎng)頁分類方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)安全及監(jiān)控領(lǐng)域,尤其涉及一種基于內(nèi)容的網(wǎng)頁分類方法及系統(tǒng)。
背景技術(shù):
在網(wǎng)絡(luò)安全及監(jiān)控領(lǐng)域中,按照實際策略需求,需要對某些類別的網(wǎng)站進(jìn)行屏蔽,此外,企業(yè)為防止重要信息外泄及回查,需要 將用戶的訪問記錄及流量信息記錄下來。因此,對客戶實際的訪問內(nèi)容進(jìn)行控制、審計和記錄日志,是目前上網(wǎng)行為管理類產(chǎn)品的主要目的。在此背景下,對于網(wǎng)站乃至網(wǎng)頁的內(nèi)容識別的實時性和準(zhǔn)確性及相關(guān)的實現(xiàn)技術(shù),是該領(lǐng)域目前的技術(shù)核心。目前,對于網(wǎng)站分類,多采用線下分類的方式。即事先通過網(wǎng)絡(luò)爬蟲技術(shù)得到大量頁面,采用自然語言處理的相關(guān)方法(例如基于規(guī)則的分類器、支持向量機(jī)(SVM)等),對網(wǎng)頁內(nèi)容進(jìn)行分類后,存儲到數(shù)據(jù)庫中。實際使用環(huán)境下,根據(jù)該數(shù)據(jù)庫得到相應(yīng)的頁面類另IJ,供審計和日志程序使用。但是,上述分類方法具有以下缺陷I)分類的準(zhǔn)確性不夠高。由于采用基于自然語言處理的相關(guān)方法,就目前技術(shù)發(fā)展水平而言,其分類準(zhǔn)確度有限,且這些方法的結(jié)論均是基于對較規(guī)范文本做出的測試結(jié)果。這樣的準(zhǔn)確度,在上網(wǎng)行為管理類產(chǎn)品的應(yīng)用場景下,基本不可接受。某一個網(wǎng)頁的分類錯誤,都可能導(dǎo)致客戶的投訴。多數(shù)網(wǎng)站網(wǎng)頁語言并不規(guī)范,更增加了利用相關(guān)方法進(jìn)行分類的復(fù)雜度。此外,對于分類詞庫及分類器的構(gòu)建和維護(hù)比較復(fù)雜、成本較高;2)分類粒度較粗?,F(xiàn)有分類方法基于數(shù)據(jù)庫進(jìn)行分類,考慮到頁面數(shù)量巨大及查詢效率等方面的考慮,分類結(jié)果一般只能夠達(dá)到網(wǎng)站級,對于某些大型或知名網(wǎng)站能夠達(dá)到頻道級。但是,隨著微博、社會性網(wǎng)絡(luò)服務(wù)(Social Networking Services, SNS)的發(fā)展,網(wǎng)站級或頻道級的分類越來越不能滿足用戶需求,例如下述的一個場景此前某企業(yè)不允許員工在工作時間觀看視頻,采用基于網(wǎng)站或頻道的分類就可以解決(例如土豆、優(yōu)酷、奇藝等);但目前用戶有了新的需求,不允許用戶觀看電影、電視劇等視頻,但允許用戶觀看教育類視頻,此時,原先的分類方法就無法再滿足用戶需求了。此外,對于某些購物類網(wǎng)站、SNS網(wǎng)站,用戶也會提出類似的需求;3)分類實時性不夠。由于網(wǎng)站演進(jìn)迅猛,每天過時的網(wǎng)站與新生的網(wǎng)站數(shù)量巨大,因此對于數(shù)據(jù)庫的維護(hù)是非常耗時耗力的。此外,對于用戶場景下的某些數(shù)據(jù)庫中沒有收集到的網(wǎng)站,通常只能給出未分類的結(jié)果;4)目前采用的分類方法,多數(shù)為自動分類器+手工回查或純手工分類的方式,數(shù)據(jù)庫增長速度較慢,且人力成本較高。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的主要目的在于提供一種基于內(nèi)容的網(wǎng)頁分類方法及系統(tǒng),能夠?qū)崿F(xiàn)基于頁面粒度的分類,以及提高分類準(zhǔn)確度、提高分類實時性、減少人力成本。為達(dá)到上述目的,本發(fā)明的技術(shù)方案是這樣實現(xiàn)的一種基于內(nèi)容的網(wǎng)頁分類方法,包括用戶設(shè)備獲取用戶要訪問的網(wǎng)頁的統(tǒng)一資源定位符URL中的特征關(guān)鍵字,并根據(jù)所述URL中的特征關(guān)鍵字查詢本地的URL特征庫,以獲取相應(yīng)的網(wǎng)頁分類信息;用戶設(shè)備在URL特征庫中未查詢到相應(yīng)的網(wǎng)頁分類信息,則進(jìn)一步獲取用戶要訪問的網(wǎng)頁的頁面內(nèi)容,并根據(jù)所述頁面內(nèi)容查 詢本地的頁面模板庫,以獲取相應(yīng)的網(wǎng)頁分
類信息。該方法還包括用戶設(shè)備在頁面模板庫中未查詢到相應(yīng)的網(wǎng)頁分類信息,則將所述用戶要訪問的網(wǎng)頁的網(wǎng)頁信息發(fā)送至模板生成子系統(tǒng);所述模板生成子系統(tǒng)根據(jù)各用戶設(shè)備發(fā)送的網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫,并將所述新的URL特征庫和/或頁面模板庫發(fā)送給各用戶設(shè)備。所述模板生成子系統(tǒng)根據(jù)各用戶設(shè)備發(fā)送網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫為統(tǒng)計網(wǎng)頁信息被發(fā)送的次數(shù);選擇被發(fā)送次數(shù)高的至少一個網(wǎng)頁生成新的URL特征庫和/或頁面模板庫。所述模板生成系統(tǒng)根據(jù)各用戶設(shè)備發(fā)送網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫具體為對待提取的頁面信息進(jìn)行標(biāo)注;標(biāo)注完成后,自動訓(xùn)練產(chǎn)生該網(wǎng)頁頁面的備選模板;將備選模板在新的數(shù)據(jù)中進(jìn)行測試;測試成功后,將所述備選模板加入URL特征庫和/或頁面模板庫,生成新的URL特征庫和/或頁面模板庫。所述用戶設(shè)備獲取用戶要訪問的網(wǎng)頁的URL中的特征關(guān)鍵字,并根據(jù)所述URL中的特征關(guān)鍵字查詢本地的URL特征庫之前,該方法還包括根據(jù)用戶要訪問的網(wǎng)頁的URL查詢高速緩沖存儲器Cache,命中記錄,則直接返回分類結(jié)果;否則,進(jìn)一步根據(jù)用戶要訪問的網(wǎng)頁的URL查詢數(shù)據(jù)庫,命中記錄,則直接返回分類結(jié)果,查詢Cache和數(shù)據(jù)庫均未命中記錄,則判斷所述URL對應(yīng)的域名是否支持細(xì)分,如果是,執(zhí)行后續(xù)步驟;否則,返回未分類結(jié)果。—種基于內(nèi)容的網(wǎng)頁分類系統(tǒng),包括用戶設(shè)備,所述用戶設(shè)備具體包括第一獲取模塊、第一查詢模塊、URL特征庫、第二獲取模塊、第二查詢模塊和頁面模板庫;其中,所述第一獲取模塊,用于獲取用戶要訪問的網(wǎng)頁的URL中的特征關(guān)鍵字;所述第一查詢模塊,用于根據(jù)所述第一獲取模塊獲取的URL中的特征關(guān)鍵字查詢URL特征庫,以獲取相應(yīng)的網(wǎng)頁分類信息;所述URL特征庫,用于存儲URL中的特征關(guān)鍵字和分類信息的對應(yīng)關(guān)系;所述第二獲取模塊,用于獲取用戶要訪問的網(wǎng)頁的頁面內(nèi)容;所述第二查詢模塊,用于在第一查詢模塊未查詢到相應(yīng)的網(wǎng)頁分類信息時,根據(jù)所述第二獲取模塊獲取的頁面內(nèi)容查詢頁面模板庫,以獲取相應(yīng)的網(wǎng)頁分類信息;
所述頁面模板庫,用于存儲頁面內(nèi)容和分類信息的對應(yīng)關(guān)系。所述用戶設(shè)備還包括通信模塊,該系統(tǒng)還包括模板生成子系統(tǒng),所述模板生成子系統(tǒng)具體包括通信模塊和模板生成模塊;其中,所述用戶設(shè)備的通信模塊,用于在第二查詢模塊未查詢到相應(yīng)的網(wǎng)頁分類信息時,將所述用戶要訪問的網(wǎng)頁的網(wǎng)頁信息發(fā)送至模板生成子系統(tǒng);所述模板生成子系統(tǒng)的通信模塊,用于接收各用戶設(shè)備發(fā)送的網(wǎng)頁信息;以及將模板生成模塊生成的新的URL特征庫和/或頁面模板庫發(fā)送給各用戶設(shè)備;所述模板生成模塊,用于根據(jù)所述通 信模塊接收的網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫。所述模板生成子系統(tǒng)還包括統(tǒng)計分析模塊,所述統(tǒng)計分析模塊,用于統(tǒng)計網(wǎng)頁信息被發(fā)送的次數(shù),并選擇被發(fā)送次數(shù)高的至少一個網(wǎng)頁;所述模板生成模塊,具體用于根據(jù)所述統(tǒng)計分析模塊選擇的至少一個網(wǎng)頁,生成新的URL特征庫和/或頁面模板庫。所述模板生成模塊,具體用于對待提取的關(guān)鍵詞進(jìn)行標(biāo)注;標(biāo)注完成后,自動訓(xùn)練產(chǎn)生該網(wǎng)頁頁面的備選模板;將備選模板在新的數(shù)據(jù)中進(jìn)行測試;測試成功后,將所述備選模板加入URL特征庫和/或頁面模板庫,生成新的URL特征庫和/或頁面模板庫。所述用戶設(shè)備還包括第三查詢模塊、Cache、第四查詢模塊、數(shù)據(jù)庫和判斷模塊;其中,所述第三查詢模塊,用于根據(jù)用戶要訪問的網(wǎng)頁的URL及頁面內(nèi)容查詢Cache ;所述Cache和數(shù)據(jù)庫,用于存儲URL與分類信息的對應(yīng)關(guān)系;所述第四查詢模塊,用于在第三查詢模塊未在Cache命中記錄時,根據(jù)用戶要訪問的網(wǎng)頁的URL查詢數(shù)據(jù)庫;所述判斷模塊,用于在第四查詢模塊未命中記錄時,判斷所述URL對應(yīng)的域名是否支持細(xì)分,如果是,通知第一查詢模塊進(jìn)行查詢。本發(fā)明基于內(nèi)容的網(wǎng)頁分類方法及系統(tǒng),用戶設(shè)備利用網(wǎng)站相關(guān)的URL特征描述規(guī)則,獲取用戶要訪問的網(wǎng)頁的統(tǒng)一資源定位符URL中的特征關(guān)鍵字,并根據(jù)所述URL中的特征關(guān)鍵字查詢本地的URL特征庫,以獲取相應(yīng)的網(wǎng)頁分類信息;用戶設(shè)備在URL特征庫中未查詢到相應(yīng)的網(wǎng)頁分類信息,則進(jìn)一步獲取用戶要訪問的網(wǎng)頁的頁面內(nèi)容,并根據(jù)所述頁面內(nèi)容查詢本地的頁面模板庫,以獲取相應(yīng)的網(wǎng)頁分類信息。本發(fā)明利用特定的網(wǎng)站中網(wǎng)頁頁面的關(guān)鍵內(nèi)容信息,來幫助進(jìn)行頁面級別的細(xì)粒度分類問題。采用本發(fā)明所述的方案具有以下有益效果I、提高了分類準(zhǔn)確度。由于利用特定網(wǎng)站自身的分類信息,因此對于網(wǎng)頁識別的內(nèi)容能夠達(dá)到100 %,完全滿足上網(wǎng)管理類產(chǎn)品的實際需求。2、實現(xiàn)了基于頁面粒度的分類。對于這些富含內(nèi)容的網(wǎng)站,對于其分類能夠基于頁面粒度進(jìn)行。3、能夠提供實時分類結(jié)果。由于不再基于數(shù)據(jù)庫構(gòu)建分類結(jié)果,因此,對于網(wǎng)站中新增的頁面,能夠提供實時的分類結(jié)果。4減少了人力成本。對于新增的或變更的特定富含內(nèi)容的網(wǎng)站,本發(fā)明僅需要通過半自動的方法,人工確認(rèn)網(wǎng)站模板,即可達(dá)到對于新增和變更的網(wǎng)站分類的支持。
圖I為本發(fā)明實施例一種基于內(nèi)容的網(wǎng)頁分類方法流程示意圖;圖2為本發(fā)明另一實施例一種基于內(nèi)容的網(wǎng)頁分類方法流程示意圖;圖3為本發(fā)明實施例一種基于內(nèi)容的網(wǎng)頁分類系統(tǒng)結(jié)構(gòu)示意圖;圖4為本發(fā)明另一實施例一種基于 內(nèi)容的網(wǎng)頁分類系統(tǒng)結(jié)構(gòu)示意圖;圖5為本發(fā)明另一實施例一種基于內(nèi)容的網(wǎng)頁分類系統(tǒng)結(jié)構(gòu)示意圖;圖6為本發(fā)明實施例一種基于內(nèi)容的網(wǎng)頁分類方法流程示意圖。
具體實施例方式本發(fā)明的基本思想是用戶設(shè)備獲取用戶要訪問的網(wǎng)頁的統(tǒng)一資源定位符URL中的特征關(guān)鍵字,并根據(jù)所述URL中的特征關(guān)鍵字查詢本地的URL特征庫,以獲取相應(yīng)的網(wǎng)頁分類信息;用戶設(shè)備在URL特征庫中未查詢到相應(yīng)的網(wǎng)頁分類信息,則進(jìn)一步獲取用戶要訪問的網(wǎng)頁的頁面內(nèi)容,并根據(jù)所述頁面內(nèi)容查詢本地的頁面模板庫,以獲取相應(yīng)的網(wǎng)頁分類信息圖I為本發(fā)明實施例一種基于內(nèi)容的網(wǎng)頁分類方法流程示意圖,如圖I所示,該方法包括步驟101 :用戶設(shè)備獲取用戶要訪問的網(wǎng)頁的統(tǒng)一資源定位符URL中的特征關(guān)鍵字,并根據(jù)所述URL中的特征關(guān)鍵字查詢本地的URL特征庫,以獲取相應(yīng)的網(wǎng)頁分類信息;步驟102 :用戶設(shè)備在URL特征庫中未查詢到相應(yīng)的網(wǎng)頁分類信息,則進(jìn)一步獲取用戶要訪問的網(wǎng)頁的頁面內(nèi)容,并根據(jù)所述頁面內(nèi)容查詢本地的頁面模板庫,以獲取相應(yīng)的網(wǎng)頁分類信息。本發(fā)明主要利用兩個手段實現(xiàn)基于頁面內(nèi)容的細(xì)分,一是利用網(wǎng)頁URL中的特征關(guān)鍵字(例如對新浪微博中的“發(fā)微博”進(jìn)行控制,其URL中包含“/aj/mblog/add”關(guān)鍵字等);二是利用用戶點擊網(wǎng)頁中的頁面內(nèi)容,在富含內(nèi)容的網(wǎng)站,其網(wǎng)站編輯人員已經(jīng)做了大量的工作例如對視頻分類、對商品種類歸類等,所以,可以利用這些已有信息來對網(wǎng)頁進(jìn)行分類,例如對于網(wǎng)購類別網(wǎng)站,根據(jù)分類體系的粒度需求,可將不同類別的網(wǎng)頁分別劃歸至不同的分類中。圖2為本發(fā)明另一實施例一種基于內(nèi)容的網(wǎng)頁分類方法流程示意圖,如圖2所示,該方法還包括步驟103 :用戶設(shè)備在頁面模板庫中未查詢到相應(yīng)的網(wǎng)頁分類信息,則將所述用戶要訪問的網(wǎng)頁的網(wǎng)頁信息發(fā)送至模板生成子系統(tǒng);步驟104 :所述模板生成子系統(tǒng)根據(jù)各用戶設(shè)備發(fā)送的網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫,并將所述新的URL特征庫和/或頁面模板庫發(fā)送給各用戶設(shè)備。可選的,所述模板生成子系統(tǒng)根據(jù)各用戶設(shè)備發(fā)送網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫為統(tǒng)計網(wǎng)頁信息被發(fā)送的次數(shù);選擇被發(fā)送次數(shù)高的至少一個網(wǎng)頁生成新的URL特征庫和/或頁面模板庫。可選的,所述模板生成系統(tǒng)根據(jù)各用戶設(shè)備發(fā)送網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫具體為對待提取的頁面信息進(jìn)行標(biāo)注;標(biāo)注完成后,自動訓(xùn)練產(chǎn)生該網(wǎng)頁頁面的備選模板;將備選模板在新的數(shù)據(jù)中進(jìn)行測試;測試成功后,將所述備選模板加入URL特征庫和/或頁面模板庫,生成新的URL特征庫和/或頁面模板庫??蛇x的,所述用戶設(shè)備獲取用戶要訪 問的網(wǎng)頁的URL中的特征關(guān)鍵字,并根據(jù)所述URL中的特征關(guān)鍵字查詢本地的URL特征庫之前,該方法還包括根據(jù)用戶要訪問的網(wǎng)頁的URL查詢高速緩沖存儲器Cache,命中記錄,則直接返回分類結(jié)果;否則,進(jìn)一步根據(jù)用戶要訪問的網(wǎng)頁的URL查詢數(shù)據(jù)庫,命中記錄,則直接返回分類結(jié)果,查詢Cache和數(shù)據(jù)庫均未命中記錄,則判斷所述URL對應(yīng)的域名是否支持細(xì)分,如果是,執(zhí)行后續(xù)步驟;否則,返回未分類結(jié)果。本發(fā)明還相應(yīng)地提出了一種基于內(nèi)容的網(wǎng)頁分類系統(tǒng),圖3為本發(fā)明實施例一種基于內(nèi)容的網(wǎng)頁分類系統(tǒng)結(jié)構(gòu)示意圖,如圖3所示,該系統(tǒng)包括至少一個用戶設(shè)備,所述用戶設(shè)備一般部署于客戶機(jī)房中,運(yùn)行于客戶環(huán)境,實時收集用戶點擊的網(wǎng)頁URL,通過查詢分類,來對用戶行為進(jìn)行控制;或者記錄日志等,所述用戶設(shè)備具體包括第一獲取模塊、第一查詢模塊、URL特征庫、第二獲取模塊、第二查詢模塊和頁面模板庫;其中,所述第一獲取模塊,用于獲取用戶要訪問的網(wǎng)頁的URL中的特征關(guān)鍵字;需要說明的是,從URL中提取特征關(guān)鍵字,是基于事先生成的與特定網(wǎng)站相關(guān)的URL特征描述規(guī)則進(jìn)行的;所述第一查詢模塊,用于根據(jù)所述第一獲取模塊獲取的URL中的特征關(guān)鍵字查詢URL特征庫,以獲取相應(yīng)的網(wǎng)頁分類信息;需要說明的是,URL特征庫中存儲了與網(wǎng)站相關(guān)的特征關(guān)鍵字與產(chǎn)品分類體系的對應(yīng)關(guān)系,當(dāng)從URL中提取到特征關(guān)鍵字后,需要根據(jù)URL特征庫對類別進(jìn)行分類映射轉(zhuǎn)換,轉(zhuǎn)化為產(chǎn)品所提供的類別返回給審計或日志進(jìn)程。所述URL特征庫,用于存儲URL中的特征關(guān)鍵字和分類信息的對應(yīng)關(guān)系,所述對應(yīng)關(guān)系是與具體網(wǎng)站及其URL特征相關(guān)的,類似于模板,一個網(wǎng)站可能存在一個或幾個對應(yīng)關(guān)系;所述第二獲取模塊,用于獲取用戶要訪問的網(wǎng)頁的頁面內(nèi)容;實際客戶環(huán)境中,URL的獲取與頁面內(nèi)容的獲取是同時的,用戶訪問某網(wǎng)站時,所有內(nèi)容都可以被記錄到;所述第二查詢模塊,用于在第一查詢模塊未查詢到相應(yīng)的網(wǎng)頁分類信息時,根據(jù)所述第二獲取模塊獲取的頁面內(nèi)容查詢頁面模板庫,以獲取相應(yīng)的網(wǎng)頁分類信息;所述頁面模板庫,用于存儲頁面模板以及基于頁面模板提取的頁面關(guān)鍵信息和分類信息的對應(yīng)關(guān)系。頁面模板庫包含兩個組件,一是提供了如何從頁面內(nèi)容中提取所需分類信息的一套描述規(guī)則,用于提取能夠幫助進(jìn)行頁面分類的關(guān)鍵信息;二是一套匹配關(guān)系,即提取出來的關(guān)鍵信息與分類體系之間的一套映射關(guān)系。同URL特征庫,在提取到能夠反映頁面的關(guān)鍵語義信息后,也需要轉(zhuǎn)換成產(chǎn)品分類體系后返回給審計或日志進(jìn)程。 圖4為本發(fā)明另一實施例一種基于內(nèi)容的網(wǎng)頁分類系統(tǒng)結(jié)構(gòu)示意圖,如圖4所示,所述用戶設(shè)備還包括通信模塊,該系統(tǒng)還包括模板生成子系統(tǒng),所述模板生成子系統(tǒng)具體包括通信模塊和模板生成模塊;其中,
所述用戶設(shè)備的通信模塊,用于在第二查詢模塊未查詢到相應(yīng)的網(wǎng)頁分類信息時,將所述用戶要訪問的網(wǎng)頁的網(wǎng)頁信息(URL和/或網(wǎng)頁內(nèi)容信息)發(fā)送至模板生成子系統(tǒng);需要說明的是,發(fā)送網(wǎng)頁信息可以有兩種選擇,一種僅返回網(wǎng)頁的URL信息,另一種返回URL及頁面內(nèi)容信息。前面一種在模板訓(xùn)練和測試階段需要采用爬蟲進(jìn)行頁面內(nèi)容的下載。所述模板生成子系統(tǒng)的通信模塊,用于接收各用戶設(shè)備發(fā)送的網(wǎng)頁信息;以及將模板生成模塊生成的新的URL特征庫和/或頁面模板庫發(fā)送給各用戶設(shè)備;該模塊主要承擔(dān)接收來自模板生成模塊的新模板,和自動向開通模板更新服務(wù)的設(shè)備端下發(fā)模板的功能;記錄各設(shè)備的更新版本和更新歷史,更有效快速的提供服務(wù)。所述模板生成模塊,用于根據(jù)所述通 信模塊接收的網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫。URL特征庫生成包括兩個部分URL特征描述規(guī)則和URL關(guān)鍵字信息與產(chǎn)品分類體系的映射關(guān)系;在收集到各用戶設(shè)備發(fā)送的網(wǎng)頁信息后,人工觀察其URL中是否包含能夠幫助分類的關(guān)鍵信息,如有,則人工對需要提取的信息進(jìn)行標(biāo)注;經(jīng)過標(biāo)注的一個或幾個URL通過自動學(xué)習(xí),得到備選URL特征描述規(guī)則;備選規(guī)則經(jīng)過一些測試URL測試通過后,可轉(zhuǎn)為可正式發(fā)布的URL特征描述規(guī)則;采用設(shè)備發(fā)送的大量網(wǎng)頁信息(或采用爬蟲進(jìn)行網(wǎng)站內(nèi)定向爬取),利用URL特征描述規(guī)則進(jìn)行關(guān)鍵字彳目息提取,提取出關(guān)鍵字彳目息列表;人工建立關(guān)鍵字信息列表與產(chǎn)品分類體系之間的映射關(guān)系;URL特征庫發(fā)布;同理,頁面模板庫也包含兩個部分頁面模板和頁面關(guān)鍵信息與產(chǎn)品分類體系的映射關(guān)系;整個流程與URL特征庫類似;對一個(或幾個)頁面上待提取的能夠幫助網(wǎng)頁進(jìn)行分類的關(guān)鍵信息進(jìn)行標(biāo)注(數(shù)據(jù)來源可通過用戶設(shè)備反饋網(wǎng)頁或爬蟲爬取);采用算法自動進(jìn)行模板的學(xué)習(xí),得到備選模板;采用測試數(shù)據(jù)對備選模板進(jìn)行測試;如能完整提取關(guān)鍵信息,備選模板轉(zhuǎn)正;采用轉(zhuǎn)正模板進(jìn)行大量頁面的分類信息提取,得到該網(wǎng)站所有能夠提取的關(guān)鍵信息列表;人工對關(guān)鍵信息列表與產(chǎn)品分類提取建立映射關(guān)系;頁面模板庫發(fā)布;圖5為本發(fā)明另一實施例一種基于內(nèi)容的網(wǎng)頁分類系統(tǒng)結(jié)構(gòu)不意圖,如圖5所不,所述模板生成子系統(tǒng)還包括統(tǒng)計分析模塊,所述統(tǒng)計分析模塊,用于統(tǒng)計網(wǎng)頁信息被發(fā)送的次數(shù),并選擇被發(fā)送次數(shù)高的至少一個網(wǎng)頁;在收到來自用戶設(shè)備的未分類URL及頁面數(shù)據(jù)之后,該模塊負(fù)責(zé)定期對數(shù)據(jù)進(jìn)行統(tǒng)計和分類整理,確定對于多個用戶設(shè)備反映的較熱的急需提供分類支持的網(wǎng)站或網(wǎng)頁進(jìn)行優(yōu)先處理。所述模板生成模塊,具體用于根據(jù)所述統(tǒng)計分析模塊選擇的至少一個網(wǎng)頁,生成新的URL特征庫和/或頁面模板庫??蛇x的,所述模板生成模塊,具體用于對待提取的關(guān)鍵詞進(jìn)行標(biāo)注;標(biāo)注完成后,自動訓(xùn)練產(chǎn)生該網(wǎng)頁頁面的備選模板;將備選模板在新的數(shù)據(jù)中進(jìn)行測試;測試成功后,將所述備選模板加入URL特征庫和/或頁面模板庫,生成新的URL特征庫和/或頁面模板庫。在采集到待分類的網(wǎng)頁數(shù)據(jù)(同一頁面框架至少2個不同頁面)后,對待提取的頁面信息進(jìn)行標(biāo)注;標(biāo)注完成后,程序自動訓(xùn)練產(chǎn)生該網(wǎng)頁頁面的備選模板;備選模板在新的數(shù)據(jù)中進(jìn)行測試后,轉(zhuǎn)為正式模板進(jìn)行發(fā)布;全程需要人工進(jìn)行參與的部分為關(guān)鍵詞標(biāo)注和測試結(jié)果驗證兩個階段,工作量不大??蛇x的,模板生成模塊還可以運(yùn) 行爬蟲程序,用于對需分類的網(wǎng)站提供頁面數(shù)據(jù)獲取的功能;由于接收URL的同時,可能同時接收到頁面內(nèi)容數(shù)據(jù)(2. 3描述,有效避免某些網(wǎng)站需要登錄賬號的問題),因此該模塊為可選模塊??蛇x的,所述用戶設(shè)備還包括第三查詢模塊、Cache、第四查詢模塊、數(shù)據(jù)庫和判斷模塊;其中,所述第三查詢模塊,用于根據(jù)用戶要訪問的網(wǎng)頁的URL及頁面內(nèi)容查詢Cache ;所述Cache和數(shù)據(jù)庫,用于存儲URL及頁面內(nèi)容與分類信息的對應(yīng)關(guān)系;其中,所述數(shù)據(jù)庫,存儲網(wǎng)站或頻道級別的URL與分類信息的對應(yīng)關(guān)系,一般采用〈key,value)數(shù)據(jù)庫進(jìn)行存儲存儲的數(shù)據(jù)為數(shù)據(jù)庫數(shù)據(jù)的子集,為用戶頻繁查詢的URL與分類信息的對應(yīng)關(guān)系,主要用途為快速響應(yīng)查詢請求,采用調(diào)度算法進(jìn)行內(nèi)容的淘汰與更新(例如LRU) ;Cache主要用于對于常用URL查詢結(jié)果的快速返回,可采用內(nèi)存或數(shù)據(jù)庫方式實現(xiàn)。用戶查詢且返回結(jié)果的URL及其相應(yīng)類別均可存儲于Cache中;Cache可采用調(diào)度策略加入或淘汰其中的數(shù)據(jù)(例如LRU, least recently used,最近最少使用);所述第四查詢模塊,用于在第三查詢模塊未在Cache命中記錄時,根據(jù)用戶要訪問的網(wǎng)頁的URL及頁面內(nèi)容查詢數(shù)據(jù)庫;數(shù)據(jù)庫為預(yù)先通過線下方式收集的網(wǎng)站(網(wǎng)頁)及其相應(yīng)類別的映射關(guān)系,采用數(shù)據(jù)庫存儲,使用數(shù)據(jù)庫接口訪問,也可完全載入內(nèi)存中。原則上數(shù)據(jù)庫數(shù)據(jù)量比cache大,但查詢速度略慢,對網(wǎng)站提供較大程度的覆蓋。所述判斷模塊,用于在第四查詢模塊未命中記錄時,判斷所述URL對應(yīng)的域名是否支持細(xì)分,如果是,通知第一查詢模塊進(jìn)行查詢。需要說明的是,模板生成子系統(tǒng)中的模塊可以不屬于不同的設(shè)備中,也可以部署于同一設(shè)備中。下面結(jié)合具體實施例對本發(fā)明的技術(shù)方案作進(jìn)一步詳細(xì)說明。實施例圖6為本發(fā)明實施例一種基于內(nèi)容的網(wǎng)頁分類方法流程示意圖,如圖6所示,該方法包括601、將待分類URL傳送給cache進(jìn)行查詢,如果命中記錄,則直接返回分類結(jié)果;如果未命中,則進(jìn)入步驟602 ;602、將URL在數(shù)據(jù)庫模塊中進(jìn)行查詢,如果命中記錄,則直接返回分類結(jié)果,并同時將URL及分類結(jié)果記錄于cache中;如果未命中,則進(jìn)入步驟603 ;603、在對于602的查詢中,會返回該URL對應(yīng)的域名是否支持細(xì)分的標(biāo)記;如果標(biāo)記該網(wǎng)站支持細(xì)分,則進(jìn)入步驟604 ;否則直接返回未分類結(jié)果;604、根據(jù)URL特征進(jìn)行分類,如果得到分類結(jié)果則直接返回,并同時將URL及分類結(jié)果記錄于cache中;如果沒有得到分類結(jié)果則進(jìn)入步驟605 ;605、進(jìn)行頁面關(guān)鍵信息提取,得到頁面關(guān)鍵信息后根據(jù)提前建立的關(guān)鍵信息與類別體系的映射關(guān)系進(jìn)行匹配,如果分類成功則直接返回,并同時將URL及分類結(jié)果記錄于cache中;如果分類未成功則直接返回未分類結(jié)果后,進(jìn)入步驟606 ;606、將未得到分類的URL(必選)及頁面信息(可選)發(fā)送至模板生成子系統(tǒng);607、模板生成子系統(tǒng)的通信 模塊收到來自多臺設(shè)備的反饋未分類數(shù)據(jù)后,由統(tǒng)計分析模塊進(jìn)行排重和統(tǒng)計;并按照網(wǎng)站進(jìn)行數(shù)據(jù)分組處理;608、統(tǒng)計分析模塊將需要進(jìn)行模板生成或更新的網(wǎng)站及相關(guān)數(shù)據(jù)發(fā)送至模板生成模塊;609、如果頁面信息未被同時傳輸,則模板生成模塊運(yùn)行爬蟲程序?qū)Υ诸惥W(wǎng)站進(jìn)行定向爬取;如果已有相當(dāng)數(shù)量的頁面被返回,則略過此步驟;610、在得到網(wǎng)站數(shù)據(jù)后,通過人工標(biāo)注需要提取的標(biāo)簽等關(guān)鍵信息;采用模板自動生成的方法生成網(wǎng)站自動提取模板;611、程序生成的自動模板在其余未參與模板訓(xùn)練的測試數(shù)據(jù)中進(jìn)行運(yùn)行,人工核定文本提取結(jié)果無誤后,制定關(guān)鍵數(shù)據(jù)與產(chǎn)品分類體系之間的映射關(guān)系(可通過提取頁面導(dǎo)航頁或標(biāo)簽頁來進(jìn)行整理),并將其作為模板的一部分連同模板一并發(fā)布;612、經(jīng)過審核或者試運(yùn)行的模板被傳送至各用戶設(shè)備;613、各設(shè)備更新模板,增加分類的覆蓋率。整個流程形成閉環(huán),囊括了從反饋、整理、生產(chǎn)到發(fā)布各個環(huán)節(jié),保證對新增需要進(jìn)行頁面細(xì)分的網(wǎng)站的高效處理。此外,本實施例中,對于數(shù)據(jù)庫的更新,可采用類似的方式??梢钥闯?,采用本發(fā)明所述的技術(shù)方案具有以下有益效果I、能夠解決對于特定類別網(wǎng)站的頁面內(nèi)容實時分類問題;2、能夠及時反饋由于網(wǎng)站改版引起的對于頁面內(nèi)容未能分類的問題;3、能夠自動的提取網(wǎng)站框架,抽取分類所關(guān)心的頁面內(nèi)容及關(guān)鍵字;4、經(jīng)過人工審核的網(wǎng)站模板能夠快速反饋至所有設(shè)備,對新網(wǎng)站或網(wǎng)站變更響應(yīng)快速。對于頁面模板的提取可采用基于DOM樹頁面內(nèi)容提取、或正則表達(dá)及其優(yōu)化算法等。選擇適應(yīng)需求的,具有所需的語義表達(dá)能力的方法即可。以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護(hù)范圍。
權(quán)利要求
1.一種基于內(nèi)容的網(wǎng)頁分類方法,其特征在于,該方法包括 用戶設(shè)備獲取用戶要訪問的網(wǎng)頁的統(tǒng)一資源定位符URL中的特征關(guān)鍵字,并根據(jù)所述URL中的特征關(guān)鍵字查詢本地的URL特征庫,以獲取相應(yīng)的網(wǎng)頁分類信息; 用戶設(shè)備在URL特征庫中未查詢到相應(yīng)的網(wǎng)頁分類信息,則進(jìn)一步獲取用戶要訪問的網(wǎng)頁的頁面內(nèi)容,并根據(jù)所述頁面內(nèi)容查詢本地的頁面模板庫,以獲取相應(yīng)的網(wǎng)頁分類信肩、O
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,該方法還包括 用戶設(shè)備在頁面模板庫中未查詢到相應(yīng)的網(wǎng)頁分類信息,則將所述用戶要訪問的網(wǎng)頁的網(wǎng)頁信息發(fā)送至模板生成子系統(tǒng); 所述模板生成子系統(tǒng)根據(jù)各用戶設(shè)備發(fā)送的網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫,并將所述新的URL特征庫和/或頁面模板庫發(fā)送給各用戶設(shè)備。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述模板生成子系統(tǒng)根據(jù)各用戶設(shè)備發(fā)送網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫為 統(tǒng)計網(wǎng)頁信息被發(fā)送的次數(shù); 選擇被發(fā)送次數(shù)高的至少一個網(wǎng)頁生成新的URL特征庫和/或頁面模板庫。
4.根據(jù)權(quán)利要求2或3所述的方法,其特征在于,所述模板生成系統(tǒng)根據(jù)各用戶設(shè)備發(fā)送網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫具體為 對待提取的頁面信息進(jìn)行標(biāo)注; 標(biāo)注完成后,自動訓(xùn)練產(chǎn)生該網(wǎng)頁頁面的備選模板; 將備選模板在新的數(shù)據(jù)中進(jìn)行測試; 測試成功后,將所述備選模板加入URL特征庫和/或頁面模板庫,生成新的URL特征庫和/或頁面模板庫。
5.根據(jù)權(quán)利要求I至3任一項所述的方法,其特征在于,所述用戶設(shè)備獲取用戶要訪問的網(wǎng)頁的URL中的特征關(guān)鍵字,并根據(jù)所述URL中的特征關(guān)鍵字查詢本地的URL特征庫之前,該方法還包括 根據(jù)用戶要訪問的網(wǎng)頁的URL查詢高速緩沖存儲器Cache,命中記錄,則直接返回分類結(jié)果;否則,進(jìn)一步根據(jù)用戶要訪問的網(wǎng)頁的URL查詢數(shù)據(jù)庫,命中記錄,則直接返回分類結(jié)果,查詢Cache和數(shù)據(jù)庫均未命中記錄,則判斷所述URL對應(yīng)的域名是否支持細(xì)分,如果是,執(zhí)行后續(xù)步驟;否則,返回未分類結(jié)果。
6.一種基于內(nèi)容的網(wǎng)頁分類系統(tǒng),其特征在于,該系統(tǒng)包括用戶設(shè)備,所述用戶設(shè)備具體包括第一獲取模塊、第一查詢模塊、URL特征庫、第二獲取模塊、第二查詢模塊和頁面模板庫;其中, 所述第一獲取模塊,用于獲取用戶要訪問的網(wǎng)頁的URL中的特征關(guān)鍵字; 所述第一查詢模塊,用于根據(jù)所述第一獲取模塊獲取的URL中的特征關(guān)鍵字查詢URL特征庫,以獲取相應(yīng)的網(wǎng)頁分類信息; 所述URL特征庫,用于存儲URL中的特征關(guān)鍵字和分類信息的對應(yīng)關(guān)系; 所述第二獲取模塊,用于獲取用戶要訪問的網(wǎng)頁的頁面內(nèi)容; 所述第二查詢模塊,用于在第一查詢模塊未查詢到相應(yīng)的網(wǎng)頁分類信息時,根據(jù)所述第二獲取模塊獲取的頁面內(nèi)容查詢頁面模板庫,以獲取相應(yīng)的網(wǎng)頁分類信息;所述頁面模板庫,用于存儲頁面內(nèi)容和分類信息的對應(yīng)關(guān)系。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述用戶設(shè)備還包括通信模塊,該系統(tǒng)還包括模板生成子系統(tǒng),所述模板生成子系統(tǒng)具體包括通信模塊和模板生成模塊;其中, 所述用戶設(shè)備的通信模塊,用于在第二查詢模塊未查詢到相應(yīng)的網(wǎng)頁分類信息時,將所述用戶要訪問的網(wǎng)頁的網(wǎng)頁信息發(fā)送至模板生成子系統(tǒng); 所述模板生成子系統(tǒng)的通信模塊,用于接收各用戶設(shè)備發(fā)送的網(wǎng)頁信息;以及將模板生成模塊生成的新的URL特征庫和/或頁面模板庫發(fā)送給各用戶設(shè)備; 所述模板生成模塊,用于根據(jù)所述通信模塊接收的網(wǎng)頁信息,生成新的URL特征庫和/或頁面模板庫。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其特征在于,所述模板生成子系統(tǒng)還包括統(tǒng)計分析模塊, 所述統(tǒng)計分析模塊,用于統(tǒng)計網(wǎng)頁信息被發(fā)送的次數(shù),并選擇被發(fā)送次數(shù)高的至少一個網(wǎng)頁; 所述模板生成模塊,具體用于根據(jù)所述統(tǒng)計分析模塊選擇的至少一個網(wǎng)頁,生成新的URL特征庫和/或頁面模板庫。
9.根據(jù)權(quán)利要求7或8所述的系統(tǒng),其特征在于, 所述模板生成模塊,具體用于對待提取的關(guān)鍵詞進(jìn)行標(biāo)注;標(biāo)注完成后,自動訓(xùn)練產(chǎn)生該網(wǎng)頁頁面的備選模板;將備選模板在新的數(shù)據(jù)中進(jìn)行測試;測試成功后,將所述備選模板加入URL特征庫和/或頁面模板庫,生成新的URL特征庫和/或頁面模板庫。
10.根據(jù)權(quán)利要求6至8任一項所述的系統(tǒng),其特征在于,所述用戶設(shè)備還包括第三查詢模塊、Cache、第四查詢模塊、數(shù)據(jù)庫和判斷模塊;其中, 所述第三查詢模塊,用于根據(jù)用戶要訪問的網(wǎng)頁的URL及頁面內(nèi)容查詢Cache ; 所述Cache和數(shù)據(jù)庫,用于存儲URL與分類信息的對應(yīng)關(guān)系; 所述第四查詢模塊,用于在第三查詢模塊未在Cache命中記錄時,根據(jù)用戶要訪問的網(wǎng)頁的URL查詢數(shù)據(jù)庫; 所述判斷模塊,用于在第四查詢模塊未命中記錄時,判斷所述URL對應(yīng)的域名是否支持細(xì)分,如果是,通知第一查詢模塊進(jìn)行查詢。
全文摘要
本發(fā)明公開了一種基于內(nèi)容的網(wǎng)頁分類方法,用戶設(shè)備獲取用戶要訪問的網(wǎng)頁的統(tǒng)一資源定位符URL中的特征關(guān)鍵字,并根據(jù)所述URL中的特征關(guān)鍵字查詢本地的URL特征庫,以獲取相應(yīng)的網(wǎng)頁分類信息;用戶設(shè)備在URL特征庫中未查詢到相應(yīng)的網(wǎng)頁分類信息,則進(jìn)一步獲取用戶要訪問的網(wǎng)頁的頁面內(nèi)容,并根據(jù)所述頁面內(nèi)容查詢本地的頁面模板庫,以獲取相應(yīng)的網(wǎng)頁分類信息。本發(fā)明還相應(yīng)地公開了一種基于內(nèi)容的網(wǎng)頁分類系統(tǒng)。通過本發(fā)明,能夠?qū)崿F(xiàn)基于頁面粒度的分類,以及提高分類準(zhǔn)確度、提高分類實時性、減少人力成本。
文檔編號G06F17/30GK102819591SQ20121027981
公開日2012年12月12日 申請日期2012年8月7日 優(yōu)先權(quán)日2012年8月7日
發(fā)明者賈晉康, 呂燁, 張永臣 申請人:北京網(wǎng)康科技有限公司