頁面分類系統(tǒng)及頁面分類方法
【專利摘要】本申請?zhí)峁┮环N頁面分類系統(tǒng)及頁面分類方法。系統(tǒng)包括:網址模式生成模塊,被配置成針對用戶訪問日志中每個訪問網址對應地生成網址模式,其中,按照預定條件將網址模式中的一部分網址模式作為測試數(shù)據(jù),將網址模式中剩余的網址模式作為待分類數(shù)據(jù);頁面特征抓取模塊,被配置成對測試數(shù)據(jù)所對應的頁面內容進行特征抽取以得到測試特征數(shù)據(jù),并將測試特征數(shù)據(jù)中的一部分作為訓練數(shù)據(jù),并且還對待分類數(shù)據(jù)所對應的頁面內容進行特征抽取以得到待分類特征數(shù)據(jù);訓練模塊,被配置成使用分類器對訓練數(shù)據(jù)進行模型計算和評估以獲得分類模型;以及預測模塊,被配置成使用分類器和分類模型對待分類特征數(shù)據(jù)進行預測以將待分類特征數(shù)據(jù)分類為不同類型的頁面。
【專利說明】頁面分類系統(tǒng)及頁面分類方法
【技術領域】
[0001]本申請涉及互聯(lián)網【技術領域】,尤其涉及一種頁面分類系統(tǒng)及頁面分類方法。
【背景技術】
[0002]目前,網頁分類是一個熱門的技術前沿領域,其主要應用于搜索引擎、推薦系統(tǒng)、創(chuàng)建(擴展和維護)網站目錄、爬蟲應用等。網頁推薦主要包括主題分類、功能分類和用戶態(tài)度分類這三類。主題分類主要針對頁面的話題進行區(qū)分,例如鑒別頁面描述的是“體育”,或是“藝術”,或是“商業(yè)”等;功能分類關心頁面在整個站點扮演的角色,例如是否是“個人主頁”,或者“論壇”等;用戶態(tài)度分類主要針對用戶的評價、或者用戶發(fā)表言論的立場等進行區(qū)分?,F(xiàn)有的一些技術方案主要關心具體的頁面話題,這種頁面分類的通常做法是:先提取出一些既定的類目作為先驗值,然后通過一些典型的分類算法,將這些先驗類目和頁面做匹配。相對于此,本申請并沒有關注具體的話題和功能性類目,而是關注推薦或搜索等應用中展示的頁面。
[0003]在推薦、搜索等系統(tǒng)中,展示的頁面能給用戶提供較好的用戶體驗是至關重要的。眾所周知,每點擊一次頁面,流量就會損失一半,因而對于所展示的頁面而言,最理想情況應該是用戶所希望瀏覽的頁面。為了使所展示的頁面是用戶所希望瀏覽的頁面,那么需要針對高質量搜索和推薦等應用進行頁面分類。我們將頁面分為對象頁面、內容頁面以及其他頁面這三類。具體來說,對象頁面是指對象是描述某個站點業(yè)務目標事物的頁面,這類頁面包含概括信息和介紹信息、以及對所要介紹的事物附錄的主要截圖等。例如,對于小說站點而言,對象頁面是對于某個具體小說的介紹頁面或列表頁面;對于資訊類站點而言,對象頁面表示某篇有分頁的資訊正文的第一頁;而對于購物站點而言,某個商品的介紹頁面是其對象頁面。內容頁面與對象頁面相對應,內容頁面是對對象頁面進行擴展描述的頁面。在內容上,內容頁面給出對象頁面所需描述的對象的具體信息;在URL (UniformResourceLocator:網址)形式上,內容頁面與對象頁面存在某種關系,可以直接從URL反推出對應于對象頁面的地址。不一定所有的站點都具有內容頁面,小說站點是比較典型的具有內容頁面的站點,通常是小說具體的章節(jié)頁面;而對于資訊類站點,通常是除首頁外其余的分頁。其他頁面是指在頁面分類中無法認定為對象或內容的頁面,換句話說它是除了對象頁面和內容頁面之外的頁面。在通常情況下,其他頁面是評論頁面、用戶信息等,不作為推薦或者搜索結果展示,這些頁面是可以被過濾的頁面。
[0004]在推薦或搜索等應用中著重展示的頁面是對象頁面,這些對象頁面沒有特定的話題和功能,不能利用傳統(tǒng)的網頁分類方法加以區(qū)分。目前,對于對象頁面、內容頁面以及其他頁面這三類網址的區(qū)分通常依賴于兩種方案。第一種方案是人工標注,通過人工標注方式針對各個站點的一些瀏覽量(PageView:PV)大的URL所對應的URL模式(以下也稱作網址模式)而識別出對象頁面、內容頁面以及其他頁面。雖然人工標注的精度高,但是其缺點是顯而易見的,即不可能對全網(即整個互聯(lián)網)上的每個站點的上千萬個URL都進行人工標注工作。第二種方案是單純基于URL模式的訪問日志大體地對頁面進行區(qū)分。通常情況下,從訪問日志中抽取的特征包括:對于某個站點的某個URL模式下的PV占總PV的比重(PV占比);該URL模式所包含的URL數(shù)量占站點總訪問URL數(shù)量的比重(URL占比);以及停留時間。事實上,一些小說站點會表現(xiàn)出比較好的匹配度,這是由于對內容頁面來說URL占比和PV占比都比較大、而對象頁面URL占比小、PV占比大的緣故。此外,用戶在內容頁面上的停留時間會稍微長于在對象頁面上的停留時間。然而,由于用戶瀏覽行為的不可預測性決定了偏移(bias)的存在,并且無法精確地記錄用戶瀏覽頁面的停留時間,因而導致在頁面的分類結果上會產生較大的偏差。
[0005]另外,內容頁面是瀏覽量占比很大的頁面(尤其是小說站點),而用戶通常會先看對象頁面,了解小說或者資訊的主體內容后,才會決定是否繼續(xù)瀏覽內容頁面。在推薦和搜索等應用中,如果直接展示內容頁面,那么用戶還是會先找到與展示的內容頁面所對應的對象頁面而瀏覽對象頁面。其結果是,一來造成用戶流失,二來展示對于同一個對象的內容頁面(如同一本小說的不同章節(jié)頁或者同一則資訊的不同分頁)會給用戶提供較差的用戶體驗。
[0006]由于存在上述的技術缺陷,所以本申請從頁面內容出發(fā),拋開了用戶瀏覽的行為,從而不會引入用戶訪問隨機性的偏差。另外,從內容上可以較好地定位登錄頁面、錯誤頁面等干擾源,保證了實驗的可靠性。
【發(fā)明內容】
[0007]本申請的主要目的在于提供一種頁面分類系統(tǒng)及頁面分類方法,以解決現(xiàn)有技術存在的由于用戶訪問隨機性的偏差導致頁面分類結果的精度下降、由于在推薦和搜索等應用中直接展示內容頁面而造成用戶流失等問題,其中:本申請?zhí)峁┮环N頁面分類系統(tǒng),包括:網址模式生成模塊,被配置成針對用戶訪問日志中的每個訪問網址對應地生成多個網址模式,其中,按照預定條件將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中剩余的網址模式作為待分類數(shù)據(jù);頁面特征抓取模塊,被配置成對所述測試數(shù)據(jù)所對應的頁面內容進行特征抽取以得到測試特征數(shù)據(jù),并將所述測試特征數(shù)據(jù)中的一部分測試特征數(shù)據(jù)作為訓練數(shù)據(jù),并且還對所述待分類數(shù)據(jù)所對應的頁面內容進行特征抽取以得到待分類特征數(shù)據(jù);訓練模塊,被配置成使用分類器對所述訓練數(shù)據(jù)進行模型計算和評估以獲得分類模型;以及預測模塊,被配置成使用所述分類器和所述分類模型對所述待分類特征數(shù)據(jù)進行預測以將所述待分類特征數(shù)據(jù)分類為不同類型的頁面。
[0008]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述網址模式生成模塊進一步包括:關鍵字獲取模塊,被配置成針對用戶訪問日志中的所述每個訪問網址獲取關鍵字;以及模式生成模塊,被配置成針對所述每個訪問網址使用所述關鍵字和預定正則表達式生成網址模式,其中,將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中剩余的網址模式作為待分類數(shù)據(jù)。
[0009]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述關鍵字獲取模塊進一步包括:替換模塊,被配置成從用戶訪問日志中的每個訪問網址中查找無用字符串,并用預定通用字符串替換所述無用字符串以形成臨時網址模式;分割模塊,被配置成針對不同的位置并按照預定規(guī)則將每個所述臨時網址模式分割為多個網址單元;以及統(tǒng)計模塊,被配置成統(tǒng)計每個網址單元在所在位置上出現(xiàn)的次數(shù),將超出預定次數(shù)的網址單元標記為所述關鍵字,并以預定格式將所述關鍵字保存在網址單元詞典中。
[0010]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述模式生成模塊進一步包括:匹配模塊,被配置成將所述多個網址單元分別與所述網址單元詞典中的關鍵字進行匹配,將匹配的網址單元保留為第一網址單元,將不匹配的網址單元用所述預定正則表達式取代并保留為第二網址單元;以及整合模塊,被配置成使用所述第一網址單元和所述第二網址單元將所述多個網址單元整合為網址模式。
[0011]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述頁面特征抓取模塊進一步包括:抽取模塊,被配置成對所述測試數(shù)據(jù)所對應的頁面內容進行特征抽取以得到所述測試特征數(shù)據(jù),并將全部的所述測試特征數(shù)據(jù)存儲為特征輸出文件,還對所述待分類數(shù)據(jù)所對應的頁面內容進行特征抽取以獲得所述待分類特征數(shù)據(jù);判斷模塊,被配置成針對所述特征輸出文件中的每個所述測試特征數(shù)據(jù)依次判斷所述測試特征數(shù)據(jù)中的頁面形式是否為特殊頁面,當判斷為所述頁面形式是特殊頁面時,刪除所述頁面形式是特殊頁面的測試特征數(shù)據(jù),當判斷為所述頁面形式不是特殊頁面時,保存所述頁面形式不是特殊頁面的測試特征數(shù)據(jù)以構成一部分測試特征數(shù)據(jù);以及計算模塊,被配置成針對所述一部分測試特征數(shù)據(jù)計算特征向量,并將具有所述特征向量的所述一部分測試特征數(shù)據(jù)作為訓練數(shù)據(jù)。
[0012]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述訓練模塊進一步包括:數(shù)據(jù)區(qū)分模塊,被配置成使用所述分類器對所述訓練數(shù)據(jù)進行訓練以將所述訓練數(shù)據(jù)區(qū)分為至少兩類數(shù)據(jù);以及模型構建模塊,被配置成將所述至少兩類數(shù)據(jù)分別構成為與每一類數(shù)據(jù)對應的頁面模型,從而構建出包含至少兩類所述頁面模型。
[0013]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述預測模塊進一步包括:判定模塊,被配置成使用所述分類模型判定所述待分類特征數(shù)據(jù)屬于至少兩類所述頁面模型中的哪一類;以及分類模塊,被配置成使用所述分類器并根據(jù)判定結果將所述待分類特征數(shù)據(jù)分類為至少兩類頁面。
[0014]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述預測模塊還包括:糾錯模塊,被配置成從已分類的特征數(shù)據(jù)所對應的待分類數(shù)據(jù)中任意地抽取兩個數(shù)據(jù),根據(jù)預定的標準來判斷所抽取的兩個數(shù)據(jù)的分類是否成功,并修改分類失敗的數(shù)據(jù)的類別。
[0015]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述特殊頁面包括登錄頁面和錯誤頁面。
[0016]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述預定條件包括站點的訪問頻率高。
[0017]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述無用字符串包括數(shù)字串、檢索
串O
[0018]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述預定格式是:域名一位置一關鍵字。
[0019]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述測試特征數(shù)據(jù)包括頁面話題、頁面形式、正文、外部鏈接、文章標題、導航信息以及正文關鍵詞。
[0020]根據(jù)本申請的實施例,在所述頁面分類系統(tǒng)中,所述特征向量包括所述頁面話題的向量值、所述頁面形式的向量值、所述正文的長度、所述外部鏈接的數(shù)量、所述文章標題與所述正文關鍵詞的吻合度以及所述文章標題與所述導航信息的吻合度。[0021]本申請的另一方面,提供一種頁面分類方法,包括以下步驟:網址模式生成步驟,針對用戶訪問日志中的每個訪問網址對應地生成網址模式,其中,按照預定條件將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中剩余的網址模式作為待分類數(shù)據(jù);頁面特征抓取步驟,對所述測試數(shù)據(jù)所對應的頁面內容進行特征抽取以得到測試特征數(shù)據(jù),并將所述測試特征數(shù)據(jù)中的一部分測試特征數(shù)據(jù)作為訓練數(shù)據(jù),并且還對所述待分類數(shù)據(jù)所對應的頁面內容進行特征抽取以得到待分類特征數(shù)據(jù);訓練步驟,使用分類器對所述訓練數(shù)據(jù)進行模型計算和評估以獲得分類模型;以及預測步驟,使用所述分類器和所述分類模型對所述待分類特征數(shù)據(jù)進行預測以將所述待分類特征數(shù)據(jù)分類為不同類型的頁面。
[0022]根據(jù)本申請的實施例,在所述頁面分類方法中,所述網址模式生成步驟進一步包括:關鍵字獲取步驟,針對用戶訪問日志中的所述每個訪問網址獲取關鍵字;以及模式生成步驟,針對所述每個訪問網址使用所述關鍵字和預定正則表達式生成網址模式,其中,將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中剩余的網址模式作為待分類數(shù)據(jù)。
[0023]根據(jù)本申請的實施例,在所述頁面分類方法中,所述關鍵字獲取步驟進一步包括:替換步驟,從用戶訪問日志中的每個訪問網址中查找無用字符串,并用預定通用字符串替換所述無用字符串以形成臨時網址模式;分割步驟,針對不同的位置并按照預定規(guī)則將每個所述臨時網址模式分割為多個網址單元;以及統(tǒng)計步驟,統(tǒng)計每個網址單元在所在位置上出現(xiàn)的次數(shù),將超出預定次數(shù)的網址單元標記為所述關鍵字,并以預定格式將所述關鍵字保存在網址單元詞典中。
[0024]根據(jù)本申請的實施例,在所述頁面分類方法中,所述模式生成步驟進一步包括:匹配步驟,將所述多個網址單元分別與所述網址單元詞典中的關鍵字進行匹配,將匹配的網址單元保留為第一網址單元,將不匹配的網址單元用所述預定正則表達式取代并保留為第二網址單元;以及整合步驟,使用所述第一網址單元和所述第二網址單元將所述多個網址單元整合為網址模式,將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中剩余的網址模式作為待分類數(shù)據(jù)。
[0025]根據(jù)本申請的實施例,在所述頁面分類方法中,所述頁面特征抓取步驟進一步包括:抽取步驟,對所述測試數(shù)據(jù)所對應的頁面內容進行特征抽取以得到所述測試特征數(shù)據(jù),并將全部的所述測試特征數(shù)據(jù)存儲為特征輸出文件,還對所述待分類數(shù)據(jù)所對應的頁面內容進行特征抽取以獲得所述待分類特征數(shù)據(jù);判斷步驟,針對所述特征輸出文件中的每個所述測試特征數(shù)據(jù)依次判斷所述測試特征數(shù)據(jù)中的頁面形式是否為特殊頁面,當判斷為所述頁面形式是特殊頁面時,刪除所述頁面形式是特殊頁面的測試特征數(shù)據(jù),當判斷為所述頁面形式不是特殊頁面時,保存所述頁面形式不是特殊頁面的測試特征數(shù)據(jù)以構成一部分測試特征數(shù)據(jù);以及計算步驟,針對所述一部分測試特征數(shù)據(jù)計算特征向量,并將具有所述特征向量的所述一部分測試特征數(shù)據(jù)作為訓練數(shù)據(jù)。
[0026]根據(jù)本申請的實施例,在所述頁面分類方法中,所述訓練步驟進一步包括:數(shù)據(jù)區(qū)分步驟,使用所述分類器對所述訓練數(shù)據(jù)進行訓練以將所述訓練數(shù)據(jù)區(qū)分為至少兩類數(shù)據(jù);以及模型構建步驟,將所述至少兩類數(shù)據(jù)分別構成為與每一類數(shù)據(jù)對應的頁面模型,從而構建出包含至少兩類所述頁面模型的分類模型。[0027]根據(jù)本申請的實施例,在所述頁面分類方法中,所述預測步驟進一步包括:判定步驟,使用所述分類模型判定所述待分類特征數(shù)據(jù)屬于至少兩類所述頁面模型中的哪一類;以及分類步驟,使用所述分類器并根據(jù)判定結果將所述待分類特征數(shù)據(jù)分類為至少兩類頁面。
[0028]根據(jù)本申請的實施例,在所述頁面分類方法中,所述預測步驟還包括:糾錯步驟,從已分類的特征數(shù)據(jù)所對應的待分類數(shù)據(jù)中任意地抽取兩個數(shù)據(jù),根據(jù)預定的標準來判斷所抽取的兩個數(shù)據(jù)的分類是否成功,并修改分類失敗的數(shù)據(jù)的類別。
[0029]根據(jù)本申請的實施例,在所述頁面分類方法中,所述特殊頁面包括登錄頁面和錯誤頁面。
[0030]根據(jù)本申請的實施例,在所述頁面分類方法中,所述預定條件包括站點的訪問頻率高。
[0031]根據(jù)本申請的實施例,在所述頁面分類方法中,所述無用字符串包括數(shù)字串、檢索
串O
[0032]根據(jù)本申請的實施例,在所述頁面分類方法中,所述預定格式是:域名一位置一關鍵字。
[0033]根據(jù)本申請的實施例,在所述頁面分類方法中,所述測試特征數(shù)據(jù)包括頁面話題、頁面形式、正文、外部鏈接、文章標題、導航信息以及正文關鍵詞。
[0034]根據(jù)本申請的實施例,在所述頁面分類方法中,所述特征向量包括所述頁面話題的向量值、所述頁面形式的向量值、所述正文的長度、所述外部鏈接的數(shù)量、所述文章標題與所述正文關鍵詞的吻合度以及所述文章標題與所述導航信息的吻合度。
[0035]與現(xiàn)有技術相比,根據(jù)本申請的技術方案,能夠在推薦或搜索等應用中,針對全網頁面進行對象頁面與內容頁面的分類,并過濾掉大量無用的其他頁面以降低數(shù)據(jù)處理壓力;在搜索或推薦的結果中盡可能展示對象頁面;而在用戶瀏覽內容頁面時,可以通過內容頁面與對象頁面在URL模式上的關聯(lián),提供用于推薦對應的對象頁面的支持。
【專利附圖】
【附圖說明】
[0036]此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:
[0037]圖1是本申請實施例的頁面分類系統(tǒng)100的概略結構圖;
[0038]圖2是本申請實施例的網址模式生成模塊101的具體結構圖;
[0039]圖3是本申請實施例的頁面特征抓取模塊102的具體結構圖;
[0040]圖4是本申請實施例的訓練模塊103的具體結構圖;
[0041 ]圖5是本申請實施例的預測模塊104的具體結構圖;
[0042]圖6是本申請實施例的頁面分類方法的整體流程圖;
[0043]圖7是本申請實施例的圖6中的網址模式生成步驟S601的具體流程;
[0044]圖8是本申請實施例的圖7中的關鍵字獲取步驟S701的具體流程;
[0045]圖9是本申請實施例的圖7中的模式生成步驟S702的具體流程;
[0046]圖10是本申請實施例的圖6中的頁面特征抓取步驟S602的具體流程;
[0047]圖11是本申請實施例的圖6中的訓練步驟S603的具體流程;[0048]圖12是本申請實施例的圖6中的預測步驟S604的具體流程。
【具體實施方式】
[0049]本申請的主要思想在于,針對高質量搜索和推薦等應用進行頁面分類時,一方面,在不存在內容頁面的情況下能正確區(qū)分對象頁面和其他頁面,以便用于更準確地定位和展示對象頁面,從而給用戶提供較好的體驗,同時在預處理時過濾掉登錄頁面或錯誤頁面等頁面,以達到大大降低系統(tǒng)的數(shù)據(jù)處理負載的目的;另一方面,在存在內容頁面的情況下能夠在預處理時過濾掉登錄頁面或錯誤頁面等頁面,用以高精度地區(qū)分對象頁面和內容頁面。
[0050]為使本申請的目的、技術方案和優(yōu)點更加清楚,以下結合附圖及具體實施例,對本申請作進一步地詳細說明。
[0051]根據(jù)本申請的實施例,提供了一種頁面分類系統(tǒng)100。
[0052]參考圖1,圖1是本申請實施例的頁面分類系統(tǒng)100的概略結構圖。如圖1所示,頁面分類系統(tǒng)100可以包括網址模式生成模塊101、頁面特征抓取模塊102、訓練模塊103以及預測模塊104。
[0053]下面,詳細說明頁面分類系統(tǒng)100的各組成部分。
[0054]網址模式生成模塊101被配置成針對用戶訪問日志中的每個訪問網址對應地生成網址模式,其中,按照預定條件將網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中剩余的網址模式作為待分類數(shù)據(jù)。在此,網址模式(以下也稱作URL模式)是指使用預定的正則表達式和預定的特殊符號來表示的網址(以下也稱作URL)。在計算機科學中,正則表達式是指一個用來描述或者匹配一系列符合某個句法規(guī)則的字符串的單個字符串。實際上,正則表達式是對字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符及這些特定字符的組合來組成一個“規(guī)則字符串”,這個“規(guī)則字符串”用來表達對字符串的一種過濾邏輯。另外,用戶訪問日志是用戶在一天內對全網(即整個互聯(lián)網)的訪問記錄,因而,上述的測試數(shù)據(jù)和待分類數(shù)據(jù)均是全網中的所有域名網址所對應的網址模式。上述的預定條件包括站點的訪問頻率高等條件。
[0055]下面,結合圖2來說明網址模式生成模塊101的具體結構。圖2是本申請實施例的網址模式生成模塊101的具體結構圖。如圖2所示,網址模式生成模塊101可以包括關鍵字獲取模塊201和模式生成模塊202。
[0056]關鍵字獲取模塊201被配置成針對用戶訪問日志中的所述每個訪問網址獲取關鍵字。實際上,就是從訪問網址中獲取用戶訪問頻率高的關鍵字,由此構成為由多個關鍵字組成的網址單元詞典。換句話說,網址單元詞典用于存儲訪問網址中的關鍵字。如圖2所示,關鍵字獲取模塊201可以進一步包括替換模塊211、分割模塊212以及統(tǒng)計模塊213。
[0057]替換模塊211被配置成從用戶訪問日志中的每個訪問網址中查找無用字符串,并用預定通用字符串替換所述無用字符串以形成臨時網址模式。在此,無用字符串是指在URL模式生成過程中不需要的數(shù)字串、檢索串(query串)等。通用字符串是指預先定義的字符串。換句話說,替換模塊211是用于進行替換數(shù)字串、檢索串等的預處理的模塊。例如,當前正在處理域名為domain_name的用戶訪問日志。訪問網址記錄如下所示:
[0058]domain—name host—name pv[0059]host_name/a/b/1234/5678.html?id=323&book=32 (I)
[0060]其中,a和html是關鍵字,b是非關鍵字。用預先定義的通用字符串將上述的網址中的無用字符串替換為:
[0061]host_name/a/(\w+)/(\d+)/(\d+).html?<query> (2)
[0062]如上述所示,式(I)是用戶訪問日志中的一個訪問網址,式(2)是對式(I)替換了字符串后的臨時網址模式。顯然,訪問網址記錄中的“b”、“ 1234”、“5678”、“ id=323&book=32 ”是無用字符串,而式(2 )中的(\計)、(\d+)、〈query〉是通用字符串。即,用(\w+)替換了 “b”,用(\d+)替換了 “1234”,用(\d+)替換了 “5678”,用〈query〉替換了“id=323&book=32”。
[0063]分割模塊212被配置成針對不同的位置并按照預定規(guī)則將每個所述臨時網址模式分割為多個網址單元(以下也稱作URL單元)。這里,預定規(guī)則是指網址中的“/、?、#,,等特殊符號。即,分割模塊212按照“/、?、#”等符號將經過預處理的每個臨時網址模式分割為多個URL單元,并且每個URL單元與其在URL中的位置相關聯(lián)。以上述式(2)為例,分割模塊 212 按照“/,,、“.”、“? ”這三個符號將式(2)分割為“a”、“ (\w+-) ”、“ (\d+) ”、“ (\d+) ”、“html'“〈query〉”這六個URL單元,并且每個URL單元均與其在URL中的位置相關聯(lián),即:“a”對應于位置1,“ (\w+) ”對應于位置2等。統(tǒng)計模塊213被配置成統(tǒng)計每個網址單元在所在位置上出現(xiàn)的次數(shù),將超出預定次數(shù)的網址單元標記為所述關鍵字,并以預定格式將所述關鍵字保存在網址單元詞典中。這里,預定格式為“域名一位置一關鍵字”。也就是說,統(tǒng)計模塊213針對每個分割的位置統(tǒng)計每個URL單元出現(xiàn)的次數(shù),當某URL單元出現(xiàn)的次數(shù)超出預定值時,就將該URL單元標記為關鍵字,并且將所標記的關鍵字以“域名一位置一關鍵字”這樣的格式存儲在URL單元詞典中。例如,在上述例子中,a和html為關鍵字,則將 a 和 html 分別以“ {domain_name, I, a}、{domain_name, 5, html} ” 這樣的格式存儲在 URL單元詞典中。
[0064]另外,模式生成模塊20`2被配置成針對所述每個訪問網址使用所述關鍵字和預定正則表達式生成網址模式,并且按照預定條件將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中的剩余的網址模式作為待分類數(shù)據(jù)。也就是說,模式生成模塊202使用在上述的URL單元詞典中存儲的關鍵字和預先設定的正則表達式將用戶訪問日志中的每個訪問網址生成對應的URL模式,然后按照訪問率高等條件將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中剩余的網址模式作為待分類數(shù)據(jù)。
[0065]另外,如圖2所示,模式生成模塊202可以進一步包括匹配模塊221和整合模塊222。
[0066]匹配模塊221被配置成將所述多個網址單元分別與所述網址單元詞典中的關鍵字進行匹配,當匹配成功時將匹配的網址單元保留為第一網址單元,當匹配失敗時將不匹配的網址單元用所述預定正則表達式取代并保留為第二網址單元。也就是說,匹配模塊221將分割后的URL單元分別與URL單元詞典中的關鍵字進行匹配,如果匹配成功,就保留匹配的URL單元;如果匹配失敗,就用預先設定的正則表達式替換不匹配的URL單元。在此,匹配表示分割而成的URL單元是否與URL單元詞典中的某一個關鍵字一致的意思。為了明確地區(qū)分保留的URL單元和替換的URL單元,將保留的URL單元設為第一 URL單元(即第一網址單元),將替換的URL單元設為第二 URL單元(即第二網址單元)。此外,將多個網址單元分別與網址單元詞典中的關鍵字進行匹配的理由是,由多個關鍵字構成的網址單元詞典只是一個配置文件,系統(tǒng)不能自動地識別出在構成網址的多個網址單元中哪些網址單元是關鍵字,因此在對用戶訪問日志中的網址進行處理時需要調用這個配置文件才會獲知每個訪問網址中特定位置上的網址單元是否為網址單元詞典中的關鍵字,然后才能執(zhí)行使用正則表達式對非關鍵字的網址單元進行替換的處理。
[0067]整合模塊222被配置成使用所述第一網址單元和所述第二網址單元將所述多個網址單元整合為網址模式,并且按照預定條件將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中的剩余的網址模式作為待分類數(shù)據(jù)。也就是說,按照每個分割后的(匹配前的)URL單元所在的位置,將多個(匹配后的)URL單元(即第一 URL單元或第二URL單元)進行整合,通過整合后構成為URL模式。
[0068]此外,雖然未圖示,但在模式生成模塊202中,在匹配模塊221和整合模塊222之前還可以包括重新替換模塊和重新分割模塊。其中,重新替換模塊被配置成從用戶訪問日志中的每個訪問網址中查找無用字符串,并用所述通用字符串替換所述無用字符串以形成所述臨時網址模式。重新分割模塊被配置成按照所述預定規(guī)則將每個所述臨時網址模式重新分割為所述多個網址單元。即,重新替換模塊相當于替換模塊211,重新分割模塊相當于分割模塊212。追加重新替換模塊和重新分割模塊的好處是能夠使匹配模塊更容易且快速地區(qū)分開每個訪問網址中的關鍵字和非關鍵字從而使整合模塊快速地執(zhí)行URL模式的生成,能減少復雜的操作流程。當然,也可以省略重新替換模塊和重新分割模塊。
[0069]返回至圖1,頁面特征抓取模塊102被配置成對所述測試數(shù)據(jù)所對應的頁面內容進行特征抽取以得到測試特征數(shù)據(jù),并將所述測試特征數(shù)據(jù)中的一部分測試特征數(shù)據(jù)作為訓練數(shù)據(jù),并且還對所述待分類數(shù)據(jù)所對應的頁面內容進行特征抽取以得到待分類特征數(shù)據(jù)。也就是說,頁面特征抓取模塊102分別對測試數(shù)據(jù)和待分類數(shù)據(jù)中每個URL模式所對應的頁面內容進行特征抽取,而且僅從抽取后的測試特征數(shù)據(jù)中選出一部分測試特征數(shù)據(jù)作為訓練數(shù)據(jù)。
[0070]圖3是本申請實施例的頁面特征抓取模塊102的結構圖。如圖3所示,頁面特征抓取模塊102可以包括抽取模塊301、判斷模塊302以及計算模塊303。
[0071]抽取模塊301被配置成對所述測試數(shù)據(jù)所對應的頁面內容進行特征抽取以得到所述測試特征數(shù)據(jù),并將全部的所述測試特征數(shù)據(jù)存儲為測試數(shù)據(jù)特征輸出文件,還對所述待分類數(shù)據(jù)所對應的頁面內容進行特征抽取以獲得所述待分類特征數(shù)據(jù),并將抽取的全部結果存儲為待分類數(shù)據(jù)特征輸出文件。也就是說,抽取模塊301針對每個URL模式所對應的頁面內容抽取出如下表中所列出的那樣的包括頁面話題等的特征數(shù)據(jù),并將這些特征數(shù)據(jù)存儲為特征輸出文件。即,特征數(shù)據(jù)包括頁面形式、正文、外部鏈接、文章標題、導航信息以及正文關鍵詞等信息。例如,針對小說類和資訊類站點,所抽取的特征如下表格I所示。
[0072]< 表格 1>
[0073]
【權利要求】
1.一種頁面分類系統(tǒng),包括: 網址模式生成模塊,被配置成針對用戶訪問日志中的每個訪問網址對應地生成網址模式,其中,按照預定條件將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中剩余的網址模式作為待分類數(shù)據(jù); 頁面特征抓取模塊,被配置成對所述測試數(shù)據(jù)所對應的頁面內容進行特征抽取以得到測試特征數(shù)據(jù),并將所述測試特征數(shù)據(jù)中的一部分測試特征數(shù)據(jù)作為訓練數(shù)據(jù),并且還對所述待分類數(shù)據(jù)所對應的頁面內容進行特征抽取以得到待分類特征數(shù)據(jù); 訓練模塊,被配置成使用分類器對所述訓練數(shù)據(jù)進行模型計算和評估以獲得分類模型;以及 預測模塊,被配置成使用所述分類器和所述分類模型對所述待分類特征數(shù)據(jù)進行預測以將所述待分類特征數(shù)據(jù)分類為不同類型的頁面。
2.根據(jù)權利要求1所述的頁面分類系統(tǒng),其中,所述網址模式生成模塊進一步包括: 關鍵字獲取模塊,被配置成針對用戶訪問日志中的所述每個訪問網址獲取關鍵字;以及 模式生成模塊,被配置成針對所述每個訪問網址使用所述關鍵字和預定正則表達式生成網址模式,其中,將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中的剩余的網址模式作為待分類數(shù)據(jù)。
3.根據(jù)權利要求2所述的頁面分類系統(tǒng),其中,所述關鍵字獲取模塊進一步包括: 替換模塊,被配置成從用戶訪問日志中的每個訪問網址中查找無用字符串,并用預定通用字符串替換所述無用字符串以形成臨時網址模式; 分割模塊,被配置成針對不同的位置并按照預定規(guī)則將每個所述臨時網址模式分割為多個網址單元;以及 統(tǒng)計模塊,被配置成統(tǒng)計每個網址單元在所在位置上出現(xiàn)的次數(shù),將超出預定次數(shù)的網址單元標記為所述關鍵字,并以預定格式將所述關鍵字保存在網址單元詞典中。
4.根據(jù)權利要求3所述的頁面分類系統(tǒng),其中,所述模式生成模塊進一步包括: 匹配模塊,被配置成將所述多個網址單元分別與所述網址單元詞典中的關鍵字進行匹配,將匹配的網址單元保留為第一網址單元,將不匹配的網址單元用所述預定正則表達式取代并保留為第二網址單元;以及 整合模塊,被配置成使用所述第一網址單元和所述第二網址單元將所述多個網址單元整合為網址模式,其中,將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中的剩余的網址模式作為待分類數(shù)據(jù)。
5.根據(jù)權利要求1所述的頁面分類系統(tǒng),其中,所述頁面特征抓取模塊進一步包括: 抽取模塊,被配置成對所述測試數(shù)據(jù)所對應的頁面內容進行特征抽取以得到所述測試特征數(shù)據(jù),并將全部的所述測試特征數(shù)據(jù)存儲為特征輸出文件,還對所述待分類數(shù)據(jù)所對應的頁面內容進行特征抽取以獲得所述待分類特征數(shù)據(jù); 判斷模塊,被配置成針對所述特征輸出文件中的每個所述測試特征數(shù)據(jù)依次判斷所述測試特征數(shù)據(jù)中的頁面形式是否為特殊頁面,當判斷為所述頁面形式是特殊頁面時,刪除所述頁面形式是特殊頁面的測試特征數(shù)據(jù),當判斷為所述頁面形式不是特殊頁面時,保存所述頁面形式不是特殊頁面的測試特征數(shù)據(jù)以構成一部分測試特征數(shù)據(jù);以及計算模塊,被配置成針對所述一部分測試特征數(shù)據(jù)計算特征向量,并將具有所述特征向量的所述一部分測試特征數(shù)據(jù)作為訓練數(shù)據(jù)。
6.根據(jù)權利要求1所述的頁面分類系統(tǒng),其中,所述訓練模塊進一步包括: 數(shù)據(jù)區(qū)分模塊,被配置成使用所述分類器對所述訓練數(shù)據(jù)進行訓練以將所述訓練數(shù)據(jù)區(qū)分為至少兩類數(shù)據(jù);以及 模型構建模塊,被配置成將所述至少兩類數(shù)據(jù)分別構成為與每一類數(shù)據(jù)對應的頁面模型,從而構建出包含至少兩類所述頁面模型的分類模型。
7.根據(jù) 權利要求6所述的頁面分類系統(tǒng),其中,所述預測模塊進一步包括: 判定模塊,被配置成使用所述分類模型判定所述待分類特征數(shù)據(jù)屬于至少兩類所述頁面模型中的哪一類;以及 分類模塊,被配置成使用所述分類器并根據(jù)判定結果將所述待分類特征數(shù)據(jù)分類為至少兩類頁面。
8.根據(jù)權利要求6所述的頁面分類系統(tǒng),其中,所述預測模塊還包括: 糾錯模塊,被配置成從已分類的特征數(shù)據(jù)所對應的待分類數(shù)據(jù)中任意地抽取兩個數(shù)據(jù),根據(jù)預定的標準來判斷所抽取的兩個數(shù)據(jù)的分類是否成功,并修改分類失敗的數(shù)據(jù)的類別。
9.根據(jù)權利要求5所述的頁面分類系統(tǒng),其中,所述特殊頁面包括登錄頁面和錯誤頁面。
10.根據(jù)權利要求1所述的頁面分類系統(tǒng),其中,所述預定條件包括站點的訪問頻率聞。
11.根據(jù)權利要求3所述的頁面分類系統(tǒng),其中,所述無用字符串包括數(shù)字串、檢索串。
12.根據(jù)權利要求3所述的頁面分類系統(tǒng),其中,所述預定格式是:域名一位置一關鍵字。
13.根據(jù)權利要求1所述的頁面分類系統(tǒng),其中,所述測試特征數(shù)據(jù)包括頁面話題、頁面形式、正文、外部鏈接、文章標題、導航信息以及正文關鍵詞。
14.根據(jù)權利要求13所述的頁面分類系統(tǒng),其中,所述特征向量包括所述頁面話題的向量值、所述頁面形式的向量值、所述正文的長度、所述外部鏈接的數(shù)量、所述文章標題與所述正文關鍵詞的吻合度以及所述文章標題與所述導航信息的吻合度。
15.一種頁面分類方法,包括以下步驟: 網址模式生成步驟,針對用戶訪問日志中的每個訪問網址對應地生成網址模式,其中,按照預定條件將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中剩余的網址模式作為待分類數(shù)據(jù); 頁面特征抓取步驟,對所述測試數(shù)據(jù)所對應的頁面內容進行特征抽取以得到測試特征數(shù)據(jù),并將所述測試特征數(shù)據(jù)中的一部分測試特征數(shù)據(jù)作為訓練數(shù)據(jù),并且還對所述待分類數(shù)據(jù)所對應的頁面內容進行特征抽取以得到待分類特征數(shù)據(jù); 訓練步驟,使用分類器對所述訓練數(shù)據(jù)進行模型計算和評估以獲得分類模型;以及預測步驟,使用所述分類器和所述分類模型對所述待分類特征數(shù)據(jù)進行預測以將所述待分類特征數(shù)據(jù)分類為不同類型的頁面。
16.根據(jù)權利要求15所述的頁面分類方法,其中,所述網址模式生成步驟進一步包括:關鍵字獲取步驟,針對用戶訪問日志中的所述每個訪問網址獲取關鍵字;以及模式生成步驟,針對所述每個訪問網址使用所述關鍵字和預定正則表達式生成網址模式,其中,將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中的剩余的網址模式作為待分類數(shù)據(jù)。
17.根據(jù)權利要求15所述的頁面分類方法,其中,所述關鍵字獲取步驟進一步包括: 替換步驟,從用戶訪問日志中的每個訪問網址中查找無用字符串,并用預定通用字符串替換所述無用字符串以形成臨時網址模式; 分割步驟,針對不同的位置并按照預定規(guī)則將每個所述臨時網址模式分割為多個網址單元;以及 統(tǒng)計步驟,統(tǒng)計每個網址單元在所在位置上出現(xiàn)的次數(shù),將超出預定次數(shù)的網址單元標記為所述關鍵字,并以預定格式將所述關鍵字保存在網址單元詞典中。
18.根據(jù)權利要求16所述的頁面分類方法,其中,所述模式生成步驟進一步包括: 匹配步驟,將所述多個網址單元分別與所述網址單元詞典中的關鍵字進行匹配,將匹配的網址單元保留為第一網址單元,將不匹配的網址單元用所述預定正則表達式取代并保留為第二網址單元;以及 整合步驟,使用所述第一網址單元和所述第二網址單元將所述多個網址單元整合為網址模式,其中,將所述網址模式中的一部分網址模式作為測試數(shù)據(jù),將所述網址模式中的剩余的網址模式作為待分類數(shù)據(jù)。
19.根據(jù)權利要求15所述的頁面分類方法,其中,所述頁面特征抓取步驟進一步包括: 抽取步驟,對所述測試數(shù)據(jù)所對應的頁面內容進行特征抽取以得到所述測試特征數(shù)據(jù),并將全部的所述測試特征數(shù)據(jù)存儲為特征輸出文件,還對所述待分類數(shù)據(jù)所對應的頁面內容進行特征抽取以獲得所述待分類特征數(shù)據(jù); 判斷步驟,針對所述特征輸出文件中的每個所述測試特征數(shù)據(jù)依次判斷所述測試特征數(shù)據(jù)中的頁面形式是否為特殊頁面,當判斷為所述頁面形式是特殊頁面時,刪除所述頁面形式是特殊頁面的測試特征數(shù)據(jù),當判斷為所述頁面形式不是特殊頁面時,保存所述頁面形式不是特殊頁面的測試特征數(shù)據(jù)以構成一部分測試特征數(shù)據(jù);以及 計算步驟,針對所述一部分測試特征數(shù)據(jù)計算特征向量,并將具有所述特征向量的所述一部分測試特征數(shù)據(jù)作為訓練數(shù)據(jù)。
20.根據(jù)權利要求15所述的頁面分類方法,其中,所述訓練步驟進一步包括:數(shù)據(jù)區(qū)分步驟,使用所述分類器對所述訓練數(shù)據(jù)進行訓練以將所述訓練數(shù)據(jù)區(qū)分為至少兩類數(shù)據(jù);以及 模型構建步驟,將所述至少兩類數(shù)據(jù)分別構成為與每一類數(shù)據(jù)對應的頁面模型,從而構建出包含至少兩類所述頁面模型的分類模型。
21.根據(jù)權利要求20所述的頁面分類方法,其中,所述預測步驟進一步包括: 判定步驟,使用所述分類模型判定所述待分類特征數(shù)據(jù)屬于至少兩類所述頁面模型中的哪一類;以及 分類步驟,使用所述分類器并根據(jù)判定結果將所述待分類特征數(shù)據(jù)分類為至少兩類頁面。
22.根據(jù)權利要求20所述的頁面分類方法,其中,所述預測步驟還包括:糾錯步驟,從已分類的特征數(shù)據(jù)所對應的待分類數(shù)據(jù)中任意地抽取兩個數(shù)據(jù),根據(jù)預定的標準來判斷所 抽取的兩個數(shù)據(jù)的分類是否成功,并修改分類失敗的數(shù)據(jù)的類別。
【文檔編號】G06F17/30GK103838798SQ201210491800
【公開日】2014年6月4日 申請日期:2012年11月27日 優(yōu)先權日:2012年11月27日
【發(fā)明者】胡浩源, 賴龍彬, 韓定一, 薛貴榮 申請人:阿里巴巴集團控股有限公司