專利名稱:一種站點資源管理方法及裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)應用技術(shù)領(lǐng)域,特別涉及一種站點資源管理方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù),尤其是智能搜索、智能廣告推薦等技術(shù)的發(fā)展,對于網(wǎng)站進行分析、歸類的需求越來越被重視。如此一來,就需要一種將站點的網(wǎng)頁資源自動進行分類及組織的管理方法?,F(xiàn)有技術(shù)中,經(jīng)常簡單的通過網(wǎng)頁文本標題對網(wǎng)頁進行劃分,但這一方法的準確性不高。發(fā)明內(nèi)容
本發(fā)明旨在至少在一定程度上解決上述技術(shù)問題之一或至少提供一種有用的商業(yè)選擇。
為此,本發(fā)明的第一個目的在于提出一種站點資源管理方法,根據(jù)網(wǎng)頁內(nèi)容等因素針對網(wǎng)頁的網(wǎng)頁類型進行智能分析,為對站點網(wǎng)頁資源進行管理、分類提供了判斷依據(jù)。本發(fā)明的第二個目的在于提出一種站點資源管理裝置。
為達到上述目的,本發(fā)明第一方面的實施例提出了一種站點資源管理方法,包括以下步驟:對web站點進行數(shù)據(jù)挖掘以獲取所述web站點中各個頁面的URL數(shù)據(jù);對所述各個頁面的URL數(shù)據(jù)進行語義分析以獲取各個頁面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征屬于訓練得到的多個TAG特征和多個Mypos特征;根據(jù)各個頁面的TAG特征和Mypos特征得到所述各個頁面在預定分類表的各個分類下的權(quán)重。
根據(jù)本發(fā)明實施例的站點資源管理方法,可以通過對網(wǎng)頁內(nèi)容進行分詞、提取特征的方式針對網(wǎng)頁的網(wǎng)頁類型進行智能分析,為對站點網(wǎng)頁資源進行管理、分類提供了判斷依據(jù),使得為用戶提供的網(wǎng)頁推薦可以更加符合用戶的需要,提高了用戶體驗。
在本發(fā)明的一個實施例中,所述站點資源管理方法進一步包括步驟:根據(jù)所述各個頁面在預定分類表的各個分類下的權(quán)重將所述各個頁面輸出給對應的聚合頻道。
在本發(fā)明的一個實施例中,根據(jù)所述各個頁面在預定分類表的各個分類下的權(quán)重計算所述各個頁面的相似度以進行相似頁面推薦。
在本發(fā)明的一個實施例中,所述預定分類表的各個分類包括籃球、足球、網(wǎng)球、其他體育、財經(jīng)、女性、娛樂、軍事、國際時事、社會、美食、汽車、旅游、科技、健康、兩性、笑話、動漫或游戲。
在本發(fā)明的一個實施例中,對web站點進行數(shù)據(jù)挖掘以獲取所述web站點中各個頁面的URL數(shù)據(jù)的步驟包括:對所述web站點進行日志挖掘和站點挖掘,其中通過所述日志挖掘獲取頁面的URL數(shù)據(jù)以及所述頁面的訪問熱度,通過所述站點挖掘獲取所述站點下各個頁面的URL數(shù)據(jù)以及站點結(jié)構(gòu)數(shù)據(jù)。
在本發(fā)明的一個實施例中,所述訪問熱度用于確定頁面的點擊量,所述站點結(jié)構(gòu)數(shù)據(jù)用于實現(xiàn)web站點至web app的結(jié)構(gòu)轉(zhuǎn)換。
在本發(fā)明的一個實施例中,對所述各個頁面的URL數(shù)據(jù)進行語義分析以獲取各個頁面的TAG特征和Mypos特征的步驟包括:對所述各個頁面的URL數(shù)據(jù)進行切詞分析以得到多個詞;將所述多個詞與訓練得到的多個TAG特征和多個Mypos特征進行匹配以獲取各個頁面的TAG特征和Mypos特征。
本發(fā)明第二方面的實施例提出了一種站點資源管理裝置,包括:挖掘模塊,用于對web站點進行數(shù)據(jù)挖掘以獲取所述web站點中各個頁面的URL數(shù)據(jù);特征獲取模塊,用于對所述各個頁面的URL數(shù)據(jù)進行語義分析以獲取各個頁面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征屬于訓練得到的多個TAG特征和多個Mypos特征;權(quán)重計算模塊,用于根據(jù)各個頁面的TAG特征和Mypos特征得到所述各個頁面在預定分類表的各個分類下的權(quán)重。
根據(jù)本發(fā)明實施例的站點資源管理裝置,可以通過對網(wǎng)頁內(nèi)容進行分詞、提取特征的方式針對網(wǎng)頁的網(wǎng)頁類型進行智能分析,為對站點網(wǎng)頁資源進行管理、分類提供了判斷依據(jù),使得為用戶提供的網(wǎng)頁推薦可以更加符合用戶的需要,提高了用戶體驗。
在本發(fā)明的一個實施例中,所述站點資源管理裝置進一步包括:頁面分類模塊,用于根據(jù)所述各個頁面在預定分類表的各個分類下的權(quán)重將所述各個頁面輸出給對應的聚合頻道。
在本發(fā)明的一個實施例中,所述站點資源管理裝置進一步包括:相似度計算模塊,用于根據(jù)所述各個頁面在預定分類表的各個分類下的權(quán)重計算所述各個頁面的相似度以進行相似頁面推薦。
在本發(fā)明的一個實施例中,所述預定分類表的各個分類包括籃球、足球、網(wǎng)球、其他體育、財經(jīng)、女性、娛樂、軍事、國際時事、社會、美食、汽車、旅游、科技、健康、兩性、笑話、動漫或游戲。
在本發(fā)明的一個實施例中,所述挖掘模塊包括:日志挖掘單元,用于獲取頁面的URL數(shù)據(jù)以及所述頁面的訪問熱度;站點挖掘單元,用于獲取所述站點下各個頁面的URL數(shù)據(jù)以及站點結(jié)構(gòu)數(shù)據(jù)。
在本發(fā)明的一個實施例中,所述訪問熱度用于確定頁面的點擊量,所述站點結(jié)構(gòu)數(shù)據(jù)用于實現(xiàn)web站點至web app的結(jié)構(gòu)轉(zhuǎn)換。
在本發(fā)明的一個實施例中,所述特征獲取模塊包括:切詞分析單元,用于對所述各個頁面的URL數(shù)據(jù)進行切詞分析以得到多個詞;匹配單元,用于將所述多個詞與訓練得到的多個TAG特征和多個Mypos特征進行匹配以獲取各個頁面的TAG特征和Mypos特征。
本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1為根據(jù)本發(fā)明一個實施例的站點資源管理方法的流程圖2為根據(jù)本發(fā)明另一個實施例的站點資源管理方法的流程圖3為一個待挖掘的web網(wǎng)頁的示意圖4為根據(jù)本發(fā)明實施例的一個站點資源管理裝置的示意圖;以及
圖5為根據(jù)本發(fā)明實施例的另一個站點資源管理裝置的示意圖。
具體實施方式
下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
在本發(fā)明中,除非另有明確的規(guī)定和限定,術(shù)語“安裝”、“相連”、“連接”、“固定”等術(shù)語應做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連,可以是兩個元件內(nèi)部的連通。對于本領(lǐng)域的普通技術(shù)人員而言,可以根據(jù)具體情況理解上述術(shù)語在本發(fā)明中的具體含義。
下面分別參考圖1至圖3對本發(fā)明實施例的站點資源管理方法的流程進行描述。
如圖1所示,根據(jù)本發(fā)明第一方面的實施例的站點資源管理方法,包括以下步驟:
SlOl:對web站點進行數(shù)據(jù)挖掘以獲取web站點中各個頁面的URL數(shù)據(jù)。
具體地,對站點進行數(shù)據(jù)挖掘包括日志挖掘和站點挖掘兩部分。
日志挖掘:挖掘網(wǎng)站的url以及url對應的pattern、query、搜索結(jié)果頁序號、pv等信息,提供網(wǎng)站內(nèi)url的基本url數(shù)據(jù)以及對應的訪問熱度信息,訪問熱度用于確定頁面的點擊量。在一個具體的實施例中,日志挖掘可以利用hadoop平臺實現(xiàn)。
站點挖掘:從網(wǎng)站首頁或頻道頁開始,定時抓取指定站點或頻道的頁面以下級頁面,分析頁面前后連接之間的指向關(guān)系,并且補全網(wǎng)站站點各個頁面的URL數(shù)據(jù)以及站點結(jié)構(gòu)數(shù)據(jù),站點結(jié)構(gòu)數(shù)據(jù)用于實現(xiàn)web站點至web app (Application,應用程序)的結(jié)構(gòu)轉(zhuǎn)換。在一個具體的實施例中,站點挖掘可以利用站點抓取技術(shù)實現(xiàn)。
在本發(fā)明的一個實施例中,以站點7y7.com為例,進行日志挖掘和站點挖掘,其中,日志挖掘根據(jù)PV分析,得到站點內(nèi)pv最高的3條URL及其pattern如表I所示:
權(quán)利要求
1.一種站點資源管理方法,其特征在于,包括以下步驟: 對web站點進行數(shù)據(jù)挖掘以獲取所述web站點中各個頁面的URL數(shù)據(jù); 對所述各個頁面的URL數(shù)據(jù)進行語義分析以獲取各個頁面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征屬于訓練得到的多個TAG特征和多個Mypos特征;以及 根據(jù)各個頁面的TAG特征和Mypos特征得到所述各個頁面在預定分類表的各個分類下的權(quán)重。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,進一步包括步驟: 根據(jù)所述各個頁面在預定分類表的各個分類下的權(quán)重將所述各個頁面輸出給對應的聚合頻道。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,進一步包括步驟: 根據(jù)所述各個頁面在預定分類表的各個分類下的權(quán)重計算所述各個頁面的相似度以進行相似頁面推薦。
4.根據(jù)權(quán)利要求1至3中任一項所述的方法,其特征在于,所述預定分類表的各個分類包括籃球、足球、網(wǎng)球、其他體育、財經(jīng)、女性、娛樂、軍事、國際時事、社會、美食、汽車、旅游、科技、健康、兩性、笑話、動漫或游戲。
5.根據(jù)權(quán)利要求1至3中任一項所述的方法,其特征在于,對web站點進行數(shù)據(jù)挖掘以獲取所述web站點中各個頁面的URL數(shù)據(jù)的步驟包括: 對所述web站點進行日志挖掘和站點挖掘,其中通過所述日志挖掘獲取頁面的URL數(shù)據(jù)以及所述頁面的訪問熱度,通過所述站點挖掘獲取所述站點下各個頁面的URL數(shù)據(jù)以及站點結(jié)構(gòu)數(shù)據(jù)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述訪問熱度用于確定頁面的點擊量,所述站點結(jié)構(gòu)數(shù)據(jù)用于實現(xiàn)web站點至web app的結(jié)構(gòu)轉(zhuǎn)換。
7.根據(jù)權(quán)利要求1至3中任一項所述的方法,其特征在于,對所述各個頁面的URL數(shù)據(jù)進行語義分析以獲取各個頁面的TAG特征和Mypos特征的步驟包括: 對所述各個頁面的URL數(shù)據(jù)進行切詞分析以得到多個詞; 將所述多個詞與訓練得到的多個TAG特征和多個Mypos特征進行匹配以獲取各個頁面的TAG特征和Mypos特征。
8.一種站點資源管理裝置 ,其特征在于,包括: 挖掘模塊,用于對web站點進行數(shù)據(jù)挖掘以獲取所述web站點中各個頁面的URL數(shù)據(jù); 特征獲取模塊,用于對所述各個頁面的URL數(shù)據(jù)進行語義分析以獲取各個頁面的TAG特征和Mypos特征,其中所述TAG特征和所述Mypos特征屬于訓練得到的多個TAG特征和多個Mypos特征;以及 權(quán)重計算模塊,用于根據(jù)各個頁面的TAG特征和Mypos特征得到所述各個頁面在預定分類表的各個分類下的權(quán)重。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還進一步包括: 頁面分類模塊,用于根據(jù)所述各個頁面在預定分類表的各個分類下的權(quán)重將所述各個頁面輸出給對應的聚合頻道。
10.根據(jù)權(quán)利要求8所述的裝置,其特征在于,還進一步包括:相似度計算模塊,用于根據(jù)所述各個頁面在預定分類表的各個分類下的權(quán)重計算所述各個頁面的相似度以進行相似頁面推薦。
11.根據(jù)權(quán)利要求8至10中任一項所述的裝置,其特征在于,所述預定分類表的各個分類包括籃球、足球、網(wǎng)球、其他體育、財經(jīng)、女性、娛樂、軍事、國際時事、社會、美食、汽車、旅游、科技、健康、兩性、笑話、動漫或游戲。
12.根據(jù)權(quán)利要求8至10中任一項所述的裝置,其特征在于,所述挖掘模塊包括: 日志挖掘單元,用于獲取頁面的URL數(shù)據(jù)以及所述頁面的訪問熱度; 站點挖掘單元,用于獲取所述站點下各個頁面的URL數(shù)據(jù)以及站點結(jié)構(gòu)數(shù)據(jù)。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述訪問熱度用于確定頁面的點擊量,所述站點結(jié)構(gòu)數(shù)據(jù)用于實現(xiàn)web站點至web app的結(jié)構(gòu)轉(zhuǎn)換。
14.根據(jù)權(quán)利要求8至10中任一項所述的裝置,其特征在于,所述特征獲取模塊包括: 切詞分析單元,用于對所述各個頁面的URL數(shù)據(jù)進行切詞分析以得到多個詞; 匹配單元,用于將所述多個詞與訓練得到的多個TAG特征和多個Mypos特征進行匹配以獲取各個頁面的T AG特征和Mypos特征。
全文摘要
本發(fā)明提出了一種站點資源管理方法,包括以下步驟對web站點進行數(shù)據(jù)挖掘以獲取web站點中各個頁面的URL數(shù)據(jù);對各個頁面的URL數(shù)據(jù)進行語義分析以獲取各個頁面的TAG特征和Mypos特征,其中TAG特征和Mypos特征屬于訓練得到的多個TAG特征和多個Mypos特征;根據(jù)各個頁面的TAG特征和Mypos特征得到各個頁面在預定分類表的各個分類下的權(quán)重。本發(fā)明還提出了一種站點資源管理裝置。本發(fā)明根據(jù)網(wǎng)頁內(nèi)容等因素針對網(wǎng)頁的網(wǎng)頁類型進行智能分析,為對站點網(wǎng)頁資源進行管理、分類提供了判斷依據(jù)。
文檔編號G06F17/30GK103218390SQ20121059297
公開日2013年7月24日 申請日期2012年12月31日 優(yōu)先權(quán)日2012年12月31日
發(fā)明者崔建偉, 王佳, 李偉剛 申請人:百度在線網(wǎng)絡技術(shù)(北京)有限公司