爬蟲分類模塊:對(duì)未能在有效URL信息庫中匹配的用戶訪問日志,送爬蟲及內(nèi) 容處理單元。
[0043] 有效URL信息庫更新模塊:將興趣點(diǎn)確定單元能分類的用戶訪問URL和分類信息 添加入有效URL信息庫,并記錄該URL的有效詞。
[0044] 3、爬蟲及內(nèi)容處理單元
[0045] 包括網(wǎng)頁爬蟲模塊、頁面內(nèi)容分析模塊和有效詞頻數(shù)統(tǒng)計(jì)模塊。
[0046] 網(wǎng)頁爬蟲模塊:采用自動(dòng)的方法獲取用戶訪問URL的網(wǎng)頁信息,并送頁面內(nèi)容分 析模塊。
[0047] 頁面內(nèi)容分析模塊:分析出網(wǎng)頁的標(biāo)題、元信息和正文,并對(duì)文本內(nèi)容進(jìn)行分詞操 作,去掉其中嘆詞、副詞、形容詞、介詞等沒有具體意義的詞,得到N個(gè)有效詞R= (ri,r2,…, rN) 〇
[0048] 有效詞頻數(shù)統(tǒng)計(jì)模塊:統(tǒng)計(jì)每個(gè)有效詞4在該網(wǎng)頁中出現(xiàn)的次數(shù)r£,用每個(gè)有效 詞出現(xiàn)的次數(shù)r|除以有效詞數(shù)N,得到每個(gè)有效詞在網(wǎng)頁中出現(xiàn)的詞頻數(shù)r£ = r|/M。相 關(guān)統(tǒng)計(jì)結(jié)果送興趣點(diǎn)確定單元。
[0049] 4、代表詞更新及權(quán)重計(jì)算單元
[0050] 代表詞權(quán)重計(jì)算模塊:根據(jù)公¥
《中Ni表示第i個(gè)分類全部URL 的個(gè)數(shù),H1,,表示網(wǎng)頁有效詞中含有詞條r w的URL個(gè)數(shù)。
[0051 ] 代表詞更新模塊:用已確定分類URL標(biāo)題的有效詞更新該分類的代表詞。
[0052] 5、興趣點(diǎn)確定單元
[0053] 包括分類置信度計(jì)算模塊和用戶訪問興趣點(diǎn)確定模塊。
[0054] 分類置信度計(jì)算模塊:根據(jù)計(jì)算的分類詞權(quán)重和用戶訪問URL網(wǎng)頁的有效詞頻 數(shù),計(jì)算該URL對(duì)應(yīng)每一個(gè)分類的置信度。具體方法如下:
[0055] 網(wǎng)頁的有效詞R與第i個(gè)分類的代表詞C1的交集使用D i表示,即D 1= R n C i,則 矩陣D表示如下:
[0056]
[0057] 根據(jù)統(tǒng)計(jì)的網(wǎng)頁有效詞的詞頻數(shù),可以確定與矩陣D對(duì)應(yīng)的詞頻數(shù)矩陣,用α表 示:
[0058]
[0059] 同樣,根據(jù)計(jì)算的內(nèi)容分類代表詞的權(quán)重,可以確定與矩陣D對(duì)應(yīng)的權(quán)重矩陣,用 β表示:
[0060]
[0061] Cl1,,為用戶訪問網(wǎng)頁的有效詞,且在第個(gè)內(nèi)容分類的代表詞中出現(xiàn)。a u值越大, 說明Cl1, ,越能代表該網(wǎng)頁;β u值越大,說明Cl1, ,更能區(qū)別其它分類。該URL對(duì)應(yīng)第i個(gè)分 類的置信度;
:,H1值越大,說明該URL的網(wǎng)頁內(nèi)容與第i個(gè)分類的 關(guān)系越強(qiáng)。
[0062] 用戶訪問興趣點(diǎn)確定模塊:根據(jù)URL對(duì)應(yīng)每一個(gè)分類的置信度的計(jì)算結(jié)果,確定 H1= max( η)的I值,第I個(gè)分類的名稱即被確定為用戶訪問興趣點(diǎn)。
[0063] 5、管理單元
[0064] 包括內(nèi)容分類維護(hù)模塊和過濾URL庫維護(hù)模塊。
[0065] 內(nèi)容分類維護(hù)模塊:根據(jù)日常知識(shí),預(yù)先設(shè)置好內(nèi)容分類,分類可以配置為多級(jí)。 例如:
[0066]
[0067] 過濾URL庫維護(hù)模塊:配置無法爬取內(nèi)容的URL黑名單。
[0068] 本領(lǐng)域的技術(shù)人員容易理解,以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以 限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含 在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問興趣點(diǎn)的方法,其特征在于,包括下述步驟: 步驟A、從DPI系統(tǒng)采集用戶移動(dòng)互聯(lián)網(wǎng)http訪問日志,http訪問日志至少包含用戶 MDN、訪問URL、訪問時(shí)間信息; 步驟B、對(duì)采集的用戶http訪問日志進(jìn)行預(yù)處理,進(jìn)行圖片瀏覽、軟件下載、信息搜索 等URL過濾; 步驟C、在有效URL fg息庫中進(jìn)行檢索,判斷是否存在; 步驟D、如果存在,轉(zhuǎn)步驟E,否則轉(zhuǎn)步驟Fl ; 步驟E、根據(jù)URL在庫中對(duì)應(yīng)的分類,確定用戶的訪問興趣點(diǎn); 步驟Fl、將該URL作為待爬蟲分類URL輸出; 步驟F2、對(duì)該URL進(jìn)行爬蟲分類處理,確定用戶訪問興趣點(diǎn)。2. -種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問興趣點(diǎn)的方法,其特征在于,所述步驟B中,采用 如下方式對(duì)用戶http訪問日志進(jìn)行預(yù)處理: 步驟B1、過濾匹配:過濾具有圖片瀏覽特征的URL,例如:*. ico, *. bmp,*. gif ; 步驟B2、軟件匹配:過濾具有軟件下載特征的URL,例如:*. apk,*. ipa ; 步驟B3、搜索匹配,過濾具有信息搜索特征的URL,這種URL通常包含搜索引擎和搜索 關(guān)鍵字; 步驟B4、與過濾URL庫進(jìn)行比較,過濾無法爬取內(nèi)容的URL。3. -種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問興趣點(diǎn)的方法,其特征在于,所述步驟F2中,采 用如下方式對(duì)URL進(jìn)行爬蟲分類處理: 步驟F21、根據(jù)用戶訪問URL,進(jìn)行爬蟲,獲取網(wǎng)頁內(nèi)容; 步驟F22、分析網(wǎng)頁的標(biāo)題、元信息和正文,進(jìn)行切詞及剔除虛詞,獲取網(wǎng)頁內(nèi)容的有效 詞,計(jì)算有效詞的詞頻數(shù); 步驟F23、根據(jù)配置的內(nèi)容分類以及每個(gè)分類已有的訓(xùn)練文本內(nèi)容,計(jì)算分類代表詞的 權(quán)重; 步驟F24、與內(nèi)容分類詞庫進(jìn)行比較,根據(jù)有效詞的詞頻數(shù)、分類代表詞的權(quán)重,計(jì)算 URL對(duì)應(yīng)多個(gè)分類的置信度; 步驟F25、取置信度值最大的分類,確定為用戶訪問興趣點(diǎn),將該URL和分類添加入有 效URL信息庫,并記錄該URL的有效詞。
【專利摘要】本發(fā)明公開了一種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問興趣點(diǎn)的方法,包括下述步驟:從DPI系統(tǒng)采集用戶移動(dòng)互聯(lián)網(wǎng)http訪問日志,http訪問日志至少包含用戶MDN、訪問URL、訪問時(shí)間等信息;對(duì)采集的用戶http訪問日志進(jìn)行預(yù)處理,進(jìn)行圖片瀏覽、軟件下載、信息搜索URL過濾;在有效URL信息庫中進(jìn)行檢索,判斷是否存在;根據(jù)URL在庫中對(duì)應(yīng)的分類,確定用戶的訪問興趣點(diǎn);將該URL作為待爬蟲分類URL輸出;對(duì)該URL進(jìn)行爬蟲分類處理,確定用戶訪問興趣點(diǎn)。本發(fā)明具有快速化職能化的優(yōu)點(diǎn)。
【IPC分類】G06F17/30
【公開號(hào)】CN105095450
【申請(qǐng)?zhí)枴緾N201510444508
【發(fā)明人】袁海, 嵇正鵬, 袁黎軼, 汪敏娟, 胡仲剛, 張聰, 馬安華
【申請(qǐng)人】江蘇省公用信息有限公司
【公開日】2015年11月25日
【申請(qǐng)日】2015年7月24日