一種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問興趣點(diǎn)的方法_2

文檔序號(hào)：9375836閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問興趣點(diǎn)的方法

爬蟲分類模塊：對(duì)未能在有效URL信息庫中匹配的用戶訪問日志，送爬蟲及內(nèi) 容處理單元。
[0043] 有效URL信息庫更新模塊：將興趣點(diǎn)確定單元能分類的用戶訪問URL和分類信息添加入有效URL信息庫，并記錄該URL的有效詞。
[0044] 3、爬蟲及內(nèi)容處理單元
[0045] 包括網(wǎng)頁爬蟲模塊、頁面內(nèi)容分析模塊和有效詞頻數(shù)統(tǒng)計(jì)模塊。
[0046] 網(wǎng)頁爬蟲模塊：采用自動(dòng)的方法獲取用戶訪問URL的網(wǎng)頁信息，并送頁面內(nèi)容分析模塊。
[0047] 頁面內(nèi)容分析模塊：分析出網(wǎng)頁的標(biāo)題、元信息和正文，并對(duì)文本內(nèi)容進(jìn)行分詞操作，去掉其中嘆詞、副詞、形容詞、介詞等沒有具體意義的詞，得到N個(gè)有效詞R= (ri，r2，…， rN) 〇
[0048] 有效詞頻數(shù)統(tǒng)計(jì)模塊：統(tǒng)計(jì)每個(gè)有效詞4在該網(wǎng)頁中出現(xiàn)的次數(shù)r￡，用每個(gè)有效詞出現(xiàn)的次數(shù)r|除以有效詞數(shù)N，得到每個(gè)有效詞在網(wǎng)頁中出現(xiàn)的詞頻數(shù)r￡ = r|/M。相關(guān)統(tǒng)計(jì)結(jié)果送興趣點(diǎn)確定單元。
[0049] 4、代表詞更新及權(quán)重計(jì)算單元
[0050] 代表詞權(quán)重計(jì)算模塊：根據(jù)公￥
《中Ni表示第i個(gè)分類全部URL 的個(gè)數(shù)，H1,,表示網(wǎng)頁有效詞中含有詞條r w的URL個(gè)數(shù)。
[0051 ] 代表詞更新模塊：用已確定分類URL標(biāo)題的有效詞更新該分類的代表詞。
[0052] 5、興趣點(diǎn)確定單元
[0053] 包括分類置信度計(jì)算模塊和用戶訪問興趣點(diǎn)確定模塊。
[0054] 分類置信度計(jì)算模塊：根據(jù)計(jì)算的分類詞權(quán)重和用戶訪問URL網(wǎng)頁的有效詞頻數(shù)，計(jì)算該URL對(duì)應(yīng)每一個(gè)分類的置信度。具體方法如下：
[0055] 網(wǎng)頁的有效詞R與第i個(gè)分類的代表詞C1的交集使用D i表示，即D 1= R n C i，則矩陣D表示如下：
[0056]
[0057] 根據(jù)統(tǒng)計(jì)的網(wǎng)頁有效詞的詞頻數(shù)，可以確定與矩陣D對(duì)應(yīng)的詞頻數(shù)矩陣，用α表示：
[0058]
[0059] 同樣，根據(jù)計(jì)算的內(nèi)容分類代表詞的權(quán)重，可以確定與矩陣D對(duì)應(yīng)的權(quán)重矩陣，用 β表示：
[0060]
[0061] Cl1,,為用戶訪問網(wǎng)頁的有效詞，且在第個(gè)內(nèi)容分類的代表詞中出現(xiàn)。a u值越大，說明Cl1, ,越能代表該網(wǎng)頁；β u值越大，說明Cl1, ,更能區(qū)別其它分類。該URL對(duì)應(yīng)第i個(gè)分類的置信度；
：，H1值越大，說明該URL的網(wǎng)頁內(nèi)容與第i個(gè)分類的關(guān)系越強(qiáng)。
[0062] 用戶訪問興趣點(diǎn)確定模塊：根據(jù)URL對(duì)應(yīng)每一個(gè)分類的置信度的計(jì)算結(jié)果，確定 H1= max( η)的I值，第I個(gè)分類的名稱即被確定為用戶訪問興趣點(diǎn)。
[0063] 5、管理單元
[0064] 包括內(nèi)容分類維護(hù)模塊和過濾URL庫維護(hù)模塊。
[0065] 內(nèi)容分類維護(hù)模塊：根據(jù)日常知識(shí)，預(yù)先設(shè)置好內(nèi)容分類，分類可以配置為多級(jí)。例如：
[0066]
[0067] 過濾URL庫維護(hù)模塊：配置無法爬取內(nèi)容的URL黑名單。
[0068] 本領(lǐng)域的技術(shù)人員容易理解，以上所述僅為本發(fā)明的較佳實(shí)施例而已，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問興趣點(diǎn)的方法，其特征在于，包括下述步驟：步驟A、從DPI系統(tǒng)采集用戶移動(dòng)互聯(lián)網(wǎng)http訪問日志，http訪問日志至少包含用戶 MDN、訪問URL、訪問時(shí)間信息；步驟B、對(duì)采集的用戶http訪問日志進(jìn)行預(yù)處理，進(jìn)行圖片瀏覽、軟件下載、信息搜索等URL過濾；步驟C、在有效URL fg息庫中進(jìn)行檢索，判斷是否存在；步驟D、如果存在，轉(zhuǎn)步驟E，否則轉(zhuǎn)步驟Fl ; 步驟E、根據(jù)URL在庫中對(duì)應(yīng)的分類，確定用戶的訪問興趣點(diǎn)；步驟Fl、將該URL作為待爬蟲分類URL輸出；步驟F2、對(duì)該URL進(jìn)行爬蟲分類處理，確定用戶訪問興趣點(diǎn)。2. -種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問興趣點(diǎn)的方法，其特征在于，所述步驟B中，采用如下方式對(duì)用戶http訪問日志進(jìn)行預(yù)處理：步驟B1、過濾匹配：過濾具有圖片瀏覽特征的URL，例如：*. ico, *. bmp，*. gif ; 步驟B2、軟件匹配：過濾具有軟件下載特征的URL，例如：*. apk，*. ipa ; 步驟B3、搜索匹配，過濾具有信息搜索特征的URL，這種URL通常包含搜索引擎和搜索關(guān)鍵字；步驟B4、與過濾URL庫進(jìn)行比較，過濾無法爬取內(nèi)容的URL。3. -種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問興趣點(diǎn)的方法，其特征在于，所述步驟F2中，采用如下方式對(duì)URL進(jìn)行爬蟲分類處理：步驟F21、根據(jù)用戶訪問URL，進(jìn)行爬蟲，獲取網(wǎng)頁內(nèi)容；步驟F22、分析網(wǎng)頁的標(biāo)題、元信息和正文，進(jìn)行切詞及剔除虛詞，獲取網(wǎng)頁內(nèi)容的有效詞，計(jì)算有效詞的詞頻數(shù)；步驟F23、根據(jù)配置的內(nèi)容分類以及每個(gè)分類已有的訓(xùn)練文本內(nèi)容，計(jì)算分類代表詞的權(quán)重；步驟F24、與內(nèi)容分類詞庫進(jìn)行比較，根據(jù)有效詞的詞頻數(shù)、分類代表詞的權(quán)重，計(jì)算 URL對(duì)應(yīng)多個(gè)分類的置信度；步驟F25、取置信度值最大的分類，確定為用戶訪問興趣點(diǎn)，將該URL和分類添加入有效URL信息庫，并記錄該URL的有效詞。
【專利摘要】本發(fā)明公開了一種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問興趣點(diǎn)的方法，包括下述步驟：從DPI系統(tǒng)采集用戶移動(dòng)互聯(lián)網(wǎng)http訪問日志，http訪問日志至少包含用戶MDN、訪問URL、訪問時(shí)間等信息；對(duì)采集的用戶http訪問日志進(jìn)行預(yù)處理，進(jìn)行圖片瀏覽、軟件下載、信息搜索URL過濾；在有效URL信息庫中進(jìn)行檢索，判斷是否存在；根據(jù)URL在庫中對(duì)應(yīng)的分類，確定用戶的訪問興趣點(diǎn)；將該URL作為待爬蟲分類URL輸出；對(duì)該URL進(jìn)行爬蟲分類處理，確定用戶訪問興趣點(diǎn)。本發(fā)明具有快速化職能化的優(yōu)點(diǎn)。
【IPC分類】G06F17/30
【公開號(hào)】CN105095450
【申請(qǐng)?zhí)枴緾N201510444508
【發(fā)明人】袁海, 嵇正鵬, 袁黎軼, 汪敏娟, 胡仲剛, 張聰, 馬安華
【申請(qǐng)人】江蘇省公用信息有限公司
【公開日】2015年11月25日
【申請(qǐng)日】2015年7月24日

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第2頁1 2

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

移動(dòng)互聯(lián)網(wǎng)用戶相關(guān)技術(shù)

中國移動(dòng)互聯(lián)網(wǎng)用戶相關(guān)技術(shù)

2016移動(dòng)互聯(lián)網(wǎng)用戶數(shù)相關(guān)技術(shù)

2017移動(dòng)互聯(lián)網(wǎng)用戶數(shù)相關(guān)技術(shù)

移動(dòng)互聯(lián)網(wǎng)用戶數(shù)量相關(guān)技術(shù)

移動(dòng)互聯(lián)網(wǎng)用戶數(shù)相關(guān)技術(shù)

移動(dòng)互聯(lián)網(wǎng)用戶分析相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問興趣點(diǎn)的方法_2