亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問(wèn)興趣點(diǎn)的方法

文檔序號(hào):9375836閱讀:516來(lái)源:國(guó)知局
一種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問(wèn)興趣點(diǎn)的方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及無(wú)限通信技術(shù)領(lǐng)域,具體涉及一種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問(wèn)興趣 點(diǎn)的方法。
【背景技術(shù)】
[0002] -方面,隨著無(wú)線網(wǎng)絡(luò)傳輸帶寬的不斷提升和智能終端的快速普及,用戶可以使 用手機(jī)終端隨時(shí)、隨地訪問(wèn)移動(dòng)互聯(lián)網(wǎng);另一方面,近年來(lái),互聯(lián)網(wǎng)海量信息呈爆炸式增長(zhǎng), 人們需花費(fèi)大量的時(shí)間去獲取自己需要的信息。
[0003] 為讓用戶快速找到自己感興趣的內(nèi)容,需對(duì)用戶移動(dòng)互聯(lián)網(wǎng)訪問(wèn)行為進(jìn)行挖掘分 析,確定用戶的訪問(wèn)興趣點(diǎn),進(jìn)而針對(duì)性地進(jìn)行內(nèi)容推薦,以提升用戶體驗(yàn),增加用戶忠誠(chéng) 度。
[0004] 專利"網(wǎng)頁(yè)代表詞推薦方法"(200910010713. 5)和"網(wǎng)站內(nèi)容聯(lián)合推薦系統(tǒng)與方 法"(200910010593. 9)從網(wǎng)頁(yè)之間關(guān)聯(lián)性的角度,僅實(shí)現(xiàn)對(duì)用戶某個(gè)網(wǎng)站(以網(wǎng)站為核心) 訪問(wèn)內(nèi)容的分析與推薦。

【發(fā)明內(nèi)容】

[0005] 針對(duì)現(xiàn)有技術(shù)的以上缺陷或改進(jìn)需求,本發(fā)明的目的在于提供一種確定用戶移 動(dòng)互聯(lián)網(wǎng)訪問(wèn)興趣點(diǎn)的系統(tǒng)和方法,從DPI系統(tǒng)采集用戶移動(dòng)互聯(lián)網(wǎng)訪問(wèn)日志,經(jīng)過(guò)對(duì)無(wú) 效日志數(shù)據(jù)的過(guò)濾處理后,與有效URL信息庫(kù)進(jìn)行檢索、匹配,未能匹配的進(jìn)行爬蟲(chóng)分類處 理,確定用戶興趣點(diǎn),進(jìn)而支撐用戶級(jí)(以用戶為核心)的精準(zhǔn)營(yíng)銷,提供個(gè)性化、差異化服 務(wù)。
[0006] 本發(fā)明的技術(shù)方案為:一種用于確定用戶移動(dòng)互聯(lián)網(wǎng)訪問(wèn)興趣點(diǎn)的方法,包括下 述步驟:
[0007] 步驟A、從DPI系統(tǒng)采集用戶移動(dòng)互聯(lián)網(wǎng)http訪問(wèn)日志,http訪問(wèn)日志至少包含 用戶MDN、訪問(wèn)URL、訪問(wèn)時(shí)間等信息;
[0008] 步驟B、對(duì)采集的用戶http訪問(wèn)日志進(jìn)行預(yù)處理,進(jìn)行圖片瀏覽、軟件下載、信息 搜索等URL過(guò)濾;
[0009] 步驟C、在有效URL彳目息庫(kù)中進(jìn)行檢索,判斷是否存在;
[0010] 步驟D、如果存在,轉(zhuǎn)步驟E,否則轉(zhuǎn)步驟Fl ;
[0011] 步驟E、根據(jù)URL在庫(kù)中對(duì)應(yīng)的分類,確定用戶的訪問(wèn)興趣點(diǎn);
[0012] 步驟Fl、將該URL作為待爬蟲(chóng)分類URL輸出;
[0013] 步驟F2、對(duì)該URL進(jìn)行爬蟲(chóng)分類處理,確定用戶訪問(wèn)興趣點(diǎn);
[0014] 進(jìn)一步,所述步驟B中,采用如下方式對(duì)用戶http訪問(wèn)日志進(jìn)行預(yù)處理:
[0015] 步驟B1、過(guò)濾匹配:過(guò)濾具有圖片瀏覽特征的URL,例如:*· ico, *· bmp,*· gif ;
[0016] 步驟B2、軟件匹配:過(guò)濾具有軟件下載特征的URL,例如:*. apk,*. ipa ;
[0017] 步驟B3、搜索匹配,過(guò)濾具有信息搜索特征的URL,這種URL通常包含搜索引擎和 搜索關(guān)鍵字;
[0018] 步驟M、與過(guò)濾URL庫(kù)進(jìn)行比較,過(guò)濾無(wú)法爬取內(nèi)容的URL。
[0019] 進(jìn)一步,所述步驟F2中,采用如下方式對(duì)URL進(jìn)行爬蟲(chóng)分類處理:
[0020] 步驟F21、根據(jù)用戶訪問(wèn)URL,進(jìn)行爬蟲(chóng),獲取網(wǎng)頁(yè)內(nèi)容;
[0021] 步驟F22、分析網(wǎng)頁(yè)的標(biāo)題、元信息和正文,進(jìn)行切詞及剔除虛詞,獲取網(wǎng)頁(yè)內(nèi)容的 有效詞,計(jì)算有效詞的詞頻數(shù);
[0022] 步驟F23、根據(jù)配置的內(nèi)容分類以及每個(gè)分類已有的訓(xùn)練文本內(nèi)容,計(jì)算分類代表 詞的權(quán)重;
[0023] 步驟F24、與內(nèi)容分類詞庫(kù)進(jìn)行比較,根據(jù)有效詞的詞頻數(shù)、分類代表詞的權(quán)重,計(jì) 算URL對(duì)應(yīng)多個(gè)分類的置信度;
[0024] 步驟F25、取置信度值最大的分類,確定為用戶訪問(wèn)興趣點(diǎn),將該URL和分類添加 入有效URL信息庫(kù),并記錄該URL的有效詞。
[0025] 因此,本發(fā)明可以獲得以下的有益效果:
[0026] 1、與一般的用戶行為分析技術(shù)相比,本發(fā)明更加科學(xué)化、智能化和自動(dòng)化;
[0027] 2、與專利"網(wǎng)頁(yè)代表詞推薦方法"(200910010713. 5)和"網(wǎng)站內(nèi)容聯(lián)合推薦系統(tǒng) 與方法"(200910010593. 9)相比,該專利申請(qǐng)實(shí)現(xiàn)了用戶級(jí)(以用戶為核心)的互聯(lián)網(wǎng)訪 問(wèn)內(nèi)容分析。
【附圖說(shuō)明】
[0028] 下面將結(jié)合附圖及實(shí)施例對(duì)本發(fā)明作進(jìn)一步說(shuō)明,附圖中:
[0029] 圖1是本發(fā)明實(shí)現(xiàn)的主流程示意圖;
[0030] 圖2是本發(fā)明http日志數(shù)據(jù)預(yù)處理流程示意圖;
[0031] 圖3是本發(fā)明爬蟲(chóng)分類處理流程示意圖;
[0032] 圖4是本發(fā)明一實(shí)施例的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0033] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對(duì) 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。此外,下面所描述的本發(fā)明各個(gè)實(shí)施方式中所涉及到的技術(shù)特征只要 彼此之間未構(gòu)成沖突就可以相互組合。
[0034] 如圖4所示,為本發(fā)明一種確定用戶移動(dòng)互聯(lián)網(wǎng)訪問(wèn)興趣點(diǎn)的系統(tǒng)結(jié)構(gòu)示意圖。 在本實(shí)施例中,包括:數(shù)據(jù)采集單元、URL處理單元、爬蟲(chóng)及內(nèi)容處理單元、代表詞更新及權(quán) 重計(jì)算單元、興趣點(diǎn)確定單元、管理單元等。
[0035] 1、數(shù)據(jù)采集單元
[0036] 包括數(shù)據(jù)采集模塊和數(shù)據(jù)預(yù)處理模塊。
[0037] 數(shù)據(jù)采集模塊:從DPI系統(tǒng)采集用戶訪問(wèn)移動(dòng)互聯(lián)網(wǎng)的http日志數(shù)據(jù),http日志 至少包含用戶MDN(或頂SI)、訪問(wèn)URL、訪問(wèn)時(shí)間等信息,并送數(shù)據(jù)預(yù)處理模塊。
[0038] 數(shù)據(jù)預(yù)處理模塊:對(duì)http日志數(shù)據(jù)進(jìn)行預(yù)處理,包括過(guò)濾具有圖片瀏覽特征、軟 件下載特征、信息搜索特征等的URL;與過(guò)濾URL庫(kù)進(jìn)行比較,過(guò)濾無(wú)法爬取內(nèi)容的相關(guān) URL,例如:QQ農(nóng)場(chǎng)、廣告頁(yè)面;完成預(yù)處理后送URL處理單元。
[0039] 2、URL處理單元
[0040] 包括有效URL匹配模塊、URL爬蟲(chóng)分類模塊和有效URL信息庫(kù)更新模塊。
[0041] 有效URL匹配模塊:對(duì)數(shù)據(jù)采集單元提供的日志數(shù)據(jù)中用戶訪問(wèn)URL與有效URL 信息庫(kù)進(jìn)行檢索、比較。如果已在有效URL信息庫(kù)中存在,則查找出該URL對(duì)應(yīng)的分類,并 送興趣點(diǎn)確定單元;否則,將該URL送URL爬蟲(chóng)分類模塊。
[0042] URL
當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1