一種針對(duì)互聯(lián)網(wǎng)行為進(jìn)行分析的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù)數(shù)據(jù)分析處理技術(shù)領(lǐng)域,具體涉及一種針對(duì)互聯(lián)網(wǎng)行為進(jìn)行分析的方法。
【背景技術(shù)】
[0002]在電商領(lǐng)域中,用戶行為信息量之大令人難以想象,據(jù)專注于電商行業(yè)用戶行為分析的不完全統(tǒng)計(jì),一個(gè)用戶在選擇一個(gè)產(chǎn)品之前,平均要瀏覽5個(gè)網(wǎng)站、36個(gè)頁面,在社會(huì)化媒體和搜索引擎上的交互行為也多達(dá)數(shù)十次。如果把所有可以采集的數(shù)據(jù)整合并進(jìn)行衍生,一個(gè)用戶的購買可能會(huì)受數(shù)千個(gè)行為維度的影響。對(duì)于一個(gè)一天PU近百萬的中型電商上,這代表著一天近ITB的活躍數(shù)據(jù)。而放到整個(gè)中國電商的角度來看,更意味著每天高達(dá)數(shù)千TB的活躍數(shù)據(jù)。正是這些瀏覽的行為信息,可以深度地反映出潛在客戶的心理和行為意向。如果對(duì)這些行為數(shù)據(jù)進(jìn)行分析,通過對(duì)這些行為信息的分析和理解,制定對(duì)客戶的貼心服務(wù)及個(gè)性化推薦,則將具有重大意義。
【發(fā)明內(nèi)容】
[0003]為解決上述問題,本發(fā)明的目的在于提供一種針對(duì)互聯(lián)網(wǎng)行為進(jìn)行分析的方法,以對(duì)海量數(shù)據(jù)進(jìn)行處理和加工,實(shí)現(xiàn)對(duì)用戶上網(wǎng)行為的識(shí)別,并進(jìn)行相應(yīng)的標(biāo)簽。
[0004]為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案為:
一種針對(duì)互聯(lián)網(wǎng)行為進(jìn)行分析的方法,包括如下步驟:
步驟一、利用接口服務(wù)器通過FTP方式下載網(wǎng)絡(luò)日志;
步驟二、將上網(wǎng)日志交由Hadoop架構(gòu)的分布式云計(jì)算處理平臺(tái)進(jìn)行處理,區(qū)分為APP清單和URL清單,并進(jìn)行清單去冗;
步驟三、將APP清單與客戶端應(yīng)用庫進(jìn)行匹配,對(duì)APP興趣點(diǎn)打標(biāo)簽,進(jìn)而對(duì)APP興趣點(diǎn)匯總;
步驟四、將URL清單與關(guān)鍵詞庫和網(wǎng)址分類庫進(jìn)行匹配,對(duì)URL興趣點(diǎn)打標(biāo)簽,進(jìn)而對(duì)URL興趣點(diǎn)匯總;
步驟五、根據(jù)APP興趣點(diǎn)匯總結(jié)果生成網(wǎng)絡(luò)用戶APP清單和APP興趣點(diǎn)匯總表; 步驟六、根據(jù)URL興趣點(diǎn)匯總結(jié)果生成網(wǎng)絡(luò)用戶URL清單和URL興趣點(diǎn)匯總表; 步驟七、根據(jù)用戶APP興趣點(diǎn)匯總表和用戶URL興趣點(diǎn)匯總表得出用戶上網(wǎng)偏好表。
[0005]進(jìn)一步地,步驟三中,客戶端應(yīng)用庫可以包括分別對(duì)應(yīng)于IP及端口、域名以及網(wǎng)址的字段。
[0006]進(jìn)一步地,步驟四中,關(guān)鍵詞庫可以包括對(duì)應(yīng)于關(guān)鍵詞的字段,網(wǎng)址匪類庫可以包括對(duì)應(yīng)于網(wǎng)址的字段。
[0007]進(jìn)一步地,步驟四中,具體包括:
步驟41、通過網(wǎng)絡(luò)爬蟲爬取對(duì)應(yīng)URL的網(wǎng)頁內(nèi)容,保留文本內(nèi)容作為待分類文本;
步驟42、通過分詞技術(shù)對(duì)網(wǎng)頁內(nèi)容分詞; 步驟43、計(jì)算關(guān)鍵詞在關(guān)鍵詞庫中的分布矩陣;
步驟44、計(jì)算關(guān)鍵詞在關(guān)鍵詞庫中的分布系數(shù);
步驟45、計(jì)算關(guān)鍵詞對(duì)關(guān)鍵詞庫中各類的覆蓋度、支持度、置信度;
步驟46、準(zhǔn)備多個(gè)預(yù)先已確定分類的待分類文本作為樣本,用枚舉的方法得到判斷文本分類的擬合公式;
步驟47、對(duì)于待分類的文本用步驟46得到的擬合公式計(jì)算各類的得分,實(shí)現(xiàn)對(duì)待分類文本的分類。
[0008]進(jìn)一步地,步驟七中,用戶上網(wǎng)偏好表可以包括分別對(duì)應(yīng)于用戶訪問網(wǎng)址、使用APP、在網(wǎng)頁上進(jìn)行搜索、上網(wǎng)時(shí)段及使用終端的字段。
[0009]進(jìn)一步地。
[0010]相較于現(xiàn)有技術(shù),本發(fā)明針對(duì)互聯(lián)網(wǎng)行為進(jìn)行分析的方法,以對(duì)海量數(shù)據(jù)進(jìn)行處理和加工,實(shí)現(xiàn)對(duì)用戶上網(wǎng)行為的識(shí)別,并進(jìn)行相應(yīng)的標(biāo)簽,通過對(duì)這些行為信息的分析和理解,制定對(duì)客戶的貼心服務(wù)及個(gè)性化推薦。
【附圖說明】
[0011]圖1為本發(fā)明的方法流程圖示。
[0012]圖2為本發(fā)明整體架構(gòu)圖示。
【具體實(shí)施方式】
[0013]本發(fā)明實(shí)施例提供了一種針對(duì)互聯(lián)網(wǎng)行為進(jìn)行分析的方法。
[0014]為使得本發(fā)明的發(fā)明目的、特征、優(yōu)點(diǎn)能夠更加的明顯和易懂,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,下面所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而非全部實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域的技術(shù)人員所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0015]本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的術(shù)語在適當(dāng)情況下可以互換,這僅僅是描述本發(fā)明的實(shí)施例中對(duì)相同屬性的對(duì)象在描述時(shí)所采用的區(qū)分方式。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,以便包含一系列單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于那些單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它單元。
[0016]以下分別進(jìn)行詳細(xì)說明。
[0017]參照?qǐng)D1 一圖2所示,本發(fā)明一種針對(duì)互聯(lián)網(wǎng)行為進(jìn)行分析的方法,包括如下步驟:
步驟一、利用接口服務(wù)器通過FTP方式下載網(wǎng)絡(luò)日志;
步驟二、上網(wǎng)日志交由Hadoop架構(gòu)的分布式云計(jì)算處理平臺(tái)進(jìn)行處理,區(qū)分為APP清單和URL清單,并進(jìn)行清單去冗;
步驟三、將APP清單與客戶端應(yīng)用庫進(jìn)行匹配,對(duì)APP興趣點(diǎn)打標(biāo)簽,進(jìn)而對(duì)APP興趣點(diǎn)匯總,客戶端應(yīng)用庫可以包括分別對(duì)應(yīng)于IP及端口、域名以及網(wǎng)址的字段;
步驟四、將URL清單與關(guān)鍵詞庫和網(wǎng)址分類庫進(jìn)行匹配,對(duì)URL興趣點(diǎn)打標(biāo)簽,進(jìn)而對(duì)URL興趣點(diǎn)匯總,關(guān)鍵詞庫可以包括對(duì)應(yīng)于關(guān)鍵詞的字段,網(wǎng)址匪類庫可以包括對(duì)應(yīng)于網(wǎng)址的字段;
步驟四中,具體包括:
步驟41、通過網(wǎng)絡(luò)爬蟲爬取對(duì)應(yīng)URL的網(wǎng)頁內(nèi)容,保留文本內(nèi)容作為待分類文本;通過網(wǎng)絡(luò)爬蟲,爬取網(wǎng)頁內(nèi)容,剔除圖片、視頻等無效資源,保留文本內(nèi)容;
步驟42、通過分詞技術(shù)對(duì)網(wǎng)頁內(nèi)容分詞;
步