天的日志或聯(lián)系點(diǎn)擊1-3次的訪問(wèn)集中度和平均次數(shù)的偏離差值在 預(yù)定閾值范圍外的進(jìn)行過(guò)濾去重;通過(guò)上述分析,可以看出需要將連續(xù)點(diǎn)擊次數(shù)大于26次 以上的用戶的IP記錄進(jìn)行清除,確保留下有效記錄進(jìn)行下一步IP地址次數(shù)匯總的操作。 [0053]步驟3、獨(dú)立IP的訪問(wèn)量統(tǒng)計(jì)
[0054] 針對(duì)上面步驟2去重后的訪問(wèn)日志記錄,以下利用hadoop云計(jì)算深入挖掘網(wǎng)站ICP 的IP流量情況。
[0055] 統(tǒng)計(jì)指標(biāo):1.獨(dú)立IP的訪問(wèn)量統(tǒng)計(jì);2.該IP產(chǎn)生流量總和;3.該IP對(duì)應(yīng)的ICP標(biāo)識(shí)。
[0056] 對(duì)訪問(wèn)日志的處理:以天為單位,按照IP地址進(jìn)行歸類,訪問(wèn)日志包含進(jìn)入教育網(wǎng) 和出教育網(wǎng)的流量采集信息,所以其中目標(biāo)IP和源IP都有可能是教育網(wǎng)地址,對(duì)目前IP和 源IP-塊匯總,然后對(duì)比教育網(wǎng)IPv4地址庫(kù),找尋到教育網(wǎng)的IP,按照IP地址進(jìn)行歸并,形 成每天每個(gè)活躍IP以及其活躍次數(shù)和產(chǎn)生的流量總合。
[0057] 當(dāng)流量很小時(shí)候,如100M至1G,可以用傳統(tǒng)方法進(jìn)行分析,把數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)進(jìn)行 IP歸并,計(jì)算出各個(gè)IP的活躍次數(shù)以及產(chǎn)生的流量大小,進(jìn)一步計(jì)算出每個(gè)單位的IP活躍 總數(shù)以及產(chǎn)生的平均流量.
[0058]當(dāng)節(jié)點(diǎn)帶寬很大時(shí)候,如IG至100G,每小時(shí)采集到的訪問(wèn)日志文件在50G左右,單 機(jī)處理能力已經(jīng)不能滿足需求。我們就需要增加系統(tǒng)的復(fù)雜性,用hadoop以計(jì)算機(jī)集群,存 儲(chǔ)陣列來(lái)解決。
[0059]教育網(wǎng)有接近3000個(gè)大專高校等接入單位,分配的IPv4地址有1695萬(wàn),在骨干網(wǎng) 的38個(gè)節(jié)點(diǎn)每天的頁(yè)面訪問(wèn)量有100W,活躍的獨(dú)立IP數(shù)接近300萬(wàn)左右。
[0060] 當(dāng)日志文件上傳給hadoop的HDFS以后,編寫(xiě)MapReduce程序并向Jobtracker提交 作業(yè),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。MapReduce函數(shù)的輸入格式采用Text InputFormat格式,它將日志 文件以行偏量值作為Key,行的內(nèi)容為value提供給map函數(shù)。
[0061] 在reduce中處理數(shù)據(jù):Reduce方法的輸入是map方法的輸出,在map階段將訪問(wèn)日 志解析成record后以sessionID方式輸出,在reduce中將獲得session的所有日志記錄,保 存了這個(gè)IP-次完整的信息,對(duì)其中以下幾個(gè)方面的信息進(jìn)行提?。?br>[0062] 單個(gè)記錄中信息提取和轉(zhuǎn)換:IP信息轉(zhuǎn)換,由IP轉(zhuǎn)換成其ICP信息.IP活躍次數(shù)的 統(tǒng)計(jì)以及流量匯總統(tǒng)計(jì)。
[0063] Session信息的提取轉(zhuǎn)換:按照訪問(wèn)日志的記錄信息對(duì)IP進(jìn)行排序,并計(jì)算出IP訪 問(wèn)的時(shí)間間隔,為后期測(cè)定IP訪問(wèn)是否異常作為判斷的依據(jù)。將訪問(wèn)日志數(shù)據(jù)在Reduce端 連接以后就可以輸出結(jié)果。
[0064] 利用hadoop處理IP地址流量歸并的方法與步驟:
[0065]算法模型:Hadoop并行算法,如圖2所示,
[0066]并行算法的設(shè)計(jì):
[0067] IP:獨(dú)立IP的訪問(wèn)量統(tǒng)計(jì)
[0068] Map:{key:$request,value:$remote_addr}
[0069] Reduce: {key:$request,value:去重再求和(sum(unique))}
[0070] 每個(gè)小時(shí)把38個(gè)節(jié)點(diǎn)合并出的ICP訪問(wèn)日志文件傳輸給hadoop服務(wù)器。日志是由 業(yè)務(wù)系統(tǒng)產(chǎn)生的,我們可以設(shè)置web服務(wù)器每天產(chǎn)生一個(gè)新的目錄,目錄下面會(huì)產(chǎn)生多個(gè)日 志文件,每個(gè)日志文件64M。設(shè)置系統(tǒng)每小時(shí)0點(diǎn),向HDFS導(dǎo)入上一小時(shí)的日志文件。
[0071] 完成導(dǎo)入后,設(shè)置系統(tǒng)定時(shí)器,啟動(dòng)MapReduce程序,提取并計(jì)算出獨(dú)立IP的訪問(wèn) 量統(tǒng)計(jì)/該IP產(chǎn)生流量總和/該IP對(duì)應(yīng)的ICP標(biāo)識(shí)三個(gè)統(tǒng)計(jì)指標(biāo)。完成計(jì)算后,設(shè)置系統(tǒng)定時(shí) 器,從HDFS導(dǎo)出統(tǒng)計(jì)指標(biāo)數(shù)據(jù)到數(shù)據(jù)庫(kù),方便以后的即使查詢。
[0072] 經(jīng)過(guò)hadoop處理后的IP訪問(wèn)日志進(jìn)入數(shù)據(jù)庫(kù)中后,格式如下
[0074] 上述表說(shuō)明:
[0075] Flow_date 計(jì)算日期
[0076] IP教育網(wǎng)活躍IP地址
[0077] Heart_num當(dāng)天該IP出現(xiàn)次數(shù)
[0078] Flow_btye當(dāng)天該IP產(chǎn)生的總流量
[0079] Node_id該IP歸屬的ICP節(jié)點(diǎn)號(hào)碼
[0080] Name_d_IP歸屬的ICP節(jié)點(diǎn)名稱
[0081 ] 1.獨(dú)立IP的訪問(wèn)量統(tǒng)計(jì);2.該IP產(chǎn)生流量總和;3.該IP對(duì)應(yīng)的ICP標(biāo)識(shí)。
[0082] 當(dāng)天采集到的活躍IP都存儲(chǔ)到數(shù)據(jù)庫(kù)中,每個(gè)活躍IP還包含對(duì)應(yīng)的時(shí)間信息,該 IP當(dāng)天的活躍次數(shù)以及總流量。以及該IP所屬的ICP單位編號(hào).
[0083] 按照ICP標(biāo)識(shí),其下的IP按照活躍次數(shù)排序可以得到IP活躍度排名,該統(tǒng)計(jì)能體現(xiàn) 出每個(gè)ICP下的IP活躍情況。
[0084] 按照ICP標(biāo)識(shí),其下的IP按照流量/IP活躍次數(shù)可以得到IP平均流量的排名,該統(tǒng) 計(jì)能體現(xiàn)出每個(gè)ICP下有流量?jī)r(jià)值貢獻(xiàn)的IP排名。
[0085] 針對(duì)每個(gè)ICP每天活躍IP總數(shù)進(jìn)行排名,可以體現(xiàn)出每個(gè)單位的用戶活躍情況
[0087] 針對(duì)每個(gè)ICP,其IP活躍次數(shù)總和/IP總數(shù)可以得出IP平均流量綜合活躍度,可以 從更合理角度看每個(gè)單位的用戶活躍情況。
[0088] 針對(duì)每個(gè)ICP,{總流量/(IP活躍總和X活躍IP)}可以從綜合角度看ICP的既活躍 用戶多有形成有價(jià)值的流量的綜合排名。
[0089] 以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳 細(xì)說(shuō)明,應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在 本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù) 范圍之內(nèi)。
【主權(quán)項(xiàng)】
1. 一種基于流量日志統(tǒng)計(jì)用戶IP活躍度的方法,其特征在于,包括: 步驟1、基于教育網(wǎng)骨干主節(jié)點(diǎn)采集IP訪問(wèn)日志記錄; 步驟2、從所獲取的IP訪問(wèn)日志記錄中過(guò)濾異常訪問(wèn)IP記錄; 步驟3、對(duì)過(guò)濾后的IP訪問(wèn)日志記錄中的獨(dú)立IP的訪問(wèn)量進(jìn)行統(tǒng)計(jì),得到用戶IP活躍度 的排名。2. 如權(quán)利要求1所述的方法,其特征在于,步驟1中所采集的IP訪問(wèn)日志記錄為從教育 網(wǎng)38個(gè)骨干網(wǎng)主節(jié)點(diǎn)每小時(shí)采集一次,每次5分鐘得到的IP訪問(wèn)采樣數(shù)據(jù)。3. 如權(quán)利要求1所述的方法,其特征在于,步驟2中所述異常訪問(wèn)IP記錄包括點(diǎn)擊頻率 高于正常用戶點(diǎn)擊頻率的訪問(wèn)記錄。4. 如權(quán)利要求3所述的方法,其特征在于,步驟2包括: 步驟21、計(jì)算用戶訪問(wèn)集中度和用戶平均訪問(wèn)量; 步驟22、根據(jù)所述用戶訪問(wèn)集中度和用戶平均訪問(wèn)量對(duì)異常訪問(wèn)IP記錄做去重過(guò)濾。5. 如權(quán)利要求4所述的方法,其特征在于,步驟21中用戶訪問(wèn)集中度如下計(jì)算: 訪問(wèn)集中度=【~/#8;^6(1^)】/【抑11(1(1^)/:#8;^6(抑11(1(1^))】 其中,N為當(dāng)前處理的IP訪問(wèn)記錄數(shù)目,site(N)為N條IP訪問(wèn)記錄所訪問(wèn)的站點(diǎn)數(shù)目, rand(N)為從一天的IP訪問(wèn)日志記錄中隨機(jī)提取的與N數(shù)目相當(dāng)?shù)碾S機(jī)訪問(wèn)記錄的數(shù)目,# s i t e (rand (N)為所述rand (N)條隨機(jī)訪問(wèn)記錄所訪問(wèn)的站點(diǎn)數(shù)目。6. 如權(quán)利要求4所述的方法,其特征在于,步驟21中用戶平均訪問(wèn)量如下計(jì)算: 用戶平均訪問(wèn)量= click(U)/U 其中,U為目標(biāo)用戶數(shù)目,click(U)為U個(gè)目標(biāo)用戶一天的訪問(wèn)點(diǎn)擊數(shù)目。7. 如權(quán)利要求4所述的方法,其特征在于,步驟22中利用所述訪問(wèn)集中度和用戶平均訪 問(wèn)量對(duì)于連續(xù)點(diǎn)擊次數(shù)不同的用戶進(jìn)行統(tǒng)計(jì)分析,找出所述訪問(wèn)集中度和用戶平均訪問(wèn)量 與正常值偏差大于預(yù)定閾值的目標(biāo)用戶,將這些目標(biāo)用戶過(guò)濾。8. 如權(quán)利要求7所述的方法,其特征在于,步驟22中的所述目標(biāo)用戶為連續(xù)點(diǎn)擊次數(shù)大 于26次以上的用戶。9. 如權(quán)利要求1所述的方法,其特征在于,步驟3包括對(duì)獨(dú)立IP的訪問(wèn)量進(jìn)行統(tǒng)計(jì),對(duì)該 獨(dú)立Ip產(chǎn)生流量的總和進(jìn)行統(tǒng)計(jì),對(duì)該獨(dú)立IP對(duì)應(yīng)的ICP進(jìn)行標(biāo)識(shí)。10. -種基于流量日志統(tǒng)計(jì)用戶IP活躍度的系統(tǒng),其特征在于,包括: 采集模塊,用于基于教育網(wǎng)骨干主節(jié)點(diǎn)采集IP訪問(wèn)日志記錄; 過(guò)濾模塊,用于從所獲取的IP訪問(wèn)日志記錄中過(guò)濾異常訪問(wèn)IP記錄; 統(tǒng)計(jì)模塊,用于對(duì)過(guò)濾后的IP訪問(wèn)日志記錄中的獨(dú)立IP的訪問(wèn)量進(jìn)行統(tǒng)計(jì),得到用戶 IP活躍度的排名。
【專利摘要】本發(fā)明公開(kāi)提出了一種基于ICP活躍度的接入網(wǎng)單個(gè)IP平均流量統(tǒng)計(jì)方法及系統(tǒng)。本發(fā)明基于ICP訪問(wèn)日志文件,對(duì)日志中的異常IP訪問(wèn)流量記錄進(jìn)行識(shí)別,發(fā)明了一種異常訪問(wèn)流量去重的方法,在日志中去除異常點(diǎn)擊,對(duì)日志中的連續(xù)點(diǎn)擊,單IP多用戶以及單用戶多IP等可能的異常點(diǎn)擊進(jìn)行識(shí)別去重,對(duì)去重后的流量提取源和目標(biāo)IP以及產(chǎn)生的流量,來(lái)統(tǒng)計(jì)出每天網(wǎng)內(nèi)活躍的IP以及其流量,再根據(jù)IP歸屬標(biāo)示出IP對(duì)應(yīng)單位,根據(jù)每個(gè)IP的活動(dòng)次數(shù)以及產(chǎn)生的流量綜合分析出IP的平均流量,可以得到單位下活躍IP的綜合排名。最終還可以以單位為中心,統(tǒng)計(jì)出單位的活躍IP數(shù)量以及IP的平均流量,按照IP平均流量等對(duì)單位進(jìn)行排名。
【IPC分類】H04L12/24
【公開(kāi)號(hào)】CN105610616
【申請(qǐng)?zhí)枴緾N201511009844
【發(fā)明人】黃友俊, 李星, 吳建平, 段曉磊, 鄧斌
【申請(qǐng)人】賽爾網(wǎng)絡(luò)有限公司
【公開(kāi)日】2016年5月25日
【申請(qǐng)日】2015年12月29日