本申請(qǐng)涉及計(jì)算機(jī)領(lǐng)域,具體而言,涉及一種網(wǎng)站流量異常的檢測(cè)方法和裝置。
背景技術(shù):
在現(xiàn)有的流量異常檢測(cè)方法中,通常選取網(wǎng)站地址(url)的請(qǐng)求數(shù)量、流量、服務(wù)器的處理時(shí)間等指標(biāo)作為分析網(wǎng)站流量異常的指標(biāo)。在該方法中,簡(jiǎn)單的設(shè)定閾值,如果上述指標(biāo)超過設(shè)定的閾值則認(rèn)為網(wǎng)站流量異常。
在上述方法中,設(shè)定的閾值沒有概率統(tǒng)計(jì)的基礎(chǔ),均為程序員人為設(shè)置,隨意性很大,結(jié)果不可靠。并且指標(biāo)本身是隨時(shí)間變化的,譬如在工作日和節(jié)假日,流量本身就不一樣;晚上九點(diǎn)鐘的流量和凌晨四點(diǎn)的流量,也不一樣。而設(shè)定一定閾值來判斷網(wǎng)站的流量是否異常必然帶來誤判。
針對(duì)上述的問題,目前尚未提出有效的解決方案。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)實(shí)施例提供了一種網(wǎng)站流量異常的檢測(cè)方法和裝置,以至少解決現(xiàn)有技術(shù)中檢測(cè)網(wǎng)站流量異常準(zhǔn)確率較低的技術(shù)問題。
根據(jù)本申請(qǐng)實(shí)施例的一個(gè)方面,提供了一種網(wǎng)站流量異常的檢測(cè)方法,包括:獲取預(yù)設(shè)時(shí)間段內(nèi)使用多種瀏覽器訪問多個(gè)網(wǎng)站的訪問行為數(shù)據(jù),得到訪問行為數(shù)據(jù)集合;計(jì)算使用所述訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布;計(jì)算所述多個(gè)網(wǎng)站中每個(gè)網(wǎng)站的訪問行為數(shù)據(jù)中使用每種瀏覽器的訪問行為數(shù)據(jù)的第二比值,得到與所述多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)第二訪問行為數(shù)據(jù)分布;計(jì)算所述多個(gè)第二訪問行為數(shù)據(jù)分布中每個(gè)第二訪問行為數(shù)據(jù)分布與所述第一訪問行為數(shù)據(jù)分布的相似度,得到與所述多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)相似度;根據(jù)計(jì)算出的相似度從所述多個(gè)網(wǎng)站中確定出目標(biāo)網(wǎng)站,其中,所述目標(biāo)網(wǎng)站為流量異常的網(wǎng)站。
進(jìn)一步地,根據(jù)計(jì)算出的相似度從所述多個(gè)網(wǎng)站中確定出目標(biāo)網(wǎng)站包括:從所述多個(gè)網(wǎng)站中選擇相似度小于預(yù)設(shè)比例閾值的網(wǎng)站,作為所述目標(biāo)網(wǎng)站;對(duì)所述多個(gè)相似度從小到大進(jìn)行排序,選擇前n個(gè)相似度對(duì)應(yīng)的網(wǎng)站作為所述目標(biāo)網(wǎng)站,其中,n為大于或者等于1的正整數(shù);或者對(duì)所述多個(gè)相似度從小到大進(jìn)行排序,選擇前m%個(gè)相似度對(duì)應(yīng)的網(wǎng)站作為所述目標(biāo)網(wǎng)站,其中,m為大于或者等于1,且小于或者等于100的正整數(shù)。
進(jìn)一步地,計(jì)算所述多個(gè)第二訪問行為數(shù)據(jù)分布中每個(gè)第二訪問行為數(shù)據(jù)分布與所述第一訪問行為數(shù)據(jù)分布的相似度,得到與所述多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)相似度包括:通過公式
進(jìn)一步地,在計(jì)算使用所述訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布之前,所述方法還包括:按照所述第一比值對(duì)所述多種瀏覽器進(jìn)行合并,得到多個(gè)目標(biāo)瀏覽器;其中,計(jì)算使用所述訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布包括:計(jì)算使用所述多個(gè)目標(biāo)瀏覽器訪問所述多個(gè)網(wǎng)站的訪問行為數(shù)據(jù)中使用所述多個(gè)目標(biāo)瀏覽器中每個(gè)目標(biāo)瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到所述第一訪問行為數(shù)據(jù)分布。
進(jìn)一步地,所述多個(gè)目標(biāo)瀏覽器包括第一目標(biāo)瀏覽器和第二目標(biāo)瀏覽器,按照所述第一比值對(duì)所述多種瀏覽器進(jìn)行合并,得到多個(gè)目標(biāo)瀏覽器包括:將所述第一比值按照降序進(jìn)行排序;確定前k-1個(gè)第一比值對(duì)應(yīng)的瀏覽器為所述第一目標(biāo)瀏覽器,其中,k為大于或者等于1的正整數(shù);將剩余n-k+1個(gè)第一比值所對(duì)應(yīng)的瀏覽器合并為所述第二目標(biāo)瀏覽器,并將所述n-k+1個(gè)第一比值合并為所述第二目標(biāo)瀏覽器的占比,其中,所述第二目標(biāo)瀏覽器的占比小于第k-1個(gè)第一比值。
根據(jù)本申請(qǐng)實(shí)施例的另一方面,還提供了一種網(wǎng)站流量異常的檢測(cè)裝置,包括:獲取單元,用于獲取預(yù)設(shè)時(shí)間段內(nèi)使用多種瀏覽器訪問多個(gè)網(wǎng)站的訪問行為數(shù)據(jù),得到訪問行為數(shù)據(jù)集合;第一計(jì)算單元,用于計(jì)算使用所述訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布;第二計(jì)算單元,用于計(jì)算所述多個(gè)網(wǎng)站中每個(gè)網(wǎng)站的訪問行為數(shù)據(jù)中使用每種瀏覽器的訪問行為數(shù)據(jù)的第二比值,得到與所述多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)第二訪問行為數(shù)據(jù)分布;第三計(jì)算單元,用于計(jì)算所述多個(gè)第二訪問行為數(shù)據(jù)分布中每個(gè)第二訪問行為數(shù)據(jù)分布與所述第一訪問行為數(shù)據(jù)分布的相似度,得到與所述多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)相似度;確定單元,用于根據(jù)計(jì)算出的相似度從所述多個(gè)網(wǎng)站中確定出目標(biāo)網(wǎng)站,其中,所述目標(biāo)網(wǎng)站為流量異常的網(wǎng)站。
進(jìn)一步地,所述確定單元包括:第一選擇模塊,用于從所述多個(gè)網(wǎng)站中選擇相似度小于預(yù)設(shè)比例閾值的網(wǎng)站,作為所述目標(biāo)網(wǎng)站;第二選擇模塊,用于對(duì)所述多個(gè)相似度從小到大進(jìn)行排序,選擇前n個(gè)相似度對(duì)應(yīng)的網(wǎng)站作為所述目標(biāo)網(wǎng)站,其中,n為大于或者等于1的正整數(shù);或者第三選擇模塊,用于對(duì)所述多個(gè)相似度從小到大進(jìn)行排序,選擇前m%個(gè)相似度對(duì)應(yīng)的網(wǎng)站作為所述目標(biāo)網(wǎng)站,其中,m為大于或者等于1,且小于或者等于100的正整數(shù)。
進(jìn)一步地,所述第三計(jì)算單元包括:第一計(jì)算模塊,用于通過公式
進(jìn)一步地,所述裝置還包括:合并單元,用于在所述第一計(jì)算單元計(jì)算使用所述訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布之前,按照所述第一比值對(duì)所述多種瀏覽器進(jìn)行合并,得到多個(gè)目標(biāo)瀏覽器;其中,所述第一計(jì)算單元包括:計(jì)算模塊,用于計(jì)算使用所述訪問行為數(shù)據(jù)集合中使用所述多個(gè)目標(biāo)瀏覽器中每個(gè)目標(biāo)瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到所述第一訪問行為數(shù)據(jù)分布。
進(jìn)一步地,所述多個(gè)目標(biāo)瀏覽器包括第一目標(biāo)瀏覽器和第二目標(biāo)瀏覽器,所述合并單元包括:排序模塊,用于將所述第一比值按照降序進(jìn)行排序;確定模塊,用于確定前k-1個(gè)第一比值對(duì)應(yīng)的瀏覽器為所述第一目標(biāo)瀏覽器,其中,k為大于或者等于1的正整數(shù);合并模塊,用于將剩余n-k+1個(gè)第一比值所對(duì)應(yīng)的瀏覽器合并為所述第二目標(biāo)瀏覽器,并將所述n-k+1個(gè)第一比值合并為所述第二目標(biāo)瀏覽器的占比,其中,所述第二目標(biāo)瀏覽器的占比小于第k-1個(gè)第一比值。
在本申請(qǐng)實(shí)施例中,采用獲取預(yù)設(shè)時(shí)間段內(nèi)使用多種瀏覽器訪問多個(gè)網(wǎng)站的訪問行為數(shù)據(jù),得到訪問行為數(shù)據(jù)集合;計(jì)算使用所述訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布;計(jì)算所述多個(gè)網(wǎng)站中每個(gè)網(wǎng)站的訪問行為數(shù)據(jù)中使用每種瀏覽器的訪問行為數(shù)據(jù)的第二比值,得到與所述多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)第二訪問行為數(shù)據(jù)分布;計(jì)算所述多個(gè)第二訪問行為數(shù)據(jù)分布中每個(gè)第二訪問行為數(shù)據(jù)分布與所述第一訪問行為數(shù)據(jù)分布的相似度,得到與所述多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)相似度;根據(jù)計(jì)算出的相似度從所述多個(gè)網(wǎng)站中確定出目標(biāo)網(wǎng)站,其中,所述目標(biāo)網(wǎng)站為流量異常的網(wǎng)站的方式,通過根據(jù)訪問行為數(shù)據(jù)計(jì)算第一訪問行為數(shù)據(jù)分布和第二訪問行為數(shù)據(jù)分布,并根據(jù)第一訪問行為數(shù)據(jù)分布和第二訪問行為數(shù)據(jù)分布計(jì)算相似度值,通過相似度來確定流量異常的網(wǎng)站,相對(duì)于現(xiàn)有技術(shù)中依賴人工排查異常網(wǎng)站的方法,達(dá)到了快速并準(zhǔn)確檢測(cè)流量異常網(wǎng)站的目的,進(jìn)而解決了現(xiàn)有技術(shù)中檢測(cè)網(wǎng)站流量異常準(zhǔn)確率較低的技術(shù)問題,從而實(shí)現(xiàn)了提高流量異常網(wǎng)站檢測(cè)效率的技術(shù)效果。
附圖說明
此處所說明的附圖用來提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中:
圖1是根據(jù)本申請(qǐng)實(shí)施例的一種網(wǎng)站流量異常的檢測(cè)方法的流程圖;以及
圖2是根據(jù)本申請(qǐng)實(shí)施例的一種網(wǎng)站流量異常的檢測(cè)裝置的示意圖。
具體實(shí)施方式
為了使本技術(shù)領(lǐng)域的人員更好地理解本申請(qǐng)方案,下面將結(jié)合本申請(qǐng)實(shí)施例中的附圖,對(duì)本申請(qǐng)實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本申請(qǐng)一部分的實(shí)施例,而不是全部的實(shí)施例。基于本申請(qǐng)中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都應(yīng)當(dāng)屬于本申請(qǐng)保護(hù)的范圍。
需要說明的是,本申請(qǐng)的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”等是用于區(qū)別類似的對(duì)象,而不必用于描述特定的順序或先后次序。應(yīng)該理解這樣使用的數(shù)據(jù)在適當(dāng)情況下可以互換,以便這里描述的本申請(qǐng)的實(shí)施例能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤4送?,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排他的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設(shè)備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設(shè)備固有的其它步驟或單元。
根據(jù)本申請(qǐng)實(shí)施例,提供了一種網(wǎng)站流量異常的檢測(cè)方法,需要說明的是,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
圖1是根據(jù)本申請(qǐng)實(shí)施例的一種網(wǎng)站流量異常的檢測(cè)方法的流程圖,如圖1所示,該方法包括如下步驟s102至步驟s110:
步驟s102,獲取預(yù)設(shè)時(shí)間段內(nèi)使用多種瀏覽器訪問多個(gè)網(wǎng)站的訪問行為數(shù)據(jù),得到訪問行為數(shù)據(jù)集合。
預(yù)設(shè)時(shí)間段可以選取為一天、一周或者一個(gè)月,瀏覽器可以為ie瀏覽器,360瀏覽器,或者其他瀏覽器,例如,chrome,safari,sougo,firefox等等。網(wǎng)站的訪問行為數(shù)據(jù)可以有多種,在本實(shí)施例中,可以為該網(wǎng)站在預(yù)設(shè)時(shí)間段內(nèi)的訪問量和該網(wǎng)站在預(yù)設(shè)時(shí)間段內(nèi)的訪問流量等。
步驟s104,計(jì)算使用訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布。
例如,ie瀏覽器,360瀏覽器,chrome瀏覽器,safari瀏覽器,sougo瀏覽器和firefox瀏覽器中多個(gè)網(wǎng)站的訪問行為數(shù)據(jù)分別為a條、b條、c條、d條、e條和f條,則上述瀏覽器中每種瀏覽器的訪問行為數(shù)據(jù)的第一比值分別為
步驟s106,計(jì)算多個(gè)網(wǎng)站中每個(gè)網(wǎng)站的訪問行為數(shù)據(jù)中使用每種瀏覽器的訪問行為數(shù)據(jù)的第二比值,得到與多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)第二訪問行為數(shù)據(jù)分布。
例如,任意一個(gè)網(wǎng)站“a網(wǎng)站”,在ie瀏覽器,360瀏覽器,chrome瀏覽器,safari瀏覽器,sougo瀏覽器和firefox等瀏覽器中“a網(wǎng)站”的訪問行為數(shù)據(jù)分別為a2條、b2條、c2條、d2條、e2條和f2條,a網(wǎng)站在上述瀏覽器中使用每種瀏覽器的訪問行為數(shù)據(jù)的第二比值分別為:
步驟s108,計(jì)算多個(gè)第二訪問行為數(shù)據(jù)分布中每個(gè)第二訪問行為數(shù)據(jù)分布與第一訪問行為數(shù)據(jù)分布的相似度,得到與多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)相似度。
具體地,通過計(jì)算每個(gè)網(wǎng)站的第二訪問行為數(shù)據(jù)分布與第一訪問行為數(shù)據(jù)分布的相似度,可以確定流量異常的網(wǎng)站,還可以確定該流量異常網(wǎng)站的訪問渠道,即用戶在哪個(gè)瀏覽器中訪問了該網(wǎng)站。
步驟s110,根據(jù)計(jì)算出的相似度從多個(gè)網(wǎng)站中確定出目標(biāo)網(wǎng)站,其中,目標(biāo)網(wǎng)站為流量異常的網(wǎng)站。
具體地,在本申請(qǐng)實(shí)施例中,計(jì)算出的相似度越小,表明網(wǎng)站流量異常的概率越高。
在本申請(qǐng)實(shí)施例中,通過根據(jù)訪問行為數(shù)據(jù)計(jì)算第一訪問行為數(shù)據(jù)分布和第二訪問行為數(shù)據(jù)分布,并根據(jù)第一訪問行為數(shù)據(jù)分布和第二訪問行為數(shù)據(jù)分布計(jì)算相似度值,通過相似度來確定流量異常的網(wǎng)站,相對(duì)于現(xiàn)有技術(shù)中依賴人工排查異常網(wǎng)站的方法,達(dá)到了快速并準(zhǔn)確檢測(cè)流量異常網(wǎng)站的目的,進(jìn)而解決了現(xiàn)有技術(shù)中檢測(cè)網(wǎng)站流量異常準(zhǔn)確率較低的技術(shù)問題,從而實(shí)現(xiàn)了提高流量異常網(wǎng)站檢測(cè)效率的技術(shù)效果。
根據(jù)相似度從多個(gè)網(wǎng)站中確定出目標(biāo)網(wǎng)站的有多種,在另一可選實(shí)施例中,可以包括以下任意一種方式:
方式一:
從多個(gè)網(wǎng)站中選擇相似度小于預(yù)設(shè)比例閾值的網(wǎng)站,作為目標(biāo)網(wǎng)站。
具體地,可以考慮設(shè)置預(yù)設(shè)比例閾值,來確定目標(biāo)網(wǎng)站,即將計(jì)算出的相似度的值分別與預(yù)設(shè)比例閾值進(jìn)行比較,并確定小于預(yù)設(shè)比例閾值的相似度對(duì)應(yīng)的網(wǎng)站為流量異常的網(wǎng)站,還可以確定該流量異常網(wǎng)站的訪問渠道。
方式二:
對(duì)多個(gè)相似度從小到大進(jìn)行排序,選擇前n個(gè)相似度對(duì)應(yīng)的網(wǎng)站作為目標(biāo)網(wǎng)站,其中,n為大于或者等于1的正整數(shù)。
具體地,可以對(duì)計(jì)算得到的多個(gè)相似度進(jìn)行升序排序,得到一個(gè)相似度序列,選取該序列中的前n個(gè)較小相似度對(duì)應(yīng)的網(wǎng)站作為流量異常的網(wǎng)站(即,目標(biāo)網(wǎng)站),其中,n的取值用戶可根據(jù)實(shí)際瀏覽器的種類和網(wǎng)站的數(shù)量決定。例如,1000個(gè)網(wǎng)站中,選取相似度序列中前10個(gè)相似度或前15個(gè)相似度所對(duì)應(yīng)的網(wǎng)站為目標(biāo)網(wǎng)站。
方式三:
對(duì)多個(gè)相似度從小到大進(jìn)行排序,選擇前m%個(gè)相似度對(duì)應(yīng)的網(wǎng)站作為目標(biāo)網(wǎng)站,其中,m為大于或者等于1,且小于或者等于100的正整數(shù)。
具體地,可以對(duì)計(jì)算得到的多個(gè)相似度進(jìn)行升序排序,得到一個(gè)相似度序列,選取該序列中前m%個(gè)較小的相似度對(duì)應(yīng)的網(wǎng)站為流量異常的網(wǎng)站。其中,m%為一個(gè)百分比值,m%的取值用戶可根據(jù)實(shí)際需要來選取,例如選取相似度序列中前1%的相似度對(duì)應(yīng)的網(wǎng)站為流量異常的網(wǎng)站。若網(wǎng)站的數(shù)量為1000,則流量異常的網(wǎng)站為10個(gè)。
可選地,在本申請(qǐng)實(shí)施例中,預(yù)設(shè)算法可以有多種,例如,皮爾遜相關(guān)系數(shù)算法或者通過kl散度公式等算法來計(jì)算相似度。優(yōu)選地,計(jì)算多個(gè)第二訪問行為數(shù)據(jù)分布中每個(gè)第二訪問行為數(shù)據(jù)分布與第一訪問行為數(shù)據(jù)分布的相似度,得到與多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)相似度包括:
通過kl散度公式計(jì)算相似度,kl散度計(jì)算的公式為:
還可以通過皮爾遜相關(guān)系數(shù)算法計(jì)算相似度,皮爾遜相關(guān)系數(shù)算法的計(jì)算公式為:
除上述兩種計(jì)算方式外,在本申請(qǐng)中,還可以選取其他的計(jì)算方式來計(jì)算多個(gè)第二訪問行為數(shù)據(jù)分布中每個(gè)第二訪問行為數(shù)據(jù)分布于第一訪問行為數(shù)據(jù)分布的相似度。例如,馬氏距離算法、切比雪夫距離算法等。
可選地,在計(jì)算使用訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布之前,方法還包括如下步驟s1:按照第一比值對(duì)多種瀏覽器進(jìn)行合并,得到多個(gè)目標(biāo)瀏覽器。
具體地,若瀏覽器的數(shù)量較多時(shí),由于某些瀏覽器計(jì)算得到的占比較小,會(huì)導(dǎo)致計(jì)算得到的相似度的誤差較大。因此,在得到第一訪問行為數(shù)據(jù)分布之前,可以按照第一比值對(duì)多種瀏覽器進(jìn)行合并,得到合并之后的多種瀏覽器(即,目標(biāo)瀏覽器)。例如,瀏覽器由合并之前的100個(gè)變?yōu)楹喜⒅蟮?0個(gè)。
計(jì)算使用訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布包括步驟s3:計(jì)算使用多個(gè)目標(biāo)瀏覽器訪問多個(gè)網(wǎng)站的訪問行為數(shù)據(jù)中使用多個(gè)目標(biāo)瀏覽器中每個(gè)目標(biāo)瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布。具體地,當(dāng)多種瀏覽器合并得到多個(gè)目標(biāo)瀏覽器之后,得到多個(gè)目標(biāo)瀏覽器的第一訪問行為數(shù)據(jù),進(jìn)而計(jì)算多個(gè)網(wǎng)站中每個(gè)網(wǎng)站的訪問行為數(shù)據(jù)中使用每個(gè)目標(biāo)瀏覽器的訪問行為數(shù)據(jù)的第二比值,得到第二訪問行為數(shù)據(jù)分布。
可選地,多個(gè)目標(biāo)瀏覽器包括第一目標(biāo)瀏覽器和第二目標(biāo)瀏覽器,按照占比對(duì)多種瀏覽器進(jìn)行合并,得到多個(gè)目標(biāo)瀏覽器包括如下步驟s11至步驟s15:
步驟s11,將多個(gè)第一比值按照降序進(jìn)行排序。
步驟s13,確定前k-1個(gè)第一比值對(duì)應(yīng)的瀏覽器為第一目標(biāo)瀏覽器,其中,k為大于或者等于1的正整數(shù)。
步驟s15,將剩余n-k+1個(gè)第一比值所對(duì)應(yīng)的瀏覽器合并為第二目標(biāo)瀏覽器,并將n-k+1個(gè)第一比值合并為第二目標(biāo)瀏覽器的占比,其中,第二目標(biāo)瀏覽器的占比小于第k-1個(gè)第一比值。
假設(shè),瀏覽器的數(shù)量n=100個(gè),通過計(jì)算可以得到100個(gè)第一比值,分別為x1~x100,可以將該100第一比值按照降序進(jìn)行排序,得到第一比值的排序序列。用戶可以根據(jù)計(jì)算出的第一比值來確定k的取值,例如,選取前9個(gè)(即,k=10)較大的第一比值對(duì)應(yīng)的瀏覽器為第一目標(biāo)瀏覽器,即,得到9個(gè)第一目標(biāo)瀏覽器。然后將序列中的后n-k+1=91個(gè)瀏覽器合并為第二目標(biāo)瀏覽器,并計(jì)算后91個(gè)瀏覽器的第一比值的和,該和即為第二目標(biāo)瀏覽器的占比。通過合并之后,得到的10個(gè)目標(biāo)瀏覽器的第一比值分別為x1、x2、x3、x4、x5、x6、x7、x8、x9和y10,其中,y10=x10+x11+x12+……+x100。
在得到上述10個(gè)目標(biāo)瀏覽器的第一比值后,得到目標(biāo)瀏覽器的第一訪問行為數(shù)據(jù)的分布,然后,分別計(jì)算該“a網(wǎng)站”與上述10個(gè)目標(biāo)瀏覽器的占比。假設(shè),在10個(gè)目標(biāo)瀏覽器中“a網(wǎng)站”的訪問行為數(shù)據(jù)分別為k1、k2、k3、k4、k5、k6、k7、k8、k9、和k10,計(jì)算第二比值分別為:
進(jìn)而根據(jù)第一訪問行為數(shù)據(jù)分布{x1、x2、x3、x4、x5、x6、x7、x8、x9、y10}和
通過本申請(qǐng)?zhí)峁┑木W(wǎng)站流量異常的檢測(cè)方法,不再依賴于傳統(tǒng)的人工排查,通過全網(wǎng)數(shù)據(jù)計(jì)算benchmark分布,并計(jì)算每個(gè)網(wǎng)站的分布與benchmark分布的相似度,進(jìn)而根據(jù)相似度即可準(zhǔn)確快速地確定流量異常的網(wǎng)站。
本申請(qǐng)實(shí)施例還提供了一種網(wǎng)站流量異常的檢測(cè)裝置,該檢測(cè)裝置主要用于執(zhí)行本申請(qǐng)實(shí)施例上述內(nèi)容所提供的網(wǎng)站流量異常的檢測(cè)方法,以下對(duì)本申請(qǐng)實(shí)施例所提供的網(wǎng)站流量異常的檢測(cè)裝置做具體介紹。
圖2是根據(jù)本申請(qǐng)實(shí)施例的一種網(wǎng)站流量異常的檢測(cè)裝置的示意圖,如圖2所示,該網(wǎng)站流量異常的檢測(cè)裝置主要包括獲取單元10、第一計(jì)算單元20、第二計(jì)算單元30、第三計(jì)算單元40和確定單元50,其中:
獲取單元10,用于獲取預(yù)設(shè)時(shí)間段內(nèi)使用多種瀏覽器訪問多個(gè)網(wǎng)站的訪問行為數(shù)據(jù),得到訪問行為數(shù)據(jù)集合。
預(yù)設(shè)時(shí)間段可以選取為一天、一周或者一個(gè)月,瀏覽器可以為ie瀏覽器,360瀏覽器,或者其他瀏覽器,例如,chrome,safari,sougo,firefox等等。網(wǎng)站的訪問行為數(shù)據(jù)可以有多種,在本實(shí)施例中,可以為該網(wǎng)站在預(yù)設(shè)時(shí)間段內(nèi)的訪問量和該網(wǎng)站在預(yù)設(shè)時(shí)間段內(nèi)的訪問流量等。
第一計(jì)算單元20,用于計(jì)算使用訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布。
例如,ie瀏覽器,360瀏覽器,chrome瀏覽器,safari瀏覽器,sougo瀏覽器和firefox瀏覽器中多個(gè)網(wǎng)站的訪問行為數(shù)據(jù)分別為a條、b條、c條、d條、e條和f條,則上述瀏覽器中每種瀏覽器的訪問行為數(shù)據(jù)的第一比值分別為
第二計(jì)算單元30,用于計(jì)算多個(gè)網(wǎng)站中每個(gè)網(wǎng)站的訪問行為數(shù)據(jù)中使用每種瀏覽器的訪問行為數(shù)據(jù)的第二比值,得到與多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)第二訪問行為數(shù)據(jù)分布。
例如,任意一個(gè)網(wǎng)站“a網(wǎng)站”,在ie瀏覽器,360瀏覽器,chrome瀏覽器,safari瀏覽器,sougo瀏覽器和firefox等瀏覽器中“a網(wǎng)站”的訪問行為數(shù)據(jù)分別為a2條、b2條、c2條、d2條、e2條和f2條,a網(wǎng)站在上述瀏覽器中使用每種瀏覽器的訪問行為數(shù)據(jù)的第二比值分別為:
第三計(jì)算單元40,用于計(jì)算多個(gè)第二訪問行為數(shù)據(jù)分布中每個(gè)第二訪問行為數(shù)據(jù)分布與第一訪問行為數(shù)據(jù)分布的相似度,得到與多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)相似度。
具體地,通過計(jì)算每個(gè)網(wǎng)站的第二訪問行為數(shù)據(jù)分布與第一訪問行為數(shù)據(jù)分布的相似度,可以確定流量異常的網(wǎng)站,還可以確定該流量異常網(wǎng)站的訪問渠道,即用戶在哪個(gè)瀏覽器中訪問了該網(wǎng)站。
確定單元50,用于根據(jù)計(jì)算出的相似度從多個(gè)網(wǎng)站中確定出目標(biāo)網(wǎng)站,其中,目標(biāo)網(wǎng)站為流量異常的網(wǎng)站。
具體地,在本申請(qǐng)實(shí)施例中,計(jì)算出的相似度越小,表明網(wǎng)站流量異常的概率越高。
在本申請(qǐng)實(shí)施例中,通過根據(jù)訪問行為數(shù)據(jù)計(jì)算第一訪問行為數(shù)據(jù)分布和第二訪問行為數(shù)據(jù)分布,并根據(jù)第一訪問行為數(shù)據(jù)分布和第二訪問行為數(shù)據(jù)分布計(jì)算相似度值,通過相似度來確定流量異常的網(wǎng)站,相對(duì)于現(xiàn)有技術(shù)中依賴人工排查異常網(wǎng)站的方法,達(dá)到了快速并準(zhǔn)確檢測(cè)流量異常網(wǎng)站的目的,進(jìn)而解決了現(xiàn)有技術(shù)中檢測(cè)網(wǎng)站流量異常準(zhǔn)確率較低的技術(shù)問題,從而實(shí)現(xiàn)了提高流量異常網(wǎng)站檢測(cè)效率的技術(shù)效果。
可選地,確定單元包括:第一選擇模塊,用于從多個(gè)網(wǎng)站中選擇相似度小于預(yù)設(shè)比例閾值的網(wǎng)站,作為目標(biāo)網(wǎng)站;第二選擇模塊,用于對(duì)多個(gè)相似度從小到大進(jìn)行排序,選擇前n個(gè)相似度對(duì)應(yīng)的網(wǎng)站作為目標(biāo)網(wǎng)站,其中,n為大于或者等于1的正整數(shù);或者第三選擇模塊,用于對(duì)多個(gè)相似度從小到大進(jìn)行排序,選擇前m%個(gè)相似度對(duì)應(yīng)的網(wǎng)站作為目標(biāo)網(wǎng)站,其中,m為大于或者等于1,且小于或者等于100的正整數(shù)。
具體地,可以考慮設(shè)置預(yù)設(shè)比例閾值,來確定目標(biāo)網(wǎng)站,即將計(jì)算出的相似度的值分別與預(yù)設(shè)比例閾值進(jìn)行比較,并確定小于預(yù)設(shè)比例閾值的相似度對(duì)應(yīng)的網(wǎng)站為流量異常的網(wǎng)站,還可以確定該流量異常網(wǎng)站的訪問渠道。
還可以對(duì)計(jì)算得到的多個(gè)相似度進(jìn)行升序排序,得到一個(gè)相似度序列,通過調(diào)用第二選擇模塊來選取該序列中的前n個(gè)較小相似度對(duì)應(yīng)的網(wǎng)站作為流量異常的網(wǎng)站(即,目標(biāo)網(wǎng)站),其中,n的取值用戶可根據(jù)實(shí)際瀏覽器的種類和網(wǎng)站的數(shù)量決定。例如,1000個(gè)網(wǎng)站中,選取相似度序列中前10個(gè)相似度或前15個(gè)相似度對(duì)應(yīng)的網(wǎng)站為目標(biāo)網(wǎng)站。
可以對(duì)計(jì)算得到的多個(gè)相似度進(jìn)行升序排序,得到一個(gè)相似度序列,通過調(diào)用第三選取模塊來選取該序列中前m%個(gè)較小的相似度對(duì)應(yīng)的網(wǎng)站為流量異常的網(wǎng)站。其中,m%為一個(gè)百分比值,m%的取值用戶可根據(jù)實(shí)際需要來選取,例如選取相似度序列中前1%的相似度對(duì)應(yīng)的網(wǎng)站為流量異常的網(wǎng)站。若網(wǎng)站的數(shù)量為1000,則流量異常的網(wǎng)站為10個(gè)。
可選地,第三計(jì)算單元包括:第一計(jì)算模塊,用于通過公式
通過kl散度公式計(jì)算相似度,kl散度計(jì)算的公式為:
還可以通過皮爾遜相關(guān)系數(shù)算法計(jì)算相似度,皮爾遜相關(guān)系數(shù)算法的計(jì)算公式為:
除上述兩種計(jì)算方式外,在本申請(qǐng)中,還可以選取其他的計(jì)算方式來計(jì)算多個(gè)第二訪問行為數(shù)據(jù)分布中每個(gè)第二訪問行為數(shù)據(jù)分布于第一訪問行為數(shù)據(jù)分布的相似度。例如,馬氏距離算法、切比雪夫距離算法等。
可選地,檢測(cè)裝置還包括:合并單元,用于在第一計(jì)算單元計(jì)算使用訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布之前,按照第一比值對(duì)多種瀏覽器進(jìn)行合并,得到多個(gè)目標(biāo)瀏覽器;具體地,若瀏覽器的數(shù)量較多時(shí),由于某些瀏覽器計(jì)算得到的占比較小,會(huì)導(dǎo)致計(jì)算得到的相似度的誤差較大。因此,在得到第一訪問行為數(shù)據(jù)分布之前,可以按照第一比值對(duì)多種瀏覽器進(jìn)行合并,得到合并之后的多種瀏覽器(即,目標(biāo)瀏覽器)。例如,瀏覽器由合并之前的100個(gè)變?yōu)楹喜⒅蟮?0個(gè)。
其中,第一計(jì)算單元包括:計(jì)算模塊,用于計(jì)算使用多個(gè)目標(biāo)瀏覽器訪問多個(gè)網(wǎng)站的訪問行為數(shù)據(jù)中使用多個(gè)目標(biāo)瀏覽器中每個(gè)目標(biāo)瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布。具體地,當(dāng)多種瀏覽器合并得到多個(gè)目標(biāo)瀏覽器之后,得到多個(gè)目標(biāo)瀏覽器的第一訪問行為數(shù)據(jù),進(jìn)而計(jì)算多個(gè)網(wǎng)站中每個(gè)網(wǎng)站的訪問行為數(shù)據(jù)中使用每個(gè)目標(biāo)瀏覽器的訪問行為數(shù)據(jù)的第二比值,得到第二訪問行為數(shù)據(jù)分布。
可選地,多個(gè)目標(biāo)瀏覽器包括第一目標(biāo)瀏覽器和第二目標(biāo)瀏覽器,合并單元包括:排序模塊,用于將多個(gè)第一比值按照降序進(jìn)行排序;確定模塊,用于確定前k-1個(gè)第一比值對(duì)應(yīng)的瀏覽器為第一目標(biāo)瀏覽器,其中,k為大于或者等于1的正整數(shù);合并模塊,用于將剩余n-k+1個(gè)第一比值所對(duì)應(yīng)的瀏覽器合并為第二目標(biāo)瀏覽器,并將n-k+1個(gè)第一比值合并為第二目標(biāo)瀏覽器的占比,其中,第二目標(biāo)瀏覽器的占比小于第k-1個(gè)第一比值。
假設(shè),瀏覽器的數(shù)量n=100個(gè),通過計(jì)算可以得到100個(gè)第一比值,分別為x1~x100,通過調(diào)用排序模塊將該100第一比值按照降序進(jìn)行排序,得到第一比值的排序序列。并通過調(diào)用確定模塊根據(jù)計(jì)算出第一比值的值,來確定k的取值,例如,選取前9個(gè)(即,k=10)較大的第一比值對(duì)應(yīng)的瀏覽器為第一目標(biāo)瀏覽器,即,得到9個(gè)第一目標(biāo)瀏覽器。然后通過調(diào)用合并模塊將序列中的后n-k+1=91個(gè)瀏覽器合并為第二目標(biāo)瀏覽器,并計(jì)算后91個(gè)瀏覽器的第一比值的和,該和即為第二目標(biāo)瀏覽器的占比。通過合并之后,得到的10個(gè)目標(biāo)瀏覽器的第一比值的值分別為x1、x2、x3、x4、x5、x6、x7、x8、x9和y10,其中,y10=x10+x11+x12+……+x100。
所述網(wǎng)站流量異常的檢測(cè)裝置包括處理器和存儲(chǔ)器,上述獲取單元、第一計(jì)算單元、第二計(jì)算單元、第三計(jì)算單元和確定單元等均作為程序單元存儲(chǔ)在存儲(chǔ)器中,由處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的上述程序單元來實(shí)現(xiàn)相應(yīng)的功能。
處理器中包含內(nèi)核,由內(nèi)核去存儲(chǔ)器中調(diào)取相應(yīng)的程序單元。內(nèi)核可以設(shè)置一個(gè)或以上,通過調(diào)整內(nèi)核參數(shù)來快速并準(zhǔn)確檢測(cè)流量異常網(wǎng)站,進(jìn)而解決了現(xiàn)有技術(shù)中檢測(cè)網(wǎng)站流量異常準(zhǔn)確率較低的技術(shù)問題,從而實(shí)現(xiàn)了提高流量異常網(wǎng)站檢測(cè)效率的技術(shù)效果。
存儲(chǔ)器可能包括計(jì)算機(jī)可讀介質(zhì)中的非永久性存儲(chǔ)器,隨機(jī)存取存儲(chǔ)器(ram)和/或非易失性內(nèi)存等形式,如只讀存儲(chǔ)器(rom)或閃存(flashram),存儲(chǔ)器包括至少一個(gè)存儲(chǔ)芯片。
本申請(qǐng)還提供了一種計(jì)算機(jī)程序產(chǎn)品,當(dāng)在數(shù)據(jù)處理設(shè)備上執(zhí)行時(shí),適于執(zhí)行初始化有如下方法步驟的程序代碼:獲取預(yù)設(shè)時(shí)間段內(nèi)使用多種瀏覽器訪問多個(gè)網(wǎng)站的訪問行為數(shù)據(jù),得到訪問行為數(shù)據(jù)集合;計(jì)算使用所述訪問行為數(shù)據(jù)集合中使用每種瀏覽器的訪問行為數(shù)據(jù)的第一比值,得到第一訪問行為數(shù)據(jù)分布;計(jì)算所述多個(gè)網(wǎng)站中每個(gè)網(wǎng)站的訪問行為數(shù)據(jù)中使用每種瀏覽器的訪問行為數(shù)據(jù)的第二比值,得到與所述多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)第二訪問行為數(shù)據(jù)分布;計(jì)算所述多個(gè)第二訪問行為數(shù)據(jù)分布中每個(gè)第二訪問行為數(shù)據(jù)分布與所述第一訪問行為數(shù)據(jù)分布的相似度,得到與所述多個(gè)網(wǎng)站一一對(duì)應(yīng)的多個(gè)相似度;以及根據(jù)計(jì)算出的相似度從所述多個(gè)網(wǎng)站中確定出目標(biāo)網(wǎng)站,其中,所述目標(biāo)網(wǎng)站為流量異常的網(wǎng)站。
上述本申請(qǐng)實(shí)施例序號(hào)僅僅為了描述,不代表實(shí)施例的優(yōu)劣。
在本申請(qǐng)的上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒有詳述的部分,可以參見其他實(shí)施例的相關(guān)描述。
在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的技術(shù)內(nèi)容,可通過其它的方式實(shí)現(xiàn)。其中,以上所描述的裝置實(shí)施例僅僅是示意性的,例如所述單元的劃分,可以為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些接口,單元或模塊的間接耦合或通信連接,可以是電性或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本申請(qǐng)各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。
所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本申請(qǐng)的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可為個(gè)人計(jì)算機(jī)、服務(wù)器或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本申請(qǐng)各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:u盤、只讀存儲(chǔ)器(rom,read-onlymemory)、隨機(jī)存取存儲(chǔ)器(ram,randomaccessmemory)、移動(dòng)硬盤、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。
以上所述僅是本申請(qǐng)的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本申請(qǐng)?jiān)淼那疤嵯?,還可以做出若干改進(jìn)和潤(rùn)飾,這些改進(jìn)和潤(rùn)飾也應(yīng)視為本申請(qǐng)的保護(hù)范圍。