亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于用戶訪問(wèn)序列的異常行為檢測(cè)方法與流程

文檔序號(hào):11156960閱讀:1004來(lái)源:國(guó)知局
基于用戶訪問(wèn)序列的異常行為檢測(cè)方法與制造工藝

本發(fā)明涉及基于用戶訪問(wèn)序列的異常行為檢測(cè)方法。



背景技術(shù):

用戶行為分析是指從網(wǎng)站或者網(wǎng)絡(luò)端口得到相關(guān)網(wǎng)絡(luò)流數(shù)據(jù),并用統(tǒng)計(jì)分析的方法對(duì)數(shù)據(jù)進(jìn)行處理。通過(guò)得到的結(jié)果,發(fā)現(xiàn)用戶訪問(wèn)網(wǎng)站的規(guī)律,總結(jié)用戶的行為習(xí)慣。能夠掌握用戶的行為習(xí)慣,對(duì)于預(yù)測(cè)用戶上網(wǎng)行為及異常行為發(fā)現(xiàn)具有重要的意義。

目前,各種異常行為檢測(cè)算法主要分為兩類:

(1)基于數(shù)據(jù)流行為分析的方法,現(xiàn)有專利包括:專利號(hào)為201110083016.X的基于數(shù)據(jù)流行為分析的網(wǎng)絡(luò)訪問(wèn)異常檢測(cè)裝置及方法,專利號(hào)為201110371820.8的網(wǎng)絡(luò)異常行為檢測(cè)方法及裝置。

(2)基于網(wǎng)絡(luò)日志及訪問(wèn)列表的方法,現(xiàn)有專利包括:專利號(hào)為201310222685.X的一種基于WEB日志的異常訪問(wèn)行為檢測(cè)方法與系統(tǒng),專利號(hào)為201510227895.7的一種大流量環(huán)境下主機(jī)網(wǎng)絡(luò)異常行為檢測(cè)及分類方法。

上述方法存在著一定的局限性,如何定義網(wǎng)絡(luò)流量行為,如何盡可能的將描述網(wǎng)絡(luò)行為的維度降低,如何從大數(shù)據(jù)中有效的分析單個(gè)用戶行為等問(wèn)題并沒(méi)有得到很好的解決。由于用戶訪問(wèn)行為是動(dòng)態(tài)可變的,導(dǎo)致分析結(jié)果不夠準(zhǔn)確、運(yùn)行效率低。



技術(shù)實(shí)現(xiàn)要素:

針對(duì)上述問(wèn)題,本發(fā)明提供基于用戶訪問(wèn)序列的異常行為檢測(cè)方法,從用戶行為分析及異常行為檢測(cè)的角度出發(fā),通過(guò)對(duì)用戶上網(wǎng)行為的分析方法的研究,設(shè)計(jì)一個(gè)有效的異常行為檢測(cè)方法,快速發(fā)現(xiàn)用戶異常行為,使得分析結(jié)果更加準(zhǔn)確,彌補(bǔ)其他分析方法的不足。

為實(shí)現(xiàn)上述技術(shù)目的,達(dá)到上述技術(shù)效果,本發(fā)明通過(guò)以下技術(shù)方案實(shí)現(xiàn):

基于用戶訪問(wèn)序列的異常行為檢測(cè)方法,包括如下步驟:

步驟1、從本地網(wǎng)絡(luò)抓取數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)得到的數(shù)據(jù)進(jìn)行序列化處理;

步驟2、將步驟1形成的序列存入序列數(shù)據(jù)庫(kù),并基于時(shí)間生成每個(gè)用戶的行為序列;

步驟3、通過(guò)每個(gè)用戶的行為序列計(jì)算用戶之間的行為相似度和相關(guān)系數(shù),比較相關(guān)系數(shù)進(jìn)行異常行為檢測(cè),尋找用戶異常行為。

優(yōu)選,步驟1中,對(duì)數(shù)據(jù)進(jìn)行預(yù)處理包括如下步驟:

101、將網(wǎng)絡(luò)數(shù)據(jù)出現(xiàn)的冗余信息、錯(cuò)誤信息,以及缺失屬性的數(shù)據(jù)直接刪除;

102、對(duì)所有的IP地址進(jìn)行統(tǒng)計(jì),并按照連接數(shù)生成IP連接分布圖,區(qū)分用戶主機(jī)IP與服務(wù)器IP,去除連接數(shù)少于設(shè)定值的用戶主機(jī)IP,得到最終的用戶主機(jī)IP集合。

優(yōu)選,步驟2中,對(duì)目的主機(jī)IP進(jìn)行序列化編號(hào):

若用戶1在按時(shí)間先后順序t11,t12,t13,t14時(shí)刻分別訪問(wèn)目的主機(jī)α,β,δ,γ,則用戶1訪問(wèn)的行為序列為α,β,δ,γ;用戶2在t21,t22,t23時(shí)刻分別訪問(wèn)的目的主機(jī)為β,α,γ,則用戶2訪問(wèn)的行為序列為β,α,γ。

優(yōu)選,假定有時(shí)間窗t1,t2,...t3,在某個(gè)時(shí)間窗t內(nèi)有用戶序列A及用戶序列B,len()為相對(duì)應(yīng)序列的長(zhǎng)度,序列C為用戶序列A和用戶序列B的最長(zhǎng)公共子序列,則用戶A和用戶B的行為相似度αcj為:

優(yōu)選,用戶A和用戶B的相關(guān)系數(shù)RC的計(jì)算步驟如下:

A、設(shè)有n個(gè)時(shí)間窗t1,t2...,tn,分別計(jì)算每個(gè)時(shí)間窗內(nèi)A,B兩個(gè)用戶的行為相似度,記為α1,α2,...,αn

B、計(jì)算A,B兩個(gè)用戶在n個(gè)時(shí)間窗內(nèi)行為相似度的平均值αavg和方差αdx

C、計(jì)算用戶A和用戶B的相關(guān)系數(shù)RC:

優(yōu)選,異常行為檢測(cè)具體步驟如下:

a)取前n個(gè)時(shí)間窗t1,t2,...,tn的數(shù)據(jù)作為訓(xùn)練集,第n+1個(gè)時(shí)間窗tn+1的數(shù)據(jù)作為測(cè)試集;

b)計(jì)算訓(xùn)練集中所有用戶之間的相關(guān)系數(shù)以及彼此兩個(gè)用戶之間的行為相似度;

c)計(jì)算訓(xùn)練集中所有用戶的平均相關(guān)系數(shù)RCavg,所有用戶的相關(guān)系數(shù)的方差值RCdx

d)計(jì)算測(cè)試集兩兩用戶之間的相關(guān)系數(shù),記為RCn+1,若:

RCn+1∈[RCavg-RCdx,RCavg+RCdx]

則視為穩(wěn)定用戶組合,否則,視為疑似異常用戶組合;

e)對(duì)于疑似異常用戶組合,分別將這兩個(gè)用戶與其余用戶比較行為相似度的方差:

若組合中某一用戶與其他用戶之間行為相似度的方差大于設(shè)定值,則判定為異常用戶,加入到異常用戶集中;

若組合中兩個(gè)用戶與其他用戶之間行為相似度的方差均大于設(shè)定值,則判定兩個(gè)用戶均為異常用戶,加入到異常用戶集中。

本發(fā)明的有益效果是:

該方法基于序列模式挖掘,充分考慮時(shí)間及用戶自身行為特征等因素,并使用經(jīng)過(guò)改進(jìn)的更準(zhǔn)確的用戶行為相似度算法計(jì)算,有效地提取出用戶訪問(wèn)的序列規(guī)則,使得分析結(jié)果更加準(zhǔn)確,彌補(bǔ)其他分析方法的不足。此外,該方法基于用戶行為相似度算法,在噪聲干擾上具有明顯的優(yōu)勢(shì),使用資源少,運(yùn)行效率高。

附圖說(shuō)明

圖1是本發(fā)明基于用戶訪問(wèn)序列的異常行為檢測(cè)方法的示意圖。

具體實(shí)施方式

下面結(jié)合附圖和具體的實(shí)施例對(duì)本發(fā)明技術(shù)方案作進(jìn)一步的詳細(xì)描述,以使本領(lǐng)域的技術(shù)人員可以更好的理解本發(fā)明并能予以實(shí)施,但所舉實(shí)施例不作為對(duì)本發(fā)明的限定。

基于用戶訪問(wèn)序列的異常行為檢測(cè)方法,如圖1所示,包括如下步驟:

步驟1、對(duì)應(yīng)數(shù)據(jù)預(yù)處理模塊:從本地網(wǎng)絡(luò)抓取數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,對(duì)得到的數(shù)據(jù)進(jìn)行序列化處理;

步驟2、對(duì)應(yīng)序列模式挖掘模塊:將步驟1形成的序列存入序列數(shù)據(jù)庫(kù),并基于時(shí)間生成每個(gè)用戶的行為序列;

步驟3、對(duì)應(yīng)異常行為檢測(cè)模塊:通過(guò)每個(gè)用戶的行為序列計(jì)算用戶之間的行為相似度和相關(guān)系數(shù),比較相關(guān)系數(shù)進(jìn)行異常行為檢測(cè),尋找用戶異常行為。

下面進(jìn)行詳細(xì)介紹:

對(duì)數(shù)據(jù)進(jìn)行預(yù)處理包括如下步驟:

101、數(shù)據(jù)清理:

首先將網(wǎng)絡(luò)數(shù)據(jù)出現(xiàn)的冗余信息、一些錯(cuò)誤的信息,還有一些屬性缺失的數(shù)據(jù)直接刪除。在刪減一些記錄以后,多余的屬性也可以進(jìn)行刪減。針對(duì)大部分網(wǎng)絡(luò)流量數(shù)據(jù),最終主要選用的屬性是記錄序號(hào)ID、開始時(shí)間STARTTIME、結(jié)束時(shí)間ENDTIME、用戶主機(jī)IP(源IP,即用戶主機(jī))和目的主機(jī)IP(目的主機(jī)IP)。刪除其余的屬性信息,這樣可以降低模型算法的維度,減少計(jì)算復(fù)雜度,提高計(jì)算效率。

102、用戶識(shí)別:

對(duì)所有的IP地址進(jìn)行統(tǒng)計(jì),并按照連接數(shù)生成IP連接分布圖,區(qū)分用戶主機(jī)IP與服務(wù)器IP,用戶異常行為分析并不需要考慮服務(wù)器,同時(shí)因?yàn)榇嬖谟行┯脩糁鳈C(jī)與某些服務(wù)器的連接數(shù)很少,這種用戶主機(jī)和其他主機(jī)的相似關(guān)系難以計(jì)算?;诖?,需要再對(duì)主機(jī)的地址進(jìn)行篩選,去除連接數(shù)少于設(shè)定值的用戶主機(jī)IP,從而得到最終的用戶主機(jī)IP集合。

步驟2中,用戶行為序列可定義為:

若用戶1在按時(shí)間先后順序t11,t12,t13,t14時(shí)刻分別訪問(wèn)目的主機(jī)α,β,δ,γ,則用戶1訪問(wèn)的行為序列為α,β,δ,γ;用戶2在t21,t22,t23時(shí)刻分別訪問(wèn)的目的主機(jī)為β,α,γ,則用戶2訪問(wèn)的行為序列為β,α,γ。以此類推,形成用戶訪問(wèn)行為的時(shí)間序列,是整個(gè)模型的輸入基礎(chǔ)。

目的主機(jī)出現(xiàn)的點(diǎn)分十進(jìn)制的IP地址形式,可以通過(guò)python字典的方式對(duì)目的主機(jī)IP進(jìn)行序列化編號(hào)。假設(shè)存在n個(gè)IP地址:192.168.0.1,192.168.0.2,...,192.168.0.n,對(duì)以上數(shù)據(jù)進(jìn)行序列化,對(duì)每個(gè)第一次出現(xiàn)的目的IP進(jìn)行依次編號(hào)。偽代碼可以表示如下:

字典的鍵值key為序列化前的IP地址,value值為序列化后的值:

創(chuàng)建一個(gè)字典,設(shè)定計(jì)數(shù)值i=1,

對(duì)每一個(gè)IP:

如果字典中沒(méi)有這個(gè)IP的鍵:

創(chuàng)建這個(gè)IP的鍵,鍵值=i;

i=i+1;

對(duì)數(shù)據(jù)進(jìn)行序列化處理后,便可針對(duì)數(shù)據(jù)中的數(shù)據(jù)包發(fā)送的路徑進(jìn)行序列化處理,同時(shí)還可以生成單個(gè)用戶的訪問(wèn)的序列。

子序列可定義為:

若給定序列X=(x1,x2,…xm),則另一序列Z=(Z1,Z2,…Zk)為X的子序列是指存在一個(gè)嚴(yán)格遞增的下標(biāo)序列(i1,i2,…ik),使得對(duì)于所有的j=1,…,k,有zj=xij。設(shè)起始下標(biāo)為1。

最長(zhǎng)公共子序列可定義為:

給定兩個(gè)序列X和Y,當(dāng)另一個(gè)序列Z既是X的子序列又是Y的子序列,則Z是序列X和Y的公共子序列。其中Z最長(zhǎng)的序列是X和Y的最長(zhǎng)公共子序列。

最長(zhǎng)公共子序列的最優(yōu)子結(jié)構(gòu)特性:

設(shè)Xm=(x1,x2,…xm)、Yn=(y1,y2,…yn)兩個(gè)序列,Zk=(Z1,z2,...zk)是它們最長(zhǎng)公共子序列,則:

(1)若xm=y(tǒng)n,則zk=xm=y(tǒng)n,且Zk-1是Xm-1和Yn-1的最長(zhǎng)公共子序列;

(2)若xm≠yn且zk≠xm,且Zk是Xm-1和Yn的最長(zhǎng)公共子序列;

(3)若xm≠yn且Zk≠yn,且Zk是Xm和Yn-1的最長(zhǎng)公共子序列。

由最優(yōu)子結(jié)構(gòu)的特性,可以求解公共子序列:

用c[i][j]保存Xi=(x1,x2,...,xi)和Yj=(y1,y2,...,yj)的最長(zhǎng)公共子序列,則有下列公式:

通過(guò)這樣的算法,可以求得兩個(gè)用戶之間的最長(zhǎng)的公共子序列。

步驟3中,用戶行為相似度可定義為表示兩個(gè)用戶行為之間的相似程度,假定有時(shí)間窗t1,t2,...t3,在某個(gè)時(shí)間窗t內(nèi)有用戶序列A及用戶序列B,len()為相對(duì)應(yīng)序列的長(zhǎng)度,序列C為用戶序列A和用戶序列B的最長(zhǎng)公共子序列,則用戶A和用戶B的行為相似度αcj為:

基于此算法,可以得到任意兩個(gè)用戶訪問(wèn)行為序列在時(shí)間窗t內(nèi)的行為相似度。

用戶A和用戶B的相關(guān)系數(shù)RC的計(jì)算步驟如下:

A、設(shè)有n個(gè)時(shí)間窗t1,t2,…,tn,分別計(jì)算每個(gè)時(shí)間窗內(nèi)A,B兩個(gè)用戶的行為相似度,記為α1,α2,…,αn;

B、計(jì)算A,B兩個(gè)用戶在n個(gè)時(shí)間窗內(nèi)行為相似度的平均值αavg和方差αdx

C、計(jì)算用戶A和用戶B的相關(guān)系數(shù)RC:

αavg能夠反映在n個(gè)時(shí)間窗內(nèi)用戶相似度的整體情況,αdx能夠反映用戶在n個(gè)時(shí)間窗內(nèi)相似度變化的幅度,可以看出,平均相似度(αavg)越大,相似度變化αdx越小,則這兩個(gè)用戶關(guān)系越相近。

即兩個(gè)用戶之間相關(guān)系數(shù)RC越大,則這兩個(gè)用戶的行為關(guān)系越為相近。有了相似度和相關(guān)系數(shù),就能夠更精確的描述用戶之間行為的關(guān)系及相似程度。

異常行為檢測(cè)具體步驟如下:

a)取前n個(gè)時(shí)間窗t1,t2,...,tn的數(shù)據(jù)作為訓(xùn)練集,第n+1個(gè)時(shí)間窗tn+1的數(shù)據(jù)作為測(cè)試集;

b)計(jì)算訓(xùn)練集中所有用戶之間的相關(guān)系數(shù)以及彼此兩個(gè)用戶之間的行為相似度;

c)計(jì)算訓(xùn)練集中所有用戶的平均相關(guān)系數(shù)RCavg,所有用戶的相關(guān)系數(shù)的方差值RCdx;

d)計(jì)算測(cè)試集兩兩用戶之間的相關(guān)系數(shù),記為RCn+1,若:

RCn+1∈[RCavg-RCdx,RCavg+RCdx]

則視為穩(wěn)定用戶組合,否則,視為疑似異常用戶組合;

e)對(duì)于疑似異常用戶組合,分別將這兩個(gè)用戶與其余用戶比較行為相似度的方差:

若組合中某一用戶與其他用戶之間行為相似度的方差大于設(shè)定值,則判定為異常用戶,加入到異常用戶集中;

若組合中兩個(gè)用戶與其他用戶之間行為相似度的方差均大于設(shè)定值,則判定兩個(gè)用戶均為異常用戶,加入到異常用戶集中。

假設(shè)步驟d)中初步判定的疑似異常用戶組合為用戶C和用戶D,則比較用戶C和其他所有用戶,以及用戶D和其他所有用戶的之間的相似度;分別以C和D為研究對(duì)象,計(jì)算相似度。若計(jì)算出C,D與其他用戶的相似度變化幅度較大,則可以判定C,D為異常用戶。找到異常用戶。

該方法基于序列模式挖掘,充分考慮時(shí)間及用戶自身行為特征等因素,并使用經(jīng)過(guò)改進(jìn)的更準(zhǔn)確的用戶行為相似度算法計(jì)算,有效地提取出用戶訪問(wèn)的序列規(guī)則,使得分析結(jié)果更加準(zhǔn)確,彌補(bǔ)其他分析方法的不足。此外,該方法基于用戶行為相似度算法,在噪聲干擾上具有明顯的優(yōu)勢(shì),使用資源少,運(yùn)行效率高。

以上僅為本發(fā)明的優(yōu)選實(shí)施例,并非因此限制本發(fā)明的專利范圍,凡是利用本發(fā)明說(shuō)明書及附圖內(nèi)容所作的等效結(jié)構(gòu)或者等效流程變換,或者直接或間接運(yùn)用在其他相關(guān)的技術(shù)領(lǐng)域,均同理包括在本發(fā)明的專利保護(hù)范圍內(nèi)。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1