亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種異常訪問檢測方法及設備與流程

文檔序號:11681240閱讀:183來源:國知局
一種異常訪問檢測方法及設備與流程

本申請涉及互聯網技術領域,特別涉及一種異常訪問檢測方法。本申請同時還涉及一種異常訪問檢測設備。



背景技術:

數據挖掘是從大規(guī)模的數據集中提取潛在的、隱含的、有價值的知識、模式或規(guī)則的過程。從大規(guī)模的數據集中挖掘的模式一般可以分為五類:關聯規(guī)則、分類和預測、聚類、演變分析以及異常點檢測等。異常點數據的挖掘包括異常點數據檢測和異常點數據分析兩個部分。異常點數據是與數據的一般行為或模型不一致的數據,它們是數據集中與眾不同的數據,這些數據并非隨機偏差,而是產生于完全不同的機制。異常點數據挖掘有著廣泛的應用,如欺詐檢測,用異常點檢測來探測不尋常的信用卡使用或者電信服務;預測市場動向;在市場分析中分析客戶的流失等異常行為;或者在醫(yī)療分析中發(fā)現對多種治療方式的不尋常的反應等等;通過對這些數據進行研究,發(fā)現不正常的行為和模式,實現異常數據挖掘功能。

如圖1所示,為現有的異常點監(jiān)測技術手段解決服務響應問題的示意圖,異常點監(jiān)測技術手段目前有著廣泛的應用。在該問題中,多個用戶會向服務器提交相應的服務申請,在這些申請中,有的申請是正常申請,有的申請是異常申請。如果服務器接受了異常申請,那么將會嚴重影響服務器工作,也會對其他正常的申請造成一定的影響。

為解決上述技術問題,現有技術中使系統(tǒng)根據用戶的請求以及用戶的信息記錄決定是否響應用戶請求。在判定過程中,會引入一些機器學習的算法進行學習,現在常用的方法包括根據用戶屬性構造馬氏距離挖掘處于離群點 的用戶、以及根據用戶提交請求的頻率進行異常點判別等方法,具體判別過程如下:

(1)在根據馬氏距離進行異常點判別的過程中,首先計算用戶屬性間的協方差矩陣,其定義如下:

σ=e{(x-e[x])(x-e[x])t}

隨后根據該協方差矩陣計算馬氏距離,其定義如下:

ma=(x-μ)tσ-1(x-μ)

最后根據該距離的大小進行判別,一些距離過大的點將被判定為離群點。

(2)在根據用戶提交請求的頻率進行異常點判別的方法中,用戶單位時間提交請求的次數超過一定閾值之后,將會直接被判定為異常點。

因此如何利用已有的訪問數據和用戶信息,更加準確地鑒別出異常請求,并采取相應措施,切實關系到服務資源分配的穩(wěn)定性和經濟性,是服務響應策略中的一個非常重要的問題。

然而,發(fā)明人在實現本申請的過程中發(fā)現,現有帶時序數據的異常點檢測算法或者只利用了訪問用戶本身的特征數據,進行聚類,只能反映訪問用戶屬性上的特征;或者只利用了訪問的時序數據,手動設置閾值來發(fā)現一些異常點(即確認當前的訪問為異常)。這兩種方式都沒有充分發(fā)揮數據的價值,得出的結果往往并不十分的準確以及有效。



技術實現要素:

本申請?zhí)峁┝艘环N異常方法檢測方法,用以提高針對異常訪問的檢測效率以及準確性。該方法包括以下步驟:

獲取待檢測的訪問請求的屬性數據;

根據所述屬性數據以及檢測參數生成與所述訪問請求對應的異常概率,所述檢測參數根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成;

判斷所述異常概率是否大于預設的異常閾值;

若是,確認所述訪問請求為異常訪問請求;

若否,確認所述訪問請求為正常訪問請求。

優(yōu)選地,在獲取待檢測的訪問請求的屬性數據之前,還包括:

根據各所述樣本訪問請求的訪問頻次信息確定各所述樣本訪問請求是否異常;

分別為正常樣本訪問請求以及異常樣本訪問請求賦予不同取值的標簽;

根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成原始檢測參數;

根據所述原始檢測參數生成所述檢測參數。

優(yōu)選地,所述訪問頻次信息包括所述樣本訪問請求對應的用戶標識以及訪問時間,根據各所述樣本訪問請求的訪問頻次信息確定各所述樣本訪問請求是否異常,具體為:

根據所述用戶標識獲取在所述訪問時間之前的時間窗口內由相同用戶提交的樣本訪問請求的第一數量,以及獲取在所述訪問時間之后的所述時間窗口內由相同用戶提交的樣本訪問請求的第二數量;

判斷所述第一數量與所述第二數量之和是否大于預設的次數閾值;

若是,確認所述樣本訪問請求為異常樣本訪問請求;

若否,確認所述樣本訪問請求為正常樣本訪問請求。

優(yōu)選地,具體根據以下公式生成原始檢測參數:

其中,為所述原始檢測參數的取值函數,w為所述原始檢測參數,且w為求和項對應的最小值,n為所述樣本訪問請求的個數,為各所述樣本訪問請求的標簽的取值。

優(yōu)選地,所述異常閾值具體通過以下方式生成:

獲取異常樣本訪問請求占所有樣本訪問請求的百分比;

根據所述檢測參數獲取與各所述樣本訪問請求對應的異常概率;

將各所述樣本訪問請求對應的異常概率從小至大進行排序處理;

根據所述排序結果確定與所述百分比對應的異常概率,并將所述異常概率作為所述異常閾值。

相應地,本申請還提出了一種異常訪問檢測設備,其特征在于,包括:

獲取模塊,獲取待檢測的訪問請求的屬性數據;

第一生成模塊,根據所述屬性數據以及檢測參數生成與所述訪問請求對應的異常概率,所述檢測參數根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成;

判斷模塊,判斷所述異常概率是否大于預設的異常閾值;

若是,所述判斷模塊確認所述訪問請求為異常訪問請求;

若否,所述判斷模塊確認所述訪問請求為正常訪問請求。

優(yōu)選地,還包括:

確定模塊,根據各所述樣本訪問請求的訪問頻次信息確定各所述樣本訪問請求是否異常;

分配模塊,分別為正常樣本訪問請求以及異常樣本訪問請求賦予不同取值的標簽;

第二生成模塊,根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成原始檢測參數;

第三生成模塊,根據所述原始檢測參數生成所述檢測參數。

優(yōu)選地,所述訪問頻次信息包括所述樣本訪問請求對應的用戶標識id以及訪問時間,所述確定模塊具體用于:

根據所述用戶id獲取在所述訪問時間之前的時間窗口內由相同用戶提交的樣本訪問請求的第一數量,以及獲取在所述訪問時間之后的所述時間窗口內由相同用戶提交的樣本訪問請求的第二數量;

判斷所述第一數量與所述第二數量之和是否大于預設的次數閾值;

若是,確認所述樣本訪問請求為異常樣本訪問請求;

若否,確認所述樣本訪問請求為正常樣本訪問請求。

優(yōu)選地,具體根據以下公式生成原始檢測參數:

其中,argminw為所述原始檢測參數的取值函數,w為所述原始檢測參數,且w為求和項對應的最小值,n為所述樣本訪問請求的個數,vi為各所述樣本訪問請求的標簽的取值。

優(yōu)選地,所述異常閾值具體通過以下方式生成:

獲取異常樣本訪問請求占所有樣本訪問請求的百分比;

根據所述檢測參數獲取與各所述樣本訪問請求對應的異常概率;

將各所述樣本訪問請求對應的異常概率從小至大進行排序處理;

根據所述排序結果確定與所述百分比對應的異常概率,并將所述異常概率作為所述異常閾值。

由此可見,通過應用本申請的技術方案,在獲取待檢測的訪問請求的屬性數據之后,根據屬性數據以及檢測參數生成與訪問請求對應的異常概率,由于檢測參數根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成,因此在判斷異常概率是否大于預設的異常閾值之后,即可基于二者的大小確認訪問請求是否為異常訪問請求。從而能夠在海量的訪問請求中準確地針對異常訪問請求進行識別處理,保證了網絡的穩(wěn)定性與安全性。

附圖說明

圖1為現有技術中異常檢測在服務響應上的應用示意圖;

圖2為本申請?zhí)岢龅囊环N異常訪問檢測方法的流程示意圖;

圖3為本申請具體實施例中基于時序特征提取的異常點檢測流程圖;

圖4為本申請具體實施例中時序數據的特征提取示意圖;

圖5為本申請具體實施例中閾值計算流程示意圖;

圖6為本申請?zhí)岢龅囊环N異常訪問檢測設備的結構示意圖。

具體實施方式

如背景技術所述,針對含時序申請數據的特點,進一步提高異常點檢測的準確性以及有效性,是關系到系統(tǒng)準確有效運行的一個關鍵問題,也是本申請所要解決的技術問題。

為解決上述技術問題,本申請?zhí)岢隽艘环N異常點檢測方法,將用戶統(tǒng)計數據和時序訪問數據結合起來,通過時序數據按規(guī)則給出一個初步的標簽并采用邏輯回歸的方法對初步標簽和用戶屬性進行訓練來得出最終結果,從而使異常點判定的結果得以進一步提高。

如圖2所示,為本申請?zhí)岢龅囊环N異常點檢測方法的流程示意圖,包括以下步驟:

s201獲取待檢測的訪問請求的屬性數據。

在本申請的實施方式中,在模型以及檢測參數生成之后,對于每一次新訪問請求預測的過程中,即在判斷訪問請求是否異常的過程中,僅由該次訪問請求的屬性決定,異常檢測問題轉化成為分類問題,對于該分類問題,僅需獲取待檢測的訪問請求的屬性數據得到全部屬性向量即可,也就是說,在此步驟中不需要再獲取新訪問請求的時序數據。

因此本申請的實施方式在進行新訪問請求異常預測之前,還需要通過對 各所述樣本訪問請求對應的初步標簽和用戶屬性進行邏輯回歸訓練,來獲得分類模型并得到檢測參數,進而可以實現將用戶數據和時序訪問數據結合起來的目的。本申請邏輯回歸訓練以及檢測參數獲取的方式具體如下:

a)根據各所述樣本訪問請求的訪問頻次信息確定各所述樣本訪問請求是否異常;

b)分別為正常樣本訪問請求以及異常樣本訪問請求賦予不同取值的標簽;

c)根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成原始檢測參數;

d)根據所述原始檢測參數生成所述檢測參數。

另外,通過上述步驟可以看出,如何準確判斷樣本訪問請求是否異常是決定分類模型以及檢測參數精度的重要參數,故本申請具體實施方式提出了確定各所述樣本訪問請求是否異常的具體步驟:

a)根據所述用戶標識獲取在所述訪問時間之前的時間窗口內由相同用戶提交的樣本訪問請求的第一數量,以及獲取在所述訪問時間之后的所述時間窗口內由相同用戶提交的樣本訪問請求的第二數量;

b)判斷所述第一數量與所述第二數量之和是否大于預設的次數閾值;

c)若是,確認所述樣本訪問請求為異常樣本訪問請求;

d)若否,確認所述樣本訪問請求為正常樣本訪問請求。

在本申請的實施方式中,所述訪問頻次信息包括所述樣本訪問請求對應的用戶標識以及訪問時間。其中,用戶標識是作為區(qū)分不同用戶的憑證,只要保證不同用戶對應有不同的用戶標識即可,故可能會出現多種形式和內容。舉例來說,用戶標識可以為用戶對應終端的mac地址,也可以為用戶在服務終端的注冊id。訪問時間為由服務器記錄的該訪問請求的訪問時間點。

需要說明的是,以上用戶標識的具體實例僅為本申請優(yōu)選實施例提出的示例,在此基礎上還可以選擇其他類型的用戶標識,以使本申請適用于更多的應用領域,這些改進都屬于本發(fā)明的保護范圍。

需要說明的是,以上確定樣本訪問請求是否異常的方法僅為本申請具體實施例提出的一種優(yōu)選方案,在保證具有一定確定精度的前提下,本領域技術人員也可以采用其他方式進行確定,這些都屬于本申請的保護范圍。

s202根據所述屬性數據以及檢測參數生成與所述訪問請求對應的異常概率,所述檢測參數根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成。

在本申請的實施方式中,異常閾值應該根據長期的經驗進行調整,以達到一個合適的數值范圍。如果異常閾值的取值較大,則會將部分異常點其判斷為正常訪問,故可能會漏掉很多異常點;相反的,如果異常閾值的取值過小,則會將部分正常點判斷為異常點,影響正常用戶的使用。因此如何通調整獲得合適的異常閾值對以提高異常點檢測的精度是至關重要的,故本申請通過以下方式來生成異常閾值:

a)獲取異常樣本訪問請求占所有樣本訪問請求的百分比;

b)根據所述檢測參數獲取與各所述樣本訪問請求對應的異常概率;

c)將各所述樣本訪問請求對應的異常概率從小至大進行排序處理;

d)根據所述排序結果確定與所述百分比對應的異常概率,并將所述異常概率作為所述異常閾值。

在本申請的具體實施例中,生成原始檢測參數一個參考公式如下:

其中,argminw為所述原始檢測參數的取值函數,w為所述原始檢測參數, 且w為求和項對應的最小值,n為所述樣本訪問請求的個數,vi為各所述樣本訪問請求的標簽的取值。

通過上述生成原始檢測參數的參考公式,計算結果是參數w就是所述原始檢測參數。在后續(xù)過程中即可利用原始檢測參數w對所有新訪問請求進行計算,通過對計算結果與異常閾值進行判斷,進而實現對新訪問請求是否異常進行預測。

需要說明的是,以上公式僅為本申請具體實施例提出的一種優(yōu)選方案,然而,在保證計算結果能夠作為原始檢測參數的前提下,本領域技術人員也可以對該公式進行修改或者變形,這些都屬于本申請的保護范圍。

s203判斷所述異常概率是否大于預設的異常閾值。

在本申請的實施方式中,在新訪問請求到達時,通過分類模型來預測新訪問請求是否為異常訪問請求。具體的,首先通過將新訪問請求的屬性數據代入分類模型,可以得到該次訪問為異常訪問請求的概率,即異常概率,通過將該常訪問請求的異常概率與預設的異常閾值進行比較,判斷所述異常概率是否大于預設的異常閾值。若該新訪問請求的異常概率大于異常閾值時,則判定為異常訪問請求,即執(zhí)行s204;若該新訪問請求的異常概率小于異常閾值時,則判定為正常訪問請求,即執(zhí)行s205。

s204若是,確認所述訪問請求為異常訪問請求。

s205若否,確認所述訪問請求為正常訪問請求。

由此可見,通過應用以上技術方案,在獲取待檢測的訪問請求的屬性數據之后,根據屬性數據以及檢測參數生成與訪問請求對應的異常概率,由于檢測參數根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成,因此在判斷異常概率是否大于預設的異常閾值之后,即可基于二者的大小確認訪問請求是否為異常訪問請求。從而能夠在海量的訪問請求中準確地針對異常 訪問請求進行識別處理,保證了網絡的穩(wěn)定性與安全性。

為了進一步闡述本申請的技術思想,現結合如圖2所示的具體的應用場景,對本申請的技術方案進行說明。該基于時序特征提取的異常點檢測流程通過時序序列分析、線性分類器訓練和預測三個步驟實現了異常點的檢測,這三個不同步驟的具體介紹如下:

(1)通過時序序列生成標簽

根據時序序列的特點,在訓練集中,首先將所有用戶訪問數據按照時間順序進行排序,排序完成之后,我們對比每次一訪問的用戶id,設定一個滑動窗口向后移動,按序遍歷每一次訪問。對于每一次訪問,如果在它的前半個窗口和后半個窗口中由相同用戶提交的訪問次數大于一定閾值則標記為異常點。那么異常點的標簽的集合可記作:

其中,vi表示第i個訪問的標簽,w為窗口大小參數,th是閾值參數,其示意圖如圖3所示。

(2)線性分類器訓練

在所有訪問標簽生成完畢之后,對于每一次訪問,我們認為該次訪問是否是異常的,完全由該次訪問的屬性所決定,問題轉化為一個分類問題,對于該分類問題來講,不需要在使用時序的數據。根據每次訪問的其他屬性特征和標簽,進行邏輯回歸訓練,得到一個分類模型。該模型的結果是參數w,滿足:

其中,argminw是一個參數w的取值函數,w的值使得右邊求和項取最小值。n代表總的學習樣本個數,vi表示上一步的異常點標簽。wt表示w的轉置。在實際進行邏輯回歸訓練的時候,采用l-bfgs算法對其進行加速。

(3)新訪問預測

當有新的訪問到達時,能通過分類模型來預測新的訪問是否是異常點。將新的訪問數據代入分類模型后,能得到該次訪問是異常點的概率,設定一個閾值,當該訪問為異常的概率大于該閾值時,則判定為異常點,所有異常新訪問的集合表示為:

{vi|wtxi>pt}

其中vi表示第i次訪問,xi表示該次訪問的所有屬性向量,pt為判斷異常點的閾值。在這里,閾值應該根據長期的經驗進行調整,直到一個合適的數字。如果該閾值取值太大,則會漏掉很多異常點,將其判為正常訪問;如果該閾值取值太小,則會將很多正常點判定為異常點,影響正常用戶使用。因此調節(jié)一個合適的閾值是非常必要的,在這里可以根據百分比的方式來設置,首先找到異常點占總體訓練數據的百分比,然后將訓練數據帶入模型按模型計算出概率,接著對該概率進行排序,找到在異常點占總體百分比位置的概率,將其設為閾值。具體示意圖如圖5所示。

上述應用場景的技術方案,通過樣本數據的時序特征為分類模型提供訓練標簽,再根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成檢測參數;在獲取待檢測的訪問請求的屬性數據之后,根據屬性數據以及檢測參數生成與訪問請求對應的異常概率,因此在判斷異常概率是否大于預設的異 常閾值之后,即可基于二者的大小確認訪問請求是否為異常訪問請求。從而能夠在海量的訪問請求中準確地針對異常訪問請求進行識別處理,保證了網絡的穩(wěn)定性與安全性。

為達到以上技術目的,本申請還提出了一種異常訪問檢測設備,如圖6所示,包括以下模塊:

獲取模塊610,獲取待檢測的訪問請求的屬性數據;

第一生成模塊620,根據所述屬性數據以及檢測參數生成與所述訪問請求對應的異常概率,所述檢測參數根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成;

判斷模塊630,判斷所述異常概率是否大于預設的異常閾值;

若是,所述判斷模塊630確認所述訪問請求為異常訪問請求;

若否,所述判斷模塊630確認所述訪問請求為正常訪問請求。

在具體的應用場景中,還包括:

確定模塊,根據各所述樣本訪問請求的訪問頻次信息確定各所述樣本訪問請求是否異常;

分配模塊,分別為正常樣本訪問請求以及異常樣本訪問請求賦予不同取值的標簽;

第二生成模塊,根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成原始檢測參數;

第三生成模塊,根據所述原始檢測參數生成所述檢測參數。

在具體的應用場景中,所述訪問頻次信息包括所述樣本訪問請求對應的用戶標識id以及訪問時間,所述確定模塊具體用于:

根據所述用戶id獲取在所述訪問時間之前的時間窗口內由相同用戶提交的樣本訪問請求的第一數量,以及獲取在所述訪問時間之后的所述時間窗口 內由相同用戶提交的樣本訪問請求的第二數量;

判斷所述第一數量與所述第二數量之和是否大于預設的次數閾值;

若是,確認所述樣本訪問請求為異常樣本訪問請求;

若否,確認所述樣本訪問請求為正常樣本訪問請求。

在具體的應用場景中,具體根據以下公式生成原始檢測參數:

其中,argminw為所述原始檢測參數的取值函數,w為所述原始檢測參數,且w為求和項對應的最小值,n為所述樣本訪問請求的個數,vi為各所述樣本訪問請求的標簽的取值。

在具體的應用場景中,所述異常閾值具體通過以下方式生成:

獲取異常樣本訪問請求占所有樣本訪問請求的百分比;

根據所述檢測參數獲取與各所述樣本訪問請求對應的異常概率;

將各所述樣本訪問請求對應的異常概率從小至大進行排序處理;

根據所述排序結果確定與所述百分比對應的異常概率,并將所述異常概率作為所述異常閾值。

通過應用本申請的技術方案,在獲取待檢測的訪問請求的屬性數據之后,根據屬性數據以及檢測參數生成與訪問請求對應的異常概率,由于檢測參數根據各個樣本訪問請求對應的標簽的取值以及屬性數據生成,因此在判斷異常概率是否大于預設的異常閾值之后,即可基于二者的大小確認確認訪問請求是否為異常訪問請求。從而能夠在海量的訪問請求中準確地針對異常訪問請求進行識別處理,保證了網絡的穩(wěn)定性與安全性。

通過以上的實施方式的描述,本領域的技術人員可以清楚地了解到本申請可以通過硬件實現,也可以借助軟件加必要的通用硬件平臺的方式來實現。 基于這樣的理解,本申請的技術方案可以以軟件產品的形式體現出來,該軟件產品可以存儲在一個非易失性存儲介質(可以是cd-rom,u盤,移動硬盤等)中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網絡設備等)執(zhí)行本申請各個實施場景所述的方法。

本領域技術人員可以理解附圖只是一個優(yōu)選實施場景的示意圖,附圖中的模塊或流程并不一定是實施本申請所必須的。

本領域技術人員可以理解實施場景中的裝置中的模塊可以按照實施場景描述進行分布于實施場景的裝置中,也可以進行相應變化位于不同于本實施場景的一個或多個裝置中。上述實施場景的模塊可以合并為一個模塊,也可以進一步拆分成多個子模塊。

上述本申請序號僅僅為了描述,不代表實施場景的優(yōu)劣。

以上公開的僅為本申請的幾個具體實施場景,但是,本申請并非局限于此,任何本領域的技術人員能思之的變化都應落入本申請的保護范圍。

當前第1頁1 2 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1