本發(fā)明涉及網(wǎng)絡(luò)安全技術(shù)領(lǐng)域,尤指一種惡意登錄地址識(shí)別方法及裝置。
背景技術(shù):
隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,網(wǎng)絡(luò)安全受到越來(lái)越多的關(guān)注。對(duì)惡意登錄地址的識(shí)別是保證網(wǎng)絡(luò)安全的重要手段。在網(wǎng)絡(luò)管理的過(guò)程中,每個(gè)登錄操作都會(huì)由日志文件記錄,現(xiàn)在最常用的技術(shù)是通過(guò)人為瀏覽這些日志文件,通過(guò)人為的方式來(lái)找出發(fā)出惡意登錄請(qǐng)求的IP地址。
現(xiàn)有技術(shù)中,日志檢查者通過(guò)統(tǒng)計(jì)IP地址發(fā)出的請(qǐng)求數(shù)量,登錄帳號(hào)的個(gè)數(shù)和自身經(jīng)驗(yàn)來(lái)人為判斷出哪些IP地址屬于惡意發(fā)送登錄請(qǐng)求。這種方式人為檢索的工作量極大,需要的人數(shù)和設(shè)備都比較多,并且重復(fù)性勞動(dòng),效果也并不那么好,費(fèi)時(shí)費(fèi)力,且不能快速、準(zhǔn)確的識(shí)別惡意IP。
現(xiàn)有技術(shù)中,對(duì)于大型網(wǎng)站或者龐大的帳號(hào)系統(tǒng),由于龐大的系統(tǒng)產(chǎn)生的登錄日志非常多而且實(shí)時(shí)性非常強(qiáng),這時(shí)一般采用流式數(shù)據(jù)統(tǒng)計(jì)和固定規(guī)則的方法進(jìn)行統(tǒng)計(jì)。比如,每小時(shí)統(tǒng)計(jì)一小時(shí)內(nèi)各IP的請(qǐng)求數(shù)量,登錄帳號(hào)數(shù)量等數(shù)據(jù),依據(jù)一定的數(shù)學(xué)規(guī)則,對(duì)數(shù)據(jù)進(jìn)行計(jì)算之后,根據(jù)閾值確定發(fā)出惡意登錄請(qǐng)求的IP地址。這種方式十分依賴數(shù)學(xué)規(guī)則和固定的閾值,易被外部猜中從而使此規(guī)則失效。且此規(guī)則易誤傷非惡意但登錄比較頻繁的IP地址,不能快速、準(zhǔn)確的識(shí)別惡意IP。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種惡意登錄地址識(shí)別方法及裝置,用以解決現(xiàn)有技術(shù)中存在的不能快速、準(zhǔn)確的識(shí)別惡意IP,現(xiàn)有識(shí)別方法費(fèi)時(shí)費(fèi)力的問(wèn)題。
一方面,本發(fā)明實(shí)施例提供了一種惡意登錄地址識(shí)別方法,包括:
獲取用戶登錄時(shí)產(chǎn)生的日志文件;
對(duì)獲取的日志文件進(jìn)行統(tǒng)計(jì),得到日志文件統(tǒng)計(jì)結(jié)果;所述統(tǒng)計(jì)結(jié)果中包含每個(gè)登錄地址的登錄數(shù)據(jù);
將所述日志文件統(tǒng)計(jì)結(jié)果輸入預(yù)先建立的回歸分析模型中,根據(jù)每個(gè)登錄地址的登錄數(shù)據(jù),通過(guò)所述回歸分析模型確定登錄地址是否是惡意登錄地址;
其中,所述回歸分析模型根據(jù)歷史日志文件統(tǒng)計(jì)結(jié)果生成,其輸入?yún)?shù)為登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果。
在一些可選的實(shí)施例中,對(duì)獲取的日志文件進(jìn)行統(tǒng)計(jì),得到日志文件統(tǒng)計(jì)結(jié)果,具體包括:
統(tǒng)計(jì)日志文件包括的日志記錄中出現(xiàn)的登錄地址;
針對(duì)每個(gè)登錄地址,統(tǒng)計(jì)登錄數(shù)據(jù),得到日志文件的統(tǒng)計(jì)結(jié)果文件,所述登錄數(shù)據(jù)包括下列信息中的至少一個(gè):
發(fā)出登錄請(qǐng)求的次數(shù)、登錄帳號(hào)數(shù)、登陸成功比例、驗(yàn)證碼輸錯(cuò)比例。
在一些可選的實(shí)施例中,回歸分析模型的訓(xùn)練過(guò)程,具體包括:
獲取記錄的歷史日志文件;
統(tǒng)計(jì)歷史日志文件包括的日志記錄中出現(xiàn)的登錄地址;
針對(duì)每個(gè)登錄地址,統(tǒng)計(jì)登錄數(shù)據(jù),得到歷史日志文件的統(tǒng)計(jì)結(jié)果文件;
使用選定的數(shù)據(jù)挖掘算法,對(duì)所述統(tǒng)計(jì)結(jié)果文件進(jìn)行訓(xùn)練,得到回歸分析模型。
在一些可選的實(shí)施例中,對(duì)所述統(tǒng)計(jì)結(jié)果文件進(jìn)行訓(xùn)練,得到回歸分析模型,具體包括:
采用下列公式對(duì)統(tǒng)計(jì)結(jié)果文件進(jìn)行訓(xùn)練,得到邏輯回歸模型參數(shù):
其中,m表示數(shù)據(jù)的總個(gè)數(shù);
i表示第i個(gè)分量;
j表示第j個(gè)日志文件;
xi表示日志文件向量;
yi表示是否惡意登錄地址;
a表示學(xué)習(xí)率;
θ表示模型參數(shù);
使用得到的邏輯回歸模型參數(shù)建立輸入?yún)?shù)為統(tǒng)計(jì)結(jié)果文件中的登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果的邏輯回歸模型;或
使用決策樹(shù)計(jì)算模型,得到?jīng)Q策樹(shù)模型參數(shù),使用得到的決策樹(shù)模型參數(shù)建立輸入?yún)?shù)為統(tǒng)計(jì)結(jié)果文件中的登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果的決策樹(shù)模型。
在一些可選的實(shí)施例中,當(dāng)邏輯回歸模型是決策樹(shù)模型時(shí),根據(jù)每個(gè)登錄地址的登錄數(shù)據(jù),通過(guò)所述回歸分析模型確定登錄地址是否是惡意登錄地址,具體包括:
將登錄數(shù)據(jù)作為輸入?yún)?shù)x輸入下列邏輯回歸模型,得到登錄地址是否是惡意登錄地址的輸出結(jié)果hθ(x):
其中,θ為訓(xùn)練得到的邏輯回歸模型參數(shù)。
在一些可選的實(shí)施例中,所述日志文件中包括下列信息中的至少一項(xiàng):登錄時(shí)間,登錄方式,登錄設(shè)備,登錄地址,登錄瀏覽器,登錄請(qǐng)求時(shí)長(zhǎng),登錄結(jié)果,登錄帳號(hào)。
本發(fā)明實(shí)施例還提供一種惡意登錄地址識(shí)別裝置,包括:
獲取模塊,用于獲取用戶登錄時(shí)產(chǎn)生的日志文件;
統(tǒng)計(jì)模塊,用于對(duì)獲取的日志文件進(jìn)行統(tǒng)計(jì),得到日志文件統(tǒng)計(jì)結(jié)果;所述統(tǒng)計(jì)結(jié)果中包含每個(gè)登錄地址的登錄數(shù)據(jù);
確定模塊,用于將所述日志文件統(tǒng)計(jì)結(jié)果輸入預(yù)先建立的回歸分析模型中,根據(jù)每個(gè)登錄地址的登錄數(shù)據(jù),通過(guò)所述回歸分析模型確定登錄地址是否是惡意登錄地址;其中,所述回歸分析模型根據(jù)歷史日志文件統(tǒng)計(jì)結(jié)果生成,其輸入?yún)?shù)為登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果。
在一些可選的實(shí)施例中,所述統(tǒng)計(jì)模塊,具體用于:
統(tǒng)計(jì)日志文件包括的日志記錄中出現(xiàn)的登錄地址;
針對(duì)每個(gè)登錄地址,統(tǒng)計(jì)登錄數(shù)據(jù),得到日志文件的統(tǒng)計(jì)結(jié)果文件,所述登錄數(shù)據(jù)包括下列信息中的至少一個(gè):
發(fā)出登錄請(qǐng)求的次數(shù)、登錄帳號(hào)數(shù)、登陸成功比例、驗(yàn)證碼輸錯(cuò)比例。
在一些可選的實(shí)施例中,上述裝置還包括:
訓(xùn)練模塊,用于訓(xùn)練回歸分析模型,具體包括:
獲取記錄的歷史日志文件;
統(tǒng)計(jì)歷史日志文件包括的日志記錄中出現(xiàn)的登錄地址;
針對(duì)每個(gè)登錄地址,統(tǒng)計(jì)登錄數(shù)據(jù),得到歷史日志文件的統(tǒng)計(jì)結(jié)果文件;
使用選定的數(shù)據(jù)挖掘算法,對(duì)所述統(tǒng)計(jì)結(jié)果文件進(jìn)行訓(xùn)練,得到回歸分析模型。
在一些可選的實(shí)施例中,所述訓(xùn)練模塊,具體用于:
采用下列公式對(duì)統(tǒng)計(jì)結(jié)果文件進(jìn)行訓(xùn)練,得到邏輯回歸模型參數(shù):
其中,m表示數(shù)據(jù)的總個(gè)數(shù);
i表示第i個(gè)分量;
j表示第j個(gè)日志文件;
xi表示日志文件向量;
yi表示是否惡意登錄地址;
a表示學(xué)習(xí)率;
θ表示模型參數(shù);
使用得到的邏輯回歸模型參數(shù)建立輸入?yún)?shù)為統(tǒng)計(jì)結(jié)果文件中的登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果的邏輯回歸模型;或
使用決策樹(shù)計(jì)算模型,得到?jīng)Q策樹(shù)模型參數(shù),使用得到的決策樹(shù)模型參數(shù)建立輸入?yún)?shù)為統(tǒng)計(jì)結(jié)果文件中的登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果的決策樹(shù)模型。
在一些可選的實(shí)施例中,所述確定模塊,具體用于:
當(dāng)邏輯回歸模型是決策樹(shù)模型時(shí),將登錄數(shù)據(jù)作為輸入?yún)?shù)x輸入下列邏輯回歸模型,得到登錄地址是否是惡意登錄地址的輸出結(jié)果hθ(x):
其中,θ為訓(xùn)練得到的邏輯回歸模型參數(shù)。
上述技術(shù)方案具有如下有益效果:
通過(guò)對(duì)登錄時(shí)產(chǎn)生的歷史日志文件的統(tǒng)計(jì),建立回歸分析模型,當(dāng)需要識(shí)別登錄地址是否為惡意登錄地址時(shí),將相應(yīng)的日志文件輸入到回歸分析模型,得到是否是惡意登錄地址的判斷結(jié)果,這種方式,通過(guò)對(duì)歷史日志文件分析得到回歸分析模型,能夠準(zhǔn)確的識(shí)別惡意地址,且不需要大量的人工操作,節(jié)約人力資源成本,不需要設(shè)置閾值,不容易被猜測(cè)破解,從而能夠更有效、更準(zhǔn)確的識(shí)別出惡意登錄地址,提高網(wǎng)絡(luò)安全。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實(shí)施例一中惡意登錄地址識(shí)別方法的流程圖;
圖2是本發(fā)明實(shí)施例一中惡意登錄地址識(shí)別的原理示意圖;
圖3是本發(fā)明實(shí)施例二中惡意登錄地址識(shí)別方法的流程圖;
圖4是本發(fā)明實(shí)施例三中回歸分析模型訓(xùn)練的流程圖;
圖5是本發(fā)明實(shí)施例中惡意登錄地址識(shí)別裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
為了解決現(xiàn)有技術(shù)中存在的不能快速、準(zhǔn)確的識(shí)別惡意IP的問(wèn)題,本發(fā)明實(shí)施例提供一種惡意登錄地址識(shí)別方法,能夠快速、準(zhǔn)確的是被惡意登錄地址,不需要大量的人工操作,省時(shí)、省力。下面通過(guò)具體的實(shí)施例進(jìn)行詳細(xì)描述。
實(shí)施例一
本發(fā)明實(shí)施例提供一種惡意登錄地址識(shí)別方法,基于Scikit(面向?qū)ο?、解釋型?jì)算機(jī)程序設(shè)計(jì)語(yǔ)言-Python的一個(gè)工具包)中回歸分析功能的從日志中挖掘惡意登錄地址,其流程如圖1所示,其實(shí)現(xiàn)原理如圖2所示,該方法包括如下步驟:
步驟S101:獲取用戶登錄時(shí)產(chǎn)生的日志文件。
獲取某網(wǎng)站一段時(shí)間內(nèi),比如一天內(nèi),登錄產(chǎn)生的日志文件B。每次登錄會(huì)產(chǎn)生一條日志紀(jì)錄,而這條紀(jì)錄里會(huì)有這些信息中的至少一個(gè):登錄時(shí)間,登錄方式,登錄設(shè)備,登錄地址,登錄瀏覽器,登錄請(qǐng)求時(shí)長(zhǎng),登錄結(jié)果,登錄帳號(hào)等。如圖2中右側(cè)最上方的方框所示。
步驟S102:對(duì)獲取的日志文件進(jìn)行統(tǒng)計(jì),得到日志文件統(tǒng)計(jì)結(jié)果。其中,獲得的統(tǒng)計(jì)結(jié)果中包含每個(gè)登錄地址的登錄數(shù)據(jù)。
統(tǒng)計(jì)日志文件的所有日志紀(jì)錄中出現(xiàn)的登錄地址,比如IP地址。針對(duì)每個(gè)登錄地址,比如IP地址,統(tǒng)計(jì)登錄數(shù)據(jù),得到日志文件統(tǒng)計(jì)結(jié)果。其中,登錄數(shù)據(jù)包括下列信息中的至少一個(gè):發(fā)出登錄請(qǐng)求的次數(shù)、登錄帳號(hào)數(shù)、登陸成功比例、驗(yàn)證碼輸錯(cuò)比例。IP地址是IP協(xié)議提供的一種統(tǒng)一的地址格式,它為互聯(lián)網(wǎng)上的每一個(gè)網(wǎng)絡(luò)和每一臺(tái)主機(jī)分配一個(gè)邏輯地址,格式如:132.223.12.244。
比如:統(tǒng)計(jì)每個(gè)IP地址發(fā)出請(qǐng)求次數(shù)、登錄帳號(hào)數(shù)、登錄成功比例、驗(yàn)證碼輸錯(cuò)比例等數(shù)據(jù)中的一項(xiàng)或幾項(xiàng),將統(tǒng)計(jì)數(shù)據(jù)寫(xiě)成一個(gè)統(tǒng)計(jì)結(jié)果文件。從而實(shí)現(xiàn)統(tǒng)計(jì)日志文件B的數(shù)據(jù),得到統(tǒng)計(jì)結(jié)果文件X2。統(tǒng)計(jì)結(jié)果文件X2中,每行紀(jì)錄一個(gè)登錄地址和其請(qǐng)求次數(shù)/登錄帳號(hào)數(shù)/登錄成功比例/驗(yàn)證碼輸錯(cuò)比例。如圖2中右側(cè)第二個(gè)方框所示。
步驟S103:將得到的日志文件統(tǒng)計(jì)結(jié)果輸入預(yù)先建立的回歸分析模型中,根據(jù)每個(gè)登錄地址的登錄數(shù)據(jù),通過(guò)回歸分析模型確定登錄地址是否是惡意登錄地址。
得到日志文件統(tǒng)計(jì)結(jié)果之后將輸入回歸分析模型中,其中包括的登錄數(shù)據(jù)作為輸入?yún)?shù),經(jīng)回歸分析模型進(jìn)行處理后,輸出登錄地址是否為惡意登錄地址的輸出結(jié)果,參照?qǐng)D2中右側(cè)下邊兩個(gè)方框所示?;貧w分析模型可以選擇邏輯回歸模型,也可以選擇決策樹(shù)模型,或其他的回歸分析模型。
其中,回歸分析模型根據(jù)歷史日志文件統(tǒng)計(jì)結(jié)果生成,其輸入?yún)?shù)為登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果。如圖2中左側(cè)方框所示,從歷史日志文件中統(tǒng)計(jì)用于訓(xùn)練的統(tǒng)計(jì)結(jié)果,根據(jù)統(tǒng)計(jì)結(jié)果訓(xùn)練回歸分析模型。
本發(fā)明實(shí)施例的上述方法,采用回歸分析技術(shù)實(shí)現(xiàn),回歸分析具有學(xué)習(xí)能力,輸入的數(shù)據(jù)越多,最后結(jié)果越準(zhǔn)確,先訓(xùn)練一個(gè)回歸分析模型,再把訓(xùn)練好的模型加入系統(tǒng)中,對(duì)以后的數(shù)據(jù)進(jìn)行判斷,用已經(jīng)建立好的回歸分析模型能夠直接對(duì)以后對(duì)數(shù)據(jù)進(jìn)行分析和預(yù)測(cè)。在用數(shù)據(jù)對(duì)回歸分析模型進(jìn)行訓(xùn)練之后,回歸分析模型能夠根據(jù)已有的數(shù)據(jù)進(jìn)行概率預(yù)測(cè)或是非判斷。但由于日志文件中的數(shù)據(jù)記錄可能有超過(guò)一億條甚至更多,如果人工判斷的工作量將會(huì)非常大,因此本發(fā)明中采用訓(xùn)練模型的方式和利用模型進(jìn)行判斷,減少了人工工作量,并提高了判定的準(zhǔn)確和有效性。
實(shí)施例二
本發(fā)明實(shí)施例二提供上述惡意登錄地址識(shí)別方法的一種具體實(shí)現(xiàn)過(guò)程,其流程如圖3所示,該方法包括如下步驟:
步驟S301:獲取用戶登錄時(shí)產(chǎn)生的日志文件。
步驟S302:統(tǒng)計(jì)日志文件包括的日志記錄中出現(xiàn)的登錄地址。
首先,統(tǒng)計(jì)所有日志紀(jì)錄中出現(xiàn)的登錄地址,比如IP地址。
步驟S303:針對(duì)每個(gè)登錄地址,統(tǒng)計(jì)登錄數(shù)據(jù),得到日志文件的統(tǒng)計(jì)結(jié)果文件。
針對(duì)每個(gè)登錄地址,比如IP地址,統(tǒng)計(jì)登錄數(shù)據(jù)。比如:統(tǒng)計(jì)日志文件B的數(shù)據(jù),得到統(tǒng)計(jì)結(jié)果文件X2。
步驟S304:將日志文件統(tǒng)計(jì)結(jié)果輸入預(yù)先建立的回歸分析模型中。
要判斷日志B中的登錄地址是否為惡意的發(fā)出登錄請(qǐng)求的登錄地址,對(duì)日志B進(jìn)行同樣的登錄數(shù)據(jù)統(tǒng)計(jì)后,在Python中輸入如下的代碼:
predicted=model.predict(X2)
X2是日志B的統(tǒng)計(jì)結(jié)果。這句命令能夠根據(jù)已有的回歸分析模型對(duì)統(tǒng)計(jì)結(jié)果X2做判斷,即判斷X2中的登錄地址是否是惡意的發(fā)出登錄請(qǐng)求的登錄地址。這樣Predicted中就存放了X2中的所有登錄地址和其是否惡意發(fā)出登錄請(qǐng)求的判斷結(jié)果。
步驟S305:通過(guò)回歸分析模型確定登錄地址是否是惡意登錄地址。
以邏輯回歸模型為例,將登錄數(shù)據(jù)作為輸入?yún)?shù)x輸入下列邏輯回歸模型,得到登錄地址是否是惡意登錄地址的輸出結(jié)果hθ(x):
其中,θ為訓(xùn)練得到的邏輯回歸模型參數(shù)。
這個(gè)函數(shù)hθ(x)即已知x時(shí)對(duì)y的估計(jì)值的計(jì)算公式,其中,y=hθ(x)。從公式中可以看到,模型訓(xùn)練的過(guò)程需要找出一組參數(shù)θ,使模型的結(jié)果hθ(x)盡量符合訓(xùn)練數(shù)據(jù)的結(jié)果。模型的訓(xùn)練在后續(xù)實(shí)施例中描述,可以采用梯度下降法進(jìn)行參數(shù)θ的挖掘。
本實(shí)施例中,利用回歸分析模型挖掘惡意登錄地址時(shí),把要挖掘惡意登錄地址的日志B做相似的統(tǒng)計(jì)工作,并輸入訓(xùn)練好的回歸分析模型,得到對(duì)日志B中每個(gè)登錄地址的判斷結(jié)果。
實(shí)施例三
本發(fā)明實(shí)施例三提供上述供惡意登錄地址識(shí)別方法回歸分析模型建立的實(shí)現(xiàn)過(guò)程,其流程如圖4所示,包括如下步驟:
步驟S401:獲取記錄的歷史日志文件。
通過(guò)對(duì)海量歷史日志文件的分析,可以實(shí)現(xiàn)回歸分析模型的訓(xùn)練。
訓(xùn)練回歸分析模型時(shí),需要利用編程的方法讓系統(tǒng)從歷史日志文件A中統(tǒng)計(jì)所需的數(shù)據(jù),然后把這部分統(tǒng)計(jì)數(shù)據(jù)當(dāng)作Scikit工具包中邏輯回歸功能的輸入,這樣可以得到訓(xùn)練好的邏輯回歸模型。
步驟S402:統(tǒng)計(jì)歷史日志文件包括的日志記錄中出現(xiàn)的登錄地址。
在訓(xùn)練的過(guò)程中需要人為判斷歷史日志文件的日志記錄中的登錄地址是否為惡意的發(fā)出登錄請(qǐng)求的登錄地址,然后對(duì)惡意和非惡意的登錄地址分別進(jìn)行統(tǒng)計(jì)。
步驟S403:針對(duì)每個(gè)登錄地址,統(tǒng)計(jì)登錄數(shù)據(jù),得到歷史日志文件的統(tǒng)計(jì)結(jié)果文件。
統(tǒng)計(jì)歷史日志文件的所有日志紀(jì)錄中出現(xiàn)的登錄地址,針對(duì)每個(gè)登錄地址,統(tǒng)計(jì)登錄數(shù)據(jù),得到日志文件統(tǒng)計(jì)結(jié)果。
比如:統(tǒng)計(jì)每個(gè)登錄地址發(fā)出請(qǐng)求次數(shù)、登錄帳號(hào)數(shù)、登錄成功比例、驗(yàn)證碼輸錯(cuò)比例等數(shù)據(jù)中的一項(xiàng)或幾項(xiàng),將統(tǒng)計(jì)數(shù)據(jù)寫(xiě)成一個(gè)統(tǒng)計(jì)結(jié)果文件。從而實(shí)現(xiàn)統(tǒng)計(jì)日志文件A的數(shù)據(jù),得到統(tǒng)計(jì)結(jié)果文件X。統(tǒng)計(jì)結(jié)果文件X中,每行紀(jì)錄一個(gè)登錄地址和其請(qǐng)求次數(shù)/登錄帳號(hào)數(shù)/登錄成功比例/驗(yàn)證碼輸錯(cuò)比例。
步驟S404:使用選定的數(shù)據(jù)挖掘算法,對(duì)統(tǒng)計(jì)結(jié)果文件進(jìn)行訓(xùn)練,得到回歸分析模型。
訓(xùn)練回歸分析模型時(shí),在安裝了Scikit的Python中,輸入下列代碼:
model=LogisticRegression()
model.fit(X,y)
第一句的意思是選擇了回歸分析作為模型,第二句是把上一步的數(shù)據(jù)輸入到模型里。這樣Scikit就利用這些數(shù)據(jù)對(duì)回歸分析進(jìn)行訓(xùn)練。訓(xùn)練過(guò)的模型可以對(duì)其他的日志數(shù)據(jù)進(jìn)行預(yù)測(cè),y是輸出的是否是惡意登錄地址的判斷結(jié)果。
上述實(shí)施例二中描述了訓(xùn)練回歸分析模型需要得到回歸分析模型參數(shù),以邏輯回歸模型為例,獲取模型參數(shù)時(shí),可以采用下面的梯度下降法:
采用下列公式對(duì)統(tǒng)計(jì)結(jié)果文件進(jìn)行訓(xùn)練,得到邏輯回歸模型參數(shù):
上述公式減號(hào)后邊表示梯度調(diào)整值。
其中,m表示數(shù)據(jù)的總個(gè)數(shù);
i表示第i個(gè)分量;
j表示第j個(gè)日志文件;
xi表示日志文件向量;
yi表示是否惡意登錄地址(例如:是與否可以分別用0和1表示);
a表示學(xué)習(xí)率;
θ表示模型參數(shù),其形式比如可以是(0.1,0.1,0.1),維度數(shù)n可變,上述公式表示θj為之前得到的θj減去一個(gè)梯度調(diào)整值。
在梯度下降法中,對(duì)每一個(gè)θ的分量不斷執(zhí)行上式,這樣做的話,所有的θ會(huì)收斂于全局最優(yōu)解。也就是說(shuō)當(dāng)訓(xùn)練完成后,得到的是最符合訓(xùn)練集的參數(shù)組θ。
然后得到模型參數(shù)后,使用得到的邏輯回歸模型參數(shù)建立輸入?yún)?shù)為統(tǒng)計(jì)結(jié)果文件中的登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果的邏輯回歸模型。即在使用模型進(jìn)行惡意登錄地址識(shí)別的過(guò)程中,已知X時(shí),將X帶入hθ(x)的表達(dá)式,并且表達(dá)式中已經(jīng)有訓(xùn)練好的參數(shù)組θ,計(jì)算hθ(x)就得到在已知X情況下對(duì)y的預(yù)測(cè)值hθ(x)。
可選的,選用決策樹(shù)模型時(shí),使用決策樹(shù)計(jì)算模型,得到?jīng)Q策樹(shù)模型參數(shù),使用得到的決策樹(shù)模型參數(shù)建立輸入?yún)?shù)為統(tǒng)計(jì)結(jié)果文件中的登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果的決策樹(shù)模型。
基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供一種惡意登錄地址識(shí)別裝置,可以設(shè)置在網(wǎng)絡(luò)服務(wù)器中,也可以設(shè)置在用戶設(shè)備中,實(shí)現(xiàn)對(duì)惡意登陸地址的識(shí)別。該裝置的結(jié)構(gòu)如圖5所示,包括:獲取模塊501、統(tǒng)計(jì)模塊502和確定模塊503。
獲取模塊501,用于獲取用戶登錄時(shí)產(chǎn)生的日志文件。
統(tǒng)計(jì)模塊502,用于對(duì)獲取的日志文件進(jìn)行統(tǒng)計(jì),得到日志文件統(tǒng)計(jì)結(jié)果;其中,統(tǒng)計(jì)結(jié)果中包含每個(gè)登錄地址的登錄數(shù)據(jù)。
確定模塊503,用于將得到的日志文件統(tǒng)計(jì)結(jié)果輸入預(yù)先建立的回歸分析模型中,根據(jù)每個(gè)登錄地址的登錄數(shù)據(jù),通過(guò)回歸分析模型確定登錄地址是否是惡意登錄地址;其中,回歸分析模型根據(jù)歷史日志文件統(tǒng)計(jì)結(jié)果生成,其輸入?yún)?shù)為登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果。
優(yōu)選的,上述統(tǒng)計(jì)模塊501,具體用于:
統(tǒng)計(jì)日志文件包括的日志記錄中出現(xiàn)的登錄地址;
針對(duì)每個(gè)登錄地址,統(tǒng)計(jì)登錄數(shù)據(jù),得到日志文件的統(tǒng)計(jì)結(jié)果文件,所述登錄數(shù)據(jù)包括下列信息中的至少一個(gè):
發(fā)出登錄請(qǐng)求的次數(shù)、登錄帳號(hào)數(shù)、登陸成功比例、驗(yàn)證碼輸錯(cuò)比例。
優(yōu)選的,上述裝置,還包括:
訓(xùn)練模塊504,用于訓(xùn)練回歸分析模型,具體包括:
獲取記錄的歷史日志文件;
統(tǒng)計(jì)歷史日志文件包括的日志記錄中出現(xiàn)的登錄地址;
針對(duì)每個(gè)登錄地址,統(tǒng)計(jì)登錄數(shù)據(jù),得到歷史日志文件的統(tǒng)計(jì)結(jié)果文件;
使用選定的數(shù)據(jù)挖掘算法,對(duì)所述統(tǒng)計(jì)結(jié)果文件進(jìn)行訓(xùn)練,得到回歸分析模型。
優(yōu)選的,上述訓(xùn)練模塊504,具體用于:
采用下列公式對(duì)統(tǒng)計(jì)結(jié)果文件進(jìn)行訓(xùn)練,得到邏輯回歸模型參數(shù):
其中,m表示數(shù)據(jù)的總個(gè)數(shù);
i表示第i個(gè)分量;
j表示第j個(gè)日志文件;
xi表示日志文件向量;
yi表示是否惡意登錄地址(例如:是與否可以分別用0和1表示);
a表示學(xué)習(xí)率;
θ表示模型參數(shù);
使用得到的邏輯回歸模型參數(shù)建立輸入?yún)?shù)為統(tǒng)計(jì)結(jié)果文件中的登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果的邏輯回歸模型;或
使用決策樹(shù)計(jì)算模型,得到?jīng)Q策樹(shù)模型參數(shù),使用得到的決策樹(shù)模型參數(shù)建立輸入?yún)?shù)為統(tǒng)計(jì)結(jié)果文件中的登錄數(shù)據(jù),輸出參數(shù)為是否惡意登錄地址判斷結(jié)果的決策樹(shù)模型。
優(yōu)選的,上述確定模塊503,具體用于:
當(dāng)邏輯回歸模型是決策樹(shù)模型時(shí),將登錄數(shù)據(jù)作為輸入?yún)?shù)x輸入下列邏輯回歸模型,得到登錄地址是否是惡意登錄地址的輸出結(jié)果hθ(x):
其中,θ為訓(xùn)練得到的邏輯回歸模型參數(shù)。
本發(fā)明的實(shí)施例提供的上述惡意登錄地址識(shí)別方法和裝置,由于采用了回歸分析的方法,找出惡意發(fā)出登錄請(qǐng)求的登錄地址所需要的人工工作量大大的減少了,并且沒(méi)有閾值,不易被外界猜中并針對(duì),并且隨著處理的數(shù)據(jù)量的增大,邏輯回歸的預(yù)測(cè)將會(huì)越來(lái)越準(zhǔn)確。從而可以準(zhǔn)確、高效的找出惡意登錄地址,避免其他現(xiàn)有方式找出惡意登錄請(qǐng)求的IP地址工作量太大,人工和開(kāi)發(fā)成本較高的問(wèn)題,也避免了采用閾值的方法存在易被猜中同意誤傷善意登錄用戶的問(wèn)題。
本發(fā)明實(shí)施例中,基于回歸分析和Python/Scikit的發(fā)出惡意登錄請(qǐng)求的登錄地址挖掘流程,關(guān)鍵點(diǎn)在于利用已有工具包Python/Scikit的邏輯回歸功能來(lái)尋找分散在日志文件中的關(guān)鍵信息——發(fā)出惡意登錄請(qǐng)求的登錄地址,而以往的方法都沒(méi)有用到Scikit和回歸分析的方法。
本領(lǐng)域技術(shù)人員還可以了解到本發(fā)明實(shí)施例列出的各種說(shuō)明性邏輯塊(illustrative logical block),單元,和步驟可以通過(guò)電子硬件、電腦軟件,或兩者的結(jié)合進(jìn)行實(shí)現(xiàn)。為清楚展示硬件和軟件的可替換性(interchangeability),上述的各種說(shuō)明性部件(illustrative components),單元和步驟已經(jīng)通用地描述了它們的功能。這樣的功能是通過(guò)硬件還是軟件來(lái)實(shí)現(xiàn)取決于特定的應(yīng)用和整個(gè)系統(tǒng)的設(shè)計(jì)要求。本領(lǐng)域技術(shù)人員可以對(duì)于每種特定的應(yīng)用,可以使用各種方法實(shí)現(xiàn)所述的功能,但這種實(shí)現(xiàn)不應(yīng)被理解為超出本發(fā)明實(shí)施例保護(hù)的范圍。
本發(fā)明實(shí)施例中所描述的各種說(shuō)明性的邏輯塊,或單元都可以通過(guò)通用處理器,數(shù)字信號(hào)處理器,專用集成電路(ASIC),現(xiàn)場(chǎng)可編程門陣列或其它可編程邏輯裝置,離散門或晶體管邏輯,離散硬件部件,或上述任何組合的設(shè)計(jì)來(lái)實(shí)現(xiàn)或操作所描述的功能。通用處理器可以為微處理器,可選地,該通用處理器也可以為任何傳統(tǒng)的處理器、控制器、微控制器或狀態(tài)機(jī)。處理器也可以通過(guò)計(jì)算裝置的組合來(lái)實(shí)現(xiàn),例如數(shù)字信號(hào)處理器和微處理器,多個(gè)微處理器,一個(gè)或多個(gè)微處理器聯(lián)合一個(gè)數(shù)字信號(hào)處理器核,或任何其它類似的配置來(lái)實(shí)現(xiàn)。
本發(fā)明實(shí)施例中所描述的方法或算法的步驟可以直接嵌入硬件、處理器執(zhí)行的軟件模塊、或者這兩者的結(jié)合。軟件模塊可以存儲(chǔ)于RAM存儲(chǔ)器、閃存、ROM存儲(chǔ)器、EPROM存儲(chǔ)器、EEPROM存儲(chǔ)器、寄存器、硬盤(pán)、可移動(dòng)磁盤(pán)、CD-ROM或本領(lǐng)域中其它任意形式的存儲(chǔ)媒介中。示例性地,存儲(chǔ)媒介可以與處理器連接,以使得處理器可以從存儲(chǔ)媒介中讀取信息,并可以向存儲(chǔ)媒介存寫(xiě)信息??蛇x地,存儲(chǔ)媒介還可以集成到處理器中。處理器和存儲(chǔ)媒介可以設(shè)置于ASIC中,ASIC可以設(shè)置于用戶終端中??蛇x地,處理器和存儲(chǔ)媒介也可以設(shè)置于用戶終端中的不同的部件中。
在一個(gè)或多個(gè)示例性的設(shè)計(jì)中,本發(fā)明實(shí)施例所描述的上述功能可以在硬件、軟件、固件或這三者的任意組合來(lái)實(shí)現(xiàn)。如果在軟件中實(shí)現(xiàn),這些功能可以存儲(chǔ)與電腦可讀的媒介上,或以一個(gè)或多個(gè)指令或代碼形式傳輸于電腦可讀的媒介上。電腦可讀媒介包括電腦存儲(chǔ)媒介和便于使得讓電腦程序從一個(gè)地方轉(zhuǎn)移到其它地方的通信媒介。存儲(chǔ)媒介可以是任何通用或特殊電腦可以接入訪問(wèn)的可用媒體。例如,這樣的電腦可讀媒體可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盤(pán)存儲(chǔ)、磁盤(pán)存儲(chǔ)或其它磁性存儲(chǔ)裝置,或其它任何可以用于承載或存儲(chǔ)以指令或數(shù)據(jù)結(jié)構(gòu)和其它可被通用或特殊電腦、或通用或特殊處理器讀取形式的程序代碼的媒介。此外,任何連接都可以被適當(dāng)?shù)囟x為電腦可讀媒介,例如,如果軟件是從一個(gè)網(wǎng)站站點(diǎn)、服務(wù)器或其它遠(yuǎn)程資源通過(guò)一個(gè)同軸電纜、光纖電纜、雙絞線、數(shù)字用戶線(DSL)或以例如紅外、無(wú)線和微波等無(wú)線方式傳輸?shù)囊脖话谒x的電腦可讀媒介中。所述的碟片(disk)和磁盤(pán)(disc)包括壓縮磁盤(pán)、鐳射盤(pán)、光盤(pán)、DVD、軟盤(pán)和藍(lán)光光盤(pán),磁盤(pán)通常以磁性復(fù)制數(shù)據(jù),而碟片通常以激光進(jìn)行光學(xué)復(fù)制數(shù)據(jù)。上述的組合也可以包含在電腦可讀媒介中。
以上所述的具體實(shí)施方式,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施方式而已,并不用于限定本發(fā)明的保護(hù)范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。