一種未知協(xié)議特征的提取方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種未知協(xié)議特征的提取方法。
【背景技術(shù)】
[0002] 隨著網(wǎng)絡(luò)的發(fā)展日趨復(fù)雜,保障信息網(wǎng)絡(luò)的安全已成為國家信息化戰(zhàn)略的核心內(nèi) 容;在特定的網(wǎng)絡(luò)環(huán)境下,通過特殊手段進行竊密的威脅日趨嚴峻,此類竊密途徑通常是通 過無線通信的方式發(fā)送涉密信息,且這種通信采用的協(xié)議均為非常規(guī)的專用未知協(xié)議,而 現(xiàn)有的防范措施基本只針對已知協(xié)議,大多采用基于端口映射或靜態(tài)特征匹配等方法,無 法對該類竊密渠道機型監(jiān)測和檢測。
[0003] 為了保證網(wǎng)絡(luò)的安全運行以及對攻擊與危害行為的預(yù)警,決策者迫切需要在當前 結(jié)構(gòu)復(fù)雜網(wǎng)絡(luò)環(huán)境下準確找到待識別協(xié)議的特征,因此我們需要找到一種可行的協(xié)議特征 的提取方法,幫助決策者高效地對未知協(xié)議進行識別。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種未知協(xié)議特征的提取方法,幫 助決策者高效地對未知協(xié)議進行識別。
[0005] 本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)的:一種未知協(xié)議特征的提取方法,它 包括以下步驟:
[0006] SI.將數(shù)據(jù)集中每一種協(xié)議的數(shù)據(jù)幀隨機分為兩部分,對每一部分按字節(jié)進行切 分,并分別統(tǒng)計每一字節(jié)出現(xiàn)的次數(shù)和頻率,得到頻繁字節(jié);
[0007] S2.使用Jaccard參數(shù)來對頻繁字節(jié)進行篩選,選擇出每一種協(xié)議對應(yīng)的頻繁字 -K- T ;
[0008] S3.將一種協(xié)議對應(yīng)的連續(xù)出現(xiàn)的頻繁字節(jié)進行拼接,得到特征長串即頻繁串,并 篩選出字節(jié)出現(xiàn)數(shù)量大于幀總字節(jié)數(shù)量50%的特征長串,得到此協(xié)議的兩個特征候選集, 取其交集作為此協(xié)議的特征候選集,分別對每一種協(xié)議對應(yīng)的頻繁字節(jié)進行上述處理得到 每一種協(xié)議的特征候選集;
[0009] S4.根據(jù)得到每一種協(xié)議的特征候選集將該協(xié)議的數(shù)據(jù)幀表征為向量,使每一幀 數(shù)據(jù)變成特征候選集的向量標識;
[0010] S5.對所得到的每一種協(xié)議的特征候選集使用相關(guān)性特征選擇CFS算法進行特征 選擇,并將懸著出的特征進行記錄;
[0011] S6.利用KNN算法進行分類,統(tǒng)計分類的準確率和識別率,作為特征選擇結(jié)果的評 價指標。
[0012] 所述的步驟S2包括以下子步驟:
[0013] S21.通過改變一種協(xié)議的閾值來計算不同的Jaccard值;
[0014] S22.當Jaccard值第一次達到最高點時,記錄所對應(yīng)的該協(xié)議的閾值;
[0015] S23.根據(jù)該協(xié)議對應(yīng)的閾值選擇出該協(xié)議對應(yīng)的頻繁字節(jié);
[0016] S24.分別對每一種協(xié)議進行上述操作得到每一種協(xié)議對應(yīng)的頻繁字節(jié)。
[0017] 所述的步驟S3包括以下子步驟:
[0018] S31.對一種協(xié)議中的每一幀數(shù)據(jù),如果篩選出來的頻繁字節(jié)是連續(xù)出現(xiàn)的,就把 它們拼接在一起作為特征長串挑選出來;
[0019] S32.篩選出其中字節(jié)出現(xiàn)數(shù)量大于幀總字節(jié)數(shù)量50%的特征長串,得到此協(xié)議 的兩個特征候選集;
[0020] S33.取兩個特征候選集的交集作為此協(xié)議的特征候選集;
[0021] S34.分別對每一種協(xié)議對應(yīng)的頻繁字節(jié)進行上述處理,得到每一種協(xié)議的特征候 選集。
[0022] 所述的Jaccard參數(shù)的定義為:
[0023]
【主權(quán)項】
1. 一種未知協(xié)議特征的提取方法,其特征在于;它包括w下步驟:
51. 將數(shù)據(jù)集中每一種協(xié)議的數(shù)據(jù)帖隨機分為兩部分,對每一部分按字節(jié)進行切分,并 分別統(tǒng)計每一字節(jié)出現(xiàn)的次數(shù)和頻率,得到頻繁字節(jié);
52. 使用化ccard參數(shù)來對頻繁字節(jié)進行篩選,選擇出每一種協(xié)議對應(yīng)的頻繁字節(jié);
53. 將一種協(xié)議對應(yīng)的連續(xù)出現(xiàn)的頻繁字節(jié)進行拼接,得到特征長串即頻繁串,并篩選 出字節(jié)出現(xiàn)數(shù)量大于帖總字節(jié)數(shù)量50%的特征長串,得到此協(xié)議的兩個特征候選集,取其 交集作為此協(xié)議的特征候選集,分別對每一種協(xié)議對應(yīng)的頻繁字節(jié)進行上述處理得到每一 種協(xié)議的特征候選集;
54. 根據(jù)得到每一種協(xié)議的特征候選集將該協(xié)議的數(shù)據(jù)帖表征為向量,使每一帖數(shù)據(jù) 變成特征候選集的向量標識;
55. 對所得到的每一種協(xié)議的特征候選集使用相關(guān)性特征選擇WS算法進行特征選 擇,并將懸著出的特征進行記錄;
56. 利用腳W算法進行分類。
2. 根據(jù)權(quán)利要求1所述的一種未知協(xié)議特征的提取方法,其特征在于:所述的步驟S2 包括W下子步驟:
521. 通過改變一種協(xié)議的闊值來計算不同的化ccard值;
522. 當化ccard值第一次達到最高點時,記錄所對應(yīng)的該協(xié)議的闊值;
523. 根據(jù)該協(xié)議對應(yīng)的闊值選擇出該協(xié)議對應(yīng)的頻繁字節(jié);
524. 分別對每一種協(xié)議進行上述操作得到每一種協(xié)議對應(yīng)的頻繁字節(jié)。
3. 根據(jù)權(quán)利要求1所述的一種未知協(xié)議特征的提取方法,其特征在于:所述的步驟S3 包括W下子步驟:
531. 對一種協(xié)議中的每一帖數(shù)據(jù),如果篩選出來的頻繁字節(jié)是連續(xù)出現(xiàn)的,就把它們 拼接在一起作為特征長串挑選出來;
532. 篩選出其中字節(jié)出現(xiàn)數(shù)量大于帖總字節(jié)數(shù)量50%的特征長串,得到此協(xié)議的兩 個特征候選集;
533. 取兩個特征候選集的交集作為此協(xié)議的特征候選集;
534. 分別對每一種協(xié)議對應(yīng)的頻繁字節(jié)進行上述處理,得到每一種協(xié)議的特征候選 集。
4. 根據(jù)權(quán)利要求2所述的一種未知協(xié)議特征的提取方法,其特征在于:所述的化ccard 參數(shù)的定義為:
式中,化和T2i分別表示A和B中的第i個特征。
【專利摘要】本發(fā)明公開了一種未知協(xié)議特征的提取方法,它將每一種協(xié)議的數(shù)據(jù)幀隨機分為兩部分,對每一部分按字節(jié)進行切分,并統(tǒng)計每一字節(jié)出現(xiàn)的次數(shù)和頻率,得到頻繁字節(jié);對頻繁字節(jié)進行篩選,得到每一種協(xié)議對應(yīng)的頻繁字節(jié);將一種協(xié)議對應(yīng)的連續(xù)出現(xiàn)的頻繁字節(jié)進行拼接,得到特征長串即頻繁串,并篩選得到每一種協(xié)議的特征候選集;根據(jù)特征候選集將該協(xié)議的數(shù)據(jù)幀表征為向量;對特征候選集使用相關(guān)性特征選擇CFS算法進行特征選擇,將所選出的特征進行記錄;利用KNN算法進行分類,并統(tǒng)計分類的準確率和識別率。本發(fā)明提供了一種未知協(xié)議特征的提取方法,幫助決策者高效地對未知協(xié)議進行識別。
【IPC分類】H04L12-26, H04L29-06
【公開號】CN104796407
【申請?zhí)枴緾N201510127979
【發(fā)明人】張鳳荔, 周洪川, 張春瑞, 王勇, 張俊嬌
【申請人】電子科技大學(xué)
【公開日】2015年7月22日
【申請日】2015年3月23日