出可信的單協(xié)議數(shù) 據(jù)幀。
3. 根據(jù)權(quán)利要求2所述的將未知協(xié)議多通信方數(shù)據(jù)流分離為點(diǎn)對(duì)點(diǎn)數(shù)據(jù)流的方法,其 特征在于:所述的Sl還包括以下子步驟: 514 :將聚類效果好的類簇放入結(jié)果集中,提取該類的指紋信息,并存入指紋庫(kù); 515 :將聚類效果好的類簇加上類標(biāo)識(shí)進(jìn)行機(jī)器學(xué)習(xí),建立分類模型,使用分類模型進(jìn) 行分類。
4. 根據(jù)權(quán)利要求2所述的將未知協(xié)議多通信方數(shù)據(jù)流分離為點(diǎn)對(duì)點(diǎn)數(shù)據(jù)流的方法,其 特征在于:所述的Sll包括以下子步驟: SllOl :將輸入數(shù)據(jù)構(gòu)成二維矩陣,一個(gè)字節(jié)作為最小處理單元; S1102:遍歷所有字節(jié),計(jì)算出每一列中出現(xiàn)頻率最高的字符,并分別表示為 al,a2, a3,…,am ;同時(shí)計(jì)算出這些字符在哪些行出現(xiàn),并分別由集合SI, S2, S3,…Sm表示, 即al為第一列出現(xiàn)頻率最高的字符,Sl為第一列中出現(xiàn)字符al的所有行的行號(hào)的集合; Sl 103 :將出現(xiàn)頻率大于Iiminal %的字符以及出現(xiàn)頻率小于low_liminal %的字符剔 除,設(shè)有i個(gè)字符符合要求,則對(duì)m的值進(jìn)行更新:令m = m-i ;所述的Iiminal %和low_ Iiminal %分別為頻率最小閾值和頻率最大閾值; 51104 :找出集合Sl到Sm中,元素個(gè)數(shù)最大的集合,設(shè)為Smax ; 51105 :定義一個(gè)新的集合R,所述的集合R的元素為集合S,并將集合Smax加入集合 R; Sl 106 :取uniterate的值從50到99,遍歷集合Sl到Sm,根據(jù)遍歷到的集合與集合R 中所有的集合的交集率,做不同的處理: (1) 若遍歷到的集合Sx與集合R中所有的集合的交集率低于uniterate%,則將Sx加 入集合R; (2) 若遍歷到的集合Sx與集合R中所有的集合的交集率高于或等于uniterate %,則 取Smax和Sx的交集作為Smax ; 所述的uniterate %為交集率閾值; 51107 :求出R中所有元素的并集,即為篩選出來(lái)的數(shù)據(jù)幀; 51108 :將篩選出來(lái)的數(shù)據(jù)幀從輸入數(shù)據(jù)幀中除去,對(duì)剩余的數(shù)據(jù)幀數(shù)量進(jìn)行判斷: (1)如果剩余的數(shù)據(jù)幀數(shù)量仍比較大,再次做為輸入樣本計(jì)算這些數(shù)據(jù)幀的K值,即返 回步驟SllOl ; ⑵否則,進(jìn)入步驟S1109 ; 51109 :得出對(duì)應(yīng)的K值,以u(píng)niterate的值為X軸,K值為Y軸作曲線; 51110 :取K值變化比較平緩的最大uniterate區(qū)間,計(jì)算在此區(qū)間內(nèi)的K的平均值,即 為所求的協(xié)議種類數(shù)的近似值K。
5. 根據(jù)權(quán)利要求2所述的將未知協(xié)議多通信方數(shù)據(jù)流分離為點(diǎn)對(duì)點(diǎn)數(shù)據(jù)流的方法,其 特征在于:所述的S12包括以下子步驟: 51201 :將步驟Sll得到的經(jīng)過(guò)處理的數(shù)據(jù)幀和簇的近似值K輸入; 51202 :隨機(jī)選擇K個(gè)數(shù)據(jù)對(duì)象作為初始聚類中心; 51203 :根據(jù)簇中對(duì)象的平均值,將每個(gè)對(duì)象賦給最類似的簇; 51204 :更新簇的平均值,即重新計(jì)算每個(gè)對(duì)象簇中對(duì)象的平均值; 51205 :判斷聚類準(zhǔn)則函數(shù)是否收斂即計(jì)算聚類準(zhǔn)則函數(shù)E值是否變化: (1) 若聚類準(zhǔn)則函數(shù)未收斂即聚類準(zhǔn)則函數(shù)E值仍在變化,則返回步驟S1203 ; (2) 若聚類準(zhǔn)則函數(shù)收斂即聚類準(zhǔn)則函數(shù)E值沒有在變化,則輸出K個(gè)簇。
6. 根據(jù)權(quán)利要求2所述的將未知協(xié)議多通信方數(shù)據(jù)流分離為點(diǎn)對(duì)點(diǎn)數(shù)據(jù)流的方法,其 特征在于:所述的S13包括以下子步驟: S1301 :將步驟Sll得到的經(jīng)過(guò)處理的數(shù)據(jù)幀轉(zhuǎn)換為列二維矩陣,每一個(gè)元素為一個(gè)字 T ; 遍歷所有字節(jié),計(jì)算出每一列中的字符的種類表示為al, a2, a3,…,ax,同時(shí)計(jì)算出al 到ax中,每個(gè)字節(jié)出現(xiàn)的概率 S1302:遍歷所有字節(jié),計(jì)算出每一列中出現(xiàn)頻率最高的字符,并分別表示為 al,a2, a3,…,am ;同時(shí)計(jì)算出這些字符在哪些行出現(xiàn),并分別由集合SI, S2, S3,…Sm表示, 即al為第一列出現(xiàn)頻率最高的字符,Sl為第一列中出現(xiàn)字符al的所有行的行號(hào)的集合; 并將出現(xiàn)的次數(shù)除以總行數(shù)就得到該字節(jié)出現(xiàn)的頻率Pi ; 51303 :計(jì)算每一列的熵值H,由于有m列則有m個(gè)熵值,計(jì)算公式如下:
式中,m為一列中字符的種類數(shù),Pi為第i中字符出現(xiàn)的概率,對(duì)數(shù)以2為底; 51304 :以列號(hào)為X軸,該列的熵值為Y軸做圖,分析聚類結(jié)果的好壞: 設(shè)定一個(gè)評(píng)估閾值l〇w_entropy,當(dāng)越多的列j:商值小于low_entropy,聚類效果就越 好。
7. 根據(jù)權(quán)利要求1所述的將未知協(xié)議多通信方數(shù)據(jù)流分離為點(diǎn)對(duì)點(diǎn)數(shù)據(jù)流的方法,其 特征在于:所述的S2包括以下子步驟: 521 :將步驟Sl得到的單協(xié)議數(shù)據(jù)幀輸入,并轉(zhuǎn)化為二維數(shù)組; 522 :在數(shù)據(jù)幀中的尋找符合以下條件這些列:在這些列中,出現(xiàn)字符的種類數(shù)大于1 小于K,K作為可變參數(shù),默認(rèn)值為256 ; 523 :循環(huán)處理從步驟S22中尋找到的每一列,挑選出符合以下條件的列到集合R : 在其中一個(gè)列中,有超過(guò)W%的字符在另外一個(gè)列中的不同位置也出現(xiàn)了,并且在所述 的另外一個(gè)列中,有超過(guò)W%的字符在所述的其中一個(gè)列中的不同位置也出現(xiàn)了,則將這兩 列加入集合R ;所述的W作為可變參數(shù),默認(rèn)值為60 ; S24:集合R中得到的列為地址列的候選集,若集合R中不止兩列,則將相鄰的列進(jìn)行拼 接操作; 525 :取w的值從10到90,分別計(jì)算出相應(yīng)的地址對(duì); 526 :對(duì)比分析得到的地址對(duì),找出最優(yōu)解。
8.根據(jù)專利要求2所述的將未知協(xié)議多通信方數(shù)據(jù)流分離為點(diǎn)對(duì)點(diǎn)數(shù)據(jù)流的方法,其 特征在于:所述的S12采用weka工具中的k-means聚類算法進(jìn)行聚類,包括以下子步驟: (1) 數(shù)據(jù)預(yù)處理:在將二進(jìn)制數(shù)據(jù)流處理成十六進(jìn)制時(shí),用空格符將每個(gè)字節(jié)隔開以 方便計(jì)算,再聚類前使用weka自帶的StringToWordVector工具,將每個(gè)字節(jié)作為一個(gè)屬 性,一個(gè)字節(jié)有256種形態(tài),因此有256個(gè)屬性;過(guò)濾所有數(shù)據(jù)幀,對(duì)于每條數(shù)據(jù)幀,如果出 現(xiàn)某個(gè)字節(jié),對(duì)應(yīng)的屬性值就置為1,沒出現(xiàn)的字節(jié)就置為〇, 一條數(shù)據(jù)幀對(duì)應(yīng)一個(gè)實(shí)例; (2) 使用weka實(shí)現(xiàn)了的simplemeans聚類算法進(jìn)行聚類,指定k值為以上求得的值,聚 類出來(lái)的結(jié)果,就是每種單一的協(xié)議類型。
【專利摘要】本發(fā)明公開了一種將未知協(xié)議多通信方數(shù)據(jù)流分離為點(diǎn)對(duì)點(diǎn)數(shù)據(jù)流的方法,它包括以下步驟:S1:將混合未知多協(xié)議數(shù)據(jù)流分為單協(xié)議數(shù)據(jù)幀:采用聚類算法將混合未知多協(xié)議數(shù)據(jù)流分為單協(xié)議數(shù)據(jù)幀,并用評(píng)估算法確定所得到的類簇是比較可信的單協(xié)議數(shù)據(jù)幀;S2:將分割好的單協(xié)議數(shù)據(jù)幀按地址分為點(diǎn)對(duì)點(diǎn)數(shù)據(jù)幀:通過(guò)尋找具有“地址特征”的列隊(duì)來(lái)組成地址對(duì)候選集,然后通過(guò)對(duì)地址對(duì)候選集進(jìn)行拼接,得到最后的地址對(duì)。本發(fā)明將基于熵值的類簇評(píng)估方法用到了協(xié)議聚類的評(píng)估中,并且提出了一種簡(jiǎn)單有效的尋找未知協(xié)議地址信息的方法,效果很好。
【IPC分類】H04L29-12, H04L29-06
【公開號(hào)】CN104753934
【申請(qǐng)?zhí)枴緾N201510126647
【發(fā)明人】郝玉潔, 周洪川, 劉淵, 張鳳荔, 張俊嬌
【申請(qǐng)人】電子科技大學(xué)
【公開日】2015年7月1日
【申請(qǐng)日】2015年3月23日