亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種多模式正則表達式匹配方法及裝置的制造方法

文檔序號:8922631閱讀:334來源:國知局
一種多模式正則表達式匹配方法及裝置的制造方法
【技術領域】
[0001] 本申請涉及網(wǎng)絡安全技術領域,特別涉及多模式正則表達式匹配方法及裝置。
【背景技術】
[0002] 正則表達式是一種描述字符串的表達形式,具備自由且準確的表述能力,在網(wǎng)絡 安全領域有著廣泛的應用,常被用來描述具有攻擊意圖的網(wǎng)絡數(shù)據(jù)。在入侵檢測系統(tǒng)中,通 常會包含描述大量攻擊特征的正則表達式集合。在檢測過程中,采用多模式正則表達式匹 配的方式將正則表達式集合與網(wǎng)絡數(shù)據(jù)流進行匹配,以從中發(fā)現(xiàn)攻擊行為。而隨著互聯(lián)網(wǎng) 發(fā)展,網(wǎng)絡服務增多,網(wǎng)絡環(huán)境日益復雜,數(shù)據(jù)流量帶寬也在不斷增加,多模式正則表達式 匹配在容納更多更復雜的正則表達式的同時也要求用更少的存儲空間進行更快的匹配。
[0003] 傳統(tǒng)的多模式正則表達式匹配方法有三類:第一類方法是非確定有限自動機NFA 匹配,具有存儲空間少的優(yōu)點,但存在不確定數(shù)量的激活狀態(tài),匹配速度通常較慢的問題; 第二類方法是確定有限自動機DFA匹配,具有匹配速度快的優(yōu)點,但對于大規(guī)模或是特殊 寫法的復雜正則表達式,可能會產(chǎn)生狀態(tài)爆炸,從而使自動機構造時間過長,甚至內(nèi)存耗盡 無法構造的問題;第三類方法是先使用精確串多模式匹配或者擴展自動機匹配進行預過濾 匹配,當預過濾匹配命中時,就預示附近區(qū)域有可能存在成功匹配,這時再用NFA或者DFA 進行確認,相比前兩類方法,第三類方法更易于實現(xiàn)其可擴展性較好。因此,目前常采用第 三類方法,也稱為預過濾匹配方法,該方法具體包括:
[0004] 對待匹配的數(shù)據(jù)流進行字符串過濾,當數(shù)據(jù)流中的關鍵字與預設的特征字具有至 少一個相同特征時,表明數(shù)據(jù)流通過字符串過濾;將通過字符串過濾的數(shù)據(jù)流進行正則表 達式匹配。由于該方法中的字符串是直接從正則表達式中提取的,字符串的長度和數(shù)量均 無法保證過濾的質量,例如當所有正則表達式中一條或多條正則表達式所提取的均是短字 符串或不具區(qū)分度的字符串時,則該方法的過濾效果不佳,導致進入正則表達式匹配的數(shù) 據(jù)量巨大,嚴重影響整個匹配性能。

【發(fā)明內(nèi)容】

[0005] 本發(fā)明所要解決的技術問題是提供多模式正則表達式匹配方法,通過兩層過濾方 式提高過濾速率和過濾效果,進而以保證匹配性能的穩(wěn)定性。
[0006] 本發(fā)明還提供了多模式正則表達式匹配裝置,用以保證上述方法在實際中的實現(xiàn) 及應用。
[0007] -方面,本發(fā)明提供了多模式正則表達式匹配方法,該方法包括:
[0008] 按照預先建立的第一層過濾特征集對待匹配數(shù)據(jù)進行過濾得到第一層過濾的數(shù) 據(jù)分片和命中的精確字符串;所述第一層過濾特征集包括:從每個正則表達式提取的一個 長度超過預設閾值的精確字符串;
[0009] 根據(jù)所述命中的精確字符串查找對應的正則表達式超集,按照所述正則表達式超 集對所述第一層過濾的數(shù)據(jù)分片進行第二層過濾得到第二層過濾的數(shù)據(jù)分片和命中的正 則表達式超集;所述正則表達式超集是根據(jù)正則表達式的精確字符串和模糊字符串的邏輯 關系組成的表達式;
[0010] 根據(jù)所述命中的正則表達式超集確定對應的正則表達式,利用所述正則表達式對 所述第二層過濾的數(shù)據(jù)分片作匹配。
[0011] 優(yōu)選的,所述第一層過濾特征集通過以下方式建立:
[0012] 對每個正則表達式進行分割得到對應的精確字符串和模糊字符串;
[0013] 從每個正則表達式對應的精確字符串中選擇長度超過預設閾值的精確字符串,將 選擇的精確字符串組合成備選字符串集;
[0014] 按照精確字符串的優(yōu)先級順序從所述備選字符串集中針對每個正則表達式選擇 一個精確字符串組合成第一層過濾特征集。
[0015] 優(yōu)選的,在所述對每個正則表達式進行分割得到對應的精確字符串和模糊字符串 之后,所述方法還包括:
[0016] 將所述模糊字符串進行確定化,并與相鄰的精確字符串分片合并。
[0017] 優(yōu)選的,所述按照精確字符串的優(yōu)先級順序從所述備選字符串集中針對每個正則 表達式選擇一個精確字符串組合成第一過濾特征集,包括:
[0018] 按照字符串長度大小關系來設置所述備選字符串集中每個正則表達式對應的精 確字符串的優(yōu)先級順序,且該優(yōu)先級順序在使用過程中根據(jù)第一層過濾和第二層過濾的結 果進彳丁調整;從每個正則表達式對應的精確字符串中選擇優(yōu)先級最尚的精確字符串以組合 成第一層過濾特征集。
[0019] 優(yōu)選的,所述正則表達式超集通過以下方式生成:
[0020] 用于對正則表達式進行分割得到精確字符串和模糊字符串,采用邏輯關系符號替 代所述模糊字符串,根據(jù)所述精確字符串和所述邏輯關系符號生成正則表達式超集;所述 邏輯關系符號用于表征所述模糊字符串與其相鄰的精確字符串之間的邏輯關系。
[0021] 又一方面,本發(fā)明提供了一種多模式正則表達式匹配裝置,該裝置包括:
[0022] 第一層過濾單元,用于按照預先建立的第一層過濾特征集對待匹配數(shù)據(jù)進行過濾 得到第一層過濾的數(shù)據(jù)分片和命中的精確字符串;所述第一層過濾特征集包括:從每個正 則表達式提取的一個長度超過預設閾值的精確字符串;
[0023] 第二層過濾單元,用于根據(jù)所述命中的精確字符串查找對應的正則表達式超集, 按照所述正則表達式超集對所述第一層過濾的數(shù)據(jù)分片進行第二層過濾得到第二層過濾 的數(shù)據(jù)分片和命中的正則表達式超集;所述正則表達式超集是根據(jù)正則表達式的精確字符 串和模糊字符串的邏輯關系組成的表達式;
[0024] 匹配單元,用于根據(jù)所述命中的正則表達式超集確定對應的正則表達式,利用所 述正則表達式對所述第二層過濾的數(shù)據(jù)分片作匹配。
[0025] 優(yōu)選的,所述裝置還包括:
[0026] 第一層過濾特征集生成單元,用于生成所述第一層過濾特征集;
[0027] 所述第一層過濾特征集生成單元,包括:
[0028] 字符串分割子單元,用于對每個正則表達式進行分割得到對應的精確字符串和模 糊字符串;
[0029] 備選字符串集生成子單元,用于從每個正則表達式對應的精確字符串中選擇長度 超過預設閾值的精確字符串,將選擇的精確字符串組合成備選字符串集;
[0030] 第一過濾特征集生成子單元,用于按照精確字符串的優(yōu)先級順序從所述備選字符 串集中針對每個正則表達式選擇一個精確字符串組合成第一層過濾特征集。
[0031] 優(yōu)選的,所述第一過濾特征集生成單元還包括:
[0032] 確定化子單元,用于將所述模糊字符串進行確定化,并與相鄰的精確字符串分片 合并。
[0033] 優(yōu)選的,所述第一層過濾特征集生成子單元具體用于:
[0034] 按照字符串長度大小關系來設置所述備選字符串集中每個正則表達式對應的精 確字符串的優(yōu)先級順序,且該優(yōu)先級順序在使用過程中根據(jù)第一層過濾和第二層過濾的結 果進彳丁調整;從每個正則表達式對應的精確字符串中選擇優(yōu)先級最尚的精確字符串以組合 成第一層過濾特征集。
[0035] 優(yōu)選的,所述裝置還包括:
[0036] 正則表達式超集生成單元,用于對正則表達式進行分割得到精確字符串和模糊字 符串,采用邏輯關系符號替代所述模糊字符串,根據(jù)所述精確字符串和所述邏輯關系符號 生成正則表達式超集;所述邏輯關系符號用于表征所述模糊字符串與其相鄰的精確字符串 之間的邏輯關系。
[0037] 與現(xiàn)有技術相比,本發(fā)明具有如下有益效果:
[0038] 本發(fā)明提出了通過兩層過濾的方式來提高過濾效果,具體的是按照預先建立的第 一層過濾特征集對待匹配數(shù)據(jù)進行過濾得到第一層過濾的數(shù)據(jù)分片和命中的精確字符串; 所述第一層過濾特征集包括:從每個正則表達式提取的一個長度超過預設閾值的精確字符 串;這里的第一層過濾是根據(jù)字符串數(shù)量越少越好,字符串長度越長越好的特點選定的第 一過濾特征集,只從每個正則表達式中選擇一個字符串;有別于現(xiàn)有技術中的精確串,從而 使得第一層過濾能起到降低純凈數(shù)據(jù)通過率的作用,主要起到"過濾速度最大化"的作用。
[0039] 在第一層過濾完成時,接著進行第二層過濾
當前第1頁1 2 3 4 5 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1