專(zhuān)利名稱(chēng):入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品中的協(xié)議識(shí)別技術(shù)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種網(wǎng)絡(luò)通訊中的協(xié)議識(shí)別、協(xié)議智能識(shí)別、協(xié)議自動(dòng)識(shí)別及文本分類(lèi)系統(tǒng)的協(xié)議識(shí)別技術(shù),具體地說(shuō)是一種入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品中的協(xié)議識(shí)別技術(shù)。
背景技術(shù):
入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品主要應(yīng)用于關(guān)鍵網(wǎng)絡(luò)節(jié)點(diǎn),用于對(duì)入侵行為的檢測(cè)和對(duì)網(wǎng)絡(luò)的安全保護(hù)。這些產(chǎn)品通過(guò)分析各種其在網(wǎng)絡(luò)中捕獲的數(shù)據(jù)流進(jìn)行協(xié)議分析,發(fā)現(xiàn)并阻斷其中的入侵行為。當(dāng)前所有的入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品均是通過(guò)查詢(xún)端口協(xié)議映射表(或類(lèi)似的數(shù)據(jù)文件)來(lái)判斷應(yīng)該對(duì)捕獲的報(bào)文進(jìn)行何種協(xié)議的分析。比如如果發(fā)現(xiàn)捕獲的報(bào)文中目的端口是21,則交給FTP協(xié)議分析引擎。通常端口映射表可以由管理員進(jìn)行修改以適應(yīng)實(shí)際環(huán)境的需要。該技術(shù)的本質(zhì)是將協(xié)議與端口進(jìn)行了綁定。近年來(lái)新一代的網(wǎng)絡(luò)協(xié)議(如各種IMS協(xié)議,各種P2P協(xié)議,各種后門(mén)木馬軟件,各種代理協(xié)議等)發(fā)展日趨復(fù)雜多樣,其特點(diǎn)是專(zhuān)門(mén)針對(duì)入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品做了特殊處理,主要體現(xiàn)在以下方面為防止被安全產(chǎn)品檢測(cè)并阻斷,這些協(xié)議并不會(huì)使用固定端口,而是動(dòng)態(tài)或隨機(jī)的使用系統(tǒng)的某一端口與外界聯(lián)系。在這種情況下,管理員事先不可能知道其使用了哪個(gè)端口,也就無(wú)法修改協(xié)議端口映射表來(lái)驅(qū)動(dòng)入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品進(jìn)行檢測(cè)與過(guò)濾保護(hù)。因此,必須發(fā)展新的技術(shù)來(lái)適應(yīng)網(wǎng)絡(luò)發(fā)展的需要。該技術(shù)必須滿(mǎn)足以下需求1.必須智能地和自動(dòng)地識(shí)別(協(xié)議智能識(shí)別與協(xié)議自動(dòng)識(shí)別),不需要查詢(xún)協(xié)議端口映射表或類(lèi)似數(shù)據(jù)文件;2.必須有盡可能高的協(xié)議識(shí)別準(zhǔn)確率。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是針對(duì)入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品對(duì)于非標(biāo)準(zhǔn)端口的網(wǎng)絡(luò)協(xié)議的識(shí)別的需求,在入侵檢測(cè)系統(tǒng)中實(shí)現(xiàn)上述需求在技術(shù)上的可行性。為此,本發(fā)明所解決問(wèn)題的技術(shù)方案是一種入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品中的協(xié)議識(shí)別技術(shù),其特征是,所述協(xié)議識(shí)別技術(shù)包括訓(xùn)練過(guò)程方法和分類(lèi)過(guò)程方法,其中,所述的訓(xùn)練過(guò)程方法包括訓(xùn)練文本預(yù)處理、特征項(xiàng)抽取、訓(xùn)練文本再處理及銜接后續(xù)的構(gòu)造分類(lèi)器的步驟;所述的分類(lèi)過(guò)程方法包括新文本預(yù)處理、分類(lèi)和輸出的步驟。相比現(xiàn)有技術(shù),本發(fā)明通過(guò)分析各種其在網(wǎng)絡(luò)中捕獲的數(shù)據(jù)流而進(jìn)行協(xié)議分析,發(fā)現(xiàn)并阻斷其中的入侵行為而不需要查詢(xún)協(xié)議端口映射表或類(lèi)似數(shù)據(jù)文件且具有極高的協(xié)議識(shí)別準(zhǔn)確率。
圖1是本發(fā)明涉及的入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品中的協(xié)議識(shí)別技術(shù)的系統(tǒng)工作流程框圖。
具體實(shí)施例方式
結(jié)合圖1,本發(fā)明涉及一種入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品中的協(xié)議識(shí)別技術(shù),其中,所述協(xié)議識(shí)別技術(shù)包括訓(xùn)練過(guò)程方法和分類(lèi)過(guò)程方法,而所述的訓(xùn)練過(guò)程方法包括訓(xùn)練文本預(yù)處理、特征項(xiàng)抽取、訓(xùn)練文本再處理及銜接后續(xù)的構(gòu)造分類(lèi)器的步驟,所述的分類(lèi)過(guò)程方法包括新文本預(yù)處理、分類(lèi)和輸出的步驟。更具體地說(shuō),本發(fā)明是指通過(guò)分析捕獲網(wǎng)絡(luò)中的數(shù)據(jù)報(bào)文,進(jìn)行各種統(tǒng)計(jì)運(yùn)算和模式匹配發(fā)現(xiàn)其所屬協(xié)議,然后交給協(xié)議分析引擎進(jìn)行進(jìn)一步的分析的一種技術(shù)方法。一般地講,在建立網(wǎng)絡(luò)通訊的協(xié)議識(shí)別技術(shù)中首先要明確文本分類(lèi)系統(tǒng)和評(píng)估技術(shù)的數(shù)學(xué)描述這兩個(gè)問(wèn)題文本分類(lèi)系統(tǒng)是指在給定的分類(lèi)體系下,根據(jù)文本的內(nèi)容自動(dòng)地確定文本關(guān)聯(lián)的類(lèi)別。從數(shù)學(xué)角度來(lái)看,文本分類(lèi)是一個(gè)映射的過(guò)程,它將未標(biāo)明類(lèi)別的文本映射到已有的類(lèi)別中,該映射可以是一一映射,也可以是一對(duì)多的映射,因?yàn)橥ǔR黄谋究梢酝鄠€(gè)類(lèi)別相關(guān)聯(lián)。用數(shù)學(xué)公式表示如下fA→B其中,A為待分類(lèi)的文本集合,B為分類(lèi)體系中的類(lèi)別集合文本分類(lèi)的映射規(guī)則是系統(tǒng)根據(jù)已經(jīng)掌握的每類(lèi)若干樣本的數(shù)據(jù)信息,總結(jié)出分類(lèi)的規(guī)律性而建立的判別公式和判別規(guī)則。然后在遇到新文本時(shí),根據(jù)總結(jié)出的判別規(guī)則,確定文本相關(guān)的類(lèi)別。我們的協(xié)議識(shí)別技術(shù)基于文本分類(lèi)系統(tǒng),把入侵檢測(cè)系統(tǒng)捕捉到的數(shù)據(jù)包根據(jù)文本分類(lèi)系統(tǒng)進(jìn)行處理,從而確定該協(xié)議的類(lèi)型。
關(guān)于評(píng)估技術(shù)的數(shù)學(xué)描述是因?yàn)槲谋痉诸?lèi)從根本上說(shuō)是一個(gè)映射過(guò)程,所以評(píng)估文本分類(lèi)系統(tǒng)的標(biāo)志是映射的準(zhǔn)確程度和映射的速度。映射的速度取決于映射規(guī)則的復(fù)雜程度,而評(píng)估映射準(zhǔn)確程度的參照物是通過(guò)專(zhuān)家思考判斷后對(duì)文本的分類(lèi)結(jié)果(這里假設(shè)人工分類(lèi)完全正確并且排除個(gè)人思維差異的因素),與人工分類(lèi)結(jié)果越相近,分類(lèi)的準(zhǔn)確程度就越高,這里隱含了評(píng)估文本分類(lèi)系統(tǒng)的兩個(gè)指標(biāo)準(zhǔn)確率和查全率。
準(zhǔn)確率是所有判斷的文本中與人工分類(lèi)結(jié)果吻合的文本所占的比率。其數(shù)學(xué)公式表示如下 查全率是人工分類(lèi)結(jié)果應(yīng)有的文本中分類(lèi)系統(tǒng)吻合的文本所占的比率,其數(shù)學(xué)公式表示如下 準(zhǔn)確率和查全率反映了分類(lèi)質(zhì)量的兩個(gè)不同方面,兩者必須綜合考慮,不可偏廢,因此,存在一種新的評(píng)估指標(biāo),F(xiàn)1測(cè)試值,其數(shù)學(xué)公式如下 另外有微平均和宏平均兩種計(jì)算準(zhǔn)確率、查全率和F1值的方法。
微平均計(jì)算每一類(lèi)的準(zhǔn)確率、查全率和F1值。
宏平均計(jì)算全部類(lèi)的準(zhǔn)確率、查全率和F1值。
所有文本分類(lèi)系統(tǒng)的目標(biāo)都是使文本分類(lèi)過(guò)程更準(zhǔn)確,更快速。
本發(fā)明涉及的協(xié)議識(shí)別技術(shù)是在文本分類(lèi)上主要采用向量空間模型(VSM)。向量空間模型的基本思想是以向量來(lái)表示文本(W1,W2,W3……Wn),其中Wi為第i個(gè)特征項(xiàng)的權(quán)重,那么選取什么作為特征項(xiàng)呢,一般可以選擇單個(gè)數(shù)據(jù)包的數(shù)據(jù)部分或連續(xù)的某個(gè)連接的數(shù)據(jù)包序列,根據(jù)實(shí)驗(yàn)結(jié)果,普遍認(rèn)為選取隸屬于同一個(gè)tcp連接的連續(xù)的若干的數(shù)據(jù)包作為特征項(xiàng)要優(yōu)于單個(gè)數(shù)據(jù)包,因此,要將某個(gè)網(wǎng)絡(luò)連接表示為向量空間中的一個(gè)向量,就首先要將該連接劃分為若干個(gè)“連續(xù)數(shù)據(jù)包序列”,即將文本分詞,由這些詞作為向量的維數(shù)來(lái)表示文本,最初的向量表示完全是0、1形式,即如果連續(xù)數(shù)據(jù)包序列中出現(xiàn)了某個(gè)關(guān)鍵字,那么該向量的該維為1,否則為0。這種方法無(wú)法體現(xiàn)該關(guān)鍵字在數(shù)據(jù)包序列中的作用程度,所以逐漸0、1被更精確的詞頻代替,詞頻分為絕對(duì)詞頻和相對(duì)詞頻,絕對(duì)詞頻,即使用詞在文本中出現(xiàn)的頻率表示文本,相對(duì)詞頻為歸一化的詞頻,其計(jì)算方法主要運(yùn)用TF-IDF公式,目前存在多種TF-IDF公式,我們?cè)谙到y(tǒng)中采用了一種比較普遍的TF-IDF公式W(t,d→)=tf(t,d→)×log(N/nt+0.01)Σt∈d→[tf(t,d→)×log(N/nt+0.01)]2]]>其中, 為詞t在文本 中的權(quán)重,而 為詞t在文本 中的詞頻,N為訓(xùn)練文本的總數(shù),nt為訓(xùn)練文本集中出現(xiàn)t的文本數(shù),分母為歸一化因子。
另外還存在其他的TF-IDF公式,例如W(t,d→)=(1+log2tf(t,d→))×log2(N/nt)Σt∈d→[(1+log2tf(t,d→))×log2(N/nt)]2]]>
該公式中參數(shù)的含義與上式相同。
某網(wǎng)絡(luò)連接的數(shù)據(jù)包經(jīng)過(guò)分詞程序分詞(劃分為連續(xù)數(shù)據(jù)包序列)后,統(tǒng)計(jì)詞頻,最終表示為上面描述的向量。
特征項(xiàng)的提取構(gòu)成文本的詞匯量很大,因此,表示文本的向量空間的維數(shù)也相當(dāng)大,可以達(dá)到幾萬(wàn)維,因此,本發(fā)明需要進(jìn)行維數(shù)壓縮的工作,這樣做的目的主要有兩個(gè),第一,為了提高程序的效率,提高運(yùn)行速度,第二,所有幾萬(wàn)個(gè)特征詞匯對(duì)文本分類(lèi)的意義是不同的,對(duì)于數(shù)據(jù)包特征項(xiàng),恐怕要更多。
在本發(fā)明的系統(tǒng)中采用了詞和類(lèi)別的互信息量進(jìn)行特征項(xiàng)抽取的判斷標(biāo)準(zhǔn),其算法過(guò)程如下所列STEP ONE初始情況下,該特征項(xiàng)集合包含所有該類(lèi)中出現(xiàn)的詞。
STEP TWO對(duì)于每個(gè)詞,計(jì)算詞和類(lèi)別的互信息量 其中,P(W|Cj)=1+Σi=1|D|N(W,di)|V|+Σs=1|V|Σi=1|D|N(Ws,di),]]>P(W|Ci)為W在Ci中出現(xiàn)的比重,|D|為該類(lèi)的訓(xùn)練文本數(shù),N(W,di)為詞W在di中的詞頻,|V|為總詞數(shù),Σs=1|V|Σi=1|D|N(Ws,di)]]>為該類(lèi)所有詞的詞頻和。
而P(W)同上面的計(jì)算公式相同,只是計(jì)算詞在所有訓(xùn)練文本中的比重,其中,|D|為全體訓(xùn)練文本數(shù)。
STEP THREE對(duì)于該類(lèi)中所有的詞,依據(jù)上面計(jì)算的互信息量排序。
STEP FOUR抽取一定數(shù)量的詞作為特征項(xiàng),具體需要抽取多少維的特征項(xiàng),目前無(wú)很好的解決方法,一般采用先定初始值,然后根據(jù)實(shí)驗(yàn)測(cè)試和統(tǒng)計(jì)結(jié)果確定最佳值,一般初始值定在幾千左右。
STEP FIVE將每類(lèi)中所有的訓(xùn)練文本,根據(jù)抽取的特征項(xiàng),進(jìn)行向量維數(shù)壓縮,精簡(jiǎn)向量表示。
其他抽取特征項(xiàng)的算法,除判斷函數(shù)上有所差別,主要過(guò)程類(lèi)似。訓(xùn)練方法和分類(lèi)算法協(xié)議識(shí)別系統(tǒng)的核心部分,目前存在多種基于向量空間模型的訓(xùn)練算法和分類(lèi)算法,例如,支持向量機(jī)算法、神經(jīng)網(wǎng)絡(luò)方法,最大平均熵方法,最近K鄰居方法和貝葉斯方法等等,本發(fā)明使用了KNN算法。
該算法的基本思路是在給定新文本后,考慮在訓(xùn)練文本集中與該新文本距離最近(最相似)的K篇文本,根據(jù)這K篇文本所屬的類(lèi)別判定新文本所屬的類(lèi)別,具體的算法步驟如下STEP ONE根據(jù)特征項(xiàng)集合重新描述訓(xùn)練文本向量STEP TWO在新文本到達(dá)后,根據(jù)特征詞分詞新文本,確定新文本的向量表示STEP THREE在訓(xùn)練文本集中選出與新文本最相似的K個(gè)文本,計(jì)算公式為Sim(di,dj)=Σk=1MWik×Wjk(Σk=1MWik2)(Σk=1MWjk2)]]>其中,K值的確定目前沒(méi)有很好的方法,一般采用先定一個(gè)初始值,然后根據(jù)實(shí)驗(yàn)測(cè)試的結(jié)果調(diào)整K值,一般初始值定為幾百到幾千之間。
STEP FOUR在新文本的K個(gè)鄰居中,依次計(jì)算每類(lèi)的權(quán)重,計(jì)算公式如下p(x→,Cj)=Σd→i∈KNNSim(x→,d→i)y(d→i,Cj)]]>其中, 為新文本的特征向量, 為相似度計(jì)算公式,與上一步驟的計(jì)算公式相同,而 為類(lèi)別屬性函數(shù),即,如果 屬于類(lèi)Cj,那么函數(shù)值為1,否則為0。
STEP FIVE比較類(lèi)的權(quán)重,將文本分到權(quán)重最大的那個(gè)類(lèi)別中。
測(cè)試數(shù)據(jù)在一個(gè)實(shí)際的網(wǎng)絡(luò)環(huán)境下測(cè)試我們的入侵檢測(cè)系統(tǒng)實(shí)現(xiàn)的協(xié)議識(shí)別技術(shù),并對(duì)其效率和結(jié)果進(jìn)行比較分析。
測(cè)試庫(kù)中回放的都是在實(shí)際網(wǎng)絡(luò)條件下DUMP的實(shí)際數(shù)據(jù)(都是開(kāi)放在非正常端口的協(xié)議),絕大部分采自電信骨干網(wǎng),還有部分來(lái)自我們自己的內(nèi)部網(wǎng)絡(luò)。所有的DUMP的連接都由專(zhuān)家事先進(jìn)行分類(lèi),按照協(xié)議分類(lèi)法分成遠(yuǎn)程登陸、文件傳輸、WEB訪(fǎng)問(wèn)、P2P等共38類(lèi)。本發(fā)明選擇訓(xùn)練集和測(cè)試集的方法如下將這些分好類(lèi)的網(wǎng)絡(luò)連接的DUMP包平均分成十份,選擇其中一份作為開(kāi)放測(cè)試集,剩余的九份作為訓(xùn)練集和封閉測(cè)試集。這樣每一份都依次輪流作為開(kāi)放測(cè)試集,運(yùn)行協(xié)議識(shí)別算法,共執(zhí)行10次分類(lèi)操作,計(jì)算其平均值,實(shí)驗(yàn)結(jié)果如下表所示
可以看到,本發(fā)明的協(xié)議識(shí)別技術(shù)已經(jīng)滿(mǎn)足了需求,協(xié)議識(shí)別的準(zhǔn)確率可以達(dá)到98%以上。
權(quán)利要求
1.一種入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品中的協(xié)議識(shí)別技術(shù),其特征是,所述協(xié)議識(shí)別技術(shù)包括訓(xùn)練過(guò)程方法和分類(lèi)過(guò)程方法,其中,所述的訓(xùn)練過(guò)程方法包括訓(xùn)練文本預(yù)處理、特征項(xiàng)抽取、訓(xùn)練文本再處理及銜接后續(xù)的構(gòu)造分類(lèi)器的步驟;所述的分類(lèi)過(guò)程方法包括新文本預(yù)處理、分類(lèi)和輸出的步驟。
2.根據(jù)權(quán)利要求1所述的一種入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品中的協(xié)議識(shí)別技術(shù),其特征是,所述訓(xùn)練過(guò)程方法中的特征項(xiàng)抽取步驟包括至少一種判斷特征項(xiàng)抽取標(biāo)準(zhǔn)的步驟過(guò)程,即,STEP ONE初始情況下,該特征項(xiàng)集合包含所有該類(lèi)中出現(xiàn)的詞;STEP TWO對(duì)于每個(gè)詞,計(jì)算詞和類(lèi)別的互信息量log(P(W|CJ)P(W))]]>其中,P(W|Cj)=1+Σi=1|D|N(W,di)|V|+Σs=1|V|Σi=1|D|N(Ws,di),]]>P(W|Cj)為W在Cj中出現(xiàn)的比重,|D|為該類(lèi)的訓(xùn)練文本數(shù),N(W,di)為詞W在di中的詞頻,|V|為總詞數(shù),Σs=1|V|Σi=1|D|N(Ws,di)]]>為該類(lèi)所有詞的詞頻和,其中,|D|為全體訓(xùn)練文本數(shù);STEP THREE對(duì)于該類(lèi)中所有的詞,依據(jù)上面計(jì)算的互信息量排序;STEP FOUR抽取一定數(shù)量的詞作為特征項(xiàng);STEP FIVE將每類(lèi)中所有的訓(xùn)練文本,根據(jù)抽取的特征項(xiàng),進(jìn)行向量維數(shù)壓縮,精簡(jiǎn)向量表示。
3.根據(jù)權(quán)利要求1所述的一種入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品中的協(xié)議識(shí)別技術(shù),其特征是,所述分類(lèi)過(guò)程方法中還包括評(píng)估文本分類(lèi)的準(zhǔn)確率、查全率及對(duì)兩者綜合評(píng)價(jià)的測(cè)試值的分析步驟其中,
4.根據(jù)權(quán)利要求3所述的一種入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品中的協(xié)議識(shí)別技術(shù),其特征是,所述評(píng)估文本分類(lèi)的準(zhǔn)確率、查全率及對(duì)兩者綜合評(píng)價(jià)的測(cè)試值的分析步驟中還包括建立向量空間模型來(lái)表示文本分類(lèi)的定義方法,即,(W1,W2,W3......Wn),其中Wi為第i個(gè)特征項(xiàng)的權(quán)重,其權(quán)重的定義是W(t,d→)=tf(t,d→)×log(N/nt+0.01)Σt∈d→[tf(t,d→)×log(N/nt+0.01)]2]]>其中, 為詞t在文本 中的權(quán)重,而 為詞t在文本 中的詞頻,N為訓(xùn)練文本的總數(shù),nt為訓(xùn)練文本集中出現(xiàn)t的文本數(shù),分母為歸一化因子。
全文摘要
本發(fā)明公開(kāi)了一種入侵檢測(cè)(保護(hù))產(chǎn)品與防火墻產(chǎn)品中的協(xié)議識(shí)別技術(shù),其中,所述協(xié)議識(shí)別技術(shù)包括訓(xùn)練過(guò)程方法和分類(lèi)過(guò)程方法,所述的訓(xùn)練過(guò)程方法包括訓(xùn)練文本預(yù)處理、特征項(xiàng)抽取、訓(xùn)練文本再處理及銜接后續(xù)的構(gòu)造分類(lèi)器的步驟;所述的分類(lèi)過(guò)程方法包括新文本預(yù)處理、分類(lèi)和輸出的步驟。該技術(shù)通過(guò)分析各種其在網(wǎng)絡(luò)中捕獲的數(shù)據(jù)流進(jìn)行協(xié)議分析,發(fā)現(xiàn)并阻斷其中的入侵行為而不需要查詢(xún)協(xié)議端口映射表或類(lèi)似數(shù)據(jù)文件且具有極高的協(xié)議識(shí)別準(zhǔn)確率。
文檔編號(hào)G06F17/16GK1612135SQ20031010229
公開(kāi)日2005年5月4日 申請(qǐng)日期2003年10月30日 優(yōu)先權(quán)日2003年10月30日
發(fā)明者陳學(xué)理 申請(qǐng)人:中聯(lián)綠盟信息技術(shù)(北京)有限公司