本發(fā)明涉及網(wǎng)絡(luò)安全
技術(shù)領(lǐng)域:
,具體而言,涉及一種網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取方法及裝置。
背景技術(shù):
:網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用種類繁多,實現(xiàn)過程復(fù)雜,且不同的應(yīng)用有不同的格式規(guī)范,上述原因?qū)е聭?yīng)用特征提取非常復(fù)雜?,F(xiàn)在一般是通過捕獲數(shù)據(jù)包工具(比如,wireshark,tcpdump等)采集數(shù)據(jù)包,然后通過人工查找的方式獲得應(yīng)用特征。然而隨著版本的更新、新應(yīng)用的不斷出現(xiàn),人工查找效率太低。目前對網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別的方法主要包括:端口識別、基于流量特性的識別及基于應(yīng)用層的特征的識別,但上述方法均存在一些不足。端口識別對于自定義的端口,適應(yīng)性較差?;诹髁刻匦缘淖R別的識別準確率低,并且在大的流量環(huán)境下不易統(tǒng)計流量特性?;趹?yīng)用層的特征的識別具有準確率高、識別效率高、易于維護等優(yōu)點,但是對新應(yīng)用適用性差,在出現(xiàn)新的應(yīng)用時需要重新更新特征,特征的自提取直接影響該方法的效率。因此,如何在基于應(yīng)用層的特征的識別方法中自動更新特征成為本領(lǐng)域技術(shù)人員急需解決的問題。技術(shù)實現(xiàn)要素:為了克服現(xiàn)有技術(shù)中的上述不足,本發(fā)明所要解決的技術(shù)問題是提供一種網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取方法及裝置,其能夠在采用基于應(yīng)用層的特征的識別方法時自動更新特征,提高應(yīng)用識別效率。本發(fā)明較佳實施例提供一種網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取方法,所述方法包括:從網(wǎng)絡(luò)應(yīng)用層的特征候選集中讀取待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的準特征值;基于讀取的準特征值對所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別,根據(jù)識別結(jié)果從所述特征候選集中提取與所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的應(yīng)用特征。本發(fā)明較佳實施例還提供一種網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取裝置,所述裝置包括:讀取模塊,用于從網(wǎng)絡(luò)應(yīng)用層的特征候選集中讀取待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的準特征值;特征提取模塊,用于基于讀取的準特征值對所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別,根據(jù)識別結(jié)果從所述特征候選集中提取與所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的應(yīng)用特征。相對于現(xiàn)有技術(shù)而言,本發(fā)明具有以下有益效果:本發(fā)明提供一種網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取方法及裝置。通過網(wǎng)絡(luò)應(yīng)用層的特征候選集獲得待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的準特征值。根據(jù)獲得的準特征值對所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別,得到一識別結(jié)果。依據(jù)所述識別結(jié)果從所述特征候選集中提取與所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的應(yīng)用特征。由此,在對待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別時,自動提取了待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的應(yīng)用特征,提高了應(yīng)用識別效率。為使發(fā)明的上述目的、特征和優(yōu)點能更明顯易懂,下文特舉本發(fā)明較佳實施例,并配合所附附圖,作詳細說明如下。附圖說明為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例中所需要使用的附圖作簡單地介紹,應(yīng)當理解,以下附圖僅示出了本發(fā)明的某些實施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。圖1為本發(fā)明較佳實施例提供的用戶終端的方框示意圖。圖2為本發(fā)明較佳實施例提供的網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取方法的一種流程示意圖。圖3為圖2中步驟s130包括的子步驟的流程示意圖。圖4為圖3中子步驟s134包括的部分子步驟的流程示意圖。圖5為圖3中子步驟s134包括的另一部分子步驟的流程示意圖。圖6為本發(fā)明較佳實施例提供的網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取方法的另一種流程示意圖。圖7為圖6中步驟s110包括的子步驟的流程示意圖。圖8為圖7中子步驟s112包括的子步驟的流程示意圖。圖9為本發(fā)明較佳實施例提供的網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取裝置的方框示意圖。圖標:100-用戶終端;110-存儲器;120-存儲控制器;130-處理器;200-特征提取裝置;220-讀取模塊;230-特征提取模塊;231-識別子模塊;232-處理子模塊。具體實施方式下面將結(jié)合本發(fā)明實施例中附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。通常在此處附圖中描述和示出的本發(fā)明實施例的組件可以以各種不同的配置來布置和設(shè)計。因此,以下對在附圖中提供的本發(fā)明的實施例的詳細描述并非旨在限制要求保護的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實施例?;诒景l(fā)明的實施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。應(yīng)注意到:相似的標號和字母在下面的附圖中表示類似項,因此,一旦某一項在一個附圖中被定義,則在隨后的附圖中不需要對其進行進一步定義和解釋。同時,在本發(fā)明的描述中,術(shù)語“第一”、“第二”等僅用于區(qū)分描述,而不能理解為指示或暗示相對重要性。下面結(jié)合附圖,對本發(fā)明的一些實施方式作詳細說明。在不沖突的情況下,下述的實施例及實施例中的特征可以相互組合。請參照圖1,圖1是本發(fā)明較佳實施例提供的用戶終端100的方框示意圖。在本實施例中,所述用戶終端100可以是,但不限于,個人電腦(personalcomputer,pc)、平板電腦等。所述用戶終端100包括:特征提取裝置200、存儲器110、存儲控制器120及處理器130。所述存儲器110、存儲控制器120及處理器130各元件之間直接或間接地電性連接,以實現(xiàn)數(shù)據(jù)的傳輸或交互。例如,這些元件相互之間可通過一條或多條通訊總線或信號線實現(xiàn)電性連接。存儲器110中存儲有特征提取裝置200,所述特征提取裝置200包括至少一個可以軟件或固件(firmware)的形式存儲于所述存儲器110中的軟件功能模塊。所述處理器130通過運行存儲在存儲器110內(nèi)的軟件程序以及模塊,如本發(fā)明實施例中的特征提取裝置200,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,即實現(xiàn)本發(fā)明實施例中的網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取方法。其中,所述存儲器110可以是,但不限于,隨機存取存儲器(randomaccessmemory,ram),只讀存儲器(readonlymemory,rom),可編程只讀存儲器(programmableread-onlymemory,prom),可擦除只讀存儲器(erasableprogrammableread-onlymemory,eprom),電可擦除只讀存儲器(electricerasableprogrammableread-onlymemory,eeprom)等。其中,存儲器110用于存儲程序,所述處理器130在接收到執(zhí)行指令后,執(zhí)行所述程序。所述處理器130以及其他可能的組件對存儲器110的訪問可在所述存儲控制器120的控制下進行。所述處理器130可能是一種集成電路芯片,具有信號的處理能力。上述的處理器130可以是通用處理器,包括中央處理器(centralprocessingunit,cpu)、網(wǎng)絡(luò)處理器(networkprocessor,np)等。還可以是數(shù)字信號處理器(dsp)、專用集成電路(asic)、現(xiàn)場可編程門陣列(fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件??梢詫崿F(xiàn)或者執(zhí)行本發(fā)明實施例中的公開的各方法、步驟及邏輯框圖。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等??梢岳斫?,圖1所示的結(jié)構(gòu)僅為示意,用戶終端100還可包括比圖1中所示更多或者更少的組件,或者具有與圖1所示不同的配置。圖1中所示的各組件可以采用硬件、軟件或其組合實現(xiàn)。請參照圖2,圖2是本發(fā)明較佳實施例提供的網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取方法的一種流程示意圖。圖2中的流程可以由所述處理器130實現(xiàn)。下面對網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取方法的具體流程進行詳細闡述。步驟s120,從網(wǎng)絡(luò)應(yīng)用層的特征候選集中讀取待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的準特征值。在本實施例中,通過已獲得的特征候選集讀取所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的準特征值。由于每種協(xié)議都有屬于自身與其它協(xié)議不同的特征字符串,這些特征字符串是該協(xié)議獨有的,而且在交互過程中出現(xiàn)的頻率頻繁。因此可以通過網(wǎng)絡(luò)應(yīng)用層數(shù)據(jù)獲取特征字符串,從而獲得由特征字符串組成的特征候選集,進而獲得待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的準特征值。網(wǎng)絡(luò)數(shù)據(jù)是指網(wǎng)絡(luò)應(yīng)用層上由網(wǎng)絡(luò)行為(比如,瀏覽網(wǎng)頁)產(chǎn)生的數(shù)據(jù)包。步驟s130,基于讀取的準特征值對所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別,根據(jù)識別結(jié)果從所述特征候選集中提取與所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的應(yīng)用特征。請參照圖3,圖3是圖2中步驟s130包括的子步驟的流程示意圖。所述步驟s130可以包括子步驟s131、子步驟s132、子步驟s133及子步驟s134。子步驟s131,根據(jù)準特征值對待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別,得到一識別率。在本實施例中,通過讀取的準特征值對所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別,得到的識別結(jié)果可以用識別率表示。子步驟s132,判斷所述識別率是否大于預(yù)設(shè)識別率閾值。在本實施例中,通過將設(shè)定的預(yù)設(shè)識別率閾值與所述識別率進行比較,判斷是否可以根據(jù)讀取的準特征值識別出對應(yīng)的待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用。其中,所述預(yù)設(shè)識別率閾值可以根據(jù)實際情況進行設(shè)定(比如,將所述預(yù)設(shè)識別率閾值設(shè)置在80%-90%之間)。在所述識別率大于預(yù)設(shè)識別率閾值時,執(zhí)行子步驟s133。子步驟s133,將所述準特征值對應(yīng)的應(yīng)用特征輸出。在本實施例中,當所述識別率不小于預(yù)設(shè)識別率閾值時,表征通過讀取的準特征值可以識別出對應(yīng)的所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用,則可以將所述準特征值對應(yīng)的應(yīng)用特征輸出,以實現(xiàn)應(yīng)用特征的自動提取。其中,應(yīng)用特征是指在網(wǎng)絡(luò)應(yīng)用層數(shù)據(jù)中頻繁出現(xiàn)并且具有位置特性的字節(jié)或者組合。而應(yīng)用特征提取就是從網(wǎng)絡(luò)應(yīng)用層數(shù)據(jù)中提取能夠代表該應(yīng)用的全部特征的集合。在所述識別率小于預(yù)設(shè)識別率閾值時,執(zhí)行子步驟s134。在本實施例中,當所述識別率小于預(yù)設(shè)識別率閾值時,表征通過讀取的準特征值不可以識別出對應(yīng)的所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用。因此,需要將讀取的準特征值中不是所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征值進行過濾,以對讀取的準特征值進行更新,從而得到可以識別所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的準特征值。子步驟s134,調(diào)整設(shè)定的最小支持度及設(shè)定的最小通用度使所述識別率大于所述預(yù)設(shè)識別率閾值,以得到應(yīng)用特征。特征候選集中的特征是通過關(guān)聯(lián)規(guī)則得到的,而關(guān)聯(lián)規(guī)則中存在支持度及信任度,信任度即上述通用度,因此可以通過調(diào)整設(shè)定的最小支持度及設(shè)定的最小通用度對提取的準特征值進行更新。關(guān)聯(lián)規(guī)則的定義是:假設(shè)i={i1,i2,...,im}是項的集合。給定一個交易數(shù)據(jù)庫,其中每個事務(wù)(transaction)t是i的非空子集,即,每一個交易都與唯一的標識符tid(transactionid)對應(yīng)。關(guān)聯(lián)規(guī)則在d中的支持度是d事務(wù)紅同時包含x、y的百分比,即概率。置信度是d事務(wù)已經(jīng)包含x的情況下,包含y的百分比,即條件概率。若滿足設(shè)定的最小支持度及設(shè)定的最小置信度,則認為關(guān)聯(lián)規(guī)則是有趣的。下面以舉例子的形式介紹支持度及置信度。tid網(wǎng)球拍網(wǎng)球運動鞋羽毛球111102110031000410105011161100上述表格是數(shù)據(jù)庫d,包含6個事務(wù)。項集i={網(wǎng)球拍,網(wǎng)球,運動鞋,羽毛球}。考慮關(guān)聯(lián)規(guī)則(頻繁二項集):網(wǎng)球拍與網(wǎng)球,事務(wù)1、2、3、4、6包含網(wǎng)球拍,事務(wù)1、2、6同時包含網(wǎng)球拍和網(wǎng)球,x^y=3,d=6,支持度(x^y)/d=0.5;x=5,置信度(x^y)/x=0.6。若設(shè)定的最小支持度α=0.5,設(shè)定的最小置信度β=0.6,認為購買網(wǎng)球拍和購買網(wǎng)球之間存在關(guān)聯(lián)。請參照圖4,圖4是圖3中子步驟s134包括的部分子步驟的流程示意圖。所述子步驟s134可以包括子步驟s1341及子步驟s1342。子步驟s1341,保持設(shè)定的最小通用度不變,將設(shè)定的最小支持度調(diào)整到下一個階度。在本實施例中,預(yù)先設(shè)定一最小通用度,在設(shè)定的最小通用度保持不變的情況下,調(diào)整設(shè)定的最小支持度。其中,最小支持度和最小通用度的設(shè)置直接決定特征候選集的規(guī)模,而準特征值是根據(jù)特征候選集獲得的,因此,通過調(diào)整最小支持度可以改變所述特征候選集的規(guī)模,從而得到可以識別出待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的準特征值。在設(shè)定初值的時候,要根據(jù)協(xié)議本身的特點進行設(shè)置。為了提高算法的準確性,一般選擇從大到小設(shè)置初值,最小通用度和最小支持度的初值都可以設(shè)置為0.5。在本實施例的實施方式中,預(yù)先設(shè)定最小通用度及最小支持度均為1,在設(shè)定的最小通用度保持不變的情況下,將設(shè)定的最小支持度依次減小0.1,從而將設(shè)定的最小支持度調(diào)整到下一個階度。子步驟s1342,根據(jù)調(diào)整后的最小支持度將所述準特征值中冗余的特征值進行濾出以更新準特征值,在更新后的準特征值對應(yīng)的識別率大于所述預(yù)設(shè)識別率閾值時,停止調(diào)整最小支持度,同時輸出更新后的準特征值對應(yīng)的應(yīng)用特征。在本實施例中,根據(jù)調(diào)整后的最小支持度減少與待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用無關(guān)的特征值,以對提取的準特征值進行更新,從而提高識別率。直到所述識別率不小于預(yù)設(shè)識別率閾值時,停止調(diào)整最小支持度,同時得到不小于預(yù)設(shè)識別率閾值的識別率對應(yīng)的應(yīng)用特征。請參照圖5,圖5是圖3中子步驟s134包括的另一部分子步驟的流程示意圖。所述子步驟s134還可以包括子步驟s1344及子步驟s1345。子步驟s1344,在將設(shè)定的最小支持度調(diào)整到最低階度,且所述識別率仍然小于所述預(yù)設(shè)識別率閾值時,將設(shè)定的最小通用度調(diào)整到下一個階度。在本實施例中,在保持設(shè)定的最小通用度不變,最小支持度調(diào)整到最低階度時,得到一準特征值。若通過所述準特征值對待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別得到的識別率仍然低于預(yù)設(shè)識別率閾值時,則對設(shè)定的最小通用度進行調(diào)整,從而得到可以識別待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的應(yīng)用特征。在本實施例的實施方式中,可以通過將設(shè)定的最小通用度依次減小0.1的方式,對設(shè)定的最小通用度進行調(diào)整。子步驟s1345,根據(jù)調(diào)整后的最小通用度將所述更新后的準特征值中冗余的特征值進行濾出以再次更新準特征值,在再次更新后的準特征值對應(yīng)的識別率大于所述預(yù)設(shè)識別率閾值時,停止調(diào)整最小通用度,同時輸出再次更新后的準特征值對應(yīng)的應(yīng)用特征。由此,通過對設(shè)定的最小支持度及設(shè)定的最小通用度進行調(diào)節(jié),自動提取應(yīng)用特征,減少人工參與,提高應(yīng)用特征的提取效率。請參照圖6,圖6是本發(fā)明較佳實施例提供的網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取方法的另一種流程示意圖。所述方法還可以包括步驟s110。步驟s110,從所述網(wǎng)絡(luò)應(yīng)用層獲得特征候選集。請參照圖7,圖7是圖6中步驟s110包括的子步驟的流程示意圖。所述步驟s110可以包括子步驟s112及子步驟s113。子步驟s112,設(shè)定最小支持度,并根據(jù)設(shè)定的最小支持度由網(wǎng)絡(luò)應(yīng)用層的會話數(shù)據(jù)獲得頻繁項集。在本實施例中,通過頻繁挖掘算法由網(wǎng)絡(luò)應(yīng)用層的會話數(shù)據(jù)得到頻繁項集。會話是指一次通信過程中從開始到結(jié)束所有發(fā)送和接受的數(shù)據(jù)包構(gòu)成的序列。頻繁挖掘算法通過逐層迭代,由低維到高維得到頻繁項集。并從得到的頻繁項集中找到關(guān)聯(lián)規(guī)則,可以通過增加關(guān)聯(lián)規(guī)則中的通用度的方式,消除在少數(shù)會話子集中出現(xiàn)的頻繁項,提高特征的普適性和挖掘效率。其中,由于關(guān)聯(lián)規(guī)則是在頻繁項集基礎(chǔ)上產(chǎn)生的,因而可以保證這些規(guī)則的支持度達到指定的水平,具有普遍性和令人信服的水平。請參照圖8,圖8是圖7中子步驟s112包括的子步驟的流程示意圖。所述子步驟s112可以包括子步驟s1121、子步驟s1122及子步驟s1123。子步驟s1121,掃描會話數(shù)據(jù),獲得支持度大于設(shè)定的最小支持度的字符長度為1的頻繁項子集。在本實施例中,對得到的會話數(shù)據(jù)進行掃描,得到所有字符長度為1且支持度大于設(shè)定的最小支持度的頻繁序列的集合。根據(jù)字符長度為1且支持度大于設(shè)定的最小支持度的頻繁序列的集合得到字符長度為1的頻繁子項集。子步驟s1122,從上一字符長度的頻繁項子集中獲取字符長度加1的頻繁項子集,直到不能根據(jù)已獲得的頻繁項子集獲得字符長度更長的頻繁項子集為止,以獲得字符長度最長的頻繁項子集。在本實施例中,根據(jù)字符長度為1的頻繁子項集獲得字符長度為2的候選序列,再從候選序列中查找出支持度大于設(shè)定的最小支持度的序列,將其列入字符長度為2的頻繁項子集。按照此方法由字符長度k獲取字符k+1長度的頻繁項子集。如此循環(huán),直到?jīng)]有更長的頻繁字串為止。子步驟s1123,由支持度大于設(shè)定的最小支持度的字符長度從1到字符長度最長對應(yīng)的頻繁項子集得到頻繁項集。子步驟s113,通過對所述頻繁項集進行過濾得到特征候選集。由于冗余項在會話數(shù)據(jù)中頻繁出現(xiàn),因此得到的頻繁項集中存在很多冗余項。而冗余項是不能作為應(yīng)用層的特征串,因此需按照過濾策略將所述頻繁項集中的冗余項進行濾除,以得到冗余項較少或者不含冗余項的特征候選集,從而在對待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別時,可以有效提高準確性。在本實施例中,所述過濾策略包括以下的任意一種或者之間的任意組合:在所述頻繁項集中同時包括子串及原串,且子串與原串出現(xiàn)的次數(shù)相同時,將所述子串濾除;或計算頻繁項在頻繁項集中的位置固定度,將所述位置固定度小于預(yù)設(shè)位置固定度對應(yīng)的頻繁項濾除;或?qū)⑺鲱l繁項集中與待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用無關(guān)的頻繁項濾除。在本實施例的實施方式中,由于子串的支持度不小于原串的支持度,子串的通用度不小于原串的通用度,因此可以通過支持度及通用度分辨子串及原串。其中,對于一個字符串變量,比如“adereegfbw”,它的子串就是像“ader”這樣可以從中找到的連續(xù)的字符串。字符串“adereegfbw”就是原串。根據(jù)支持度的定義公式,由集合x與集合y的項在同一條會話記錄中同時出現(xiàn)的次數(shù)/數(shù)據(jù)記錄的個數(shù),可以看出如果x是y的子串,且x的支持度是與y的支持度相等的,那么特征串y出現(xiàn)的次數(shù)和特征串x出現(xiàn)的次數(shù)就是相等的,這樣可以認為y出現(xiàn)時都包含了x,所以過濾掉x。如果x的支持度是大于y的支持度,保留x可以得到較高的識別率,保留y可以保證較低的誤報率,因此,在這種情況下,x和y都要保留。在本實施例的實施方式中,由于應(yīng)用特征項在會話中的位置比較固定,而冗余項的位置比較隨機,因此可以通過統(tǒng)計每個頻繁項在會話中的偏移量的大小來過濾冗余項。其中,頻繁項在會話中的偏移量的大小可以用位置固定度表示,位置固定度越大,對應(yīng)的頻繁項是應(yīng)用特征項的可能就越大。掃描頻繁項在每個報文中的位置,計算得到每個頻繁項的位置固定度。將得到的位置固定度與預(yù)設(shè)位置固定度進行比較。若一頻繁項的位置固定度小于預(yù)設(shè)位置固定度,表征該頻繁項極可能是冗余項,因此將該頻繁項濾除。若一頻繁項的位置固定度不小于預(yù)設(shè)位置固定度,表征該頻繁項在會話中的位置比較固定,極可能是應(yīng)用特征項,因此將該頻繁項保留。依照上述方法,可減少冗余項。在本實施例的實施方式中,還可以通過檢查頻繁項在其他應(yīng)用中是否出現(xiàn)過的方式減少冗余項。若一頻繁項在其他應(yīng)用中出現(xiàn),則將該頻繁項刪除。因為除了待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用之外還有很多網(wǎng)絡(luò)應(yīng)用,不可能把頻繁項和其他應(yīng)用的頻繁項全部進行比較,通常只抽取和待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用相近或者容易混淆的應(yīng)用。通過這種方式可最大程度地濾除冗余項。請參照圖9,圖9是本發(fā)明較佳實施例提供的網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取裝置200的方框示意圖。所述特征提取裝置200可以包括讀取模塊220及特征提取模塊230。讀取模塊220,用于從網(wǎng)絡(luò)應(yīng)用層的特征候選集中讀取待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的準特征值。在本實施例中,所述讀取模塊220用于執(zhí)行圖2中的步驟s120,關(guān)于所述讀取模塊220的具體描述可以參照步驟s120的描述。特征提取模塊230,用于基于讀取的準特征值對所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別,根據(jù)識別結(jié)果從所述特征候選集中提取與所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的應(yīng)用特征。所述特征提取模塊230可以包括:識別子模塊231,用于根據(jù)準特征值對待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別,得到一識別率;處理子模塊232,用于在所述識別率大于預(yù)設(shè)識別率閾值時,將所述準特征值對應(yīng)的應(yīng)用特征輸出;處理子模塊232,還用于在所述識別率小于預(yù)設(shè)識別率閾值時,通過調(diào)整設(shè)定的最小支持度及設(shè)定的最小通用度使所述識別率大于所述預(yù)設(shè)識別率閾值,以得到應(yīng)用特征。處理子模塊232在所述識別率小于預(yù)設(shè)識別率閾值時,通過調(diào)整設(shè)定的最小支持度及設(shè)定的最小通用度使所述識別率大于所述預(yù)設(shè)識別率閾值,以得到應(yīng)用特征的方式包括:保持設(shè)定的最小通用度不變,將設(shè)定的最小支持度調(diào)整到下一個階度;根據(jù)調(diào)整后的最小支持度將所述準特征值中冗余的特征值進行濾出以更新準特征值,在更新后的準特征值對應(yīng)的識別率大于所述預(yù)設(shè)識別率閾值時,停止調(diào)整最小支持度,同時輸出更新后的準特征值對應(yīng)的應(yīng)用特征。在本實施例中,所述特征提取模塊230用于執(zhí)行圖2中的步驟s130,關(guān)于所述特征提取模塊230的具體描述可以參照步驟s130的描述。綜上所述,本發(fā)明提供一種網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的特征提取方法及裝置。由待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的網(wǎng)絡(luò)應(yīng)用層的特征候選集獲得所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的準特征值。根據(jù)獲得的準特征值對所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別,得到識別結(jié)果。由識別結(jié)果從所述特征候選集中提取與所述待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用對應(yīng)的應(yīng)用特征。通過上述方法,在通過網(wǎng)絡(luò)應(yīng)用層的特征對待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用進行識別時,可以自動提取并更新特征,從而獲取待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的應(yīng)用特征,完成對待測網(wǎng)絡(luò)數(shù)據(jù)應(yīng)用的識別,提高應(yīng)用識別的效率。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。當前第1頁12