專利名稱:一種互聯(lián)網(wǎng)業(yè)務(wù)流特征的提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種互聯(lián)網(wǎng)業(yè)務(wù)流特征的提取方法,確切地說,涉及一種應(yīng)用于互聯(lián)網(wǎng)業(yè)務(wù)流上下文感知和深度包檢測特征字識別技術(shù)的特征提取方法,屬于hternet通信技術(shù)領(lǐng)域。
背景技術(shù):
下一代網(wǎng)絡(luò)能夠給用戶帶來豐富的業(yè)務(wù)體驗(yàn),但是,其龐大的網(wǎng)絡(luò)流量也給網(wǎng)絡(luò)管理人員及服務(wù)提供商帶來了巨大的挑戰(zhàn)。為了保證網(wǎng)絡(luò)安全和給用戶提供有服務(wù)質(zhì)量保障的業(yè)務(wù),電信運(yùn)營商對于網(wǎng)絡(luò)的可控性和可管性的需求也大大增加。流量識別技術(shù)是保障網(wǎng)絡(luò)可控性的基礎(chǔ),只有通過有效的流量識別,電信運(yùn)營商才能準(zhǔn)確把握網(wǎng)絡(luò)現(xiàn)狀,正確分析、理解并預(yù)測用戶的行為模式,保障網(wǎng)絡(luò)的安全性與可控性。傳統(tǒng)IP包的流量識別和QoS控制技術(shù),僅對IP包頭中的五元組信息進(jìn)行分析,以確定流量的基本信息。五元組信息是源地址、目的地址、源端口、目的端口和協(xié)議類型。傳統(tǒng)IP路由器也只是通過五元組獲得的信息來實(shí)現(xiàn)一定程度的流量識別和OoS保證,但是, 隨著網(wǎng)絡(luò)上應(yīng)用類型的不斷豐富,僅僅分析IP包的四層以下的內(nèi)容,已經(jīng)不能真正判斷流量中的業(yè)務(wù)類型,更不能判斷基于開放端口、隨機(jī)端口等方式進(jìn)行傳輸?shù)膽?yīng)用類型、或應(yīng)用的具體內(nèi)容特征。因此,目前流量識別技術(shù)領(lǐng)域應(yīng)用最廣泛的是利用深度包檢測DPI (De印I^cket Inspect)技術(shù)實(shí)現(xiàn)深度業(yè)務(wù)類型感知。利用深度包檢測技術(shù)可以實(shí)現(xiàn)對數(shù)據(jù)包OSI體系結(jié)構(gòu)的第2 7層的分析。DPI技術(shù)在獲取數(shù)據(jù)包基本信息的同時,還對多個相關(guān)數(shù)據(jù)包的應(yīng)用層協(xié)議頭和凈核進(jìn)行掃描,獲取存在于應(yīng)用層中的特征信息。通過與已存在的業(yè)務(wù)類型信息特征庫的匹配結(jié)果,以確定業(yè)務(wù)類型。然而,由于隨著互聯(lián)網(wǎng)新業(yè)務(wù)的日益增長,DPI技術(shù)不得不面臨處理日益增長的網(wǎng)絡(luò)流量和日益增多的業(yè)務(wù)類型兩個方面的挑戰(zhàn)。對于前者挑戰(zhàn),相關(guān)研究者已經(jīng)進(jìn)行了比較廣泛的研究。對于后者,由于目前僅僅依靠人工提取新型業(yè)務(wù)的特征,導(dǎo)致DPI設(shè)備對新型業(yè)務(wù)的更新和反映速度還遠(yuǎn)不盡如人意。綜上所述,因?yàn)槠錅?zhǔn)確性,基于DPI的技術(shù)仍然是運(yùn)營商最普遍采用的方式,但是,該方式針對新的協(xié)議反應(yīng)慢,如何能快速、自動地獲得協(xié)議的特征,已經(jīng)成為業(yè)內(nèi)科技人員關(guān)注的新課題,也是本發(fā)明所要解決的問題。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種互聯(lián)網(wǎng)業(yè)務(wù)流特征的提取方法,該方法是一種面向DPI針對互聯(lián)網(wǎng)流量負(fù)載來提取特征,用于幫助網(wǎng)絡(luò)管理者能夠方便、快捷、準(zhǔn)確地分析和感知新型業(yè)務(wù),并為網(wǎng)絡(luò)管理者更好更快地管理DPI設(shè)備提供一種輔助的自動機(jī)制,從而為互聯(lián)網(wǎng)流量感知設(shè)備與網(wǎng)絡(luò)研究人員和管理者提供判斷依據(jù)。為了達(dá)到上述發(fā)明目的,本發(fā)明提供了一種互聯(lián)網(wǎng)業(yè)務(wù)流特征的提取方法,其特征在于先設(shè)置分布式多個流量采集器,用于獲取、選擇和提純原始數(shù)據(jù)樣本,再上傳并存儲于流量數(shù)據(jù)服務(wù)器;流量特征提取器在已經(jīng)獲得的純凈數(shù)據(jù)基礎(chǔ)上,提取或生成網(wǎng)絡(luò)業(yè)務(wù)流量特征,并建立業(yè)務(wù)流特征庫,以便管理和維護(hù)業(yè)務(wù)流特征;流量特征提取器還要選擇適宜的業(yè)務(wù)流特征,以輔助研究人員或網(wǎng)絡(luò)管理者進(jìn)一步分析,并提供給DPI設(shè)備利用;所述方法包括如下三個操作步驟(1)提取特征前的準(zhǔn)備操作獲取、選擇和提純業(yè)務(wù)流量的數(shù)據(jù)樣本;(2)提取特征流量特征提取器生成業(yè)務(wù)流特征,并維護(hù)業(yè)務(wù)流特征庫;(3)提取特征后的整理操作流量特征提取器選擇和優(yōu)化所提取的業(yè)務(wù)流特征, 以供深度包檢測DPI (De印Packet Inspect)設(shè)備使用。本發(fā)明方法與現(xiàn)有技術(shù)進(jìn)行比較,主要有下述兩方面的不同與改進(jìn)(一 )待分析數(shù)據(jù)集和標(biāo)準(zhǔn)數(shù)據(jù)集的生成與提純方法,即前期處理方法本發(fā)明首次提出利用分布式多個數(shù)據(jù)采集器同時采集本機(jī)流量和本機(jī)運(yùn)行信息的方式來生成數(shù)據(jù)集,由于同時利用了已有DPI設(shè)備的識別結(jié)果和采用聚類匯聚方法,最大限度地在沒有人為輔助分析的前提下,有效刪除了待分析數(shù)據(jù)集的噪聲(即包含的非待分析應(yīng)用程序流量)。這種綜合型的數(shù)據(jù)生成算法克服了純手工生成基準(zhǔn)數(shù)據(jù)集的繁瑣,同時大大提高了以往現(xiàn)有技術(shù)中單一地利用本機(jī)運(yùn)行信息或已有DPI設(shè)備識別結(jié)果的局限性。(二)特征庫的維護(hù)方法本發(fā)明的最大創(chuàng)新是提出一種基于無回路有向圖的特征庫維護(hù)方法。該方法能夠有效維護(hù)多個應(yīng)用程序的業(yè)務(wù)流特征,并動態(tài)地根據(jù)不同參數(shù)為DPI設(shè)備優(yōu)化所選擇的業(yè)務(wù)流特征。同時,通過圖中節(jié)點(diǎn)的關(guān)系映射,可以反映出各個不同業(yè)務(wù)流特征之間的包容關(guān)系,尤其能夠描述多個特征在同一類型業(yè)務(wù)中同時出現(xiàn)的情況,同時還可以表述多個特征在同一條業(yè)務(wù)流中的特征序列特點(diǎn)。因此,本發(fā)明方法填補(bǔ)了以往針對網(wǎng)絡(luò)業(yè)務(wù)流量進(jìn)行特征提取的研究中特征維護(hù)的空白??傊?,本發(fā)明具有很好的推廣應(yīng)用前景。
圖1是本發(fā)明互聯(lián)網(wǎng)業(yè)務(wù)流特征的提取方法的操作步驟示意圖。圖2是本發(fā)明方法在校園網(wǎng)中實(shí)施試驗(yàn)的實(shí)際部署系統(tǒng)示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面結(jié)合附圖和實(shí)施例對本發(fā)明作進(jìn)一步的詳細(xì)描述。本發(fā)明是一種互聯(lián)網(wǎng)業(yè)務(wù)流特征的提取方法先設(shè)置分布式多個流量采集器,用于獲取、選擇和提純原始數(shù)據(jù)樣本,再上傳并存儲于流量數(shù)據(jù)服務(wù)器;流量特征提取器在已經(jīng)獲得的純凈數(shù)據(jù)基礎(chǔ)上,提取或生成網(wǎng)絡(luò)業(yè)務(wù)流量特征,并建立業(yè)務(wù)流特征庫,以便管理和維護(hù)業(yè)務(wù)流特征;流量特征提取器還要選擇適宜的業(yè)務(wù)流特征,以輔助研究人員或網(wǎng)絡(luò)管理者進(jìn)一步分析,并提供給DPI設(shè)備利用。參見圖1,介紹本發(fā)明方法的三個具體操作步驟步驟1,提取特征前的準(zhǔn)備操作獲取、選擇和提純業(yè)務(wù)流量的數(shù)據(jù)樣本。該步驟1 包括下列操作內(nèi)容
(11)獲取數(shù)據(jù)樣本在網(wǎng)絡(luò)中分布式設(shè)置多個流量采集器、即運(yùn)行流量采集客戶端程序的Windows PC機(jī),用于采集待研究的網(wǎng)絡(luò)流量及其系統(tǒng)運(yùn)行的五元組和進(jìn)程名,同時還采集該P(yáng)C機(jī)自身產(chǎn)生的流量;然后,該多個流量采集器將其抓取的網(wǎng)絡(luò)流量IP數(shù)據(jù)包及其五元組、進(jìn)程名上傳到流量數(shù)據(jù)服務(wù)器。(12)選擇數(shù)據(jù)樣本流量數(shù)據(jù)服務(wù)器根據(jù)進(jìn)程名和已有DPI設(shè)備的識別結(jié)果對每條業(yè)務(wù)流進(jìn)行標(biāo)記識別,并分離出待分析業(yè)務(wù)流的數(shù)據(jù)作為待分析數(shù)據(jù)集M(其為本發(fā)明方法的研究對象,即網(wǎng)絡(luò)特征研究人員感興趣的應(yīng)用程序所產(chǎn)生的流量,其為單一應(yīng)用程序產(chǎn)生的業(yè)務(wù)流量數(shù)據(jù)的集合),以及不包含待分析業(yè)務(wù)流的數(shù)據(jù)作為背景數(shù)據(jù)集N、即標(biāo)準(zhǔn)數(shù)據(jù)集(它是除了網(wǎng)絡(luò)特征研究人員感興趣的應(yīng)用程序以外的、所有其他應(yīng)用程序產(chǎn)生的網(wǎng)絡(luò)流量的集合)。(13)提純數(shù)據(jù)樣本流量數(shù)據(jù)服務(wù)器先計算每條業(yè)務(wù)流的統(tǒng)計屬性特征,然后根據(jù)統(tǒng)計屬性利用K-Mean聚類算法對采集的業(yè)務(wù)流中待分析數(shù)據(jù)集M進(jìn)行初步匯聚,以保障其中的待分析業(yè)務(wù)流是單一應(yīng)用程序同一類型的網(wǎng)絡(luò)業(yè)務(wù)。步驟2,提取特征流量特征提取器生成業(yè)務(wù)流特征,并維護(hù)業(yè)務(wù)流特征庫。該步驟2包括下列操作內(nèi)容(21)生成業(yè)務(wù)流特征流量特征提取器利用后綴矩陣從待分析數(shù)據(jù)集M中的待分析業(yè)務(wù)流中提取或生成可變長度的字符串Token,以便基于Token方法將該待分析業(yè)務(wù)流中出現(xiàn)次數(shù)大于設(shè)定閾值的所有Token提取出來,再利用貪婪算法選擇其中長度最大和出現(xiàn)最頻繁的多個Tokens,作為業(yè)務(wù)流特征輸出。本發(fā)明中的Token是長度大于1字節(jié)、且在待分析業(yè)務(wù)流量中頻繁出現(xiàn)的不固定長度的字符串,每個Token都有可能對應(yīng)于待分析業(yè)務(wù)流中的一個特征片段。(22)維護(hù)業(yè)務(wù)流特征因DPI設(shè)備需要維護(hù)多達(dá)上百個應(yīng)用程序的業(yè)務(wù)流特征, 而每個應(yīng)用程序都與一個待分析數(shù)據(jù)集M相對應(yīng),故流量特征提取器必須采用無回路有向圖的方法建立業(yè)務(wù)流特征庫,以便能夠同時維護(hù)多個應(yīng)用程序的多個業(yè)務(wù)流特征;該步驟的操作是與上述步驟同時進(jìn)行的。該步驟中的無回路有向圖是本發(fā)明方法的首創(chuàng),包括下列操作內(nèi)容(22a)先將每次經(jīng)由步驟Ql)生成的業(yè)務(wù)流特征、即多個Tokens隊(duì)列按照其字符串長度多少進(jìn)行升序排序,生成一個待處理的業(yè)務(wù)流特征序列;(22a)因步驟Ql)生成的Tokens的字符串長度至少為2,故先建立字符串長度為 1,特征值為“*”的節(jié)點(diǎn)Root作為無回路有向圖的根節(jié)點(diǎn);再將該多個Tokens隊(duì)列中的每個Token依據(jù)下述四個判斷條件分別插入到一個有向無環(huán)圖的業(yè)務(wù)流特征庫SigDAG中;該四個判斷條件是每個Token分別在待分析數(shù)據(jù)集M和背景數(shù)據(jù)集N中出現(xiàn)的比例、其在待分析數(shù)據(jù)集M中分別位于不同包位置的統(tǒng)計量,以及根據(jù)特征黑名單將冗余的業(yè)務(wù)流特征進(jìn)行刪除或過濾;(22c)插入新特征時,若SigDAG中已經(jīng)有節(jié)點(diǎn)跟該待插入的Token字符串長度及內(nèi)容都相同,則將該待插入的Token與其攜帶的應(yīng)用程序信息合并到該節(jié)點(diǎn)中;若未找到已有節(jié)點(diǎn),則先遍歷SigDAG,直到找到其字符串長度小于該業(yè)務(wù)流特征序列、且已有節(jié)點(diǎn)的業(yè)務(wù)流特征已經(jīng)包含于該Token的最深節(jié)點(diǎn),然后將該Token作為該節(jié)點(diǎn)的子節(jié)點(diǎn)插入;(22d)按照從小到大的升序排列,將待處理業(yè)務(wù)流特征序列中的各個特征Token按照步驟(22a)插入到以Root為根節(jié)點(diǎn)的無回路有向圖,從而生成一個業(yè)務(wù)流特征圖,用于維護(hù)業(yè)務(wù)流特征庫。步驟3,提取特征后的整理操作流量特征提取器選擇和優(yōu)化所提取的業(yè)務(wù)流特征,以供深度包檢測DPI (De印Packet Inspect)設(shè)備使用。該步驟3包括下列操作內(nèi)容(31)流量特征提取器對業(yè)務(wù)流特征圖、即無回路有向圖進(jìn)行線索化處理,用于說明各個業(yè)務(wù)流特征之間的關(guān)聯(lián);(32)因在特征庫生成過程中指定了若干個特征選擇參數(shù),故在生成特征庫時就已經(jīng)完成部分特征的選擇和優(yōu)化;流量特征提取器先統(tǒng)計待分析數(shù)據(jù)集M中每條業(yè)務(wù)流中出現(xiàn)業(yè)務(wù)流特征庫SigDAG中的每個不同特征Token的出現(xiàn)次數(shù),再在SigDAG建立這些不同特征Tokens之間的鏈接,最后只需要將線索化的有向無環(huán)圖特征庫、即無回路有向圖中維護(hù)的各個不同特征Tokens輸出,以供DPI設(shè)備使用。本發(fā)明已經(jīng)進(jìn)行了多次實(shí)施試驗(yàn),圖2就是申請人在北郵校園網(wǎng)內(nèi)進(jìn)行實(shí)施試驗(yàn)的系統(tǒng)網(wǎng)絡(luò)架構(gòu)示意圖。實(shí)驗(yàn)結(jié)果表明,本發(fā)明方法是成功的,實(shí)現(xiàn)了發(fā)明目的。以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明保護(hù)的范圍之內(nèi)。
權(quán)利要求
1.一種互聯(lián)網(wǎng)業(yè)務(wù)流特征的提取方法,其特征在于先設(shè)置分布式多個流量采集器, 用于獲取、選擇和提純原始數(shù)據(jù)樣本,再上傳并存儲于流量數(shù)據(jù)服務(wù)器;流量特征提取器在已經(jīng)獲得的純凈數(shù)據(jù)基礎(chǔ)上,提取或生成網(wǎng)絡(luò)業(yè)務(wù)流量特征,并建立業(yè)務(wù)流特征庫,以便管理和維護(hù)業(yè)務(wù)流特征;流量特征提取器還要選擇適宜的業(yè)務(wù)流特征,以輔助研究人員或網(wǎng)絡(luò)管理者進(jìn)一步分析,并提供給DPI設(shè)備利用;所述方法包括如下三個操作步驟(1)提取特征前的準(zhǔn)備操作獲取、選擇和提純業(yè)務(wù)流量的數(shù)據(jù)樣本;(2)提取特征流量特征提取器生成業(yè)務(wù)流特征,并維護(hù)業(yè)務(wù)流特征庫;(3)提取特征后的整理操作流量特征提取器選擇和優(yōu)化所提取的業(yè)務(wù)流特征,以供深度包檢測DPI (De印Packet Inspect)設(shè)備使用。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(1)包括下列操作內(nèi)容(11)獲取數(shù)據(jù)樣本在網(wǎng)絡(luò)中分布式設(shè)置多個流量采集器、即運(yùn)行流量采集客戶端程序的Windows PC機(jī),用于采集待研究的網(wǎng)絡(luò)流量及其系統(tǒng)運(yùn)行的五元組和進(jìn)程名,同時還采集該P(yáng)C機(jī)自身產(chǎn)生的流量;然后,該多個流量采集器將其抓取的網(wǎng)絡(luò)流量IP數(shù)據(jù)包及其五元組、進(jìn)程名上傳到流量數(shù)據(jù)服務(wù)器;(12)選擇數(shù)據(jù)樣本流量數(shù)據(jù)服務(wù)器根據(jù)進(jìn)程名和已有DPI設(shè)備的識別結(jié)果對每條業(yè)務(wù)流進(jìn)行標(biāo)記識別,并分離出待分析業(yè)務(wù)流的數(shù)據(jù)作為待分析數(shù)據(jù)集M,以及不包含待分析業(yè)務(wù)流的數(shù)據(jù)作為背景數(shù)據(jù)集N、即標(biāo)準(zhǔn)數(shù)據(jù)集;(13)提純數(shù)據(jù)樣本流量數(shù)據(jù)服務(wù)器先計算每條業(yè)務(wù)流的統(tǒng)計屬性特征,然后根據(jù)統(tǒng)計屬性利用K-Mean聚類算法對采集的業(yè)務(wù)流中待分析數(shù)據(jù)集M進(jìn)行初步匯聚,以保障其中的待分析業(yè)務(wù)流是單一應(yīng)用程序同一類型的網(wǎng)絡(luò)業(yè)務(wù)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于所述待分析數(shù)據(jù)集M是網(wǎng)絡(luò)特征研究人員感興趣的應(yīng)用程序所產(chǎn)生的流量,即所述方法的研究對象,其為單一應(yīng)用程序產(chǎn)生的業(yè)務(wù)流量數(shù)據(jù)的集合;所述背景數(shù)據(jù)集N是除了網(wǎng)絡(luò)特征研究人員感興趣的應(yīng)用程序以外的、所有其他應(yīng)用程序產(chǎn)生的網(wǎng)絡(luò)流量的集合。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(2)包括下列操作內(nèi)容(21)生成業(yè)務(wù)流特征流量特征提取器利用后綴矩陣從待分析數(shù)據(jù)集M中的待分析業(yè)務(wù)流中提取或生成可變長度的字符串Token,以便基于Token方法將該待分析業(yè)務(wù)流中出現(xiàn)次數(shù)大于設(shè)定閾值的所有Token提取出來,再利用貪婪算法選擇其中長度最大和出現(xiàn)最頻繁的多個Tokens,作為業(yè)務(wù)流特征輸出;(22)維護(hù)業(yè)務(wù)流特征因DPI設(shè)備需要維護(hù)多達(dá)上百個應(yīng)用程序的業(yè)務(wù)流特征,而每個應(yīng)用程序都與一個待分析數(shù)據(jù)集M相對應(yīng),故流量特征提取器必須采用無回路有向圖的方法建立業(yè)務(wù)流特征庫,以便能夠同時維護(hù)多個應(yīng)用程序的多個業(yè)務(wù)流特征;該步驟的操作是與上述步驟同時進(jìn)行的。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于所述Token是長度大于1字節(jié)、且在待分析業(yè)務(wù)流量中頻繁出現(xiàn)的不固定長度的字符串,每個Token都有可能對應(yīng)于待分析業(yè)務(wù)流中的一個特征片段。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于所述步驟0 中的無回路有向圖的方法包括下列操作內(nèi)容(22a)先將每次經(jīng)由步驟生成的業(yè)務(wù)流特征、即多個Tokens隊(duì)列按照其字符串長度多少進(jìn)行升序排序,生成一個待處理的業(yè)務(wù)流特征序列;(22a)因步驟生成的Tokens的字符串長度至少為2,故先建立字符串長度為1, 特征值為“*”的節(jié)點(diǎn)Root作為無回路有向圖的根節(jié)點(diǎn);再將該多個Tokens隊(duì)列中的每個 Token依據(jù)下述四個判斷條件分別插入到一個有向無環(huán)圖的業(yè)務(wù)流特征庫SigDAG中;該四個判斷條件是每個Token分別在待分析數(shù)據(jù)集M和背景數(shù)據(jù)集N中出現(xiàn)的比例、其在待分析數(shù)據(jù)集M中分別位于不同包位置的統(tǒng)計量,以及根據(jù)特征黑名單將冗余的業(yè)務(wù)流特征進(jìn)行刪除或過濾;(22c)插入新特征時,若SigDAG中已經(jīng)有節(jié)點(diǎn)跟該待插入的Token字符串長度及內(nèi)容都相同,則將該待插入的"Token與其攜帶的應(yīng)用程序信息合并到該節(jié)點(diǎn)中;若未找到已有節(jié)點(diǎn),則先遍歷SigDAG,直到找到其字符串長度小于該業(yè)務(wù)流特征序列、且已有節(jié)點(diǎn)的業(yè)務(wù)流特征已經(jīng)包含于該Token的最深節(jié)點(diǎn),然后將該Token作為該節(jié)點(diǎn)的子節(jié)點(diǎn)插入;(22d)按照從小到大的升序排列,將待處理業(yè)務(wù)流特征序列中的各個特征Token按照步驟(22a)插入到以Root為根節(jié)點(diǎn)的無回路有向圖,從而生成一個業(yè)務(wù)流特征圖,用于維護(hù)業(yè)務(wù)流特征庫。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于所述步驟(3)包括下列操作內(nèi)容(31)流量特征提取器對業(yè)務(wù)流特征圖、即無回路有向圖進(jìn)行線索化處理,用于說明各個業(yè)務(wù)流特征之間的關(guān)聯(lián);(32)因在特征庫生成過程中指定了若干個特征選擇參數(shù),故在生成特征庫時就已經(jīng)完成部分特征的選擇和優(yōu)化;流量特征提取器先統(tǒng)計待分析數(shù)據(jù)集M中每條業(yè)務(wù)流中出現(xiàn)業(yè)務(wù)流特征庫SigDAG中的每個不同特征Token的出現(xiàn)次數(shù),再在SigDAG建立這些不同特征 Tokens之間的鏈接,最后只需要將線索化的有向無環(huán)圖特征庫、即無回路有向圖中維護(hù)的各個不同特征Tokens輸出,以供DPI設(shè)備使用。
全文摘要
一種互聯(lián)網(wǎng)業(yè)務(wù)流特征的提取方法,是先設(shè)置分布式多個流量采集器,用于獲取、選擇和提純原始數(shù)據(jù)樣本,再上傳并存儲于流量數(shù)據(jù)服務(wù)器;流量特征提取器在已經(jīng)獲得的純凈數(shù)據(jù)基礎(chǔ)上,提取或生成網(wǎng)絡(luò)業(yè)務(wù)流量特征,并建立業(yè)務(wù)流特征庫,以便管理和維護(hù)業(yè)務(wù)流特征;流量特征提取器還要選擇適宜的業(yè)務(wù)流特征,以輔助研究人員或網(wǎng)絡(luò)管理者進(jìn)一步分析,并提供給DPI設(shè)備利用。該方法在待分析數(shù)據(jù)集和標(biāo)準(zhǔn)數(shù)據(jù)集的生成與提純方法和特征庫的維護(hù)方法都有創(chuàng)新改進(jìn),且操作簡單、容易,既能有效維護(hù)和動態(tài)優(yōu)化選擇多個應(yīng)用程序的業(yè)務(wù)流特征,還可反映不同業(yè)務(wù)流特征之間的包容關(guān)系和表述多個特征在同一業(yè)務(wù)流中的特征序列特點(diǎn),具有很好的推廣應(yīng)用前景。
文檔編號H04L12/24GK102420701SQ20111038366
公開日2012年4月18日 申請日期2011年11月28日 優(yōu)先權(quán)日2011年11月28日
發(fā)明者吳軍, 林昭文, 王振華, 田旭, 蘇玉潔, 趙欽, 馬嚴(yán), 黃小紅 申請人:北京郵電大學(xué)