通過主動學習方法構建互聯(lián)網應用特征識別數據庫的方法及系統(tǒng)的制作方法
【技術領域】
[0001]本發(fā)明涉及智能管道技術領域,尤其涉及一種通過主動學習方法構建互聯(lián)網應用特征識別數據庫的方法及系統(tǒng)。
【背景技術】
[0002]應用特征識別在智能管道、網絡安全等領域應用很廣,一般通過調用應用特征庫對流經的數據流量進行識別,但由于互聯(lián)網應用協(xié)議變化比較大而且有相當多的應用并不遵循RFC等標準要求,因此應用特征庫如果不能快速更新就直接用于識別應用時,識別率不尚。
[0003]現(xiàn)有技術中,應用特征庫均是通過人工整理方法給出的,由于技術的差異,在使用深度包檢測功能時,都存在著更新應用特征庫慢、不能檢測出所有的應用流量等問題。
【發(fā)明內容】
[0004]本發(fā)明為克服上述現(xiàn)有技術所述的至少一種缺陷(不足),首先提出一種通過主動學習方法構建互聯(lián)網應用特征識別數據庫的方法。該方法對互聯(lián)網中應用的特征可實現(xiàn)動態(tài)的學習,具有操作靈活,可擴展性好,部署容易的特點,應用特征數據庫中的特征數據具有實時性,實現(xiàn)一點構建,全網通用。
[0005]本發(fā)明還提出一種通過主動學習方法構建互聯(lián)網應用特征識別數據庫的系統(tǒng)。
[0006]為了實現(xiàn)上述目的,本發(fā)明的技術方案如下:
一種通過主動學習方法構建互聯(lián)網應用特征識別數據庫的方法,包括以下步驟:
1)樣本獲取:在互聯(lián)網上部署模擬器,模擬器安裝模擬訪問指定的互聯(lián)網應用的軟件,按預先定義的軟件向互聯(lián)網應用發(fā)起主動訪問,獲取應用運行時的協(xié)議交互過程,然后通過報文的捉取模塊,獲取應用運行過程中協(xié)議報文固定的標志位字段,提取報文固定特征位生成對互聯(lián)網應用的交互特征樣本;
2)訓練學習:通過機器學習方法對訓練樣本訓練學習,得到互聯(lián)網應用特征模型;
3)生成特征庫:利用特征模型對模擬器采集的后續(xù)報文進行處理,將實時得到的應用特征條目寫入/更新特征數據庫。
[0007]本發(fā)明公開的通過主動學習方法構建應用特征識別數據庫的方法,通過模擬的虛擬客戶端,向真實的互聯(lián)網應用發(fā)起交互訪問,獲取協(xié)議交互特征,再通過協(xié)議特征提取單元,將協(xié)議交互特征轉化為應用特征記錄,并寫入應用特征識別數據庫。本發(fā)明對互聯(lián)網應用的特征可實現(xiàn)動態(tài)的學習,操作靈活,可擴展性好,部署容易,應用特征數據庫中的特征數據具有實時性,實現(xiàn)一點構建,全網通用。
[0008]優(yōu)選的,所述步驟1)中獲取的應用特征包括IP地址、URL、端口和元素。
[0009]—種通過主動學習方法構建互聯(lián)網應用特征識別數據庫的系統(tǒng),其特征在于,包括模擬器主動訪問單元、樣本生成單元、機器學習單元和流處理單元; 所述模擬器主動訪問單元:虛擬機中集成有互聯(lián)網協(xié)議訪問工具,模擬用戶的訪問行為對互聯(lián)網應用網站進行訪問,并處理互聯(lián)網網站返回的結果;
所述樣本生成單元:用于監(jiān)聽虛擬機主動訪問單元與互聯(lián)網應用之間交互的數據報文,按照預先定義的特征數據提取規(guī)則,提取出數據報文中固定的標志位字段中的關鍵特征信息,生成對互聯(lián)網應用的交互特征樣本;
所述機器學習單元,通過機器學習方法對訓練樣本訓練學習,得到互聯(lián)網應用特征模型。
[0010]所述流處理單元:利用特征模型對模擬器采集的后續(xù)報文進行處理,將實時得到的應用特征條目寫入/更新特征數據庫。
[0011]與現(xiàn)有技術相比,本發(fā)明技術方案的有益效果是:
本發(fā)明提出的特征采集是采用部署在互聯(lián)網上的的模擬器實現(xiàn),與現(xiàn)有采集端無關,生成的特征數據庫可直接替換現(xiàn)有特征庫或者插入現(xiàn)有特征庫供識別設備使用。本發(fā)明還可作為第三方數據庫提供給運營商網內的應用識別設備使用,能夠幫助運營商區(qū)分傳輸管道內傳輸的各類互聯(lián)網應用分布的情況、帶寬占用等情況,從而幫助運營商制定更加合理的流量套餐;可以為客戶提供個性化的增值服務,幫助客戶分析其購買帶寬的利用情況,幫助客戶減少在流量分析、網絡管理及網絡安全方面的投資。
【附圖說明】
[0012]圖1為采用本發(fā)明方法實現(xiàn)應用特征庫自動構建的示意圖。
[0013]圖2為本發(fā)明系統(tǒng)的結構示意圖。
【具體實施方式】
[0014]附圖僅用于示例性說明,不能理解為對本專利的限制;為了更好說明本實施例,附圖某些部件會有省略、放大或縮小,并不代表實際產品的尺寸;
對于本領域技術人員來說,附圖中某些公知結構及其說明可能省略是可以理解的。下面結合附圖和實施例對本發(fā)明的技術方案做進一步的說明。
[0015]如圖1,一種通過主動學習方法構建互聯(lián)網應用特征識別數據庫的方法,包括以下步驟:
1)樣本獲取:在互聯(lián)網上部署模擬器,模擬器安裝模擬訪問指定的互聯(lián)網應用的軟件,按預先定義的軟件向互聯(lián)網應用發(fā)起主動訪問,獲取應用運行時的協(xié)議交互過程,然后通過報文的捉取模塊,獲取應用運行過程中協(xié)議報文固定的標志位字段,提取報文固定特征位生成對互聯(lián)網應用的交互特征樣本;
2)訓練學習:通過機器學習方法對訓練樣本訓練學習,得到互聯(lián)網應用特征模型;
3)生成特征庫:利用特征模型對模擬器采集的后續(xù)報文進行處理,將實時得到的應用特征條目寫入/更新特征數據庫。
[0016]本發(fā)明公開的通過主動學習方法構建應用特征識別數據庫的方法,通過模擬的虛擬客戶端,向真實的互聯(lián)網應用發(fā)起交互訪問,獲取協(xié)議交互特征,再通過協(xié)議特征提取單元,將協(xié)議交互特征轉化為應用特征記錄,并寫入應用特征識別數據庫。本發(fā)明對互聯(lián)網應用的特征可實現(xiàn)動態(tài)的學習,操作靈活,可擴展性好,部署容易,應用特征數據庫中的特征數據具有實時性,實現(xiàn)一點構建,全網通用。
[0017]如圖2,一種通過主動學習方法構建互聯(lián)網應用特征識別數據庫的系統(tǒng),其特征在于,包括模擬器主動訪問單元、樣本生成單元、機器學習單元和流處理單元;
所述模擬器主動訪問單元:虛擬機中集成有互聯(lián)網協(xié)議訪問工具,模擬用戶的訪問行為對互聯(lián)網應用網站進行訪問,并處理互聯(lián)網網站返回的結果;
所述樣本生成單元:用于監(jiān)聽虛擬機主動訪問單元與互聯(lián)網應用之間交互的數據報文,按照預先定義的特征數據提取規(guī)則,提取出數據報文中固定的標志位字段中的關鍵特征信息,生成對互聯(lián)網應用的交互特征樣本;
所述機器學習單元,通過機器學習方法對訓練樣本訓練學習,得到互聯(lián)網應用特征模型。
[0018]所述流處理單元:利用特征模型對模擬器采集的后續(xù)報文進行處理,將實時得到的應用特征條目寫入/更新特征數據庫。
[0019]本發(fā)明提出的特征采集是采用部署在互聯(lián)網上的的虛擬機實現(xiàn),與現(xiàn)有采集端無關,生成的特征數據庫可直接替換現(xiàn)有特征庫或者插入現(xiàn)有特征庫供識別設備使用。
[0020]目前由于DPI技術在網絡上大量使用,對應用識別準確性要求越來越高了,目前采用特征庫匹配的DPI設備占據大多數,大部分設備需要更新特征庫來保證設備具備高的識別準確性,否則,會因為互聯(lián)網應用協(xié)議的變化而導致識別率下降,因此,運營商就有使用第三方特征庫對設備特征庫進行更新的需求。
[0021]本發(fā)明提出一種可以自動學習生成特征庫的方法,通過該方法,可以構建出最新的特征庫條目,通過人工或者自動的方式,對DPI設備現(xiàn)有的特征庫進行在線更新,使得采用了 DPI技術的設備,能夠保持全網識別能力的一致性,并且能夠跟上移動互聯(lián)網快速更新的特點,使得識別準確性得以保持甚至提高。
[0022]本發(fā)明還可作為第三方數據庫提供給運營商網內的應用識別設備使用,能夠幫助運營商區(qū)分傳輸管道內傳輸的各類互聯(lián)網應用分布的情況、帶寬占用等情況,從而幫助運營商制定更加合理的流量套餐;可以為客戶提供個性化的增值服務,幫助客戶分析其購買帶寬的利用情況,幫助客戶減少在流量分析、網絡管理及網絡安全方面的投資。
[0023]顯然,本發(fā)明的上述實施例僅僅是為清楚地說明本發(fā)明所作的舉例,而并非是對本發(fā)明的實施方式的限定。對于所屬領域的普通技術人員來說,在上述說明的基礎上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發(fā)明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發(fā)明權利要求的保護范圍之內。
【主權項】
1.一種通過主動學習方法構建應用特征識別數據庫的方法,其特征在于,包括以下步驟: 1)樣本獲取:在互聯(lián)網上部署模擬器,模擬器安裝模擬訪問指定的互聯(lián)網應用的軟件,按預先定義的軟件向互聯(lián)網應用發(fā)起主動訪問,獲取應用運行時的協(xié)議交互過程,然后通過報文的捉取模塊,獲取應用運行過程中協(xié)議報文固定的標志位字段,提取報文固定特征位生成對互聯(lián)網應用的交互特征樣本; 2)訓練學習:通過機器學習方法對訓練樣本訓練學習,得到互聯(lián)網應用特征模型; 3)生成特征庫:利用特征模型對模擬器采集的后續(xù)報文進行處理,將實時得到的應用特征條目寫入/更新特征數據庫。2.根據權利要求1所述的方法,其特征在于,所述步驟I)中獲取的應用特征包括IP地址、URL、端口和元素。3.—種通過主動學習方法構建互聯(lián)網應用特征識別數據庫的系統(tǒng),其特征在于,包括模擬器主動訪問單元、樣本生成單元、機器學習單元和流處理單元; 所述模擬器主動訪問單元:虛擬機中集成有互聯(lián)網協(xié)議訪問工具,模擬用戶的訪問行為對互聯(lián)網應用網站進行訪問,并處理互聯(lián)網網站返回的結果; 所述樣本生成單元:用于監(jiān)聽虛擬機主動訪問單元與互聯(lián)網應用之間交互的數據報文,按照預先定義的特征數據提取規(guī)則,提取出數據報文中固定的標志位字段中的關鍵特征信息,生成對互聯(lián)網應用的交互特征樣本; 所述機器學習單元,通過機器學習方法對訓練樣本訓練學習,得到互聯(lián)網應用特征模型; 所述流處理單元:利用特征模型對模擬器采集的后續(xù)報文進行處理,將實時得到的應用特征條目寫入/更新特征數據庫。
【專利摘要】本發(fā)明公開一種通過主動學習方法構建互聯(lián)網應用特征識別數據庫的方法及系統(tǒng),方法包括:在互聯(lián)網上部署客戶端模擬器,主動向互聯(lián)網應用發(fā)起交互訪問,獲取應用運行時的協(xié)議交互過程報文,提取報文固定特征位生成對互聯(lián)網應用的交互特征樣本,通過機器學習方法對訓練樣本訓練學習,得到互聯(lián)網應用特征模型,對模擬器采集的后續(xù)報文進行處理,將實時得到的應用特征條目寫入/更新特征數據庫。該方法對互聯(lián)網中應用的特征可實現(xiàn)動態(tài)的學習,有操作靈活,可擴展性好,部署容易的特點,應用特征數據庫中的特征數據有實時性,實現(xiàn)一點構建,全網通用。
【IPC分類】G06F17/30
【公開號】CN105279230
【申請?zhí)枴緾N201510588327
【發(fā)明人】譚彥, 李元新, 龍云亮, 鄧博存, 梁志禧
【申請人】廣東順德中山大學卡內基梅隆大學國際聯(lián)合研究院, 廣東順德中卡云網絡科技有限公司
【公開日】2016年1月27日
【申請日】2015年9月16日