專利名稱:VoIP網(wǎng)絡(luò)流量的層次化識別方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種根據(jù)網(wǎng)絡(luò)流量識別具體VoIP應(yīng)用類型的方法。
背景技術(shù):
VoIPCVoice over Internet Protocol)是一種以IP電話為主,并推出相應(yīng)的增值業(yè)務(wù)的技術(shù)。VoIP網(wǎng)絡(luò)電話就是將模擬的聲音訊號經(jīng)過壓縮與封包之后,以數(shù)據(jù)封包的形式在IP網(wǎng)絡(luò)進(jìn)行語音訊號的傳輸,通俗來說也就是互聯(lián)網(wǎng)電話或IP電話。VoIP最大的優(yōu)勢是能廣泛地采用Internet和全球IP互連的環(huán)境,提供比傳統(tǒng)業(yè)務(wù)更多、更好的服務(wù),它使你可以通過互聯(lián)網(wǎng)免費或是資費很低地在IP網(wǎng)絡(luò)上傳送語音、傳真、視頻、和數(shù)據(jù)等業(yè) 務(wù),如統(tǒng)一消息、虛擬電話、虛擬語音/傳真郵箱、查號業(yè)務(wù)、Internet呼叫中心、Internet呼叫管理、電視會議、電子商務(wù)、傳真存儲轉(zhuǎn)發(fā)和各種信息的存儲轉(zhuǎn)發(fā)等。隨著VOIP技術(shù)的迅猛發(fā)展,VoIP網(wǎng)絡(luò)電話無論在通話質(zhì)量還是語音功能上跟傳統(tǒng)的通訊方式已經(jīng)不相上下了,并且網(wǎng)絡(luò)電話還在資費和增值業(yè)務(wù)上擁有巨大的優(yōu)勢。這都是VoIP網(wǎng)絡(luò)電話能保持迅速發(fā)展、被越來越多的用戶和運營商認(rèn)可的重要原因。隨著網(wǎng)絡(luò)向100%IP化方向的發(fā)展,VoIP已經(jīng)勢不可擋,必將在下一代網(wǎng)絡(luò)中成為最重要的應(yīng)用之一。目前IP網(wǎng)上的多媒體應(yīng)用主要有VoIP、IPTV、遠(yuǎn)程醫(yī)療和遠(yuǎn)程教育等,在上述多媒體應(yīng)用中VoIP目前的業(yè)務(wù)較多,發(fā)展較快,也是網(wǎng)絡(luò)運營商較為看好的經(jīng)濟增長點。市場研究公司Point Topic發(fā)布的報告稱,2010年全球網(wǎng)絡(luò)語音通話(VoIP)的營收達(dá)173億美元,較2009年增長12. 6%。Point Topic預(yù)計,全球網(wǎng)絡(luò)電話市場規(guī)模在5年之內(nèi)將超過去年的兩倍,達(dá)到400億美元。今年3月,美國聯(lián)邦通訊委員會(FCC)稱,使用VoIP的普通消費者和企業(yè)增長了 21%,而傳統(tǒng)電話線路的使用率則下滑了 8%。約翰 波斯奈爾預(yù)計,截至到2015年年底,將有超過7. 5億的固定寬帶用戶。理論上講,這些用戶都將是VoIP的目標(biāo)對象。從這些數(shù)據(jù)可以看出,VoIP的發(fā)展非常迅速,占據(jù)了越來越重要的市場份額,正在而且將被越來越多的人接受。相應(yīng)地,隨著VoIP網(wǎng)絡(luò)電話的迅猛發(fā)展及其用戶的迅速增多,其產(chǎn)生的流量也在逐年上升,在網(wǎng)絡(luò)流量中占據(jù)了越來越多的份額,使得互聯(lián)網(wǎng)的控制機制和行為特征也越來越復(fù)雜和難以理解。與此同時,從現(xiàn)有的應(yīng)用情況看,VoIP應(yīng)用培養(yǎng)了大量的虛擬運營商,分流了電信運營商的業(yè)務(wù)收入,主要表現(xiàn)在使得網(wǎng)絡(luò)“增量不增收”,給寬帶電信運營商可持續(xù)良性發(fā)展帶來了較大的壓力。于是如何實現(xiàn)VoIP網(wǎng)絡(luò)應(yīng)用流量的可管可控,實現(xiàn)網(wǎng)絡(luò)價值最大化成為運營商最為關(guān)心的問題。但是在現(xiàn)有網(wǎng)絡(luò)中,VoIP缺乏統(tǒng)一的運營標(biāo)準(zhǔn),雖然有SIP,H323和MGCP等標(biāo)準(zhǔn)協(xié)議,但真正應(yīng)用于網(wǎng)絡(luò)中的通常是私有協(xié)議,如QQ,Skype, MSN和Gtalk等,給VoIP網(wǎng)絡(luò)流量的識別和管理增加了難度。因此,尋找一種能高效識別與監(jiān)控VoIP流量的方法,對網(wǎng)絡(luò)流量的管理和規(guī)劃具有非常大的意義。目前的識別方法主要有下面四類(I)基于協(xié)議特征的識別技術(shù)=VoIP目前常用的信令協(xié)議包括H. 323、SIP、MEGAC0和MGCP ;語音媒體流數(shù)據(jù)通常采用RTP/RTCP協(xié)議。因此對于基于標(biāo)準(zhǔn)協(xié)議的VoIP流量,可以根據(jù)這些協(xié)議的特征很容易的識別。但是在現(xiàn)有網(wǎng)絡(luò)中,VoIP應(yīng)用缺乏統(tǒng)一的標(biāo)準(zhǔn)規(guī)范,雖然有SIP,H323,MGCP等標(biāo)準(zhǔn)協(xié)議,但真正應(yīng)用于網(wǎng)絡(luò)中的通常是私有協(xié)議,如QQ, Skype, MSN, Gtalk等,這些私有協(xié)議都是標(biāo)準(zhǔn)協(xié)議的變體,為了語音傳·輸安全考慮,一般都會加密,給VoIP流量識別帶來了困難,簡單的基于協(xié)議的識別已經(jīng)變得不可行了。(2)基于特殊IP和端口的識別技術(shù)=VoIP應(yīng)用在登錄、在線、語音通話、退出過程中,有一部分?jǐn)?shù)據(jù)流量會出現(xiàn)特殊的IP和端口特性,因此可根據(jù)這些特殊的IP和端口對VoIP網(wǎng)絡(luò)流量進(jìn)行識別。但是由于還有一部分流量,特別是語音通話流大多情況都不含有特殊IP和端口,這種情況下,基于特殊IP和端口的識別技術(shù)的識別效果就不會很好,因此只基于特殊IP和端口的識別技術(shù)并不能很好的適用,可以結(jié)合統(tǒng)計特征來綜合識別VoIP網(wǎng)絡(luò)流量,以達(dá)到更好的識別效果。(3)基于靜荷統(tǒng)計特征的識別技術(shù)基于靜荷統(tǒng)計特征的識別方法理論上實現(xiàn)簡單,并且有明確的識別標(biāo)準(zhǔn),但是這種方法不具有通用性,并不是所有的VoIP應(yīng)用都能找到靜荷特征,而對于能找到靜荷特征的不同應(yīng)用,靜荷特征又各不相同,同一種應(yīng)用不同狀態(tài)時的靜荷特征一般也不相同,這樣就很難統(tǒng)一,要實現(xiàn)多種情況特征字符串的匹配,并且在非VoIP應(yīng)用中也有可能出現(xiàn)相同的靜荷特征,會嚴(yán)重影響識別效果。同時匹配靜荷特征涉及到數(shù)據(jù)包內(nèi)容,需要逐報文檢測,系統(tǒng)開銷大,影響識別效率。再者,語音通話過程短時間內(nèi)會產(chǎn)生大量的數(shù)據(jù)報文較小的數(shù)據(jù)包。這種情況下,基于靜荷統(tǒng)計特征的識別技術(shù)也是不適用的。目前在VoIP領(lǐng)域,這種方法只在Skype流量識別中出現(xiàn)過,只針對UDP數(shù)據(jù)包,且不涉及語音通話流量的識別,只是一些簡單的操作過程產(chǎn)生的少量流量的識別。(4)基于流統(tǒng)計特征的識別技術(shù)基于流統(tǒng)計特性的識別方法具有通用性,適用于多種應(yīng)用識別。語音流有區(qū)別于其它報文流的顯著特性,報文長度短,而且短時間內(nèi)會產(chǎn)生大量數(shù)據(jù)報文,因此根據(jù)統(tǒng)計特征能很好的識別語音傳輸數(shù)據(jù)流。如可根據(jù)數(shù)據(jù)流的數(shù)據(jù)報文長度、數(shù)據(jù)包間隔和突發(fā)帶寬消耗等實時流特征識別VoIP流量。并且基于流統(tǒng)計特征的識別技術(shù)一般僅僅利用數(shù)據(jù)包的包頭信息,高效簡單,無需逐報文檢測,系統(tǒng)開銷小。但是這種識別技術(shù)目前在VoIP識別領(lǐng)域應(yīng)用的并不多,并且多集中在對Skype流量的識別上,基于這種識別技術(shù)廣泛的對各種VoIP應(yīng)用流量的具體識別還沒有出現(xiàn)。
發(fā)明內(nèi)容
本發(fā)明的目的在于解決現(xiàn)有VoIP網(wǎng)絡(luò)流量識別技術(shù)中效率和準(zhǔn)確度較低并且不能更深層次的識別具體是何種VoIP應(yīng)用類型的問題,提供一種新的層次化的VoIP網(wǎng)絡(luò)流量識別方法。本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是具有一個包括以下步驟的識別模塊步驟I :對接收到的數(shù)據(jù)包的包頭進(jìn)行解析,獲得此數(shù)據(jù)包的協(xié)議類型、源IP、源端口、目的IP、目的端口、數(shù)據(jù)報文長度和數(shù)據(jù)包間隔;步驟2 :判斷接收到的數(shù)據(jù)包是否為UDP或TCP包,若不是,則轉(zhuǎn)步驟I ;若是,判斷雙向網(wǎng)絡(luò)流表是否為空,若為空,則直接轉(zhuǎn)步驟3 ;若不為空,則在雙向網(wǎng)絡(luò)流表中查詢相同協(xié)議類型下是否存在雙向網(wǎng)絡(luò)流記錄的源IP和目的IP與接收到數(shù)據(jù)包的源IP和目的IP相同,或者雙向網(wǎng)絡(luò)流記錄的目的IP和源IP與接收到數(shù)據(jù)包的源IP和目的IP相同,若存在這樣的雙向網(wǎng)絡(luò)流,轉(zhuǎn)步驟4 ;若不存在這樣的雙向網(wǎng)絡(luò)流,轉(zhuǎn)步驟3 ;步驟3 :根據(jù)接收到數(shù)據(jù)包的源IP和目的IP創(chuàng)建新的雙向網(wǎng)絡(luò)流,在雙向網(wǎng)絡(luò)流中記錄此數(shù)據(jù)包的數(shù)據(jù)報文長度和源、目的端口對,置數(shù)據(jù)包間隔為0,然后與VoIP特殊IP和端口模版匹配,如果不存在特殊IP和端口,轉(zhuǎn)向步驟I;如果存在特殊IP和(或)端口,標(biāo)記此雙向網(wǎng)絡(luò)流的VoIP應(yīng)用類型,轉(zhuǎn)向步驟I ;步驟4 :判斷此雙向網(wǎng)絡(luò)流的VoIP應(yīng)用類型是否已經(jīng)標(biāo)定,如果沒有標(biāo)定,在此雙向網(wǎng)絡(luò)流中記錄此數(shù)據(jù)包的數(shù)據(jù)報文長度、數(shù)據(jù)包間隔和源、目的端口對,轉(zhuǎn)向步驟5 ;如果已經(jīng)標(biāo)定,轉(zhuǎn)向步驟I;步驟5 :判斷此數(shù)據(jù)包的數(shù)據(jù)報文長度是否在設(shè)定的數(shù)據(jù)報文長度閾值M內(nèi),若大于設(shè)定的數(shù)據(jù)報文長度閾值M,則為非VoIP數(shù)據(jù)包,此雙向網(wǎng)絡(luò)流標(biāo)記為非VoIP數(shù)據(jù)流,轉(zhuǎn)向步驟I ;若在設(shè)定的數(shù)據(jù)報文長度閾值M內(nèi),轉(zhuǎn)向步驟6 ; 步驟6 :判斷此雙向網(wǎng)絡(luò)數(shù)據(jù)流的數(shù)據(jù)包記錄有沒有達(dá)到設(shè)定的數(shù)據(jù)包數(shù)閾值N,如果沒有,轉(zhuǎn)向步驟I ;如果已經(jīng)達(dá)到設(shè)定的數(shù)據(jù)包數(shù)閾值N表示此雙向網(wǎng)絡(luò)流的統(tǒng)計特征已經(jīng)收集完畢,統(tǒng)計最小報文值、最大報文值、平均數(shù)據(jù)包間隔、不同〈源端口,目的端口 >對的數(shù)目和報文值的概率分布,然后與VoIP統(tǒng)計特征模板庫中相同協(xié)議類型下的統(tǒng)計特征模板依次進(jìn)行匹配;前面幾個統(tǒng)計特征只需直接與VoIP統(tǒng)計特征模板庫中的對應(yīng)項比較即可,報文值的概率分布是用來與VoIP統(tǒng)計特征模板庫中的各VoIP應(yīng)用的報文值概率分布模版計算互雷尼信息熵的,計算的熵值絕對值與設(shè)定的互雷尼信息熵閾值H進(jìn)行比較,若小于設(shè)定的互雷尼信息熵閾值n則能匹配,否則匹配失?。蝗舸嬖谀軌蚱ヅ涞奶卣髂0?,由此可以識別標(biāo)記出該雙向網(wǎng)絡(luò)流對應(yīng)的VoIP應(yīng)用類型,轉(zhuǎn)向步驟7 ;如果不存在能夠匹配的特征模板,則此雙向網(wǎng)絡(luò)流為被監(jiān)控VoIP應(yīng)用外的其他網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)流,標(biāo)記此雙向網(wǎng)絡(luò)流記錄為其他類型,轉(zhuǎn)向步驟I ;步驟7 :若該雙向網(wǎng)絡(luò)流所對應(yīng)的兩IP之間同時存在TCP和UDP兩種協(xié)議的雙向網(wǎng)絡(luò)流,則直接把沒有標(biāo)記應(yīng)用類型的那個雙向網(wǎng)絡(luò)流標(biāo)記為與該雙向網(wǎng)絡(luò)流相同的應(yīng)用類型,轉(zhuǎn)向步驟I。還具有一個與識別模塊并行的定時更新模塊,用于對雙向網(wǎng)絡(luò)流表進(jìn)行定時更新,將超過規(guī)定雙向網(wǎng)絡(luò)流包間隔閾值T內(nèi)無數(shù)據(jù)包出入的雙向網(wǎng)絡(luò)流按照源IP、目的IP、協(xié)議類型(TCP/UDP)和VoIP應(yīng)用類型的格式輸出到文本文件中,并將此雙向網(wǎng)絡(luò)流記錄清除。所述的數(shù)據(jù)包數(shù)閾值N,取值滿足N>1000 ;對于數(shù)據(jù)報文長度閾值M,若為UDP數(shù)據(jù)包,取值需滿足950 SMS 1000,若為TCP數(shù)據(jù)包則沒有要求;對于互雷尼信息熵閾值Π,取值為I. 5 ;對于雙向網(wǎng)絡(luò)流包間隔閾值T,取值為60秒。所述的雙向網(wǎng)絡(luò)流指的是基于主機層的雙向網(wǎng)絡(luò)流,其定義為本地主機與遠(yuǎn)端主機在某種協(xié)議類型(TCP或UDP)下互相通信所產(chǎn)生的數(shù)據(jù)包集合,設(shè)定如果雙向網(wǎng)絡(luò)流包間隔閾值T內(nèi)無相應(yīng)的數(shù)據(jù)包,則認(rèn)為該雙向網(wǎng)絡(luò)流已經(jīng)結(jié)束。本發(fā)明通過對大量VoIP應(yīng)用的數(shù)據(jù)包在傳輸層上進(jìn)行研究分析,提取不同VoIP應(yīng)用傳輸層的特征信息,依據(jù)這些傳輸層的特征信息對VoIP網(wǎng)絡(luò)流量進(jìn)行識別。各種VoIP應(yīng)用在語音通話過程中會出現(xiàn)一些具有特殊IP和(或)端口的網(wǎng)絡(luò)流,這些網(wǎng)絡(luò)流一般都是數(shù)據(jù)包間隔較大的控制數(shù)據(jù)流,也有的是在某些特殊情況下的語音數(shù)據(jù)流,通過大量的實驗分析發(fā)現(xiàn)這些特殊的IP和端口,作為識別依據(jù)之一。對于大量的不包含特殊IP和端口的語音數(shù)據(jù)流,可以利用傳輸層統(tǒng)計特征來識別。語音通信數(shù)據(jù)流有區(qū)別于其它報文流的顯著特性,報文長度短,而且短時間內(nèi)會產(chǎn)生大量數(shù)據(jù)報文。在VoIP應(yīng)用中,數(shù)據(jù)包大小主要由源主機端的編解碼器決定,對VoIP應(yīng)用來說,不同的編解碼將會在網(wǎng)絡(luò)上產(chǎn)生兩種類型的流量,也就是可變比特率(VBR)和恒定比特率(CBR)的流量。在恒定比特率流量中,語音信息被固定的采樣大小和采樣速率編碼成大小相同的幀,這導(dǎo)致了語音流具有相同的數(shù)據(jù)包大小,國內(nèi)的VoIP軟件很多都采用這種編碼方式,如比較有名的KC、UUCall、阿里通、中華通、聊否等等;在可變比特率流量中,盡管采樣速率是固定的,幀卻被編碼成不同的大小以獲得最佳的壓縮質(zhì)量,經(jīng)常是幾個數(shù)據(jù)包值出現(xiàn)較高的概率,其他的數(shù)據(jù)包值出現(xiàn)的概率較低甚至為零,國內(nèi)外使用較多的Skype、MSN、Gtalk和QQ都是采用這種編碼方式的。使用CBR編碼的語音流,具有固定的數(shù)據(jù)報文大小,而使用VBR編碼的語音流,雖然不具有固定的數(shù)據(jù)報文大小,但不同大小的數(shù)據(jù)報文出現(xiàn)的概率具有一定的規(guī)律。因此數(shù)據(jù)報文大小及其概率分布特征可以用來作為識別的依據(jù)之
O 雖然語音流在短時間內(nèi)會產(chǎn)生大量數(shù)據(jù)報文,但是數(shù)據(jù)包間隔并不是固定的,并且這里是按雙向流統(tǒng)計的,有發(fā)送包,也有接收包,數(shù)據(jù)包間隔指的相繼捕獲的兩個數(shù)據(jù)包之間的時間間隔。再考慮到通話雙方所處的地理位置與網(wǎng)絡(luò)環(huán)境,使得數(shù)據(jù)包間隔成了一個隨機變量,但是由“短時間內(nèi)會產(chǎn)生大量數(shù)據(jù)報文”可知,平均數(shù)據(jù)包間隔是在一定的范圍內(nèi)變化的。因此平均數(shù)據(jù)包間隔也可以作為識別依據(jù)之一。由于語音通話過程中,伴隨語音數(shù)據(jù)包的往往會有語音數(shù)據(jù)控制包,所以源、目的IP之間的端口對一般并不唯一,但各種VoIP應(yīng)用都有其一定的閾值。這也可以作為識別依據(jù)之一。結(jié)合前面提到的幾個依據(jù),本發(fā)明提出使用特殊IP和端口、數(shù)據(jù)報文值大小范圍、平均數(shù)據(jù)包間隔、源目的端口對數(shù)和數(shù)據(jù)報文值的概率分布規(guī)律作為識別依據(jù),分層次識別各種VoIP應(yīng)用。在識別之前需要建立模版庫,模版庫建立在對大量VoIP應(yīng)用的數(shù)據(jù)包在傳輸層上進(jìn)行研究分析的基礎(chǔ)上,包括VoIP特殊IP和端口模版庫與VoIP統(tǒng)計特征模版庫。識別時,首先進(jìn)行特殊IP和端口的匹配,若存在特殊IP或端口,則能達(dá)到快速識別的效果;若沒有特殊IP和端口,再進(jìn)行傳輸層統(tǒng)計特征序列的收集、處理和匹配。并且在識別的過程中會添加一些簡單的判斷,如利用數(shù)據(jù)報文閾值快速排除非VoIP應(yīng)用;對于通話中兩IP間同時存在TCP和UDP雙向流的情況,一旦確定其中一種協(xié)議雙向流的VoIP應(yīng)用類型,可以快速標(biāo)記另一種協(xié)議雙向流的VoIP應(yīng)用類型。同時經(jīng)過分析發(fā)現(xiàn),只利用雙向網(wǎng)絡(luò)流的前若干數(shù)據(jù)包的傳輸層統(tǒng)計特征信息就能很好的代替整個雙向網(wǎng)絡(luò)流的傳輸層統(tǒng)計特征信息來進(jìn)行識別,實現(xiàn)在VoIP網(wǎng)絡(luò)流量建立初期快速高效識別的效果。本發(fā)明所提出的VoIP網(wǎng)絡(luò)流量的層次化識別方法,具有以下有益效果I、首先會判斷接收到的數(shù)據(jù)包是否為UDP或TCP包,排除了其他的非UDP和TCP包,節(jié)省了時間和系統(tǒng)開銷。2、分層識別可以將具有特殊IP或端口的網(wǎng)絡(luò)流首先識別出來,不涉及到后面?zhèn)鬏攲咏y(tǒng)計特征的積累、計算和匹配,可以達(dá)到快速識別的效果。3、識別的過程中,會判斷數(shù)據(jù)報文長度是否大于設(shè)定閾值M。若大于M,則直接標(biāo)記對應(yīng)的雙向網(wǎng)絡(luò)流為非VoIP應(yīng)用,這一操作可以排除很多的非VoIP網(wǎng)絡(luò)流,節(jié)省了大量的時間和系統(tǒng)開銷,提高了識別效率。4、識別只利用雙向網(wǎng)絡(luò)流的前若干個數(shù)據(jù)包,實現(xiàn)在VoIP網(wǎng)絡(luò)流量建立初期快速高效識別的效果。5、基于特殊IP和端口、數(shù)據(jù)報文值范圍、平均數(shù)據(jù)包間隔和數(shù)據(jù)報文值的概率分布規(guī)律幾個特征來實現(xiàn),無需檢測數(shù)據(jù)報文內(nèi)容,系統(tǒng)開銷小,識別準(zhǔn)確度高,可以實時在線應(yīng)用。6、引入了互雷尼信息熵的方法,可以把數(shù)據(jù)報文值及其出現(xiàn)概率結(jié)合起來同時使用,克服了單獨的信息熵只使用概率時引起的問題。7、對于語音通話過程中在通話主機間同時出現(xiàn)TCP和UDP流量的情況,只判定其中一種協(xié)議流量的VoIP應(yīng)用類型,就可以直接標(biāo)記另一協(xié)議對應(yīng)的網(wǎng)絡(luò)流的VoIP應(yīng)用類 型。
圖I是本發(fā)明的系統(tǒng)結(jié)構(gòu)框圖;圖2是圖I中分層識別的具體結(jié)構(gòu)框圖;圖3是圖I中雙向網(wǎng)絡(luò)流表的一條雙向網(wǎng)絡(luò)流記錄的數(shù)據(jù)結(jié)構(gòu)圖;圖4是本發(fā)明VoIP網(wǎng)絡(luò)流量層次化識別方法的算法流程圖。
具體實施例方式下面結(jié)合附圖對本發(fā)明作進(jìn)一步詳細(xì)說明。參照圖1,數(shù)據(jù)包獲取模塊用于對被監(jiān)控網(wǎng)絡(luò)數(shù)據(jù)包的獲取,并對數(shù)據(jù)包按照本文雙向網(wǎng)絡(luò)流的定義將其傳輸層特征存儲到雙向網(wǎng)絡(luò)流表中相應(yīng)的雙向網(wǎng)絡(luò)流記錄中。雙向網(wǎng)絡(luò)流表用于記錄源IP、目的1 、協(xié)議類型(!^^/仙?)、¥01 應(yīng)用類型及其傳輸層統(tǒng)計特征序列。定時更新模塊用于對雙向網(wǎng)絡(luò)流表進(jìn)行定時更新,將超過規(guī)定時間閾值T內(nèi)無數(shù)據(jù)包出入的雙向網(wǎng)絡(luò)流按照源IP、目的IP、協(xié)議類型(TCP/UDP)和VoIP應(yīng)用類型的格式輸出到文本文件中,將此雙向網(wǎng)絡(luò)流記錄清除。VoIP特殊IP和端口模板庫中存儲各種被監(jiān)控VoIP應(yīng)用雙向網(wǎng)絡(luò)流的特殊IP和端口,向特殊IP和端口匹配模塊提供特征模板。特殊IP和端口匹配模塊用于將雙向網(wǎng)絡(luò)流中的源、目的IP和源、目的端口與VoIP特殊IP和端口模板庫中相同協(xié)議類型下的特殊IP和端口模板進(jìn)行匹配,若存在可匹配的模版,則可直接標(biāo)記相應(yīng)的雙向網(wǎng)絡(luò)流的VoIP應(yīng)用類型;若不能匹配,則轉(zhuǎn)到下一層的匹配識別中。這個模版庫主要用于識別在語音通話中出現(xiàn)的比較小的控制流,也能快速識別一些比較大的語音數(shù)據(jù)流。VoIP統(tǒng)計特征模板庫中存儲各種被監(jiān)控VoIP應(yīng)用雙向網(wǎng)絡(luò)流傳輸層的統(tǒng)計特征信息,向統(tǒng)計特征匹配模塊提供特征模板。參照圖2可知,該模版庫中的統(tǒng)計特征信息包括報文值大小范圍、平均數(shù)據(jù)包間隔、不同〈源端口,目的端口〉對數(shù)目和報文值概率分布規(guī)律。
統(tǒng)計特征處理模塊用于對收集到指定數(shù)目數(shù)據(jù)包的雙向流計算最小報文值、最大報文值、平均數(shù)據(jù)包間隔、不同〈源端口,目的端口〉對數(shù)目和報文值的概率分布。統(tǒng)計特征匹配模塊用于將統(tǒng)計特征處理模塊的處理結(jié)果與VoIP統(tǒng)計特征模板庫中相同協(xié)議類型下的統(tǒng)計特征模板依次進(jìn)行匹配。參照圖2可知,前面幾個統(tǒng)計特征只需直接與模版庫中的對應(yīng)項比較即可,報文值的概率分布用來與模版庫中各VoIP應(yīng)用的報文值概率分布模版計算互雷尼信息熵,計算的熵值絕對值與設(shè)定的閾值H進(jìn)行比較,若小于設(shè)定的閾值H則能匹配,否則匹配失敗。若存在能夠匹配的特征模版,由此可以識別標(biāo)記出該流對應(yīng)的VoIP應(yīng)用類型;如果不存在能夠匹配的特征模板,則此雙向網(wǎng)絡(luò)流為被監(jiān)控VoIP應(yīng)用外的其他網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)流,標(biāo)記此雙向網(wǎng)絡(luò)流記錄為其他類型。這個模版庫是用來識別比較大的語音流的。參照圖2,具體描述了分層識別的整個過程。對于捕獲的網(wǎng)絡(luò)流量,我們從主機層雙向網(wǎng)絡(luò)流的角度進(jìn)行分析,建立雙向網(wǎng)絡(luò)流表以存儲我們需要的信息。初步識別指的是通過特殊IP和端口來識別,若存在特殊IP和端口,則在這一步就可以識別;若不存在特殊 IP和端口,則通過統(tǒng)計特征識別。統(tǒng)計特征的識別需要進(jìn)行統(tǒng)計特征序列的收集、處理與匹配。參照圖3,VoIP應(yīng)用類型記錄此雙向網(wǎng)絡(luò)流的VoIP應(yīng)用類型,由于本發(fā)明所提出的識別方法只利用雙向網(wǎng)絡(luò)流的前若干數(shù)據(jù)包,因此在雙向網(wǎng)絡(luò)流開始之初我們就可以判斷此網(wǎng)絡(luò)流的VoIP應(yīng)用類型了。因此,當(dāng)正在處理中的數(shù)據(jù)包查詢到對應(yīng)雙向網(wǎng)絡(luò)流記錄中的VoIP應(yīng)用類型已經(jīng)斷定時,就不需要再做任何處理了,直接轉(zhuǎn)向下一個數(shù)據(jù)包的處理。協(xié)議類型(TCP或UDP)記錄此雙向網(wǎng)絡(luò)流的傳輸層協(xié)議類型。源IP和目的IP對應(yīng)的記錄此雙向網(wǎng)絡(luò)流第一個數(shù)據(jù)包的源IP和目的IP。對于每一個數(shù)據(jù)包我們只記錄數(shù)據(jù)報文長度、數(shù)據(jù)包間隔和〈源端口,目的端口 >對三個特征,以此收集長度為N的統(tǒng)計特征序列。語音數(shù)據(jù)傳輸一般采用UDP數(shù)據(jù)包傳輸,TCP數(shù)據(jù)包一般作為語音通話過程中的語音數(shù)據(jù)控制包,同時出現(xiàn)在傳輸語音數(shù)據(jù)的兩個IP之間,數(shù)據(jù)包間隔比較大,這種情況的TCP網(wǎng)絡(luò)流可以在對應(yīng)的UDP網(wǎng)絡(luò)流標(biāo)記以后直接標(biāo)記相同的類型。傳輸語音數(shù)據(jù)的TCP網(wǎng)絡(luò)流很少見,這里只統(tǒng)計到了 TCP協(xié)議傳輸QQ語音的情況。另外,語音通話過程中除了語音數(shù)據(jù)流還會出現(xiàn)一些相關(guān)的TCP和UDP控制數(shù)據(jù)流,這些流的數(shù)據(jù)包間隔較大,數(shù)據(jù)包數(shù)目較少,一般可以通過特殊IP和端口識別。VoIP特殊IP和端口模板庫中主要包括目前國內(nèi)外流行的VoIP軟件,其中包括Skype、MSN、Gtalk、QQ和KC,其特殊IP和端口如下所示(I) Skype =UDP 協(xié)議,特殊端口 { 33033 } ;TCP 協(xié)議,特殊端口 { 12350 };(2) MSN :UDP 協(xié)議,特殊端口 {1863} ;TCP 協(xié)議,特殊端口 { 1863};(3)Gtalk :TCP協(xié)議,特殊 IP和端口 {74. 125. 71. 125(5222),74. 125. 71. 100(80),74. 125. 71. 113 (80)};(4)QQ :UDP 協(xié)議,特殊 IP 和端口 {183. 60. 48. 76 (8000), 183. 60. 48. 184 (8000),183. 60. 49. 203(8000),112. 95. 240. 188(8000)};TCP 協(xié)議,特殊 IP 和端口 {121. 14. 102. 15(80)};
(5)KC:UDP 協(xié)議,特殊 IP 和端 Π {59. 36. 98. 119 (2119),118. 194. 2. 115,211. 154. 135. 55,122. 11. 53. 23}。VoIP統(tǒng)計特征模板庫中雙向網(wǎng)絡(luò)流的傳輸層統(tǒng)計特征如表I和表2所示表IUDP協(xié)議的雙向網(wǎng)絡(luò)流統(tǒng)計特征
權(quán)利要求
1.VoIP網(wǎng)絡(luò)流量的層次化識別方法,其特征在于,具有一個包括以下步驟的識別模塊 步驟I:對接收到的數(shù)據(jù)包的包頭進(jìn)行解析,獲得此數(shù)據(jù)包的協(xié)議類型、源IP、源端口、目的IP、目的端口、數(shù)據(jù)報文長度和數(shù)據(jù)包間隔; 步驟2 :判斷接收到的數(shù)據(jù)包是否為UDP或TCP包,若不是,則轉(zhuǎn)步驟I ;若是,判斷雙向網(wǎng)絡(luò)流表是否為空,若為空,則直接轉(zhuǎn)步驟3 ;若不為空,則在雙向網(wǎng)絡(luò)流表中查詢相同協(xié)議類型下是否存在雙向網(wǎng)絡(luò)流記錄的源IP和目的IP與接收到數(shù)據(jù)包的源IP和目的IP相同,或者雙向網(wǎng)絡(luò)流記錄的目的IP和源IP與接收到數(shù)據(jù)包的源IP和目的IP相同,若存在這樣的雙向網(wǎng)絡(luò)流,轉(zhuǎn)步驟4 ;若不存在這樣的雙向網(wǎng)絡(luò)流,轉(zhuǎn)步驟3 ; 步驟3 :根據(jù)接收到數(shù)據(jù)包的源IP和目的IP創(chuàng)建新的雙向網(wǎng)絡(luò)流,在雙向網(wǎng)絡(luò)流中記錄此數(shù)據(jù)包的數(shù)據(jù)報文長度和源、目的端口對,置數(shù)據(jù)包間隔為0,然后與VoIP特殊IP和端口模版匹配,如果不存在特殊IP和端口,轉(zhuǎn)向步驟I ;如果存在特殊IP和(或)端口,標(biāo)記此雙向網(wǎng)絡(luò)流的VoIP應(yīng)用類型,轉(zhuǎn)向步驟I ; 步驟4 :判斷此雙向網(wǎng)絡(luò)流的VoIP應(yīng)用類型是否已經(jīng)標(biāo)定,如果沒有標(biāo)定,在此雙向網(wǎng)絡(luò)流中記錄此數(shù)據(jù)包的數(shù)據(jù)報文長度、數(shù)據(jù)包間隔和源、目的端口對,轉(zhuǎn)向步驟5;如果已經(jīng)標(biāo)定,轉(zhuǎn)向步驟I ; 步驟5 :判斷此數(shù)據(jù)包的數(shù)據(jù)報文長度是否在設(shè)定的數(shù)據(jù)報文長度閾值M內(nèi),若大于設(shè)定的數(shù)據(jù)報文長度閾值M,則為非VoIP數(shù)據(jù)包,此雙向網(wǎng)絡(luò)流標(biāo)記為非VoIP數(shù)據(jù)流,轉(zhuǎn)向步驟I ;若在設(shè)定的數(shù)據(jù)報文長度閾值M內(nèi),轉(zhuǎn)向步驟6 ; 步驟6 :判斷此雙向網(wǎng)絡(luò)數(shù)據(jù)流的數(shù)據(jù)包記錄有沒有達(dá)到設(shè)定的數(shù)據(jù)包數(shù)閾值N,如果沒有,轉(zhuǎn)向步驟I ;如果已經(jīng)達(dá)到設(shè)定的數(shù)據(jù)包數(shù)閾值N表示此雙向網(wǎng)絡(luò)流的統(tǒng)計特征已經(jīng)收集完畢,統(tǒng)計最小報文值、最大報文值、平均數(shù)據(jù)包間隔、不同〈源端口,目的端口〉對的數(shù)目和報文值的概率分布,然后與VoIP統(tǒng)計特征模板庫中相同協(xié)議類型下的統(tǒng)計特征模板依次進(jìn)行匹配;前面幾個統(tǒng)計特征只需直接與VoIP統(tǒng)計特征模板庫中的對應(yīng)項比較即可,報文值的概率分布是用來與VoIP統(tǒng)計特征模板庫中的各VoIP應(yīng)用的報文值概率分布模版計算互雷尼信息熵的,計算的熵值絕對值與設(shè)定的互雷尼信息熵閾值H進(jìn)行比較,若小于設(shè)定的互雷尼信息熵閾值H則能匹配,否則匹配失敗;若存在能夠匹配的特征模版,由此可以識別標(biāo)記出該雙向網(wǎng)絡(luò)流對應(yīng)的VoIP應(yīng)用類型,轉(zhuǎn)向步驟7 ;如果不存在能夠匹配的特征模板,則此雙向網(wǎng)絡(luò)流為被監(jiān)控VoIP應(yīng)用外的其他網(wǎng)絡(luò)應(yīng)用的數(shù)據(jù)流,標(biāo)記此雙向網(wǎng)絡(luò)流記錄為其他類型,轉(zhuǎn)向步驟I ; 步驟7 :若該雙向網(wǎng)絡(luò)流所對應(yīng)的兩IP之間同時存在TCP和UDP兩種協(xié)議的雙向網(wǎng)絡(luò)流,則直接把沒有標(biāo)記應(yīng)用類型的那個雙向網(wǎng)絡(luò)流標(biāo)記為與該雙向網(wǎng)絡(luò)流相同的應(yīng)用類型,轉(zhuǎn)向步驟I。
2.根據(jù)權(quán)利要求I所述的VoIP網(wǎng)絡(luò)流量的層次化識別方法,其特征在于還具有一個與識別模塊并行的定時更新模塊,用于對雙向網(wǎng)絡(luò)流表進(jìn)行定時更新,將超過規(guī)定雙向網(wǎng)絡(luò)流包間隔閾值T內(nèi)無數(shù)據(jù)包出入的雙向網(wǎng)絡(luò)流按照源IP、目的IP、協(xié)議類型(TCP/UDP)和VoIP應(yīng)用類型的格式輸出到文本文件中,并將此雙向網(wǎng)絡(luò)流記錄清除。
3.根據(jù)權(quán)利要求I或2所述的VoIP網(wǎng)絡(luò)流量的層次化識別方法,其特征在于所述的數(shù)據(jù)包數(shù)閾值N,取值滿足N>1000 ;對于數(shù)據(jù)報文長度閾值M,若為UDP數(shù)據(jù)包,取值需滿足9501000,若為TCP數(shù)據(jù)包則沒有要求;對于互雷尼信息熵閾值Π,取值為I. 5 ;對于雙向網(wǎng)絡(luò)流包間隔閾值T,取值為60秒。
4.根據(jù)權(quán)利要求I所述的VoIP網(wǎng)絡(luò)流量的層次化識別方法,其特征在于所述的雙向網(wǎng)絡(luò)流指的是基于主機層的雙向網(wǎng)絡(luò)流,其定義為本地主機與遠(yuǎn)端主機在某種協(xié)議類型(TCP或UDP)下互相通信所產(chǎn)生的數(shù)據(jù)包集合,設(shè)定如果雙向網(wǎng)絡(luò)流包間隔閾值T內(nèi)無相應(yīng)的數(shù)據(jù)包,則認(rèn)為該雙向網(wǎng)絡(luò)流已經(jīng)結(jié)束。
全文摘要
一種VoIP網(wǎng)絡(luò)流量層次化識別方法,首先與特殊IP和端口模版庫匹配,若存在特殊IP和端口,則能實現(xiàn)快速識別;若沒有特殊IP和端口,再進(jìn)行傳輸層特征序列的收集,收集過程中會根據(jù)數(shù)據(jù)報文長度閾值快速標(biāo)記明顯的非VoIP應(yīng)用;收集到指定數(shù)目的數(shù)據(jù)包后,對該雙向網(wǎng)絡(luò)流的特征序列做相應(yīng)處理并與VoIP統(tǒng)計特征模版庫中各標(biāo)準(zhǔn)依次匹配,標(biāo)記出其應(yīng)用類型,匹配過程中用到了互雷尼信息熵作為其中的標(biāo)準(zhǔn)之一。本方法僅利用網(wǎng)絡(luò)流的前若干數(shù)據(jù)包的特征信息,可以實現(xiàn)在VoIP網(wǎng)絡(luò)流量建立初期快速高效識別的效果。同時由于僅僅用到傳輸層的特征信息,無需逐報文檢測,無復(fù)雜的計算處理過程,高效簡單,系統(tǒng)開銷小,可以實時在線應(yīng)用。
文檔編號H04M7/00GK102904822SQ20121040545
公開日2013年1月30日 申請日期2012年10月22日 優(yōu)先權(quán)日2012年10月22日
發(fā)明者秦濤, 楊柳靜, 管曉宏, 李衛(wèi) 申請人:西安交通大學(xué)