亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種在未知流量中識(shí)別p2p流媒體流量的方法

文檔序號(hào):7702418閱讀:141來源:國知局
專利名稱:一種在未知流量中識(shí)別p2p流媒體流量的方法
技術(shù)領(lǐng)域
本發(fā)明涉及一種流量識(shí)別技術(shù),確切地說,涉及一種基于行為特性在未知流量中 識(shí)別點(diǎn)對(duì)點(diǎn)P2P(Peer to Peer)流媒體流量的方法,屬于網(wǎng)絡(luò)互連通信的技術(shù)領(lǐng)域。
背景技術(shù)
近年來,隨著P2P技術(shù)的不斷發(fā)展,大量的P2P應(yīng)用流量占用了網(wǎng)絡(luò)出口的巨大帶 寬,直接影響到人們的學(xué)習(xí)、工作和生活,同時(shí)也在其他方面(例如版權(quán)和安全等)給社會(huì) 帶來一定的負(fù)面影響。P2P流媒體應(yīng)用只是P2P諸多應(yīng)用領(lǐng)域中的一種,因P2P流媒體系統(tǒng) 需要的資源少,能夠大大降低中心服務(wù)器的壓力,并且避免了單點(diǎn)故障,這些特性都使其得 到了非常頻繁和廣泛的應(yīng)用,占據(jù)了相當(dāng)比例的網(wǎng)絡(luò)流量,并且加速了盜版的傳播。在這種 情況下,如何合理而高效地識(shí)別和控制P2P流量,已經(jīng)成為一個(gè)迫切需要關(guān)注和解決的問 題。流量識(shí)別技術(shù)在行為審計(jì)、上網(wǎng)行為管理、流量控制等諸多方面有著廣泛應(yīng)用。在 互聯(lián)網(wǎng)中,位于不同網(wǎng)絡(luò)節(jié)點(diǎn)之間的應(yīng)用彼此傳遞消息的單元是數(shù)據(jù)流和數(shù)據(jù)分組,然而, 這些傳輸單元中并沒有顯式的特征與其應(yīng)用相對(duì)應(yīng),因此,必須通過流量識(shí)別技術(shù),將傳輸 的數(shù)據(jù)流和數(shù)據(jù)分組與上層的應(yīng)用進(jìn)行匹配操作,才能執(zhí)行后續(xù)的行為審計(jì)、管理與流量 控制等操作,可以說,流量識(shí)別技術(shù)是實(shí)現(xiàn)上述應(yīng)用的基礎(chǔ)。最初的P2P流量是很容易識(shí)別的,因?yàn)槠涫褂霉潭ǖ膫鬏斂刂茀f(xié)議 TCP (Transmission Control Protocol)或用戶報(bào)文協(xié)議UDP (User Datagram Protocol)端 口,但是,隨著技術(shù)的發(fā)展,許多P2P應(yīng)用開始使用隨機(jī)選擇的端口,甚至其端口是動(dòng)態(tài)改 變的;或者偽裝成常規(guī)應(yīng)用,因此簡單的端口識(shí)別技術(shù)已經(jīng)無法使用了。目前比較常用的識(shí)別P2P流媒體流量的方法可以分作下述三類(一)深度包檢測技術(shù),通過分析數(shù)據(jù)流中每個(gè)分組的應(yīng)用層負(fù)載,尋找其特征 值,再與已知的P2P應(yīng)用特征進(jìn)行匹配,來區(qū)分是哪一種應(yīng)用。深度包檢測技術(shù)是目前運(yùn)用最廣泛的流量識(shí)別方法,因?yàn)槠浞椒ê唵?,易于?shí)現(xiàn), 并且準(zhǔn)確率高,一般情況下很少產(chǎn)生誤判。并且由于不同應(yīng)用的特征值不同,使用深度包 檢測技術(shù)可以精確地匹配到某一類具體應(yīng)用。但是,該技術(shù)也有如下缺點(diǎn)識(shí)別效率低,由 于要進(jìn)入應(yīng)用層進(jìn)行協(xié)議分析與特征匹配,所以其計(jì)算和存儲(chǔ)的開銷較大,可擴(kuò)展性差。而 且,P2P流媒體應(yīng)用的更新十分迅速,如果軟件協(xié)議版本發(fā)生變化,其特征值很可能隨之發(fā) 生變化,需要重新更新特征庫;另外,無法識(shí)別加密應(yīng)用。隨著運(yùn)營商對(duì)P2P流量的重視, P2P流媒體應(yīng)用所產(chǎn)生的流量逐漸開始向加密的趨勢發(fā)展,特征碼不再明文傳輸。綜合以上 討論可以看出,深度包檢測技術(shù)雖有優(yōu)點(diǎn),也有明顯不足,并且隨著加密技術(shù)的發(fā)展,深度 包檢測技術(shù)將會(huì)受到很大的局限。( 二)數(shù)據(jù)流特征檢測技術(shù),不同于深度包檢測技術(shù),數(shù)據(jù)流特征檢測技術(shù)不關(guān)心 分組應(yīng)用層的負(fù)載部分,只關(guān)注每條數(shù)據(jù)流的部分特性,例如分組長度、流中的分組到達(dá) 間隔、流的持續(xù)時(shí)間等。這種技術(shù)以數(shù)據(jù)流作為研究對(duì)象,從而避免了分析和查看應(yīng)用層負(fù)載,更加注重于分析應(yīng)用行為的本質(zhì)特性。根據(jù)已有的研究成果,基于數(shù)據(jù)流特征檢測技術(shù)主要是結(jié)合機(jī)器學(xué)習(xí)和模式識(shí)別 等技術(shù)。2007年興起的對(duì)流特征進(jìn)行聚類分析的方法,實(shí)際上就是一種基于數(shù)據(jù)流特征的 測量,它利用各種方法對(duì)P2P系統(tǒng)與生俱來的動(dòng)態(tài)特性(如流間隔時(shí)間、流持續(xù)時(shí)間以及單 條流中包的間隔時(shí)間)進(jìn)行測量,通過和預(yù)先設(shè)定的樣本進(jìn)行對(duì)比和匹配,得到P2P節(jié)點(diǎn)和 流的識(shí)別結(jié)果。利用動(dòng)態(tài)特性的識(shí)別技術(shù)基本上能夠適用任何類型的P2P系統(tǒng),但是,這是 一種“廣義”的識(shí)別,并沒有深入關(guān)注P2P流媒體應(yīng)用自身具有的一些特性,并且,這類技術(shù) 通常屬于“事后”的統(tǒng)計(jì),其實(shí)時(shí)性效果欠佳。(三)基于連接模式檢測技術(shù),該技術(shù)的本質(zhì)區(qū)別于前兩種技術(shù)之處在于其觀察 和描述都是基于節(jié)點(diǎn)級(jí)別的,其主要研究對(duì)象為節(jié)點(diǎn)與節(jié)點(diǎn)之間的連接的行為模式,而并 不局限于某一條數(shù)據(jù)流的特性和應(yīng)用層負(fù)載的特征?;谶B接模式檢測技術(shù)中最為著名的,是在文獻(xiàn)《Transport LayerIdentification of P2P Traffic))中首次提到的兩個(gè)識(shí)別思想TCP/UDP配對(duì)特性利用P2P系統(tǒng)越來越趨向同時(shí)使用TCP和UDP協(xié)議進(jìn)行傳輸, 而絕大多數(shù)的傳統(tǒng)應(yīng)用都是固定使用一種傳輸層協(xié)議的特點(diǎn),幾乎所有著名的P2P文件下 載系統(tǒng)都采用UDP來發(fā)送控制信息,完成節(jié)點(diǎn)或內(nèi)容的搜索,再采用TCP協(xié)議來傳輸數(shù)據(jù)。地址/端口對(duì)特性P2P系統(tǒng)中每個(gè)節(jié)點(diǎn)都要不斷向外發(fā)起和接受連接,并且每個(gè) 節(jié)點(diǎn)都是每次隨機(jī)選擇一個(gè)不同的源端口,且由于動(dòng)態(tài)監(jiān)聽端口技術(shù)的使用,每個(gè)目的端 口也很少重復(fù)出現(xiàn),這就使得從某個(gè)節(jié)點(diǎn)角度來看,連接該節(jié)點(diǎn)的地址和端口個(gè)數(shù)基本相 同,且數(shù)量都比較大。因此,可以通過測量節(jié)點(diǎn)的連接數(shù)和源/目的端口以及源/目的地址 之間的數(shù)量關(guān)系來判斷是否為P2P應(yīng)用。以上兩種技術(shù)都具有性能高、易于實(shí)現(xiàn)的優(yōu)點(diǎn),也對(duì)P2P流量的自身特性進(jìn)行了 比較恰當(dāng)?shù)年U述,但是,它仍然無法區(qū)分傳統(tǒng)服務(wù)器(如mail)的不同流量,而且識(shí)別閾值 的選取也很難有確定的理論支持;并且通過協(xié)議分析可以看到,P2P流媒體系統(tǒng)并不適用 這種方法,因?yàn)槟壳敖^大多數(shù)的P2P流媒體應(yīng)用是使用UDP完成節(jié)點(diǎn)信息的交互與數(shù)據(jù)的 傳輸;另外,同時(shí)使用TCP和UDP的應(yīng)用越來越多,造成這種方法的誤識(shí)別率較高,很容易錯(cuò) 誤識(shí)別一些常用應(yīng)用。因此,盡快研究和開發(fā)一種適用于當(dāng)前的P2P流媒體流量識(shí)別的實(shí)時(shí)、高效的方 法是很有實(shí)踐價(jià)值和實(shí)用意義的,也成為業(yè)內(nèi)科技人員關(guān)注的焦點(diǎn)課題。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的是提供一種基于行為特性在未知流量中識(shí)別P2P流媒體 流量的方法,本發(fā)明能夠較好地克服現(xiàn)有技術(shù)的各種缺陷,具有快速處理能力和存儲(chǔ)空間 較小,能夠基于行為對(duì)特定數(shù)據(jù)流實(shí)現(xiàn)實(shí)時(shí)識(shí)別,能夠用于許多需要進(jìn)行流量識(shí)別的場合。為了達(dá)到上述目的,本發(fā)明提供了 一種在未知流量中識(shí)別點(diǎn)對(duì)點(diǎn)P2P流媒體流量 的方法,其特征在于統(tǒng)計(jì)大量的包含多類應(yīng)用的P2P流媒體數(shù)據(jù)流,提取其中分組的負(fù)載 長度作為參量,推導(dǎo)得出其符合區(qū)間離散分布特性的多類應(yīng)用樣本;對(duì)于未知流量,將傳輸 層中的用戶報(bào)文協(xié)議UDP^ser DatagramProtocol)流量以數(shù)據(jù)流為單位輸入,提取該數(shù)據(jù) 流中的各個(gè)分組而分別獲知其負(fù)載長度,根據(jù)應(yīng)用樣本得出該分組屬于每類應(yīng)用的先驗(yàn)概率值,再結(jié)合貝葉斯公式計(jì)算其屬于每類應(yīng)用的后驗(yàn)概率值,并從中得出其后驗(yàn)概率的最 大值;接著,定義數(shù)據(jù)流的信度值,用于表示該數(shù)據(jù)流屬于某一類應(yīng)用的可信度,再結(jié)合后 驗(yàn)概率的最大值和通過迭代選取的平均值,作為該數(shù)據(jù)流的當(dāng)前信度值;再將該數(shù)據(jù)流的 當(dāng)前信度值和預(yù)設(shè)的判定閾值相比較,就判定得出該數(shù)據(jù)流所歸屬的應(yīng)用類別。所述方法包括下述操作步驟(1)生成樣本統(tǒng)計(jì)包含多類應(yīng)用的大量UDP數(shù)據(jù)流,根據(jù)其中分組的負(fù)載長度分 布特性進(jìn)行擬合,得到符合區(qū)間離散分布特性的各類應(yīng)用樣本;(2)似然計(jì)算對(duì)于輸入的未知流量,先獲知每個(gè)數(shù)據(jù)流的各個(gè)分組的負(fù)載長度, 并根據(jù)應(yīng)用樣本得出該分組屬于每類應(yīng)用的先驗(yàn)概率值;再按照貝葉斯公式分別計(jì)算其屬 于某類應(yīng)用的后驗(yàn)概率值;再根據(jù)在多個(gè)后驗(yàn)概率值中選取的最大后驗(yàn)概率值以及迭代后 的平均值,作為該數(shù)據(jù)流的當(dāng)前信度值;(3)判斷決策將數(shù)據(jù)流的當(dāng)前信度值與預(yù)設(shè)的判定閾值進(jìn)行比較,判定該數(shù)據(jù) 流所歸屬的應(yīng)用類別。所述步驟⑴包括下列操作內(nèi)容(11)因以太網(wǎng)絡(luò)的最大傳輸單元MTU (Maximum Transmission Unit)為1500字 節(jié),則其對(duì)應(yīng)的UDP分組負(fù)載長度的取值范圍為W 1472]字節(jié),將分組負(fù)載長度取值范 圍按照設(shè)定的區(qū)間長度AL劃分為多個(gè)等長的區(qū)間ek,其中,自然數(shù)k表示區(qū)間序號(hào);同時(shí) 設(shè)置數(shù)組Ck,以便使用其中的元素記錄數(shù)據(jù)流歸屬每個(gè)區(qū)間的分組數(shù)量,因此,該數(shù)組Ck中 元素的個(gè)數(shù)等于所述多個(gè)區(qū)間的總數(shù);(12)對(duì)于某類應(yīng)用流量的每個(gè)數(shù)據(jù)流中的每個(gè)分組執(zhí)行下述操作先讀取該分組包頭中的負(fù)載長度字段獲知該分組負(fù)載長度值λ,再按照公式
權(quán)利要求
1.一種在未知流量中識(shí)別點(diǎn)對(duì)點(diǎn)P2P流媒體流量的方法,其特征在于統(tǒng)計(jì)大量的包 含多類應(yīng)用的P2P流媒體數(shù)據(jù)流,提取其中分組的負(fù)載長度作為參量,推導(dǎo)得出其符合區(qū) 間離散分布特性的多類應(yīng)用樣本;對(duì)于未知流量,將傳輸層的用戶報(bào)文協(xié)議UDP流量以數(shù) 據(jù)流為單位輸入,提取該數(shù)據(jù)流中的各個(gè)分組而分別獲知其負(fù)載長度,根據(jù)應(yīng)用樣本得出 該分組屬于每類應(yīng)用的先驗(yàn)概率值,再結(jié)合貝葉斯公式計(jì)算其屬于每類應(yīng)用的后驗(yàn)概率 值,并從中得出其后驗(yàn)概率的最大值;接著,定義數(shù)據(jù)流的信度值,用于表示該數(shù)據(jù)流屬于 某一類應(yīng)用的可信度,再結(jié)合后驗(yàn)概率的最大值和通過迭代選取的平均值,作為該數(shù)據(jù)流 的當(dāng)前信度值;再將該數(shù)據(jù)流的當(dāng)前信度值和預(yù)設(shè)的判定閾值相比較,就判定得出該數(shù)據(jù) 流所歸屬的應(yīng)用類別。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于所述方法包括下述操作步驟(1)生成樣本統(tǒng)計(jì)包含多類應(yīng)用的大量UDP數(shù)據(jù)流,根據(jù)其中分組的負(fù)載長度分布特 性進(jìn)行擬合,得到符合區(qū)間離散分布特性的各類應(yīng)用樣本;(2)似然計(jì)算對(duì)于輸入的未知流量,先獲知每個(gè)數(shù)據(jù)流的各個(gè)分組的負(fù)載長度,并根 據(jù)應(yīng)用樣本得出該分組屬于每類應(yīng)用的先驗(yàn)概率值;再按照貝葉斯公式分別計(jì)算其屬于某 類應(yīng)用的后驗(yàn)概率值;再根據(jù)在多個(gè)后驗(yàn)概率值中選取的最大后驗(yàn)概率值以及迭代后的平 均值,作為該數(shù)據(jù)流的當(dāng)前信度值;(3)判斷決策將數(shù)據(jù)流的當(dāng)前信度值與預(yù)設(shè)的判定閾值進(jìn)行比較,判定該數(shù)據(jù)流所 歸屬的應(yīng)用類別。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于所述步驟(1)包括下列操作內(nèi)容(11)因以太網(wǎng)絡(luò)的最大傳輸單元MTU為1500字節(jié),則其對(duì)應(yīng)的UDP分組負(fù)載長度的 取值范圍為W 1472]字節(jié),將分組負(fù)載長度取值范圍按照設(shè)定的區(qū)間長度AL劃分為多 個(gè)等長的區(qū)間9k,其中,自然數(shù)k表示區(qū)間序號(hào);同時(shí)設(shè)置數(shù)組Ck,以便使用其中的元素記 錄數(shù)據(jù)流歸屬每個(gè)區(qū)間的分組數(shù)量,因此,該數(shù)組Ck中元素的個(gè)數(shù)等于所述多個(gè)區(qū)間的總 數(shù);(12)對(duì)于某類應(yīng)用流量的每個(gè)數(shù)據(jù)流中的每個(gè)分組執(zhí)行下述操作先讀取該分組包頭中的負(fù)載長度字段獲知該分組負(fù)載長度值λ,再按照公式 7 「/I]k= — i十震ti 紛細(xì)M白嫗丨旬將,財(cái)黃満胃頓舶±^( ;ALI I當(dāng)該分組根據(jù)其負(fù)載長度歸屬某個(gè)區(qū)間時(shí),就將數(shù)組Ck中與該區(qū)間對(duì)應(yīng)的元素?cái)?shù)值遞增加 1 ;(13)當(dāng)每個(gè)數(shù)據(jù)流中的所有分組都處理后,就獲得該數(shù)據(jù)流的所有分組的負(fù)載長度分 別歸屬各個(gè)區(qū)間的信息,即得到各個(gè)區(qū)間內(nèi)分組個(gè)數(shù)的分布概率密度,用作該數(shù)據(jù)流的區(qū) 間離散分布樣本;(14)對(duì)同一類應(yīng)用的多條數(shù)據(jù)流重復(fù)執(zhí)行步驟(1 和(13),生成該類應(yīng)用的多個(gè)區(qū) 間離散分布樣本Sp式中,自然數(shù)j為數(shù)據(jù)流的序號(hào);當(dāng)同類應(yīng)用的采樣數(shù)據(jù)流數(shù)量足夠大 時(shí),將所有采樣的樣本1的平均值S,作為該類應(yīng)用的分組負(fù)載長度分布特性樣本,該樣本 的數(shù)據(jù)格式為 < 區(qū)間序號(hào),分布概率> ;(15)對(duì)不同類應(yīng)用的多條數(shù)據(jù)流分別重復(fù)執(zhí)行步驟(1 (14),得到對(duì)應(yīng)的不同類應(yīng)用的多個(gè)分組負(fù)載長度分布特性樣本。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于所述步驟(2)包括下列操作內(nèi)容(21)因以數(shù)據(jù)流中的分組作為處理單元,故先獲知每個(gè)分組的負(fù)載長度,并據(jù)此確定 其所歸屬區(qū)間以及其在多類應(yīng)用對(duì)應(yīng)區(qū)間的分布概率,即該分組歸屬已知的第i類應(yīng)用的 先驗(yàn)概率值PUlDi),其中,Di為第i類應(yīng)用,其自然數(shù)下標(biāo)i為應(yīng)用類別序號(hào),χ表示分組 歸屬于第i類應(yīng)用對(duì)應(yīng)的某個(gè)區(qū)間的事件;(22)根據(jù)貝葉斯公式·
5.根據(jù)權(quán)利要求3所述的方法,其特征在于所述步驟(3)包括下列操作內(nèi)容(31)按照步驟O)的流程,對(duì)已知不同應(yīng)用類別的多個(gè)數(shù)據(jù)流分別計(jì)算信度值后,再 迭代計(jì)算其平均值,得到不同應(yīng)用類別中的每類應(yīng)用的判定閾值;(32)對(duì)于輸入的未知流量,將獲知的數(shù)據(jù)流的當(dāng)前信度值B和判定閾值進(jìn)行比較如 果信度值B大于或等于設(shè)定閾值,則判定該數(shù)據(jù)流屬于P2P流媒體應(yīng)用的流量;否則,返回 執(zhí)行步驟O),繼續(xù)處理該數(shù)據(jù)流中的后續(xù)分組;(33)根據(jù)數(shù)組S中的最大值元素的下標(biāo)序號(hào),確定當(dāng)前數(shù)據(jù)流歸屬的具體應(yīng)用類別。
全文摘要
一種在未知流量中識(shí)別P2P流媒體流量的方法,是先統(tǒng)計(jì)大量的包含多類應(yīng)用的P2P流媒體數(shù)據(jù)流,提取其中分組的負(fù)載長度作為參量,推導(dǎo)出其符合區(qū)間離散分布特性的多類應(yīng)用樣本;再對(duì)未知流量中傳輸層的UDP流量以數(shù)據(jù)流為單位輸入,提取其中每個(gè)分組而獲知其負(fù)載長度,根據(jù)應(yīng)用樣本得出該分組屬于每類應(yīng)用的先驗(yàn)概率值,結(jié)合貝葉斯公式計(jì)算其屬于每類應(yīng)用的后驗(yàn)概率值,并選取其中最大值;定義表示數(shù)據(jù)流屬于某類應(yīng)用的可信度的信度值,再結(jié)合后驗(yàn)概率的最大值和通過迭代選取的平均值,作為該數(shù)據(jù)流的當(dāng)前信度值;最后將該數(shù)據(jù)流的當(dāng)前信度值和預(yù)設(shè)的判定閾值相比較,就判定得出該數(shù)據(jù)流歸屬的應(yīng)用類別。本發(fā)明處理速度快、存儲(chǔ)空間小,應(yīng)用范圍廣。
文檔編號(hào)H04L12/26GK102098346SQ20111004343
公開日2011年6月15日 申請日期2011年2月23日 優(yōu)先權(quán)日2011年2月23日
發(fā)明者王洪波, 程時(shí)端, 鄭璐 申請人:北京郵電大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1