亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種協(xié)同流的識別方法、系統(tǒng)以及使用該方法的服務(wù)器與流程

文檔序號:11263642閱讀:312來源:國知局
一種協(xié)同流的識別方法、系統(tǒng)以及使用該方法的服務(wù)器與流程

本發(fā)明涉及通信網(wǎng)絡(luò)中的數(shù)據(jù)處理領(lǐng)域,尤其涉及一種協(xié)同流的識別方法、系統(tǒng)以及使用該方法的服務(wù)器。



背景技術(shù):

新興的網(wǎng)絡(luò)并行技術(shù)的廣泛應(yīng)用,導(dǎo)致一種新的計算機網(wǎng)絡(luò)概念的出現(xiàn),即是協(xié)同流(coflow)。協(xié)同流的定義是一組具有語義關(guān)系(semanticrelationship)或者關(guān)聯(lián)關(guān)系(correlationrelationship)的數(shù)據(jù)流的集合。協(xié)同流中的數(shù)據(jù)流往往屬于同一個任務(wù),因此協(xié)同流在對網(wǎng)絡(luò)服務(wù)的性能要求上是一致的,即是最小化最遲數(shù)據(jù)流的完成時間,或者是協(xié)同流中的數(shù)據(jù)流需要在相同期限內(nèi)完成傳輸。

協(xié)同流概念的出現(xiàn),為網(wǎng)絡(luò)服務(wù)帶來巨大的機遇和挑戰(zhàn)。機遇在于現(xiàn)有的網(wǎng)絡(luò)調(diào)度算法往往以數(shù)據(jù)流為單位,這種以數(shù)據(jù)流為單位的調(diào)度算法沒有充分利用數(shù)據(jù)流之間的語義關(guān)系,因此以流為單位的調(diào)度只能優(yōu)化流層面的性能指標(biāo),但在集群計算(clusteringcomputing)的場景下無法發(fā)揮有效作用。這是由于在集群計算的應(yīng)用場景中,只有從屬同一個計算任務(wù)的數(shù)據(jù)流均到達目的終端的情況下,計算任務(wù)才能進入下一個步驟。因此,以流為單位而不考慮數(shù)據(jù)流之間的語義關(guān)系的調(diào)度算法,可能帶來的結(jié)果是從屬同一個任務(wù)的前面幾個數(shù)據(jù)流都很快完成傳輸,然而最后一個數(shù)據(jù)流在傳輸過程中出現(xiàn)很長的延遲,這種情況從終端應(yīng)用的角度來說,網(wǎng)絡(luò)的服務(wù)質(zhì)量是很差的。如果調(diào)度算法考慮了數(shù)據(jù)流之間的協(xié)同關(guān)系,將協(xié)同流中的所有數(shù)據(jù)流當(dāng)做一個整體進行調(diào)度,就可以保證從屬于同一個任務(wù)的數(shù)據(jù)流能夠在合理的時間間隔內(nèi)完成傳輸,從而保證終端應(yīng)用的計算可以及時地進入下一個階段。

然而,協(xié)同流的出現(xiàn),帶來了挑戰(zhàn)在于協(xié)同流信息往往無法直接地顯式地從數(shù)據(jù)流的報頭獲取。這是由于產(chǎn)生數(shù)據(jù)流的終端應(yīng)用,在通常的情況下并不會在數(shù)據(jù)流的報頭中提供任何顯式的信息,作協(xié)同流識別之用。

目前,現(xiàn)有技術(shù)方案提出通過聚類的方式識別網(wǎng)絡(luò)中活躍數(shù)據(jù)流的協(xié)同關(guān)系。此方案無需對產(chǎn)生數(shù)據(jù)流的終端應(yīng)用進行任何內(nèi)核修改,也無需要求終端應(yīng)用顯式地向網(wǎng)絡(luò)運營商提供任何有關(guān)協(xié)同流或者任務(wù)層面的信息。相反地,該技術(shù)方案基于的原理是:對于從屬同一個協(xié)同流的數(shù)據(jù)流,往往在發(fā)送時間上很接近。該技術(shù)方案提出通過提取數(shù)據(jù)流的發(fā)送時間作為特征,利用k-means算法對數(shù)據(jù)流進行聚類,再用調(diào)度算法根據(jù)聚類得到的協(xié)同流信息,對網(wǎng)絡(luò)中的數(shù)據(jù)流進行調(diào)度,提高網(wǎng)絡(luò)的服務(wù)性能。然而,網(wǎng)絡(luò)產(chǎn)生數(shù)據(jù)流的頻率非常高,即使在一個非常短暫的單位時間內(nèi),比如一秒,小型的數(shù)據(jù)中心可以產(chǎn)生成千上萬的數(shù)據(jù)流,然而這些數(shù)據(jù)流可能并不屬于同一個協(xié)同流。因此采用數(shù)據(jù)里發(fā)送時間作為唯一的特征,可能導(dǎo)致聚類的準確率很低,因為該方案很有可能將沒有任何語義關(guān)系的數(shù)據(jù)流歸為同一個協(xié)同流,僅僅由于這些數(shù)據(jù)流的發(fā)送時間很接近。



技術(shù)實現(xiàn)要素:

本發(fā)明實施例提供了一種協(xié)同流的識別方法、系統(tǒng)以及使用該方法的服務(wù)器,用于有效地提高了協(xié)同流的識別準確度,同時無需對應(yīng)用進行內(nèi)核修改,從而提高了協(xié)同流識別的時效性,滿足網(wǎng)絡(luò)調(diào)度的實時性需求。

第一方面,提供了一種協(xié)同流的識別方法,用于在網(wǎng)絡(luò)數(shù)據(jù)傳輸過程中識別協(xié)同流,其特征在于,所述方法包括:服務(wù)器獲取網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流報頭信息;

根據(jù)所述數(shù)據(jù)流的報頭信息獲取流層面數(shù)據(jù)特征、應(yīng)用層面數(shù)據(jù)流特征以及終端層面數(shù)據(jù)特征,其中所述數(shù)據(jù)流層面數(shù)據(jù)特征包括發(fā)送時間的距離 度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量以及傳輸協(xié)議的距離度量中的至少一種,所述應(yīng)用層面數(shù)據(jù)流特征包括應(yīng)用層面數(shù)據(jù)流特征距離,所述應(yīng)用層面數(shù)據(jù)流特征距離用于指示數(shù)據(jù)傳輸?shù)哪康牡氐刂泛湍康牡囟丝诘木酆铣潭然驍?shù)據(jù)發(fā)送端ip地址集合的重疊程度,所述終端層面數(shù)據(jù)特征包括終端層面數(shù)據(jù)特征距離,所述終端層面數(shù)據(jù)特征距離用于指示數(shù)據(jù)流是否屬于同一終端群落;

根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得權(quán)重矩陣,所述權(quán)重矩陣用于使得從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大,所述特征距離為所述數(shù)據(jù)流層面數(shù)據(jù)特征中的各度量、所述應(yīng)用層面數(shù)據(jù)流特征距離以及述終端層面數(shù)據(jù)特征距離中的至少兩種的加權(quán)距離;

根據(jù)所述數(shù)據(jù)流層面數(shù)據(jù)特征的度量、所述應(yīng)用層面數(shù)據(jù)流特征距離,所述終端層面數(shù)據(jù)特征距離以及所述權(quán)重矩陣,計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離;

根據(jù)網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離,通過聚類算法將所述網(wǎng)絡(luò)中的數(shù)據(jù)流分為若干個聚類集合,其中每一聚合流中的任意一個數(shù)據(jù)流與相同聚合流中任意另一個數(shù)據(jù)流的特征距離小于與不相同聚合流中任意一個數(shù)據(jù)流的特征距離,所述若干聚類集合中每一聚類集合為一協(xié)同流。

結(jié)合第一方面,在第一方面的第一種實現(xiàn)方式中,所述數(shù)據(jù)流報頭信息包括:數(shù)據(jù)流的源ip地址、數(shù)據(jù)流的源端口、數(shù)據(jù)流的目的地ip地址、數(shù)據(jù)流的目的地端口、數(shù)據(jù)流發(fā)送時間以及數(shù)據(jù)流的使用的傳輸協(xié)議。

本申請實施例中涉及的數(shù)據(jù)特征來源,可根據(jù)數(shù)據(jù)流的報頭信息提取,從而使用與現(xiàn)有的大多數(shù)網(wǎng)絡(luò)系統(tǒng)。

結(jié)合第一方面或第一方面的第一種實現(xiàn)方式,在第一方面的第二種實現(xiàn)方式中,所述發(fā)送時間的距離度量為兩數(shù)據(jù)流發(fā)送時間的差值絕對值;所述數(shù)據(jù)包長度平均值度量為兩數(shù)據(jù)流在數(shù)據(jù)包長度上平均值差值的絕對值;所述數(shù)據(jù)包長度方差度量為兩數(shù)據(jù)流在數(shù)據(jù)包長度上方差差值的絕對值;所述數(shù)據(jù)包到達時間間隔的平均值度量為兩數(shù)據(jù)流在數(shù)據(jù)包傳輸時間間隔上平均值差值的絕對值;所述數(shù)據(jù)包到達時間間隔方差度量為兩數(shù)據(jù)流在數(shù)據(jù)包傳輸時間間隔上方差差值的絕對值;所述傳輸協(xié)議的距離度量指示數(shù)據(jù)包傳輸協(xié)議是否相同,如果相同為一非零常數(shù),不同則為零。

本申請實施例中通過量化各個特征來計算并識別協(xié)同流,從而提高數(shù)據(jù)處理的自動化以及智能化。

結(jié)合第一方面或第一方面的第一種實現(xiàn)方式或第一方面的第二種實現(xiàn)方式,在第一方面的第三種實現(xiàn)方式中,所述根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得權(quán)重矩陣包括:根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)獲取多維特征距離向量,所述多維特征距離向量包括至少兩個維度,所述至少兩個維度對應(yīng)包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量、傳輸協(xié)議的距離度量、應(yīng)用層面數(shù)據(jù)流特征距離以及終端層面數(shù)據(jù)特征距離中的至少兩種,每一度量或特征距離構(gòu)成所述多維特征距離向量的一個維度;根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得所述多維特征距離向量的權(quán)重矩陣,以通過學(xué)習(xí)機制根據(jù)不同維度的特征距離對協(xié)同流識別有不同的作用來分配不同的權(quán)重,以使從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大。

結(jié)合第一方面或第一方面的上述三種實現(xiàn)方式中任一種實現(xiàn)方式,在第一方面的第四種實現(xiàn)方式中,所述根據(jù)所述數(shù)據(jù)流層面數(shù)據(jù)特征的度量,所述應(yīng)用層面數(shù)據(jù)流特征距離,述終端層面數(shù)據(jù)特征距離以及所述權(quán)重矩陣, 計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離,包括:根據(jù)所述多維特征距離向量以及權(quán)重矩陣計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離。

結(jié)合第一方面或第一方面的上述四種實現(xiàn)方式中任一種實現(xiàn)方式,在第一方面的第五種實現(xiàn)方式中,所述根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得所述多維特征距離向量的權(quán)重矩陣,包括:

將網(wǎng)絡(luò)中歷史數(shù)據(jù)流按照是否屬于同一個協(xié)同流,分為兩個數(shù)據(jù)流對集合,所述兩個數(shù)據(jù)流對集合分別對應(yīng)協(xié)同流數(shù)據(jù)集以及非協(xié)同流數(shù)據(jù)集;

找出一個半正定矩陣a,使得目標(biāo)函數(shù):

的計算結(jié)果最小化,

其中,||fi-fj||a表示任意兩個數(shù)據(jù)流的特征距離,也就是所述數(shù)據(jù)流層面數(shù)據(jù)特征中的各度量、所述應(yīng)用層面數(shù)據(jù)流特征距離以及所述終端層面數(shù)據(jù)特征距離中的至少兩種的加權(quán)距離,d(i,j)為多維特征距離向量,d(i,j)t為多維特征距離向量的倒置矩陣,a為權(quán)重矩陣。

第二方面提供了一種服務(wù)器,其特征在于,所述服務(wù)器包括信息獲取模塊、特征提取模塊、權(quán)重學(xué)習(xí)模塊、特征距離計算模塊以及協(xié)同流聚類模塊,其中所述信息獲取模塊用于獲取網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流報頭信息以及網(wǎng)絡(luò)中的歷史數(shù)據(jù);

所述特征提取模塊用于從所述數(shù)據(jù)流報頭信息中提取的流層面數(shù)據(jù)特征、應(yīng)用層面數(shù)據(jù)流特征以及終端層面數(shù)據(jù)特征;

所述權(quán)重學(xué)習(xí)模塊用于根據(jù)網(wǎng)絡(luò)中的所述歷史數(shù)據(jù)學(xué)習(xí)獲得權(quán)重矩陣,所述權(quán)重矩陣用于使得從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而 從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大,所述特征距離為所述數(shù)據(jù)流層面數(shù)據(jù)特征、所述應(yīng)用層面數(shù)據(jù)流特征以及述終端層面數(shù)據(jù)特征的加權(quán)距離;所述特征距離計算模塊用于根據(jù)所述數(shù)據(jù)流層面數(shù)據(jù)特征的度量、所述應(yīng)用層面數(shù)據(jù)流特征距離,所述終端層面數(shù)據(jù)特征距離以及所述權(quán)重矩陣,計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離;

所述協(xié)協(xié)同流聚類模塊用于根據(jù)網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離,通過聚類算法將所述網(wǎng)絡(luò)中的數(shù)據(jù)流分為若干個聚類集合,其中每一聚合流中的任意一個數(shù)據(jù)流與相同聚合流中任意另一個數(shù)據(jù)流的特征距離小于與不相同聚合流中任意一個數(shù)據(jù)流的特征距離,所述若干聚類集合中每一聚類集合為一協(xié)同流。

第三方面提供一種服務(wù)器,包括接收端口、處理器以及存儲器,所述接收端口用于接收網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流報頭信息;

所述處理器用于根據(jù)所述數(shù)據(jù)流的報頭信息獲取流層面數(shù)據(jù)特征、應(yīng)用層面數(shù)據(jù)流特征以及終端層面數(shù)據(jù)特征以及根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得權(quán)重矩陣,再根據(jù)所述數(shù)據(jù)流層面數(shù)據(jù)特征的度量、所述應(yīng)用層面數(shù)據(jù)流特征距離,所述終端層面數(shù)據(jù)特征距離以及所述權(quán)重矩陣,計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離,最后根據(jù)網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離,通過聚類算法將所述網(wǎng)絡(luò)中的數(shù)據(jù)流分為若干個聚類集合,所述若干聚類集合中每一聚類集合為一協(xié)同流;

所述存儲器用于存儲所述流層面數(shù)據(jù)特征、所述應(yīng)用層面數(shù)據(jù)流特征、所述終端層面數(shù)據(jù)特征、所述網(wǎng)絡(luò)中歷史數(shù)據(jù)以及所述加權(quán)矩陣。結(jié)合第三方面,在第三方面的第一種實現(xiàn)方式中,所述數(shù)據(jù)流層面數(shù)據(jù)特征包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量以及傳輸協(xié)議的距離度量中的至少一種,所述應(yīng)用層面數(shù)據(jù)流特征包括應(yīng)用層面數(shù)據(jù)流特征距離, 所述應(yīng)用層面數(shù)據(jù)流特征距離用于指示數(shù)據(jù)傳輸?shù)哪康牡氐刂泛湍康牡囟丝诘木酆铣潭然驍?shù)據(jù)發(fā)送端ip地址集合的重疊程度,所述終端層面數(shù)據(jù)特征包括終端層面數(shù)據(jù)特征距離,所述終端層面數(shù)據(jù)特征距離用于指示數(shù)據(jù)流是否屬于同一終端群落。

結(jié)合第三方面或第三方面的第一種實現(xiàn)方式,在第三方面的第二種實現(xiàn)方式中,所述權(quán)重矩陣用于使得從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大,所述特征距離為所述數(shù)據(jù)流層面數(shù)據(jù)特征中的各度量、所述應(yīng)用層面數(shù)據(jù)流特征距離以及述終端層面數(shù)據(jù)特征距離中的至少兩種的加權(quán)距離。

第四方面提供一種協(xié)同流的識別裝置,用于在網(wǎng)絡(luò)數(shù)據(jù)傳輸過程中識別協(xié)同流,所述裝置包括:

信息獲取模塊,用于獲取網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流報頭信息以及網(wǎng)路中的歷史數(shù)據(jù);

特征提取模塊,用于根據(jù)所述數(shù)據(jù)流的報頭信息獲取流層面數(shù)據(jù)特征、應(yīng)用層面數(shù)據(jù)流特征以及終端層面數(shù)據(jù)特征,其中所述數(shù)據(jù)流層面數(shù)據(jù)特征包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量以及傳輸協(xié)議的距離度量中的至少一種,所述應(yīng)用層面數(shù)據(jù)流特征包括應(yīng)用層面數(shù)據(jù)流特征距離,所述應(yīng)用層面數(shù)據(jù)流特征距離用于指示數(shù)據(jù)傳輸?shù)哪康牡氐刂泛湍康牡囟丝诘木酆铣潭然驍?shù)據(jù)發(fā)送端ip地址集合的重疊程度,所述終端層面數(shù)據(jù)特征包括終端層面數(shù)據(jù)特征距離,所述終端層面數(shù)據(jù)特征距離用于指示數(shù)據(jù)流是否屬于同一終端群落;

權(quán)重學(xué)習(xí)模塊,用于根據(jù)所述網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得權(quán)重矩陣,所述權(quán)重矩陣用于使得從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大,所述特征距離為所述數(shù)據(jù)流層面數(shù)據(jù)特征中的各度量、所述應(yīng)用層面數(shù)據(jù)流特征距離以及述終端層面數(shù)據(jù) 特征距離中的至少兩種的加權(quán)距離;

特征距離計算模塊,用于根據(jù)所述數(shù)據(jù)流層面數(shù)據(jù)特征的度量、所述應(yīng)用層面數(shù)據(jù)流特征距離,所述終端層面數(shù)據(jù)特征距離以及所述權(quán)重矩陣,計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離;

聚類模塊,用于根據(jù)網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離,通過聚類算法將所述網(wǎng)絡(luò)中的數(shù)據(jù)流分為若干個聚類集合,其中每一聚合流中的任意一個數(shù)據(jù)流與相同聚合流中任意另一個數(shù)據(jù)流的特征距離小于與不相同聚合流中任意一個數(shù)據(jù)流的特征距離,所述若干聚類集合中每一聚類集合為一協(xié)同流。

結(jié)合第四方面,在第四方面的第一種實現(xiàn)方式中,所述權(quán)重學(xué)習(xí)模塊還用于根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)獲取多維特征距離向量,所述多維特征距離向量包括至少三個維度,所述至少三個維度包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量以及傳輸協(xié)議的距離度量中的至少一種度量以及應(yīng)用層面數(shù)據(jù)流特征距離和終端層面數(shù)據(jù)特征距離,每一度量或特征距離構(gòu)成所述多維特征距離向量的一個維度;再根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得所述多維特征距離向量的權(quán)重矩陣,以通過學(xué)習(xí)機制根據(jù)不同維度的特征距離對協(xié)同流識別有不同的作用來分配不同的權(quán)重,以使從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大。

第五方面包括一種協(xié)同流的識別系統(tǒng),包括第二、三四方面中任意一種實現(xiàn)方式的服務(wù)器和一從服務(wù)器,所述從服務(wù)器包括一個或多個流信息篩選模塊,每一個流信息篩選模塊用于獲取至少一個終端的數(shù)據(jù)流的報頭信息,并將所述數(shù)據(jù)流的報頭信息發(fā)送給所述服務(wù)器。

上述協(xié)同流識別的方法、系統(tǒng)以及裝置,對終端,應(yīng)用以及所產(chǎn)生的數(shù)據(jù)流不同層面的行為模式,提取有效的特征向量,該特征向量涵括了終端群 落,應(yīng)用的數(shù)據(jù)發(fā)送路徑以及數(shù)據(jù)流的發(fā)送時間、發(fā)送間隔等流微觀行為模式,為協(xié)同流識別提供了全面有效的信息,然后用這些特征構(gòu)成特征向量,來作為聚類算法提供重要輸入,再根據(jù)訓(xùn)練數(shù)據(jù),全靠各個特征對協(xié)同流識別的作用不同而學(xué)習(xí)出特征向量中每一個維度的特征的權(quán)重,以提高協(xié)同流識別的準確率。

附圖說明

圖1為本發(fā)明實施例中一種協(xié)同流識別系統(tǒng)的示意圖。

圖2為本發(fā)明實施例一中一種協(xié)同流的識別方法的流程示意圖。

圖3a和3b為本發(fā)明實施例一中聚合流的通信模式示意圖。

圖4為本發(fā)明實施例一中協(xié)同流的識別方法的識別協(xié)同流效果實驗數(shù)據(jù)圖。

圖5為本發(fā)明實施例一中協(xié)同流的識別方法中除去終端層面數(shù)據(jù)特征的識別協(xié)同流效果實驗數(shù)據(jù)圖。

圖6為本發(fā)明實施例一中協(xié)同流的識別方法中除去權(quán)重學(xué)習(xí)模塊的識別協(xié)同流效果實驗數(shù)據(jù)圖。

圖7為本發(fā)明實施例三中協(xié)同流識別系統(tǒng)中的服務(wù)器示意圖。

圖8為本發(fā)明實施例四中協(xié)同流識別系統(tǒng)中的服務(wù)器示意圖。

具體實施方式

下面通過附圖和實施例,對本發(fā)明的技術(shù)方案做進一步的詳細描述。

本發(fā)明主要涉及如何不通過修改終端的應(yīng)用內(nèi)核等情況下,根據(jù)數(shù)據(jù)流的特征以及產(chǎn)生數(shù)據(jù)流的應(yīng)用及終端的行為特征,通過聚類的方法實時地將網(wǎng)絡(luò)中數(shù)據(jù)流所屬的協(xié)同流識別出來。

例如,針對終端,應(yīng)用以及所產(chǎn)生的數(shù)據(jù)流不同層面的行為模式,提取有效的特征向量。該特征向量涵括了終端群聚模式,應(yīng)用的數(shù)據(jù)發(fā)送模式以 及數(shù)據(jù)流的發(fā)送時間,發(fā)送間隔等流微觀行為模式,為協(xié)同流識別提供了全面有效的信息,從而從三個不同模式或?qū)哟翁崛√卣鬟M行協(xié)同流識別。同時,本發(fā)明還通過訓(xùn)練數(shù)據(jù),自動地學(xué)習(xí)出每一個維度的特征所對應(yīng)的權(quán)重。根據(jù)所獲得的不同層次特征以及相應(yīng)的權(quán)重,采用聚類算法,對數(shù)據(jù)流進行聚類,獲得網(wǎng)絡(luò)中數(shù)據(jù)流的協(xié)同信息。

本發(fā)明主要包括以下特點:提出采用三個層面的特征包括從終端群聚模式,應(yīng)用發(fā)送模式以及流微觀行為模式中提取有效的特征,構(gòu)成特征向量,作為聚類算法提供重要輸入;根據(jù)訓(xùn)練數(shù)據(jù),自動地學(xué)習(xí)出特征向量中每一個維度的特征的權(quán)重,以提高協(xié)同流識別的準確率;利用所獲得的特征向量以及權(quán)重,采用聚類算法對網(wǎng)絡(luò)中的數(shù)據(jù)流實現(xiàn)在線聚類,獲得協(xié)同流信息。

實施例一

如圖1所示,本發(fā)明實施例涉及一種協(xié)同流的識別方法,用于在網(wǎng)絡(luò)數(shù)據(jù)傳輸過程中識別協(xié)同流,所述用于傳輸數(shù)據(jù)的網(wǎng)絡(luò),主要包括終端、從服務(wù)器以及主服務(wù)。

所述從服務(wù)器包括一個或多個流信息篩選模塊,每一個流信息篩選模塊對應(yīng)一個終端,用于采集終端的數(shù)據(jù)流信息并通過攜帶在網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流報頭信息中傳送給主服務(wù)器。

在一些實施例中,可以不存在從服務(wù),流信息篩選模塊可以直接設(shè)置在主服務(wù)器上。

所述主服務(wù)器包括流層面數(shù)據(jù)特征提取模塊、應(yīng)用層面數(shù)據(jù)流特征提取模塊、終端層面數(shù)據(jù)特征提取模塊、權(quán)重學(xué)習(xí)模塊、特征距離計算模塊以及協(xié)同流聚類模塊。

所述主服務(wù)器通過所述流層面數(shù)據(jù)特征提取模塊、所述應(yīng)用層面數(shù)據(jù)流 特征提取模塊以及所述終端層面數(shù)據(jù)特征提取模塊從所述從服務(wù)器發(fā)送的數(shù)據(jù)流報頭信息中提取對應(yīng)的流層面數(shù)據(jù)特征、應(yīng)用層面數(shù)據(jù)流特征以及終端層面數(shù)據(jù)特征。

同時參閱圖2所示,本發(fā)明實施例涉及一種協(xié)同流的識別方法,包括以下五大步驟101至105:

步驟101,服務(wù)器獲取網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流的報頭信息。

所述服務(wù)器可以直接通過截取網(wǎng)絡(luò)中傳輸?shù)臄?shù)據(jù)獲取所述數(shù)據(jù)流報頭信息,也可說通過位于從服務(wù)器或終端中流信息采集模塊來獲取所述數(shù)據(jù)流報頭信息。

所述流信息采集模塊在新數(shù)據(jù)流到來時,提取數(shù)據(jù)流數(shù)據(jù)包報頭的信息。其中,對協(xié)同流有關(guān)鍵作用的特征包括數(shù)據(jù)流的源ip地址(sourceipaddress),源端口(serverport),目的地ip地址(destinationipaddress),目的地端口(clientport),數(shù)據(jù)流發(fā)送時間(starttime),數(shù)據(jù)流使用的傳輸協(xié)議(protocol),然后,所述流信息采集模塊再將獲取的信息發(fā)送給所述服務(wù)器。

采集這些信息是因為在網(wǎng)絡(luò)中,可能存在一些用戶行為模式。比如某些源ip地址可能通過某些端口定期地向某些目的地ip地址發(fā)送使用某種傳輸協(xié)議的一組數(shù)據(jù)流,這些數(shù)據(jù)流可能屬于同一個任務(wù)的協(xié)同流。

所述流信息采集篩選模塊還將對數(shù)據(jù)流進行初篩,將完成傳輸和非tcp(transmissioncontrolprotocol)的數(shù)據(jù)流篩去,并且定期地將采集篩選得到的數(shù)據(jù)流信息上報給主服務(wù)器系統(tǒng)。

步驟102,根據(jù)所述數(shù)據(jù)流的報頭信息獲取流層面數(shù)據(jù)特征、應(yīng)用層面數(shù)據(jù)流特征以及終端層面數(shù)據(jù)特征,其中所述數(shù)據(jù)流層面數(shù)據(jù)特征包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量、傳輸協(xié)議的距離度量中的至少一種,所述應(yīng)用層面數(shù)據(jù)流特征包括應(yīng)用層面數(shù)據(jù)流特征距離,所述應(yīng)用層面數(shù)據(jù)流特征距離用于指示數(shù)據(jù)傳輸?shù)哪康牡氐刂泛湍康牡囟丝? 的重疊程度或數(shù)據(jù)發(fā)送端ip地址集合的重疊程度,所述終端層面數(shù)據(jù)特征包括終端層面數(shù)據(jù)特征距離,所述終端層面數(shù)據(jù)特征距離用于指示數(shù)據(jù)流是否屬于同一終端群落,其中所述終端群落是指由具有某一共同屬性或特性的至少一個終端組成的集合。

所述流層面數(shù)據(jù)特征中的發(fā)送時間的距離度量為兩數(shù)據(jù)流發(fā)送時間的差值絕對值。

由于協(xié)同流中的數(shù)據(jù)流屬于同一個任務(wù),為了任務(wù)能夠順利完成,這些數(shù)據(jù)流往往是幾乎同時發(fā)送的。因此,衡量兩個數(shù)據(jù)流是否屬于同一個協(xié)同流,一個重要的方法就是度量兩個數(shù)據(jù)流的發(fā)送時間差。例如,從兩個活躍數(shù)據(jù)流的數(shù)據(jù)包報頭分別提取了時間戳si,time和sj,time。發(fā)送時間是一個簡單的整數(shù)型變量,因此所述發(fā)送時間的距離度量可以定義為兩個發(fā)送時間的差值絕對值。

所述根據(jù)所述數(shù)據(jù)流的報頭信息獲取流層面數(shù)據(jù)特征中的發(fā)送時間的距離度量的步驟如下:

所述發(fā)送時間的距離度量:dt(si,time,sj,time)=|si,time-sj,time|,si,time和sj,time為兩數(shù)據(jù)流的發(fā)送時間。

所述流層面數(shù)據(jù)特征中的數(shù)據(jù)包長度平均值度量為兩數(shù)據(jù)流在數(shù)據(jù)包長度上平均值差值的絕對值,而所述流層面數(shù)據(jù)特征中的數(shù)據(jù)包長度方差度量為兩數(shù)據(jù)流在數(shù)據(jù)包長度上方差差值的絕對值。

由于屬于同一個協(xié)同流的數(shù)據(jù)流,很多場景下是由同一個應(yīng)用產(chǎn)生的,因此,這些數(shù)據(jù)流的數(shù)據(jù)包長度應(yīng)該服從相似的概率分布。因此,在流層面特征提取模塊中,提取數(shù)據(jù)流的數(shù)據(jù)包平均長度和方差:

數(shù)據(jù)流的數(shù)據(jù)包平均長度:

數(shù)據(jù)流的數(shù)據(jù)包長度方差:

其中,ni表示數(shù)據(jù)流i的數(shù)據(jù)包個數(shù),lij表示數(shù)據(jù)流i的第j個數(shù)據(jù)包的長度。

根據(jù)計算得到的數(shù)據(jù)流的數(shù)據(jù)包平均長度和方差,可以計算任意兩個活躍數(shù)據(jù)流在數(shù)據(jù)包長度平均值和方差度量的距離:

所述數(shù)據(jù)包長度平均值度量:dmsize(i,j)=|mi,size-mj,size|

所述數(shù)據(jù)包長度方差度量:dvsize(i,j)=|vi,size-vj,size|

所述數(shù)據(jù)包到達時間間隔的平均值度量為兩數(shù)據(jù)流在數(shù)據(jù)包傳輸達到時間間隔上平均值差值的絕對值;所述數(shù)據(jù)包到達時間間隔方差度量為兩數(shù)據(jù)流在數(shù)據(jù)包到達時間間隔上方差差值的絕對值。

相似地,由于協(xié)同流中的數(shù)據(jù)流很多情況下是由同一個應(yīng)用產(chǎn)生的,因此這些數(shù)據(jù)流在數(shù)據(jù)包之間傳輸?shù)臅r間間隔也應(yīng)該服從相似的概率分布。因此,首先計算數(shù)據(jù)流的數(shù)據(jù)包傳輸時間間隔平均值以及方差。

所述數(shù)據(jù)包到達時間間隔的平均值度量:

所述數(shù)據(jù)包傳輸時間間隔方差度量:

其中,δtij表示第i個數(shù)據(jù)流的第j個時間間隔。

同樣地,計算任意兩個活躍數(shù)據(jù)流在數(shù)據(jù)包到達時間間隔的距離體現(xiàn)為:

所述數(shù)據(jù)包到達時間間隔的平均值度量:dmint(i,j)=|mi,int-mj,int|,

所述數(shù)據(jù)包到達時間間隔方差度量:dvint(i,j)=|vi,int-vj,int|。

所述傳輸協(xié)議的距離度量指示數(shù)據(jù)包傳輸協(xié)議是否相同,如果相同為一非零常數(shù),不同則為零。

其中,同一個協(xié)同流中的數(shù)據(jù)流往往采用相同的傳輸協(xié)議,特別是tcp協(xié)議來傳輸數(shù)據(jù)。例如,在整個網(wǎng)絡(luò)數(shù)據(jù)流中,總共有n種不同的傳輸協(xié)議,比如prtcl={p1,p2,…pn},可以用一個n維的0-1向量變量來表示某個數(shù)據(jù)流使用的協(xié)議。當(dāng)該數(shù)據(jù)流使用的是第i種傳輸協(xié)議,則該向量的第i維為1,而其他維度均為0。比如在以下例子中,如果數(shù)據(jù)流使用的是第二種傳輸協(xié)議,則

定義兩種協(xié)議的距離度量為:

dprtcl(i,j)=||pri-prj||2

因而,所述兩種協(xié)議的距離度量取值為0或者

所述應(yīng)用層面數(shù)據(jù)流特征包括應(yīng)用層面數(shù)據(jù)流特征距離,下面描述具體如何提取應(yīng)用層面數(shù)據(jù)流特征以及如何計算應(yīng)用層面數(shù)據(jù)流特征距離:

所述應(yīng)用層面數(shù)據(jù)流特征主要反映產(chǎn)生數(shù)據(jù)流的應(yīng)用的行為模式特征。這對協(xié)同流識別有重要作用。根據(jù)對最可能產(chǎn)生協(xié)同流的應(yīng)用進行分析,可以獲得一些先驗知識,比如協(xié)同流比較可能產(chǎn)生于聚合流之中,對不屬于同一個聚合流的數(shù)據(jù)流,也有可能屬于同一協(xié)同流,對于并行計算應(yīng)用中不屬于一個聚合流的數(shù)據(jù)流,它們往往具有一個特點就是這些數(shù)據(jù)流都來著某些共同的終端。因此在應(yīng)用層面特征提取模塊實現(xiàn)了聚合流的識別,以及利用jacard相似度衡量終端的重疊程度,以及根據(jù)聚合流信息和jacard相似度定義任意兩個數(shù)據(jù)流在應(yīng)用層面的特征距離。

應(yīng)用層面的特征距離的計算,主要分為以下四個步驟實現(xiàn):

第一步:將所述數(shù)據(jù)流根據(jù)源ip地址進行聚合,找出網(wǎng)絡(luò)中的所有聚合流{aggk};

第二步:找出聚合流的源ip地址集合{srck};

第三步:對屬于同一個聚合流的數(shù)據(jù)流,直接賦值應(yīng)用層面的特征距離;

第四步:對不屬于同一個聚合流的數(shù)據(jù)流,計算jacard相似度并且計算應(yīng)用層面的特征距離。

應(yīng)用層面的特征距離的計算原理是在并行計算應(yīng)用如spark中,一個reduce節(jié)點可能會處理來著多個map節(jié)點的數(shù)據(jù),因此,如果兩個數(shù)據(jù)流的目的地ip地址和端口一致,則它們屬于同一個協(xié)同流的機會比較大。

通過對mapreduce計算平臺的應(yīng)用比如spark的行為分析,在計算啟動階段,sparkcontext對象在不同的計算節(jié)點啟動了執(zhí)行器,將任務(wù)分配給不同的執(zhí)行器,每一個執(zhí)行器都會建立自己的鏈接管理器,并分配了固定地端口號給鏈接管理器。在reduce階段,執(zhí)行器需要從其他的執(zhí)行器獲取數(shù)據(jù),因此在當(dāng)前執(zhí)行器和其他的執(zhí)行器之間會通過連接管理器建立鏈接。因此,其他的執(zhí)行器將發(fā)送數(shù)據(jù)到執(zhí)行reduce任務(wù)的執(zhí)行器的某個特殊的端口。因此,在此定義目的地地址和目的地端口一致的數(shù)據(jù)流為一個聚合流(flowaggregation)。如果兩個數(shù)據(jù)流屬于同一個聚合流,則它們屬于同一個協(xié)同流的概率比較大。因此,第一步是找出網(wǎng)絡(luò)中數(shù)據(jù)流的聚合流,如下式所示:

fi∈aggk,iffi,dst_ip=aggk,dst_ip&&fi,dst_port=aggk,dst_port;

其中,fi為一數(shù)據(jù)流,aggk為聚合流,fi,dst_ip,fi,dst_port表示數(shù)據(jù)流的目的地地址以及目的地端口,aggk,dst_port表示聚合流中數(shù)據(jù)流的目的地地址以及目的地端口。

計算出聚合流之后,對于任意兩個活躍數(shù)據(jù)流,需要計算它們在應(yīng)用層面特征之間的距離時,如果兩個數(shù)據(jù)流屬于同一個聚合流,則它們屬于同一個協(xié)同流的可能性很高,也就是它們在應(yīng)用層面特征距離很小,賦值為0。然而,對于不屬于同一個聚合流的兩個數(shù)據(jù)流,需要有區(qū)別的對待,如果它們的發(fā)送端ip地址集合重疊程度很高,那么它們屬于同一個協(xié)同流的機會仍然 很大,否則它們屬于同一個協(xié)同流的機會就很小。

根據(jù)上述分析,得到如下的應(yīng)用層面特征距離計算公式:

其中,dapp(i,j)為應(yīng)用層面特征距離,j(i,j)為對于不屬于同一個聚合流的兩個數(shù)據(jù)流的相似度。

所述相似度計算過程如下:

如圖3a和3b所示,對于不屬于同一個聚合流的數(shù)據(jù)流,也可能屬于同一個協(xié)同流。正如前面所述,在mapreduce應(yīng)用中,在數(shù)據(jù)shuffle階段,往往會出現(xiàn)運行的應(yīng)用服務(wù)器上的一種多對多的通信模式。

圖3a所示的通訊模式在mapreduce的datashuffle中很常見,也就是雖然兩個數(shù)據(jù)流不屬于同一個聚合流,但是這些數(shù)據(jù)流往往從相同的發(fā)送端集合發(fā)送出來,而圖3b所示的通訊模式在mapreduce中并不常見。因此,當(dāng)兩個數(shù)據(jù)流不屬于同一個聚合流時,可以根據(jù)它們的發(fā)送端ip地址集合的重復(fù)程度來計算它們在應(yīng)用層面的特征距離。

假設(shè)數(shù)據(jù)流i和數(shù)據(jù)流j所屬的聚合流的發(fā)送端ip地址集合分別為{srci}和{srcj},則衡量兩個發(fā)送端ip地址集合的重疊情況由如下的jacard相似度給出:

j(i,j)=|{srci}∩{srcj}|/|{srci}∪{srcj}|;

其中jarcard相似度越高,則兩個數(shù)據(jù)流所屬的聚合流的發(fā)送端ip地址集合重疊程度越高,則這兩個聚合流來著同一個任務(wù)的可能性越大,屬于同一個協(xié)同流的可能性也越大。

所述終端層面數(shù)據(jù)特征以及終端層面數(shù)據(jù)特征距離具體提取以及計算過程如下:

數(shù)據(jù)中心的流量矩陣往往是十分稀疏的,即是數(shù)據(jù)中心的終端具有群聚現(xiàn)象,可以定義有終端組成的群落為共同體。網(wǎng)絡(luò)中大部分的流量產(chǎn)生在穩(wěn) 定的共同體里面。根據(jù)這用網(wǎng)絡(luò)行為模式,網(wǎng)絡(luò)中雖然有數(shù)量眾多的終端,實際場景中終端具有一定的群聚現(xiàn)象,這種群聚現(xiàn)象指的是在網(wǎng)絡(luò)中所有的終端可能會分成若干個共同體,而網(wǎng)絡(luò)的流量很大程度上都是由共同體內(nèi)部的終端之間的通信產(chǎn)生的。而協(xié)同流很小概率會出現(xiàn)在跨共同體的數(shù)據(jù)流中間。因此,如果兩個數(shù)據(jù)流屬于同一個共同體內(nèi),它們屬于同一個協(xié)同流的機會更大。相反,如果兩個數(shù)據(jù)流分屬于兩個不同的共同體,或者是某一個數(shù)據(jù)流屬于跨共同體數(shù)據(jù)流,則他們屬于一個協(xié)同流的概率較低。因此,終端層面特征提取模塊的最主要任務(wù)是從網(wǎng)絡(luò)的過往發(fā)送行為中發(fā)現(xiàn)網(wǎng)絡(luò)中的共同體

綜合上面分析,獲取終端層面數(shù)據(jù)特征距離包括四步驟:

第一步:周期性地獲取網(wǎng)絡(luò)中的流量屬性信息,所述流量屬性信息包括終端流量模式、終端在一時間段內(nèi)的數(shù)據(jù)流量以及終端在一時間段流的數(shù)據(jù)流個數(shù)中的至少兩個;

第二步:根據(jù)所獲網(wǎng)絡(luò)流量屬性信息,構(gòu)造加權(quán)流量矩陣,以區(qū)分所述終端流量模式、所述終端在一時間段內(nèi)的數(shù)據(jù)流量以及所述終端在一時間段流的數(shù)據(jù)流個數(shù)在計算共同體中的作用以及權(quán)重不同,所述共同體為由至少兩個終端組成的群落,每一所述群落中的終端具有所述終端流量模式、所述終端在一時間段內(nèi)的數(shù)據(jù)流量以及所述終端在一時間段流的數(shù)據(jù)流個數(shù)中的至少一種流量屬性相同;

第三步:根據(jù)加權(quán)流量矩陣,利用譜聚類算法獲取網(wǎng)絡(luò)中共同體信息;

第四步:根據(jù)數(shù)據(jù)流是否從屬同一個共同體,確定當(dāng)前網(wǎng)絡(luò)中任意兩個活躍數(shù)據(jù)流在共同體層面的距離。

其中構(gòu)造加權(quán)流量矩陣,根據(jù)加權(quán)流量矩陣,利用譜聚類算法獲取網(wǎng)絡(luò)中共同體信息包括:

周期性地從數(shù)據(jù)流信息采集篩選模塊獲取網(wǎng)絡(luò)在t時間段內(nèi)的數(shù)據(jù)流信息,并計算在這個時間段內(nèi)的加權(quán)流量矩陣,如下式所示:

m(i,j)=v(i,j)×n(i,j)

其中m∈rn×n表示網(wǎng)絡(luò)中n個終端的流量模式;v(i,j)表示任意終端對(i,j)在上述時間段內(nèi)的流量,n(i,j)表示任意終端對(i,j)在上述時間段內(nèi)的數(shù)據(jù)流個數(shù)。

根據(jù)所獲得的加權(quán)流量矩陣,利用譜聚類算法提取共同體信息,所述譜聚類算法如下:

如上文所述,協(xié)同流一般產(chǎn)生于共同體內(nèi)部,對于任意兩個數(shù)據(jù)流,可以根據(jù)它們是否屬于同一個共同體,確定它們在終端層面的特征距離:

步驟103、根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得權(quán)重矩陣,所述權(quán)重矩陣用于使得從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大,所述特征距離為所述數(shù)據(jù)流層面數(shù)據(jù)特征中的各度量、所述應(yīng)用層面數(shù)據(jù)流特征距離以及述終端層面數(shù)據(jù)特征距離中的 至少兩種的加權(quán)距離。需要特別說明的是,所述特征距離為所述數(shù)據(jù)流層面數(shù)據(jù)特征中個度量中的每一度量作為加權(quán)距離中的一種。

上述根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得權(quán)重矩陣的步驟包括:構(gòu)建多維特征距離向量d(i,j),

其中所述多維特征距離向量包括至少兩個維度或者三個維度,所述至少兩個維度對應(yīng)包括發(fā)送時間的距離度量dtime(i,j)、數(shù)據(jù)包長度平均值度量dmsize(i,j)、數(shù)據(jù)包長度方差度量dvsize(i,j)、數(shù)據(jù)包到達時間間隔的平均值度量dmint(i,j)、數(shù)據(jù)包到達時間間隔方差度量dvint(i,j)、傳輸協(xié)議的距離度量dprtcl(i,j)、應(yīng)用層面數(shù)據(jù)流特征距離dapp(i,j)以及終端層面數(shù)據(jù)特征距離dcom(i,j)中的至少兩種,或者所述至少三個維度包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量以及傳輸協(xié)議的距離度量中的至少一種度量以及應(yīng)用層面數(shù)據(jù)流特征距離和終端層面數(shù)據(jù)特征距離,每一度量或特征距離構(gòu)成所述多維特征距離向量的一個維度;

根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得所述多維特征距離向量的權(quán)重矩陣a,以通過學(xué)習(xí)機制根據(jù)不同維度的特征距離對協(xié)同流識別有不同的作用來分配不同的權(quán)重,以使從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大。

上述權(quán)重矩陣的學(xué)習(xí)可在spark應(yīng)用程序運行完成,網(wǎng)絡(luò)中的歷史數(shù)據(jù) 來源于收集網(wǎng)絡(luò)追蹤數(shù)據(jù)和從應(yīng)用中收集協(xié)同流信息。

首先,將網(wǎng)絡(luò)追蹤數(shù)據(jù)中的數(shù)據(jù)流,按照是否屬于同一個協(xié)同流,分為如下兩個數(shù)據(jù)流對集合,所述兩個數(shù)據(jù)對集合分別對應(yīng)協(xié)同流數(shù)據(jù)集以及非協(xié)同流數(shù)據(jù)集。

s:(fi,fj)∈siffiandfjbelongtothesamecoflow;

d:(fi,fj)∈diffiandfjbelongtodifferentcoflows.

找出一個半正定矩陣a,使得以下的目標(biāo)函數(shù)最小化。

s.t.a>0

這里,表示為任意兩個數(shù)據(jù)流的特征距離,也就是所述數(shù)據(jù)流層面數(shù)據(jù)特征中的各度量、所述應(yīng)用層面數(shù)據(jù)流特征距離以及述終端層面數(shù)據(jù)特征距離中的至少兩種的加權(quán)距離。

所述目標(biāo)函數(shù)表示通過找出一個最佳的權(quán)重矩陣a,使得從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大。

步驟104、根據(jù)所述數(shù)據(jù)流層面數(shù)據(jù)特征的度量、所述應(yīng)用層面數(shù)據(jù)流特征距離,所述終端層面數(shù)據(jù)特征距離以及所述權(quán)重矩陣,計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離。

上述步驟104具體包括:

獲取網(wǎng)絡(luò)數(shù)據(jù)傳輸中數(shù)據(jù)流的多維特征向量,其中所述網(wǎng)絡(luò)數(shù)據(jù)傳輸中數(shù)據(jù)流為網(wǎng)絡(luò)中當(dāng)前傳輸?shù)膶崟r數(shù)據(jù)流,與用于訓(xùn)練權(quán)重矩陣的歷史數(shù)據(jù)有所不同,歷史數(shù)據(jù)為數(shù)據(jù)流過去的信息而不是當(dāng)前的。

所述多維特征距離向量包括至少三個維度,所述至少三個維度包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量以及傳輸協(xié)議的距離度量中的至少一種度量以及應(yīng)用層面數(shù)據(jù)流特征距離和終端層面數(shù)據(jù)特征距離,每一度量或特征距離構(gòu)成所述多維特征距離向量的一個維度;

根據(jù)所述多維特征距離向量以及權(quán)重矩陣計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離

也就是網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離等于多維特征距離向量的倒置矩陣d(i,j)t乘以權(quán)重矩陣a再乘以多維特征距離向量d(i,j)三者的乘積的開方數(shù)。

所述網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離越小,表明兩個數(shù)據(jù)流的相似度約大,從屬于同一個協(xié)同流的概率就越大。

步驟105、根據(jù)網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離,通過聚類算法將所述網(wǎng)絡(luò)中的數(shù)據(jù)流分為若干個聚類集合,其中每一聚合流中的任意一個數(shù)據(jù)流與相同聚合流中任意另一個數(shù)據(jù)流的特征距離小于與不相同聚合流中任意一個數(shù)據(jù)流的特征距離,所述若干聚類集合中每一聚類集合為一協(xié)同流。

根據(jù)前面所述模塊輸出的網(wǎng)絡(luò)中任意兩個活躍數(shù)據(jù)流之間的距離,通過聚類算法,將數(shù)據(jù)流集合分為若干個聚類,而每一個聚類代表了協(xié)同流信息,其中聚類的方法是最小化聚類內(nèi)部的數(shù)據(jù)流之間的距離,同時最大化不同聚類中數(shù)據(jù)流之間的距離。

上述聚類算法可以有多種聚類算法來實現(xiàn),如采用一類聚類算法,具有如下特點的聚類算法:不需要預(yù)設(shè)聚類數(shù)目、基于個體之間相對距離以及不需要個體的絕對位置,同時允許噪聲個體。本發(fā)明實施例中優(yōu)選采用dbscan 聚類算法。

圖4展示了本發(fā)明實施例一中的協(xié)同流的識別方法在實驗平臺上對網(wǎng)絡(luò)中協(xié)同流的識別情況,其中橫坐標(biāo)表示時間而縱坐標(biāo)表示協(xié)同流中的數(shù)據(jù)流被識別出來的百分比,由此我們可以看到所述協(xié)同流的識別方法提出的協(xié)同流識別方案能夠很準確地識別出哪一些數(shù)據(jù)流屬于協(xié)同流。

為了證明所述協(xié)同流的識別方法提出不同特征提取方式和權(quán)重矩陣學(xué)習(xí)的必要性,下面進行對照實驗,如圖5展示了除去終端層面數(shù)據(jù)特征的方案的協(xié)同流識別效果。從圖5我們可以看到如果沒有考慮終端層面數(shù)據(jù)特征提的情況下,協(xié)同流正確識別的百分比出現(xiàn)明顯的下降。由此可證明,采用上述層次化多特征提取的有效性和必要性。

同樣地,為了證明權(quán)重學(xué)習(xí)模塊的必要性,可以將權(quán)重學(xué)習(xí)獲取權(quán)重矩陣的步驟從方案中去除,如圖6所示,可以發(fā)現(xiàn)方案的協(xié)同流識別效果出現(xiàn)嚴重的下降,由此可見采用權(quán)重學(xué)習(xí)方式獲取權(quán)重矩陣的有效性和必要性。

可見,本發(fā)明實施例一中的協(xié)同流的識別方法通過對網(wǎng)絡(luò)中活躍數(shù)據(jù)流進行多層面的特征提取,根據(jù)特征對數(shù)據(jù)流進行聚類獲得數(shù)據(jù)流的協(xié)同關(guān)系,再通過多層面的特征提取和權(quán)重學(xué)習(xí),顯著提高協(xié)同流的識別正確率。

實施例二

如圖1所示,本發(fā)明實施例涉及一種協(xié)同流的識別系統(tǒng),包括終端、從服務(wù)器以及主服務(wù)。

所述從服務(wù)器包括一個或多個流信息篩選模塊,每一個流信息篩選模塊對應(yīng)一個終端,用于采集終端的數(shù)據(jù)流信息并通過攜帶在網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流報頭信息中傳送給主服務(wù)器。

在一些實施例中,可以不存在從服務(wù),流信息篩選模塊可以直接設(shè)置在主服務(wù)器上。

一并參閱圖8,所述主服務(wù)器包括流層面數(shù)據(jù)特征提取模塊、應(yīng)用層面數(shù)據(jù)流特征提取模塊、終端層面數(shù)據(jù)特征提取模塊、權(quán)重學(xué)習(xí)模塊、特征距離計算模塊以及協(xié)同流聚類模塊。

所述主服務(wù)器通過所述流層面數(shù)據(jù)特征提取模塊、所述應(yīng)用層面數(shù)據(jù)流特征提取模塊以及所述終端層面數(shù)據(jù)特征提取模塊從所述從服務(wù)器發(fā)送的數(shù)據(jù)流報頭信息中提取對應(yīng)的流層面數(shù)據(jù)特征、應(yīng)用層面數(shù)據(jù)流特征以及終端層面數(shù)據(jù)特征。

其中,所述數(shù)據(jù)流層面數(shù)據(jù)特征包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量、傳輸協(xié)議的距離度量中的至少一種,所述應(yīng)用層面數(shù)據(jù)流特征包括應(yīng)用層面數(shù)據(jù)流特征距離,所述應(yīng)用層面數(shù)據(jù)流特征距離用于指示數(shù)據(jù)傳輸?shù)哪康牡氐刂泛湍康牡囟丝诘闹丿B程度或數(shù)據(jù)發(fā)送端ip地址集合的重疊程度,所述終端層面數(shù)據(jù)特征包括終端層面數(shù)據(jù)特征距離,所述終端層面數(shù)據(jù)特征距離用于指示數(shù)據(jù)流是否屬于同一終端群落。

在本實施例中,數(shù)據(jù)流中報頭信息中包含的信息、各個距離度量以及特征距離的獲取以及計算方式和上一實施例的相同,在此不再重復(fù)敘述。

所述權(quán)重學(xué)習(xí)模塊用于根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得權(quán)重矩陣,所述權(quán)重矩陣用于使得從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大,所述特征距離為所述數(shù)據(jù)流層面數(shù)據(jù)特征中的各度量、所述應(yīng)用層面數(shù)據(jù)流特征距離以及述終端層面數(shù)據(jù)特征距離中的至少兩種的加權(quán)距離。需要特別說明的是,所述特征距離為所述數(shù)據(jù)流層面數(shù)據(jù)特征中個度量中的每一度量作為加權(quán)距離中的一種。

所述權(quán)重學(xué)習(xí)模塊具體學(xué)習(xí)方式以及過程和上一實施例的完全相同,在此也不再重復(fù)敘述。

所述特征距離計算模塊用于根據(jù)所述數(shù)據(jù)流層面數(shù)據(jù)特征的度量、所述應(yīng)用層面數(shù)據(jù)流特征距離,所述終端層面數(shù)據(jù)特征距離以及所述權(quán)重矩陣,計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離。

所述特征距離的各種計算方式均和上一實施例的相同,在此不再重復(fù)敘述。

所述協(xié)協(xié)同流聚類模塊用于根據(jù)網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離,通過聚類算法將所述網(wǎng)絡(luò)中的數(shù)據(jù)流分為若干個聚類集合,所述若干聚類集合中每一聚類集合為一協(xié)同流。

所述聚類算法、方式以及過程均與上一實施例相同,在此不再重復(fù)敘述。

實施例三

如圖7所示,本發(fā)明實施例三中一種服務(wù)器,用于在網(wǎng)絡(luò)中進行數(shù)據(jù)處理。所述服務(wù)器包括包括接收端口、處理器、存儲器以及總線,其特征在于,

所述總線用于在接收端口、處理器以及存儲器之間進行數(shù)據(jù)傳輸。

所述接收端口用于接收網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流報頭信息;

所述處理器用于根據(jù)所述數(shù)據(jù)流的報頭信息獲取流層面數(shù)據(jù)特征、應(yīng)用層面數(shù)據(jù)流特征以及終端層面數(shù)據(jù)特征以及根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得權(quán)重矩陣,再根據(jù)所述數(shù)據(jù)流層面數(shù)據(jù)特征的度量、所述應(yīng)用層面數(shù)據(jù)流特征距離,所述終端層面數(shù)據(jù)特征距離以及所述權(quán)重矩陣,計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離,最后根據(jù)網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離,通過聚類算法將所述網(wǎng)絡(luò)中的數(shù)據(jù)流分為若干個聚類集合,所述若干聚類集合中每 一聚類集合為一協(xié)同流;

所述存儲器用于存儲所述流層面數(shù)據(jù)特征、所述應(yīng)用層面數(shù)據(jù)流特征、所述終端層面數(shù)據(jù)特征、所述網(wǎng)絡(luò)中歷史數(shù)據(jù)以及所述加權(quán)矩陣。

所述數(shù)據(jù)流層面數(shù)據(jù)特征包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量以及傳輸協(xié)議的距離度量中的至少一種,所述應(yīng)用層面數(shù)據(jù)流特征包括應(yīng)用層面數(shù)據(jù)流特征距離,所述應(yīng)用層面數(shù)據(jù)流特征距離用于指示數(shù)據(jù)傳輸?shù)哪康牡氐刂泛湍康牡囟丝诘木酆铣潭然驍?shù)據(jù)發(fā)送端ip地址集合的重疊程度,所述終端層面數(shù)據(jù)特征包括終端層面數(shù)據(jù)特征距離,所述終端層面數(shù)據(jù)特征距離用于指示數(shù)據(jù)流是否屬于同一終端群落。

所述權(quán)重矩陣用于使得從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大,所述特征距離為所述數(shù)據(jù)流層面數(shù)據(jù)特征中的各度量、所述應(yīng)用層面數(shù)據(jù)流特征距離以及述終端層面數(shù)據(jù)特征距離中的至少兩種的加權(quán)距離。

所述數(shù)據(jù)流報頭信息包括:數(shù)據(jù)流的源ip地址、數(shù)據(jù)流的源端口、數(shù)據(jù)流的目的地ip地址、數(shù)據(jù)流的目的地端口、數(shù)據(jù)流發(fā)送時間以及數(shù)據(jù)流的使用的傳輸協(xié)議。

所述處理器用于根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)獲取多維特征距離向量,并根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得所述多維特征距離向量的權(quán)重矩陣,以通過學(xué)習(xí)機制根據(jù)不同維度的特征距離對協(xié)同流識別有不同的作用來分配不同的權(quán)重,以使從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大,其中所述多維特征距離向量包括至少兩個或三個維度,所述至少兩個維度對應(yīng)包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、 數(shù)據(jù)包到達時間間隔方差度量、傳輸協(xié)議的距離度量、應(yīng)用層面數(shù)據(jù)流特征距離以及終端層面數(shù)據(jù)特征距離中的至少兩種,或者所述至少三個維度包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量以及傳輸協(xié)議的距離度量中的至少一種度量以及應(yīng)用層面數(shù)據(jù)流特征距離和終端層面數(shù)據(jù)特征距離,每一度量或特征距離構(gòu)成所述多維特征距離向量的一個維度。

所述處理器用于根據(jù)所述多維特征距離向量以及權(quán)重矩陣計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離。

實施例四

如圖8所示,本發(fā)明實施例四中的一種服務(wù)器,用于在網(wǎng)絡(luò)數(shù)據(jù)傳輸過程中識別協(xié)同流。

所述服務(wù)器包括:

信息獲取模塊,用于獲取網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流報頭信息以及網(wǎng)絡(luò)中的歷史數(shù)據(jù),其中在實際應(yīng)用中網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流報頭信息通過服務(wù)器或者網(wǎng)絡(luò)中的從服務(wù)器的數(shù)據(jù)流信息采集篩選模塊來采集獲得的,所述信息獲取模塊其實是直接通過所述數(shù)據(jù)流信息采集篩選模塊獲取網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流報頭信息或者經(jīng)過服務(wù)器的緩存獲取網(wǎng)絡(luò)數(shù)據(jù)傳輸中的數(shù)據(jù)流報頭信息;

特征提取模塊,用于根據(jù)所述數(shù)據(jù)流的報頭信息獲取流層面數(shù)據(jù)特征、應(yīng)用層面數(shù)據(jù)流特征以及終端層面數(shù)據(jù)特征,其中所述數(shù)據(jù)流層面數(shù)據(jù)特征包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量以及傳輸協(xié)議的距離度量中的至少一種,所述應(yīng)用層面數(shù)據(jù)流特征包括應(yīng)用層面數(shù)據(jù)流特征距離,所述應(yīng)用層面數(shù)據(jù)流特征距離用于指示數(shù)據(jù)傳輸?shù)哪康牡氐刂泛湍康牡囟丝诘木酆铣潭然驍?shù)據(jù)發(fā)送端ip地址集合的重疊程度,所述終端層面 數(shù)據(jù)特征包括終端層面數(shù)據(jù)特征距離,所述終端層面數(shù)據(jù)特征距離用于指示數(shù)據(jù)流是否屬于同一終端群落;

權(quán)重學(xué)習(xí)模塊,用于根據(jù)所述網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得權(quán)重矩陣,所述權(quán)重矩陣用于使得從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大,所述特征距離為所述數(shù)據(jù)流層面數(shù)據(jù)特征中的各度量、所述應(yīng)用層面數(shù)據(jù)流特征距離以及述終端層面數(shù)據(jù)特征距離中的至少兩種的加權(quán)距離,在實際應(yīng)用中,所述網(wǎng)絡(luò)中的歷史數(shù)據(jù)一般由服務(wù)器的存儲器來儲存,所述權(quán)重學(xué)習(xí)模塊可以所述信息獲取模塊從服務(wù)器存儲器中獲取所述網(wǎng)絡(luò)中的歷史數(shù)據(jù),也可以直接從服務(wù)器存儲器中獲取所述網(wǎng)絡(luò)中的歷史數(shù)據(jù);

特征距離計算模塊,用于根據(jù)所述數(shù)據(jù)流層面數(shù)據(jù)特征的度量、所述應(yīng)用層面數(shù)據(jù)流特征距離,所述終端層面數(shù)據(jù)特征距離以及所述權(quán)重矩陣,計算網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離;

協(xié)同流聚類模塊,用于根據(jù)網(wǎng)絡(luò)中任意兩個數(shù)據(jù)流的特征距離,通過聚類算法將所述網(wǎng)絡(luò)中的數(shù)據(jù)流分為若干個聚類集合,其中每一聚合流中的任意一個數(shù)據(jù)流與相同聚合流中任意另一個數(shù)據(jù)流的特征距離小于與不相同聚合流中任意一個數(shù)據(jù)流的特征距離,所述若干聚類集合中每一聚類集合為一協(xié)同流。

所述權(quán)重學(xué)習(xí)模塊還用于根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)獲取多維特征距離向量,所述多維特征距離向量包括至少三個維度,所述至少三個維度包括發(fā)送時間的距離度量、數(shù)據(jù)包長度平均值度量、數(shù)據(jù)包長度方差度量、數(shù)據(jù)包到達時間間隔的平均值度量、數(shù)據(jù)包到達時間間隔方差度量以及傳輸協(xié)議的距離度量中的至少一種度量以及應(yīng)用層面數(shù)據(jù)流特征距離和終端層面數(shù)據(jù)特征距離,每一度量或特征距離構(gòu)成所述多維特征距離向量的一個維度;再根據(jù)網(wǎng)絡(luò)中的歷史數(shù)據(jù)學(xué)習(xí)獲得所述多維特征距離向量的權(quán)重矩陣,以通過學(xué)習(xí) 機制根據(jù)不同維度的特征距離對協(xié)同流識別有不同的作用來分配不同的權(quán)重,以使從屬于同一個協(xié)同流的數(shù)據(jù)流之間特征距離最小,而從屬于不同協(xié)同流的數(shù)據(jù)流之間的特征距離最大。

所述各個特征的提取和計算,還有各個權(quán)重矩陣的獲取、特征距離計算、相似度計算以及聚合方法均與實施例一的相同,在此不再贅述。

以上所述的具體實施方式,對本發(fā)明的目的、技術(shù)方案和有益效果進行了進一步詳細說明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實施方式而已,并不用于限定本發(fā)明的保護范圍,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1