本發(fā)明屬于網(wǎng)絡(luò)流量測量領(lǐng)域,具體的涉及一種基于流數(shù)約減的自適應(yīng)公平抽樣保證方法。
背景技術(shù):
網(wǎng)絡(luò)流量測量將流的各項指標(biāo)量化,直觀地描述當(dāng)前網(wǎng)絡(luò)流量的組成成分,反映網(wǎng)絡(luò)當(dāng)前的運行狀態(tài),在流量計費,流量識別,故障檢測和網(wǎng)絡(luò)安全等應(yīng)用中起著極其重要的作用。由于網(wǎng)絡(luò)上數(shù)據(jù)的增長速度遠(yuǎn)遠(yuǎn)超過存儲器性能的增長速度,因此對每個流進(jìn)行實時統(tǒng)計成為高速骨干網(wǎng)實時流量測量的巨大難題,通過抽樣對數(shù)據(jù)進(jìn)行壓縮是實時測量高速網(wǎng)絡(luò)的重要手段。然而現(xiàn)有的抽樣算法以犧牲大流的準(zhǔn)確性為代價來提高小流的準(zhǔn)確性,從而導(dǎo)致算法的公平性不強。雖然通過對每個流進(jìn)行統(tǒng)計可以提高算法的公平性,但是從存儲開銷的角度來看,并不能實現(xiàn)可擴(kuò)展的流量測量。
由于小流統(tǒng)計準(zhǔn)確性低往往嚴(yán)重影響到網(wǎng)絡(luò)安全和異常檢測的正常進(jìn)行,網(wǎng)絡(luò)流量測量希望進(jìn)一步提高小流的準(zhǔn)確性以滿足公平性要求,并且解決算法的可擴(kuò)展性問題。目前網(wǎng)絡(luò)流量測量雖然實現(xiàn)了一定程度的公平抽樣,但是缺乏對算法擴(kuò)展性和公平性的綜合考慮。如何實現(xiàn)算法的公平性和擴(kuò)展性,是網(wǎng)絡(luò)流量測量面臨的重要挑戰(zhàn)。
技術(shù)實現(xiàn)要素:
本發(fā)明針對現(xiàn)有的抽樣算法以犧牲大流的準(zhǔn)確性為代價來提高小流的準(zhǔn)確性,從而導(dǎo)致算法的公平性不強,不能很好的解決算法的可擴(kuò)展性等問題,提出一種基于流數(shù)約減的自適應(yīng)公平抽樣保證方法。
本發(fā)明的技術(shù)方案是:一種基于流數(shù)約減的自適應(yīng)公平抽樣方法,包括以下步驟:
步驟1:根據(jù)到達(dá)分組是否屬于已有流表項,得到不同的網(wǎng)絡(luò)流公平性抽樣策略;
步驟2:利用流數(shù)約減對該分組所屬流進(jìn)行大小流區(qū)分計數(shù),得到選擇性抽取比例,并建立存儲器緩存中的新流表項;
步驟3:根據(jù)后續(xù)流到達(dá)測量點的速度進(jìn)行自適應(yīng)抽取,得到流個數(shù)整體壓縮的所有樣本流集合;
步驟4:根據(jù)所有樣本流集合的流量大小分布特征,提出一個新的抽樣概率函數(shù)簇;
步驟5:根據(jù)概率函數(shù)簇對樣本流集合進(jìn)行公平抽樣,得到樣本中大小流的公平性抽樣結(jié)果。
所述的基于流數(shù)約減的自適應(yīng)公平抽樣方法,所述步驟1中網(wǎng)絡(luò)流公平性抽樣策略包括:
步驟201:根據(jù)到達(dá)測量點的分組數(shù)據(jù)包,查詢緩存中所屬流表項是否存在;
步驟202:根據(jù)該分組所屬流緩存存在與否,判斷是否采用流數(shù)約減策略,得到所有樣本流集合;
步驟203:根據(jù)得到的所有樣本流集合,進(jìn)行樣本集合的網(wǎng)絡(luò)流公平抽樣。所述的基于流數(shù)約減的自適應(yīng)公平抽樣方法,所述步驟2的具體包括:
步驟301:根據(jù)流數(shù)約減策略對分組所屬流采用計數(shù)型布魯姆過濾器進(jìn)行大小流區(qū)分計數(shù);
步驟302:根據(jù)不同大小流的計數(shù)值,以概率Pf進(jìn)行選擇性抽取分組;
步驟303:根據(jù)選中的流分組數(shù)目,建立存儲器新的緩存流表項。
所述的基于流數(shù)約減的自適應(yīng)公平抽樣方法,所述步驟3具體包括:
步驟401:根據(jù)新流表項到達(dá)測量點的速度,得到被抽取建立表項的新到達(dá)分組的數(shù)目;
步驟402:根據(jù)已建立流表項的分組數(shù)目,自適應(yīng)改變流個數(shù)的壓縮集合;
步驟403:根據(jù)得到的流數(shù)整體約減的分組集合,得到需要統(tǒng)計的所有樣本流集合。
所述的基于流數(shù)約減的自適應(yīng)公平抽樣方法,所述步驟4獲得抽樣概率函數(shù)簇具體包括:
步驟501:根據(jù)樣本流中流大小的重尾分布特征,結(jié)合兩個類冪指數(shù)抽樣概率函數(shù),尋求一個流大小是減函數(shù)的抽樣概率函數(shù);
步驟502:根據(jù)流大小估計值的相對誤差不超過參數(shù)值ε,使得小流的抽樣概率準(zhǔn)確性提高;
步驟503:根據(jù)不同的抽樣函數(shù)特性,提出一個新的抽樣概率函數(shù)簇。
所述的基于流數(shù)約減的自適應(yīng)公平抽樣方法,所述步驟5樣本中大小流的公平性抽樣結(jié)果操作包括:
步驟601:根據(jù)當(dāng)前分組所屬流的大小決定抽樣概率P;
步驟602:根據(jù)抽樣概率函數(shù)簇決定包所對應(yīng)計數(shù)器為i的流的抽樣概率Pi;
步驟603:根據(jù)不同流大小的抽樣概率,得到所有流相對誤差基本一致的公平性抽樣結(jié)果。
本發(fā)明的有益效果是:本發(fā)明與現(xiàn)有技術(shù)相比,具有以下優(yōu)點:具有可擴(kuò)展性和公平性,本發(fā)明提供的公平抽樣方法通過流數(shù)約減方法對流進(jìn)行等比例抽取,實現(xiàn)了測量的可擴(kuò)展性;同時利用新的概率抽樣函數(shù)簇對樣本流集合進(jìn)行公平抽樣,提高了算法的公平性;算法不需要提取每個流的統(tǒng)計特征,能夠有效地降低算法的機(jī)算復(fù)雜度,提高小流的統(tǒng)計準(zhǔn)確性。
附圖說明
圖1為本發(fā)明的整體步驟流程示意圖;
圖2為流數(shù)約減和公平抽樣策略步驟流程示意圖;
圖3為新的緩存流表項構(gòu)建步驟流程示意圖;
圖4為抽樣概率函數(shù)簇步驟流程示意圖;
圖5為新的抽樣概率函數(shù)簇步驟流程示意圖;
圖6為公平抽樣結(jié)果步驟流程示意圖;
具體實施方式
結(jié)合圖1-圖6,為了方便本領(lǐng)域的技術(shù)人員理解本發(fā)明,下面對本文出現(xiàn)的技術(shù)名詞或術(shù)語進(jìn)行解釋;
網(wǎng)絡(luò)流量測量:獲得網(wǎng)絡(luò)行為實時參數(shù)和指標(biāo)最有效的手段,分為主動測量和被動測量。
流數(shù)約減:采用均勻抽樣的方法對流進(jìn)行等比例抽取,實現(xiàn)對流個數(shù)的整體壓縮。
抽樣:一種非常有效的數(shù)據(jù)壓縮技術(shù),具備良好的可適性和抽樣精度,廣泛應(yīng)用于高速骨干網(wǎng)鏈路數(shù)據(jù)流的流量測量。
一種基于流數(shù)約減的自適應(yīng)公平抽樣方法,包括以下步驟:
步驟1:根據(jù)到達(dá)分組是否屬于流表項,得到不同的網(wǎng)絡(luò)流公平性抽樣策略;具體得到網(wǎng)絡(luò)流公平性抽樣策略,該開發(fā)過程包括:
步驟201:根據(jù)到達(dá)測量點的分組數(shù)據(jù)包,查詢緩存中所屬流表項是否存在;
步驟202:若該分組所屬流緩存不存在,則判斷采用流數(shù)約減策略,該策略利用均勻抽樣的方法對流進(jìn)行等比例抽取,從而將原始流數(shù)目按照等比例壓縮以適應(yīng)高速緩存內(nèi)存小的限制,得到約減的樣本流集合;
步驟203:根據(jù)約減的樣本流集合以及分組所屬緩存存在的樣本流集合,得到需要統(tǒng)計的所有樣本流集合,進(jìn)行不同樣本集合的網(wǎng)絡(luò)流公平抽樣。
步驟2:根據(jù)流數(shù)約減策略對該分組所屬流進(jìn)行大小流區(qū)分計數(shù),得到選擇性抽取比例,并建立存儲器中的新緩存流表項;建立新緩存流表項,該開發(fā)過程包括:
步驟301:根據(jù)流數(shù)約減策略對分組所屬流采用計數(shù)型布魯姆過濾器進(jìn)行大小流區(qū)分計數(shù),實現(xiàn)對小流流量的逐包精確統(tǒng)計;
步驟302:根據(jù)大小流服從重尾分布以及不同大小流的計數(shù)值,定義抽取比例Pf,Pf是按照大小流數(shù)目占比進(jìn)行抽取的比例函數(shù),使得能夠在不改變數(shù)據(jù)流在整體中所占比例的情況下進(jìn)行選擇性抽取分組;
步驟303:根據(jù)選中的流分組數(shù)目,建立存儲器新的緩存流表項。
步驟3:根據(jù)后續(xù)流的到達(dá)的測量點的速度進(jìn)行自適應(yīng)抽取,得到流個數(shù)整體壓縮的樣本流集合;得到所有樣本流集合,該開發(fā)過程包括:
步驟401:根據(jù)后續(xù)流到達(dá)測量點的速度,自適應(yīng)改變流抽樣比Pf的數(shù)值,利用計數(shù)器得到被抽取建立表項的新到達(dá)分組的數(shù)目;
步驟402:根據(jù)后續(xù)到達(dá)需要建立流表項的分組數(shù)目,將這些分組添加到緩存流表項,得到壓縮流個數(shù)的約減集合;
步驟403:根據(jù)流數(shù)整體壓縮的約減集合和已在存儲器緩存中的分組集合,從原始流中選取得到需要統(tǒng)計的所有樣本流集合。
步驟4:根據(jù)樣本流集合的流量大小分布特征,提出一個新的抽樣概率函數(shù)簇;提出抽樣概率函數(shù)簇,該開發(fā)過程包括:
步驟501、根據(jù)樣本流中流大小的重尾分布特征,結(jié)合兩個類冪指數(shù)抽樣概率函數(shù),尋求一個流大小是減函數(shù)的抽樣概率函數(shù);
步驟502、根據(jù)流大小估計值的相對誤差不超過參數(shù)值ε,其中ε為常數(shù),代表任意流大小估計值的最大誤差值,從而使得小流的抽樣概率準(zhǔn)確性提高;
步驟503、根據(jù)流大小的分布特性和不同的抽樣概率函數(shù)特性,結(jié)合SGS算法和ANLS算法類似冪指數(shù)函數(shù)的推導(dǎo)過程,提出一個新的為流大小減函數(shù)的抽樣概率函數(shù)簇,其中a為取值范圍為(O,1)的常數(shù)。
步驟5:根據(jù)概率函數(shù)簇對樣本流集合進(jìn)行公平抽樣,得到樣本中大小流的公平性抽樣結(jié)果:得到公平抽樣結(jié)果,該開發(fā)過程包括:
步驟601、根據(jù)當(dāng)前分組所屬流的大小,為使得統(tǒng)計結(jié)果符合流大小重尾分布,流的大小越大,抽樣率Pi越小,其中Pi由抽樣概率函數(shù)g決定,即Pi=g(i);
步驟602、根據(jù)抽樣概率函數(shù)簇決定包所對應(yīng)計數(shù)器為i的流的抽樣概率Pi;
步驟603、根據(jù)不同流大小的抽樣概率,得到所有流相對誤差基本一致的公平性抽樣結(jié)果。