專利名稱:基于用戶行為分析的web用戶流量產(chǎn)生方法
技術(shù)領(lǐng)域:
本發(fā)明涉及用戶行為分析技術(shù)及網(wǎng)絡(luò)流量產(chǎn)生技術(shù),具體是基于用戶行為分析的web用戶流量產(chǎn)生方法。
背景技術(shù):
互聯(lián)網(wǎng)屬于實(shí)踐性很強(qiáng)的領(lǐng)域,相關(guān)的研究成果只有在經(jīng)過實(shí)踐驗(yàn)證后才會(huì)被廣泛接受。因此,研究人員需要網(wǎng)絡(luò)實(shí)驗(yàn)床去驗(yàn)證新的網(wǎng)絡(luò)體系架構(gòu)、協(xié)議、服務(wù)等。作為網(wǎng)絡(luò)實(shí)驗(yàn)床的關(guān)鍵設(shè)備,流量發(fā)生器主要用于產(chǎn)生逼真的網(wǎng)絡(luò)流量,其性能指標(biāo)對(duì)實(shí)驗(yàn)結(jié)果有直接影響。目前用于產(chǎn)生網(wǎng)絡(luò)流量的方法主要有兩種一、網(wǎng)絡(luò)流量回放一利用網(wǎng)絡(luò)嗅探器對(duì)網(wǎng)絡(luò)進(jìn)行嗅探并將獲取的數(shù)據(jù)記錄在日志文件中,然后根據(jù)日志文件中記錄的內(nèi)容產(chǎn)生網(wǎng)絡(luò)流量;二、模型流量產(chǎn)生——在了解網(wǎng)絡(luò)特性后對(duì)網(wǎng)絡(luò)流量建立數(shù)學(xué)模型,并按照數(shù)學(xué)模型發(fā)送數(shù)據(jù)包,從而產(chǎn)生符合網(wǎng)絡(luò)特性的網(wǎng)絡(luò)流量。方法一所產(chǎn)生流量受日志文件約束,流量過于機(jī)械;方法二從網(wǎng)絡(luò)流量整體服從的概率模型入手,產(chǎn)生的網(wǎng)絡(luò)流量與真實(shí)流量在整體上較為接近,但是不能反映單個(gè)用戶的行為,在很多環(huán)境中顯得不足。如在面向服務(wù)的網(wǎng)絡(luò)中,服務(wù)遷移時(shí)往往需要統(tǒng)計(jì)單個(gè)用戶對(duì)某一服務(wù)的請(qǐng)求次數(shù)、喜好程度,以決定是否進(jìn)行服務(wù)遷移,傳統(tǒng)方法對(duì)此不能有效支持。目前使用的方法還包括如下集中SPECweb96 (由Standard PerformaceEvaluation Corp提出,專供檢測web服務(wù)器特性)、SURGE (美國Boston大學(xué)提出,模仿用戶訪問網(wǎng)絡(luò)以產(chǎn)生網(wǎng)絡(luò)流量)、Harpoon (美國Wisconsim-Madison大學(xué)提出,模仿用戶訪問網(wǎng)絡(luò)以產(chǎn)生網(wǎng)絡(luò)流量)。以上方法SPEC96僅僅是通過客戶機(jī)向服務(wù)器發(fā)送HTTP Get請(qǐng)求產(chǎn)生網(wǎng)絡(luò)流量,沒有考慮到用戶Web請(qǐng)求特征(如請(qǐng)求間隔、瀏覽時(shí)間、頁面跳轉(zhuǎn)關(guān)系等),多用于壓力測試等;SURGE、Harpoon雖然加入了部分Web請(qǐng)求特征,但也有其不足之處1、僅局限于請(qǐng)求發(fā)送的時(shí)間間隔模型、瀏覽時(shí)間模型等,不能體現(xiàn)出用戶瀏覽頁面時(shí)各頁面跳轉(zhuǎn)關(guān)系、頁面的訪問頻率(即頁面受喜好程度),所產(chǎn)生流量與真實(shí)網(wǎng)絡(luò)流量相差很大2、所用流量產(chǎn)生模型的參數(shù)需事前指定,由于對(duì)不同網(wǎng)站各模型參數(shù)不同,所以其不具通用性。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種流量產(chǎn)生器使所產(chǎn)生流量能夠體現(xiàn)真實(shí)用戶的上網(wǎng)行為,如流量總體上應(yīng)具有自相似性;對(duì)頁面的請(qǐng)求應(yīng)能正確反應(yīng)出頁面的受喜愛程度;不同頁面間的轉(zhuǎn)移與真實(shí)用戶的瀏覽網(wǎng)頁時(shí)的轉(zhuǎn)移概率盡可能相似。還針對(duì)不同網(wǎng)站自動(dòng)產(chǎn)生不同的瀏覽模型參數(shù),提高系統(tǒng)的通用性。為解決上述技術(shù)問題本發(fā)明采用的技術(shù)方案是基于用戶行為分析的web用戶流量產(chǎn)生方法包括如下步驟
I)對(duì)網(wǎng)站日志文件或tcpdump文件進(jìn)行處理,建立Markov轉(zhuǎn)移矩陣、Parto模型和ON/OFF模型。
2)根據(jù)步驟I)中的網(wǎng)站日志文件或tcpdump文件統(tǒng)計(jì)分析得出頁面請(qǐng)求時(shí)間間隔、頁面跳轉(zhuǎn)關(guān)系和頁面受歡迎程度。3)將步驟2)的統(tǒng)計(jì)結(jié)果送入步驟I)中建立的各模型作為初始化參數(shù);
4)根據(jù)齊普夫一曼德爾布羅分布確定所瀏覽網(wǎng)站的首頁面。5)根據(jù)步驟3)中送入初始化參數(shù)后的Markov轉(zhuǎn)移矩陣確定下一個(gè)訪問頁面P。6)根據(jù)送入初始化參數(shù)后的0N/0FF模型隨機(jī)生成一個(gè)訪問時(shí)間間隔。7)發(fā)送HTTP Get請(qǐng)求步驟5)中的頁面P。8)判斷任務(wù)是否結(jié)束,是則退出,否則轉(zhuǎn)到步驟5)。
具體地,用戶利用本發(fā)明方法時(shí),可在同一個(gè)客戶端上通過啟用若干個(gè)線程來實(shí)現(xiàn)對(duì)相同或不同網(wǎng)站的訪問。進(jìn)一步,步驟5)中確定下一個(gè)訪問頁面P的步驟包括①將網(wǎng)站日志文件中的瀏覽記錄按IP地址進(jìn)行聚合;②從聚合的網(wǎng)站日志文件中隨機(jī)抽取N個(gè)用戶的瀏覽記錄構(gòu)成學(xué)習(xí)數(shù)據(jù)集合U=Iu1, U2…%} 利用該學(xué)習(xí)數(shù)據(jù)集合,采用極大似然估計(jì)估計(jì)出Markov轉(zhuǎn)移矩陣中的所有參數(shù),計(jì)算方法為
^ m
73.- = --p. = --
a , ^2 s M
2 22
J-1!-1 J-1
式中 表示在用戶瀏覽序列中從網(wǎng)頁i跳轉(zhuǎn)到頁面j的次數(shù),乓表示網(wǎng)頁i轉(zhuǎn)移到
頁面j的概車^為Markov矩陣的初始狀態(tài)分布,即在初始時(shí)處于網(wǎng)頁i的概率;④根據(jù)用戶現(xiàn)在所處頁面及Markov矩陣預(yù)測用戶下一個(gè)訪問頁面P。發(fā)明人通過正確分析用戶對(duì)網(wǎng)絡(luò)的請(qǐng)求行為之后建立了 Web用戶行為模型(WebUser Behavior Simulation)WUBS模型,該模型除了考慮各請(qǐng)求的時(shí)間間隔、瀏覽時(shí)間間隔模型,還通過對(duì)用戶訪問進(jìn)行聚類分析引入了頁面跳轉(zhuǎn)關(guān)系的Markov轉(zhuǎn)移矩陣,用于刻畫用戶的瀏覽行為、頁面受歡迎程度,因此能夠更加準(zhǔn)確反映最真實(shí)的用戶請(qǐng)求流量狀況,更貼近用戶實(shí)時(shí)請(qǐng)求。發(fā)明人對(duì)該系統(tǒng)設(shè)計(jì)了一個(gè)參數(shù)確定方法,通過該方法可以將服務(wù)器端的Web請(qǐng)求日志進(jìn)行分析,確定上述各瀏覽模型(請(qǐng)求時(shí)間間隔[4]的0N/0FF模型、瀏覽時(shí)間間隔的Parto模型、頁面跳轉(zhuǎn)關(guān)系的Markov轉(zhuǎn)移矩陣)的參數(shù)。申請(qǐng)人在單個(gè)客戶機(jī)上采用多線程方式,以同時(shí)模仿多個(gè)用戶,協(xié)調(diào)工作以實(shí)現(xiàn)大規(guī)模網(wǎng)絡(luò)流量產(chǎn)生需求。本發(fā)明的基于用戶行為分析的web流量產(chǎn)生方法具有以下優(yōu)點(diǎn)基于用戶行為分析的流量產(chǎn)生方法較傳統(tǒng)方法所使產(chǎn)生的網(wǎng)絡(luò)流量逼真度更高,對(duì)網(wǎng)絡(luò)設(shè)備性能測試、網(wǎng)絡(luò)協(xié)議評(píng)估提供更好的支持;通過多線程方式可以產(chǎn)生大規(guī)模網(wǎng)絡(luò)流量,也可以實(shí)現(xiàn)在一個(gè)客戶端上對(duì)不同網(wǎng)站同時(shí)訪問,互不影響。
圖1為流量產(chǎn)生方法流程 圖2為Markov模型轉(zhuǎn)移矩陣;
圖3為0N/0FF模型描述的用戶瀏覽行為;圖4為Pareto分布中k=l,a =1. 3的網(wǎng)絡(luò)流量 圖5為Pareto分布中k=l,a =1. 3的R/S 圖6為Pareto分布中k=l,a =1. 7的網(wǎng)絡(luò)流量 圖7為Pareto分布中k=l,0=1.7的1 /5圖。
具體實(shí)施例方式以下結(jié)合附圖對(duì)本發(fā)明的實(shí)施作詳細(xì)描述。圖1是本發(fā)明實(shí)施例的一種網(wǎng)絡(luò)流量產(chǎn)生方法的流程圖,包括如下步驟
步驟101,提取要訪問網(wǎng)站的日志文件或在本地網(wǎng)絡(luò)交換設(shè)備上用tcpdump抓取要訪問網(wǎng)站的數(shù)據(jù)包,建立Markov轉(zhuǎn)移矩陣、Parto模型和0N/0FF模型。步驟102,在步驟101的基礎(chǔ)上,統(tǒng)計(jì)分析得出頁面請(qǐng)求時(shí)間間隔、頁面跳轉(zhuǎn)關(guān)系和頁面受歡迎程度,確定Markov轉(zhuǎn)移矩陣、Parto模型和0N/0FF模型的參數(shù)。對(duì)以上模型參數(shù)的確定可以分兩種情況(I)在能得到網(wǎng)站訪問日志文件的情況下,可以直接對(duì)日志文件進(jìn)行統(tǒng)計(jì)分析,計(jì)算得出各模型的參數(shù)。(2)在無法得到網(wǎng)站日志的情況下,采用在本地網(wǎng)絡(luò)交換設(shè)備做端口映射,用tcpdump抓取訪問目標(biāo)網(wǎng)站的數(shù)據(jù)包,然后再進(jìn)行統(tǒng)計(jì)分析,計(jì)算出各模型參數(shù)。步驟103,在步驟102的基礎(chǔ)上,把各模型參數(shù)保存在全局變量中以供后面的步驟查詢、修改,并存入配置文件中,這樣在對(duì)同一網(wǎng)站進(jìn)行訪問時(shí)就不必重復(fù)計(jì)算。步驟104,根據(jù)齊普夫一曼德爾布羅分布確定所瀏覽網(wǎng)站的首頁面。頁面受歡迎
程度-給定一個(gè)網(wǎng)站,假設(shè)它共包含N (N>0)個(gè)web頁面,依次為wl, w2,…wn。使用隨
機(jī)變量W表示所請(qǐng)求的web頁面,P(ff=i)表示頁面wi的訪問概率。埃達(dá)等人發(fā)現(xiàn)頁面的受歡迎程度滿足齊普夫一曼德爾布羅分布,如下
權(quán)利要求
1.基于用戶行為分析的web用戶流量產(chǎn)生方法,其特征在于,包括如下步驟1)對(duì)網(wǎng)站日志文件或tcpdump文件進(jìn)行處理,建立Markov轉(zhuǎn)移矩陣、Parto模型和ON/ OFF模型;2)根據(jù)步驟I)中的網(wǎng)站日志文件或tcpdump文件統(tǒng)計(jì)分析得出頁面請(qǐng)求時(shí)間間隔、頁面跳轉(zhuǎn)關(guān)系和頁面受歡迎程度;3)將步驟2)的統(tǒng)計(jì)結(jié)果送入步驟I)中建立的各模型作為初始化參數(shù);4)根據(jù)齊普夫一曼德爾布羅分布確定所瀏覽網(wǎng)站的首頁面;5)根據(jù)步驟3)中送入初始化參數(shù)后的Markov轉(zhuǎn)移矩陣確定下一個(gè)訪問頁面P;6)根據(jù)送入初始化參數(shù)后的0N/0FF模型隨機(jī)生成一個(gè)訪問時(shí)間間隔;7)發(fā)送HTTPGet請(qǐng)求步驟5)中的頁面P ;8)判斷任務(wù)是否結(jié)束,是則退出,否則轉(zhuǎn)到步驟5)。
2.根據(jù)權(quán)利要求1所述基于用戶行為分析的web用戶流量產(chǎn)生方法,其特征在于用戶利用所述流量產(chǎn)生方法在同一個(gè)客戶端上通過啟用若干個(gè)線程來實(shí)現(xiàn)對(duì)相同或不同網(wǎng)站的訪問。
3.根據(jù)權(quán)利要求1所述基于用戶行為分析的web用戶流量產(chǎn)生方法,其特征在于 步驟5)確定下一個(gè)訪問頁面P的步驟包括①將網(wǎng)站日志文件中的瀏覽記錄按IP地址進(jìn)行聚合;②從聚合的網(wǎng)站日志文件中隨機(jī)抽取N個(gè)用戶的瀏覽記錄構(gòu)成學(xué)習(xí)數(shù)據(jù)集合 U={Ul,ivuN} 利用該學(xué)習(xí)數(shù)據(jù)集合,采用極大似然估計(jì)估計(jì)出Markov轉(zhuǎn)移矩陣中的所有參數(shù),計(jì)算方法為
全文摘要
本發(fā)明公開了一種基于用戶行為分析的web用戶流量產(chǎn)生方法,本方法建立了WUBS模型,該模型除了考慮各請(qǐng)求的時(shí)間間隔、瀏覽時(shí)間間隔模型,還通過對(duì)用戶訪問進(jìn)行聚類分析引入了頁面跳轉(zhuǎn)關(guān)系的Markov轉(zhuǎn)移矩陣,用于刻畫用戶的瀏覽行為、頁面受歡迎程度,因此能夠更加準(zhǔn)確反映最真實(shí)的用戶請(qǐng)求流量狀況,更貼近用戶實(shí)時(shí)請(qǐng)求。
文檔編號(hào)H04L12/24GK103001805SQ20121054785
公開日2013年3月27日 申請(qǐng)日期2012年12月17日 優(yōu)先權(quán)日2012年12月17日
發(fā)明者唐紅, 于敏昌, 徐川, 趙國鋒 申請(qǐng)人:重慶郵電大學(xué)