亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

web頁(yè)面分割方法及裝置制造方法

文檔序號(hào):6500359閱讀:140來(lái)源:國(guó)知局
web頁(yè)面分割方法及裝置制造方法
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種web頁(yè)面分割方法及裝置,根據(jù)該方法,在預(yù)定時(shí)間段內(nèi),根據(jù)各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;并根據(jù)各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段,識(shí)別出各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型;確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,并以此為分割規(guī)則,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包以及與所確定的請(qǐng)求數(shù)據(jù)包對(duì)應(yīng)的響應(yīng)數(shù)據(jù)包,不用維護(hù)和使用流表、所占用的系統(tǒng)開(kāi)銷(xiāo)小、節(jié)省處理資源,分割規(guī)則與請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和文件類(lèi)型相關(guān),能夠提高web頁(yè)面分割的準(zhǔn)確率。
【專(zhuān)利說(shuō)明】web頁(yè)面分割方法及裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及網(wǎng)絡(luò)通信系統(tǒng),具體涉及一種web頁(yè)面分割方法及裝置。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)流量測(cè)量和網(wǎng)絡(luò)性能優(yōu)化中一項(xiàng)重要指標(biāo)是頁(yè)面響應(yīng)速度,通過(guò)測(cè)量屬于同一個(gè)頁(yè)面的數(shù)據(jù)包的傳輸速度來(lái)測(cè)量頁(yè)面響應(yīng)速度,確定屬于同一個(gè)頁(yè)面的數(shù)據(jù)包的技術(shù)手段被稱(chēng)為web頁(yè)面分割。
[0003]目前,web頁(yè)面分割的方法包括兩種,解析HTTP方式和不解析HTTP方式:
[0004]第一,解析HTTP方式,針對(duì)網(wǎng)絡(luò)流量,在流表中記錄各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFRER字段和各個(gè)請(qǐng)求數(shù)據(jù)包的目的URL,將請(qǐng)求嵌入對(duì)象文件(例如JPG文件、PNG文件等等)的請(qǐng)求數(shù)據(jù)包的REFERER字段的域值即URL與請(qǐng)求容器對(duì)象文件(例如HTML文件、HTM文件、SHTML文件等等)的請(qǐng)求包的目的URL進(jìn)行對(duì)比,若二者相同則表明該嵌入對(duì)象文件屬于該容器對(duì)象文件的目的URL所指示的頁(yè)面。并通過(guò)根據(jù)請(qǐng)求數(shù)據(jù)包和響應(yīng)數(shù)據(jù)包之間的對(duì)應(yīng)關(guān)系組合出屬于同一個(gè)web頁(yè)面的數(shù)據(jù)包,也即對(duì)不同的web頁(yè)面進(jìn)行了分割。
[0005]第二,不解析HTTP方式,基于大多數(shù)瀏覽器發(fā)送的請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包的大小顯著地大于請(qǐng)求嵌入對(duì)象文件的請(qǐng)求數(shù)據(jù)包的大小這一觀察事實(shí),并且認(rèn)為下一個(gè)頁(yè)面的請(qǐng)求容器對(duì)象的請(qǐng)求數(shù)據(jù)包到來(lái)之前,上一個(gè)頁(yè)面最后一個(gè)響應(yīng)數(shù)據(jù)包已經(jīng)傳輸完成,基于這兩個(gè)前提,根據(jù)請(qǐng)求數(shù)據(jù)包的大小將請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包識(shí)別出來(lái),作為當(dāng)前新的web頁(yè)面的第一個(gè)數(shù)據(jù)包,并將該請(qǐng)求容器對(duì)象的請(qǐng)求數(shù)據(jù)包之前的一個(gè)數(shù)據(jù)包作為當(dāng)前web頁(yè)面的上一個(gè)web頁(yè)面的數(shù)據(jù)包,以此來(lái)進(jìn)行web頁(yè)面分割。
[0006]上述第一種方式的優(yōu)點(diǎn)在于頁(yè)面分割的準(zhǔn)確率高,缺點(diǎn)在于維護(hù)流表的開(kāi)銷(xiāo)大、占用的處理資源過(guò)多,并且不能適用于REFERER頭部無(wú)法獲取以及嵌套頁(yè)面的情況。
[0007]上述第二種方式的優(yōu)點(diǎn)在于不用維護(hù)流表開(kāi)銷(xiāo)較小、能夠節(jié)省處理資源,也能夠適用于REFERER頭部不能獲取的情況,但是,該方法的缺點(diǎn)在于準(zhǔn)確率低于上述第一種方法的準(zhǔn)確率。
[0008]可見(jiàn),在現(xiàn)有的web頁(yè)面分割的方法中,存在獲得較高的分割準(zhǔn)確率和占用較少的處理資源不能兼顧的問(wèn)題。

【發(fā)明內(nèi)容】

[0009]有鑒于此,本發(fā)明實(shí)施例提供了一種web頁(yè)面分割方法及裝置,用以解決現(xiàn)有技術(shù)中的web頁(yè)面分割方法不能兼顧獲得較高的分割準(zhǔn)確率和占用較少的處理資源的問(wèn)題。
[0010]本發(fā)明實(shí)施例技術(shù)方案如下:
[0011]一種web頁(yè)面分割方法,包括:在預(yù)定時(shí)間段內(nèi),根據(jù)web客戶(hù)端發(fā)送給web服務(wù)器的各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;其中,所述請(qǐng)求數(shù)據(jù)包用于請(qǐng)求獲取構(gòu)成Web頁(yè)面的文件,所述請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合包括:相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的時(shí)間間隔,和/或相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值;并根據(jù)各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段,識(shí)別出各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型;確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;所述文件類(lèi)型包括:容器對(duì)象文件、嵌入對(duì)象文件或獨(dú)立對(duì)象文件,所述獨(dú)立對(duì)象文件包括RAR文件、TXT文件或PDF文件;根據(jù)所確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包以及與所確定的請(qǐng)求數(shù)據(jù)包對(duì)應(yīng)的響應(yīng)數(shù)據(jù)包。
[0012]—種web頁(yè)面分割裝置,包括:第一確定模塊,用于在預(yù)定時(shí)間段內(nèi),根據(jù)web客戶(hù)端發(fā)送給web服務(wù)器的各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,其中,所述請(qǐng)求數(shù)據(jù)包用于請(qǐng)求獲取構(gòu)成web頁(yè)面的文件,所述請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合包括:相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的時(shí)間間隔,和/或相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值;識(shí)別模塊,用于在所述預(yù)定時(shí)間段內(nèi),根據(jù)各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段,識(shí)別出各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型;所述文件類(lèi)型包括:容器對(duì)象文件、嵌入對(duì)象文件或獨(dú)立對(duì)象文件,所述獨(dú)立對(duì)象文件包括RAR文件、TXT文件或PDF文件;第二確定模塊,用于根據(jù)所述第一確定模塊確定得到的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和所述識(shí)別模塊識(shí)別出的各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型,確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;第三確定模塊,用于根據(jù)所述第二確定模塊確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包以及與所確定的請(qǐng)求數(shù)據(jù)包對(duì)應(yīng)的響應(yīng)數(shù)據(jù)包。
[0013]根據(jù)本發(fā)明實(shí)施例的技術(shù)方案,通過(guò)在預(yù)定時(shí)間段內(nèi),根據(jù)web客戶(hù)端發(fā)送給web服務(wù)器的各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;并根據(jù)各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段,識(shí)別出各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型;確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,并以此為分割規(guī)則,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包以及與所確定的請(qǐng)求數(shù)據(jù)包對(duì)應(yīng)的響應(yīng)數(shù)據(jù)包,能夠僅通過(guò)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息以及HTTP頭部的REFERER字段就能夠確定進(jìn)行web頁(yè)面分割的分割規(guī)則,不用維護(hù)和使用流表、所占用的系統(tǒng)開(kāi)銷(xiāo)小、節(jié)省處理資源,并且在預(yù)定時(shí)間段內(nèi)基于實(shí)際的網(wǎng)絡(luò)數(shù)據(jù)流量自主學(xué)習(xí)到分割規(guī)則,且分割規(guī)則與請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型相關(guān),能夠提高web頁(yè)面分割的準(zhǔn)確率,從而能夠解決現(xiàn)有技術(shù)中的web頁(yè)面分割方法不能兼顧獲得較高的分割準(zhǔn)確率和占用較少的處理資源的問(wèn)題。
[0014]本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說(shuō)明書(shū)中闡述,并且,部分地從說(shuō)明書(shū)中變得顯而易見(jiàn),或者通過(guò)實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過(guò)在所寫(xiě)的說(shuō)明書(shū)、權(quán)利要求書(shū)、以及附圖中所特別指出的結(jié)構(gòu)來(lái)實(shí)現(xiàn)和獲得。
【專(zhuān)利附圖】

【附圖說(shuō)明】
[0015]圖1為本發(fā)明實(shí)施例提供的web頁(yè)面分割方法的工作流程圖;[0016]圖2是本發(fā)明實(shí)施例提供的web頁(yè)面分割裝置的結(jié)構(gòu)框圖;
[0017]圖3是圖2所示裝置的優(yōu)選結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0018]以下結(jié)合附圖對(duì)本發(fā)明的實(shí)施例進(jìn)行說(shuō)明,應(yīng)當(dāng)理解,此處所描述的實(shí)施例僅用于說(shuō)明和解釋本發(fā)明,并不用于限定本發(fā)明。
[0019]針對(duì)現(xiàn)有技術(shù)中的web頁(yè)面分割方法不能兼顧獲得較高的分割準(zhǔn)確率和占用較少的處理資源的問(wèn)題,本發(fā)明實(shí)施例提供了一種web頁(yè)面分割方案,用于解決該問(wèn)題。在本發(fā)明實(shí)施例提供的web頁(yè)面分割方法中,僅通過(guò)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息以及HTTP頭部的REFERER字段就能夠確定進(jìn)行web頁(yè)面分割的分割規(guī)則,也即屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包以及與所確定的請(qǐng)求數(shù)據(jù)包對(duì)應(yīng)的響應(yīng)數(shù)據(jù)包,不用維護(hù)和使用流表、所占用的系統(tǒng)開(kāi)銷(xiāo)小、節(jié)省處理資源,并且在預(yù)定時(shí)間段內(nèi)基于實(shí)際的網(wǎng)絡(luò)數(shù)據(jù)流量自主學(xué)習(xí)到分割規(guī)則,且分割規(guī)則與請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型相關(guān),能夠提高web頁(yè)面分割的準(zhǔn)確率,從而能夠解決現(xiàn)有技術(shù)中的web頁(yè)面分割方法不能兼顧獲得較高的分割準(zhǔn)確率和占用較少的處理資源的問(wèn)題。
[0020]下面對(duì)本發(fā)明實(shí)施例進(jìn)行詳細(xì)說(shuō)明。
[0021]圖1示出了本發(fā)明實(shí)施例提供的web頁(yè)面分割方法的工作流程,該方法包括:
[0022]步驟11、在預(yù)定時(shí)間段內(nèi),根據(jù)web客戶(hù)端發(fā)送給web服務(wù)器的各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,具體包括:相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的時(shí)間間隔,和/或相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值;
[0023]具體地,預(yù)定時(shí)間段內(nèi),將當(dāng)前滑動(dòng)窗口中確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合中當(dāng)前屬性的屬性加權(quán)值與上一個(gè)滑動(dòng)窗口中確定的相應(yīng)屬性的屬性加權(quán)值的和值確定為當(dāng)前屬性的屬性值,并且,當(dāng)前滑動(dòng)窗口的權(quán)重大于上一個(gè)滑動(dòng)窗口的權(quán)重;其中,所述滑動(dòng)窗口的時(shí)間長(zhǎng)度小于或等于所述預(yù)定時(shí)間段的時(shí)間長(zhǎng)度;通過(guò)該處理步驟可知,確定當(dāng)前滑動(dòng)窗口中的請(qǐng)求數(shù)據(jù)包的屬性值集合依賴(lài)于上一個(gè)滑動(dòng)窗口中請(qǐng)求數(shù)據(jù)包的屬性值集合,這是因?yàn)樵趯?shí)際的網(wǎng)絡(luò)流量中,數(shù)據(jù)流量通常具有連續(xù)性,屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值也具有數(shù)值連續(xù)的特性,故為了確定更為準(zhǔn)確的請(qǐng)求數(shù)據(jù)包的屬性值集合,確定當(dāng)前滑動(dòng)窗口中的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合的過(guò)程中,依賴(lài)于上一個(gè)滑動(dòng)窗口中請(qǐng)求數(shù)據(jù)包的屬性值集合;
[0024]確定當(dāng)前滑動(dòng)窗口的請(qǐng)求數(shù)據(jù)包的屬性值集合的處理,具體包括:在當(dāng)前滑動(dòng)窗口的時(shí)間長(zhǎng)度內(nèi)提取各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,并從提取的TCP頭部信息和IP頭部信息中獲取各個(gè)請(qǐng)求數(shù)據(jù)包的源IP地址和目的IP地址,并確定各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度;
[0025]將每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第一時(shí)間間隔;將每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第二時(shí)間間隔;和/或,將每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第一 HTTP凈載荷長(zhǎng)度差值;將每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第二 HTTP凈載荷長(zhǎng)度差值;
[0026]步驟12、并根據(jù)各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段,識(shí)別出各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型;請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型,具體包括:容器對(duì)象文件、嵌入對(duì)象文件或獨(dú)立對(duì)象文件,所述獨(dú)立對(duì)象文件包括RAR文件、TXT文件或HF文件;
[0027]具體地,在預(yù)定時(shí)間段內(nèi),提取當(dāng)前滑動(dòng)窗口中的各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER 字段;
[0028]如果請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL是靜態(tài)URL,提取該靜態(tài)URL的最后一個(gè)分隔符”至該URL最后一個(gè)字符之間的字符串為該請(qǐng)求包的所請(qǐng)求的文件的文件類(lèi)型;
[0029]如果請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL是動(dòng)態(tài)URL,提取該動(dòng)態(tài)URL的最后一個(gè)分隔符”至該URL最后一個(gè)分隔符“?”之間的字符串為該請(qǐng)求包的所請(qǐng)求的文件的文件類(lèi)型;
[0030]更進(jìn)一步地,將請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL存儲(chǔ)在URL庫(kù);針對(duì)所提取的字符串無(wú)法明確地確定文件類(lèi)型的情況下,也即在無(wú)法根據(jù)請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL識(shí)別該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型的情況下,如果所述URL庫(kù)中存在的一個(gè)URL與該請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL相同,確定該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型為容器對(duì)象文件,如果所述URL庫(kù)中不存在的一個(gè)URL與該請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL相同,確定該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型為嵌入對(duì)象文件;
[0031]步驟13、確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;
[0032]具體地,在預(yù)定時(shí)間段內(nèi),確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合即為web頁(yè)面分割規(guī)則,該規(guī)則包括:
[0033]規(guī)則1、確定請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包或者請(qǐng)求獨(dú)立對(duì)象文件的請(qǐng)求數(shù)據(jù)包為一個(gè)web頁(yè)面的第一個(gè)數(shù)據(jù)包;
[0034]規(guī)則2、每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值小于或等于所述第一時(shí)間間隔;、
[0035]規(guī)則3、每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值小于或等于所述第二時(shí)間間隔;和/或,
[0036]規(guī)則4、每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值小于或等于所述第一 HTTP凈載荷長(zhǎng)度差值;
[0037]規(guī)則5、每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值小于或等于所述第二 HTTP凈載荷長(zhǎng)度差值;
[0038]步驟104、根據(jù)所確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包以及與所確定的請(qǐng)求數(shù)據(jù)包對(duì)應(yīng)的響應(yīng)數(shù)據(jù)包;[0039]具體地,將當(dāng)前滑動(dòng)窗口中確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合中當(dāng)前屬性的屬性加權(quán)值與上一個(gè)滑動(dòng)窗口中確定的相應(yīng)屬性的屬性加權(quán)值的和值確定為當(dāng)前屬性的屬性值;如上述步驟101中所述,當(dāng)前滑動(dòng)窗口的權(quán)重大于上一個(gè)滑動(dòng)窗口的權(quán)重,其理由如上述步驟101中所述;具體確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合的方法也如上述步驟101中所述
[0040]根據(jù)在當(dāng)前滑動(dòng)窗口中所確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,和所確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包,也即根據(jù)上述步驟103中的web頁(yè)面分割規(guī)則進(jìn)行判斷和分割;
[0041]更進(jìn)一步地,當(dāng)請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合中只包括相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的時(shí)間間隔時(shí),上述分割規(guī)則就只包括規(guī)則I?規(guī)則3,當(dāng)請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合中只包括相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值時(shí),上述分割規(guī)則就只包括規(guī)則1、規(guī)則4和規(guī)則5,依據(jù)這樣的分割規(guī)則進(jìn)行web頁(yè)面分割時(shí),得到單一的分割結(jié)果的可能性較大,也即分割得到一個(gè)頁(yè)面的可能性較大;
[0042]但是,當(dāng)請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合中同時(shí)包括相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的時(shí)間間隔和相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值時(shí),上述分割規(guī)則中就同時(shí)包括規(guī)則I?規(guī)則5,依據(jù)這樣的分割規(guī)則,得到多樣性的分割結(jié)果的可能性較大,也即對(duì)于同一個(gè)滑動(dòng)窗口中的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型,依據(jù)規(guī)則I?規(guī)則5,可能會(huì)分割得到多個(gè)web頁(yè)面,則,在這種情況下,分別確定這多個(gè)web頁(yè)面的請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL,將這多個(gè)URL中在預(yù)定的歷史時(shí)間段內(nèi)記錄的URL進(jìn)行對(duì)比,如果這多個(gè)URL中的一個(gè)URL在歷史時(shí)間段內(nèi)記錄的URL的請(qǐng)求數(shù)量多于這多個(gè)URL中其它URL在歷史時(shí)間段內(nèi)記錄的URL的請(qǐng)求數(shù)量,將該URL對(duì)應(yīng)的分割得到的web頁(yè)面作為最終分割得到的web頁(yè)面。
[0043]上述只是一種在分割得到的多個(gè)web頁(yè)面中確定一個(gè)最終的web頁(yè)面的方法,在實(shí)際應(yīng)用中,還可以通過(guò)其它方式來(lái)確定。
[0044]根據(jù)圖1所示的方法,通過(guò)在預(yù)定時(shí)間段內(nèi),根據(jù)web客戶(hù)端發(fā)送給web服務(wù)器的各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;并根據(jù)各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段,識(shí)別出各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型;確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,并以此為分割規(guī)則,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包以及與所確定的請(qǐng)求數(shù)據(jù)包對(duì)應(yīng)的響應(yīng)數(shù)據(jù)包,能夠僅通過(guò)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息以及HTTP頭部的REFERER字段就能夠確定進(jìn)行web頁(yè)面分割的分割規(guī)則,不用維護(hù)和使用流表、所占用的系統(tǒng)開(kāi)銷(xiāo)小、節(jié)省處理資源,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和識(shí)別請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型的操作的復(fù)雜度低、處理速度快、處理效率高;并且在預(yù)定時(shí)間段內(nèi)基于實(shí)際的網(wǎng)絡(luò)數(shù)據(jù)流量自主學(xué)習(xí)到分割規(guī)則,且分割規(guī)則與請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型相關(guān),相比于現(xiàn)有技術(shù)中不解析HTTP方式進(jìn)行web頁(yè)面分割的方法中,僅根據(jù)請(qǐng)求數(shù)據(jù)包的大小來(lái)區(qū)分請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的類(lèi)型,能夠更為準(zhǔn)確地識(shí)別請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的類(lèi)型、獲得更準(zhǔn)確的分割規(guī)則,從而能夠提高web頁(yè)面分割的準(zhǔn)確率,進(jìn)而能夠解決現(xiàn)有技術(shù)中的web頁(yè)面分割方法不能兼顧獲得較高的分割準(zhǔn)確率和占用較少的處理資源的問(wèn)題。
[0045]基于相同的發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供了一種web頁(yè)面分割裝置,該裝置可以位于進(jìn)行流量監(jiān)測(cè)的網(wǎng)絡(luò)設(shè)備中,或者位于網(wǎng)絡(luò)性能測(cè)量的網(wǎng)絡(luò)設(shè)備中,還可以位于其它的除客戶(hù)端和服務(wù)器之外的、進(jìn)行網(wǎng)絡(luò)流量轉(zhuǎn)發(fā)的網(wǎng)絡(luò)設(shè)備中。
[0046]圖2示出了本發(fā)明實(shí)施例提供的web頁(yè)面分割裝置的結(jié)構(gòu)框圖,該裝置包括:
[0047]第一確定模塊21,用于在預(yù)定時(shí)間段內(nèi),根據(jù)web客戶(hù)端發(fā)送給web服務(wù)器的各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;
[0048]具體地,請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,具體包括:相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的時(shí)間間隔,和/或相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值;
[0049]第一確定模塊21,具體用于在預(yù)定時(shí)間段內(nèi),將當(dāng)前滑動(dòng)窗口中確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合中當(dāng)前屬性的屬性加權(quán)值與上一個(gè)滑動(dòng)窗口中確定的相應(yīng)屬性的屬性加權(quán)值的和值確定為當(dāng)前屬性的屬性值;其中,滑動(dòng)窗口的時(shí)間長(zhǎng)度小于或等于預(yù)定時(shí)間段的時(shí)間長(zhǎng)度;
[0050]并且,在當(dāng)前滑動(dòng)窗口的時(shí)間長(zhǎng)度內(nèi)提取各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,并從提取的TCP頭部信息和IP頭部信息中獲取各個(gè)請(qǐng)求數(shù)據(jù)包的源IP地址和目的IP地址,并確定各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度;將每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第一時(shí)間間隔;將每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第二時(shí)間間隔;和/或,將每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第一 HTTP凈載荷長(zhǎng)度差值;將每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第二 HTTP凈載荷長(zhǎng)度差值;
[0051 ] 識(shí)別模塊22,用于在預(yù)定時(shí)間段內(nèi),根據(jù)web客戶(hù)端發(fā)送給web服務(wù)器的各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段,識(shí)別出各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型;文件類(lèi)型,具體包括:容器對(duì)象文件、嵌入對(duì)象文件或獨(dú)立對(duì)象文件,獨(dú)立對(duì)象文件包括RAR文件、TXT文件或PDF文件;
[0052]具體地,識(shí)別模塊22在預(yù)定時(shí)間段內(nèi),提取當(dāng)前滑動(dòng)窗口中的各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段;如果請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL是靜態(tài)URL,提取該靜態(tài)URL的最后一個(gè)分隔符”至該URL最后一個(gè)字符之間的字符串為該請(qǐng)求包的所請(qǐng)求的文件的文件類(lèi)型;如果請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL是動(dòng)態(tài)URL,提取該動(dòng)態(tài)URL的最后一個(gè)分隔符”至該URL最后一個(gè)分隔符“? ”之間的字符串為該請(qǐng)求包的所請(qǐng)求的文件的文件類(lèi)型;
[0053]第二確定模塊23,連接至第一確定模塊21和識(shí)別模塊22,用于根據(jù)第一確定模塊21確定得到的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和識(shí)別模塊22識(shí)別出的各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型,確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;
[0054]具體地,第二確定模塊23確定請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包或者請(qǐng)求獨(dú)立對(duì)象文件的請(qǐng)求數(shù)據(jù)包為一個(gè)web頁(yè)面的第一個(gè)數(shù)據(jù)包;每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值小于或等于第一時(shí)間間隔;每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值小于或等于第二時(shí)間間隔;和/或,每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值小于或等于第一HTTP凈載荷長(zhǎng)度差值;每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值小于或等于第二 HTTP凈載荷長(zhǎng)度差值;
[0055]第三確定模塊24,連接至第二確定模塊23,用于根據(jù)第二確定模,23確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包以及與所確定的請(qǐng)求數(shù)據(jù)包對(duì)應(yīng)的響應(yīng)數(shù)據(jù)包。
[0056]具體地,第三確定模塊24將當(dāng)前滑動(dòng)窗口中確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合中當(dāng)前屬性的屬性加權(quán)值與上一個(gè)滑動(dòng)窗口中確定的相應(yīng)屬性的屬性加權(quán)值的和值確定為當(dāng)前屬性的屬性值;根據(jù)在當(dāng)前滑動(dòng)窗口中所確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,和第二確定模塊所確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包;
[0057]更進(jìn)一步,第三確定模塊24在當(dāng)前滑動(dòng)窗口中,根據(jù)在當(dāng)前滑動(dòng)窗口中所確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型,以及所確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型和屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定得到多個(gè)web頁(yè)面的情況下,分別確定這多個(gè)web頁(yè)面的請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL,將這多個(gè)URL中在預(yù)定的歷史時(shí)間段內(nèi)記錄的URL進(jìn)行對(duì)比,如果這多個(gè)URL中的一個(gè)URL在歷史時(shí)間段內(nèi)記錄的URL的請(qǐng)求數(shù)量多于這多個(gè)URL中其它URL在歷史時(shí)間段內(nèi)記錄的URL的請(qǐng)求數(shù)量,將該URL對(duì)應(yīng)的分割得到的web頁(yè)面作為最終分割得到的web頁(yè)面。
[0058]根據(jù)如圖2所示裝置,也能夠僅通過(guò)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息以及HTTP頭部的REFERER字段就能夠確定進(jìn)行web頁(yè)面分割的分割規(guī)則,不用維護(hù)和使用流表、所占用的系統(tǒng)開(kāi)銷(xiāo)小、節(jié)省處理資源,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和識(shí)別請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型的操作的復(fù)雜度低、處理速度快、處理效率高,并且在預(yù)定時(shí)間段內(nèi)基于實(shí)際的網(wǎng)絡(luò)數(shù)據(jù)流量自主學(xué)習(xí)到分割規(guī)則,且分割規(guī)則與請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型相關(guān),能夠更為準(zhǔn)確地識(shí)別請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的類(lèi)型、獲得更準(zhǔn)確的分割規(guī)則,從而能夠提高web頁(yè)面分割的準(zhǔn)確率,進(jìn)而能夠解決現(xiàn)有技術(shù)中的web頁(yè)面分割方法不能兼顧獲得較高的分割準(zhǔn)確率和占用較少的處理資源的問(wèn)題。
[0059]優(yōu)選地,在圖2所示裝置的基礎(chǔ)上,如圖3所示,本發(fā)明實(shí)施例提供的web頁(yè)面分割裝置還可以包括第四確定模塊25,連接至第一確定模塊21、識(shí)別模塊22和第二確定模塊23,用于將第一確定模塊21確定的請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL存儲(chǔ)在URL庫(kù),在識(shí)別模塊22無(wú)法根據(jù)請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL識(shí)別該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型的情況下,如果URL庫(kù)中存在的一個(gè)URL與該請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL相同,確定該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型為容器對(duì)象文件,如果URL庫(kù)中不存在的一個(gè)URL與該請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL相同,確定該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型為嵌入對(duì)象文件,識(shí)別出來(lái)的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型為第二確定模塊23提供參考。
[0060]通過(guò)第四確定模塊25,可以識(shí)別出第二確定模塊23無(wú)法識(shí)別出類(lèi)型的文件,提高識(shí)別請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型的準(zhǔn)確率。
[0061]綜上所述,本發(fā)明實(shí)施例通過(guò)在預(yù)定時(shí)間段內(nèi),根據(jù)web客戶(hù)端發(fā)送給web服務(wù)器的各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;并根據(jù)各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段,識(shí)別出各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型;確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,并以此為分割規(guī)則,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包以及與所確定的請(qǐng)求數(shù)據(jù)包對(duì)應(yīng)的響應(yīng)數(shù)據(jù)包,能夠僅通過(guò)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息以及HTTP頭部的REFERER字段就能夠確定進(jìn)行web頁(yè)面分割的分割規(guī)則,不用維護(hù)和使用流表、所占用的系統(tǒng)開(kāi)銷(xiāo)小、節(jié)省處理資源,相比現(xiàn)有技術(shù)中解析HTTP的方式,本發(fā)明實(shí)施例的方法確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和識(shí)別請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型的操作的復(fù)雜度低、處理速度快、處理效率高;并且在預(yù)定時(shí)間段內(nèi)基于實(shí)際的網(wǎng)絡(luò)數(shù)據(jù)流量自主學(xué)習(xí)到分割規(guī)則,且分割規(guī)則與請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型相關(guān),相比于現(xiàn)有技術(shù)中不解析HTTP方式進(jìn)行web頁(yè)面分割的方法中,僅根據(jù)請(qǐng)求數(shù)據(jù)包的大小來(lái)區(qū)分請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的類(lèi)型,能夠更為準(zhǔn)確地識(shí)別請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的類(lèi)型、獲得更準(zhǔn)確的分割規(guī)則,從而能夠提高web頁(yè)面分割的準(zhǔn)確率,進(jìn)而能夠解決現(xiàn)有技術(shù)中的web頁(yè)面分割方法不能兼顧獲得較高的分割準(zhǔn)確率和占用較少的處理資源的問(wèn)題。
[0062]本領(lǐng)域普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過(guò)程序來(lái)指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。
[0063]另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷(xiāo)售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。
[0064]本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤(pán)存儲(chǔ)器和光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
[0065]本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專(zhuān)用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
[0066]這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
[0067]這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
[0068]顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
【權(quán)利要求】
1.一種web頁(yè)面分割方法,其特征在于,包括: 在預(yù)定時(shí)間段內(nèi),根據(jù)web客戶(hù)端發(fā)送給web服務(wù)器的各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合;其中,所述請(qǐng)求數(shù)據(jù)包用于請(qǐng)求獲取構(gòu)成web頁(yè)面的文件,所述請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合包括:相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的時(shí)間間隔,和/或相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值; 并根據(jù)各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段,識(shí)別出各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型;所述文件類(lèi)型包括:容器對(duì)象文件、嵌入對(duì)象文件或獨(dú)立對(duì)象文件,所述獨(dú)立對(duì)象文件包括RAR文件、TXT文件或PDF文件; 確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合; 根據(jù)所確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包以及與所確定的請(qǐng)求數(shù)據(jù)包對(duì)應(yīng)的響應(yīng)數(shù)據(jù)包。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述預(yù)定時(shí)間段內(nèi),確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合, 具體包括: 在所述預(yù)定時(shí)間段內(nèi),將當(dāng)前滑動(dòng)窗口中確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合中當(dāng)前屬性的屬性加權(quán)值與上一個(gè)滑動(dòng)窗口中確定的相應(yīng)屬性的屬性加權(quán)值的和值確定為當(dāng)前屬性的屬性值;其中,所述滑動(dòng)窗口的時(shí)間長(zhǎng)度小于或等于所述預(yù)定時(shí)間段的時(shí)間長(zhǎng)度。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,確定當(dāng)前滑動(dòng)窗口中的屬性值集合中的屬性值,具體包括: 在當(dāng)前滑動(dòng)窗口的時(shí)間長(zhǎng)度內(nèi)提取各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,并從提取的TCP頭部信息和IP頭部信息中獲取各個(gè)請(qǐng)求數(shù)據(jù)包的源IP地址和目的IP地址,并確定各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度; 將每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第一時(shí)間間隔; 將每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第二時(shí)間間隔;和/或, 將每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第一 HTTP凈載荷長(zhǎng)度差值; 將每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第二 HTTP凈載荷長(zhǎng)度差值。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,識(shí)別出各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型,具體包括: 在所述預(yù)定時(shí)間段內(nèi),提取當(dāng)前滑動(dòng)窗口中的各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段; 如果請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL是靜態(tài)URL,提取該靜態(tài)URL的最后一個(gè)分隔符”至該URL最后一個(gè)字符之間的字符串為該請(qǐng)求包的所請(qǐng)求的文件的文件類(lèi)型; 如果請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL是動(dòng)態(tài)URL,提取該動(dòng)態(tài)URL的最后一個(gè)分隔符”至該URL最后一個(gè)分隔符“? ”之間的字符串為該請(qǐng)求包的所請(qǐng)求的文件的文件類(lèi)型。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述方法還包括: 將所確定的請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL存儲(chǔ)在URL庫(kù),在無(wú)法根據(jù)請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL識(shí)別該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型的情況下,如果所述URL庫(kù)中存在的一個(gè)URL與該請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL相同,確定該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型為容器對(duì)象文件,如果所述URL庫(kù)中不存在的一個(gè)URL與該請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL相同,確定該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型為嵌入對(duì)象文件。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,具體包括: 確定請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包或者請(qǐng)求獨(dú)立對(duì)象文件的請(qǐng)求數(shù)據(jù)包為一個(gè)web頁(yè)面的第一個(gè)數(shù)據(jù)包; 每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值小于或等于所述第一 時(shí)間間隔; 每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值小于或等于所述第二時(shí)間間隔;和/或, 每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值小于或等于所述第一 HTTP凈載荷長(zhǎng)度差值; 每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值小于或等于所述第二 HTTP凈載荷長(zhǎng)度差值。
7.根據(jù)權(quán)利要求1或6所述的方法,其特征在于,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包,具體包括: 將當(dāng)前滑動(dòng)窗口中確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合中當(dāng)前屬性的屬性加權(quán)值與上一個(gè)滑動(dòng)窗口中確定的相應(yīng)屬性的屬性加權(quán)值的和值確定為當(dāng)前屬性的屬性值; 根據(jù)在當(dāng)前滑動(dòng)窗口中所確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,和所確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包,具體包括: 在當(dāng)前滑動(dòng)窗口中,根據(jù)在當(dāng)前滑動(dòng)窗口中所確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型,以及所確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型和屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定得到多個(gè)web頁(yè)面的情況下,分別確定這多個(gè)web頁(yè)面的請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL,將這多個(gè)URL中在預(yù)定的歷史時(shí)間段內(nèi)記錄的URL進(jìn)行對(duì)比,如果這多個(gè)URL中的一個(gè)URL在歷史時(shí)間段內(nèi)記錄的URL的請(qǐng)求數(shù)量多于這多個(gè)URL中其它URL在歷史時(shí)間段內(nèi)記錄的URL的請(qǐng)求數(shù)量,將該URL對(duì)應(yīng)的分割得到的web頁(yè)面作為最終分割得到的web頁(yè)面。
9.一種web頁(yè)面分割裝置,其特征在于,包括: 第一確定模塊,用于在預(yù)定時(shí)間段內(nèi),根據(jù)web客戶(hù)端發(fā)送給web服務(wù)器的各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,確定請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,其中,所述請(qǐng)求數(shù)據(jù)包用于請(qǐng)求獲取構(gòu)成web頁(yè)面的文件,所述請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合包括:相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的時(shí)間間隔,和/或相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值; 識(shí)別模塊,用于在所述預(yù)定時(shí)間段內(nèi),根據(jù)各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段,識(shí)別出各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型;所述文件類(lèi)型包括:容器對(duì)象文件、嵌入對(duì)象文件或獨(dú)立對(duì)象文件,所述獨(dú)立對(duì)象文件包括RAR文件、TXT文件或PDF文件; 第二確定模塊,用于根據(jù)所述第一確定模塊確定得到的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和所述識(shí)別模塊識(shí)別出的各個(gè)請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型,確定屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合; 第三確定模塊,用于根據(jù)所述第二確定模塊確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包以及與所確定的請(qǐng)求數(shù)據(jù)包對(duì)應(yīng)的響應(yīng)數(shù)據(jù)包。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述第一確定模塊,具體用于: 在所述預(yù)定時(shí)間段內(nèi),將當(dāng)前滑動(dòng)窗口中確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合中當(dāng)前屬性的屬性加權(quán)值與上一個(gè)滑動(dòng)窗口中確定的相應(yīng)屬性的屬性加權(quán)值的和值確定為當(dāng)前屬性的屬性值;其中,所述滑動(dòng)窗口的時(shí)間長(zhǎng)度小于或等于所述預(yù)定時(shí)間段的時(shí)間長(zhǎng)度。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述第一確定模塊,具體用于: 在當(dāng)前滑動(dòng)窗口的時(shí)間長(zhǎng)度內(nèi)提取各個(gè)請(qǐng)求數(shù)據(jù)包的TCP頭部信息和IP頭部信息,并從提取的TCP頭部信息和IP頭部信息中獲取各個(gè)請(qǐng)求數(shù)據(jù)包的源IP地址和目的IP地址,并確定各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度; 將每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第一時(shí)間間隔; 將每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第二時(shí)間間隔;和/或, 將每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第一 HTTP凈載荷長(zhǎng)度差值;將每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值的平均值確定為相同源IP地址的相鄰兩個(gè)請(qǐng)求數(shù)據(jù)包的第二 HTTP凈載荷長(zhǎng)度差值。
12.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述識(shí)別模塊,具體用于: 在所述預(yù)定時(shí)間段內(nèi),提取當(dāng)前滑動(dòng)窗口中的各個(gè)請(qǐng)求數(shù)據(jù)包的HTTP頭部的REFERER字段;如果請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL是靜態(tài)URL,提取該靜態(tài)URL的最后一個(gè)分隔符”至該URL最后一個(gè)字符之間的字符串為該請(qǐng)求包的所請(qǐng)求的文件的文件類(lèi)型; 如果請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL是動(dòng)態(tài)URL,提取該動(dòng)態(tài)URL的最后一個(gè)分隔符”至該URL最后一個(gè)分隔符“? ”之間的字符串為該請(qǐng)求包的所請(qǐng)求的文件的文件類(lèi)型。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述裝置還包括: 第四確定模塊,用于將所述第一確定模塊確定的請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL存儲(chǔ)在URL庫(kù),在所述識(shí)別模塊無(wú)法根據(jù)請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL識(shí)別該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型的情況下,如果所述URL庫(kù)中存在的一個(gè)URL與該請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL相同,確定該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型為容器對(duì)象文件,如果所述URL庫(kù)中不存在的一個(gè)URL與該請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL相同,確定該請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型為嵌入對(duì)象文件。
14.根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述第二確定模塊,具體用于: 確定請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包或者請(qǐng)求獨(dú)立對(duì)象文件的請(qǐng)求數(shù)據(jù)包為一個(gè)web頁(yè)面的第一個(gè)數(shù)據(jù)包; 每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值小于或等于所述第一時(shí)間間隔; 每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的時(shí)間戳的差值小于或等于所述第二時(shí)間間隔;和/或, 每?jī)蓚€(gè)相鄰的具有相同源IP地址、相同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值小于或等于所述第一 HTTP凈載荷長(zhǎng)度差值; 每?jī)蓚€(gè)相鄰的具有相同源IP地址、不同目的IP地址的請(qǐng)求數(shù)據(jù)包的HTTP凈載荷長(zhǎng)度差值小于或等于所述第二 HTTP凈載荷長(zhǎng)度差值。
15.根據(jù)權(quán)利要求9或權(quán)利要求14所述的裝置,其特征在于,所述第三確定模塊,具體用于: 將當(dāng)前滑動(dòng)窗口中確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合中當(dāng)前屬性的屬性加權(quán)值與上一個(gè)滑動(dòng)窗口中確定的相應(yīng)屬性的屬性加權(quán)值的和值確定為當(dāng)前屬性的屬性值; 根據(jù)在當(dāng)前滑動(dòng)窗口中所確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,和所述第二確定模塊所確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型以及屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定屬于同一個(gè)頁(yè)面的請(qǐng)求數(shù)據(jù)包。
16.根據(jù)權(quán)利要求15所述的裝置,其特征在于,所述第三確定模塊,具體用于: 在當(dāng)前滑動(dòng)窗口中,根據(jù)在當(dāng)前滑動(dòng)窗口中所確定的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合和請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型,以及所確定的屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包所請(qǐng)求的文件的文件類(lèi)型和屬于同一個(gè)web頁(yè)面的請(qǐng)求數(shù)據(jù)包的數(shù)據(jù)包屬性值集合,確定得到多個(gè)web頁(yè)面的情況下,分別確定這多個(gè)web頁(yè)面的請(qǐng)求容器對(duì)象文件的請(qǐng)求數(shù)據(jù)包的REFERER字段中的URL,將這多個(gè)URL中在預(yù)定的歷史時(shí)間段內(nèi)記錄的URL進(jìn)行對(duì)比,如果這多個(gè)URL中的一個(gè)URL在歷史時(shí)間段內(nèi)記錄的URL的請(qǐng)求數(shù)量多于這多個(gè)URL中其它URL在歷史時(shí)間段內(nèi)記錄的URL的請(qǐng)求數(shù)量,將該URL對(duì)應(yīng)的分割得到的web頁(yè)面作為最終分割得到的web頁(yè)面。
【文檔編號(hào)】G06F17/30GK104035932SQ201310069892
【公開(kāi)日】2014年9月10日 申請(qǐng)日期:2013年3月5日 優(yōu)先權(quán)日:2013年3月5日
【發(fā)明者】曾彬 申請(qǐng)人:中國(guó)移動(dòng)通信集團(tuán)湖南有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1