本發(fā)明涉及一種大規(guī)模流量中基于cookieid的nat識別方法。
背景技術(shù):
:目前主流nat(networkaddresstranslation,網(wǎng)絡(luò)地址轉(zhuǎn)換)識別方法主要采用被動檢測方法,其方法是通過被動監(jiān)聽網(wǎng)絡(luò)數(shù)據(jù)流量,分析數(shù)據(jù)包的源信息(源ip、源port、目的ip、目的port)、及內(nèi)容信息來進行用戶身份判斷。從而佐證源ip是否是nat網(wǎng)關(guān)。如果推測源ip為nat網(wǎng)關(guān),后繼可判定其規(guī)模大小。根據(jù)各種識別方法的不同特點,大致上可以把現(xiàn)有的nat被動檢測方法分為兩個大的類別,分別為:基于tcp/ip協(xié)議特征字段的識別方法、基于應(yīng)用層信息的識別方法。無論是基于tcp/ip協(xié)議特征字段識別還是基于應(yīng)用層信息識別都是基于外顯特征、協(xié)議特點等對nat網(wǎng)關(guān)進行有效識別。在大數(shù)據(jù)時代的今天,這種基于特征的檢測手段對計算資源消耗巨大。而本檢測方法適用于大規(guī)模流量中基于cookieid與用戶源信息關(guān)聯(lián)的手段對nat網(wǎng)關(guān)進行識別。在http協(xié)議中,為了便于web網(wǎng)站辨別用戶身份,從而有效地處理客戶端與web服務(wù)器之間的狀態(tài)信息或內(nèi)容信息,定義了一個cookie數(shù)據(jù)值。當用戶瀏覽某個網(wǎng)站時,web服務(wù)器將生成一個包含有用戶id、時間日期等信息的cookie值,并將該cookie值連同用戶訪問的相應(yīng)內(nèi)容一并返回給請求訪問的瀏覽器,瀏覽器則將其存儲于用戶本地的終端中。當下次該用戶再次瀏覽同一個網(wǎng)站時,用戶會將上次保存在本地的cookie值一并發(fā)送,網(wǎng)站通過該cookie值便可以得到用戶信息了。一般情況下,對于首次訪問該網(wǎng)站的用戶,web服務(wù)器會在cookie值中設(shè)置一個有效期。在有效期內(nèi),同一個網(wǎng)站下不同的用戶的cookie值中的用戶id是不同的。運營商經(jīng)常利用一些知名網(wǎng)站的cookieid來對動態(tài)主機、nat主機進行標識,進而做一些與網(wǎng)絡(luò)測量、優(yōu)化服務(wù)等相關(guān)的工作。技術(shù)實現(xiàn)要素:針對現(xiàn)有技術(shù)中存在的技術(shù)問題,本發(fā)明的目的在于提供一種大規(guī)模流量中基于cookieid的nat識別方法本發(fā)明從已知的nat檢測方法出發(fā),通過對網(wǎng)絡(luò)數(shù)據(jù)包應(yīng)用層信息中的cookieid進行識別,不僅能對nat屬性進行識別,而且能夠?qū)at規(guī)模進行判定。本發(fā)明的技術(shù)方案為:一種大規(guī)模流量中基于cookieid的nat識別方法,其步驟為:1)解析網(wǎng)絡(luò)數(shù)據(jù)包,從網(wǎng)絡(luò)數(shù)據(jù)包中提取完整源信息、useragent、cookieid并入庫;2)計算該庫中相同源ip、目的ip的cookieid數(shù)量,以及計算該庫中相同源ip、目的ip的useragent數(shù)量;3)根據(jù)步驟2)的計算結(jié)果識別出nat網(wǎng)關(guān)及nat網(wǎng)關(guān)的用戶規(guī)模。將相同源ip、目的ip的cookieid數(shù)量排序靠前的源ip識別為nat網(wǎng)關(guān),將該源ip、目的ip對應(yīng)的useragent數(shù)量識別為該nat網(wǎng)關(guān)的用戶規(guī)模。利用hash計算相同源ip、目的ip的cookieid數(shù)量并進行排序;其中,以源ip、目的ip作key,計算cookieid數(shù)量。利用hash計算相同源ip、目的ip的cookieid數(shù)量并進行排序;其中,以源ip、目的ip和cookieid作key,計算cookieid數(shù)量。利用hash計算相同源ip、目的ip的useragent數(shù)量并進行排序;其中,以源ip、目的ip作key,計算useragent數(shù)量。利用hash計算相同源ip、目的ip的useragent數(shù)量并進行排序;其中,以源ip、目的ip和useragent作key,計算useragent數(shù)量。所述完整源信息包含源ip、源port、目的ip、目的port。所述步驟2)中,首先利用源port、目的port對庫中的信息進行過濾,然后計算該庫中相同源ip、目的ip的cookieid數(shù)量,以及計算該庫中相同源ip、目的ip的useragent數(shù)量。與現(xiàn)有技術(shù)相比,本發(fā)明的積極效果為:本發(fā)明主要的優(yōu)勢在于:能夠更快識別出nat,以及對nat規(guī)模進行判定。使用cookieid能準確識別出nat;使用user-agent能準確計算出nat規(guī)模;使用國內(nèi)外知名網(wǎng)站cookieid能對國內(nèi)外nat進行識別。本發(fā)明根據(jù)網(wǎng)絡(luò)數(shù)據(jù)包應(yīng)用層信息中的cookieid進行識別nat。為了對國內(nèi)外nat設(shè)備進行識別以及主機數(shù)的確定;選取國內(nèi)外互聯(lián)網(wǎng)上有著超高流量的網(wǎng)站。通過實驗確定使用第三方cookieid為:中國的baiduid;國外的rnlbserverid。附圖說明圖1為nat網(wǎng)絡(luò)結(jié)構(gòu)圖。圖2為本發(fā)明的方法流程圖。具體實施方式下面,結(jié)合具體的實施例對本發(fā)明進行詳細說明。如圖1所示,icp(互聯(lián)網(wǎng)內(nèi)容提供商)獲取isp(互聯(lián)網(wǎng)服務(wù)器提供商)的大規(guī)模流量數(shù)據(jù)。本方法采取分析該大規(guī)模數(shù)據(jù)流量,從而識別nat網(wǎng)關(guān)及nat網(wǎng)關(guān)的用戶規(guī)模。具體實現(xiàn)步驟如圖2所示,包括:(1)根據(jù)網(wǎng)絡(luò)數(shù)據(jù)包各層協(xié)議,解析數(shù)據(jù)包內(nèi)容;(2)提取完整源信息(即包含源ip、源port、目的ip、目的port)、useragent、cookieid等并入庫;提取端口信息,即源port、目的port,可以區(qū)分web服務(wù)器的服務(wù)類型;同一個ip服務(wù)器可能承載多個服務(wù),不同用戶可能使用不同的服務(wù),提取端口信息,會提高分析的準確性。(3)利用hash計算相同源ip、目的ip的cookieid數(shù)量并進行排序;(key=[源ip、目的ip、cookieid],value=count,即cookieid數(shù)量);其中,將cookieid作為key的一部分,目的是計算同源同目的對應(yīng)cookieid的去重后個數(shù),因此需要將其放到key值里。(4)利用hash計算相同源ip、目的ip的useragent數(shù)量并進行排序;(key=[源ip、目的ip、useragent],value=count,即useragent數(shù)量);其中,將useragent作為key的一部分,目的是計算同源同目的對應(yīng)useragent的去重后個數(shù),因此需要將其放到key值里。(5)關(guān)聯(lián)分析(3)、(4)的數(shù)據(jù)結(jié)果得出可能是nat網(wǎng)關(guān)的ip列表及使用該nat網(wǎng)關(guān)的用戶規(guī)模。模擬分析步驟為保護用戶隱私,采用模擬數(shù)據(jù),分析步驟及方法如下:a)基于網(wǎng)絡(luò)數(shù)據(jù)包各層協(xié)議,解析獲取的網(wǎng)絡(luò)數(shù)據(jù)包,提取完整源信息。源信息包括源ip、源port、目的ip、目的port、useragent、cookieid等。b)將上一步的結(jié)果入庫,例如表1所示。c)分析表1所示數(shù)據(jù),以源ip+目的ip作key,計算cookieid數(shù)量,并排序,如表2。d)分析表1所示數(shù)據(jù),以源ip+目的ip作key,計算useragent數(shù)量,并排序,入表3。分析:cookie是由web服務(wù)器保存在用戶瀏覽器上的小文本文件,它包含有關(guān)用戶的信息。由此可見,在相同源ip、目的ip的情況下,如果該源ip只有一個用戶,cookie應(yīng)該僅有一個或數(shù)量有限的幾個。因此,在相同源ip、目的ip的情況下,cookie個數(shù)越多,該源ip是nat網(wǎng)關(guān)的可能性越高。web服務(wù)器通常通過useragent來確定用戶瀏覽該web站點的操作環(huán)境,主要包括操作系統(tǒng)、瀏覽器類型、瀏覽器渲染引擎等。通常自然人用戶訪問web站點的操作環(huán)境并不會時常變換。因此,在相同源ip、目的ip的情況下,useragent個數(shù)越多,該源ip所對應(yīng)的用戶越多。結(jié)合上述兩點,關(guān)聯(lián)分析表2、3,分析相同ip、目的ip的情況下,cookie、useragent的數(shù)量。源ip“1.1.1.1”排序第一,相對其他源ip,是nat網(wǎng)關(guān)的可能性較高。在正常情況下,如果源ip是nat網(wǎng)關(guān),其對應(yīng)的cookieid及useragent數(shù)量將數(shù)量級別的區(qū)分非nat網(wǎng)關(guān)。表1為數(shù)據(jù)包解析數(shù)據(jù)源ip源port目的ip目的portcookieiduseragent其他1其他2…1.1.1.1202.2.2.221e2fc100a……………1.1.1.2202.2.2.121e2fc101a……………1.1.1.3202.2.2.221e1fc100a……………1.1.1.1202.2.2.321e1fc102a……………1.1.1.2202.2.2.421e1fc103a……………1.1.1.1202.2.2.221e1fc104a……………1.1.1.1282.2.2.229e2fc101a……………表2為相同源ip、目的ip的cookieid數(shù)量表3為相同源ip、目的ip的useragent數(shù)量源ip目的ipcount(useragent)1.1.1.12.2.2.231.1.1.22.2.2.111.1.1.32.2.2.211.1.1.12.2.2.311.1.1.22.2.2.41當前第1頁12