專利名稱:一種用戶訪問行為的獲取方法和系統(tǒng)的制作方法
技術(shù)領域:
本發(fā)明涉及數(shù)據(jù)處理領域,尤其涉及一種用戶訪問行為的獲取方法和系統(tǒng)。
背景技術(shù):
目前信息技術(shù)的飛速發(fā)展和企業(yè)信息化程度的不斷提高,用戶的使用也越來越豐富了。很多用戶通過網(wǎng)絡資源來學習、休閑、娛樂等。有些商家為了獲得經(jīng)濟效益,開始在各個網(wǎng)站做大量的廣告圖片,還有些廣告推廣等。同時伴隨著國家倡導的三網(wǎng)融合等,各個業(yè)務的融合已經(jīng)進入了企業(yè)的運營。為了確保一個穩(wěn)定、安全、高效的網(wǎng)絡運營環(huán)境,管理員或者企業(yè)老板不得不常常面臨以下問題——如何監(jiān)控用戶的上網(wǎng)行為?如何跟蹤網(wǎng)絡應用資源的使用情況?為了解決上述問題,記錄用戶的上網(wǎng)行為是必然的。尤其是記錄企業(yè)員エ瀏覽頁面的行為。因為通過分析用戶瀏覽的頁面內(nèi)容我們可以了解員エ感興趣的方面,或者是否做了一些非法言論和訪問ー些非法網(wǎng)站等。這些信息也可以為公安局破案等提供重要的依據(jù)?,F(xiàn)有的技術(shù)中記錄用戶上網(wǎng)行為的方案只是簡單的將每條鏈接的URL提取出來,發(fā)送出去。由于現(xiàn)代網(wǎng)絡技術(shù)的發(fā)展,我們嘗試點擊ー個頁面,那么這個頁面就會嘗試著鏈接與其相關(guān)聯(lián)的廣告,圖片等。那么最后我們看到的日志就會是有許多多余的日志審計出來。這些多余的日志長時間的積累,就會把我們所需要的真正的日志給沖到后面,管理員看起來很迷惑,怎么也找不到自己需要的日志。同時這些大量的多余日志的出現(xiàn)也會占用大量的存儲空間,最后的現(xiàn)象是我們浪費了許多存儲空間,保存了許多沒用的日志。管理員看起來也會很頭疼,不知道那個是真正的所需要的日志信息。
發(fā)明內(nèi)容
本發(fā)明提供的,要解決的技術(shù)問題是如何過濾掉用戶訪問的網(wǎng)頁中鏈接與其相關(guān)聯(lián)的廣告或圖片的網(wǎng)絡鏈接。為解決上述技術(shù)問題,本發(fā)明提供了如下技術(shù)方案:ー種網(wǎng)絡訪問行為的獲取方法,包括:獲取網(wǎng)頁訪問數(shù)據(jù);根據(jù)預先設置的策略,對網(wǎng)絡訪問數(shù)據(jù)的http頭部中的字段進行過濾;對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為。優(yōu)選的,所述方法還具有如下特點:所述預先設置的策略包括選擇http實體為被壓縮的實體或者含有title特征的未被壓縮的實體,其中被選擇的實體的http頭部中的字段符合如下條件:Content-Type 字段是 text/html 的類型;Content-Length字段小于或等于1024字節(jié);transfer-encoding首部的類型是chunked,并且該回應包的實體長度大于零并且該回應包的實體是以OdOaOdOa”結(jié)尾的;URL的長度小于130字節(jié);URL 文件后綴不是.js、 png、.css、.dif、.klz、.1co、 xml、 xsl、 ani 或 dll。優(yōu)選的,所述方法還具有如下特點:所述方法還包括:記錄同一個IP地址對應的URL信息,將記錄的URL信息作為用戶的網(wǎng)絡訪問行為;所述對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為,包括:將過濾得到的某一 IP地址的網(wǎng)絡訪問數(shù)據(jù)中URL信息與本地記錄的該IP地址對應的URL信息進行匹配;如果該IP地址對應的URL信息有匹配對象,輸出所述網(wǎng)絡訪問數(shù)據(jù)中的URL信息;否則,先將網(wǎng)絡訪問數(shù)據(jù)中的URL信息増加到該IP地址對應的URL信息中,再輸出所述網(wǎng)絡訪問數(shù)據(jù)中的URL信息。優(yōu)選的,所述方法還具有如下特點:所述將過濾得到的某一 IP地址的網(wǎng)絡訪問數(shù)據(jù)中URL信息與本地記錄的該IP地址對應的URL信息進行匹配,包括:采用網(wǎng)絡訪問數(shù)據(jù)中URL信息與該IP地址對應的URL信息中的最后N個字節(jié)的內(nèi)容進行比較,其中N的取值范圍為20 1000。
優(yōu)選的,所述方法還具有如下特點:所述記錄同一個IP地址對應的URL信息,還包括:記錄所述記錄同一個IP地址對應的URL以及該URL被訪問的時間;所述將網(wǎng)絡訪問數(shù)據(jù)中URL信息増加到該IP地址對應的URL信息中還包括:當該IP地址對應的URL信息的個數(shù)達到預先設置的個數(shù)閾值后,根據(jù)該IP地址中每個URL被訪問的時間,刪除被訪問時間最早的URL的信息。優(yōu)選的,所述方法還具有如下特點:所述對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為還包括:如果該IP地址對應的URL信息有匹配對象,則獲取該URL被訪問的時間;根據(jù)該URL被訪問的時間,發(fā)起對該IP地址中該URL的訪問時間進行更新的操作。優(yōu)選的,所述方法還具有如下特點:所述發(fā)起對該IP地址中該URL的訪問時間進行更新的操作還包括:如果該URL的被訪問時間與該匹配對象被訪問的時間的差值大于或等于預先設置的時間閾值,則將匹配對象被訪問的時間更新為所述網(wǎng)絡鏈接的發(fā)起時間。優(yōu)選的,所述方法還具有如下特點:所述方法還包括:如果某ー URL被訪問后,該URL鏈接到ー個或多個URL,則在輸出網(wǎng)絡訪問數(shù)據(jù)中的URL信息之前,查找網(wǎng)絡訪問數(shù)據(jù)中的URL信息中是否有預先定義的關(guān)鍵字,將不包括該關(guān)鍵字的URL作為最終的網(wǎng)絡訪問數(shù)據(jù)中的URL信息進行輸出操作,其中所述關(guān)鍵字為該URL所鏈接到的其他URL的關(guān)鍵字。一種網(wǎng)絡訪問行為的獲取系統(tǒng),其特征在于,包括:獲取裝置,用于獲取網(wǎng)頁訪問數(shù)據(jù);過濾裝置,與所述獲取裝置相連,用于根據(jù)預先設置的策略,對網(wǎng)絡訪問數(shù)據(jù)的http頭部中的字段進行過濾;處理裝置,與所述過濾裝置相連,用于對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為。優(yōu)選的,所述系統(tǒng)還具有如下特點:所述預先設置的策略包括選擇http實體為被壓縮的實體或者含有title特征的未被壓縮的實體,其中被選擇的實體的http頭部中的字段符合如下條件:Content-Type 字段是 text/html 的類型;Content-Length字段小于或等于1024字節(jié);transfer-encoding首部的類型是chunked,并且該回應包的實體長度大于零并且該回應包的實體是以OdOaOdOa”結(jié)尾的;URL的長度小于130字節(jié);URL 文件后綴不是.js、 png、.css、.dif、.klz、.1co、 xml、 xsl、 ani 或 dll。優(yōu)選的,所述系統(tǒng)還具有如下特點:所述系統(tǒng)還包括:第一記錄裝置,用于記錄同一個IP地址對應的URL信息,將記錄的URL信息作為用戶的網(wǎng)絡訪問行為;所述處理裝置包括:
匹配模塊,與所述記錄裝置相連,用于將過濾得到的某一 IP地址的網(wǎng)絡訪問數(shù)據(jù)中URL信息與本地記錄的該IP地址對應的URL信息進行匹配;處理模塊,與所述匹配模塊相連,用于如果該IP地址對應的URL信息沒有匹配對象,將網(wǎng)絡訪問數(shù)據(jù)中的URL信息増加到該IP地址對應的URL信息中;輸出模塊,與所述匹配模塊相連,用于如果該IP地址對應的URL信息有匹配對象,輸出所述網(wǎng)絡訪問數(shù)據(jù)中的URL信息;以及,與所述處理模塊相連,用于在處理模塊將網(wǎng)絡訪問數(shù)據(jù)中的URL信息增加到該IP地址對應的URL信息中后,再輸出所述網(wǎng)絡訪問數(shù)據(jù)中的URL信息。優(yōu)選的,所述系統(tǒng)還具有如下特點:所述匹配模塊采用網(wǎng)絡訪問數(shù)據(jù)中URL信息與該IP地址對應的URL信息中的最后N個字節(jié)的內(nèi)容進行比較,其中N的取值范圍為20 1000。優(yōu)選的,所述系統(tǒng)還具有如下特點:所述第一記錄裝置記錄所述記錄同一個IP地址對應的URL以及該URL被訪問的時間;所述處理模塊還包括:刪除單元,用于在網(wǎng)絡訪問數(shù)據(jù)中的URL信息増加到該IP地址對應的URL信息中吋,當該IP地址對應的URL信息的個數(shù)達到預先設置的個數(shù)閾值后,根據(jù)該IP地址中每個URL被訪問的時間,刪除被訪問時間最早的URL的信息。優(yōu)選的,所述系統(tǒng)還具有如下特點:所述處理模塊還包括:更新単元,與所述刪除単元相連,用于如果該IP地址對應的URL信息有匹配對象,則獲取該URL被訪問的時間;根據(jù)該URL被訪問的時間,發(fā)起對該IP地址中該URL的訪問時間進行更新的操作。
優(yōu)選的,所述系統(tǒng)還具有如下特點:所述更新単元用于:如果該URL的被訪問時間與該匹配對象被訪問的時間的差值大于或等于預先設置的時間閾值,則將匹配對象被訪問的時間更新為所述網(wǎng)絡鏈接的發(fā)起時間。優(yōu)選的,所述系統(tǒng)還具有如下特點:所述處理裝置還包括:過濾模塊,與所述輸出模塊相連,用于如果某一 URL被訪問后,該URL鏈接到ー個或多個URL,則在輸出網(wǎng)絡訪問數(shù)據(jù)中的URL信息之前,查找網(wǎng)絡訪問數(shù)據(jù)中的URL信息中是否有預先定義的關(guān)鍵字,將不包括該關(guān)鍵字的URL作為最終的網(wǎng)絡訪問數(shù)據(jù)中的URL信息進行輸出操作,其中所述關(guān)鍵字為該URL所鏈接到的其他URL的關(guān)鍵字。與現(xiàn)有技術(shù)相比,本發(fā)明提供的方法實施例通過對網(wǎng)絡訪問數(shù)據(jù)的http頭部中的字段進行過濾,過濾掉與網(wǎng)絡管理無關(guān)的一部分網(wǎng)絡訪問數(shù)據(jù),再根據(jù)剩余的網(wǎng)絡訪問數(shù)據(jù)得到真正需要的網(wǎng)絡訪問行為。
圖1為本發(fā)明提供的網(wǎng)絡訪問行為的獲取方法實施例的流程示意圖;圖2為本發(fā)明提供的網(wǎng)絡訪問行為的獲取方法應用實例的流程示意圖;圖3為本發(fā)明應用實施例中步驟209的流程示意圖;圖4為本發(fā)明提供的網(wǎng)絡訪問行為的獲取系統(tǒng)實施例的結(jié)構(gòu)示意圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖及具體實施例對本發(fā)明作進ー步的詳細描述。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互任意組合。圖1為本發(fā)明提供的網(wǎng)絡訪問行為的獲取方法實施例的流程示意圖。圖1所示方法實施例,包括:步驟101、獲取網(wǎng)頁訪問數(shù)據(jù);步驟102、根據(jù)預先設置的策略,對網(wǎng)絡訪問數(shù)據(jù)的http頭部中的字段進行過濾;步驟103、對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為。與現(xiàn)有技術(shù)相比,本發(fā)明提供的方法實施例通過對網(wǎng)絡訪問數(shù)據(jù)的http頭部中的字段進行過濾,過濾掉與網(wǎng)絡管理無關(guān)的一部分網(wǎng)絡訪問數(shù)據(jù),再根據(jù)剩余的網(wǎng)絡訪問數(shù)據(jù)得到真正需要的網(wǎng)絡訪問行為。下面對本發(fā)明提供的方法實施例作進ー步說明:所述預先設置的策略包括選擇http實體為被壓縮的實體或者含有title特征的未被壓縮的實體,其中被選擇的實體的http頭部中的字段符合如下條件:Content-Type 字段是 text/html 的類型;Content-Length字段小于或等于1024字節(jié);transfer-encoding首部的類型是chunked,并且該回應包的實體長度大于零并且該回應包的實體是以OdOaOdOa”結(jié)尾的;URL的長度小于130字節(jié);URL 文件后綴不是.js、.png、.css、.dif>.klz、.1co、.xml、.xsl、.ani 或.dll。
需要說明的是,之所以選擇URL的長度小于130字節(jié)是因為經(jīng)過檢測,得出不需要的日志的URL的字節(jié)數(shù)過長,多數(shù)都是200多字節(jié)左右,因此控制URL的長度為130 ;而,對于URL文件后綴進行限定,是因為用戶在打開所需網(wǎng)址時,因為該所需網(wǎng)址會鏈接ー些宣傳頁或廣告頁,而這些宣傳頁或廣告頁的文件帶有上述后綴,而網(wǎng)頁本身是沒有后綴。因此通過對后綴的過濾,可以有效的過濾到網(wǎng)頁鏈接的一些其他文件,比如,用戶打開www.163.com時就附帶ー些帶有 xsl、.css、.xml等后綴的URL產(chǎn)生,通過后綴的過濾,可以得出用戶實際訪問的是URL為www.163.com。由此可以看出,通過上述過濾條件,可以有效的篩選出記錄有網(wǎng)絡訪問行為的數(shù)據(jù),去除無關(guān)的日志信息,達到精簡日志存儲空間的目的,另外,由于網(wǎng)絡訪問數(shù)據(jù)經(jīng)過過濾后,數(shù)量明顯減少,降低了獲取網(wǎng)絡訪問行為的處理數(shù)量。在實際應用中,由于用戶通常會頻繁訪問ー個網(wǎng)站,如果每次都將該訪問行為進行記錄,勢必會產(chǎn)生很多重復的信息,因此所述方法還包括:記錄同一個IP地址對應的URL信息,將記錄的URL信息作為用戶的網(wǎng)絡訪問行為;所述對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為,包括:將過濾得到的某一 IP地址的網(wǎng)絡訪問數(shù)據(jù)中URL信息與本地記錄的該IP地址對應的URL信息進行匹配;如果該IP地址對應的URL信息有匹配對象,輸出所述網(wǎng)絡訪問數(shù)據(jù)中的URL信息;否則,先將網(wǎng)絡訪問數(shù)據(jù)中的URL信息増加到該IP地址對應的URL信息中,再輸出所述網(wǎng)絡訪問數(shù)據(jù)中的URL信息。具體來說,在獲取到用戶的訪問行為時,通過將網(wǎng)絡訪問數(shù)據(jù)中字段的內(nèi)容與已記錄的內(nèi)容進行比較,進而確定是否需要寫入,防止重復信息的寫入,精簡網(wǎng)絡訪問行為的數(shù)據(jù)容量。由于referer和URL比較長,有的甚至長達2000多字節(jié),所以在兩者比較時,處理壓カ較大,因此只保留了網(wǎng)絡訪問數(shù)據(jù)中的URL信息和已記錄的URL的最后N個字節(jié)的內(nèi)容進行比較。其中N個取值一方面要保證能夠?qū)崿F(xiàn)信息的匹配,另ー方面,且字節(jié)的長度不應過長,控制在20 1000字節(jié)范圍內(nèi)。本發(fā)明中,采用最后20個字節(jié)來處理??紤]到網(wǎng)關(guān)服務器需要多個用戶的網(wǎng)絡訪問行為,因此,在對同一個IP地址下記錄的referer字段的個數(shù)進行維護時,可以通過執(zhí)行如下方案,包括:所述記錄同一個IP地址對應的URL信息,還包括:記錄所述記錄同一個IP地址對應的URL以及該URL被訪問的時間;所述將網(wǎng)絡訪問數(shù)據(jù)中的URL信息増加到該IP地址對應的URL信息中,還包括:當該IP地址對應的URL信息的個數(shù)達到預先設置的個數(shù)閾值后,根據(jù)該IP地址中每個URL被訪問的時間,刪除被訪問時間最早的URL的信息。其中,該個數(shù)閾值是服務器能夠?qū)Ι`個IP地址下URL進行匹配時的處理上限值,通過刪除該IP地址下被訪問時間最早的URL,實時保證該IP地址下記錄的URL是用戶最新的訪問行為,方便網(wǎng)絡維護。對于ー些用戶頻繁訪問的網(wǎng)頁,由于是訪問時間最早的原因,會從該IP地址對應的URL中刪除,但很快由于 用戶的再次訪問,又被以ー個較新的訪問時間增加進來,造成了同一個URL頻繁刪除或増加的問題,因此為了避免上述問題的出現(xiàn),所述對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為還包括:如果該IP地址對應的URL信息有匹配對象,則獲取該URL被訪問的時間;根據(jù)該URL被訪問的時間,發(fā)起對該IP地址中該URL的訪問時間進行更新的操作。當然,為了有效控制對同一個URL的訪問時間的更新次數(shù),所述發(fā)起對該IP地址中該URL的訪問時間進行更新的操作還包括:如果該URL的被訪問時間與該匹配對象被訪問的時間的差值大于或等于預先設置的時間閾值,則將匹配對象被訪問的時間更新為所述網(wǎng)絡鏈接的發(fā)起時間。在實際應用中,點擊ー個網(wǎng)址時,除了這個點擊的真正的URL日志外,會伴隨著產(chǎn)生一些多余的URL日志,因此在進行上面的處理是過濾不完全的,最后添加了ー項,如果有些特殊關(guān)鍵字的URL又不是我們所需要的。例如,點擊ー下www.taoba0.com時除了產(chǎn)生http: \\www.taoba0.com 日志外同時會產(chǎn)生一些多余的 URL 如 acookie.taoba0.com、www.taoba0.com/go/act/sale等,因此,為了使得記錄的IP地址對應的URL更加準確,所述方法還包括:如果某ー URL被訪問后,該URL鏈接到的ー個或多個URL,則在輸出網(wǎng)絡訪問數(shù)據(jù)中的URL信息之前,查找網(wǎng)絡訪問數(shù)據(jù)中的URL信息中是否有預先定義的關(guān)鍵字,將不包括該關(guān)鍵字的URL作為最終的網(wǎng)絡訪問數(shù)據(jù)中的URL信息進行輸出操作,其中所述關(guān)鍵字為該URL所鏈接到的其他URL的關(guān)鍵字。下面對本發(fā)明提供的方法實施例作進ー步說明:圖2為本發(fā)明提供的網(wǎng)絡訪問行為的獲取方法應用實例的流程示意圖。圖2所示方法應用實例,包括步驟201 步驟209,其中:步驟201:從用戶發(fā)起的tcp報文中準確的識別出http報文。步驟202:判斷http的首部Content-Type是否為text/html的類型,如果是,則執(zhí)行步驟203 ;否則,流程結(jié)束。步驟203:判斷 http 首部 Content-Encoding 是否為 gzip/deflate 類型如果是,則執(zhí)行步驟205處理;否則,執(zhí)行步驟204處理。步驟204:判斷http的實體中查找title字符串,如果沒有,流程結(jié)束;如果有該字符串進入步驟205 sl08,其中s205 s208之間沒有明顯的前后順序。步驟205:判斷http的首部Content-Length的內(nèi)容長度是否在0-1024之間。步驟206:判斷http回應包的transfer-encoding是否符合如下特征,包括:首部的類型是chunked,并且該回應包的實體長度大于零并且該回應包的實體是以
OdOaOdOa”結(jié)尾的;步驟207 =URL的長度是否小于130 ;步驟208:檢查一下 URL 的后綴是除了 js、 png、.css、.dif、.klz、ico、.xml、.xsl、.ani 或.dll 的后綴;在步驟205 sl08的執(zhí)行結(jié)果均為肯定的情況下,執(zhí)行步驟209。步驟209:通過http首部的referer來過濾掉多余的URL日志,具體的處理包括步驟AOl 步驟A06:圖3為本發(fā)明應用實施例中步驟209的流程示意圖。其中包括步驟AOl 步驟A06,其中:步驟AOl:檢查http首部referer是否為空,如果referer為空進入步驟A02處理,如果不為空進入步驟A03處理。步驟A02:以ip為關(guān)鍵字建立ー個hash表,該hash表包括一個鏈表來儲存referer中URL的后20個字節(jié)(為了節(jié)省內(nèi)存)的具體內(nèi)容和該referer中的URL被訪問的時間。例如,該鏈表處理最多能夠保存5個referer中的URL以及每個URL被訪問的時間,由于referer和URL比較長,有的甚至長達2000多字節(jié),所以只保留了 referer和URL的后20個字節(jié)來處理,當然,也可以根據(jù)自己的需要進行擴展,如鏈表中可以保存的referer的個數(shù),或者referer和URL的比較長度可以加長或縮短。如果鏈表中存有該ip為關(guān)鍵字的hash結(jié)點,那么將請求的URL插入該ip結(jié)點的referer數(shù)組中,如果referer存儲的條數(shù)等于5條時,那么將最先插入的URL刪除后將新到來的URL插入ip結(jié)點。如果鏈表中不存在該ip為關(guān)鍵字的hash結(jié)點,那么建立ー個ip結(jié)點,將URL插入該ip結(jié)點,同時將該ip結(jié)點插入鏈表。步驟A03:本鏈接中的referer首部內(nèi)容與hash表中的referer數(shù)組內(nèi)容進行比較,如果完全匹配檢查匹配到referer的時間戳與鏈表中存儲該referer的時間戳的差是否小于10秒,如果小于10秒返回,不進行發(fā)送日志處理;如果不小于10秒記錄訪問時間后進入步驟A02進行處理。當然,請求的URL插入該ip結(jié)點的referer數(shù)組之前,還可以進行關(guān)鍵字過濾,具體說明如下:步驟A04:點擊ー個網(wǎng)址時,除了這個點擊的真正的URL日志外,會伴隨著產(chǎn)生一些多余的URL日志,只進行上面的處理是過濾不完全的,最后添加了ー項,如果有些特殊關(guān)鍵字的URL又不是我們所需要的,就對這些關(guān)鍵字進行匹配,如果匹配成功,那么返回,不進行發(fā)送日志處理;如果匹配不成功進入步驟A05處理,其中這此處使用的關(guān)鍵字是通過抓包分析得到的,將所要過濾的關(guān)鍵字添加到一個數(shù)組中,用過濾后剩下的URL匹配這些關(guān)鍵字,如果有匹配上,那么這個URL就不發(fā)送日志,否則發(fā)送日志。步驟A05:經(jīng)過前面多條件處理還保留的URL,將該URL發(fā)送到數(shù)據(jù)庫儲存。步驟A06:返回該函數(shù)不做任何處理。本發(fā)明提供的方法應用例,通過分析http協(xié)議的首部:Content_Type、Content-Encoding、Content-Length> transfer-encoding 和 URL 的長度、URL 文件后綴過濾、URL特征過濾、referer和ip地址結(jié)合的方法,過濾掉大量的多余URL日志,以充分利用內(nèi)存的存儲空間和給用戶顯示用戶真正需要的URL日志。圖4為本發(fā)明提供的網(wǎng)絡訪問行為的獲取系統(tǒng)實施例的結(jié)構(gòu)示意圖。圖4所示系統(tǒng)實施例包括:獲取裝置401,用于獲取網(wǎng)頁訪問數(shù)據(jù);過濾裝置402,與所述獲取裝置401相連,用于根據(jù)預先設置的策略,對網(wǎng)絡訪問數(shù)據(jù)的http頭部中的字段進行過濾;處理裝置403,與所述過濾裝置402相連,用于對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為。其中,所述預先設置的策略包括選擇http實體為被壓縮的實體或者含有title特征的未被壓縮的實體,其中被選擇的實體的http頭部中的字段符合如下條件:Content-Type 字段是 text/html 的類型;Content-Length字段小于或等于1024字節(jié);transfer-encoding首部的類型是chunked,并且該回應包的實體長度大于零并且該回應包的實體是以OdOaOdOa”結(jié)尾的;URL的長度小于130字節(jié);URL 文件后綴不是.js、 png、.css、.dif、.klz、.1co、 xml、 xsl、 ani 或 dll。所述系統(tǒng)還包括:第一記錄裝置,用于記錄同一個IP地址對應的URL信息,將記錄的URL信息作為用戶的網(wǎng)絡訪問行為;所述處理裝置包括:匹配模塊,與所述記錄裝置相連,用于將過濾得到的某一 IP地址的網(wǎng)絡訪問數(shù)據(jù)中URL信息與本地記錄的該IP地址對應的URL信息進行匹配;處理模塊,與所述匹配模塊相連,用于如果該IP地址對應的URL信息沒有匹配對象,將網(wǎng)絡訪問數(shù)據(jù)中的URL信息増加到該IP地址對應的URL信息中;輸出模塊,與所述匹配模塊相連,用于如果該IP地址對應的URL信息有匹配對象,輸出所述網(wǎng)絡訪問數(shù)據(jù)中 的URL信息;以及,與所述處理模塊相連,用于在處理模塊將網(wǎng)絡訪問數(shù)據(jù)中的URL信息增加到該IP地址對應的URL信息中后,再輸出所述網(wǎng)絡訪問數(shù)據(jù)中的URL信息??蛇x的,所述匹配模塊采用網(wǎng)絡訪問數(shù)據(jù)中URL信息與該IP地址對應的URL信息中的最后N個字節(jié)的內(nèi)容進行比較,其中N的取值范圍為20 1000。可選的,所述第一記錄裝置記錄所述記錄同一個IP地址對應的URL以及該URL被訪問的時間;可選的,所述處理模塊還包括:刪除單元,用于在網(wǎng)絡訪問數(shù)據(jù)中的URL信息増加到該IP地址對應的URL信息中吋,當該IP地址對應的URL信息的個數(shù)達到預先設置的個數(shù)閾值后,根據(jù)該IP地址中每個URL被訪問的時間,刪除被訪問時間最早的URL的信息??蛇x的,所述處理模塊還包括:更新単元,與所述刪除単元相連,用于如果該IP地址對應的URL信息有匹配對象,則獲取該URL被訪問的時間;根據(jù)該URL被訪問的時間,發(fā)起對該IP地址中該URL的訪問時間進行更新的操作。其中,所述更新単元用于:如果該URL的被訪問時間與該匹配對象被訪問的時間的差值大于或等于預先設置的時間閾值,則將匹配對象被訪問的時間更新為所述網(wǎng)絡鏈接的發(fā)起時間。可選的,所述處理裝置還包括:過濾模塊,與所述輸出模塊相連,用于如果某一 URL被訪問后,該URL鏈接到ー個或多個URL,則在輸出網(wǎng)絡訪問數(shù)據(jù)中的URL信息之前,查找網(wǎng)絡訪問數(shù)據(jù)中的URL信息中是否有預先定義的關(guān)鍵字,將不包括該關(guān)鍵字的URL作為最終的網(wǎng)絡訪問數(shù)據(jù)中的URL信息進行輸出操作,其中所述關(guān)鍵字為該URL所鏈接到的其他URL的關(guān)鍵字。
與現(xiàn)有技術(shù)相比,本發(fā)明提供的系統(tǒng)實施例通過對網(wǎng)絡訪問數(shù)據(jù)的http頭部中的字段進行過濾,過濾掉與網(wǎng)絡管理無關(guān)的一部分網(wǎng)絡訪問數(shù)據(jù),再根據(jù)剩余的網(wǎng)絡訪問數(shù)據(jù)得到真正需要的網(wǎng)絡訪問行為。以上所述,僅為本發(fā)明的具體實施方式
,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應以權(quán)利要求所述的保護范圍為準。
權(quán)利要求
1.一種網(wǎng)絡訪問行為的獲取方法,其特征在于,包括: 獲取網(wǎng)頁訪問數(shù)據(jù); 根據(jù)預先設置的策略,對網(wǎng)絡訪問數(shù)據(jù)的http頭部中的字段進行過濾; 對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預先設置的策略包括選擇http實體為被壓縮的實體或者含有title特征的未被壓縮的實體,其中被選擇的實體的http頭部中的字段符合如下條件: Content-Type 字段是 text/html 的類型; Content-Length字段小于或等于1024字節(jié); transfer-encoding首部的類型是chunked,并且該回應包的實體長度大于零并且該回應包的實體是以OdOaOdOa”結(jié)尾的; URL的長度小于130字節(jié);URL JCitiTft js、.png、.css、.dif>.klz、.1co、.xml、 xsl、.an1.dll。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于: 所述方法還包括: 記錄同一個IP地址對應的 URL信息,將記錄的URL信息作為用戶的網(wǎng)絡訪問行為; 所述對過濾后的報文中的UR L信息進行處理,得到用戶的網(wǎng)絡訪問行為,包括: 將過濾得到的某一 IP地址的網(wǎng)絡訪問數(shù)據(jù)中URL信息與本地記錄的該IP地址對應的URL信息進行匹配; 如果該IP地址對應的URL信息有匹配對象,輸出所述網(wǎng)絡訪問數(shù)據(jù)中的URL信息;否貝U,先將網(wǎng)絡訪問數(shù)據(jù)中的URL信息増加到該IP地址對應的URL信息中,再輸出所述網(wǎng)絡訪問數(shù)據(jù)中的URL信息。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將過濾得到的某一IP地址的網(wǎng)絡訪問數(shù)據(jù)中URL信息與本地記錄的該IP地址對應的URL信息進行匹配,包括: 采用網(wǎng)絡訪問數(shù)據(jù)中URL信息與該IP地址對應的URL信息中的最后N個字節(jié)的內(nèi)容進行比較,其中N的取值范圍為20 1000。
5.根據(jù)權(quán)利要求3所述的方法,其特征在于: 所述記錄同一個IP地址對應的URL信息,還包括: 記錄所述記錄同一個IP地址對應的URL以及該URL被訪問的時間; 所述將網(wǎng)絡訪問數(shù)據(jù)中URL信息増加到該IP地址對應的URL信息中還包括: 當該IP地址對應的URL信息的個數(shù)達到預先設置的個數(shù)閾值后,根據(jù)該IP地址中每個URL被訪問的時間,刪除被訪問時間最早的URL的信息。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為還包括: 如果該IP地址對應的URL信息有匹配對象,則獲取該URL被訪問的時間;根據(jù)該URL被訪問的時間,發(fā)起對該IP地址中該URL的訪問時間進行更新的操作。
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述發(fā)起對該IP地址中該URL的訪問時間進行更新的操作還包括: 如果該URL的被訪問時間與該匹配對象被訪問的時間的差值大于或等于預先設置的時間閾值,則將匹配對象被訪問的時間更新為所述網(wǎng)絡鏈接的發(fā)起時間。
8.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述方法還包括: 如果某ー URL被訪問后,該URL鏈接到ー個或多個URL,則在輸出網(wǎng)絡訪問數(shù)據(jù)中的URL信息之前,查找網(wǎng)絡訪問數(shù)據(jù)中的URL信息中是否有預先定義的關(guān)鍵字,將不包括該關(guān)鍵字的URL作為最終的網(wǎng)絡訪問數(shù)據(jù)中的URL信息進行輸出操作,其中所述關(guān)鍵字為該URL所鏈接到的其他URL的關(guān)鍵字。
9.一種網(wǎng)絡訪問行為的獲取系統(tǒng),其特征在于,包括: 獲取裝置,用于獲取網(wǎng)頁訪問數(shù)據(jù); 過濾裝置,與所述獲取裝置相連,用于根據(jù)預先設置的策略,對網(wǎng)絡訪問數(shù)據(jù)的http頭部中的字段進行過濾; 處理裝置,與所述過濾裝置相連,用于對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于,所述預先設置的策略包括選擇http實體為被壓縮的實體或者含有title特征的未被壓縮的實體,其中被選擇的實體的http頭部中的字段符合如下條件:Content-Type 字段是 text/html 的類型; Content-Length字段小于或等于1024字節(jié); transfer-encoding首部的類型是chunked,并且該回應包的實體長度大于零并且該回應包的實體是以OdOaOdOa”結(jié)尾的; URL的長度小于130字節(jié);URL JCitiTft js、 png、.css>.dif>.klz>.1co、.xml、 xsl、 ani Jlk d丄丄。
11.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在干: 所述系統(tǒng)還包括: 第一記錄裝置,用于記錄同一個IP地址對應的URL信息,將記錄的URL信息作為用戶的網(wǎng)絡訪問行為; 所述處理裝置包括: 匹配模塊,與所述記錄裝置相連,用于將過濾得到的某一 IP地址的網(wǎng)絡訪問數(shù)據(jù)中URL信息與本地記錄的該IP地址對應的URL信息進行匹配; 處理模塊,與所述匹配模塊相連,用于如果該IP地址對應的URL信息沒有匹配對象,將網(wǎng)絡訪問數(shù)據(jù)中的URL信息増加到該IP地址對應的URL信息中; 輸出模塊,與所述匹配模塊相連,用于如果該IP地址對應的URL信息有匹配對象,輸出所述網(wǎng)絡訪問數(shù)據(jù)中的URL信息;以及,與所述處理模塊相連,用于在處理模塊將網(wǎng)絡訪問數(shù)據(jù)中的URL信息增加到該IP地址對應的URL信息中后,再輸出所述網(wǎng)絡訪問數(shù)據(jù)中的URLイ目息。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其特征在于,所述匹配模塊采用網(wǎng)絡訪問數(shù)據(jù)中URL信息與該IP地址對應的URL信息中的最后N個字節(jié)的內(nèi)容進行比較,其中N的取值范圍為20 1000。
13.根據(jù)權(quán)利要求11所述的方法,其特征在于: 所述第一記錄裝置記錄所述記錄同一個IP地址對應的URL以及該URL被訪問的時間;所述處理模塊還包括: 刪除單元,用于在網(wǎng)絡訪問數(shù)據(jù)中的URL信息増加到該IP地址對應的URL信息中吋,當該IP地址對應的URL信息的個數(shù)達到預先設置的個數(shù)閾值后,根據(jù)該IP地址中每個URL被訪問的時間,刪除被訪問時間最早的URL的信息。
14.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述處理模塊還包括: 更新単元,與所述刪除単元相連,用于如果該IP地址對應的URL信息有匹配對象,則獲取該URL被訪問的時間;根據(jù)該URL被訪問的時間,發(fā)起對該IP地址中該URL的訪問時間進行更新的操作。
15.根據(jù)權(quán)利要求13所述的方法,其特征在于,所述更新単元用于: 如果該URL的被訪問時間與該匹配對象被訪問的時間的差值大于或等于預先設置的時間閾值,則將匹配對象被訪問的時間更新為所述網(wǎng)絡鏈接的發(fā)起時間。
16.根據(jù)權(quán)利要求11所述的方法,其特征在于,所述處理裝置還包括: 過濾模塊,與所述輸出模塊相連,用于如果某一 URL被訪問后,該URL鏈接到一個或多個URL,則在輸出 網(wǎng)絡訪問數(shù)據(jù)中的URL信息之前,查找網(wǎng)絡訪問數(shù)據(jù)中的URL信息中是否有預先定義的關(guān)鍵字,將不包括該關(guān)鍵字的URL作為最終的網(wǎng)絡訪問數(shù)據(jù)中的URL信息進行輸出操作,其中所述關(guān)鍵字為該URL所鏈接到的其他URL的關(guān)鍵字。
全文摘要
本發(fā)明提供一種用戶訪問行為的獲取方法和系統(tǒng)。所述方法,包括獲取網(wǎng)頁訪問數(shù)據(jù);根據(jù)預先設置的策略,對網(wǎng)絡訪問數(shù)據(jù)的http頭部中的字段進行過濾;對過濾后的報文中的URL信息進行處理,得到用戶的網(wǎng)絡訪問行為。
文檔編號H04L29/08GK103118007SQ201310003709
公開日2013年5月22日 申請日期2013年1月6日 優(yōu)先權(quán)日2013年1月6日
發(fā)明者田海燕, 練書成, 丁毅 申請人:瑞斯康達科技發(fā)展股份有限公司