亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用戶上網(wǎng)信息處理方法及裝置的制造方法

文檔序號:10471177閱讀:414來源:國知局
一種用戶上網(wǎng)信息處理方法及裝置的制造方法
【專利摘要】本發(fā)明實施例提供一種用戶上網(wǎng)信息處理方法及裝置,涉及通信領(lǐng)域,能夠?qū)τ脩粼L問的網(wǎng)頁的正文內(nèi)容進行分析,獲取用戶的上網(wǎng)行為。包括:服務(wù)器接收網(wǎng)關(guān)發(fā)送的數(shù)據(jù)包,數(shù)據(jù)包包括URL,URL為用戶訪問的網(wǎng)頁的地址;根據(jù)URL獲取URL對應(yīng)的網(wǎng)頁的HTML源碼;解析URL對應(yīng)的網(wǎng)頁的HTML源碼,得到URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本;根據(jù)URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定URL對應(yīng)的網(wǎng)頁的主題。用于分析用戶訪問的網(wǎng)頁的正文內(nèi)容。
【專利說明】
一種用戶上網(wǎng)信息處理方法及裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及通信領(lǐng)域,尤其涉及一種用戶上網(wǎng)信息處理方法及裝置。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,越來越多的用戶可以使用終端設(shè)備訪問互聯(lián)網(wǎng),進行資料查詢或觀看視頻等業(yè)務(wù)。在用戶數(shù)出現(xiàn)迅猛的增長的同時,用戶對互聯(lián)網(wǎng)的要求也越來越高。隨著業(yè)務(wù)的多元化,分析用戶的群體構(gòu)成及其習(xí)慣愛好等用戶上網(wǎng)行為,向用戶提供更具個性化的服務(wù),已經(jīng)成為一個重要的研究方向,也是網(wǎng)絡(luò)的規(guī)劃、設(shè)計和管理的重要依據(jù)。
[0003]現(xiàn)有技術(shù)中,從服務(wù)器存儲的日志中采集用戶上網(wǎng)信息,通過分析用戶上網(wǎng)信息獲取用戶上網(wǎng)軌跡,但日志所提供的數(shù)據(jù)有限,只能提供用戶標(biāo)識、用戶IP和用戶訪問的網(wǎng)頁時的統(tǒng)一資源定位符(英文全稱:Uniform Resource Locator,英文簡稱:URL)等,并不能獲取到用戶訪問的網(wǎng)頁的具體內(nèi)容,也就是web正文。
[0004]進一步的,根據(jù)采集到的URL將網(wǎng)頁進行分類。例如,采用樸素貝葉斯分類方法,使用類別概率和特征項的聯(lián)合分布概率自動推理出用戶所瀏覽的網(wǎng)頁的類別,在網(wǎng)頁分類的基礎(chǔ)上對用戶的上網(wǎng)習(xí)慣進行分析,得出用戶行為分析結(jié)果。但是,這樣也僅僅對網(wǎng)頁進行了分類,并沒有對用戶訪問的網(wǎng)頁的內(nèi)容進行更深層次的分析和挖掘。

【發(fā)明內(nèi)容】

[0005]本發(fā)明實施例提供一種用戶上網(wǎng)信息處理方法及裝置,能夠?qū)τ脩粼L問的網(wǎng)頁的正文內(nèi)容進行分析,獲取用戶的上網(wǎng)行為。
[0006]為達到上述目的,本發(fā)明實施例采用的技術(shù)方案是:
[0007]第一方面,提供一種用戶上網(wǎng)信息處理方法,包括:
[0008]服務(wù)器接收網(wǎng)關(guān)發(fā)送的數(shù)據(jù)包,所述數(shù)據(jù)包包括統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0009]所述服務(wù)器根據(jù)所述URL獲取所述URL對應(yīng)的網(wǎng)頁的超級文本標(biāo)記語言HTML源碼;
[0010]解析所述URL對應(yīng)的網(wǎng)頁的HTML源碼,得所述服務(wù)器到所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本;
[0011]所述服務(wù)器根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。
[0012]上述第一方面提供的用戶上網(wǎng)信息分析方法,首先,根據(jù)從網(wǎng)關(guān)發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應(yīng)的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本,根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內(nèi)容的關(guān)鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0013]第二方面,提供一種用戶上網(wǎng)信息處理方法,包括:
[0014]網(wǎng)關(guān)獲取統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0015]所述網(wǎng)關(guān)向服務(wù)器發(fā)送數(shù)據(jù)包,所述數(shù)據(jù)包包括解析標(biāo)識、用戶標(biāo)識、用戶IP地址、數(shù)據(jù)包的包長和所述URL。
[0016]上述第二方面提供的用戶上網(wǎng)信息處理方法,網(wǎng)關(guān)獲取URL后,向服務(wù)器發(fā)送包括該URL的數(shù)據(jù)包,使得服務(wù)器根據(jù)從網(wǎng)關(guān)發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應(yīng)的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本,根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內(nèi)容的關(guān)鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0017]第三方面,提供一種服務(wù)器,包括:
[0018]接收單元,用于接收網(wǎng)關(guān)發(fā)送的數(shù)據(jù)包,所述數(shù)據(jù)包包括統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0019]所述接收單元,還用于接收所述URL對應(yīng)的網(wǎng)頁的超級文本標(biāo)記語言HTML源碼;
[0020]處理單元,用于解析所述URL對應(yīng)的網(wǎng)頁的HTML源碼,得到所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本;
[0021]所述處理單元,用于根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。
[0022]上述第三方面提供的服務(wù)器,首先,根據(jù)從網(wǎng)關(guān)發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應(yīng)的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本,根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內(nèi)容的關(guān)鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0023]第四方面,提供一種網(wǎng)關(guān),包括:
[0024]處理單元,用于獲取統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0025]發(fā)送單元,用于向服務(wù)器發(fā)送數(shù)據(jù)包,所述數(shù)據(jù)包包括解析標(biāo)識、用戶標(biāo)識、用戶IP地址、數(shù)據(jù)包的包長和所述URL。
[0026]上述第四方面提供的網(wǎng)關(guān),獲取URL后,向服務(wù)器發(fā)送包括該URL的數(shù)據(jù)包,使得服務(wù)器根據(jù)從網(wǎng)關(guān)發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應(yīng)的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本,根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內(nèi)容的關(guān)鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0027]需要說明的是,上述第三方面和第四方面所述功能模塊可以通過硬件實現(xiàn),也可以通過硬件執(zhí)行相應(yīng)的軟件實現(xiàn)。所述硬件或軟件包括一個或多個與上述功能相對應(yīng)的模塊。例如,通信接口,用于完成接收單元和發(fā)送單元的功能,處理器,用于完成處理單元的功能,存儲器,用于存儲音量閾值。處理器、通信接口和存儲器通過總線連接并完成相互間的通信。具體的,可以參考第一方面提供的用戶上網(wǎng)信息處理方法中服務(wù)器的行為的功能,以及第二方面提供的用戶上網(wǎng)信息處理方法中網(wǎng)關(guān)的行為的功能。
[0028]本發(fā)明中,服務(wù)器和網(wǎng)關(guān)的名字對設(shè)備本身不構(gòu)成限定,在實際實現(xiàn)中,這些設(shè)備可以以其他名稱出現(xiàn)。只要各個設(shè)備的功能和本發(fā)明類似,屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi)。
[0029]本發(fā)明的這些方面或其他方面在以下實施例的描述中會更加簡明易懂。
【附圖說明】
[0030]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0031 ]圖1為本發(fā)明實施例提供的一種用戶上網(wǎng)信息處理方法流程圖;
[0032]圖2為本發(fā)明實施例提供的另一種用戶上網(wǎng)信息處理方法流程圖;
[0033]圖3為本發(fā)明實施例提供的又一種用戶上網(wǎng)信息處理方法流程圖;
[0034]圖4為本發(fā)明實施例提供的一種服務(wù)器結(jié)構(gòu)示意圖;
[0035]圖5為本發(fā)明實施例提供的一種網(wǎng)關(guān)結(jié)構(gòu)示意圖;
[0036]圖6為本發(fā)明實施例提供的一種計算機設(shè)備的結(jié)構(gòu)示意圖。
【具體實施方式】
[0037]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0038]本發(fā)明的基本原理在于:根據(jù)從網(wǎng)關(guān)發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應(yīng)的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本,根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。
[0039]實施例1
[0040]本發(fā)明實施例提供一種用戶上網(wǎng)信息處理方法,如圖1所示,包括:
[0041 ] 步驟101、網(wǎng)關(guān)獲取URL。
[0042]URL為用戶訪問的網(wǎng)頁的地址。URL對可以從互聯(lián)網(wǎng)上得到的資源的位置和訪問方法的一種簡潔的表示,是互聯(lián)網(wǎng)上標(biāo)準資源的地址?;綰RL包含協(xié)議(或模式)、服務(wù)器名稱(或IP地址)、路徑和文件名,例如,協(xié)議://授權(quán)/路徑?查詢。模式或協(xié)議規(guī)定瀏覽器如何處理將要打開的文件。最常用的模式是超級文本標(biāo)記語言(英文全稱:Hyper Text MarkupLanguage,英文簡稱:HTML),這個協(xié)議可以用來訪問網(wǎng)絡(luò)。本發(fā)明即使用HTML協(xié)議。
[0043]用戶通過終端設(shè)備進行上網(wǎng)瀏覽網(wǎng)頁,終端設(shè)備通常連接網(wǎng)關(guān),用戶訪問的網(wǎng)頁的網(wǎng)址(URL)通過網(wǎng)關(guān)向服務(wù)器發(fā)出請求,服務(wù)器響應(yīng)所述請求后,然后,用戶的終端設(shè)備接收用戶訪問的網(wǎng)頁的頁面下載響應(yīng)。網(wǎng)關(guān)即可以是家庭網(wǎng)關(guān),家庭網(wǎng)關(guān)可以作為所有外部接入網(wǎng)連接到家庭內(nèi)部,同時將家庭內(nèi)部網(wǎng)絡(luò)連接到外部的一種物理接口。
[0044]通常,網(wǎng)關(guān)有路由器和交換機的功能,在加載有Openwrt系統(tǒng)的路由器功能的網(wǎng)關(guān)上配置Privoxy代理功能和相應(yīng)文件,pr ivoxy會重定向所有要進行超文本傳輸協(xié)議(英文全稱:HyperText Transfer Protocol,英文簡稱:HTTP)服務(wù)請求到Privoxy代理,使終端設(shè)備向遠程服務(wù)器發(fā)出的每一個請求都經(jīng)過代理功能,從而保證從遠程服務(wù)器返回的HTML源碼是經(jīng)過Privoxy處理后再發(fā)給終端設(shè)備的。從遠程服務(wù)器返回的每個HTML文件經(jīng)過Pr ivoxy代理處理后都嵌入特定JavaScr ipt腳本。用戶瀏覽器執(zhí)行JavaScr ipt腳本,將用戶實時訪問的URL傳送到網(wǎng)關(guān)。
[0045]步驟102、網(wǎng)關(guān)向服務(wù)器發(fā)送數(shù)據(jù)包。
[0046]所述數(shù)據(jù)包包括解析標(biāo)識、用戶標(biāo)識、用戶IP地址和所述URL。需要說明的是,解析標(biāo)識可以用O或I表示,當(dāng)解析標(biāo)識為O時,用于指示服務(wù)器不解析數(shù)據(jù)包,解析標(biāo)識為I時,用于指示服務(wù)器解析數(shù)據(jù)包。
[0047]步驟103、服務(wù)器接收網(wǎng)關(guān)發(fā)送的數(shù)據(jù)包。
[0048]所述數(shù)據(jù)包包括解析標(biāo)識、用戶標(biāo)識、用戶IP地址和所述URL。
[0049]步驟104、服務(wù)器根據(jù)URL獲取所述URL對應(yīng)的網(wǎng)頁的HTML源碼。
[0050]服務(wù)器從數(shù)據(jù)包中獲取URL,根據(jù)URL來找到Web文本,讀取Web文本的內(nèi)容。具體的,通過HTTP協(xié)議的GET方法向提供Web文本的網(wǎng)絡(luò)服務(wù)器請求URL對應(yīng)的網(wǎng)頁的HTML源碼。GET是HTTP協(xié)議中一種向服務(wù)器發(fā)送客戶端請求的方法,發(fā)出請求前按規(guī)定填好請求的主機名、協(xié)議版本等內(nèi)容,服務(wù)器便返回請求的內(nèi)容。
[0051 ] 步驟105、服務(wù)器解析URL對應(yīng)的網(wǎng)頁的HTML源碼,得到URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本。
[0052 ] 步驟106、服務(wù)器根據(jù)URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定URL對應(yīng)的網(wǎng)頁的主題。
[0053]這樣一來,首先,根據(jù)從網(wǎng)關(guān)發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應(yīng)的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本,根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內(nèi)容的關(guān)鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0054]具體的,如圖2所示,步驟105中服務(wù)器解析URL對應(yīng)的網(wǎng)頁的HTML源碼,得到URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本的詳細步驟如下所述:
[0055]步驟1051、服務(wù)器解析URL對應(yīng)的網(wǎng)頁的HTML源碼,獲取所述URL對應(yīng)的網(wǎng)頁的HTML源碼的正文文本。
[0056]Web文本包含了大量的HTML標(biāo)記、文本、圖像、客戶腳本,在提取URL對應(yīng)的網(wǎng)頁的HTML源碼的同時應(yīng)對Web文本進行預(yù)處理,除掉的HTML標(biāo)記、圖像、客戶腳本,最后只留下純凈的文本文字。具體的,可以對HTML源碼進行解析,得到處理后的utf-8字符集,對處理后的utf-8字符集采用基于文本密度分布函數(shù)的多特征算法提取正文文本。
[0057]步驟1052、服務(wù)器根據(jù)詞頻位置權(quán)重公式和TF-1DF算法,從所述URL對應(yīng)的網(wǎng)頁的HTML源碼的正文文本中獲取所述URL對應(yīng)的網(wǎng)頁的HTML源碼的關(guān)鍵詞。
[0058]所述詞頻位置權(quán)重公式為:
[0059]f (w) =a*fr(w)+b*fk(w)+c*ft(w)+d*fc(w)
[0060]其中,a表示URL,b表示URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞節(jié)點,c表示URL對應(yīng)的網(wǎng)頁的標(biāo)題,d表示正文,且a>b>c>d,fr(w)、fk(w)、ft(w)和fc(w)分別表示文字w在a、b、c和d中出現(xiàn)的頻率。
[0061]然后,采用TF-1DF算法計算出每個詞的權(quán)重,篩選出排序靠前的詞作為關(guān)鍵詞。需要說明的是,關(guān)鍵詞沒有個數(shù)要求,根據(jù)需要選擇個數(shù),可以是3個或5個。
[0062]TF-1DF(term frequency-1nverse document frequency)算法是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權(quán)技術(shù),是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。
[0063]示例的,一篇文件的總詞語數(shù)是100個,而詞語“母?!背霈F(xiàn)了3次,那么“母?!币辉~在該文件中的詞頻就是3/100 = 0.03。一個計算文件頻率(IDF)的方法是測定有多少份文件出現(xiàn)過“母?!币辉~,然后除以文件集里包含的文件總數(shù)。所以,如果“母?!币辉~在I,000份文件出現(xiàn)過,而文件總數(shù)是10,000,000份的話,其逆向文件頻率就是1呢(10,000,000/1,000) =4。最后的 TF-1DF 的分數(shù)為 0.03*4 = 0.12。
[0064]步驟106中服務(wù)器根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題的詳細步驟如下所述:
[0065]步驟1061、服務(wù)器通過VSM,計算所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞向量與主題樣本中類向量間的歐式距離。
[0066]VSM是一個應(yīng)用于信息過濾,信息擷取,索引以及評估相關(guān)性的代數(shù)模型。關(guān)鍵詞向量可以是關(guān)鍵詞的權(quán)重。主題樣本中類向量可以是主題樣本中的關(guān)鍵詞向量。服務(wù)器之前已經(jīng)訓(xùn)練出了各個主題的類向量并保存在數(shù)據(jù)庫中,所謂類向量就是每個主題大類下的各個特征詞及對應(yīng)的權(quán)重值。如經(jīng)濟主題的類向量:財經(jīng)(0.043)、股票(0.036)、金融(0.021)、股市(0.016)。
[0067]進一步的,服務(wù)器還可以統(tǒng)計關(guān)鍵詞的詞性。例如,服務(wù)器將關(guān)鍵詞歸類為名詞、形容詞以及動詞,進行情感詞典查閱后統(tǒng)計各詞情感極性。例如,可以采用詞性加權(quán)公式Dw=dw*fw計算各詞情感極性值,其中,dw表示單詞w的情感極性值,fw表示由詞頻位置權(quán)重公式計算得到的位置加權(quán)詞頻。根據(jù)情感極性值與預(yù)設(shè)閾值比較,得出情感傾向判斷,偏離事先設(shè)定的閾值越大說明該web情感極端。情感詞典可以是中國臺灣大學(xué)NTUSD情感極性詞典,分為正面和負面情感詞集,評價詞集和程度級別詞集。服務(wù)器預(yù)先存儲在服務(wù)器數(shù)據(jù)庫中。例如,今天天氣非常好。“非?!睂儆诘谝患墑e程度,“好”出現(xiàn)在正面評價集合中。
[0068]步驟1062、服務(wù)器將與所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞向量的歐式距離最短的主題向量的主題,確定為所述URL對應(yīng)的網(wǎng)頁的主題。
[0069]進一步的,如圖3所示,在網(wǎng)關(guān)向服務(wù)器發(fā)送數(shù)據(jù)包,例如,步驟102之前,所述方法還包括:
[0070 ] 步驟107、網(wǎng)關(guān)判斷該網(wǎng)關(guān)是否存儲該URL。
[0071 ]當(dāng)所述網(wǎng)關(guān)判斷未存儲所述URL,執(zhí)行步驟108。
[0072]當(dāng)所述網(wǎng)關(guān)判斷已存儲所述URL,執(zhí)行步驟102。
[0073]步驟108、網(wǎng)關(guān)獲取URL的數(shù)據(jù)包。執(zhí)行步驟102。
[0074]網(wǎng)關(guān)可以采用snort抓包程序獲取所述URL的數(shù)據(jù)包,可以獲取到數(shù)據(jù)包的包長,網(wǎng)關(guān)向服務(wù)器發(fā)送數(shù)據(jù)包的包括包長。
[0075]服務(wù)器根據(jù)所述URL獲取所述URL對應(yīng)的網(wǎng)頁的超級文本標(biāo)記語言HTML源碼,例如步驟104之前,所述方法還包括:
[0076]步驟109、服務(wù)器根據(jù)解析標(biāo)識判斷是否解析數(shù)據(jù)包。
[0077]若解析標(biāo)識為I,服務(wù)器判斷解析數(shù)據(jù)包,執(zhí)行步驟104和步驟110,即服務(wù)器確定URL對應(yīng)的網(wǎng)頁的主題和類型,S卩服務(wù)器獲取到的數(shù)據(jù)包是沒有經(jīng)過解析的數(shù)據(jù)包,此時可以采用一個線程確定URL對應(yīng)的網(wǎng)頁的主題,采用另一個線程確定URL對應(yīng)的網(wǎng)頁的類型。
[0078]若解析標(biāo)識為0,服務(wù)器判斷不解析數(shù)據(jù)包,說明服務(wù)器已經(jīng)解析過數(shù)據(jù)包,保存了URL對應(yīng)的網(wǎng)頁的主題,此時只需要采用一個線程確定URL對應(yīng)的網(wǎng)頁的類型,直接執(zhí)行步驟110。
[0079]步驟110、服務(wù)器根據(jù)用戶標(biāo)識和用戶IP地址獲取用戶標(biāo)識對應(yīng)的上行數(shù)據(jù)包和下行數(shù)據(jù)包。
[0080]所述上行數(shù)據(jù)包為所述網(wǎng)關(guān)發(fā)送至所述服務(wù)器的數(shù)據(jù)包,所述下行數(shù)據(jù)包為所述服務(wù)器發(fā)送至所述網(wǎng)關(guān)的數(shù)據(jù)包。
[0081]步驟111、服務(wù)器根據(jù)上行數(shù)據(jù)包和下行數(shù)據(jù)包,判斷流量比小于或等于流量閾值時,確定數(shù)據(jù)包的內(nèi)容為文字類型。
[0082]步驟112、服務(wù)器根據(jù)上行數(shù)據(jù)包和下行數(shù)據(jù)包,判斷流量比大于流量閾值時,確定數(shù)據(jù)包的內(nèi)容為視頻類型。
[0083]流量比為單位時間內(nèi)下行數(shù)據(jù)包的包長與上行數(shù)據(jù)包的包長之比。服務(wù)器可以啟動流量統(tǒng)計定時器,統(tǒng)計單位時間內(nèi)下行數(shù)據(jù)包的包長與上行數(shù)據(jù)包的包長。
[0084]需要說明的是,在確定數(shù)據(jù)包的內(nèi)容為文字類型時,需要執(zhí)行步驟104。在確定數(shù)據(jù)包的內(nèi)容為視頻類型時,無需執(zhí)行步驟104。
[0085]步驟113、服務(wù)器保存URL對應(yīng)的網(wǎng)頁的主題和類型。
[0086]需要說明的是,服務(wù)器可以以結(jié)構(gòu)化保存URL對應(yīng)的網(wǎng)頁的主題和類型。
[0087]所謂結(jié)構(gòu)化就是將提取到的所有信息按照一定的格式保存到數(shù)據(jù)庫。
[0088]示例的,可以按下面格式保存:
[0089]用戶標(biāo)識:005056C0
[0090]瀏覽網(wǎng)址:http://www.sdjfkjs.com
[0091]網(wǎng)站關(guān)鍵詞:籃球、后衛(wèi)、冠軍
[0092]網(wǎng)站正文:xxxxxxx
[0093]網(wǎng)站主題:體育類
[0094]網(wǎng)站情感:積極正面
[0095]步驟114、服務(wù)器向網(wǎng)關(guān)發(fā)送URL對應(yīng)的網(wǎng)頁的主題和類型。
[0096]步驟115、網(wǎng)關(guān)接收服務(wù)器發(fā)送的URL對應(yīng)的網(wǎng)頁的主題和類型。
[0097]網(wǎng)關(guān)更新所述URL對應(yīng)的網(wǎng)頁的主題和類型。
[0098]實施例2
[0099]本發(fā)明實施例提供的一種服務(wù)器20,如圖4所示,包括:
[0100]接收單元201,用于接收網(wǎng)關(guān)發(fā)送的數(shù)據(jù)包,所述數(shù)據(jù)包包括統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0101]所述接收單元201,還用于接收所述URL對應(yīng)的網(wǎng)頁的超級文本標(biāo)記語言HTML源碼;
[0102]處理單元202,用于解析所述URL對應(yīng)的網(wǎng)頁的HTML源碼,得到所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本;
[0103]所述處理單元202,用于根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。
[0104]這樣一來,首先,根據(jù)從網(wǎng)關(guān)發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應(yīng)的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本,根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內(nèi)容的關(guān)鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0105]實施例3
[0106]本發(fā)明實施例提供的一種網(wǎng)關(guān)30,如圖5所示,包括:
[0107]處理單元301,用于獲取統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址;
[0108]發(fā)送單元302,用于向服務(wù)器發(fā)送數(shù)據(jù)包,所述數(shù)據(jù)包包括解析標(biāo)識、用戶標(biāo)識、用戶IP地址、數(shù)據(jù)包的包長和所述URL。
[0109]這樣一來,網(wǎng)關(guān)獲取URL后,向服務(wù)器發(fā)送包括該URL的數(shù)據(jù)包,使得服務(wù)器根據(jù)從網(wǎng)關(guān)發(fā)送來的數(shù)據(jù)包包括的URL,來獲取該URL對應(yīng)的網(wǎng)頁的HTML源碼,然后,解析HTML源碼,根據(jù)解析的HTML源碼URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本,根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。從而通過提取用戶訪問的網(wǎng)頁的正文內(nèi)容的關(guān)鍵詞對用戶訪問的網(wǎng)頁進行分析,確定用戶訪問的網(wǎng)頁的主題,獲取用戶的上網(wǎng)行為。
[0110]本發(fā)明實施例提供的一種通信系統(tǒng),包括:如實施例2所述的服務(wù)器和實施例3所述的網(wǎng)關(guān)。
[0111]需要說明的是,圖6所示為本發(fā)明實施例提供的計算機設(shè)備40的結(jié)構(gòu)示意圖。計算機設(shè)備40包括至少一個處理器401,通信總線402,存儲器403以及至少一個通信接口 404。具體的,計算機設(shè)備40的結(jié)構(gòu)可以是實施例2所述的服務(wù)器的結(jié)構(gòu)或?qū)嵤├?所述的網(wǎng)關(guān)的結(jié)構(gòu)。
[0112]處理器401可以是一個處理器,也可以是多個處理元件的統(tǒng)稱,用于完成處理單元所執(zhí)行的方案。例如,處理器401可以是一個通用中央處理器(英文全稱:CentralProcessing Unit,英文簡稱:CPU),也可以是特定應(yīng)用集成電路(英文全稱:applicat1n-specific integrated circuit,英文簡稱:ASIC),或一個或多個用于控制本發(fā)明方案程序執(zhí)行的集成電路,例如:一個或多個微處理器(英文全稱:digital signal processor,英文簡稱:DSP),或,一個或者多個現(xiàn)場可編程門陣列(英文全稱:Field Programmable GateArray,英文簡稱:FPGA)。
[0113]在具體實現(xiàn)中,作為一種實施例,處理器401可以包括一個或多個CPU,例如圖6中的CPUO和CPUl。
[0114]在具體實現(xiàn)中,作為一種實施例,服務(wù)器40可以包括多個處理器,例如圖6中的處理器401和處理器405。這些處理器中的每一個可以是一個單核(single-CPU)處理器,也可以是一個多核(mult1-CPU)處理器。這里的處理器可以指一個或多個設(shè)備、電路、和/或用于處理數(shù)據(jù)(例如計算機程序指令)的處理核。
[0115]通信總線402可以是工業(yè)標(biāo)準體系結(jié)構(gòu)(英文全稱:Industry StandardArchitecture,英文簡稱:ISA)總線、外部設(shè)備互連(英文全稱:Peripheral Component,英文簡稱:PCI)總線或擴展工業(yè)標(biāo)準體系結(jié)構(gòu)(英文全稱:Extended Industry StandardArchitecture,英文簡稱:EISA)總線等。該總線可以分為地址總線、數(shù)據(jù)總線、控制總線等。為便于表示,圖4中僅用一條粗線表示,但并不表示僅有一根總線或一種類型的總線。
[0116]存儲器403可以是只讀存儲器(英文全稱:read-only memory,英文簡稱:ROM)或可存儲靜態(tài)信息和指令的其他類型的靜態(tài)存儲設(shè)備,隨機存取存儲器(英文全稱:randomaccess memory,英文簡稱:RAM)或者可存儲信息和指令的其他類型的動態(tài)存儲設(shè)備,也可以是電可擦可編程只讀存儲器(英文全稱:Electrically Erasable Programmable Read-Only Memory,英文簡稱:EEPROM)、磁盤存儲介質(zhì)或者其他磁存儲設(shè)備、或者能夠用于攜帶或存儲具有指令或數(shù)據(jù)結(jié)構(gòu)形式的期望的程序代碼并能夠由計算機存取的任何其他介質(zhì),但不限于此。存儲器可以是獨立存在,通過總線與處理器相連接。存儲器也可以和處理器集成在一起。
[0117]其中,所述存儲器403用于存儲執(zhí)行本發(fā)明方案的應(yīng)用程序代碼,并由處理器401來控制執(zhí)行。所述處理器401用于執(zhí)行所述存儲器403中存儲的應(yīng)用程序代碼。
[0118]所述通信接口404,使用任何收發(fā)器一類的裝置,用于與其他設(shè)備或通信網(wǎng)絡(luò)通信,如以太網(wǎng),無線接入網(wǎng)(RAN),無線局域網(wǎng)(英文全稱:Wireless Local Area Networks,英文簡稱:WLAN)等。通信接口 404可以包括接收單元實現(xiàn)接收功能,以及發(fā)送單元實現(xiàn)發(fā)送功能。
[0119]所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置和單元的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
[0120]本領(lǐng)域普通技術(shù)人員可以理解:實現(xiàn)上述方法實施例的全部或部分步驟可以通過程序指令相關(guān)的硬件來完成,前述的程序可以存儲于一計算機可讀取存儲介質(zhì)中,該程序在執(zhí)行時,執(zhí)行包括上述方法實施例的步驟;而前述的存儲介質(zhì)包括:ROM、RAM、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
[0121]以上所述,僅為本發(fā)明的【具體實施方式】,但本發(fā)明的保護范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到變化或替換,都應(yīng)涵蓋在本發(fā)明的保護范圍之內(nèi)。因此,本發(fā)明的保護范圍應(yīng)以所述權(quán)利要求的保護范圍為準。
【主權(quán)項】
1.一種用戶上網(wǎng)信息處理方法,其特征在于,包括: 服務(wù)器接收網(wǎng)關(guān)發(fā)送的數(shù)據(jù)包,所述數(shù)據(jù)包包括統(tǒng)一資源定位符URL; 所述服務(wù)器接收所述URL對應(yīng)的網(wǎng)頁的超級文本標(biāo)記語言HTML源碼; 所述服務(wù)器解析所述URL對應(yīng)的網(wǎng)頁的HTML源碼,得到所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本; 所述服務(wù)器根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述服務(wù)器解析所述URL對應(yīng)的網(wǎng)頁的HTML源碼,得到所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本包括: 所述服務(wù)器解析所述URL對應(yīng)的網(wǎng)頁的HTML源碼,獲取所述URL對應(yīng)的網(wǎng)頁的HTML源碼的正文文本; 所述服務(wù)器根據(jù)詞頻位置權(quán)重公式和TF-1DF算法,從所述URL對應(yīng)的網(wǎng)頁的HTML源碼的正文文本中獲取所述URL對應(yīng)的網(wǎng)頁的HTML源碼的關(guān)鍵詞; 所述詞頻位置權(quán)重公式為:f (w) =a*fr(w)+b*fk(w)+C*ft(w)+d*fc(w) 其中,a表示URL,b表示URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞節(jié)點,c表示URL對應(yīng)的網(wǎng)頁的標(biāo)題,d表示正文,且8>13>0>(1,;1^(?)、€1^)、;1^(?)和;1^(?)分別表示文字¥在3、13、(3和(1中出現(xiàn)的頻率。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述服務(wù)器根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題包括: 所述服務(wù)器通過空間向量模型VSM,計算所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞向量與主題樣本中類向量間的歐式距離; 所述服務(wù)器將與所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞向量的歐式距離最短的類向量的主題,確定為所述URL對應(yīng)的網(wǎng)頁的主題。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述數(shù)據(jù)包還包括用戶標(biāo)識、用戶IP地址和數(shù)據(jù)包的包長,在所述服務(wù)器根據(jù)所述URL獲取所述URL對應(yīng)的網(wǎng)頁的超級文本標(biāo)記語言HTML源碼之前,所述方法還包括: 所述服務(wù)器根據(jù)所述用戶標(biāo)識和所述用戶IP地址獲取所述用戶標(biāo)識對應(yīng)的上行數(shù)據(jù)包和下行數(shù)據(jù)包,所述上行數(shù)據(jù)包為所述網(wǎng)關(guān)發(fā)送至所述服務(wù)器的數(shù)據(jù)包,所述下行數(shù)據(jù)包為所述服務(wù)器發(fā)送至所述網(wǎng)關(guān)的數(shù)據(jù)包; 所述服務(wù)器根據(jù)所述上行數(shù)據(jù)包和所述下行數(shù)據(jù)包,判斷流量比小于或等于流量閾值時,確定所述數(shù)據(jù)包的內(nèi)容為文字類型,所述流量比為單位時間內(nèi)下行數(shù)據(jù)包的包長與上行數(shù)據(jù)包的包長之比。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述數(shù)據(jù)包還包括解析標(biāo)識,在所述服務(wù)器根據(jù)所述用戶標(biāo)識和所述用戶IP地址獲取所述用戶標(biāo)識對應(yīng)的上行數(shù)據(jù)包和下行數(shù)據(jù)包之前,所述方法還包括: 所述服務(wù)器根據(jù)所述解析標(biāo)識判斷解析所述數(shù)據(jù)包,確定所述URL對應(yīng)的網(wǎng)頁的主題和類型。6.一種用戶上網(wǎng)信息處理方法,其特征在于,包括: 網(wǎng)關(guān)獲取統(tǒng)一資源定位符URL; 所述網(wǎng)關(guān)向服務(wù)器發(fā)送數(shù)據(jù)包,所述數(shù)據(jù)包包括解析標(biāo)識、用戶標(biāo)識、用戶IP地址、數(shù)據(jù)包的包長和所述URL。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,包括: 當(dāng)所述網(wǎng)關(guān)判斷已存儲所述URL,所述解析標(biāo)識用于指示所述服務(wù)器不解析所述數(shù)據(jù)包; 當(dāng)所述網(wǎng)關(guān)判斷未存儲所述URL,所述解析標(biāo)識用于指示所述服務(wù)器解析所述數(shù)據(jù)包。8.一種服務(wù)器,其特征在于,包括: 接收單元,用于接收網(wǎng)關(guān)發(fā)送的數(shù)據(jù)包,所述數(shù)據(jù)包包括統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址; 所述接收單元,還用于接收所述URL對應(yīng)的網(wǎng)頁的超級文本標(biāo)記語言HTML源碼; 處理單元,用于解析所述URL對應(yīng)的網(wǎng)頁的HTML源碼,得到所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞和正文文本; 所述處理單元,用于根據(jù)所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞確定所述URL對應(yīng)的網(wǎng)頁的主題。9.根據(jù)權(quán)利要求8所述的服務(wù)器,其特征在于,所述處理單元,具體用于: 解析所述URL對應(yīng)的網(wǎng)頁的HTML源碼,獲取所述URL對應(yīng)的網(wǎng)頁的HTML源碼的正文文本; 根據(jù)詞頻位置權(quán)重公式和TF-1DF算法,從所述URL對應(yīng)的網(wǎng)頁的HTML源碼的正文文本中獲取所述URL對應(yīng)的網(wǎng)頁的HTML源碼的關(guān)鍵詞; 所述詞頻位置權(quán)重公式為:f (w) =a*fr(w)+b*fk(w)+C*ft(w)+d*fc(w) 其中,a表示URL,b表示URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞節(jié)點,c表示URL對應(yīng)的網(wǎng)頁的標(biāo)題,d表示正文,且8>13>0>(1,;1^(?)、€1^)、;1^(?)和;1^(?)分別表示文字¥在3、13、(3和(1中出現(xiàn)的頻率。10.根據(jù)權(quán)利要求9所述的服務(wù)器,其特征在于,所述處理單元,具體用于: 通過空間向量模型VSM,計算所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞向量與主題樣本中類向量間的歐式距離; 將與所述URL對應(yīng)的網(wǎng)頁的關(guān)鍵詞向量的歐式距離最短的類向量的主題,確定為所述URL對應(yīng)的網(wǎng)頁的主題。11.根據(jù)權(quán)利要求10所述的服務(wù)器,其特征在于,所述數(shù)據(jù)包還包括用戶標(biāo)識、用戶IP地址和數(shù)據(jù)包的包長, 所述接收單元,根據(jù)所述用戶標(biāo)識和所述用戶IP地址接收所述用戶標(biāo)識對應(yīng)的上行數(shù)據(jù)包,所述上行數(shù)據(jù)包為所述網(wǎng)關(guān)發(fā)送至所述服務(wù)器的數(shù)據(jù)包; 所述處理單元,還用于:根據(jù)所述用戶標(biāo)識和所述用戶IP地址獲取所述用戶標(biāo)識對應(yīng)的下行數(shù)據(jù)包,所述下行數(shù)據(jù)包為所述服務(wù)器發(fā)送至所述網(wǎng)關(guān)的數(shù)據(jù)包; 所述處理單元,還用于根據(jù)所述上行數(shù)據(jù)包和所述下行數(shù)據(jù)包,判斷流量比小于或等于流量閾值時,確定所述數(shù)據(jù)包的內(nèi)容為文字類型,所述流量比為單位時間內(nèi)下行數(shù)據(jù)包的包長與上行數(shù)據(jù)包的包長之比。12.—種網(wǎng)關(guān),其特征在于,包括: 處理單元,用于獲取統(tǒng)一資源定位符URL,所述URL為用戶訪問的網(wǎng)頁的地址; 發(fā)送單元,用于向服務(wù)器發(fā)送數(shù)據(jù)包,所述數(shù)據(jù)包包括解析標(biāo)識、用戶標(biāo)識、用戶IP地 址、數(shù)據(jù)包的包長和所述URL。
【文檔編號】G06F17/30GK105824884SQ201610136426
【公開日】2016年8月3日
【申請日】2016年3月10日
【發(fā)明人】彭壽鈞, 鄭麗娜, 王鵬達, 唐恒頌
【申請人】海信集團有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1