本發(fā)明涉及因特網(wǎng)網(wǎng)絡(luò)數(shù)據(jù)分析技術(shù),尤其涉及一種通過分析網(wǎng)頁數(shù)據(jù)包來識別用戶特征的方法和系統(tǒng)。
背景技術(shù):
:用戶上網(wǎng)時傳輸數(shù)據(jù)所用的網(wǎng)絡(luò)是由通信運營商提供和維護的。由于隨著互聯(lián)網(wǎng)廣告的規(guī)模和重要性越來越大,如果能獲得用戶興趣方面的數(shù)據(jù),對針對性的提供廣告有巨大幫助。目前,現(xiàn)有的獲得網(wǎng)絡(luò)用戶興趣的方法是深度包檢測技術(shù),即DPI技術(shù),該技術(shù)是一種基于應(yīng)用層的流量檢測和控制技術(shù),當(dāng)IP數(shù)據(jù)包、TCP或UDP數(shù)據(jù)流通過基于DPI技術(shù)的帶寬管理系統(tǒng)時,該系統(tǒng)通過深入讀取IP包載荷的內(nèi)容來對OSI七層協(xié)議中的應(yīng)用層信息進行重組,從而得到整個應(yīng)用程序的內(nèi)容,然后按照系統(tǒng)定義的管理策略對流量進行整形操作。因此,識別用戶特征的現(xiàn)有技術(shù)存在缺陷:(一)由于DPI需要讀取IP包載荷的內(nèi)容,對用戶的隱私造成了很嚴(yán)重的侵犯,在某些國家或地區(qū)還是被法律嚴(yán)厲禁止的行為。(二)由于采用DPI技術(shù),導(dǎo)致用戶缺乏安全感,使得很多公司開發(fā)了加密傳輸技術(shù)來躲避DPI。而加密傳輸技術(shù)使得DPI難以發(fā)揮作用,無法檢測出網(wǎng)絡(luò)用戶的興趣,難以識別得到網(wǎng)絡(luò)用戶特征。技術(shù)實現(xiàn)要素:為了克服上述現(xiàn)有技術(shù)的不足,本發(fā)明提供一種通過分析網(wǎng)頁數(shù)據(jù)包來識別用戶特征的方法,根據(jù)獲得數(shù)據(jù)包的大小,通過逆向方法檢測出用戶訪問的網(wǎng)頁,從而識別出用戶感興趣的網(wǎng)頁類型。本發(fā)明提供的技術(shù)方案是:一種網(wǎng)絡(luò)用戶的特征識別方法,根據(jù)獲得數(shù)據(jù)包的大小,通過逆向方法檢測出用戶訪問的網(wǎng)頁,從而識別出用戶感興趣的網(wǎng)頁類型;包括如下步驟:步驟1:獲取訪問量靠前的N個網(wǎng)站;包括專業(yè)性網(wǎng)站和綜合性網(wǎng)站;使得N個網(wǎng)站訪問量的和占所有網(wǎng)站訪問量的比率大于某個門限值。優(yōu)選的,該門限值是80%。網(wǎng)站訪問量的詳細(xì)數(shù)據(jù)都是公開數(shù)據(jù),本領(lǐng)域技術(shù)人員很容易獲得。步驟2:設(shè)置興趣類型,對上述N個網(wǎng)站標(biāo)注興趣類型;專業(yè)性網(wǎng)站對應(yīng)一個興趣類型;綜合性網(wǎng)站對應(yīng)多個興趣類型,綜合性網(wǎng)站不同的頻道分別對應(yīng)不同興趣類型;對上述N個網(wǎng)站進行標(biāo)注:如果網(wǎng)站是專業(yè)性網(wǎng)站,則只需要將整個網(wǎng)站的所有網(wǎng)頁對應(yīng)對某個興趣類型;如果網(wǎng)站是綜合性網(wǎng)站,則需要根據(jù)不同的頻道來對應(yīng);對于無法對應(yīng)的網(wǎng)站或頻道,則可以直接拋棄;步驟3:定期對上述確定了興趣類型的網(wǎng)站或網(wǎng)站的頻道進行掃描,獲得網(wǎng)頁;進一步獲得每個網(wǎng)頁的根文件的數(shù)據(jù)包包頭文件中的數(shù)據(jù)包大??;爬蟲軟件定期對上述確定了興趣類型的網(wǎng)站或網(wǎng)站的頻道進行掃描;步驟4:將獲得網(wǎng)頁進行處理,提取來自于同一網(wǎng)站、且第二網(wǎng)頁是第一網(wǎng)頁的超鏈接的網(wǎng)頁對,將該網(wǎng)頁對與網(wǎng)頁對的數(shù)據(jù)包大小形成對應(yīng)關(guān)系;步驟5:設(shè)置網(wǎng)頁對的興趣類型,形成網(wǎng)頁對的興趣類型和網(wǎng)頁對的數(shù)據(jù)包大小的對應(yīng)關(guān)系,生成數(shù)據(jù)包對大小和興趣類型的對應(yīng)數(shù)據(jù)庫;針對網(wǎng)頁對設(shè)置網(wǎng)頁對的興趣類型的方法是:如果兩個網(wǎng)頁的興趣類型相同,則將該網(wǎng)頁對的興趣類型標(biāo)注為這兩個網(wǎng)頁的興趣類型,如果不同,則直接拋棄該記錄。從而形成興趣類型和網(wǎng)頁對數(shù)據(jù)包大小的對應(yīng)關(guān)系,形成數(shù)據(jù)包對大小和興趣類型的對應(yīng)數(shù)據(jù)庫。步驟6:通過網(wǎng)絡(luò)運營商獲取檢測網(wǎng)絡(luò)上的所有數(shù)據(jù)包,根據(jù)IP地址來劃分?jǐn)?shù)據(jù)包;步驟7:設(shè)置網(wǎng)絡(luò)的空閑時間和忙碌時間;設(shè)置方法具體是:設(shè)定時間間隔(可設(shè)定以1秒為時間間隔),當(dāng)大于所設(shè)定時間間隔沒有數(shù)據(jù)包時,設(shè)置為網(wǎng)絡(luò)的空閑時間義,否則定義為網(wǎng)絡(luò)的忙碌時間;步驟8:獲得網(wǎng)絡(luò)每次連續(xù)訪問的網(wǎng)頁對;具體方法是:獲得每個忙碌時間內(nèi)的第一個數(shù)據(jù)包;對每個獲得的數(shù)據(jù)包提取包頭信息中數(shù)據(jù)包大小字段;每個忙碌時間內(nèi)的第一個數(shù)據(jù)包的大小和網(wǎng)頁直接對應(yīng);并將獲得數(shù)據(jù)包大小字段以時間順序排列;當(dāng)前后兩個數(shù)據(jù)包的間隔時間小于設(shè)定的時間閾值(例如10分鐘)時,定義為一次連續(xù)訪問;將一次連續(xù)訪問中的前一個數(shù)據(jù)包和后一個數(shù)據(jù)包作為該次連續(xù)訪問中的網(wǎng)頁對;步驟9:獲得網(wǎng)絡(luò)每次連續(xù)訪問中網(wǎng)頁對的數(shù)據(jù)包大小;將每次連續(xù)訪問中前一個數(shù)據(jù)包大小和后一個數(shù)據(jù)包大小之和,作為每次連續(xù)訪問中網(wǎng)頁對的數(shù)據(jù)包大??;步驟10:在步驟5得到的數(shù)據(jù)包對大小和興趣類型的對應(yīng)數(shù)據(jù)庫中檢索上述步驟9獲得的網(wǎng)頁對的數(shù)據(jù)包大小,如果檢索到結(jié)果,則將獲取對應(yīng)的興趣類型,并將該興趣類型和IP地址關(guān)聯(lián);步驟11:通過統(tǒng)計得到與某一IP地址關(guān)聯(lián)的興趣類型,從而獲得該IP地址的興趣類型。興趣類型通過統(tǒng)計分析該IP地址訪問網(wǎng)頁的歷史記錄獲得,是統(tǒng)計分析后的結(jié)果,例如,可以通過對統(tǒng)計結(jié)果進行排序獲得:當(dāng)該IP地址訪問某個興趣類型的網(wǎng)頁最多時,則將該興趣類型作為該IP地址的興趣類型。與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明提供一種通過分析網(wǎng)頁數(shù)據(jù)包來識別用戶特征的方法,根據(jù)獲得數(shù)據(jù)包的大小,通過逆向方法檢測出用戶訪問的網(wǎng)頁,從而識別出用戶感興趣的網(wǎng)頁類型。本發(fā)明提供的技術(shù)方案不需要檢測數(shù)據(jù)包的內(nèi)容,只需要獲得數(shù)據(jù)包的大小,就可以通過逆向工程,來檢測出用戶訪問的網(wǎng)頁,從而確定出用戶感興趣的網(wǎng)頁類型。本發(fā)明簡單快捷、效率高、準(zhǔn)確性高。在實際應(yīng)用中,網(wǎng)絡(luò)運營商可通過本發(fā)明技術(shù)方案獲得用戶感興趣的網(wǎng)頁類型特征,更加有針對性的為用戶提供服務(wù)。附圖說明圖1是本發(fā)明提供的網(wǎng)絡(luò)用戶特征識別方法的流程框圖。具體實施方式下面結(jié)合附圖,通過實施例進一步描述本發(fā)明,但不以任何方式限制本發(fā)明的范圍。本發(fā)明提供一種通過分析網(wǎng)頁數(shù)據(jù)包來識別用戶特征的方法和系統(tǒng),根據(jù)獲得數(shù)據(jù)包的大小,通過逆向方法檢測出用戶訪問的網(wǎng)頁,從而識別出用戶感興趣的網(wǎng)頁類型。如圖1所示,包括如下步驟:步驟1:獲取訪問量靠前的N個網(wǎng)站,包括專業(yè)性網(wǎng)站和綜合性網(wǎng)站;所述綜合性網(wǎng)站包含多個頻道;步驟2:設(shè)置興趣類型,對上述N個網(wǎng)站或網(wǎng)站的頻道標(biāo)注興趣類型,建立網(wǎng)站或網(wǎng)站的頻道與興趣類型之間的對應(yīng)關(guān)系;步驟3:定期對上述確定了興趣類型的網(wǎng)站或網(wǎng)站的頻道進行掃描,獲得網(wǎng)頁和每個網(wǎng)頁的根文件的數(shù)據(jù)包包頭文件中的數(shù)據(jù)包大?。徊襟E4:從所獲得網(wǎng)頁中提取網(wǎng)頁對;將網(wǎng)頁對與該網(wǎng)頁對的數(shù)據(jù)包大小形成對應(yīng)關(guān)系;步驟5:設(shè)置網(wǎng)頁對的興趣類型,形成網(wǎng)頁對的興趣類型和網(wǎng)頁對的數(shù)據(jù)包大小的對應(yīng)關(guān)系,生成網(wǎng)頁對的數(shù)據(jù)包對大小與網(wǎng)頁對的興趣類型的對應(yīng)數(shù)據(jù)庫;步驟6:獲取待檢測網(wǎng)絡(luò)上的所有數(shù)據(jù)包,根據(jù)IP地址來劃分?jǐn)?shù)據(jù)包;步驟7:設(shè)置網(wǎng)絡(luò)的空閑時間和忙碌時間;步驟8:定義網(wǎng)絡(luò)連續(xù)訪問,將一次連續(xù)訪問中的前一個數(shù)據(jù)包和后一個數(shù)據(jù)包作為該次連續(xù)訪問中的網(wǎng)頁對,獲得網(wǎng)絡(luò)每次連續(xù)訪問的網(wǎng)頁對;步驟9:獲得網(wǎng)絡(luò)每次連續(xù)訪問中網(wǎng)頁對的數(shù)據(jù)包大??;步驟10:在步驟5得到的數(shù)據(jù)包對大小和興趣類型的對應(yīng)數(shù)據(jù)庫中檢索步驟9獲得的網(wǎng)頁對的數(shù)據(jù)包大小,當(dāng)檢索到匹配數(shù)據(jù)記錄時,獲取匹配的數(shù)據(jù)記錄對應(yīng)的興趣類型;并將該興趣類型和IP地址關(guān)聯(lián);步驟11:通過統(tǒng)計得到與某一IP地址關(guān)聯(lián)的興趣類型,從而獲得該IP地址的興趣類型,作為所述IP地址相應(yīng)的網(wǎng)絡(luò)用戶的興趣特征。以下通過實施例進一步描述本發(fā)明。本發(fā)明實施例基于以下幾個設(shè)定:1:數(shù)據(jù)包包頭信息是可以被運營商合法獲取和使用的。不會牽涉任何隱私和法律問題。2:用戶每次請求網(wǎng)頁,首先下載的是根文件,緊接著會下載各個對象文件,網(wǎng)頁與根文件的大小存在單向的對應(yīng)關(guān)系。即,相同的網(wǎng)頁在被不同的用戶請求時,更文件的數(shù)據(jù)包的大小是相同的。不會隨著時間變化,也不會因為用戶地點而變化。但相同大小的數(shù)據(jù)包卻無法一定是對應(yīng)相同的網(wǎng)頁。3:運營商有能力將用戶的IP地址(即使是動態(tài)分配的),與用戶對應(yīng)起來。從而運營商能夠通過對數(shù)據(jù)包包頭中的IP地址信息來唯一的確定出用戶。特別說明:如果一個IP地址下有多個用戶,則這樣的應(yīng)用場景不是本發(fā)明服務(wù)的對象。4:用戶的真實點擊網(wǎng)頁的行為中,兩次連續(xù)點擊的時間間隔,絕大部分情況會大于1秒,且小于10分鐘。5:用戶第一次點擊網(wǎng)頁后,下一次點擊,有很大的概率是第一次點擊的所獲取的網(wǎng)頁中的超鏈接。實施例一:基于上述設(shè)定,本實施例根據(jù)父子網(wǎng)頁對的數(shù)據(jù)包大小來確定用戶特性,具體實施包括如下步驟:步驟1:獲取訪問量靠前的N個網(wǎng)站,要使得這N個網(wǎng)站訪問量的和占所有網(wǎng)站訪問量的比率大于某個門限值。優(yōu)選的,該門限值是80%。網(wǎng)站訪問量的詳細(xì)數(shù)據(jù)都是公開數(shù)據(jù),本領(lǐng)域技術(shù)人員很容易獲得。步驟2:設(shè)置興趣類型,優(yōu)選的可設(shè)置為表1:表1興趣類型1新聞2財經(jīng)3科技4體育5娛樂6汽車7博客8視頻9房產(chǎn)10讀書11教育12時尚13城市14旅游15論壇16游戲17佛學(xué)18應(yīng)用對上述N個網(wǎng)站進行標(biāo)注:如果網(wǎng)站是專業(yè)性網(wǎng)站,則只需要將整個網(wǎng)站的所有網(wǎng)頁對應(yīng)對某個興趣類型;如果網(wǎng)站是綜合性網(wǎng)站,則需要根據(jù)不同的頻道來對應(yīng);對于無法對應(yīng)的網(wǎng)站或頻道,則可以直接拋棄。因此,專業(yè)性網(wǎng)站對應(yīng)一個興趣類型;綜合性網(wǎng)站對應(yīng)多個興趣類型,不同的頻道分別對應(yīng)不同興趣類型。步驟3:爬蟲軟件定期對上述確定了興趣類型的網(wǎng)站或網(wǎng)站的頻道進行掃描,獲得每個網(wǎng)頁的根文件的數(shù)據(jù)包包頭文件中的數(shù)據(jù)包大小。步驟4:將上述爬蟲軟件獲得網(wǎng)頁進行處理,提取來自于同一網(wǎng)站,且第二網(wǎng)頁是第一網(wǎng)頁的超鏈接的網(wǎng)頁對,將該網(wǎng)頁對與網(wǎng)頁對的數(shù)據(jù)包大小形成對應(yīng)關(guān)系。步驟5:判斷該網(wǎng)頁對的興趣類型,如果兩個網(wǎng)頁的興趣類型相同,則將該網(wǎng)頁對的興趣類型標(biāo)注為這兩個網(wǎng)頁的興趣類型,如果不同,則直接拋棄該記錄。從而形成興趣類型和網(wǎng)頁對數(shù)據(jù)包大小的對應(yīng)關(guān)系,形成數(shù)據(jù)包對大小和興趣類型的對應(yīng)數(shù)據(jù)庫。步驟6:網(wǎng)絡(luò)運營商獲取檢測網(wǎng)絡(luò)上的所有數(shù)據(jù)包,根據(jù)IP地址來劃分?jǐn)?shù)據(jù)包。步驟7:以1秒為時間間隔,大于1秒沒有數(shù)據(jù)包,則定義為空閑時間,否則定義為忙碌時間。步驟8:獲得每個忙碌時間內(nèi)的第一個數(shù)據(jù)包,提取包頭信息中數(shù)據(jù)包大小字段。并將獲得數(shù)據(jù)包大小字段以時間順序排列。前后兩個數(shù)據(jù)包的間隔時間小于10分鐘,則定義為連續(xù)訪問。步驟9:將一次連續(xù)訪問中的前一個數(shù)據(jù)包和后一個數(shù)據(jù)包組成為該次連續(xù)訪問中的一個網(wǎng)頁對;將一次連續(xù)訪問中的前一個數(shù)據(jù)包大小和后一個數(shù)據(jù)包大小組成一個數(shù)據(jù)包數(shù)值對,作為相應(yīng)的網(wǎng)頁對的數(shù)據(jù)包對大小。步驟10:在數(shù)據(jù)包對大小和興趣類型的對應(yīng)數(shù)據(jù)庫中檢索上述獲得的網(wǎng)頁對的數(shù)據(jù)包大小,如果檢索到結(jié)果,則將獲取對應(yīng)的興趣類型,并將該興趣類型和IP地址關(guān)聯(lián)。步驟11:統(tǒng)計分析與某個IP地址關(guān)聯(lián)的興趣類型,從而獲得該IP地址的興趣類型。實施例二:基于上述設(shè)定,本實施例根據(jù)兄弟網(wǎng)頁對的數(shù)據(jù)包大小來確定用戶特性,具體實施包括如下步驟:步驟1:獲取訪問量靠前的N個網(wǎng)站,要使得這N個網(wǎng)站訪問量的和占所有網(wǎng)站訪問量的比率大于某個門限值。優(yōu)選的,該門限值是80%。網(wǎng)站訪問量的詳細(xì)數(shù)據(jù)都是公開數(shù)據(jù),本領(lǐng)域技術(shù)人員很容易獲得。步驟2:設(shè)置興趣類型,如上述表1所示:對上述N個網(wǎng)站進行標(biāo)注:如果網(wǎng)站是專業(yè)性網(wǎng)站,則只需要將整個網(wǎng)站的所有網(wǎng)頁對應(yīng)對某個興趣類型;如果網(wǎng)站是綜合性網(wǎng)站,則需要根據(jù)不同的頻道來對應(yīng);對于無法對應(yīng)的網(wǎng)站或頻道,則可以直接拋棄。步驟3:爬蟲軟件定期對上述確定了興趣類型的網(wǎng)站或網(wǎng)站的頻道進行掃描,獲得每個網(wǎng)頁的根文件的數(shù)據(jù)包包頭文件中的數(shù)據(jù)包大小。步驟4:將上述爬蟲軟件獲得網(wǎng)頁進行處理,提取來自于同一網(wǎng)站,且第二網(wǎng)頁和第一網(wǎng)頁都屬于某個上級網(wǎng)頁的超鏈接的網(wǎng)頁對,將該網(wǎng)頁對與網(wǎng)頁對的數(shù)據(jù)包大小形成對應(yīng)關(guān)系。步驟5:判斷該網(wǎng)頁對的興趣類型,如果兩個網(wǎng)頁的興趣類型相同,則將該網(wǎng)頁對的興趣類型標(biāo)注為這兩個網(wǎng)頁的興趣類型,如果不同,則直接拋棄該記錄。從而形成興趣類型和網(wǎng)頁對數(shù)據(jù)包大小的對應(yīng)關(guān)系,形成數(shù)據(jù)包對大小和興趣類型的對應(yīng)數(shù)據(jù)庫。步驟6:網(wǎng)絡(luò)運營商獲取檢測網(wǎng)絡(luò)上的所有數(shù)據(jù)包,根據(jù)IP地址來劃分?jǐn)?shù)據(jù)包。步驟7:以1秒為時間間隔,大于1秒沒有數(shù)據(jù)包,則定義為空閑時間,否則定義為忙碌時間。步驟8:獲得每個忙碌時間內(nèi)的第一個數(shù)據(jù)包,提取包頭信息中數(shù)據(jù)包大小字段。并將獲得數(shù)據(jù)包大小字段以時間順序排列。前后兩個數(shù)據(jù)包的間隔時間小于10分鐘,則定義為連續(xù)訪問。步驟9:將一次連續(xù)訪問中的前一個數(shù)據(jù)包大小和后一個數(shù)據(jù)包大小組成的數(shù)對,作為網(wǎng)頁對的數(shù)據(jù)包大小。步驟10:在數(shù)據(jù)包對大小和興趣類型的對應(yīng)數(shù)據(jù)庫中檢索上述獲得的網(wǎng)頁對的數(shù)據(jù)包大小,如果檢索到結(jié)果,則將獲取對應(yīng)的興趣類型,并將該興趣類型和IP地址關(guān)聯(lián)。步驟11:統(tǒng)計分析與某個IP地址關(guān)聯(lián)的興趣類型,從而獲得該IP地址的興趣類型。需要注意的是,公布實施例的目的在于幫助進一步理解本發(fā)明,但是本領(lǐng)域的技術(shù)人員可以理解:在不脫離本發(fā)明及所附權(quán)利要求的精神和范圍內(nèi),各種替換和修改都是可能的。因此,本發(fā)明不應(yīng)局限于實施例所公開的內(nèi)容,本發(fā)明要求保護的范圍以權(quán)利要求書界定的范圍為準(zhǔn)。當(dāng)前第1頁1 2 3