本發(fā)明屬于互聯(lián)網(wǎng)領(lǐng)域,涉及一種https環(huán)境下用戶行為分析的方法。
背景技術(shù):
http用戶訪問請求報(bào)文數(shù)據(jù)一直以來是在互聯(lián)網(wǎng)環(huán)境下用戶行為分析主要數(shù)據(jù)來源,通過http報(bào)文,可以有效跟蹤用戶行為路徑、內(nèi)容和頻率,從而分析互聯(lián)網(wǎng)用戶的行為習(xí)慣、行為預(yù)測,從而為企業(yè)、投資者等提供有力的決策依據(jù),根據(jù)不同用戶制訂并執(zhí)行詳盡、有效的策略。
隨著互聯(lián)網(wǎng)的不斷發(fā)展,承載的業(yè)務(wù)越來越多,特別是終端支付、金融理財(cái)?shù)葮I(yè)務(wù)的發(fā)展,使得數(shù)據(jù)傳輸?shù)陌踩砸笤絹碓礁撸虼撕芏鄳?yīng)用/Web服務(wù)逐步將http切換為https,保證客戶端與服務(wù)器間通信安全性,如天貓、淘寶、百度、京東、IOS APP等。
https在http的基礎(chǔ)上加入了TLS/SSL協(xié)議,TSL/SSL依靠證書來驗(yàn)證服務(wù)器的身份,并為瀏覽器和服務(wù)器之間的通信加密。而原來基于http訪問報(bào)文分析的方法已經(jīng)無法抓取到用戶真實(shí)的訪問URL的全部數(shù)據(jù),也就無法對用戶的互聯(lián)網(wǎng)行為進(jìn)行深入分析。
目前主要有兩種方式:
方案一:
通過分析https中僅能記錄的host等有限信息粗略分析用戶行為。這種方案,由于https數(shù)據(jù)中僅能明文獲取用戶訪問請求的host信息,無法記錄到用戶訪問該host下詳細(xì)的path從而獲取完整的URL,因此也就無法做到用戶訪問內(nèi)容的深入分析,不能為決策提供有效的數(shù)據(jù)支撐。
方案二:
在客戶端與用戶訪問的服務(wù)器之間架設(shè)Proxy代理,實(shí)現(xiàn)對https請求劫持。通過對https請求劫持,可以實(shí)現(xiàn)與http完全相同的分析效果,但無法實(shí)現(xiàn)對全網(wǎng)用戶行為的分析能力,比較適合企業(yè)網(wǎng)絡(luò)出口處架設(shè)Proxy代理,實(shí)現(xiàn)企業(yè)內(nèi)部用戶行為跟蹤和分析,因此該方案存在Proxy代理服務(wù)器部署的技術(shù)限制、場景限制和成本限制。
技術(shù)實(shí)現(xiàn)要素:
針對上述問題,本發(fā)明通過建立互聯(lián)網(wǎng)內(nèi)容頁面特征庫、結(jié)合https可以獲取的有限信息,基于大數(shù)據(jù)分析技術(shù),對用戶實(shí)際訪問內(nèi)容的準(zhǔn)確計(jì)算,實(shí)現(xiàn)https下用戶互聯(lián)網(wǎng)行為分析。
本發(fā)明解決上述技術(shù)問題所采取的技術(shù)方案如下:
一種https環(huán)境下用戶行為分析的方法,包括:
步驟1)對需要分析的互聯(lián)網(wǎng)資源頁面建立內(nèi)容特征庫,特征庫由多個特征碼組成,特征碼包括:https請求URL的Host、頁面大小、頁面包含資源內(nèi)容、資源內(nèi)容大小、動態(tài)資源信息、內(nèi)嵌URLs及數(shù)量之一或者組合;
步驟2)對用戶訪問互聯(lián)網(wǎng)資源的https報(bào)文數(shù)據(jù)逐條分析,提取特征信息,以與特征碼匹配分析;
步驟3)將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配,還原用戶真實(shí)訪問行為,并做進(jìn)一步的分析和統(tǒng)計(jì)。
優(yōu)選的是,步驟1)中,針對需要分析的網(wǎng)站通過爬蟲技術(shù)爬取所需要分析的每個網(wǎng)頁,根據(jù)爬取網(wǎng)頁的數(shù)據(jù)建立網(wǎng)頁特征庫。
優(yōu)選的是,步驟2)中,提取的特征信息選自以下:
訪問URL的Host/Domain;
https請求頁面未緩存部分的總長度;
https請求頁面中未緩存的圖片或者CSS加載資源的數(shù)量;
頁面加載的每一個資源對象的大??;
https請求發(fā)生的時間。
優(yōu)選的是,步驟2)中,基于以上1個或多個特征信息組合形成一個或多個特征指紋,通過一定時間范圍內(nèi)用戶訪問https請求確定用戶訪問路徑。
優(yōu)選的是,步驟3)中將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配具體選自以下的方法:
通過指紋組合唯一匹配;
如果無法通過指紋組合唯一匹配時,可以通過訪問該網(wǎng)頁時同時加載的資源或URL序列多條件匹配;
從頁面中獲取3-5個必定每次會加載的對象內(nèi)容,同時獲取這些對象內(nèi)容的大小和host信息,依據(jù)每次加載頁面訪問對象序列的host信息和對象大小作為指紋信息進(jìn)行匹配。
一種https環(huán)境下用戶行為分析的系統(tǒng),包括:
特征庫建立單元,用于對需要分析的互聯(lián)網(wǎng)資源頁面建立內(nèi)容特征庫,特征庫由多個特征碼組成,特征碼包括:https請求URL的Host、頁面大小、頁面包含資源內(nèi)容、資源內(nèi)容大小、動態(tài)資源信息、內(nèi)嵌URLs及數(shù)量之一或者組合;
特征碼匹配單元,用于對用戶訪問互聯(lián)網(wǎng)資源的https報(bào)文數(shù)據(jù)逐條分析,提取特征信息,以與特征碼匹配分析;
行為還原單元,用于將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配,還原用戶真實(shí)訪問行為,并做進(jìn)一步的分析和統(tǒng)計(jì)。
優(yōu)選的是,所述特征庫建立單元,針對需要分析的網(wǎng)站通過爬蟲技術(shù)爬取所需要分析的每個網(wǎng)頁,根據(jù)爬取網(wǎng)頁的數(shù)據(jù)建立網(wǎng)頁特征庫。
優(yōu)選的是,所述特征碼匹配單元,提取的特征信息選自以下:
訪問URL的Host/Domain;
https請求頁面未緩存部分的總長度;
https請求頁面中未緩存的圖片或者CSS加載資源的數(shù)量;
頁面加載的每一個資源對象的大小;
https請求發(fā)生的時間。
優(yōu)選的是,所述特征碼匹配單元,進(jìn)一步用于基于以上1個或多個特征信息組合形成一個或多個特征指紋,通過一定時間范圍內(nèi)用戶訪問https請求確定用戶訪問路徑。
優(yōu)選的是,所述行為還原單元,將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配具體選自以下的方法:
通過指紋組合唯一匹配;
如果無法通過指紋組合唯一匹配時,可以通過訪問該網(wǎng)頁時同時加載的資源或URL序列多條件匹配;
從頁面中獲取3-5個必定每次會加載的對象內(nèi)容,同時獲取這些對象內(nèi)容的大小和host信息,依據(jù)每次加載頁面訪問對象序列的host信息和對象大小作為指紋信息進(jìn)行匹配。
該方案主要由以下特點(diǎn):
1、無需增加額外投資,包括改變網(wǎng)絡(luò)結(jié)構(gòu)或增加計(jì)算資源,基于現(xiàn)有的數(shù)據(jù)和設(shè)備即可完成;
2、還原用戶行為后的數(shù)據(jù)分析和原有http日志基本相同,保護(hù)原有分析系統(tǒng)的投入;
3、用戶行為還原的粒度可以根據(jù)實(shí)際業(yè)務(wù)需求確定,以減少特征庫的開發(fā)和維護(hù)成本。
本發(fā)明的其它特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本發(fā)明而了解。本發(fā)明的目的和其他優(yōu)點(diǎn)可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。
附圖說明
下面結(jié)合附圖對本發(fā)明進(jìn)行詳細(xì)的描述,以使得本發(fā)明的上述優(yōu)點(diǎn)更加明確。其中,
圖1是本發(fā)明https環(huán)境下用戶行為分析的方法的流程示意圖;
圖2是本發(fā)明https環(huán)境下用戶行為分析的系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
以下將結(jié)合附圖及實(shí)施例來詳細(xì)說明本發(fā)明的實(shí)施方式,借此對本發(fā)明如何應(yīng)用技術(shù)手段來解決技術(shù)問題,并達(dá)成技術(shù)效果的實(shí)現(xiàn)過程能充分理解并據(jù)以實(shí)施。需要說明的是,只要不構(gòu)成沖突,本發(fā)明中的各個實(shí)施例以及各實(shí)施例中的各個特征可以相互結(jié)合,所形成的技術(shù)方案均在本發(fā)明的保護(hù)范圍之內(nèi)。
另外,在附圖的流程圖示出的步驟可以在諸如一組計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)系統(tǒng)中執(zhí)行,并且,雖然在流程圖中示出了邏輯順序,但是在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟。
實(shí)施例一:
如圖1所示,一種https環(huán)境下用戶行為分析的方法,包括:
步驟1)對需要分析的互聯(lián)網(wǎng)資源頁面建立內(nèi)容特征庫,特征庫由多個特征碼組成,特征碼包括:https請求URL的Host、頁面大小、頁面包含資源內(nèi)容、資源內(nèi)容大小、動態(tài)資源信息、內(nèi)嵌URLs及數(shù)量之一或者組合;
步驟2)對用戶訪問互聯(lián)網(wǎng)資源的https報(bào)文數(shù)據(jù)逐條分析,提取特征信息,以與特征碼匹配分析;
步驟3)將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配,還原用戶真實(shí)訪問行為,并做進(jìn)一步的分析和統(tǒng)計(jì)。
本發(fā)明通過建立互聯(lián)網(wǎng)內(nèi)容頁面特征庫、結(jié)合https可以獲取的有限信息,基于大數(shù)據(jù)分析技術(shù),對用戶實(shí)際訪問內(nèi)容的準(zhǔn)確計(jì)算,實(shí)現(xiàn)https下用戶互聯(lián)網(wǎng)行為分析。
實(shí)施例二:
結(jié)合實(shí)施例對本發(fā)明進(jìn)行繼續(xù)描述,其中,優(yōu)選的是,步驟2)中,提取的特征信息選自以下:
訪問URL的Host/Domain;
https請求頁面未緩存部分的總長度;
https請求頁面中未緩存的圖片或者CSS加載資源的數(shù)量;
頁面加載的每一個資源對象的大?。?/p>
https請求發(fā)生的時間。
優(yōu)選的是,步驟2)中,基于以上1個或多個特征信息組合形成一個或多個特征指紋,通過一定時間范圍內(nèi)用戶訪問https請求確定用戶訪問路徑。
優(yōu)選的是,步驟3)中將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配具體選自以下的方法:
通過指紋組合唯一匹配;
如果無法通過指紋組合唯一匹配時,可以通過訪問該網(wǎng)頁時同時加載的資源或URL序列多條件匹配;
從頁面中獲取3-5個必定每次會加載的對象內(nèi)容,同時獲取這些對象內(nèi)容的大小和host信息,依據(jù)每次加載頁面訪問對象序列的host信息和對象大小作為指紋信息進(jìn)行匹配。
實(shí)施例三:
在一個實(shí)施例中,本發(fā)明主要包括以下的主要步驟:
1.對需要分析的互聯(lián)網(wǎng)資源頁面建立內(nèi)容特征庫
針對需要分析的網(wǎng)站通過爬蟲技術(shù)爬取所需要分析的每個網(wǎng)頁,根據(jù)爬取網(wǎng)頁的數(shù)據(jù)建立網(wǎng)頁特征庫,特征庫由多個特征碼(指紋)組成,特征碼包括但不限于https請求URL的Host、頁面大小、頁面包含資源內(nèi)容、資源內(nèi)容大小、動態(tài)資源信息、內(nèi)嵌URLs及數(shù)量等。
2.對用戶訪問互聯(lián)網(wǎng)資源的https報(bào)文數(shù)據(jù)逐條分析,提取特征信息,以與特征碼/指紋匹配分析
https通過TLS/SSL加密通信通道時,通過抓取報(bào)文分析后仍然可以獲得如下信息:
(1)訪問URL的Host/Domain
(2)https請求頁面未緩存部分的總長度
(3)https請求頁面中未緩存的加載資源的數(shù)量,如圖片、CSS等
(4)頁面加載的每一個資源對象的大小
(5)https請求發(fā)生的時間
基于以上1個或多個組合形成一個或多個特征指紋,通過一定時間范圍內(nèi)用戶訪問https請求確定用戶訪問路徑。
3.將提取特征信息的日志按一定算法與內(nèi)容特征庫匹配,還原用戶真實(shí)訪問行為,并做進(jìn)一步的分析和統(tǒng)計(jì)。特征匹配算法主要包括以下方法:
(1)通過指紋組合唯一匹配;
(2)如果無法通過指紋組合唯一匹配時,可以通過訪問該網(wǎng)頁時同時加載的資源或URL序列多條件匹配,比如,一個頁面加載時不僅僅加載該頁面的內(nèi)容,也加載了一些特定的圖片,或發(fā)起一個特殊的新的https/http請求,此時都可以通過指紋組合+定義URL訪問序列共同定位所訪問的頁面。
(3)從頁面中獲取3-5個必定每次會加載的對象內(nèi)容(圖片、媒體文件、css、js等),同時獲取這些對象內(nèi)容的大小和host信息,依據(jù)每次加載頁面訪問對象序列的host信息和對象大小作為指紋信息。
該方案主要由以下特點(diǎn):
1、無需增加額外投資,包括改變網(wǎng)絡(luò)結(jié)構(gòu)或增加計(jì)算資源,基于現(xiàn)有的數(shù)據(jù)和設(shè)備即可完成;
2、還原用戶行為后的數(shù)據(jù)分析和原有http日志基本相同,保護(hù)原有分析系統(tǒng)的投入;
3、用戶行為還原的粒度可以根據(jù)實(shí)際業(yè)務(wù)需求確定,以減少特征庫的開發(fā)和維護(hù)成本。
其中,所有采用相同或類似的算法實(shí)現(xiàn)基于https日志的用戶行為分析方法均屬于本專利的申請保護(hù)范圍:
1.通過解析https請求中獲取host、頁面大小、頁面包含對象大小、動態(tài)資源加載數(shù)量等信息作為指紋唯一定位https頁面的方法;
2.多個https頁面相同時,增加其他元素,如JS、圖片、URL訪問訪序列、內(nèi)容對象大小等唯一定位頁面的方法;
3.通過網(wǎng)絡(luò)爬蟲技術(shù)構(gòu)建Web頁面特征庫的方法。
實(shí)施例四:
與以上方法實(shí)施例相對應(yīng),本發(fā)明還提供了一種一種https環(huán)境下用戶行為分析的系統(tǒng),包括:
特征庫建立單元,用于對需要分析的互聯(lián)網(wǎng)資源頁面建立內(nèi)容特征庫,特征庫由多個特征碼組成,特征碼包括:https請求URL的Host、頁面大小、頁面包含資源內(nèi)容、資源內(nèi)容大小、動態(tài)資源信息、內(nèi)嵌URLs及數(shù)量之一或者組合;
特征碼匹配單元,用于對用戶訪問互聯(lián)網(wǎng)資源的https報(bào)文數(shù)據(jù)逐條分析,提取特征信息,以與特征碼匹配分析;
行為還原單元,用于將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配,還原用戶真實(shí)訪問行為,并做進(jìn)一步的分析和統(tǒng)計(jì)。
優(yōu)選的是,所述特征庫建立單元,針對需要分析的網(wǎng)站通過爬蟲技術(shù)爬取所需要分析的每個網(wǎng)頁,根據(jù)爬取網(wǎng)頁的數(shù)據(jù)建立網(wǎng)頁特征庫。
優(yōu)選的是,所述特征碼匹配單元,提取的特征信息選自以下:
訪問URL的Host/Domain;
https請求頁面未緩存部分的總長度;
https請求頁面中未緩存的圖片或者CSS加載資源的數(shù)量;
頁面加載的每一個資源對象的大?。?/p>
https請求發(fā)生的時間。
優(yōu)選的是,所述特征碼匹配單元,進(jìn)一步用于基于以上1個或多個特征信息組合形成一個或多個特征指紋,通過一定時間范圍內(nèi)用戶訪問https請求確定用戶訪問路徑。
優(yōu)選的是,所述行為還原單元,將提取特征信息的日志與內(nèi)容特征庫中的特征碼匹配具體選自以下的方法:
通過指紋組合唯一匹配;
如果無法通過指紋組合唯一匹配時,可以通過訪問該網(wǎng)頁時同時加載的資源或URL序列多條件匹配;
從頁面中獲取3-5個必定每次會加載的對象內(nèi)容,同時獲取這些對象內(nèi)容的大小和host信息,依據(jù)每次加載頁面訪問對象序列的host信息和對象大小作為指紋信息進(jìn)行匹配。
該方案主要由以下特點(diǎn):
1、無需增加額外投資,包括改變網(wǎng)絡(luò)結(jié)構(gòu)或增加計(jì)算資源,基于現(xiàn)有的數(shù)據(jù)和設(shè)備即可完成;
2、還原用戶行為后的數(shù)據(jù)分析和原有http日志基本相同,保護(hù)原有分析系統(tǒng)的投入;
3、用戶行為還原的粒度可以根據(jù)實(shí)際業(yè)務(wù)需求確定,以減少特征庫的開發(fā)和維護(hù)成本。
需要說明的是,對于上述方法實(shí)施例而言,為了簡單描述,故將其都表述為一系列的動作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本申請并不受所描述的動作順序的限制,因?yàn)橐罁?jù)本申請,某些步驟可以采用其他順序或者同時進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動作和模塊并不一定是本申請所必須的。
本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本申請可采用完全硬件實(shí)施例、完全軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。
而且,本申請可采用在一個或多個其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。
最后應(yīng)說明的是:以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,對于本領(lǐng)域的技術(shù)人員來說,其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。