一種識(shí)別寬帶網(wǎng)絡(luò)中獨(dú)立用戶賬戶的方法
【專(zhuān)利摘要】一種識(shí)別寬帶網(wǎng)絡(luò)中獨(dú)立用戶賬戶的方法。本發(fā)明的技術(shù)方案利用運(yùn)營(yíng)商提供的海量Web日志數(shù)據(jù)找出cookie中標(biāo)識(shí)用戶賬戶的字段key。首先以統(tǒng)計(jì)的方式找到每個(gè)網(wǎng)站長(zhǎng)期標(biāo)識(shí)瀏覽器的cookie字段key;然后爬取指定網(wǎng)站主頁(yè)下指向站內(nèi)的URL;其次逐個(gè)訪問(wèn)這些URL,同時(shí)利用抓包的方式捕獲瀏覽器和指定網(wǎng)站交互時(shí)而產(chǎn)生的cookie數(shù)據(jù);再對(duì)抓取到的cookie數(shù)據(jù)進(jìn)行篩選;利用海量的Web日志數(shù)據(jù),先對(duì)指定網(wǎng)站的數(shù)據(jù)進(jìn)行分組,然后刪除每個(gè)組內(nèi)的重復(fù)數(shù)據(jù),其次排除掉在“排除字段集”中出現(xiàn)的字段,在全局范圍檢查value集中是否出現(xiàn)重復(fù)值情況,制定清洗規(guī)則,篩選剩余的字段key,最后縮小字段范圍,甚至直接得到標(biāo)識(shí)用戶賬戶的字段。
【專(zhuān)利說(shuō)明】一種識(shí)別寬帶網(wǎng)絡(luò)中獨(dú)立用戶賬戶的方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種識(shí)別獨(dú)立網(wǎng)絡(luò)用戶賬戶的方法,屬于網(wǎng)絡(luò)技術(shù)和互聯(lián)網(wǎng)信息處理【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]Cookie,指某些網(wǎng)站為了辨別用戶身份而儲(chǔ)存在用戶本地終端(Client Side)上的數(shù)據(jù)(通常經(jīng)過(guò)加密),Cookie中的每個(gè)字段采用字段鍵-字段值的形式,即key-value形式。Cookie總是保存在客戶端中,按在客戶端中的存儲(chǔ)位置,可分為內(nèi)存Cookie和硬盤(pán)Cookie。內(nèi)存Cookie由瀏覽器維護(hù),保存在內(nèi)存中,瀏覽器關(guān)閉后就消失了,其存在時(shí)間是短暫的。硬盤(pán)Cookie保存在硬盤(pán)里,有一個(gè)過(guò)期時(shí)間,除非用戶手工清理或到了過(guò)期時(shí)間,硬盤(pán)Cookie不會(huì)被刪除,其存在時(shí)間是長(zhǎng)期的。所以,按存在時(shí)間劃分,可分為非持久Cookie 和持久 Cookie。
[0003]Cookie是基于瀏覽器的。當(dāng)電腦上安裝多個(gè)瀏覽器時(shí),服務(wù)器會(huì)為不同瀏覽器生成不同的Cookie,被服務(wù)器識(shí)別為多個(gè)用戶。
[0004]Cookie是基于瀏覽器的。當(dāng)同一臺(tái)電腦有多個(gè)人使用時(shí),服務(wù)器也只會(huì)生成一個(gè)Cookie,被服務(wù)器會(huì)認(rèn)為是一個(gè)用戶。
[0005]Cookie是無(wú)法跨設(shè)備進(jìn)行設(shè)置的。即使同一個(gè)人在不同的兩臺(tái)電腦,使用同一版本的相同瀏覽器,服務(wù)器會(huì)生成兩個(gè)不同的Cookie,被服務(wù)器認(rèn)為是兩個(gè)用戶。
[0006]Cookie是有生存期的。當(dāng)標(biāo)識(shí)用戶的cookie字段key的value值過(guò)期或是被用戶刪除,同一個(gè)用戶的網(wǎng)絡(luò)訪問(wèn)信息或被識(shí)別為不同的兩個(gè)人的信息,被瀏覽器識(shí)別為兩個(gè)用戶。
[0007]上面述說(shuō)的四種主要情況,用來(lái)標(biāo)識(shí)“用戶”(瀏覽器)的cookie字段,更確切的說(shuō)應(yīng)該是標(biāo)識(shí)瀏覽器的字段。這種類(lèi)型字段key的value值只有在生存期內(nèi)有效,一旦過(guò)了生存期,服務(wù)器會(huì)重新生成一個(gè)不重復(fù)的value值,用以標(biāo)識(shí)新用戶。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的是有效地克服【背景技術(shù)】中使用標(biāo)識(shí)瀏覽器的字段來(lái)標(biāo)識(shí)用戶時(shí)遇到的四個(gè)不足情況,有效克服手動(dòng)篩選用戶賬戶字段帶來(lái)的費(fèi)時(shí)費(fèi)力的缺點(diǎn)。
[0009]為了達(dá)到上述目的,本發(fā)明的技術(shù)方案是提供了一種識(shí)別寬帶網(wǎng)絡(luò)中獨(dú)立用戶賬戶的方法,其特征在于,步驟為:
[0010]步驟1、利用一段時(shí)間內(nèi)的歷史Web日志識(shí)別每個(gè)網(wǎng)站用于標(biāo)識(shí)瀏覽器的Cookie字段鍵key及該Cookie字段鍵key的Cookie字段值value ;
[0011]步驟2、針對(duì)指定網(wǎng)站S,爬取其首頁(yè)的指向站內(nèi)的所有URL,逐一訪問(wèn)所有URL,訪問(wèn)完畢后,清洗抓取的所有Cookie數(shù)據(jù),將相應(yīng)的Cookie字段放入排除字段集,再將保持在本地的所有Cookie數(shù)據(jù)刪除后重復(fù)執(zhí)行步驟2直至重復(fù)N次訪問(wèn)了指定網(wǎng)站,N > 1,其中,清洗抓取的所有Cookie數(shù)據(jù),將相應(yīng)的Cookie字段放入排除字段集的具體步驟為:[0012]步驟401、將所有Cookie數(shù)據(jù)的各個(gè)Cookie字段按照不同的Cookie字段鍵key進(jìn)行分組,相同Cookie字段鍵key的所有Cookie字段值value組成一個(gè)value集;
[0013]步驟402、依次判斷每個(gè)value集中所有Cookie字段值value是否發(fā)生變化,若發(fā)生變化,則將具有與該value集對(duì)應(yīng)的Cookie字段鍵key的Cookie字段放入排除字段集中;
[0014]步驟3、獲取指定網(wǎng)站S的用戶賬戶字段,其步驟為:
[0015]步驟501、獲取一段時(shí)間內(nèi)的歷史Web日志,針對(duì)指定網(wǎng)站S,將每條Web日志記錄所包含的每行Cookie數(shù)據(jù)分為不同的Cookie數(shù)據(jù)組,同一 Cookie數(shù)據(jù)組的所有Cookie數(shù)據(jù)必須同時(shí)滿足:所對(duì)應(yīng)的Web日志記錄具有相同的ADSL設(shè)備ID值、所對(duì)應(yīng)的Web日志記錄具有相同的用戶代理UserAgent值、所對(duì)應(yīng)的Web日志記錄具有相同的主機(jī)HOST名、具有相同的步驟I獲得的用于標(biāo)識(shí)瀏覽器的Cookie字段鍵key所對(duì)應(yīng)的Cookie字段值value,并將每行Cookie數(shù)據(jù)按照Cookie字段鍵key-Cookie字段值value對(duì)的形式進(jìn)行拆分,得到每行Cookie數(shù)據(jù)的key-value字段;
[0016]步驟502、刪除每個(gè)Cookie數(shù)據(jù)組中,重復(fù)的ADSL設(shè)備ID值、用戶代理UserAgent值、主機(jī)HOST名及用于標(biāo)識(shí)瀏覽器的Cookie字段鍵key所對(duì)應(yīng)的Cookie字段值value,組成一行新的數(shù)據(jù)行,每行數(shù)據(jù)行的包括ADSL設(shè)備ID值、用戶代理User Agent值、主機(jī)HOST名、用于標(biāo)識(shí)瀏覽器的Cookie字段鍵key所對(duì)應(yīng)的Cookie字段值value及key-value 字段;
[0017]步驟503、拆分每行數(shù)據(jù)行的key-value字段,將相同Cookie字段鍵key所對(duì)應(yīng)的所有Cookie字段值value合并為value集;
[0018]步驟504、將步驟503得到的Cookie字段鍵key與排除字段集相匹配,若排除字段集含有該Cookie字段鍵key,將該Cookie字段鍵key及其對(duì)應(yīng)的步驟503得到的value集刪除;
[0019]步驟505、在全局范圍內(nèi)檢查每個(gè)步驟503得到的value集中的各個(gè)Cookie字段值value是否存在重復(fù)值,若存在,貝U取出該value集及其對(duì)應(yīng)的Cookie字段鍵key ;
[0020]步驟506、利用清洗規(guī)則篩選由步驟505取出的所有Cookie字段鍵key及其對(duì)應(yīng)的value集,將剩余的Cookie字段鍵key及將其對(duì)應(yīng)的value集的值做為Cookie字段值value組成的Cookie字段做為用戶賬戶字段,其中,清洗規(guī)則至少為=Cookie字段值value長(zhǎng)度不能小于Al,也不能大于A2和/或Cookie字段值value不能包含特殊字符,Al及A2為經(jīng)驗(yàn)閾值,且Al < A2。
[0021]優(yōu)選地,所述步驟I包括:
[0022]步驟101、獲取一段時(shí)間內(nèi)的歷史Web日志,按照網(wǎng)站將Web日志中每條Web日志記錄中的每行Cookie數(shù)據(jù)進(jìn)行分組,與不同網(wǎng)站對(duì)應(yīng)的不同Cookie數(shù)據(jù)分入不同的Cookie數(shù)據(jù)組,將每個(gè)Cookie數(shù)據(jù)組中的所有Cookie字段按照Cookie字段key出現(xiàn)的次數(shù)進(jìn)行降序排序;
[0023]步驟102、根據(jù)刪除規(guī)則刪除每個(gè)Cookie數(shù)據(jù)組中不符合條件的Cookie字段,刪除規(guī)則至少為:Cookie字段的Cookie字段值value為空或Cookie字段為用于網(wǎng)站分析的字段;
[0024]步驟103、取每個(gè)Cookie數(shù)據(jù)組排列在首位的的Cookie字段為用于標(biāo)識(shí)瀏覽器的Cookie 字段。
[0025]如今很多網(wǎng)站都擁有登錄功能,其中的絕大部分網(wǎng)站都會(huì)在cookie中保存有用戶登錄后的賬戶信息,使用這種類(lèi)型的cookie字段key的value值標(biāo)識(shí)用戶,能有效地克服上述使用標(biāo)識(shí)瀏覽器的字段來(lái)標(biāo)識(shí)用戶時(shí)遇到的四個(gè)不足情況,有效克服手動(dòng)篩選用戶賬戶字段帶來(lái)的費(fèi)時(shí)費(fèi)力的缺點(diǎn)。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0026]圖1是本發(fā)明中識(shí)別每個(gè)網(wǎng)站標(biāo)識(shí)瀏覽器字段的流程圖;
[0027]圖2是本發(fā)明中模擬瀏覽器訪問(wèn)指定網(wǎng)站的流程圖;
[0028]圖3是本發(fā)明中清洗抓取的cookie數(shù)據(jù)字段的流程圖;
[0029]圖4是篩選網(wǎng)站用戶賬戶字段的流程圖。
【具體實(shí)施方式】
[0030]為使本發(fā)明更明顯易懂,茲以?xún)?yōu)選實(shí)施例,并配合附圖作詳細(xì)說(shuō)明如下。
[0031]本發(fā)明提供了一種識(shí)別寬帶網(wǎng)絡(luò)中獨(dú)立用戶賬戶的方法,其步驟為:
[0032]步驟1、利用一段時(shí)間內(nèi)的歷史Web日志識(shí)別每個(gè)網(wǎng)站用于標(biāo)識(shí)瀏覽器的Cookie字段鍵key及該Cookie字段鍵key的Cookie字段值value,結(jié)合圖1,其步驟為:
[0033]步驟101、獲取一段時(shí)間內(nèi)的歷史Web日志,按照網(wǎng)站將Web日志中每條Web日志記錄中的每行Cookie數(shù)據(jù)進(jìn)行分組,與不同網(wǎng)站對(duì)應(yīng)的不同Cookie數(shù)據(jù)分入不同的Cookie數(shù)據(jù)組,將每個(gè)Cookie數(shù)據(jù)組中的所有Cookie字段按照Cookie字段key出現(xiàn)的次數(shù)進(jìn)行降序排序;
[0034]步驟102、根據(jù)刪除規(guī)則刪除每個(gè)Cookie數(shù)據(jù)組中不符合條件的Cookie字段,刪除規(guī)則為:Cookie字段的Cookie字段值value為空,Cookie字段為用于網(wǎng)站分析的字段等;
[0035]步驟103、取每個(gè)Cookie數(shù)據(jù)組排列在首位的的Cookie字段為用于標(biāo)識(shí)瀏覽器的Cookie 字段。
[0036]如表1所示,為一些常用網(wǎng)站與其對(duì)應(yīng)的Cookie字段的Cookie字段鍵key的對(duì)應(yīng)關(guān)系表。
[0037]
【權(quán)利要求】
1.一種識(shí)別寬帶中獨(dú)立用戶賬戶的方法,其特征在于,步驟為: 步驟1、利用一段時(shí)間內(nèi)的歷史Web日志識(shí)別每個(gè)網(wǎng)站用于標(biāo)識(shí)瀏覽器的Cookie字段鍵key及該Cookie字段鍵key的Cookie字段值value ; 步驟2、針對(duì)指定網(wǎng)站S,爬取其首頁(yè)的指向站內(nèi)的所有URL,逐一訪問(wèn)所有URL,訪問(wèn)完畢后,清洗抓取的所有Cookie數(shù)據(jù),將相應(yīng)的Cookie字段放入排除字段集,再將保持在本地的所有Cookie數(shù)據(jù)刪除后重復(fù)執(zhí)行步驟2直至重復(fù)N次訪問(wèn)了指定網(wǎng)站S,NC1,其中,清洗抓取的所有Cookie數(shù)據(jù),將相應(yīng)的Cookie字段放入排除字段集的具體步驟為: 步驟401、將所有Cookie數(shù)據(jù)的各個(gè)Cookie字段按照不同的Cookie字段鍵key進(jìn)行分組,相同Cookie字段鍵key的所有Cookie字段值value組成一個(gè)value集; 步驟402、依次判斷每個(gè)value集中所有Cookie字段值value是否發(fā)生變化,若發(fā)生變化,則將具有與該value集對(duì)應(yīng)的Cookie字段鍵key的Cookie字段放入排除字段集中;步驟3、獲取指定網(wǎng)站S的用戶賬戶字段,其步驟為: 步驟501、獲取一段時(shí)間內(nèi)的歷史Web日志,針對(duì)指定網(wǎng)站S,將每條Web日志記錄所包含的每行Cookie數(shù)據(jù)分為不同的Cookie數(shù)據(jù)組,同一 Cookie數(shù)據(jù)組的所有Cookie數(shù)據(jù)必須同時(shí)滿足:所對(duì)應(yīng)的Web日志記錄具有相同的ADSL設(shè)備ID值、所對(duì)應(yīng)的Web日志記錄具有相同的用戶代理UserAgent值、所對(duì)應(yīng)的Web日志記錄具有相同的主機(jī)HOST名、具有相同的步驟I獲得的用于標(biāo)識(shí)瀏覽器的Cookie字段鍵key所對(duì)應(yīng)的Cookie字段值value,并將每行Cookie數(shù)據(jù)按照Cookie字段鍵key-Cookie字段值value對(duì)的形式進(jìn)行拆分,得到每行Cookie數(shù)據(jù)的key-value字段; 步驟502、刪除每個(gè)Cookie數(shù)據(jù)組中,重復(fù)的ADSL設(shè)備ID值、用戶代理User Agent值、主機(jī)HOST名及用于標(biāo)識(shí)瀏覽器的Cookie字段鍵key所對(duì)應(yīng)的Cookie字段值value,組成一行新的數(shù)據(jù)行,每行數(shù)據(jù)行的包括ADSL設(shè)備ID值、用戶代理User Agent值、主機(jī)HOST名、用于標(biāo)識(shí)瀏覽器的Cookie字段鍵key所對(duì)應(yīng)的Cookie字段值value及key-value字段; 步驟503、拆分每行數(shù)據(jù)行的key-value字段,將相同Cookie字段鍵key所對(duì)應(yīng)的所有Cookie字段值value合并為value集; 步驟504、將步驟503得到的Cookie字段鍵key與排除字段集相匹配,若排除字段集含有該Cookie字段鍵key,將該Cookie字段鍵key及其對(duì)應(yīng)的步驟503得到的value集刪除; 步驟505、在全局范圍內(nèi)檢查每個(gè)步驟503得到的value集中的各個(gè)Cookie字段值value是否存在重復(fù)值,若存在,貝U取出該value集及其對(duì)應(yīng)的Cookie字段鍵key ; 步驟506、利用清洗規(guī)則篩選由步驟505取出的所有Cookie字段鍵key及其對(duì)應(yīng)的value集,將剩余的Cookie字段鍵key及將其對(duì)應(yīng)的value集的值做為Cookie字段值value組成的Cookie字段做為用戶賬戶字段,其中,清洗規(guī)則至少為=Cookie字段值value長(zhǎng)度不能小于Al,也不能大于A2和/或Cookie字段值value不能包含特殊字符,Al及A2為經(jīng)驗(yàn)閾值,且Al <A2。
2.如權(quán)利要求1所述的一種識(shí)別寬帶網(wǎng)絡(luò)中獨(dú)立用戶賬戶的方法,其特征在于,所述步驟I包括: 步驟101、獲取一段時(shí)間內(nèi)的歷史Web日志,按照網(wǎng)站將Web日志中每條Web日志記錄中的每行Cookie數(shù)據(jù)進(jìn)行分組,與不同網(wǎng)站對(duì)應(yīng)的不同Cookie數(shù)據(jù)分入不同的Cookie數(shù)據(jù)組,將每個(gè)Cookie數(shù)據(jù)組中的所有Cookie字段按照Cookie字段key出現(xiàn)的次數(shù)進(jìn)行降序排序; 步驟102、根據(jù)刪除規(guī)則刪除每個(gè)Cookie數(shù)據(jù)組中不符合條件的Cookie字段,刪除規(guī)則至少為:Cookie字段的Cookie字段值value為空或Cookie字段為用于網(wǎng)站分析的字段; 步驟103、取每個(gè)Cookie數(shù)據(jù)組排列在首位的的Cookie字段為用于標(biāo)識(shí)瀏覽器的Cookie 字段。
【文檔編號(hào)】H04L29/08GK103944995SQ201410172950
【公開(kāi)日】2014年7月23日 申請(qǐng)日期:2014年4月28日 優(yōu)先權(quán)日:2014年4月28日
【發(fā)明者】陳德華, 沈昌干, 潘喬, 羅昕 申請(qǐng)人:東華大學(xué), 上海云屹信息技術(shù)有限公司