社交網(wǎng)站交互行為收集檢測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及大數(shù)據(jù),特別涉及一種社交網(wǎng)站交互行為收集檢測方法。
【背景技術(shù)】
[0002]近年來移動(dòng)互聯(lián)網(wǎng)、電子商務(wù)、物聯(lián)網(wǎng)迅猛發(fā)展,用戶在網(wǎng)上可獲取的消息越來越多,互聯(lián)網(wǎng)中有海量的信息內(nèi)容,用戶為了找到自己真正感興趣和需要的信息,不得不花費(fèi)巨大的時(shí)間和精力去篩選這些信息,甚至可能還會(huì)由于搜索不當(dāng)導(dǎo)致用戶錯(cuò)過或漏選真正感興趣的信息。因此需要一種根據(jù)自身在網(wǎng)絡(luò)中的行為習(xí)慣和興趣愛好,能夠自動(dòng)為用戶提供用戶需要的信息的服務(wù)。比如網(wǎng)絡(luò)商家,當(dāng)商家在網(wǎng)絡(luò)中發(fā)布自己的商品信息,而對此感興趣的用戶又錯(cuò)過了瀏覽該商品的機(jī)會(huì),商家就喪失了一次可能進(jìn)行商品交易的機(jī)會(huì),因此商家也需要網(wǎng)絡(luò)能夠提供一種自動(dòng)將其發(fā)布的商品信息提供給對商品可能感興趣的用戶的服務(wù)。傳統(tǒng)的技術(shù)方案對用戶在網(wǎng)絡(luò)中的行為習(xí)慣和興趣愛好進(jìn)行分析,實(shí)現(xiàn)信息推送。而只是記錄了用戶的上網(wǎng)記錄,訪問了哪些服務(wù)器的哪些頁面。這些信息不能很明顯地展示用戶的興趣愛好。而通過第三方網(wǎng)站跟蹤用戶的用戶識(shí)別方法只考慮了商家的需求,沒有考慮用戶的信息安全;根據(jù)用戶上網(wǎng)的行為模式判斷新會(huì)話屬于哪個(gè)用戶的方法只是分析了動(dòng)態(tài)的會(huì)話,而且當(dāng)數(shù)據(jù)量龐大時(shí),由于缺少識(shí)別用戶的信息,僅依靠用戶的行為模式,不能進(jìn)行用戶識(shí)別。
【發(fā)明內(nèi)容】
[0003]為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種社交網(wǎng)站交互行為收集檢測方法,包括:
[0004]對用戶在網(wǎng)站中的日志進(jìn)行識(shí)別分析,提取用戶端緩存數(shù)據(jù)的相關(guān)字段,與識(shí)別出的用戶會(huì)話結(jié)合進(jìn)行用戶行為檢測。
[0005]優(yōu)選地,所述對用戶在網(wǎng)站中的日志進(jìn)行識(shí)別分析,進(jìn)一步包括:
[0006]用表root來存儲(chǔ)已經(jīng)處理過的記錄的URL及其訪問時(shí)間,用Reference表示用戶是從哪一個(gè)頁面鏈接到當(dāng)前頁面,則滿足下面兩個(gè)條件A和B的記錄判斷為屬于同一個(gè)會(huì)話:
[0007]A:當(dāng)前記錄的Reference在root表中出現(xiàn)過;并且
[0008]B:當(dāng)前記錄的訪問時(shí)間和root表中同樣URL記錄的訪問時(shí)間差不超過預(yù)定時(shí)間;
[0009]如果root集合中有多條記錄的URL和己經(jīng)處理的記錄的Reference相匹配,則取與該條記錄時(shí)間差最小的記錄;
[0010]然后按照以下過程進(jìn)行會(huì)話識(shí)別:
[0011]1)在日志中添加一個(gè)會(huì)話標(biāo)識(shí)字段SID,同時(shí)創(chuàng)建一個(gè)root表,表的記錄格式為<己訪問記錄URL,時(shí)刻Time,會(huì)話標(biāo)識(shí)SID> ;
[0012]2)讀入一行新記錄R,判斷其是否為第一條記錄,如果是第一條記錄,轉(zhuǎn)3);如果不是第一條記錄轉(zhuǎn)4);
[0013]3)將記錄R的URL和Time插入root表,新建SID,即root新增一條記錄,并將該SID的值賦給記錄R,返回步驟2);
[0014]4)判斷記錄R的Reference字段是否為空,若為空值,則轉(zhuǎn)3);若非空,轉(zhuǎn)5);
[0015]5)提取記錄R的Reference字段的值,并遍歷root表,檢查R的Reference值是否在root的URL字段中存在,若不存在,則轉(zhuǎn)3),否則,轉(zhuǎn)6);
[0016]6)遍歷root表時(shí),檢查R的Reference值與root表URL字段是否有多條記錄相同,如果只有一條記錄,記作S,則轉(zhuǎn)7);否則轉(zhuǎn)8);
[0017]7)將記錄R的Time值與root表中記錄S的Time值進(jìn)行比較,如果時(shí)間差的值大于預(yù)設(shè)時(shí)間,則轉(zhuǎn)3);否則,將記錄R的URL和Time字段插入root表,并將記錄S的SID賦給此記錄R ;
[0018]8)將6)中得到的多條記錄的Time字段與記錄R的Time字段進(jìn)行比較,取與記錄R的Time字段值最近的記錄,記作S,轉(zhuǎn)7)。
[0019]優(yōu)選地,所述提取用戶端緩存數(shù)據(jù)的相關(guān)字段,進(jìn)一步包括:
[0020]將每個(gè)網(wǎng)站域名下的客戶端緩存數(shù)據(jù)中保存的與用戶名相關(guān)的字段設(shè)置成一個(gè)規(guī)則表;在日志中增加了一個(gè)Name字段作為客戶端緩存數(shù)據(jù)提取的內(nèi)容,將該字段非空的日志中每一個(gè)不同的Name的第一個(gè)會(huì)話作為每一個(gè)用戶的初始聚類中心;
[0021]將R = {γ1? r2,..., rj表示η條會(huì)話記錄組成的日志集合;r = [SID, IP,ACC,Agent,Name]表示一條會(huì)話記錄;
[0022]DOM (IP) = {IP:,IP2,..., IPn}是字段IP的值域,其中n是屬性IP所包含的不同IP值的個(gè)數(shù);任意一條會(huì)話記錄(l〈i〈n)可以被r描述為[SID IP;, ACC;,Agentp Namej,其中 IP^ DOM (IP);
[0023]令R,分別描述為;r[SID IP;, ACC;, Agent;, Name;], τ?= [SID IPj,ACCj, Agent^ Namej],則巧與r.j之間簡單匹配的差異度定義為:
[0024]d(x;, Xj) = δ (IP;, IPj) + δ (ACCi, ACCj) +...+ 5 (Name" Name)
[0025]其中函數(shù)δ (X,Y)表示為:若 X = Y,則 δ (Χ,Υ) = 1 ;若 χ 乒 γ,則 δ (Χ,Υ) = 0 ;
[0026]設(shè)定k個(gè)聚類中心記錄,記作Ζ = [Ζ^ Ζ2,...,Zk],Ζ; (l〈i〈k)表示每一個(gè)類的中心記錄,即每個(gè)用戶的聚類中心;
[0027]按照下述步驟進(jìn)行用戶識(shí)別:
[0028]1)選擇k條會(huì)話記錄作為聚類中心Z,并對其增加一個(gè)字段UserlD,且每條記錄的UserlD值均不同;k = 1^+1?,其中匕為N條會(huì)話記錄中非空Name的去重?cái)?shù)目,假設(shè)其中η ι條會(huì)話的Name字段非空,則k2= (Ν_η ^ Χ^/η^則記錄中非空Name的第一個(gè)會(huì)話作為每一個(gè)用戶的聚類中心,其中前匕條記錄的Name字段值是唯一標(biāo)識(shí)的,后“條記錄的Name字段值為空;
[0029]2)將剩余的每一條會(huì)話記錄的字段與k個(gè)聚類中心的字段進(jìn)行比較,如果相同,則為0,否則記作1,然后將字段的差值求和,計(jì)算差異度,選擇與k個(gè)聚類中心差值和最小的類,將該類中的UserlD賦給這條記錄的UserlD字段;
[0030]3)對每一類的會(huì)話記錄的每一條記錄計(jì)算其與該類其他記錄的差值和,找出其中差值和最小的記錄,然后將其作為該類的聚類中心,并修改其UserlD的值,使其與己計(jì)算類的聚類中心的UserlD不同;
[0031]4)迭代上述步驟2)和3),直到前一次的聚類中心與下一次的聚類中心是相同的會(huì)話記錄為止;
[0032]最后得到按用戶聚類的日志,共k個(gè)用戶;當(dāng)會(huì)話記錄&屬于第1個(gè)用戶時(shí),檢查該會(huì)話的Name字段是否和該用戶的用戶中心即聚類中心乙的Name字段相同,如果不同,則將其修改為叾丨的Name字段值。
[0033]本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點(diǎn):
[0034]本發(fā)明提出了一種社交網(wǎng)站交互行為收集檢測方法,通過對獨(dú)立用戶行為進(jìn)行用戶識(shí)別,在識(shí)別過程中展示了用戶的興趣愛好,實(shí)現(xiàn)了針對性的有價(jià)值信息推送。
【附圖說明】
[0035]圖1是根據(jù)本發(fā)明實(shí)施例的社交網(wǎng)站交互行為收集檢測方法的流程圖。
【具體實(shí)施方式】
[0036]下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個(gè)或者多個(gè)實(shí)施例的詳細(xì)描述。結(jié)合這樣的實(shí)施例描述本發(fā)明,但是本