亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

社交網(wǎng)站交互行為收集檢測方法_3

文檔序號:9646630閱讀:來源:國知局
M (IP)。
[0064]令:tvR,分別描述為;r ;= [SID IP;, ACC;, Agent;, Name;], τ?= [SID IPj,ACCj, Agent^ Namej],則巧與r.j之間簡單匹配的差異度定義為:
[0065]d(x;, Xj) = δ (IP;, IPj) + δ (ACCi, ACCj) +...+ 5 (Name;, Namej)
[0066]其中函數(shù)δ (X,Y)表示為:若 X = Y,則 δ (Χ,Υ) = 1 ;若 χ 乒 γ,則 δ (Χ,Υ) = 0。
[0067]設定k個聚類中心記錄,記作Ζ = [Ζ^ Ζ2,...,Zk],Ζ; (l〈i〈k)表示每一個類的中心記錄,即每個用戶的聚類中心。
[0068]用戶識別算法描述如下:
[0069]1)選擇k條會話記錄作為聚類中心Z,并對其增加一個字段UserlD,且每條記錄的UserlD值均不同;k = 1^+1?,其中匕為N條會話記錄中非空Name的去重數(shù)目,假設其中η ι條會話的Name字段非空,則k2= (Ν_η ^ Χ^/η^則記錄中非空Name的第一個會話作為每一個用戶的聚類中心,其中前匕條記錄的Name字段值是唯一標識的,后“條記錄的Name字段值為空;
[0070]2)將剩余的每一條會話記錄的字段與這k個聚類中心的字段進行比較,如果相同,則為0,否則記作1,然后將字段的差值求和,即計算差異度,選擇與k個聚類中心差值和最小的類,將該類中的UserlD賦給這條記錄的UserlD字段;
[0071]3)對每一類的會話記錄的每一條記錄計算其與該類其他記錄的差值和,找出其中差值和最小的那條記錄,然后將其作為該類的聚類中心,并修改其UserlD的值,使其與己計算類的聚類中心的UserlD不同;
[0072]4)迭代上述步驟2)和3),直到前一次的聚類中心與下一次的聚類中心是相同的會話記錄為止;
[0073]至此,按上述求解方法,對互聯(lián)網(wǎng)日志中的會話記錄進行用戶識別,得到按用戶聚類的日志,共k個用戶。
[0074]當會話記錄Γι屬于第1個用戶時,檢查該會話的Name字段是否和該用戶的用戶中心即聚類中心Name字段相同,如果不同,則將其修改為Z ^勺Name字段值。
[0075]經(jīng)過上述的求解,在日志中增加了一個UserlD字段作為用戶的唯一標識。
[0076]本發(fā)明在用戶識別的基礎(chǔ)上,進一步進行興趣分析。根據(jù)用戶的搜索關(guān)鍵詞,通過分詞提取特征關(guān)鍵詞;在此基礎(chǔ)上進行語義確定,從而得到表示每個用戶的特征的詞語,并根據(jù)用戶興趣特征挖掘相似特征用戶。
[0077]通過對日志的檢索,得到搜索內(nèi)容在URL字段中所在的位置,按照規(guī)則表可以將每一個用戶的所有日志的URL字段中的搜索內(nèi)容提取出來,以獲取搜索關(guān)鍵詞。本發(fā)明是對互聯(lián)網(wǎng)用戶訪問網(wǎng)絡生成的日志進行分析,對用戶興趣特征文本進行分詞,并進行詞性標注。
[0078]采用語義確定過程對關(guān)鍵詞的語義進行識別。根據(jù)基于詞庫計算語義近似度的方法,計算關(guān)鍵詞的每一個語義與該詞上下文各詞語義的語義近似度,然后根據(jù)語義近似度值所反映出來的語義之間的關(guān)聯(lián)關(guān)系,得到關(guān)鍵詞在上下文中的語義。
[0079]假設關(guān)鍵詞W存在η個語義kfk。(n>2),該關(guān)鍵詞W處于一個文本中,要找出W在該文本中的語義,首先計算關(guān)鍵詞W的各個語義與這一文本中其他詞匯的各個語義的語義近似度的值Simd r,),其中r]表示文本中任意詞語的任一語義,然后根據(jù)這些語義近似度的值判斷出W在這一文本的語義。
[0080]定義基于語義近似度值的語義關(guān)系,稱為語義關(guān)聯(lián)度:取關(guān)鍵詞W所在搜索關(guān)鍵詞的分詞中的前一個實詞Wi和后一個實詞W2,若關(guān)鍵詞W處于第一位,則只取w2;若關(guān)鍵詞處于最末,則只取w1;若W所在的搜索關(guān)鍵詞的分詞結(jié)果只有W,則取其前一個搜索關(guān)鍵詞的最后一個分詞和后一個搜索關(guān)鍵詞的第一個分詞。有鑒于此,以下為語義確定規(guī)則。
[0081]用Sli表示取語義近似度值最大的語義,即表現(xiàn)為語義k 1與上下文中出現(xiàn)的語義之間相似度最大。即該關(guān)鍵詞在該上下文中可能的語義為kp用321表示語義1與上下文求得的語義近似度最大值出現(xiàn)的次數(shù)最多。用S3i表示語義1與上下文求得的語義近似度最大值大于某一固定閾值次數(shù)最多。如果匕滿足上述任意兩個或兩個以上的規(guī)則,則按照語義關(guān)聯(lián)度計算的綜合結(jié)果,將h確定為該關(guān)鍵詞在該上下文中的語義。
[0082]進一步地,在采用語義確定算法對關(guān)鍵詞進行語義確定時,將該關(guān)鍵詞所在的搜索內(nèi)容作為關(guān)鍵詞所在的句;而該用戶在同一會話下的搜索內(nèi)容,以及在與該會話相鄰的時間段內(nèi)產(chǎn)生的會話中的搜索內(nèi)容,作為該關(guān)鍵詞所在句的段;對于從該用戶所有日志中提取的搜索內(nèi)容,則組合起來作為該關(guān)鍵詞所在的文本。關(guān)鍵詞的語義確定過程如下:
[0083]1)對于任一個用戶i,將從該用戶的日志的URL中提取的搜索關(guān)鍵詞組合成一個段ti;
[0084]2)對于從搜索關(guān)鍵詞中通過分詞提取的表現(xiàn)用戶興趣特征的實詞W,,查詢對其所標注的關(guān)鍵詞的詞性,如果該詞性的語義多于1個,則取出具有相同詞性標注的所有語義,作為語義確定運算的輸入;
[0085]3)分別計算該關(guān)鍵詞各語義的語義關(guān)聯(lián)度值,按照上述語義確定規(guī)則分別計算該關(guān)鍵詞可能的語義。
[0086]4)如果識別語義成功,則算法結(jié)束;否則通知用戶無法識別待語義確定詞匯詞義,算法結(jié)束,得到表現(xiàn)用戶興趣特征的實詞記錄格式為:Record =〈UserlD,Key, Sem,Cls>
[0087]其中Sem字段為該詞的語義,Cls為該詞的所屬分類。
[0088]通過關(guān)鍵詞語義確定過程,得到了每個實詞在上下文的語義,以下則根據(jù)這些實詞的語義對實詞進行詞頻統(tǒng)計,從而得到用戶的興趣特征。
[0089]1)對于輸入的每條記錄,如果不存在該記錄,則新增一列詞頻字段,并將其置為1 ;如果已經(jīng)存在一條記錄與該記錄的字段都相同,則將與該條記錄一致的詞的詞頻值更新為原來的值+1。
[0090]2)統(tǒng)計出每個用戶詞頻值最大的預定義數(shù)量的記錄,輸出。
[0091]每一用戶的預定義數(shù)量詞頻最大的記錄的特征詞即為該用戶的興趣特征,記錄為:
[0092]Record =〈UserlD,list〈Key,Cls, Weight〉
[0093]其中,Weight為該特征詞在該分類下出現(xiàn)的次數(shù),即權(quán)重;list作為其興趣特征,其中Key是特征詞,Cls是興趣特征詞的分類,因此本發(fā)明對每一個用戶記錄的每一個用戶興趣特征詞提取其分類,然后添加到特征分類詞庫CLB。提取興趣特征分類時,判斷分類詞庫中是否存在該特征分類,如果不存在,則將其加入特征詞庫;如果存在,再繼續(xù)提取下個特征詞的分類。
[0094]接下來是根據(jù)特征分類詞庫中的每一個詞找出對該分類感興趣的用戶,即找相似特征用戶。當用戶User的興趣特征詞記為(H...,ff10),則在計算該用戶在每一個興趣特征詞與分類詞的語義近似度的值時在興趣特征詞與分類詞的相似度的值上加上權(quán)重比例,得到用戶User與分類詞C的語義近似度。然后,對所有用戶按照其與分類詞的語義近似度的值進行降序排序,取排序后預定比例的用戶作為屬于該分類的用戶,將這些用戶的UserlD添加到分類詞的鏈表中記錄下來。然后按照同樣的步驟計算所有用戶的興趣特征與CLB中的其他分類詞的語義近似度,按照上述方法計算每個分類下的用戶,最終得到CLB中每個分類詞下
當前第3頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1