br>[0078] 為了清楚說明步驟500,請一并參閱圖3,是本發(fā)明實施例的用戶進行聚類方法的 流程圖。本發(fā)明實施例的用戶進行聚類方法包括以下步驟:
[0079] 步驟501 :利用詞頻-逆向文檔頻率(TF-IDF)公式計算出文檔中每個操作特征的 權(quán)重,從而生成特征向量;操作特征權(quán)重公式如下:
[0080] (1;={(e!,w^i), (e2,w2ji), . . . } (2)
[0081] 在公式(2)中,&表示用戶的操作特征,wij是用戶操作特征ei在文檔dj中對應(yīng) 的權(quán)重。其中:
[0082] Wi,j=TFj*IDFi(3)
[0083] 在公式⑶中,TF^表示特征ei在文檔d沖出現(xiàn)的頻率;IDFi是一個詞語普遍重 要性的度量,其中:
[0084] ---
、."t/
[0085]在公式⑷中,叫,j表示特征ei在文檔dj中出現(xiàn)的頻數(shù);
[0086]
[0087] 在公式(5)中,|DI表示語料庫中的文檔總數(shù);η⑴表示包含特征ei的文檔數(shù)目。 本發(fā)明并不僅限于使用詞頻-逆向文檔頻率(TF-IDF)公式計算出文檔中每個操作特征的 權(quán)重,其他計算方法均可應(yīng)用于本發(fā)明。
[0088] 步驟502:通過特征向量之間的余弦相似度計算不同用戶之間的操作相似度,計 算公式為:
[0089]
[0090] 在公式(6)中,Wy表示特征向量cU與特征向量屯之間的余弦相似度;本發(fā)明不限 于采用余弦相似度來計算不同用戶之間的相似度,其他相似度度量方法以及距離度量方法 也均可應(yīng)用于本發(fā)明。
[0091] 步驟503:采用基于向量空間模型的文本聚類方法對具有不同操作特征的用戶進 行聚類,將具有相同或相似操作特征的用戶劃分為一個簇,且一個簇視為一個用戶;
[0092] 在步驟503中,文本聚類方法包括KMeans方法等,本發(fā)明不限于采用基于向量空 間模型的文本聚類方法,其他聚類方法也均可應(yīng)用于本發(fā)明。
[0093] 步驟600 :利用聚類結(jié)果確定該用戶賬號下的子用戶數(shù)量。
[0094] 在步驟600中,若聚類后的簇個數(shù)大于1,則說明該單一賬號下存在不同的子用戶 在同時使用這一賬號,不同的簇個數(shù)視為該賬號下的子用戶數(shù);若聚類后的簇個數(shù)等于1, 則說明該單一賬號下只有一個用戶在使用此賬號,不存在共享賬號的現(xiàn)象。
[0095] 請參閱圖4,是由本發(fā)明實施例的基于用戶賬號的子用戶識別系統(tǒng)的結(jié)構(gòu)示意圖。 本發(fā)明實施例的基于用戶賬號的子用戶識別系統(tǒng)包括數(shù)據(jù)獲取模塊、數(shù)據(jù)預(yù)處理模塊、時 間段劃分模塊、特征提取模塊、用戶聚類模塊和子用戶識別模塊;具體的:
[0096] 數(shù)據(jù)獲取模塊用于獲取單一賬號下的用戶操作行為的日志數(shù)據(jù);其中,獲取用戶 操作行為的日志數(shù)據(jù)的方式具體為:從用戶操作行為日志數(shù)據(jù)庫中,按照特定賬號進行索 引查詢,找出該賬號下的所有操作行為日志數(shù)據(jù)。由于某個賬號的子用戶數(shù)是一定的,而每 個子用戶進行的操作行為也具有個人偏好的重復(fù)性和一致性,能與其他子用戶區(qū)別開來。 還有一些賬號的用戶數(shù)是單一的,即非共享賬戶,其賬號下對應(yīng)的用戶操作行為也是單一 的。假設(shè)具有相似操作行為的用戶的數(shù)據(jù)信息會形成一個簇,不同的操作行為的用戶的數(shù) 據(jù)信息會形成不同的簇。因此某一個賬戶是否共享以及共享的子用戶的數(shù)量可以通過產(chǎn)生 的簇個數(shù)來進行大致估計。如果形成的簇的個數(shù)大于一個,就可以判定該賬戶是共享賬戶。 本發(fā)明基于這一特性,通過從服務(wù)器中直接獲取用戶的操作行為數(shù)據(jù),通過分析用戶操作 行為數(shù)據(jù)進行子用戶識別。相對于現(xiàn)有的子用戶識別方法,本發(fā)明不需要用額外的硬件或 軟件來實現(xiàn);且對用戶是透明的,不會給用戶帶來任何不方便的困擾,也不會涉及用戶的賬 號、密碼等隱私信息。因此,本發(fā)明具有很好的實用性。
[0097] 數(shù)據(jù)預(yù)處理模塊用于對該賬號下的用戶操作行為數(shù)據(jù)進行預(yù)處理;其中,對用戶 操作行為數(shù)據(jù)進行預(yù)處理的方式具體為:去除與該用戶行為不相關(guān)的數(shù)據(jù)列,保留有用信 息列,并刪除含有缺失項或含有錯誤信息的數(shù)據(jù)行;其中,有用信息列包括賬號的標(biāo)識、用 戶的操作特征、用戶的操作類型、用戶操作次數(shù)以及用戶操作時間等。
[0098] 時間段劃分模塊用于根據(jù)用戶連續(xù)操作的時間間隔閾值對用戶操作行為數(shù)據(jù)進 行時間段的劃分;具體地,時間段劃分模塊包括間隔時間判斷單元和時間段劃分單元;
[0099] 間隔時間判斷單元用于設(shè)定一個時間閾值,并判斷用戶連續(xù)兩次操作行為的間隔 時間是否大于該時間閥值,并通過時間段劃分單元根據(jù)判斷結(jié)果將操作行為劃分到對應(yīng)的 時間段中;其中,所述時間閾值可根據(jù)不同的操作行為數(shù)據(jù)設(shè)定,任何設(shè)定的不同的時間閾 值均可應(yīng)用于本發(fā)明。
[0100] 時間段劃分單元用于將間隔時間小于或等于時間閾值的兩次操作行為視為同一 用戶的操作,將這兩次的操作行為劃分到同一時間段內(nèi),同一時間段內(nèi)的操作行為視為同 一用戶進行的操作;并將間隔時間大于時間閾值的兩次操作行為視為不同用戶的操作,將 這兩次的操作行為劃分到不同的時間段內(nèi),不同的時間段內(nèi)的操作行為視為不同用戶的操 作;其中,不同時間段內(nèi)的操作行為沒有任何相關(guān)性。
[0101] 特征提取模塊用于將所有時間段內(nèi)的用戶操作行為特征分別提取出來作為每一 個用戶的操作行為特征;其中,將同一時間段內(nèi)的用戶操作行為特征以及操作次數(shù)提取出 來,表不成一個關(guān)鍵詞集合向量,對每個時間段t,其表不成一個關(guān)鍵詞集合向量形式如 下:
[0102] t;={(e!,rii),(e2,n2), . . . } (1)
[0103] 在公式(1)中,ei表示用戶的操作特征,ni是用戶操作該特征的次數(shù)。
[0104] 用戶聚類模塊用于根據(jù)用戶操作行為特征對用戶進行聚類;具體地,用戶聚類模 塊包括特征向量計算單元、相似度計算單元和用戶聚類單元;
[0105] 特征向量計算單元用于利用詞頻-逆向文檔頻率(TF-IDF)公式計算出文檔中每 個操作特征的權(quán)重,從而生成特征向量;操作特征的權(quán)重計算公式如下:
[0106] (1;={(e (e2,w2ji), ... } (2)
[0107] 在公式⑵中,&表示用戶的操作特征,Wl,,是用戶操作特征心在文檔d,中對應(yīng) 的權(quán)重。其中:
[0108] Wi,j=TFj*IDFi(3)
[0109] 在公式⑶中,TF^表示特征ei在文檔d沖出現(xiàn)的頻率;IDFi是一個詞語普遍重 要性的度量,其中:
[0110]
[0111] 在公式⑷中,叫,j表示特征ei在文檔dj中出現(xiàn)的頻數(shù);
[0112]
[0113] 在公式(5)中,|DI表示語料庫中的文檔總數(shù);η⑴表示包含特征1的文檔數(shù)目。 本發(fā)明并不僅限于使用詞頻-逆向文檔頻率(TF-IDF)公式計算操作特征的權(quán)重,其他計算 方法均可應(yīng)用于本發(fā)明。
[0114] 相似度計算單元用于通過特征向量之間的余弦相似度計算不同用戶之間的操作 相似度,計算公式為:
[0115;
[0116] 在公式(6)中,Wy表示特征向量cU與特征向量屯之間的余弦相似度;本發(fā)明不限 于采用余弦相似度來計算不同用戶之間的相似度,其他相似度度量方法以及距離度量方法 也均可應(yīng)用于本發(fā)明。
[0117] 用戶聚類單元用于采用基于向量空間模型的文本聚類方法對具有不同操作特征 的用戶進行聚類,將具有相同或相似操作特征的用戶劃分為一個簇,且一個簇視為一個用 戶;其中,文本聚類方法包括KMeans方法等,本發(fā)明不限于采用基于向量空間模型的文本 聚類方法,其他聚類方法也均可應(yīng)用于本發(fā)明。
[0118] 子用戶識別模塊用于利用聚類結(jié)果確定該用戶賬號下的子用戶數(shù)量;其中,若聚 類后的簇個數(shù)大于1,則說明該單一賬號下存在不同的子用戶在同時使用這一賬號,不同的 簇個數(shù)視為該賬號下的子用戶數(shù);若聚類后的簇個數(shù)等于1,則說明該單一賬號下只有一 個用戶在