一種跨平臺(tái)用戶識(shí)別方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開的跨平臺(tái)用戶識(shí)別方法和系統(tǒng),充分考慮社交平臺(tái)中用戶消息的重要性,通過相應(yīng)時(shí)間段內(nèi)不同平臺(tái)的兩個(gè)賬戶中用戶消息所反映的用戶見聞、興趣、偏好以及寫作風(fēng)格、用詞習(xí)慣等個(gè)性化信息的相似情況,來識(shí)別用戶是否為同一用戶,具體地,本發(fā)明方法獲取不同平臺(tái)的兩個(gè)賬戶中發(fā)布時(shí)間在預(yù)設(shè)時(shí)間段內(nèi)的消息內(nèi)容,并對兩個(gè)賬戶的消息內(nèi)容進(jìn)行分詞及特征抽取處理,在此基礎(chǔ)上,利用兩個(gè)賬戶消息的分詞特征相似度識(shí)別所述不同平臺(tái)的兩個(gè)賬戶是否屬于同一用戶??梢?,本發(fā)明解決了不同社交平臺(tái)同一用戶的識(shí)別問題,進(jìn)而為同一用戶的跨平臺(tái)數(shù)據(jù)分析提供了支持。
【專利說明】一種跨平臺(tái)用戶識(shí)別方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明屬于自然語言處理技術(shù)及社交網(wǎng)絡(luò)領(lǐng)域,尤其涉及一種跨平臺(tái)用戶識(shí)別方 法和系統(tǒng)。
【背景技術(shù)】
[0002]近年來,隨著社交網(wǎng)絡(luò)的迅猛發(fā)展,各種類型的微博(Micro-blog),例如新浪微 博、騰訊微博、Twitter、Facebook等,日漸受到用戶的青睞。
[0003] 由于微博既具有媒體傳播特性,又具有社交網(wǎng)絡(luò)特性,吸引了眾多研究人員對微 博數(shù)據(jù)進(jìn)行分析研究。目前,同時(shí)擁有多個(gè)不同平臺(tái)微博賬戶的用戶越來越多,例如用戶同 時(shí)擁有新浪賬戶及騰訊賬戶等,同時(shí)對相同用戶在不同平臺(tái)的微博數(shù)據(jù)(例如微博消息) 進(jìn)行研究,更有利于對用戶的興趣、偏好等進(jìn)行全面分析、深度挖掘,從而更有利于企業(yè)制 定個(gè)性化的營銷策略、進(jìn)行精準(zhǔn)的廣告投放;同時(shí),也更利于對同用戶在不同平臺(tái)的使用動(dòng) 機(jī)、使用習(xí)慣進(jìn)行比對分析,為社交網(wǎng)絡(luò)的運(yùn)營或開發(fā)新的社交網(wǎng)絡(luò)產(chǎn)品提供了更好的參 考作用。
[0004] 然而,目前對于跨社交平臺(tái)同一用戶的識(shí)別研究幾乎處于空白階段,無法識(shí)別不 同平臺(tái)的賬戶是否屬于同一用戶,因此,不同社交平臺(tái)同一用戶的識(shí)別問題成為當(dāng)前亟需 解決的問題。
【發(fā)明內(nèi)容】
[0005] 有鑒于此,本發(fā)明的目的在于提供一種跨平臺(tái)用戶識(shí)別方法和系統(tǒng),以解決不同 社交平臺(tái)同一用戶的識(shí)別問題,進(jìn)而為同一用戶的跨平臺(tái)數(shù)據(jù)分析提供支持。
[0006] 為此,本發(fā)明公開如下技術(shù)方案:
[0007] -種跨平臺(tái)用戶識(shí)別方法,包括:
[0008] 獲取第一平臺(tái)上第一用戶賬戶的第一消息段,獲取第二平臺(tái)上第二用戶賬戶的第 二消息段,其中,所述第一消息段為由所述第一用戶賬戶內(nèi)發(fā)布時(shí)間在第一預(yù)設(shè)時(shí)間段內(nèi) 的所有消息組成的消息段,所述第二消息段為由所述第二用戶賬戶內(nèi)發(fā)布時(shí)間在第一預(yù)設(shè) 時(shí)間段內(nèi)的所有消息組成的消息段;
[0009] 分別對所述第一消息段及所述第二消息段進(jìn)行分詞處理,得到分詞形式的第一消 息段及分詞形式的第二消息段;
[0010] 基于預(yù)設(shè)的分詞特征對所述分詞形式的第一消息段及分詞形式的第二消息段進(jìn) 行特征抽取,并在特征抽取的基礎(chǔ)上獲取所述第一消息段與所述第二消息段的特征相似度 數(shù)值;
[0011] 判斷所述特征相似度數(shù)值是否在預(yù)設(shè)的相似度數(shù)值參考范圍內(nèi);
[0012] 若判斷結(jié)果為是,則所述第一用戶賬戶及所述第二用戶賬戶屬于同一用戶。
[0013] 上述方法,優(yōu)選的,所述基于預(yù)設(shè)的分詞特征對所述分詞形式的第一消息段及分 詞形式的第二消息段進(jìn)行特征抽取,并在特征抽取的基礎(chǔ)上獲取所述第一消息段與所述第 二消息段的特征相似度數(shù)值,包括:
[0014] 分別對分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行三元詞特征抽取,并 基于第一消息段及第二消息段中所包含的相同三元詞的個(gè)數(shù)獲取兩者的詞包含相似度數(shù) 值;
[0015] 分別對分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行高頻詞特征抽取,并 基于第一消息段及第二消息段中所包含的相同高頻詞的個(gè)數(shù)獲取兩者的高頻詞相似度數(shù) 值;
[0016] 分別對分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行單字符出現(xiàn)概率抽 取,并基于第一消息段及第二消息段中所包含的相同單字符的出現(xiàn)概率來獲取兩者的詞分 布相似度數(shù)值;
[0017] 分別對分詞形式的第一消息段及分詞形式的第二消息段的隱含主題進(jìn)行抽取,并 基于第一消息段及第二消息段中所包含的相同主題的個(gè)數(shù)獲取兩者的主題相似度數(shù)值。
[0018] 上述方法,優(yōu)選的,在對分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行特 征抽取之前,還包括:分別對所述分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行過 濾處理,所述過濾處理包括:
[0019] 對所述分詞形式的第一消息段進(jìn)行去停用詞和去低頻詞處理;
[0020] 對所述分詞形式的第二消息段進(jìn)行去停用詞和去低頻詞處理。
[0021] 上述方法,優(yōu)選的,還包括:
[0022] 預(yù)先利用設(shè)定個(gè)數(shù)的消息段樣本對,并基于每個(gè)消息段樣本對的特征相似度對最 大熵分類方法進(jìn)行跨平臺(tái)用戶識(shí)別訓(xùn)練,得到最大熵分類器,以實(shí)現(xiàn)采用所述最大熵分類 器識(shí)別第一平臺(tái)上第一用戶賬戶與第二平臺(tái)上第二用戶賬戶是否屬于同一用戶,其中:
[0023] 所述消息段樣本對中包含的兩個(gè)消息段分別屬于不同平臺(tái)的兩個(gè)賬戶,所述兩個(gè) 賬戶為相同用戶的賬戶或不同用戶的賬戶,所述消息段樣本對中所包含消息的發(fā)布時(shí)間在 第二預(yù)設(shè)時(shí)間段內(nèi);
[0024] 所述特征相似度包括詞包含相似度、高頻詞相似度、詞分布相似度和主題相似度。
[0025] 上述方法,優(yōu)選的,通過計(jì)算第一消息段與第二消息段的相對熵D (p I I q)來獲取 兩者的詞分布相似度數(shù)值;
[0026] 其中
【權(quán)利要求】
1. 一種跨平臺(tái)用戶識(shí)別方法,其特征在于,包括: 獲取第一平臺(tái)上第一用戶賬戶的第一消息段,獲取第二平臺(tái)上第二用戶賬戶的第二消 息段,其中,所述第一消息段為由所述第一用戶賬戶內(nèi)發(fā)布時(shí)間在第一預(yù)設(shè)時(shí)間段內(nèi)的所 有消息組成的消息段,所述第二消息段為由所述第二用戶賬戶內(nèi)發(fā)布時(shí)間在第一預(yù)設(shè)時(shí)間 段內(nèi)的所有消息組成的消息段; 分別對所述第一消息段及所述第二消息段進(jìn)行分詞處理,得到分詞形式的第一消息段 及分詞形式的第二消息段; 基于預(yù)設(shè)的分詞特征對所述分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行特 征抽取,并在特征抽取的基礎(chǔ)上獲取所述第一消息段與所述第二消息段的特征相似度數(shù) 值; 判斷所述特征相似度數(shù)值是否在預(yù)設(shè)的相似度數(shù)值參考范圍內(nèi); 若判斷結(jié)果為是,則所述第一用戶賬戶及所述第二用戶賬戶屬于同一用戶。
2.根據(jù)權(quán)利要去1所述的方法,其特征在于,所述基于預(yù)設(shè)的分詞特征對所述分詞形 式的第一消息段及分詞形式的第二消息段進(jìn)行特征抽取,并在特征抽取的基礎(chǔ)上獲取所述 第一消息段與所述第二消息段的特征相似度數(shù)值,包括: 分別對分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行三元詞特征抽取,并基于 第一消息段及第二消息段中所包含的相同三元詞的個(gè)數(shù)獲取兩者的詞包含相似度數(shù)值; 分別對分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行高頻詞特征抽取,并基于 第一消息段及第二消息段中所包含的相同高頻詞的個(gè)數(shù)獲取兩者的高頻詞相似度數(shù)值; 分別對分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行單字符出現(xiàn)概率抽取,并 基于第一消息段及第二消息段中所包含的相同單字符的出現(xiàn)概率來獲取兩者的詞分布相 似度數(shù)值; 分別對分詞形式的第一消息段及分詞形式的第二消息段的隱含主題進(jìn)行抽取,并基于 第一消息段及第二消息段中所包含的相同主題的個(gè)數(shù)獲取兩者的主題相似度數(shù)值。
3.根據(jù)權(quán)利要去1所述的方法,其特征在于,在對分詞形式的第一消息段及分詞形式 的第二消息段進(jìn)行特征抽取之前,還包括:分別對所述分詞形式的第一消息段及分詞形式 的第二消息段進(jìn)行過濾處理,所述過濾處理包括: 對所述分詞形式的第一消息段進(jìn)行去停用詞和去低頻詞處理; 對所述分詞形式的第二消息段進(jìn)行去停用詞和去低頻詞處理。
4.根據(jù)權(quán)利要去1所述的方法,其特征在于,還包括: 預(yù)先利用設(shè)定個(gè)數(shù)的消息段樣本對,并基于每個(gè)消息段樣本對的特征相似度對最大熵 分類方法進(jìn)行跨平臺(tái)用戶識(shí)別訓(xùn)練,得到最大熵分類器,以實(shí)現(xiàn)采用所述最大熵分類器識(shí) 別第一平臺(tái)上第一用戶賬戶與第二平臺(tái)上第二用戶賬戶是否屬于同一用戶,其中: 所述消息段樣本對中包含的兩個(gè)消息段分別屬于不同平臺(tái)的兩個(gè)賬戶,所述兩個(gè)賬戶 為相同用戶的賬戶或不同用戶的賬戶,所述消息段樣本對中所包含消息的發(fā)布時(shí)間在第二 預(yù)設(shè)時(shí)間段內(nèi); 所述特征相似度包括詞包含相似度、高頻詞相似度、詞分布相似度和主題相似度。
5.根據(jù)權(quán)利要求2所述的方法,其特征在于,通過計(jì)算第一消息段與第二消息段的相 對熵D(pIIq)來獲取兩者的詞分布相似度數(shù)值; 其中,D(p Il q)= ^>(χ)Ι痢_,P、q分別表示第一消息段、第二消息段,P(X)、q(X) .V^A Cj(X) 表示相同單字符X分別在第一消息段及第二消息段中出現(xiàn)的概率,X表示第一消息段與第 二消息段中相同單字符的字符集合。
6. 根據(jù)權(quán)利要求2所述的方法,其特征在于,使用文檔主題生成模型LDA對分詞形式的 第一消息段及分詞形式的第二消息段的隱含主題進(jìn)行抽取。
7. -種跨平臺(tái)用戶識(shí)別系統(tǒng),其特征在于,包括: 消息獲取模塊,用于獲取第一平臺(tái)上第一用戶賬戶的第一消息段,獲取第二平臺(tái)上第 二用戶賬戶的第二消息段,其中,所述第一消息段為由所述第一用戶賬戶內(nèi)發(fā)布時(shí)間在第 一預(yù)設(shè)時(shí)間段內(nèi)的所有消息組成的消息段,所述第二消息段為由所述第二用戶賬戶內(nèi)發(fā)布 時(shí)間在第一預(yù)設(shè)時(shí)間段內(nèi)的所有消息組成的消息段; 分詞處理模塊,用于分別對所述第一消息段及所述第二消息段進(jìn)行分詞處理,得到分 詞形式的第一消息段及分詞形式的第二消息段; 特征抽取模塊,用于基于預(yù)設(shè)的分詞特征對所述分詞形式的第一消息段及分詞形式的 第二消息段進(jìn)行特征抽取,并在特征抽取的基礎(chǔ)上獲取所述第一消息段與所述第二消息段 的特征相似度數(shù)值; 判斷模塊,用于判斷所述特征相似度數(shù)值是否在預(yù)設(shè)的相似度數(shù)值參考范圍內(nèi); 識(shí)別模塊,用于在判斷結(jié)果為是時(shí),識(shí)別出所述第一用戶賬戶及所述第二用戶賬戶屬 于同一用戶。
8. 根據(jù)權(quán)利要去7所述的系統(tǒng),其特征在于,所述特征抽取模塊包括: 第一抽取單元,用于分別對分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行三元 詞特征抽取,并基于第一消息段及第二消息段中所包含的相同三元詞的個(gè)數(shù)獲取兩者的詞 包含相似度數(shù)值;; 第二抽取單元,用于分別對分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行高頻 詞特征抽取,并基于第一消息段及第二消息段中所包含的相同高頻詞的個(gè)數(shù)獲取兩者的高 頻詞相似度數(shù)值; 第三抽取單元,用于分別對分詞形式的第一消息段及分詞形式的第二消息段進(jìn)行單字 符出現(xiàn)概率抽取,并基于第一消息段及第二消息段中所包含的相同單字符的出現(xiàn)概率來獲 取兩者的詞分布相似度數(shù)值; 第四抽取單元,用于分別對分詞形式的第一消息段及分詞形式的第二消息段的隱含主 題進(jìn)行抽取,并基于第一消息段及第二消息段中所包含的相同主題的個(gè)數(shù)獲取兩者的主題 相似度數(shù)值。
9. 根據(jù)權(quán)利要去7所述的系統(tǒng),其特征在于,還包括:用于分別對所述分詞形式的第一 消息段及分詞形式的第二消息段進(jìn)行過濾處理的過濾模塊,所述過濾模塊包括: 第一過濾單元,用于對所述分詞形式的第一消息段進(jìn)行去停用詞和去低頻詞處理; 第二過濾單元,用于對所述分詞形式的第二消息段進(jìn)行去停用詞和去低頻詞處理。
10. 根據(jù)權(quán)利要去7所述的系統(tǒng),其特征在于,還包括: 預(yù)處理模塊,用于預(yù)先利用設(shè)定個(gè)數(shù)的消息段樣本對,并基于每個(gè)消息段樣本對的特 征相似度對最大熵分類方法進(jìn)行跨平臺(tái)用戶識(shí)別訓(xùn)練,得到最大熵分類器,以實(shí)現(xiàn)采用所 述最大熵分類器識(shí)別第一平臺(tái)上第一用戶賬戶與第二平臺(tái)上第二用戶賬戶是否屬于同一 用戶,其中: 所述消息段樣本對中包含的兩個(gè)消息段分別屬于不同平臺(tái)的兩個(gè)賬戶,所述兩個(gè)賬戶 為相同用戶的賬戶或不同用戶的賬戶,所述消息段樣本對中所包含消息的發(fā)布時(shí)間在第二 預(yù)設(shè)時(shí)間段內(nèi); 所述特征相似度包括詞包含相似度、高頻詞相似度、詞分布相似度和主題相似度。
【文檔編號(hào)】G06F17/27GK104317784SQ201410521299
【公開日】2015年1月28日 申請日期:2014年9月30日 優(yōu)先權(quán)日:2014年9月30日
【發(fā)明者】李壽山, 黃磊, 周國棟, 王紅玲 申請人:蘇州大學(xué)