興趣標簽生成方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)技術(shù),尤其涉及一種興趣標簽生成方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,越來越多的用戶通過互聯(lián)網(wǎng)進行相關(guān)活動,如瀏覽 新聞、購物等。隨著互聯(lián)網(wǎng)信息的不斷增多,用戶關(guān)注的內(nèi)容隨著增多。為幫助用戶關(guān)注其 感興趣的內(nèi)容,很多互聯(lián)網(wǎng)中增加了興趣標簽,服務(wù)器根據(jù)用戶的興趣標簽向用戶推薦相 應(yīng)的內(nèi)容。其中,興趣標簽是用來描述用戶興趣的詞語。
[0003] 目前,服務(wù)器通過分析用戶發(fā)布的文本信息,將文本信息中出現(xiàn)頻率較高的詞語 作為用戶的興趣標簽。其中,文本信息例如為用戶發(fā)布的博客,轉(zhuǎn)發(fā)、收藏、點贊的博客等。
[0004] 然而,用戶有時會發(fā)布與其興趣無關(guān)的文本信息,或者用戶發(fā)布的文本信息比較 少,使得文本信息稀疏且噪音多。此時,根據(jù)用戶發(fā)布的文本信息生成的興趣標簽無法準確 描述用戶的興趣,進而導(dǎo)致服務(wù)器根據(jù)該興趣標簽為用戶推薦的信息不適合該用戶。
【發(fā)明內(nèi)容】
[0005] 本發(fā)明提供一種興趣標簽生成方法,以實現(xiàn)準確生成用戶的興趣標簽的目的。
[0006] 第一個方面,本發(fā)明實施例提供一種興趣標簽生成方法,包括:
[0007] 服務(wù)器構(gòu)建用戶與實體之間的二部圖,所述用戶為需要生成興趣標簽的用戶,所 述實體為能為所述用戶提供興趣行為的用戶,所述二部圖包括有向邊,所述有向邊指示所 述用戶與所述實體之間的興趣行為數(shù)據(jù);
[0008] 所述服務(wù)器確定所述實體的初始標簽集;
[0009] 所述服務(wù)器根據(jù)所述實體的初始標簽集與所述興趣行為數(shù)據(jù),確定所述實體對所 述用戶的興趣的影響權(quán)重;
[0010] 所述服務(wù)器根據(jù)所述二部圖、所述初始標簽集與所述影響權(quán)重,采用雙向約束主 題模型,為所述用戶生成興趣標簽。
[0011] 在第一個方面的第一種可能的實現(xiàn)方式中,所述服務(wù)器根據(jù)所述二部圖與所述初 始標簽集與所述影響權(quán)重,采用雙向約束主題模型,為所述用戶生成興趣標簽,包括:
[0012] 所述服務(wù)器確定所述用戶的候選標簽集,所述候選標簽集為N個實體的初始標簽 集的并集,所述N個實體為所述二部圖中,與所述用戶發(fā)生興趣行為的所述有向邊對應(yīng)的 實體,N彡1 ;
[0013] 所述服務(wù)器將所述N個實體形成的集合作為所述用戶的實體集,根據(jù)所述影響權(quán) 重,采用雙向約束主題模型模擬所述實體集的生成過程,為所述用戶生成興趣標簽。
[0014] 結(jié)合第一個方面的第一種可能的實現(xiàn)方式,在第一個方面的第二種可能的實現(xiàn)方 式中,所述根據(jù)所述影響權(quán)重,采用雙向約束主題模型模擬所述實體集的生成過程,包括:
[0015]所述服務(wù)器根據(jù)所述影響權(quán)重與所述用戶的主題分布0,從所述主題分布0中 隨機選取一個主題tk,所述主題分布0為用于限定所述用戶的候選標簽集的多項概率分 布;
[0016] 所述服務(wù)器針對所述主題tk,根據(jù)所述影響權(quán)重與所述主題tk的實體分布夢,從所 述實體分布#中隨機選取一個實體,作為所述實體集中的一個實體,所述實體分布弘為用 于限定使得所述選取的實體滿足特定條件的多項概率分布,所述特定條件為所述選取的實 體的初始標簽集包含所述主題t k。
[0017] 結(jié)合第一個方面的第二種可能的實現(xiàn)方式,在第一個方面的第三種可能的實現(xiàn)方 式中,所述雙向約束主體模型下,所述實體集對應(yīng)一個文檔,所述實體集中的每一個實體對 應(yīng)所述文檔中的一個詞,所述文檔的主題限定為所述用戶的候選標簽集,所述主題的詞分 布限定為滿足所述特定條件的詞的分布。
[0018] 結(jié)合第一個方面的第二種或第三種可能的實現(xiàn)方式,在第一個方面的第四種可能 的實現(xiàn)方式中,所述為用戶生成興趣標簽,包括:
[0019] 所述服務(wù)器根據(jù)所述雙向約束主體模型、所述實體對所述用戶的興趣的影響權(quán) 重,采用吉布斯采用求取所述主體分布0 ;
[0020] 所述服務(wù)器將所述主題分布0中,高于閾值的主題對應(yīng)的標簽作為所述用戶的 興趣標簽。
[0021] 結(jié)合第一個方面、第一個方面的第一種至第四種中任一種可能的實現(xiàn)方式,在第 一個方面的第五種可能的實現(xiàn)方式中,所述服務(wù)器根據(jù)所述初始標簽集與所述興趣行為數(shù) 據(jù),確定所述實體對所述用戶的興趣的影響權(quán)重,包括:
[0022] 所述服務(wù)器確定第一權(quán)重Fv、第二權(quán)重Tv與第三權(quán)重RT uv,所述第一權(quán)重Fv為根 據(jù)與所述實體發(fā)生興趣行為的用戶數(shù)確定出的權(quán)重,所述第二權(quán)重T v為根據(jù)所述實體的初 始標簽集確定出的權(quán)重,所述第三權(quán)重RTuv為根據(jù)所述用戶轉(zhuǎn)發(fā)所述實體的文本信息的次 數(shù)確定出的權(quán)重;
[0023] 所述服務(wù)器根據(jù)所述第一權(quán)重Fv、所述第二權(quán)重1\與所述第三權(quán)重RT uv,確定所 述影響權(quán)重^,1=人一?^人'1;+、1^,其中,^為所述第一權(quán)重?滿預(yù)設(shè)權(quán)重, 所述A t為所述第二權(quán)重Tv的預(yù)設(shè)權(quán)重,所述A M為所述第三權(quán)重RTuv的預(yù)設(shè)權(quán)重,且 入f+人t+人rt= 1。
[0024] 結(jié)合第一個方面的第五種可能的實現(xiàn)方式,在第一個方面的第六種可能的實現(xiàn)方 式中,所述第一權(quán)重6:二1〇§丨1 +顧其中i為實體,i G Vjf1為與所述實體i 發(fā)生興趣行為的用戶的個數(shù),Nfv是與實體V發(fā)生興趣行為的用戶的個數(shù);
[0025]所述第二權(quán)重Tv= log (1+max JNrtJ/Nrtv),其中,Nrti為所述實體i的初始標簽 集中的標簽數(shù),Nrtv是實體V對應(yīng)的初始標簽集中的標簽數(shù);
[0026]所述第三權(quán)重RTuv= log (1+max JNtJ/Ntv),其中,Nti為所述用戶轉(zhuǎn)發(fā)所述實體i 的文本信息的次數(shù),財¥是用戶轉(zhuǎn)發(fā)實體V的文本信息的次數(shù)。
[0027] 結(jié)合第一個方面、第一個方面的第一種至第四種中任一種可能的實現(xiàn)方式,在第 一個方面的第七種可能的實現(xiàn)方式中,所述興趣行為數(shù)據(jù)包括下述數(shù)據(jù)中的至少其中之 一:所述用戶關(guān)注所述實體、所述用戶點贊所述實體、所述用戶訪問所述實體、所述用戶轉(zhuǎn) 發(fā)所述實體發(fā)布的文本信息、所述用戶評論所述實體發(fā)布的文本信息、所述用戶引用所述 實體發(fā)布的文本信息。
【附圖說明】
[0028] 圖1為本發(fā)明興趣標簽生成方法實施例的流程圖;
[0029] 圖2為本發(fā)明興趣標簽生成方法所適用的雙向約束主題模型模擬實體集的生成 過程的概率圖;
[0030] 圖3為本發(fā)明興趣標簽生成方法所適用的構(gòu)建實體與用戶的二部圖的示意圖。
【具體實施方式】
[0031] 圖1為本發(fā)明興趣標簽生成方法實施例的流程圖。本實施例的執(zhí)行主體為服務(wù) 器,適用于社會網(wǎng)絡(luò)中需要為用戶生成興趣標簽的場景。具體的,本實施例包括如下步驟:
[0032] 101、服務(wù)器構(gòu)建用戶與實體之間的二部圖,所述用戶為需要生成興趣標簽的用 戶,所述實體為能為所述用戶提供興趣行為的用戶,所述二部圖包括有向邊,所述有向邊指 示所述用戶與所述實體之間的興趣行為數(shù)據(jù)。
[0033] 社交網(wǎng)絡(luò)是近年來迅速崛起的互聯(lián)網(wǎng)主流信息傳播媒體,代表平臺有國外的推特 (Twitter)、臉書(Facebook)、領(lǐng)英(LinkedIn),以及國內(nèi)的人人網(wǎng)、新浪微博等,社交網(wǎng)絡(luò) 允許用戶以電腦或移動終端作為入口,發(fā)布文本信息、對其他用戶進行關(guān)注等。本發(fā)明實施 例中,將社交網(wǎng)絡(luò)的眾多用戶中,文本信息疏松、需要推薦興趣標簽的對象稱之為用戶,而 將文本信息豐富的用戶稱之為實體。例如,在微博類社交網(wǎng)絡(luò)中,名人、權(quán)威媒體、機構(gòu)等用 戶,其文本信息往往比較豐富,經(jīng)常被粉絲訪問。因此,可以將粉絲數(shù)較低的普通用戶作為 本發(fā)明實施例所述的用戶,而將粉絲數(shù)量高的用戶作為本發(fā)明實施例所述的實體。
[0034] 本步驟中,社