本發(fā)明涉及機器學習技術(shù)領(lǐng)域,特別是指一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法。
背景技術(shù):
近年來,社交媒體發(fā)展迅速,許多商業(yè)應(yīng)用(如廣告、推薦)在社交媒體平臺大量涌現(xiàn)。在社交媒體中,用戶的影響力可以影響他人的觀點和行為。因此,如何充分利用用戶的影響力來提升商業(yè)應(yīng)用的效果,成為了急需解決的技術(shù)問題。
通常,人們想要找到的是當下有影響力的用戶,而影響力會隨著時間推移動態(tài)變化,為了更準確地衡量用戶的影響力,除了利用鏈接的數(shù)量,如何利用鏈接生成的時間來捕捉影響力的動態(tài)變化趨勢也極其重要。然而現(xiàn)有技術(shù)中,例如現(xiàn)有技術(shù)中的link-lda方法和flda方法,通常只利用累積的鏈接數(shù),如用戶的粉絲數(shù),來衡量用戶在不同主題上的影響力,以至于他們通常會找到那些影響力已經(jīng)過時的用戶。
技術(shù)實現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提出一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法,能夠發(fā)現(xiàn)和追蹤社交媒體中主題相關(guān)的當下最具有影響力的用戶,優(yōu)化廣告和推薦的應(yīng)用。
基于上述目的本發(fā)明提供的一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法,包括:
建立tit模型:獲取用戶的目標社交媒體中的文本數(shù)據(jù)、鏈接以及鏈接生成的時間數(shù)據(jù),并建立所述tit模型;
確定隱含參數(shù):利用吉布斯抽樣,確定所述tit模型中的隱含參數(shù);其中,所述隱含參數(shù)包括用戶在主題上的多項式分布θ、主題在單詞上的多項式分布
分析用戶主題相關(guān)影響力分布:通過所述隱含參數(shù)和模型參數(shù),得到不同時間在不同主題下的用戶主題相關(guān)影響力分布σ,得出用戶主題相關(guān)影響力隨時間的變化,從而得出當前時刻或之前任意時刻的用戶主題相關(guān)影響力;其中,所述模型參數(shù)包括:α、β、γ、ε和ρ,其中α、β、γ、ε分別為θ、
可選地,所述tit模型包括用戶-鏈接-時間模塊和用戶-單詞模塊;
所述用戶-鏈接-時間模塊對用戶u的鏈接f以及鏈接生成的時間t進行建模,將鏈接f生成時間t到當前時刻的時間段分成t'個時間片,其中u表示第u個用戶,u∈[1,u],u為用戶的數(shù)量,同時,將整個鏈接網(wǎng)絡(luò)當做一個文檔,在該文檔中,鏈接f和鏈接的生成時間t的組合(f,t)被作為該文檔的單詞;所述用戶-鏈接-時間模塊包含一個上層的伯努利混合模型μ、一個下層的多項式混合模型σ以及一個下層的多項式混合模型π,其中,μ用來判斷f的生成是否是基于用戶u的主題興趣,通過μ生成二元指示符y,若y=1,即f的生成是基于用戶u的主題興趣,則利用用戶u的主題x在(f,t)上的多項式分布σ來生成(f,t);若y=0,即f的生成并非基于用戶u的主題興趣,則利用全局的多項式分布π來生成(f,t);
所述用戶-單詞模塊對用戶的目標社交媒體內(nèi)容進行建模,將各個用戶的目標社交媒體內(nèi)容分別整合為一個文檔,并對整合后的所有文檔利用lda主題模型來發(fā)現(xiàn)用戶潛在的主題,從而得到用戶在主題上的多項式分布θ,以及主題在單詞上的多項式分布
可選地,所述tit模型的生成過程為:利用用戶u的主題分布θu,生成一個單詞分布主題zu,m,利用單詞分布主題zu,m在單詞上的分布
可選地,所述利用吉布斯抽樣,確定所述tit模型中的隱含參數(shù),包括:
單詞分布主題zu,m的抽樣公式為:
其中,u表示第u個用戶,u∈[1,u],u為用戶的數(shù)量,m表示用戶u的第m個單詞,m∈[1,nu],nu為用戶u的單詞數(shù)量,l表示用戶u的第l個鏈接,l∈[1,lu],lu為用戶u的鏈接數(shù)量;w表示第w個單詞,w∈[1,w],w為不重復的單詞的總量;抽樣j表示(u,m);次數(shù)
鏈接fu,l和鏈接生成時間tu,l的抽樣公式為:
當yu,l=1時:
當yu,l=0時
其中,抽樣i表示(u,l);次數(shù)
經(jīng)過預(yù)定次數(shù)的抽樣迭代后,所述隱含參數(shù)確定為:
其中,t代表鏈接生成時間到當前時間中的某一時刻。
可選地,所述分析用戶影響力分布的方法為:
通過所述不同時間在不同主題下的用戶主題相關(guān)影響力分布σ,利用指數(shù)衰減得出用戶u在第k個主題下在時間t時的影響力influence(u)@k&t:
其中,λ為控制影響力衰減速度的的參數(shù),λ>0,t為鏈接f的生成時間。
本發(fā)明的另一方面,還提供一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法,包括:
建立otit模型:獲取用戶的目標社交媒體中的文本數(shù)據(jù)、鏈接以及鏈接生成的時間數(shù)據(jù),建立所述otit模型;
確定隱含參數(shù):利用吉布斯抽樣,確定所述otit模型中的隱含參數(shù);其中,所述隱含參數(shù)包括用戶在主題上的多項式分布θ、主題在單詞上的多項式分布
實時更新模型參數(shù):利用當前數(shù)據(jù)流中得到的模型參數(shù),作為下一個數(shù)據(jù)流中模型參數(shù)的先驗,替換原有模型參數(shù),實現(xiàn)對所述模型參數(shù)的實時更新;其中,所述模型參數(shù)包括αs、βs、γs、εs和ρs,αs、βs、γs、εs分別為θ、
分析用戶主題相關(guān)影響力分布:通過所述隱含參數(shù)和更新后的所述模型參數(shù),得到用戶主題相關(guān)影響力分布σ,得出用戶主題相關(guān)影響力隨時間的變化,從而得出當前數(shù)據(jù)流下的用戶主題相關(guān)影響力。
可選地,所述otit模型包括用戶-鏈接-時間模塊和用戶-單詞模塊:
所述用戶-鏈接-時間模塊對用戶u的鏈接f以及鏈接生成的時間t進行建模,將鏈接f生成時間t到當前時刻的時間段分成t'個時間片,其中u表示第u個用戶,u∈[1,u],u為用戶的數(shù)量,同時,將整個鏈接網(wǎng)絡(luò)當做一個文檔,在該文檔中,鏈接f和鏈接的生成時間t的組合(f,t)被作為該文檔的單詞;所述用戶-鏈接-時間模塊包含一個上層的伯努利混合模型μ、一個下層的多項式混合模型σ以及一個下層的多項式混合模型π,其中,μ用來判斷f的生成是否是基于用戶u的主題興趣,通過μ生成二元指示符y,若y=1,即f的生成是基于用戶u的主題興趣,則利用用戶u的主題x在(f,t)上的多項式分布σ來生成(f,t);若y=0,即f的生成并非基于用戶u的主題興趣,則利用全局的多項式分布π來生成(f,t);
所述用戶-單詞模塊對用戶的目標社交媒體中的內(nèi)容進行建模,將各個用戶的目標社交媒體中的內(nèi)容分別整合為一個文檔,并對整合后的所有文檔利用lda主題模型來發(fā)現(xiàn)用戶潛在的主題,從而得到用戶在主題上的多項式分布θ,以及主題在單詞上的多項式分布
可選地,所述otit模型的生成過程為:利用用戶u的主題分布θu,生成一個單詞分布主題zu,m,利用單詞分布主題zu,m在單詞上的分布
可選地,所述利用吉布斯抽樣,確定所述otit模型中的隱含參數(shù),包括:
所述單詞分布主題zu,m的抽樣公式為:
其中,u表示第u個用戶,u∈[1,u],u為用戶的數(shù)量,m表示用戶u的第m個單詞,m∈[1,nu],nu為用戶u的單詞數(shù)量,l表示用戶u的第l個鏈接,l∈[1,lu],lu為用戶u的鏈接數(shù)量;w表示第w個單詞,w∈[1,w],w為不重復的單詞的總量;抽樣j表示(u,m);次數(shù)
所述鏈接fu,l和鏈接生成時間tu,l的抽樣公式為:
當yu,l=1時:
當yu,l=0時
其中,抽樣i表示(u,l);次數(shù)
經(jīng)過預(yù)定次數(shù)的抽樣迭代后,流s中所述隱含參數(shù)確定為:
其中,(*)s表示流s中的對應(yīng)參數(shù)。
可選地,所述利用當前數(shù)據(jù)流中得到的模型參數(shù),作為下一個數(shù)據(jù)流中模型參數(shù)的先驗,替換原有模型參數(shù)的方法為:
其中,λ'和λ均為控制影響力衰減速的的參數(shù),可根據(jù)實際需要進行設(shè)置,λ'>0,λ>0;
可選地,所述分析用戶影響力分布的方法為:
通過更新了所述模型參數(shù)后的所述otit模型,得到當前數(shù)據(jù)流下的用戶主題相關(guān)影響力分布σ,從而得到用戶主題相關(guān)影響力的分布及變化,則用戶u在第k個主題下在時間t時的影響力influence(u)@k&t:
influence(u)@k&t=σk,t,u。
從上面所述可以看出,本發(fā)明提供的一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法通過結(jié)合考慮時間因素以及主題相關(guān)性的手段,適應(yīng)影響力隨時間的動態(tài)變化,并且通過調(diào)控數(shù)據(jù)流的大小,能夠獲得具有不同時間粒度的結(jié)果,通過在線的方式全面而準確地發(fā)現(xiàn)和追蹤有影響力的用戶,更精確地反映用戶的影響力變化,克服了僅僅利用累計鏈接找到過時的影響力用戶的技術(shù)缺陷,能夠得出用戶影響力的動態(tài)變化及趨勢,并進行實時跟蹤。
附圖說明
圖1為本發(fā)明實施例1一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法流程示意圖;
圖2為本發(fā)明實施例1一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法tit模型示意圖;
圖3為本發(fā)明實施例2一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法流程示意圖;
圖4為本發(fā)明實施例2一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法otit模型示意圖;
圖5為本發(fā)明實施例一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法在不同主題下與現(xiàn)有技術(shù)的準確度比較示意圖;其中圖5(a)為在醫(yī)療主題下不同方法準確度比較示意圖,圖5(b)為在電影主題下不同方法準確度比較示意圖,圖5(c)為在所有主題不同方法平均準確度比較示意圖;
圖6為本發(fā)明實施例一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法人工評判對比示意圖;
圖7為本發(fā)明實施例一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法效率比較示意圖;
圖8為本發(fā)明實施例一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法內(nèi)存消耗比較示意圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進一步詳細說明。
實施例1:
本發(fā)明實施例1提供的一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法利用tit(topic-levelinfluenceovertime,主題相關(guān)的時間影響力分析模型)模型,能夠以離線的方式發(fā)現(xiàn)主題相關(guān)當下有影響力的用戶。
如圖1所示,為本發(fā)明實施例1一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法流程圖。所述一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法包括:
1.建立tit模型:獲取用戶的目標社交媒體中的文本數(shù)據(jù)、鏈接以及鏈接生成的時間數(shù)據(jù),建立所述tit模型;
2.確定隱含參數(shù):利用吉布斯抽樣,確定所述tit模型中的隱含參數(shù),所述隱含參數(shù)包括用戶在主題上的多項式分布θ、主題在單詞上的多項式分布
3.分析不同時間在不同主題下的用戶主題相關(guān)影響力分布:通過所述隱含參數(shù)和模型參數(shù),得到不同時間在不同主題下的用戶主題相關(guān)影響力分布σ,得出用戶主題相關(guān)影響力隨時間的變化,從而得出當前時刻或之前任意時刻的用戶主題相關(guān)影響力;
所述模型參數(shù)包括:α、β、γ、ε和ρ,其中α、β、γ、ε分別為θ、
如圖2所示,為本發(fā)明實施例1一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法tit模型示意圖,所述tit模型包括用戶-鏈接-時間模塊11和用戶-單詞模塊12,其中,u表示第u個用戶,u∈[1,u],u為用戶的數(shù)量;w表示第w個單詞,w∈[1,w],w為不重復的單詞的總量;f表示用戶u關(guān)注另一用戶產(chǎn)生的鏈接,t為鏈接f的生成時間;t'為第t'個時間片,所述時間片長度為δ,t'∈[1,t'],t'為時間片的數(shù)量;x表示指派給鏈接f的主題;z表示指派給單詞w的主題;y為二元指示符,指示用戶u產(chǎn)生的鏈接f是否基于用戶u的主題興趣;k表示主題的數(shù)量;nu為用戶u的單詞數(shù)量;lu為用戶u的鏈接數(shù)量。
用戶-鏈接-時間模塊11對用戶u的鏈接f以及鏈接生成的時間進行建模,將鏈接f生成時間t到當前時刻的時間段分成t'個時間片,同時,將整個鏈接網(wǎng)絡(luò)當做一個文檔。在該文檔中,鏈接f和鏈接的生成時間t的組合(f,t)被作為該文檔的單詞。用戶-鏈接-時間模塊11包含一個上層的伯努利混合模型μ、一個下層的多項式混合模型σ以及一個下層的多項式混合模型π。其中,μ用來判斷f的生成是否是基于f產(chǎn)生者(用戶u)的主題興趣,通過μ生成二元指示符y,若y=1,即f的生成是基于用戶u的主題興趣,則利用用戶u的主題x在(f,t)上的多項式分布σ來生成(f,t);若y=0,即f的生成并非基于用戶u的主題興趣,則利用全局的多項式分布π來生成(f,t)。
用戶-單詞模塊12對用戶的目標社交媒體中的內(nèi)容進行建模,將各個用戶的目標社交媒體中的內(nèi)容分別整合為一個文檔,并對整合后的所有文檔利用基于lda(latentdirichletallocation,隱含狄利克雷分布)的lda主題模型來發(fā)現(xiàn)用戶潛在的主題,從而得到用戶在主題上的多項式分布θ,以及主題在單詞上的多項式分布
所述tit模型的生成過程為:
一方面,利用用戶u的主題分布θu,生成一個單詞分布主題zu,m,其中m表示用戶u的第m個單詞,m∈[1,nu],利用單詞分布主題zu,m在單詞上的分布
本發(fā)明實施例1利用吉布斯采樣來推斷并生成所述tit模型中的隱含參數(shù)。則所述單詞分布主題zu,m的抽樣公式為:
抽樣j表示(u,m),
所述鏈接fu,l和鏈接生成時間tu,l的抽樣公式為:
當yu,l=1時:
當yu,l=0時
其中,抽樣i表示(u,l),次數(shù)
在經(jīng)過預(yù)定次數(shù)的抽樣迭代后,通過如下公式確定所述隱含參數(shù):
所述抽樣迭代的次數(shù)根據(jù)實際需求進行設(shè)定。通過所述tit模型,可以得到用戶在主題上的多項式分布θ、主題在單詞上的多項式分布
本發(fā)明實施例1提供的分析用戶影響力分布的方法為:
通過所述不同時間在不同主題下的用戶主題相關(guān)影響力分布σ,得到用戶主題相關(guān)影響力隨時間的變化,利用指數(shù)衰減得出用戶u在第k個主題下在時間t時的影響力influence(u)@k&t:
其中,λ為控制影響力衰減速度的的參數(shù),λ>0。當t為當前時間時,即可得到當前時間用戶u在主題k下的影響力。
從上面所述可以看出,本發(fā)明實施例1提供的一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法通過結(jié)合考慮時間因素以及主題相關(guān)性的手段,適應(yīng)影響力隨時間的動態(tài)變化,能夠通過離線的方式全面而準確地發(fā)現(xiàn)和追蹤有影響力的用戶,克服了僅僅利用累計鏈接找到過時的影響力用戶的技術(shù)缺陷,并且能夠得出用戶影響力的動態(tài)變化及趨勢。
實施例2
本發(fā)明實施例2提供的一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法,通過構(gòu)建otit(onlinetopic-levelinfluenceovertime,在線主題相關(guān)的時間影響力分析模型)對以數(shù)據(jù)流形式到達的數(shù)據(jù)進行處理,實現(xiàn)在動態(tài)數(shù)據(jù)流中發(fā)現(xiàn)并追蹤主題相關(guān)的影響力用戶。
如圖3所示,為本發(fā)明實施例2一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法流程圖。所述一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法包括:
1.建立otit模型:獲取用戶的目標社交媒體中的文本數(shù)據(jù)、鏈接以及鏈接生成的時間數(shù)據(jù),建立所述otit模型。
2.確定otit模型的隱含參數(shù):通過吉布斯抽樣,確定所述otit模型的隱含參數(shù),所述隱含參數(shù)包括用戶u在主題上的多項式分布θ、主題在單詞上的多項式分布
3.實時更新模型參數(shù):利用當前數(shù)據(jù)流中得到的模型參數(shù),作為下一個數(shù)據(jù)流中模型參數(shù)的先驗,替換原有模型參數(shù),實現(xiàn)對所述模型參數(shù)的實時更新,所述模型參數(shù)包括αs、βs、γs、εs和ρs,其中αs、βs、γs、εs分別為θ、
4.分析不同時間在不同主題下的用戶主題相關(guān)影響力分布:通過所述隱含參數(shù)和更新后的所述模型參數(shù),得到用戶主題相關(guān)影響力分布σ,得出用戶主題相關(guān)影響力隨時間的變化,從而得出當前數(shù)據(jù)流下的用戶主題相關(guān)影響力。
如圖4所示,為本發(fā)明實施例2一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法otit模型示意圖,所述otit模型包括用戶-鏈接-時間模塊41和用戶-單詞模塊42,其中,u表示第u個用戶,u∈[1,u],u為用戶的數(shù)量;w表示第w個單詞,w∈[1,w],w為不重復的單詞的總量;f表示用戶u關(guān)注另一用戶產(chǎn)生的鏈接;t為鏈接f的生成時間;t'為第t'個時間片,所述時間片長度為δ,t'∈[1,t'],t'為時間片的數(shù)量;s表示第s個數(shù)據(jù)流,其大小為δ',s=0,1,2,…,δ'的取值可根據(jù)結(jié)果的時間粒度需求設(shè)定;x表示指派給鏈接f的主題;z表示指派給單詞w的主題;y為二元指示符,指示用戶u產(chǎn)生的鏈接f是否基于用戶u的主題興趣;k表示主題的數(shù)量;nu為用戶u的單詞數(shù)量;lu為用戶u的鏈接數(shù)量。
用戶-鏈接-時間模塊41對用戶u的鏈接f以及鏈接生成的時間進行建模,將鏈接f生成時間t到當前時刻的時間段分成t'個時間片,同時,將整個鏈接網(wǎng)絡(luò)當做一個文檔。在該文檔中,鏈接f和鏈接的生成時間t的組合(f,t)被作為該文檔的單詞。用戶-鏈接-時間模塊11包含一個上層的伯努利混合模型μ、一個下層的多項式混合模型σ以及一個下層的多項式混合模型π,其中,μ用來判斷f的生成是否是基于f產(chǎn)生者(用戶u)的主題興趣,通過μ生成二元指示符y,若y=1,即f的生成是基于用戶u的主題興趣,則利用用戶u的主題x在(f,t)上的多項式分布σ來生成鏈接f和鏈接生成時間t的組合(f,t);若y=0,即f的生成并非基于用戶u的主題興趣,則利用全局的多項式分布π來生成(f,t)。
用戶-單詞模塊42對用戶的目標社交媒體中的內(nèi)容進行建模,將各個用戶的目標社交媒體中的內(nèi)容分別整合為一個文檔,并對整合后的所有文檔利用基于lda(latentdirichletallocation,隱含狄利克雷分布)的lda主題模型來發(fā)現(xiàn)用戶潛在的主題,從而得到用戶在主題上的多項式分布θ,以及主題在單詞上的多項式分布
所述otit模型的生成過程為:
一方面,利用用戶u的主題分布θu,生成一個單詞分布主題zu,m,其中m表示用戶u的第m個單詞,m∈[1,nu],利用單詞分布主題zu,m在單詞上的分布
本發(fā)明實施例2利用吉布斯采樣來推斷并生成所述otit模型中的隱含參數(shù)。則所述單詞分布主題zu,m的抽樣公式為:
抽樣j表示(u,m),
所述鏈接fu,l和鏈接生成時間tu,l的抽樣公式為:
當yu,l=1時:
當yu,l=0時
其中,抽樣i表示(u,l),次數(shù)
在經(jīng)過足夠次數(shù)的抽樣迭代后,通過如下公式確定所述隱含參數(shù):
其中,(*)s表示流s中的對應(yīng)參數(shù);通過所述otit模型,可以得到用戶在主題上的多項式分布θ、主題在單詞上的多項式分布
所述利用當前數(shù)據(jù)流中得到的模型參數(shù),作為下一個數(shù)據(jù)流中模型參數(shù)的先驗,替換原有模型參數(shù)的方法為:
其中,λ'和λ均為控制影響力衰減速的的參數(shù),可根據(jù)實際需要進行設(shè)置,λ'>0,λ>0;
本發(fā)明實施例2提供的分析用戶影響力分布的方法為:
通過更新了所述模型參數(shù)后的所述otit模型,得到當前數(shù)據(jù)流下的用戶主題相關(guān)影響力分布σ,從而得到用戶主題相關(guān)影響力的分布及變化,則用戶u在第k個主題下在時間t時的影響力influence(u)@k&t:
influence(u)@k&t=σk,t,u
從上面所述可以看出,本發(fā)明實施例2提供的一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法通過結(jié)合考慮時間因素以及主題相關(guān)性的手段,適應(yīng)影響力隨時間的動態(tài)變化,并且通過調(diào)控數(shù)據(jù)流的大小,能夠獲得具有不同時間粒度的結(jié)果,通過在線的方式全面而準確地發(fā)現(xiàn)和追蹤有影響力的用戶,更精確地反映用戶的影響力變化,克服了僅僅利用累計鏈接找到過時的影響力用戶的技術(shù)缺陷,能夠得出用戶影響力的動態(tài)變化及趨勢,并進行實時跟蹤。
利用本發(fā)明提供的一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法(otit模型)與現(xiàn)有技術(shù)中的link-lda方法和flda方法,同時對同一數(shù)據(jù)集進行處理,發(fā)掘所述數(shù)據(jù)集中的主題相關(guān)影響力用戶,得到的比較結(jié)果如下:
所述數(shù)據(jù)集為來自新浪微博的時間跨度為從2015年12月1號到2016年1月5號的數(shù)據(jù)所述數(shù)據(jù)集包含0.4m用戶、207m的單詞和4.6m的用戶關(guān)注關(guān)系(其中0.7m的用戶關(guān)注關(guān)系包含時間信息),時間片長度δ=1.5天,時間片數(shù)量t的范圍為1到24,第24各個時間片表示距離現(xiàn)在最近的時間片。其中一個數(shù)據(jù)流包含4個時間片,數(shù)據(jù)流的大小δ'=6,數(shù)據(jù)流個數(shù)s的范圍為1到6。對于沒有時間信息的關(guān)注信息,隨機指派一個從-400到0的值,這部分數(shù)據(jù)作為數(shù)據(jù)流s=0的信息;主題數(shù)k=100,otit模型的初始模型參數(shù)設(shè)置為:
如圖5所示,為本發(fā)明實施例一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法在不同主題下與現(xiàn)有技術(shù)的準確度比較示意圖;其中圖5(a)為在醫(yī)療主題下不同方法準確度比較示意圖,圖5(b)為在電影主題下不同方法準確度比較示意圖,圖5(c)為在所有主題不同方法平均準確度比較示意圖,所述準確度比較以新浪微博給出的不同主題下用戶流行度的前100名為參考標準,將不同方法得到的排名中前k名用戶中出現(xiàn)在參考標準中的比例做為準確度,可以看出,本發(fā)明實施例提供的一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法相比現(xiàn)有技術(shù)能夠更準確地發(fā)掘數(shù)據(jù)集中的影響力用戶。
如圖6所示,為本發(fā)明提供的人工評判對比示意圖,分別提取每一不同主題下由3種方法得到的排序結(jié)果中的前20個用戶,并將提取得到的每一不同主題下的不超過60個用戶的充分混合的結(jié)果作為待測樣本,由同一組由大量用戶組成的評判組對每一不同主題下的待測樣本進行相關(guān)性評判,所述相關(guān)性評判依據(jù)相應(yīng)主題下用戶的流行程度,評價標準為:3分:極好、2分:好、1分:一般和0分:差。3種方法取得的結(jié)果的平均得分如圖5所示,可以看出本采用發(fā)明實施例提供的一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法得到的用戶影響力結(jié)果更符合人工評判的標準,準確性更高。
如圖7所示,為本發(fā)明提供的效率比較示意圖,如圖8所示,為本發(fā)明提供的內(nèi)存消耗比較示意圖,3種方法處理相同的數(shù)據(jù)時的時間消耗和內(nèi)存消耗分別如圖7和圖8所示,可以看出在處理相同的數(shù)據(jù)的情況下,本發(fā)明實施例提供的一種主題相關(guān)的影響力用戶發(fā)現(xiàn)和追蹤方法具有更低的內(nèi)存消耗和時間消耗,由于采用了otit模型進行在線發(fā)現(xiàn)和追蹤,每次僅需要對新到的數(shù)據(jù)流進行處理,內(nèi)存消耗和處理時間都僅僅取決于新到的數(shù)據(jù)流的大小,相比現(xiàn)有技術(shù)的處理方式,處理效率和系統(tǒng)消耗都大大降低,大大提高了影響力用戶的發(fā)現(xiàn)和追蹤效率。
所屬領(lǐng)域的普通技術(shù)人員應(yīng)當理解:以上所述僅為本發(fā)明的具體實施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。