合;在基于社區(qū)內(nèi)部拓?fù)溥B接緊密性構(gòu)建的主題模型LDA-F中,詞項集是用戶的所有好友 構(gòu)成的集合,文檔集是由所有用戶構(gòu)成的集合,主題是社區(qū)的集合。
[0043] 對于有M個文檔和K個主題的LDA模型,具體的LDA模型中文檔的生成過程和參 數(shù)約定為:
[0044] 2. 1)對每個主題k e [1,K],采樣主題k的詞項概率分布%~&>(〇
[0045] 2. 2)對每個文檔m e [1,M],采樣文檔m的主題概率分布Θ n~Dir ( α );
[0046] 2. 3)對每個文檔m e [1,Μ],采樣文檔m的長度Nni~Poiss( ξ );
[0047] 2· 4)對每個文檔m中的詞項n e [1,NJ,選擇隱含的主題Zni,n~ Mult( θ n),生成 一個詞功
[0048] 其中,Nni表示第m篇文檔所包含的詞項數(shù),α、β、ξ為概率分布的參數(shù)。
[0049] 根據(jù)生成的LDA模型文檔,對文檔下主題概率分布以及主題下詞項概率分布施加 Dirichlet分布,生成基于超參數(shù)的聯(lián)合概率分布ρ (wm,zm,Θ m,Φ I α,β ):
[0051] 其中,Wni表示第m篇文檔中所有詞項的集合,Zni表示第m篇文檔中所有詞項對應(yīng) 的主題的集合,S ni表示第m篇文檔的主題概率分布,Φ表示所有主題下的詞項概率分布的 集合,α和β是Dirichlet分布的超參數(shù),w m,n表示第m篇文檔的第η個詞項,zm.n表示第 m篇文檔中第η個詞項所對應(yīng)的主題,Nni表示第m篇文檔所包含的詞項數(shù)。
[0052] 3)利用吉布斯采樣進行參數(shù)估計:
[0053] 利用吉布斯采樣算法由主題變量z估計參數(shù)Θ和私,對于一個LDA模型運用吉布 斯采樣算法,需要由已知的詞項集彳宙}、先驗Dirichlet分布的參數(shù)α,β以及主題數(shù)K最 終求得待估計參數(shù)Θ和,其中Θ為給定文檔時主題的概率分布,其計算方法見公式2, P 為給定主題時詞項的概率分布,其計算方法見公式3 :
[0056] 其中,0n,k表示給定文檔m時主題為k的概率,表示主題k在文檔m中出現(xiàn)的 次數(shù),α =〈a ^ α2,…,am〉為M維的Dirichlet分布的超參數(shù),ak為正實數(shù),反映了 對參數(shù)Θ "的先驗知識,K為文檔m中主題的個數(shù);表示給定主題k時詞項為t的概率, nf表示詞項t在主題k中出現(xiàn)的次數(shù),β 為K維的Dirichlet分布 的超參數(shù),PtS正實數(shù),反映了對參數(shù)納fc的先驗知識,V為主題k中詞項的個數(shù)。具體的吉 布斯采樣的算法如下:
[0057] 3. 1)初始化全局變量nf、nf、叫和!^,其中,?if表示詞項t在主題k中出現(xiàn)的 次數(shù),表示主題k在文檔m中出現(xiàn)的次數(shù),叫為的總和,Iini為的總和;
[0058] 3. 2)對于每個文檔m e [1,M]中的詞項n e [l,Nm],采樣主題zm,n= k~Mult(l/ κ),使全局變量
分別作自增運算;
[0059] 3. 3)跳轉(zhuǎn)至步驟3. 2直至循環(huán)遍歷所有文檔,循環(huán)遍歷結(jié)束后跳轉(zhuǎn)至步驟3. 4開 始迭代;
[0060] 3. 4)對于每個文檔m e [1,Μ]中的詞項n e [1,NJ,使全局變量
Hni分別作自減運算,之后采樣主題
再使全局變量
分別作自 增運算;
[0061 ] 3. 5)跳轉(zhuǎn)至步驟3. 4直至達到迭代次數(shù)I。
[0062] 此外,步驟3. 4中提至Ij的
是LDA模型的吉布斯采樣公式。
[0063] 4)根據(jù)得到的參數(shù)--給定文檔時主題的概率分布Θ |〇在LDA-T模型和LDA-F模 型中的實際意義,可知參數(shù)Sni的實際意義均為給定用戶時社區(qū)的概率分布,由此獲得以概 率分布形式表不的社區(qū)。
【主權(quán)項】
1. 一種基于LDA主題模型的OSN社區(qū)發(fā)現(xiàn)方法,其特征在于,利用在線社交網(wǎng)絡(luò)中用戶 與其好友的關(guān)系以及用戶自發(fā)表達的文字信息進行0SN社區(qū)發(fā)現(xiàn)過程,包括如下步驟: 1) 進行數(shù)據(jù)集預(yù)處理,對原始用戶微博文檔進行分詞、去停頓詞、去噪等預(yù)處理工作, 對記錄用戶關(guān)系的文檔中的followers數(shù)據(jù)集進行用戶關(guān)系雙向化處理并剔除沒有好友 的用戶; 2) 根據(jù)既定社區(qū)元素構(gòu)建LDA主題模型,包括基于社區(qū)內(nèi)部微博內(nèi)容語義相似性構(gòu)建 的主題模型LDA-T和基于拓?fù)溥B接緊密性構(gòu)建的主題模型LDA-F,所述LDA-T中詞項集是由 用戶所有推文中的詞項構(gòu)成的集合,文檔集是由所有用戶的推文構(gòu)成的集合,主題為社區(qū) 的集合,所述LDA-F中詞項集是由用戶的所有好友構(gòu)成的集合,文檔集是由所有用戶構(gòu)成 的集合,主題是社區(qū)的集合; 3) 根據(jù)步驟2得到的模型LDA-T和LDA-F,對文檔下主題概率分布以及主題下詞項概 率分布施加Dirichlet分布,生成基于超參數(shù)的聯(lián)合概率分布p(wm,zm,Θm,Φ|α,β),其 中,α和β是Dirichlet分布的超參數(shù),Wni表示第m篇文檔中所有詞項的集合,Ζηι表示第 m篇文檔中所有詞項對應(yīng)的主題的集合,θη表示第m篇文檔的主題概率分布,Φ表示所有 主題下的詞項概率分布的集合; 4) 根據(jù)步驟3得到的聯(lián)合概率分布,利用吉布斯采樣算法估計給定文檔時主題的概率 分布Θjp給定主題時詞項的概率分布 5) 根據(jù)步驟4得到的參數(shù)獲取社區(qū)。2. 根據(jù)權(quán)利要求1所述的基于LDA主題模型的0SN社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步 驟1去除的噪聲包括URL、標(biāo)點符號、語氣詞和表情符號。3. 根據(jù)權(quán)利要求1所述的基于LDA主題模型的0SN社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步 驟2中LDA模型中文檔的生成過程和參數(shù)約定為: 1) 對每個主題ke[1,K],采樣主題k的詞項概率分布 2) 對每個文檔me[1,Μ],采樣文檔m的主題概率分布Θn~Dir(α); 3) 對每個文檔me[1,Μ],采樣文檔m的長度Nm~Poiss(ξ); 4) 對每個文檔m中的詞項ne[1,NJ,選擇隱含的主題Zni,n~Mult(0 n),生成一個詞 項冰姐沐~M'uZf(史); 其中,N"表示第m篇文檔所包含的詞項數(shù),K表示主題數(shù)目,Μ表示文檔數(shù)目,α、β、ξ為概率分布的參數(shù)。4. 根據(jù)權(quán)利要求3所述的基于LDA主題模型的0SN社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步 驟3生成的聯(lián)合概率分布為:其中,I表示第m篇文檔中所有詞項的集合,Ζηι表示第m篇文檔中所有詞項對應(yīng)的主題 的集合,θη表示第m篇文檔的主題概率分布,Φ表示所有主題下的詞項概率分布的集合, α和β是Dirichlet分布的超參數(shù),wmin表示第m篇文檔的第η個詞項,zm.n表示第m篇文 檔中第n個詞項所對應(yīng)的主題,Nn表示第m篇文檔所包含的詞項數(shù)。5. 根據(jù)權(quán)利要求4所述的基于LDA主題模型的0SN社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步 驟4中給定文檔時,主題的概率分布的計算方法為:其中,表示給定文檔m時主題為k的概率,?1;^表示主題k在文檔m中出現(xiàn)的次 數(shù),α =〈αι,α2,…,am>為Μ維的Dirichlet分布的超參數(shù),ak為正實數(shù),反映了對參 數(shù)的先驗知識,K為文檔m中主題的個數(shù)。6.根據(jù)權(quán)利要求4所述的基于LDA主題模型的OSN社區(qū)發(fā)現(xiàn)方法,其特征在于,所述步 驟4中給定主題時,詞項的概率分布的計算方法為:其中,φΜ表示給定主題k時詞項為t的概率,nf表示詞項t在主題k中出現(xiàn)的次數(shù), β=〈β β2,…,βk>為K維的Dirichlet分布的超參數(shù),β正實數(shù),反映了對參數(shù):爐& 的先驗知識,V為主題k中詞項的個數(shù)。
【專利摘要】本發(fā)明公開了一種基于隱形狄利克雷分布?(Latent?Dirichlet?Allocation,簡稱LDA)主題模型的在線社交網(wǎng)絡(luò)(Online?Social?Network,簡稱OSN)社區(qū)發(fā)現(xiàn)方法,首先進行數(shù)據(jù)集預(yù)處理;然后利用在線社交網(wǎng)絡(luò)中用戶與其好友的關(guān)系以及用戶自發(fā)表達的文字信息建立基于LDA主題模型(包括LDA-F模型和LDA-T模型),求解模型概率分布;再利用吉布斯采樣算法進行參數(shù)估計;最后根據(jù)估計的參數(shù)進行OSN社區(qū)發(fā)現(xiàn)。本發(fā)明提供的方法在不依靠網(wǎng)絡(luò)拓?fù)溥B接信息的基礎(chǔ)上,通過挖掘用戶微博語義信息得到相應(yīng)的概率模型,同時引入微博內(nèi)容語義相似性,有效描述了用戶興趣愛好的概率分布情況;引入社區(qū)內(nèi)部拓?fù)溥B接緊密性,挖掘內(nèi)部拓?fù)溥B接相對十分緊密的社區(qū)。
【IPC分類】G06Q50/00, G06F17/30, G06F17/27
【公開號】CN105302866
【申請?zhí)枴緾N201510611455
【發(fā)明人】曹玖新, 馬卓, 陳巧云, 劉波, 周濤
【申請人】東南大學(xué)
【公開日】2016年2月3日
【申請日】2015年9月23日