亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于先驗知識的微博用戶群體劃分方法

文檔序號:10534839閱讀:259來源:國知局
一種基于先驗知識的微博用戶群體劃分方法
【專利摘要】本發(fā)明涉及一種基于先驗知識的微博用戶群體劃分方法,該方法具體過程是:讀取社交網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點、用戶關(guān)系為邊的社交網(wǎng)絡(luò)圖,構(gòu)造用戶相似度矩陣;初始化用戶節(jié)點標(biāo)簽時,相似度高的節(jié)點賦相同標(biāo)簽,并采用標(biāo)簽傳播算法來更新用戶節(jié)點的標(biāo)簽;在標(biāo)簽傳播的過程中,當(dāng)被更新節(jié)點鄰居節(jié)點中存在多個具有最高頻率標(biāo)簽時隨機(jī)選擇一個最高頻率標(biāo)簽更新該節(jié)點的標(biāo)簽,對于經(jīng)過幾步的迭代更新后,緊密連接的節(jié)點將會擁有相同的特定標(biāo)簽值。根據(jù)本發(fā)明實施例的社會網(wǎng)絡(luò)群體劃分方法,根據(jù)用戶關(guān)系圖邊聚集系數(shù)屬性,通過改進(jìn)標(biāo)簽傳播算法,對用戶群體進(jìn)行劃分,劃分結(jié)果對網(wǎng)絡(luò)輿情監(jiān)測、商業(yè)用戶挖掘等都具有較好的應(yīng)用價值。
【專利說明】
一種基于先驗知識的微博用戶群體劃分方法
技術(shù)領(lǐng)域
[0001] 本發(fā)明涉及社交網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是一種基于先驗知識的微博用戶群體劃分方 法。
【背景技術(shù)】
[0002] 如何從社會網(wǎng)絡(luò)中挖掘出具有實用效益的信息已成為復(fù)雜網(wǎng)絡(luò)中一個研究熱點, 無論在理論還是社會實用價值上都具有非常重要的意義。網(wǎng)絡(luò)社區(qū)通常由功能相近或性質(zhì) 相似的網(wǎng)絡(luò)節(jié)點組成,復(fù)雜網(wǎng)絡(luò)中同一社區(qū)內(nèi)的節(jié)點具有相似的特點或相似的興趣。微博 是一個典型的復(fù)雜網(wǎng)絡(luò),微博網(wǎng)絡(luò)中的社區(qū)是由一組關(guān)注同一個話題或具有相似興趣的用 戶組成的集合。通過挖掘微博網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),可以迅速而準(zhǔn)確的找到具有相同或相似 興趣愛好的用戶,發(fā)現(xiàn)他們共同參與的話題,這些對網(wǎng)絡(luò)輿情監(jiān)測、商業(yè)用戶挖掘等領(lǐng)域都 具有較好的應(yīng)用價值。
[0003] 迄今為止,人們已經(jīng)提出許多社區(qū)發(fā)現(xiàn)方法,2002年,Girvan和Newman在PNAS 上發(fā)表的論文對社會網(wǎng)絡(luò)和生物網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)進(jìn)行研究,也就是著名的GN算法,它 是社區(qū)發(fā)現(xiàn)技術(shù)發(fā)展過程中的一個重要里程碑,也是一種非常經(jīng)典的社區(qū)發(fā)現(xiàn)算法和社 區(qū)發(fā)現(xiàn)技術(shù)研究中的重要的參考模型,該論文拉開了網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)研究的序幕。該論文 首次將網(wǎng)絡(luò)社區(qū)結(jié)構(gòu)作為網(wǎng)絡(luò)普遍具有的拓?fù)涮卣魈岢?,并給出一種基于邊介數(shù)(edge betweenness)的分裂式層次聚類算法來識別網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)。大多數(shù)社區(qū)發(fā)現(xiàn)算法的基本 思想都是根據(jù)某個節(jié)點的內(nèi)聚性度量,遞歸地對網(wǎng)絡(luò)進(jìn)行合并或分裂,分解成嵌套的社區(qū) 層次結(jié)構(gòu)。傳統(tǒng)的社區(qū)劃分方法大致分為兩類:基于圖論的算法和層次聚類算法。其中基 于圖論的算法主要有Kernighan-Lin算法(簡稱為K-L算法)、基于拉普拉斯圖特征值的譜 平分法和派系過濾算法等,這類方法的缺點是無法界定重復(fù)迭代次數(shù);層次聚類算法又可 分為兩大類:凝聚算法和分裂算法,劃分依據(jù)是在網(wǎng)絡(luò)中增加邊還是去除邊,增加邊的是凝 聚算法,而去除邊的是分裂算法。典型的代表算法有Newman快速算法、GN算法等,缺點是 算法復(fù)雜度高、無法界定何時停止。
[0004] 可見,以上經(jīng)典的算法都存在許多局限性,劃分結(jié)果并不理想,而且復(fù)雜度較高, 難以滿足大型真實網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的要求。2007年,Raghavan等人提出了標(biāo)簽傳播算法 (Label propagation Algorithm,LPA),有效地解決了復(fù)雜度高、無法收斂的問題。標(biāo)簽傳 播算法是一種基于圖的半監(jiān)督學(xué)習(xí)方法,認(rèn)為聯(lián)系緊密的節(jié)點會擁有一個相同的標(biāo)簽值, 其基本思路是用已標(biāo)記節(jié)點的標(biāo)簽信息預(yù)測未標(biāo)記節(jié)點的標(biāo)簽信息,最后標(biāo)簽值相同的節(jié) 點被劃分進(jìn)一個社區(qū)。LPA具有思路簡單、擴(kuò)展性強(qiáng)、復(fù)雜度最低、速度最快等特點。標(biāo)簽傳 播算法的時間復(fù)雜度接近于線性〇(m)(m為邊的數(shù)目),對于較大規(guī)模的社區(qū)(106-109個 節(jié)點)檢測,經(jīng)過5次迭代后開始收斂。另外,標(biāo)簽傳播算法既不需要優(yōu)化預(yù)定義的目標(biāo)函 數(shù),也不需要關(guān)于社區(qū)的數(shù)量和規(guī)模等先驗信息,對社區(qū)的大小也沒有限制,因此標(biāo)簽傳播 算法已經(jīng)成為當(dāng)前應(yīng)用較為廣泛的社區(qū)發(fā)現(xiàn)算法之一,被大量應(yīng)用在了多媒體信息分類、 虛擬社區(qū)挖掘等領(lǐng)域中。
[0005] 然而,雖然標(biāo)簽傳播算法簡單高效,但算法中的標(biāo)簽傳播的隨機(jī)性導(dǎo)致算法的準(zhǔn) 確度較差,劃分結(jié)果不穩(wěn)定,隨機(jī)性較強(qiáng),魯棒性有待提高。綜上所述,現(xiàn)有的社區(qū)發(fā)現(xiàn)方法 在準(zhǔn)確度和時間復(fù)雜度上都存在很大的提升空間。

【發(fā)明內(nèi)容】

[0006] 本發(fā)明的目的在于提供一種基于先驗知識的微博用戶群體劃分方法,該方法有利 于提高網(wǎng)絡(luò)社區(qū)劃分的精確度和穩(wěn)定性能。
[0007] 為實現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種基于先驗知識的微博用戶群體劃分 方法,包括以下步驟:
[0008] 步驟A :讀取社交網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點,用戶關(guān)系為邊的社交網(wǎng) 絡(luò)圖;
[0009] 步驟B :計算微博用戶節(jié)點相似度矩陣;
[0010] 步驟C :為每一個用戶節(jié)點分配一個標(biāo)簽值,且對于每個節(jié)點,其鄰居節(jié)點中相似 度高于2的分配相同的標(biāo)簽值,這些標(biāo)簽值作為用戶節(jié)點所屬社區(qū)的標(biāo)識;
[0011] 步驟D :初步社區(qū)劃分:對圖中的所有頂點的標(biāo)簽進(jìn)行迭代更新。每次迭代后,節(jié) 點的標(biāo)簽值更新為其鄰接節(jié)點的標(biāo)簽中數(shù)量最多的標(biāo)簽值;
[0012] 步驟E :社區(qū)劃分細(xì)化:如果多個標(biāo)簽出現(xiàn)的頻率最高時,在這些鄰居節(jié)點標(biāo)簽中 隨機(jī)選擇一個標(biāo)簽作為其標(biāo)簽;經(jīng)過若干次迭代后,每個用戶節(jié)點鄰居中的標(biāo)簽變化趨于 穩(wěn)定;
[0013] 步驟F :將所有具有相同標(biāo)簽的節(jié)點歸為一個社區(qū)。
[0014] 進(jìn)一步,在上述步驟B中,用戶節(jié)點相似度矩陣具體定義如下: a\\ ai2 ai3 …ain
[0015] 叫~},21吆吆…~. an2 an3 …ann.
[0016] 其中,i和j分別代表微博網(wǎng)絡(luò)中兩個不同的用戶,&1]的值表示微博網(wǎng)絡(luò)中兩個 用戶間的相似程度,表示的是兩個節(jié)點落在同一個社區(qū)中的概率,其值越大,代表這兩個用 戶所代表的兩個節(jié)點在同一個社區(qū)的可能性就越大。\定義如下:
[0017] aij=|N⑴ HN(j)
[0018] 式中,N⑴表示的是節(jié)點i的鄰居集,其定義如下:
[0019] N(i) = {j |節(jié)點i與節(jié)點j直接相連}
[0020] 進(jìn)一步,在上述步驟C中,節(jié)點標(biāo)記具體包括以下步驟:為每一個用戶節(jié)點分配一 個標(biāo)簽值,即C n= L n,匕表示節(jié)點n所屬社區(qū),L "表示節(jié)點n的標(biāo)簽值。
[0021] 進(jìn)一步,在上述步驟D中,初步社區(qū)劃分對節(jié)點的標(biāo)簽值更新為其鄰接節(jié)點的標(biāo) 簽中數(shù)量最多的標(biāo)簽值具體過程為:把社交網(wǎng)絡(luò)圖抽象成一個簡單的無向圖G(N,E),其 中,N表示節(jié)點的集合,E表示邊的集合。W nm表示連接n,m節(jié)點的邊的權(quán)重,n,m G仏用Cn 表示表示節(jié)點n所屬社區(qū),N1 (n)表示節(jié)點n G N的鄰居節(jié)點中標(biāo)簽值為1的節(jié)點集合。公 式如下:
[0022] C?=argmPmJ(/-
[0023] 進(jìn)一步,所述步驟E中,迭代終止條件為社交網(wǎng)絡(luò)達(dá)到平衡,標(biāo)簽數(shù)目不再發(fā)生變 化即終止迭代。
[0024] 相較于現(xiàn)有技術(shù),本發(fā)明的有益效果是:相較于現(xiàn)有的社區(qū)發(fā)現(xiàn)算法,在保留傳統(tǒng) 標(biāo)簽傳播算法優(yōu)點的前提下,在穩(wěn)定性能和精確度上得到大大提高。綜上,本發(fā)明的算法能 夠尚效的檢測社會網(wǎng)絡(luò)。
【附圖說明】
[0025] 圖1為本發(fā)明方法的實現(xiàn)流程圖。
[0026] 圖2為采用本發(fā)明方法(由LPAPK表示)和標(biāo)簽傳播算法(由LPA表示)在1000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)<k> = 15、度數(shù)的最大值maxk = 50條件 下,兩種算法運行1〇〇次的平均匪I值隨混合參數(shù)y(y e [0,0.90],y表示不同社區(qū)之 間的節(jié)點中有連邊的部分)的取值變化對比圖。
[0027] 圖3為采用本發(fā)明方法(由LPAPK表示)和標(biāo)簽傳播算法(由LPA表示)在1000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)<k> = 30、度數(shù)的最大值maxk = 50條件 下,兩種算法運行1〇〇次的平均NMI值隨混合參數(shù)y (y e [0,0.90])的取值變化對比圖。
[0028] 圖4為采用本發(fā)明方法(由LPAPK表示)和標(biāo)簽傳播算法(由LPA表示)在5000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)<k> = 15、度數(shù)的最大值maxk = 50條件 下,兩種算法運行1〇〇次的平均NMI值隨混合參數(shù)y (y e [0,0.90])的取值變化對比圖。
[0029] 圖5為采用本發(fā)明方法(由LPAPK表示)和標(biāo)簽傳播算法(由LPA表示)在5000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)<k> = 30、度數(shù)的最大值maxk = 50條件 下,兩種算法運行1〇〇次的平均NMI值隨混合參數(shù)y (y e [0,0.90])的取值變化對比圖。
[0030] 圖6為采用本發(fā)明方法(由LPAPK表示)和標(biāo)簽傳播算法(由LPA表示)在10000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)<k> = 15、度數(shù)的最大值maxk = 50條件 下,兩種算法運行1〇〇次的平均NMI值隨混合參數(shù)y (y e [0,0.90])的取值變化對比圖。
[0031] 圖7為采用本發(fā)明方法(由LPAPK表示)和標(biāo)簽傳播算法(由LPA表示)在10000 個節(jié)點的基準(zhǔn)網(wǎng)絡(luò)中,在網(wǎng)絡(luò)中節(jié)點的平均度數(shù)<k> = 30、度數(shù)的最大值maxk = 50條件 下,兩種算法運行1〇〇次的平均NMI值隨混合參數(shù)y (y e [0,0.90])的取值變化對比圖。
[0032] 圖8為采用本發(fā)明方法(由LPA表示)對一個真實微博網(wǎng)絡(luò)的劃分結(jié)果。
[0033] 圖9為采用本發(fā)明方法(由LPAPK表示)對一個真實微博網(wǎng)絡(luò)的劃分結(jié)果。
【具體實施方式】
[0034] 以下結(jié)合附圖,對本發(fā)明上述的特征和優(yōu)點作更加詳細(xì)的說明。
[0035] 圖1是本發(fā)明的一種基于先驗知識的微博用戶群體劃分方法的實現(xiàn)流程圖。如圖 1所示,所述方法包括以下步驟:
[0036] 步驟A :讀取社交網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點,用戶關(guān)系為邊的社交網(wǎng) 絡(luò)圖。
[0037] 如在微博這樣的社交網(wǎng)絡(luò)中,將每一個用戶作為網(wǎng)絡(luò)中的一個節(jié)點,以用戶中具 有相同特征或觀點的作為網(wǎng)絡(luò)的一條邊。于是,形成了許多具有相同特征的社區(qū),這對網(wǎng) 絡(luò)輿情監(jiān)測具有重要的意義;萬維網(wǎng)中,如果知道某些網(wǎng)頁的少量信息,就可以與其他網(wǎng)頁 組成有關(guān)系的連邊,這對搜索引擎是非常有用的;科學(xué)家協(xié)作網(wǎng)中,將每個作者作為一個節(jié) 點,兩個作者合作文章即產(chǎn)生一條連邊,形成龐大的協(xié)作網(wǎng)絡(luò)。
[0038] 在本實施例中,采用由不同的節(jié)點數(shù)、節(jié)點度數(shù)和混合參數(shù)組成的6種基準(zhǔn)網(wǎng)絡(luò)。 其中,混合參數(shù)y代表社區(qū)網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)的明顯程度,y值越小社區(qū)結(jié)構(gòu)越明顯。
[0039] 步驟B :計算微博用戶節(jié)點相似度矩陣。
[0040] 如在微博這樣的社交網(wǎng)絡(luò)中,如果兩個用戶擁有的共同鄰居越多,表示他們具有 相同興趣和相同特性的可能性越大,最終屬于同一個社區(qū)的可能性越大。因此,本方法在 步驟C的節(jié)點標(biāo)簽初如化過程中考慮這些因素,可以使得后續(xù)標(biāo)簽傳播過程隨機(jī)性得到抑 制,提高社區(qū)發(fā)現(xiàn)的效果。
[0038] 步驟C :初始化,為每個節(jié)點分配一個代表其所屬社區(qū)的標(biāo)簽,迭代次數(shù)t = 1。
[0039] 具體的,在所述步驟B中,為每個節(jié)點分配一個代表其所屬社區(qū)的標(biāo)簽具體過程 為,8卩C n= L n,(^表示節(jié)點n所屬社區(qū),L "表示節(jié)點n的標(biāo)簽值。
[0040] 步驟D :隨機(jī)排列所有節(jié)點,生成一個節(jié)點序列X。
[0041 ] 步驟E :節(jié)點標(biāo)簽更新。
[0042] 具體的,在所述步驟E中,節(jié)點標(biāo)簽更新具體包括以下步驟:
[0043] 步驟E1 :對于節(jié)點序列X中的每一個節(jié)點X,用它鄰居節(jié)點標(biāo)簽中出現(xiàn)頻率 最高的那個標(biāo)簽來更新該節(jié)點的標(biāo)簽,假設(shè)節(jié)點x的k個鄰居節(jié)點分別是 Xl,x2,..., xk,第t次時迭代節(jié)點x的標(biāo)簽依據(jù)于它鄰居節(jié)點中所有經(jīng)過了 t次迭代后節(jié)點的 標(biāo)簽及其它經(jīng)過了第t-1次迭代節(jié)點后所得到的標(biāo)簽,節(jié)點x的標(biāo)簽更新公式為: Cx (') _笤匕(〖),(0,…,(0, CJC"+1 (( -1),…,(( _ 1)) ^其中函數(shù)g返回的是節(jié)點X的鄰居節(jié)點 標(biāo)簽中頻率最尚的標(biāo)簽。
[0044] 步驟E2 :如果多個標(biāo)簽出現(xiàn)的頻率最高時,在這些標(biāo)簽中隨機(jī)選擇一個標(biāo)簽出現(xiàn) 頻率最高的鄰居節(jié)點標(biāo)簽作為該頂點標(biāo)簽。
[0045] 步驟F :若所有節(jié)點的標(biāo)簽不再變化,則算法停止;否則,t = t+1,并返回步驟E。
[0046] 具體的,在所述步驟F中,算法的迭代終止條件為社會網(wǎng)絡(luò)達(dá)到平衡,標(biāo)簽數(shù)目不 再發(fā)生變化。
[0047] 步驟G :將所有具有相同標(biāo)簽的頂點歸為一個社區(qū)。
[0048] 在本實施例中考察本發(fā)明與標(biāo)簽傳播算法在6種不同參數(shù)條件下的基準(zhǔn)網(wǎng)絡(luò)中, 隨著混合參數(shù)y的取值變化,各運行100次的平均匪I值對比圖。其中,匪I (normalized mutual information)值是判斷實驗劃分結(jié)果與實際真實結(jié)果的接近程度的評判依據(jù)。具 體規(guī)則詳細(xì)如下:
[0050] 其中,定義一個混淆矩陣N,行數(shù)代表真實社區(qū),列數(shù)代表已發(fā)現(xiàn)社區(qū),Nx]代表真 實社區(qū)i中的節(jié)點在已發(fā)現(xiàn)社區(qū)j中所占的節(jié)點個數(shù),c A代表真實社區(qū)的數(shù)量,cB代表已 發(fā)現(xiàn)社區(qū)的數(shù)量,隊.代表矩陣N u中i行的總和,N 代表i列的總和。
[0051] 本發(fā)明所述的一種基于先驗知識的微博用戶群體劃分方法,將社區(qū)劃分過程劃分 為讀取社交網(wǎng)絡(luò)數(shù)據(jù)、計算節(jié)點相似度矩陣、標(biāo)簽初始化、節(jié)點更新標(biāo)簽、劃分社區(qū)五個階 段,首先讀取社交網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以社交網(wǎng)絡(luò)用戶為節(jié)點、用戶關(guān)系為邊的社交網(wǎng)絡(luò)圖;構(gòu) 造用戶相似度矩陣;為社交網(wǎng)絡(luò)圖中的每個節(jié)點分配一個代表其所屬社區(qū)的標(biāo)簽,迭代次 數(shù)t = 1;隨機(jī)排列所有的節(jié)點,生成一個節(jié)點序列;節(jié)點標(biāo)簽更新,對于節(jié)點序列中每一個 節(jié)點X,用它鄰居節(jié)點標(biāo)簽中出現(xiàn)頻率最高的那個標(biāo)簽來更新該節(jié)點的標(biāo)簽,如果多個標(biāo)簽 出現(xiàn)的頻率最尚時,在具有標(biāo)簽頻率最尚的鄰居節(jié)點中隨機(jī)選擇一個標(biāo)簽作為該節(jié)點的標(biāo) 簽。若所有節(jié)點的標(biāo)簽不再發(fā)生變化,則算法停止;最后,將所有具有相同標(biāo)簽的頂點歸為 一個社區(qū)。標(biāo)簽傳播算法初始化標(biāo)簽時沒有考慮先驗知識,再加上標(biāo)簽傳播的隨機(jī)性,影響 了社區(qū)劃分結(jié)果的準(zhǔn)確率。本發(fā)明采用先驗知識的思想,在初始化節(jié)點標(biāo)簽時,考慮節(jié)點相 似度,將相似度高的節(jié)點賦相同的標(biāo)簽值,這樣在后續(xù)標(biāo)簽傳播過程中減少隨機(jī)傳播的次 數(shù),以限制了標(biāo)簽傳播的隨意性。為了證明本發(fā)明方法的優(yōu)勢,本實施例選取了 6個不同參 數(shù)條件下的基準(zhǔn)網(wǎng)絡(luò)。參數(shù)各異的圖2、圖3、圖4、圖5、圖6、圖7表明當(dāng)混合參數(shù)y取值 在0到0. 9范圍內(nèi)時,本發(fā)明方法的匪I值結(jié)果總體優(yōu)于標(biāo)簽傳播算法。進(jìn)一步研究可以 發(fā)現(xiàn),當(dāng)網(wǎng)絡(luò)的節(jié)點數(shù)相同時,節(jié)點的平均度數(shù)<k>越大,相較于標(biāo)簽傳播算法,本發(fā)明方 法效果越明顯,即劃分社區(qū)的準(zhǔn)確度越高;當(dāng)網(wǎng)絡(luò)的節(jié)點數(shù)不相同時,節(jié)點的數(shù)目越多,本 發(fā)明方法效果越明顯,劃分社區(qū)的準(zhǔn)確度越高。為了更進(jìn)一步驗證本發(fā)明提出的算法對真 實微博網(wǎng)絡(luò)劃分情況,本實施例選擇了新浪微博中由303個不同的用戶組成微博網(wǎng)絡(luò),該 網(wǎng)絡(luò)共有303個節(jié)點、1246條連邊,分別用LPA算法和LPAPK算法對該微博網(wǎng)絡(luò)進(jìn)行社區(qū)劃 分,結(jié)果表明LPAPK劃分的結(jié)果更優(yōu),體現(xiàn)了真實的細(xì)節(jié)。上述實施例表明在具有標(biāo)簽頻率 最高的鄰居節(jié)點中選擇與該節(jié)點的用戶關(guān)系值最大的鄰居節(jié)點標(biāo)簽作為該節(jié)點的標(biāo)簽從 很大程度上限制了標(biāo)簽傳播的隨意性,大大提高了社區(qū)發(fā)現(xiàn)算法的準(zhǔn)確率。綜上,本發(fā)明方 法大大提高了原有社區(qū)發(fā)現(xiàn)算法的準(zhǔn)確率,可有效挖掘社會網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu),可以應(yīng)用 于網(wǎng)絡(luò)輿情監(jiān)測、搜索引擎等不同規(guī)模的領(lǐng)域。
[0052] 以上所述僅為本發(fā)明的較佳實施例,在發(fā)明權(quán)利要求所限定的范圍內(nèi)對其進(jìn)行的 改變、修改、甚至等效,都將屬于本發(fā)明的保護(hù)范圍內(nèi)。
【主權(quán)項】
1. 一種基于先驗知識的微博用戶群體劃分方法,其特征在于,所述方法包括以下步 驟: 步驟A :讀取微博網(wǎng)絡(luò)數(shù)據(jù),構(gòu)造以微博網(wǎng)絡(luò)用戶為節(jié)點、用戶關(guān)系為邊的社交網(wǎng)絡(luò) 圖; 步驟B :計算微博用戶節(jié)點相似度矩陣; 步驟C :節(jié)點標(biāo)記:為每一個用戶節(jié)點分配一個標(biāo)簽值,且對于每個節(jié)點,其鄰居節(jié)點 中相似度高于2的分配相同的標(biāo)簽,這些標(biāo)簽值作為用戶節(jié)點所屬社區(qū)的標(biāo)識; 步驟D :初步社區(qū)劃分:對圖中的所有頂點的標(biāo)簽進(jìn)行迭代更新,每次迭代后,節(jié)點的 標(biāo)簽值更新為其鄰接節(jié)點的標(biāo)簽中數(shù)量最多的標(biāo)簽值; 步驟E :社區(qū)劃分細(xì)化:如果多個標(biāo)簽出現(xiàn)的頻率最高時,在這些鄰居節(jié)點標(biāo)簽中隨 機(jī)選擇一個標(biāo)簽作為其標(biāo)簽;經(jīng)過若干次迭代后,每個用戶節(jié)點鄰居中的標(biāo)簽變化趨于穩(wěn) 定; 步驟F :將所有具有相同標(biāo)簽的節(jié)點歸為一個社區(qū)。2. 根據(jù)權(quán)利要求1所述的一種基于先驗知識的微博用戶群體劃分方法,其特征在于: 在上述步驟B中,所謂用戶節(jié)點相似度矩陣,其值表示微博網(wǎng)絡(luò)中兩個用戶間的相似 程度,表示的是兩個節(jié)點落在同一個社區(qū)中的概率,其值越大,代表這兩個用戶所代表的兩 個節(jié)點在同一個社區(qū)的可能性就越大。用戶相似度矩陣具體定義如下:其中,i和j分別代表微博網(wǎng)絡(luò)中兩個不同的用戶,其值\定義如下: a。= In⑴ n N(j) 式中,N(i)表示的是節(jié)點i的鄰居集,其定義如下: N(i) = {j I節(jié)點i與節(jié)點j直接相連}。3. 根據(jù)權(quán)利要求1所述的一種基于先驗知識的微博用戶群體劃分方法,其特征在于, 在上述步驟C中,為每一個用戶節(jié)點分配一個標(biāo)簽值,即C n= L n,匕表示節(jié)點η所屬社 區(qū),1^表示節(jié)點η的標(biāo)簽值。4. 根據(jù)權(quán)利要求1所述的一種基于先驗知識的微博用戶群體劃分方法,其特征在于: 在上述步驟D中,對節(jié)點的標(biāo)簽值更新為其鄰接節(jié)點的標(biāo)簽中數(shù)量最多的標(biāo)簽值具體 過程為:把社交網(wǎng)絡(luò)圖抽象成一個簡單的無向圖G (Ν,Ε),其中,N表示節(jié)點的集合,E表示邊 的集合;Wnm表示連接n,m節(jié)點的邊的權(quán)重,n,m e仏用Cn表示表示節(jié)點η所屬社區(qū),Nt (η) 表示節(jié)點n e N的鄰居節(jié)點中標(biāo)簽值為1的節(jié)點集合,公式如下:5. 根據(jù)權(quán)利要求1所述的一種基于先驗知識的微博用戶群體劃分方法,其特征在于: 所述步驟E中,迭代終止條件為社交網(wǎng)絡(luò)達(dá)到平衡,標(biāo)簽數(shù)目不再發(fā)生變化即終止迭 代。
【文檔編號】G06F17/30GK105893382SQ201410814368
【公開日】2016年8月24日
【申請日】2014年12月23日
【發(fā)明人】張賢坤, 任靜, 牛四寶, 劉申
【申請人】天津科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1