布角度而言,聯(lián)系緊密度值基本符合冪律分布,且具有明顯的肥尾現(xiàn)象,這說 明絕大部分用戶之間的社交關系比較松散,少數(shù)用戶之間的社交關系比較緊密。
[0141] (3.2)群組構造質量評估
[0142] 對于移動的真實數(shù)據(jù)集而言,用戶的真實群組劃分是未知的,因此無法使用標準 互信息對群組構造的結果進行度量。合理的群組劃分應該體現(xiàn)為群組內的節(jié)點相互聯(lián)系比 較緊密,而群組與群組之間的節(jié)點相互聯(lián)系比較稀疏,為此可以采用聚集系數(shù)來衡量群組 構造的質量,它可以表示節(jié)點的局部連通性。群組構造的效果越好,群組內用戶間聯(lián)系越緊 密,其聚集系數(shù)也越高,因此可以采用聚集系數(shù)度量群組構造的好壞。
[0143] 為了便于進行直觀比較,分別計算全網(wǎng)所有節(jié)點的聚集系數(shù)均值、加權聚集系數(shù) 均值以及以各個群組為單位群組內節(jié)點的聚集系數(shù)均值、加權聚集系數(shù)均值,結果如表4所 示,其中比值項表示群組的(加權)聚集系數(shù)均值與全網(wǎng)的(加權)聚集系數(shù)均值的比值。
[0144] 表4聚集系數(shù)均值和加權聚集系數(shù)均值
本發(fā)明群組構造方法 0,597 0.143 4.175 0,435 0.095 4.580
[0146] 從表4中可以看出,本發(fā)明方法所構造出的各個群組內節(jié)點的聚集系數(shù)均值、加權 聚集系數(shù)均值都遠大于全網(wǎng)所有節(jié)點的聚集系數(shù)均值、加權聚集系數(shù)均值,其比值均在4倍 以上,這說明本發(fā)明方法構造的群組質量均較高,本發(fā)明方法是可行且有效的。從表4還可 以看出,全網(wǎng)的平均聚集系數(shù)均值、加權聚集系數(shù)均值均較小,這說明用戶真實的社交關系 網(wǎng)絡是一個非常稀疏的網(wǎng)絡。
[0147] (3.3)實驗群組規(guī)模
[0148] 附圖7為本發(fā)明方法所構造出的群組規(guī)模統(tǒng)計分布圖,為了能夠更清楚的展示統(tǒng) 計數(shù)據(jù),橫縱坐標軸仍均使用以10為底的對數(shù)坐標系。針對4406891位用戶,33728562條關 系,本算法共構造出了 498156個群組,平均每個群組包含9.351個用戶。
[0149] 從統(tǒng)計特性而言,所構造的群組規(guī)模均基本符合冪律分布,且具有明顯的肥尾現(xiàn) 象,即絕大多數(shù)的用戶所擁有的社交群組較小,只有少部分用戶擁有較大社交群組,而這正 符合社會學的統(tǒng)計特性。
【主權項】
1. 一種基于派系過濾和標簽傳播的移動通信用戶群組構造方法,其特征在于:包括W 下步驟: 步驟1:計算用戶間的聯(lián)系緊密度; 步驟2:構建用戶間的有權復雜網(wǎng)絡; 將移動通信網(wǎng)絡中的用戶抽象為節(jié)點,用戶間的聯(lián)系緊密度值抽象為邊的權值,將用 戶間的通信關系抽象為有權復雜網(wǎng)絡; 步驟3:基于有權復雜網(wǎng)絡,采用派系過濾算法構造社交關系群組的種子群組; 步驟4:基于種子群組,初始化網(wǎng)絡中所有節(jié)點標簽,即為每個節(jié)點分配初始標簽; 步驟5:利用改進的化PA算法進行標簽傳播,當絕大多數(shù)節(jié)點的標簽收斂時,基于節(jié)點 的標簽將節(jié)點劃分至對應的群組,完成社交關系群組的構造; 步驟5.1:利用Speaker策略發(fā)布用戶的標簽; 所述Speaker策略為:設定一個比例闊值Tspeaker,每次標簽傳播的迭代過程開始時,從節(jié) 點歷史標簽集合中選取標簽出現(xiàn)比例大于比例闊值的Tspeaker的標簽對外發(fā)布;如果沒有任 何一個標簽的出現(xiàn)比例滿足闊值條件,則選擇出現(xiàn)比例最大的標簽作為該節(jié)點所對外發(fā)布 的標簽;如果同時出現(xiàn)多個比例最大的標簽則隨機選擇其中一個標簽對外發(fā)布; 步驟5.2:利用Li Stener策略接收用戶的標簽; 所述Listener策略的具體內容為:定義節(jié)點i所對應標簽1的強度Siabeia,1):其中,NS(i,l)表示與節(jié)點i鄰接并且其所發(fā)布的標簽中含有標簽1的節(jié)點集合,WU表示 節(jié)點i與節(jié)點j連邊的權值;迭代過程中,計算節(jié)點所接收到的每個標簽的標簽強度,選擇擁 有最大標簽強度的標簽作為本輪迭代該節(jié)點的更新標簽并將其加入到自己的歷史標簽集 合中;果出現(xiàn)多個標簽強度最大的標簽,則隨機從中選擇一個標簽作為該節(jié)點本輪迭代更 新的標簽并將其加入到自己的歷史標簽集合中; 步驟5.3:利用同步標簽傳播策略進行標簽傳播; 步驟5.4:判斷是否符合迭代停止條件,若是,則停止迭代并轉至步驟5.5; 步驟5.5:基于節(jié)點的標簽將節(jié)點劃分至對應的群組,完成社交關系群組的構造; 由于每個節(jié)點都存儲了該節(jié)點在每一輪迭代中所接收并選擇的標簽,為了能夠發(fā)現(xiàn)重 疊群組,設置一個比例闊值TpDstprwessing,針對每一個節(jié)點的歷史標簽集合,選擇其標簽歷史 集合中標簽出現(xiàn)次數(shù)占總次數(shù)比例不小于闊值TpDstprncessing的標簽作為標識該節(jié)點群組劃 分的標簽,則擁有相同標簽的節(jié)點即構成一個群組。2. 根據(jù)權利要求1所述的基于派系過濾和標簽傳播的移動通信用戶群組構造方法,其 特征在于:所述步驟1計算用戶間的聯(lián)系緊密度的方法為: 假設在一段時間內用戶A同時與用戶B、C、D發(fā)生通話關系且W用戶A為主體,則可W基 于用戶間的聯(lián)系強度和聯(lián)系穩(wěn)定性,來度量用戶A與用戶B間的之間的聯(lián)系緊密度; 步驟1.1:計算用戶間的聯(lián)系強度; 所述用戶間的聯(lián)系強度用于體現(xiàn)用戶間相互聯(lián)系的密切程度;用戶A與用戶B間的聯(lián)系 強度可通過公式(1)計算; (I) 其中,AVGGDuple_duratiDn表不用戶A與用戶B的平均通話時k,F(xiàn)REGDuple_times表不用戶A與用 戶B的總通話次數(shù),AVGalLduratiDn表示用戶A與其所有通話對象B、C、D的平均通話時長的均 值,AVGalLtimes表示用戶A與其所有通話對象B、C、D的平均通話次數(shù); 步驟1.2:計算用戶間的聯(lián)系穩(wěn)定性; 所述用戶間的聯(lián)系穩(wěn)定性用于體現(xiàn)用戶間通話聯(lián)系的規(guī)律周期性;用戶A與用戶B間的 聯(lián)系穩(wěn)定性按照公式(2)度量;斌 其中,Cab表示用戶A與用戶B之間的聯(lián)系穩(wěn)定性;FREccmple_weeks_times表示用戶A與用戶B的 總通話周數(shù),AVGall_weeks_times表示用戶A與其所有通話對象B、C、D的平均通話周數(shù),CVgap_weeks 表示用戶A與用戶B聯(lián)系間隔周數(shù)的離散系數(shù),AVG_CVgap_weeks表示用戶A與其所有通話對象 B、C、D的聯(lián)系間隔周數(shù)的離散系數(shù)均值; 步驟1.3:基于用戶間的聯(lián)系強度與聯(lián)系穩(wěn)定性,計算用戶間的聯(lián)系緊密度; 用戶A對用戶B的聯(lián)系緊密度Iab按照公式(3)進行計算; Iab = c[Cab+( l-a)SAB (3) 其中,ae[〇,l]為用于調節(jié)用戶間的聯(lián)系強度與聯(lián)系穩(wěn)定性對聯(lián)系緊密度的影響程度 的常量; 考慮主動發(fā)起通信的用戶對用戶間聯(lián)系緊密度的貢獻程度更大一些,因此定義用戶A 與用戶B的綜合聯(lián)系緊密度值I按照公式(4)計算;(4) 其中riAB表示用戶A主叫用戶B的通話次數(shù);MA表示用戶B主叫用戶A的通話次數(shù);用戶A與 用戶B之間的總通話次數(shù)n = nAB+郵A。3. 根據(jù)權利要求1所述的基于派系過濾和標簽傳播的移動通信用戶群組構造方法,其 特征在于:所述步驟3中采用派系過濾算法構造社交關系群組的種子群組的方法為: 首先設置派系大小參數(shù)k;然后從有權復雜網(wǎng)絡中發(fā)現(xiàn)所有大小為k且滿足設計要求的 k-派系;隨后針對運些k派系進行過濾,生成種子群組;所述過濾的方法為:設定闊值首 先過濾掉復雜網(wǎng)絡中所有權值小于W叩勺邊,然后忽略過濾后復雜網(wǎng)絡中節(jié)點間的權值。4. 根據(jù)權利要求1所述的基于派系過濾和標簽傳播的移動通信用戶群組構造方法,其 特征在于:所述步驟4中初始化網(wǎng)絡中所有節(jié)點標簽的方法為:將各個種子群組內節(jié)點的標 簽初始化為同一個標簽,如果一個節(jié)點同時屬于多個種子群組,則此節(jié)點同時保留多個種 子群組所對應的標簽;于種子群組內所包含的節(jié)點只是整個網(wǎng)絡節(jié)點中的一部分,因而有 些節(jié)點將不屬于任何種子群組,對于沒有被種子群組包含的節(jié)點,將它們的標簽初始化為 唯一標簽。5.根據(jù)權利要求1至4任一項所述的基于派系過濾和標簽傳播的移動通信用戶群組構 造方法,其特征在于:所述步驟5.4中所述的迭代停止條件為:設置兩個闊值TcDnvergence_rate 和Tconvergence_times ;在每次迭代過程中,統(tǒng)計收斂節(jié)點數(shù)Nidentical,即節(jié)點在新一輪迭代中所 獲的標簽與其歷史標簽集合中出現(xiàn)次數(shù)最多標簽相同的節(jié)點數(shù)量;如果收斂節(jié)點數(shù) Nidentical與網(wǎng)絡中的總節(jié)點數(shù)Ntotal的比值不小于闊值Tc onvergence_r ate的情況連續(xù)超過闊值 T convergence_times 次出現(xiàn),則認為本算法已經(jīng)收斂,迭代停止。
【專利摘要】基于派系過濾和標簽傳播的移動通信用戶群組構造方法,屬于數(shù)據(jù)業(yè)務領域。計算用戶節(jié)點間的聯(lián)系緊密度;構建用戶節(jié)點間的有權復雜網(wǎng)絡;基于有權復雜網(wǎng)絡,采用派系過濾算法構造社交關系群組的種子群組;基于種子群組,初始化網(wǎng)絡中所有節(jié)點標簽,即為每個節(jié)點分配初始標簽;利用改進的SLPA算法進行標簽傳播,當絕大多數(shù)節(jié)點的標簽收斂時,基于節(jié)點的標簽將節(jié)點劃分至對應的群組,完成社交關系群組的構造,即擁有相同標簽的節(jié)點構成一個群組;本發(fā)明的有點為:可獲得較好的用戶好友推薦效果;獲得較好的協(xié)同推薦效果;有助于用戶構成分析;有助于發(fā)現(xiàn)異常群體;下一代通信的劃分基礎。
【IPC分類】H04W4/00, H04W4/06
【公開號】CN105592405
【申請?zhí)枴緾N201510734202
【發(fā)明人】于瑞云, 姜國強, 王興偉, 李婕, 于超, 洪淼
【申請人】東北大學
【公開日】2016年5月18日
【申請日】2015年10月30日