一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提供一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法及系統(tǒng),所述微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法包括:獲取目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息;根據(jù)所述目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息,構(gòu)建微博用戶關(guān)聯(lián)網(wǎng)絡(luò);從所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中,獲取至少一個極大團(tuán);基于所述極大團(tuán),獲取至少一個核心團(tuán);基于所述獲取到的極大團(tuán)和/或核心團(tuán),進(jìn)行微博用戶群體行為分析。采用本發(fā)明提供的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法及系統(tǒng)可以充分說明微博用戶之間的復(fù)雜關(guān)系,還可以提高微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析的速度,滿足大規(guī)模數(shù)據(jù)處理的需求。
【專利說明】一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)中微博用戶群體結(jié)構(gòu)的發(fā)現(xiàn)和知識挖掘【技術(shù)領(lǐng)域】,尤其涉及一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著微博服務(wù)平臺的不斷發(fā)展,龐大的微博用戶群體形成了復(fù)雜的關(guān)系網(wǎng)絡(luò),而微博用戶之間的連接關(guān)系所呈現(xiàn)出的模式既不是純粹的隨機(jī),也不是純粹的規(guī)則,而是具有無尺度、小世界、高聚集和自相似等等特征,并且會隨著時間發(fā)生變化。如何發(fā)現(xiàn)潛在的聯(lián)系非常緊密的用戶群體,進(jìn)而發(fā)現(xiàn)關(guān)系網(wǎng)絡(luò)的群體結(jié)構(gòu)特征,成為當(dāng)前研究的熱點問題,然而現(xiàn)有的研究方法主要包括基于單個數(shù)據(jù)實體屬性的分析方法和基于復(fù)雜網(wǎng)絡(luò)的分析方法。其中,基于單個數(shù)據(jù)實體屬性的分析方法即基于內(nèi)容分析的方法,能夠?qū)崿F(xiàn)相似微博消息的聚類分類,進(jìn)而實現(xiàn)具有相似行為習(xí)慣的微博用戶分類。基于復(fù)雜網(wǎng)絡(luò)分析方法相對于傳統(tǒng)的基于內(nèi)容分析的方法,更強(qiáng)調(diào)數(shù)據(jù)實體之間的聯(lián)系,更能突出從多關(guān)系、結(jié)構(gòu)、背景、復(fù)雜系統(tǒng)及發(fā)展的角度對具有群體特性的數(shù)據(jù)集展開統(tǒng)計分析。
[0003]但是,在現(xiàn)有的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有方法存在如下問題:
[0004]基于單個數(shù)據(jù)實體屬性的分析方法不但過于依賴于經(jīng)驗和先驗知識,缺乏處理未知知識的能力,而且僅將微博用戶定性為屬于或不屬于已知用戶類別,分類法過于簡單,也不能充分說明用戶之間存在的復(fù)雜關(guān)系。而基于復(fù)雜網(wǎng)絡(luò)分析方法則由于現(xiàn)有算法的局限性,使得數(shù)據(jù)處理規(guī)模不能滿足現(xiàn)有需求,處理速度也受到局限。
【發(fā)明內(nèi)容】
[0005]針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的是提供一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法及系統(tǒng)。
[0006]本發(fā)明提供一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法,包括:
[0007]獲取目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息;
[0008]根據(jù)所述目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息,構(gòu)建微博用戶關(guān)聯(lián)網(wǎng)絡(luò);
[0009]從所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中,獲取至少一個極大團(tuán);
[0010]基于所述極大團(tuán),獲取至少一個核心團(tuán);
[0011]基于所述獲取到的極大團(tuán)和/或核心團(tuán),進(jìn)行微博用戶群體行為分析。
[0012]本發(fā)明還提供一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析系統(tǒng),包括:
[0013]信息獲取單元,用于獲取目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息;
[0014]關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建單元,用于根據(jù)所述目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息,構(gòu)建微博用戶關(guān)聯(lián)網(wǎng)絡(luò);
[0015]極大團(tuán)獲取單元,用于從所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中,獲取至少一個極大團(tuán);
[0016]核心團(tuán)獲取單兀,用于基于所述極大團(tuán),獲取至少一個核心團(tuán);[0017]分析單元,用于基于所述獲取到的極大團(tuán)和/或核心團(tuán),進(jìn)行微博用戶群體行為分析。
[0018]本發(fā)明提供的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法及系統(tǒng),通過獲取目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息;根據(jù)所述目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息,構(gòu)建微博用戶關(guān)聯(lián)網(wǎng)絡(luò);從所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中,獲取至少一個極大團(tuán);基于所述極大團(tuán),獲取至少一個核心團(tuán);基于所述獲取到的極大團(tuán)和/或核心團(tuán),進(jìn)行微博用戶群體行為分析。采用本發(fā)明提供的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法及系統(tǒng)可以充分說明微博用戶之間的復(fù)雜關(guān)系,還可以提高微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析的速度,滿足大規(guī)模數(shù)據(jù)處理的需求。
【專利附圖】
【附圖說明】
[0019]圖1為本發(fā)明實施例提供的一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法的流程圖;
[0020]圖2為本發(fā)明提供的一種微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中用戶結(jié)點及其對應(yīng)關(guān)聯(lián)關(guān)系的復(fù)合數(shù)據(jù)結(jié)構(gòu)示意圖;
[0021]圖3為本發(fā)明實施例子提供的一種微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中極大團(tuán)發(fā)現(xiàn)示意圖;
[0022]圖4為本發(fā)明實施例子提供的一種微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中核心團(tuán)識別示意圖;
[0023]圖5為本發(fā)明實施例提供的一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實施方式】
[0024]下面結(jié)合附圖對本發(fā)明實施例提供的一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法及系統(tǒng)進(jìn)行詳細(xì)描述。
[0025]首先,需要對本發(fā)明以下實施例子中出現(xiàn)的相關(guān)概念進(jìn)行說明;具體如下:
[0026]群體:是指基于共同的興趣、愛好及其它關(guān)系,相互之間聯(lián)系相對比較緊密的微博用戶組成的集合;
[0027]極大團(tuán):是指給定圖G,對于任意子圖G’,令V(G’)和E(G’)分別表示其包含的結(jié)點和邊集合,如果vi和vj屬于V(G’),且存在ei,j屬于E(G’),那么子圖G’稱為團(tuán)。如果不存在其它團(tuán)包含G’,稱G’為極大團(tuán)。
[0028]核心團(tuán):是指在給定圖G中,對于任意的結(jié)點Vi屬于V(G),由于Vi所處的極大團(tuán)包含了與Vi聯(lián)系最為緊密的一組結(jié)點,因此集合Ci (包含Vi的所有極大團(tuán))包含了結(jié)點Vi最為密集的臨近區(qū)域,并稱為結(jié)點Vi的社會關(guān)系圈。對于任意兩個結(jié)點vi,vj,如果Vi的社會關(guān)系圈涵蓋了絕大部分Vj的社會關(guān)系圈,那么我們認(rèn)為結(jié)點Vj是結(jié)點Vi的一部分社會聯(lián)系,并稱為Ci包含Cj。如果結(jié)點vi的社會關(guān)系圈Ci不被其它任何結(jié)點的社會關(guān)系圈所包含,說明Ci內(nèi)部的結(jié)點聯(lián)系足夠緊密并且具有足夠的規(guī)模,那么Ci可以獨立成為給定圖G的核心。
[0029]基于以上概念的說明,如圖1所示,為本發(fā)明實施例子提供的一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法,該方法包括:
[0030]101:獲取目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息;所述目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息可以采用微博爬蟲實現(xiàn)行為數(shù)據(jù)信息的采集、過濾和存儲;所述微博用戶的行為數(shù)據(jù)信息包括:微博用戶屬性信息、關(guān)注信息,微博消息轉(zhuǎn)發(fā)、評論信息。
[0031]102:根據(jù)所述目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息,構(gòu)建微博用戶關(guān)聯(lián)網(wǎng)絡(luò);該步驟,在用戶的行為數(shù)據(jù)信息的基礎(chǔ)上,實現(xiàn)用戶關(guān)聯(lián)關(guān)系的抽取和微博用戶關(guān)聯(lián)網(wǎng)絡(luò)的構(gòu)建。所述關(guān)聯(lián)關(guān)系定義如下:
[0032](I)如果用戶之間存在關(guān)注關(guān)系,則認(rèn)為用戶之間存在關(guān)聯(lián)關(guān)系,關(guān)注關(guān)系可以通過查詢用戶的關(guān)注列表獲得;
[0033](2)如果用戶之間不存在關(guān)注關(guān)系,但是存在較多的評論、轉(zhuǎn)發(fā)關(guān)系,則認(rèn)為用戶之間存在關(guān)聯(lián)關(guān)系。偶然的評論、轉(zhuǎn)發(fā)并不能充分說明用戶之間的內(nèi)在關(guān)系,通過評論、轉(zhuǎn)發(fā)關(guān)系而推斷出用戶之間的關(guān)聯(lián)關(guān)系也是非常復(fù)雜的問題,但是評論、轉(zhuǎn)發(fā)關(guān)系仍然反應(yīng)了事物的內(nèi)在規(guī)律性。在這里,借用經(jīng)驗性的結(jié)論“事不過三”,當(dāng)用戶A對用戶B發(fā)布的微博消息,轉(zhuǎn)發(fā)評論的次數(shù)超過3次以上時,就判定用戶A和用戶B之間存在關(guān)聯(lián)關(guān)系。為了使評價指標(biāo)更具合理性,加入另外的判定條件,轉(zhuǎn)發(fā)評論的次數(shù)超過3次以上且用戶A對用戶B發(fā)布的微博消息的30%以上存在評論、轉(zhuǎn)發(fā)關(guān)系時,就判定用戶A和用戶B之間存在關(guān)聯(lián)關(guān)系。
[0034](3)如果用戶之間即不存在關(guān)注關(guān)系,也不存在評論、轉(zhuǎn)發(fā)關(guān)系,但是用戶微博消息、評論轉(zhuǎn)發(fā)消息存在較強(qiáng)的相關(guān)性,則認(rèn)為用戶之間存在關(guān)聯(lián)關(guān)系。微博消息之間的相似性即文本相似性,由于微博內(nèi)容比較短小,單條微博內(nèi)容所包含的信息量較少,依次比較兩個微博用戶每條微博,并不能達(dá)到很好效果。在此,采用增體比較策略,即將微博用戶發(fā)布、轉(zhuǎn)發(fā)、評論作為一個整體,然后比較整體相似度。
[0035](4)如果上述3中情況都不滿足,則認(rèn)為用戶之間不存在關(guān)聯(lián)關(guān)系。
[0036]按照所述關(guān)聯(lián)關(guān)系的定義,遍歷步驟101所獲取的目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息集,按照關(guān)聯(lián)關(guān)系的定義提取微博用戶之間的關(guān)聯(lián)關(guān)系。
[0037]在所述步驟101和步驟102處理的基礎(chǔ)上,采用由map和set組成的復(fù)合數(shù)據(jù)結(jié)構(gòu)map〈set>來存儲微博用戶關(guān)聯(lián)關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)(如圖2所示),map用來存儲不重復(fù)的微博用戶結(jié)點,每個用戶結(jié)點對應(yīng)一個由set存儲的不重復(fù)的存在關(guān)聯(lián)關(guān)系的微博用戶結(jié)點。
[0038]103:從所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中,獲取至少一個極大團(tuán);例如:如圖3所示,該步驟在無向無權(quán)圖G中,基于搜索三角形并配合一定的剪枝策略來枚舉出所有的極大團(tuán)。以下實例中的符號NL(V)為對結(jié)點進(jìn)行編號后,結(jié)點V的所有鄰接點中,所有序號比V大的結(jié)點;TR(vi,vj)為和結(jié)點vi,vj能夠形成三角形的結(jié)點集合;基于圖3,獲取極大團(tuán)的具體方案如下
[0039]按照結(jié)點序號大小進(jìn)行深度遍歷來搜索極大團(tuán)。從編號為O的結(jié)點開始遍歷,有NL(O) = {1,2,3}。首先,選者NL(O)中序號最小的I號結(jié)點,那么得到當(dāng)前的團(tuán)結(jié)構(gòu)為{0,1},而可以用來擴(kuò)展當(dāng)前團(tuán)結(jié)構(gòu)的候選結(jié)點集合為TR(0,I) = {2,3};然后,從TR(0,I)中進(jìn)一步選擇序號最小的2號結(jié)點,有NL(2) = {3,4},并且擴(kuò)展當(dāng)前團(tuán)結(jié)構(gòu)為{0,1,2}。因為TR(1,2) = TR(0,1) H NL⑵={3},所以需要繼續(xù)從結(jié)點2和3出發(fā)來遞歸地構(gòu)造集合TR(2,3)進(jìn)一步擴(kuò)展當(dāng)前團(tuán)結(jié)構(gòu){0,1,2}。然而,由于 TR(2,3) =TR(1,2) H NL(3) = {},因此得到候選極大團(tuán){0,1,2,3}并退回到結(jié)點I。由于在TR(0,1) = {2,3}中,結(jié)點2已經(jīng)被遍歷過,所以選擇結(jié)點3來擴(kuò)展團(tuán)結(jié)構(gòu){0,1}。從結(jié)點3開始遍歷,有TR(1,3) = TR(0,
I)HNL(3) = {},因此得到候選極大團(tuán){0,1,3}并返回到結(jié)點I。由于集合TR(0,1) = {2,3}中的結(jié)點均被遍歷過,因而進(jìn)一步回退到結(jié)點O并在NL(O) = {1,2,3}中選擇下一個結(jié)點2,并得到TR(0,2)=⑶。然后,從結(jié)點3出發(fā),我們發(fā)現(xiàn)TR(2,3) = TR (O, 2) H NL (3)=H,因此得到候選極大團(tuán){0,2,3},并且退到結(jié)點O。最后在NL(O)中選擇結(jié)點3,發(fā)現(xiàn)TR(O, 3) = {},因此搜索過程結(jié)束。
[0040]從圖3中可以發(fā)現(xiàn),由于{0,1,3}、{0,2,3}和{1,2,3}已經(jīng)被包含在{0,1,2,3}中,所以在搜索遍歷的過程中,沒有必要再去遍歷它們所在的分支。剪枝策略就是為了減少不必要的遍歷過程,具體做法是:將已經(jīng)發(fā)現(xiàn)的極大團(tuán){0,1,2,3}編號為0,對于該極大團(tuán)中的每一個結(jié)點設(shè)定標(biāo)記為0,當(dāng)分別從內(nèi)部結(jié)點{0,1}、{0,2}、{1,2}進(jìn)行擴(kuò)展時,它們的擴(kuò)展結(jié)點與它們本身具有相同團(tuán)標(biāo)記,即這些團(tuán)結(jié)構(gòu)包含在已知的極大團(tuán)中,可以不予處理這些分支。在圖3中,虛線部分都是可以剪掉的分支,對于從{1}到{1,2,4}的分支,由于I,2,4不共享相同的團(tuán)標(biāo)記,因此要進(jìn)行遍歷操作。
[0041]104:基于所述極大團(tuán),獲取至少一個核心團(tuán);例如圖4所示,該步驟在極大團(tuán)結(jié)構(gòu)的基礎(chǔ)上,分析每個用戶結(jié)點的社會關(guān)系圈,基于社會關(guān)系圈包含合并策略,濾取出網(wǎng)絡(luò)中的核心團(tuán)結(jié)構(gòu)。對于任意兩個結(jié)點vi,vj,如果Vi的社會關(guān)系圈涵蓋了絕大部分Vj的社會關(guān)系圈,即ICi n Cj I/1Cj >f,那么認(rèn)為Ci包含Cj,應(yīng)該進(jìn)行合并,如果Ci不被其它任何社會關(guān)系圈包含,則認(rèn)為Ci為網(wǎng)絡(luò)核心。在圖4中,結(jié)點v0包含在4個極大團(tuán)中;所述4 個極大團(tuán)如下所示:C0 = {|v0, vl, v4, v5}, {v0, vl, v3, v4}, {v0, v2, v3, v4}, {v0, v4,v5, v6}};對于結(jié)點 vl,因為它的社會關(guān)系圈 Cl = {{vO, vl, v4, v5}, {vO, vl, v3, v4}}是結(jié)點vO的社會關(guān)系圈CO的真子集,可以很直觀地看出結(jié)點vO和vl實際上處于聯(lián)系緊密的同一社區(qū)內(nèi),因此,Cl不能獨立地成為圖4所示網(wǎng)絡(luò)的核心。相類似地,C2,C3,C4,C5同樣包含在 CO 中,而 C8,C9,C10,Cll 則包含在 C7 = {{v3, v7, vll}, {v7, v8, v9, vlO}, {v7,v9, vlO, vll}}中。因為,I Cl Π C7 I / I C7 = 0,所以Cl,C7是圖4所示網(wǎng)絡(luò)的兩個核心。
[0042]需要說明的是,在所述發(fā)現(xiàn)的網(wǎng)絡(luò)核心中存在公共結(jié)點,為了避免網(wǎng)絡(luò)核心的重復(fù)性,需要進(jìn)行去重處理。對于所有的公共結(jié)點(即公共微博用戶)集合Common中的結(jié)點vi和網(wǎng)絡(luò)核心集合Center的核心Ck,根據(jù)Fream中心性來計算結(jié)點vi在Ck對應(yīng)子圖的
重要性,具體計算公式為:
【權(quán)利要求】
1.一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法,其特征在于,包括: 獲取目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息; 根據(jù)所述目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息,構(gòu)建微博用戶關(guān)聯(lián)網(wǎng)絡(luò); 從所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中,獲取至少一個極大團(tuán); 基于所述極大團(tuán),獲取至少一個核心團(tuán); 基于所述獲取到的極大團(tuán)和/或核心團(tuán),進(jìn)行微博用戶群體行為分析。
2.根據(jù)權(quán)利要求1所述的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法,其特征在于,所述構(gòu)建微博用戶關(guān)聯(lián)網(wǎng)絡(luò)的步驟,包括: 根據(jù)所述目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息,采用關(guān)聯(lián)關(guān)系評價模型,建立微博用戶之間的關(guān)聯(lián)關(guān)系; 根據(jù)所述建立的微博用戶之間關(guān)聯(lián)關(guān)系,令微博用戶為結(jié)點,關(guān)聯(lián)關(guān)系為邊,構(gòu)建微博用戶關(guān)聯(lián)網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求2所述的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法,其特征在于,所述獲取至少一個極大團(tuán)的步驟,具體包括: 采用基于搜索三角形方法,并配合一定的剪枝策略,獲取所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中所有的極大團(tuán)。
4.根據(jù)權(quán)利要求3所述的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法,其特征在于,所述獲取至少一個核心團(tuán)的步驟,具體包括: 基于所述極大團(tuán),分析每個微博用戶與其他微博用戶的社會關(guān)系圈,基于所述社會關(guān)系圈包含合并策略,濾取出微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中的核心團(tuán)。
5.根據(jù)權(quán)利要求4所述的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法,其特征在于,所述獲取至少一個核心團(tuán)的步驟,還包括: 獲取所述核心團(tuán)之間存在的公共微博用戶; 將所述公共微博用戶重新劃分到對應(yīng)的核心團(tuán)中,以使各個核心團(tuán)之間不存在公共微博用戶。
6.根據(jù)權(quán)利要求5所述的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法,其特征在于,該方法還包括: 基于所述核心團(tuán),將所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中余下的用戶按照一定的距離定義歸并到相應(yīng)的最近網(wǎng)絡(luò)核心團(tuán)中; 采用層次聚類算法合并所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中的核心團(tuán),以取得最終微博用戶群體結(jié)構(gòu)劃分。
7.一種微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析系統(tǒng),其特征在于,包括: 信息獲取單元,用于獲取目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息; 關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建單元,用于根據(jù)所述目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息,構(gòu)建微博用戶關(guān)聯(lián)網(wǎng)絡(luò); 極大團(tuán)獲取單元,用于從所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中,獲取至少一個極大團(tuán); 核心團(tuán)獲取單元,用于基于所述極大團(tuán),獲取至少一個核心團(tuán); 分析單元,用于基于所述獲取到的極大團(tuán)和/或核心團(tuán),進(jìn)行微博用戶群體行為分析。
8.根據(jù)權(quán)利要求7所述的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析系統(tǒng),其特征在于,所述關(guān)聯(lián)網(wǎng)絡(luò)構(gòu)建單元,包括:根據(jù)所述目標(biāo)群體中微博用戶的行為數(shù)據(jù)信息,采用關(guān)聯(lián)關(guān)系評價模型,建立微博用戶之間的關(guān)聯(lián)關(guān)系;根據(jù)所述建立的微博用戶之間關(guān)聯(lián)關(guān)系,令微博用戶為結(jié)點,關(guān)聯(lián)關(guān)系為邊,構(gòu)建微博用戶關(guān)聯(lián)網(wǎng)絡(luò)。
9.根據(jù)權(quán)利要求8所述的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析系統(tǒng),其特征在于,所述極大團(tuán)獲取單元,具體包括: 采用基于搜索三角形方法,并配合一定的剪枝策略,獲取所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中所有的極大團(tuán)。
10.根據(jù)權(quán)利要求9所述的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析系統(tǒng),其特征在于,所述核心團(tuán)獲取單元,具體包括:基于所述極大團(tuán),分析每個微博用戶與其他微博用戶的社會關(guān)系圈,基于所述社會關(guān)系圈包含合并策略,濾取出微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中的核心團(tuán)。
11.根據(jù)權(quán)利要求10所述的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析方法,其特征在于,所述核心團(tuán)獲取單元,還包括:獲取所述核心團(tuán)之間存在的公共微博用戶;將所述公共微博用戶重新劃分到對應(yīng)的核心團(tuán)中,以使各個核心團(tuán)之間不存在公共微博用戶。
12.根據(jù)權(quán)利要求11所述的微博用戶群體結(jié)構(gòu)發(fā)現(xiàn)分析系統(tǒng),其特征在于,該系統(tǒng)還包括: 歸并單元,用于基于所述核心團(tuán),將所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中余下的用戶按照一定的距離定義歸并到相應(yīng)的最近網(wǎng)絡(luò)核心團(tuán)中; 優(yōu)化單元,用于采用層次聚類算法合并所述微博用戶關(guān)聯(lián)網(wǎng)絡(luò)中的核心團(tuán),以取得最終微博用戶群體結(jié)構(gòu)劃分。
【文檔編號】G06F17/30GK103914493SQ201310008052
【公開日】2014年7月9日 申請日期:2013年1月9日 優(yōu)先權(quán)日:2013年1月9日
【發(fā)明者】趙立永, 于曉明, 楊建武, 鄭妍 申請人:北大方正集團(tuán)有限公司, 北京大學(xué), 北京北大方正電子有限公司