亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于通信時空特征的演變網(wǎng)絡(luò)特殊群體挖掘方法及系統(tǒng)與流程

文檔序號:11231281閱讀:1053來源:國知局
一種基于通信時空特征的演變網(wǎng)絡(luò)特殊群體挖掘方法及系統(tǒng)與流程

本發(fā)明涉及通訊單社區(qū)發(fā)現(xiàn)技術(shù)領(lǐng)域,特別涉及一種基于通信時空特征的演變網(wǎng)絡(luò)特殊群體挖掘方法及系統(tǒng)。



背景技術(shù):

當今社會正處于數(shù)據(jù)爆發(fā)式增長的大數(shù)據(jù)時代。人們在社交媒體上以一種前所未有的速度交流、分享、聯(lián)絡(luò)、互動,同時產(chǎn)生極具規(guī)模的數(shù)據(jù)。電話、短信這種傳統(tǒng)社交媒體在當今時代依舊起著溝通聯(lián)絡(luò)的主導地位。

社交媒體的發(fā)展產(chǎn)生了大量的數(shù)據(jù),對于社會科學、商業(yè)發(fā)展、人類進步帶來了巨大潛力,社交媒體挖掘就是一種伴隨著社交媒體高速發(fā)展的新型研究領(lǐng)域,它是一種社會學與計算科學的交叉研究型學科,經(jīng)常使用或綜合研究多個領(lǐng)域如統(tǒng)計學、數(shù)據(jù)挖掘、機器學習、社會心理學等。

社區(qū)也稱為群組(group)、集群(cluster)等,直觀上,是指網(wǎng)絡(luò)中的一些密集群體,每個社區(qū)內(nèi)部的結(jié)點間的聯(lián)系相對緊密,它在社會學領(lǐng)域中已經(jīng)被廣泛、深入的研究。社區(qū)發(fā)現(xiàn)主要針對與顯示社區(qū)相對的隱式社區(qū)挖掘。本發(fā)明主要針對于,傳統(tǒng)通信媒體網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn),傳統(tǒng)社區(qū)發(fā)現(xiàn)聚類算法主要有如下幾類:

現(xiàn)有方法一:層次聚類,假設(shè)社區(qū)是存在層次結(jié)構(gòu),計算網(wǎng)絡(luò)中每對節(jié)點的相似程度,根據(jù)相似程度進行進一步劃分,主要有如下兩種劃分方法:凝聚法,根據(jù)節(jié)點對的相似度從強到弱進行連接,形成樹狀圖,然后根據(jù)需求對樹狀圖進行橫切,最終獲得社區(qū)結(jié)構(gòu);分裂法,依照得出的相似度,找出節(jié)點對中相互關(guān)聯(lián)最弱的節(jié)點,刪除他們之間的邊,反復操作將社交網(wǎng)絡(luò)劃分為越來越小的組件,最終連通的網(wǎng)絡(luò)構(gòu)成社區(qū)。

現(xiàn)有方法二:劃分聚類,劃分聚類就是典型的機器學習中無監(jiān)督學習的聚類方法,該種聚類方法很多,k-means算法是最為經(jīng)典的基于劃分的聚類方法,該方法是將數(shù)據(jù)依照不同特征標準化后計算相應的距離,往往使用歐式距離進行計算,初始以空間中隨機k個點為中心進行聚類,對最靠近他們的對象歸類,通過迭代的方法,逐次更新各聚類中心,直至得到最好的聚類結(jié)果;

現(xiàn)有方法三:譜聚類,建立在譜圖理論基礎(chǔ)上,根據(jù)給定的樣本數(shù)據(jù)集定義一個描述成對數(shù)據(jù)點相似度的拉普拉斯矩陣,并且計算矩陣的特征值和特征向量,然后選擇合適的特征向量聚類不同的點。其本質(zhì)是將聚類問題轉(zhuǎn)化為圖的最優(yōu)劃分問題,是一種點對聚類算法。

隨著即時通信的不斷發(fā)展,演變社交網(wǎng)絡(luò)的研究也越來越引起社交媒體挖掘的研究者的關(guān)注,主要針對演變網(wǎng)絡(luò)的聚類方法有:

現(xiàn)有方法四:演變聚類算法,chakrabarti在2006年最先提出的演變社交網(wǎng)絡(luò),并提出了一種時間平滑性框架。時間平滑性框架的是使任意時刻聚類表現(xiàn)的盡可能的好,并且使聚類在時間上具有平滑性。演變聚類算法就是將當前時間的聚類,跟歷史的聚類做比較得出偏差,利用時間平滑框架中的時間懲罰因子做計算,最終得出當前時刻的聚類結(jié)果。

現(xiàn)有方法缺陷:現(xiàn)有方法一,假設(shè)社區(qū)存在層級結(jié)構(gòu)的基礎(chǔ)上進行的,傳統(tǒng)通信媒體網(wǎng)絡(luò)往往不具備層次結(jié)構(gòu),從傳統(tǒng)通信媒體網(wǎng)絡(luò)結(jié)構(gòu)考慮,使用現(xiàn)有方法一進行社區(qū)發(fā)現(xiàn)不滿足條件。現(xiàn)有方法二,傳統(tǒng)劃分聚類,應用于很多領(lǐng)域,經(jīng)實踐證明具有較好的實用效果,但針對傳統(tǒng)通信媒體網(wǎng)絡(luò)的某些具有在不定時間、不定地點集會特征的特殊群體的挖掘方面上,不具備很強的優(yōu)勢,傳統(tǒng)通信媒體網(wǎng)絡(luò)在針對案發(fā)時間和地點方面屬于演變的社交網(wǎng)絡(luò),且通訊單中數(shù)據(jù)特征不適合用于表示網(wǎng)絡(luò)中節(jié)點距離,固現(xiàn)有技術(shù)二不滿足本發(fā)明的使用場景。現(xiàn)有方法三,與其他兩種方法比較具有能在任意形狀的樣本空間上聚類且收斂于全局最優(yōu)解的優(yōu)點,而且通過計算得出的拉普拉斯矩陣的特征向量雖然方便用于現(xiàn)有方法二的聚類,但在演變的社交網(wǎng)絡(luò),特別是針對特殊群體集會的時間、地點等因素的演變社交網(wǎng)絡(luò)不滿足條件?,F(xiàn)有方法四,雖考慮了時間的因素,但卻忽視了集會地點這個至關(guān)重要的因素,而且特殊群體集會時個體往往交替出現(xiàn),演變聚類算法在使用時間代價的同時可能將不長出現(xiàn)的個體排除在聚類外,固現(xiàn)有方法四也不適用于某些會在不定時間、地點集會的特殊群體的挖掘任務(wù)。



技術(shù)實現(xiàn)要素:

發(fā)明人在進行針對具有不定時間不定地點集會特征的特殊群體挖掘研究時,發(fā)現(xiàn)現(xiàn)有方法三的缺陷是由于沒有考慮到針對特殊群體的集會時間和地點等因素的考慮導致的,發(fā)明人經(jīng)過調(diào)查、研究并參考現(xiàn)有方法四演變網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的研究發(fā)現(xiàn),在考慮特殊群體集會的案發(fā)時間和地點等因素的基礎(chǔ)上,將演變的傳統(tǒng)通信媒體網(wǎng)絡(luò)變成多個靜態(tài)網(wǎng)絡(luò),利用現(xiàn)有方法三的拉普拉斯矩陣特征向量和現(xiàn)有方法二的k-means聚類方法將每一個靜態(tài)網(wǎng)絡(luò)進行聚類,然后針對總體的演變的傳統(tǒng)通信媒體網(wǎng)絡(luò)采用投票機制挖掘出最終的特殊群體,因此本發(fā)明提出一種基于通信時空特征的演變網(wǎng)絡(luò)特殊群體挖掘方法及系統(tǒng)。

本發(fā)明提出一種基于通信時空特征的演變網(wǎng)絡(luò)特殊群體挖掘方法,包括:

步驟1,根據(jù)通信數(shù)據(jù),獲取時間特征數(shù)據(jù)與空間特征數(shù)據(jù),其中所述空間特征數(shù)據(jù)為產(chǎn)生所述通信數(shù)據(jù)的地點;

步驟2,按照所述時間特征數(shù)據(jù)與所述空間特征數(shù)據(jù)及通信關(guān)系,構(gòu)建靜態(tài)通信網(wǎng)絡(luò),并構(gòu)建與所述靜態(tài)通信網(wǎng)絡(luò)相對應的拉普拉斯矩陣,計算矩陣特征向量,并對矩陣特征向量進行聚類,將聚類分為特殊群體和非特殊群體兩種類簇,并獲取聚類結(jié)果;

步驟3,根據(jù)所述聚類結(jié)果,采取投票機制,獲取最終特殊群體聚類結(jié)果。

通過逆地址解析將將所述通信數(shù)據(jù)中的基站數(shù)據(jù)轉(zhuǎn)化為經(jīng)緯度地點數(shù)據(jù)。

所述靜態(tài)通信網(wǎng)絡(luò)為無向加權(quán)通信圖。

所述步驟3中所述投票機制為設(shè)投票閾值為n,采用迭代方法找到滿足閾值的結(jié)果。

還包括對所述最終特殊群體聚類結(jié)果進行評價,評價公式為:

準確率pred的計算公式:

其中accuate是準確判斷出所述群體電話號碼的數(shù)量,n是電話號碼總個數(shù);

召回率recall的計算公式:

其中realsum是經(jīng)驗證的所述群體使用的電話號碼;

根據(jù)準確率pred與召回率recall計算評價標準f1值,計算所述評價標準f1值的計算公式如下:

本發(fā)明還提出一種基于通信時空特征的演變網(wǎng)絡(luò)特殊群體挖掘系統(tǒng),包括:

獲取數(shù)據(jù)模塊,用于根據(jù)通信數(shù)據(jù),獲取時間特征數(shù)據(jù)與空間特征數(shù)據(jù),其中所述空間特征數(shù)據(jù)為產(chǎn)生所述通信數(shù)據(jù)的地點;

聚類模塊,用于按照所述時間特征數(shù)據(jù)與所述空間特征數(shù)據(jù)及通信關(guān)系,構(gòu)建靜態(tài)通信網(wǎng)絡(luò),并構(gòu)建與所述靜態(tài)通信網(wǎng)絡(luò)相對應的拉普拉斯矩陣,計算矩陣特征向量,并對矩陣特征向量進行聚類,將聚類分為特殊群體和非特殊群體兩種類簇,并獲取聚類結(jié)果;

獲取結(jié)果模塊,用于根據(jù)所述聚類結(jié)果,采取投票機制,獲取最終特殊群體聚類結(jié)果。

通過逆地址解析將將所述通信數(shù)據(jù)中的基站數(shù)據(jù)轉(zhuǎn)化為經(jīng)緯度地點數(shù)據(jù)。

所述靜態(tài)通信網(wǎng)絡(luò)為無向加權(quán)通信圖。

所述獲取結(jié)果模塊中所述投票機制為設(shè)投票閾值為n,采用迭代方法找到滿足閾值的結(jié)果。

還包括對所述最終特殊群體聚類結(jié)果進行評價,評價公式為:

準確率pred的計算公式:

其中accuate是準確判斷出所述群體電話號碼的數(shù)量,n是電話號碼總個數(shù);

召回率recall的計算公式:

其中realsum是經(jīng)驗證的所述群體使用的電話號碼;

根據(jù)準確率pred與召回率recall計算評價標準f1值,計算所述評價標準f1值的計算公式如下:

由以上方案可知,本發(fā)明的優(yōu)點在于:

本發(fā)明可幫助用戶對具有不定時間不定地點集會特征的特殊群體進行挖掘和發(fā)現(xiàn)。

附圖說明

圖1為本發(fā)明流程圖;

圖2為無向加權(quán)圖。

具體實施方式

本發(fā)明中“特殊群體”為一種具有不定時間不定地點集會特征的隱藏群體。

以下為本發(fā)明的總體流程,如下所示:

步驟1,針對通信數(shù)據(jù)將其中的基站數(shù)據(jù)轉(zhuǎn)化為經(jīng)緯度從而確定通信數(shù)據(jù)產(chǎn)生的地點,提取符合案件時空特征的數(shù)據(jù);

步驟2,將整體通信數(shù)據(jù)構(gòu)建的傳統(tǒng)通信媒體網(wǎng)絡(luò),按照每個集會的不同的時空特征及通信關(guān)系構(gòu)建靜態(tài)的通信網(wǎng)絡(luò);

步驟3,按照不同時空特征的靜態(tài)通信網(wǎng)絡(luò),構(gòu)建與之對應的拉普拉斯矩陣,利用譜聚類中計算矩陣特征向量,選用合適的特征向量,使用k-means聚類方法進行聚類,得出聚類結(jié)果;

步驟4,根據(jù)每個靜態(tài)網(wǎng)絡(luò)聚類結(jié)果,采用投票機制,得出最終的聚類結(jié)果,該聚類結(jié)果就是總的演變的傳統(tǒng)通信媒體網(wǎng)絡(luò)的特殊群體挖掘結(jié)果。

以下為本發(fā)明的一實施例:

如圖1所示,本發(fā)明的實驗數(shù)據(jù)來源于真實的團伙犯罪案件。根據(jù)實驗數(shù)據(jù)的通信時空特征構(gòu)建演變網(wǎng)絡(luò),并從中挖掘出特殊群體即案件中的犯罪團伙,具體實施方式如下所示:

s01、根據(jù)集會時間選取符合時間特征數(shù)據(jù)。

警察依照作案手段、手法、時間、地點的綜合考慮,實驗數(shù)據(jù)中多起案件均來自于同一個犯罪團伙。每起案件有詳細的案發(fā)時間和案發(fā)地點,即特殊群體中的集會時間和集會地點。

根據(jù)生活經(jīng)驗,特殊群體在進行集會前會進行大量的聯(lián)系,同樣按照警察刑偵經(jīng)驗,團伙犯罪案件中,犯罪團伙在實施犯罪前,需要選擇犯罪地點和目標,并對目標進行觀察從而制定高效的犯罪行為,犯罪團伙在進行觀察、制定方案過程中需要通過電話、短信、微信等社交媒體進行大量的聯(lián)絡(luò)。

依照上述特征,選取特殊群體集會時間,即該實驗中每起案件案發(fā)時間,該時間前幾日內(nèi)的電話、短信數(shù)據(jù)進行保留,與集會無關(guān)的時間采取忽略策略。

s02、將lac(位置區(qū)碼)、ci(小區(qū)識別)轉(zhuǎn)換為經(jīng)緯度。

從電信運營商中取得的通信數(shù)據(jù)中,有用于確定移動臺的位置標示位置區(qū)的lac(位置區(qū)碼)和具有唯一標示的運營商定義的小區(qū)編碼ci(小區(qū)識別)等兩類字段值,通過這兩類值可以獲取到某條通信數(shù)據(jù)產(chǎn)生于哪個基站,將用于基站的lac(位置區(qū)碼)和ci(小區(qū)識別)轉(zhuǎn)化為地理信息系統(tǒng)中常使用的經(jīng)緯度坐標,用以判定通信數(shù)據(jù)產(chǎn)生的位置。

s03、根據(jù)集會地點的經(jīng)緯度選取符合空間特征數(shù)據(jù)。

實驗數(shù)據(jù)中的每起案件的案發(fā)地點,即集會地點,通過逆地址解析的方法,將案件的案發(fā)地點轉(zhuǎn)換為地理信息系統(tǒng)中常使用的經(jīng)緯度坐標,然后,以每起案件中案發(fā)地點經(jīng)緯度為中心取一個大致范圍,根據(jù)步驟s02中轉(zhuǎn)換后的經(jīng)緯度坐標,將在該區(qū)域內(nèi)產(chǎn)生的電話、短信數(shù)據(jù)進行保留,不在該范圍內(nèi)產(chǎn)生的數(shù)據(jù)則不做考慮。

s04、依照集會時空特征獲取通信數(shù)據(jù)

傳統(tǒng)社交媒體中的電話和短信屬于即時通信范圍,即時通信的網(wǎng)絡(luò)會隨著時間的推演不斷產(chǎn)生變化。任何時間點內(nèi)產(chǎn)生的交互數(shù)據(jù)是有限的,按照任何時間點進行社區(qū)發(fā)現(xiàn)是不合理的,固這里將整體的演變網(wǎng)絡(luò),取不同時間段的產(chǎn)生的靜態(tài)網(wǎng)絡(luò)進行挖掘,根據(jù)每個靜態(tài)網(wǎng)絡(luò)的挖掘結(jié)果,構(gòu)建整個演變網(wǎng)絡(luò)的挖掘結(jié)果。

考慮到特殊群體的通信特點和集會流程,加入集會地點因素,即取集會地點經(jīng)緯度坐標為中心的一定范圍的圓區(qū)內(nèi)。按照步驟s01和s03得出的數(shù)據(jù),取不同集會的不同的時空特征,即集會前一段時間和集會地點一定范圍內(nèi),選取滿足條件的通信數(shù)據(jù)。

本發(fā)明實驗中則采用不同案件的時空特征,即案發(fā)前一段時間和案發(fā)地點一定范圍內(nèi),選取滿足條件的通信數(shù)據(jù)。

s05、構(gòu)建每次集會的無向加權(quán)通信圖。

無向圖g=<v,e>,其中:v是非空集合,稱為頂點集;e是v中元素構(gòu)成的無序二元組的集合,稱為邊集。由頂點的集合和邊的集合共同構(gòu)建的沒有方向的圖,稱為無向圖。

對圖的每一條邊e來說,都對應于一個實數(shù)w(e),我們把w(e)稱為邊e的權(quán)重。把這樣的無向圖g稱為無向加權(quán)圖。無向加權(quán)圖,如下圖2所示。

按照步驟s04取出滿足每次集會的時空特征的通信數(shù)據(jù),根據(jù)取出的通信數(shù)據(jù),按照通信關(guān)系,即不同號碼間有過電話、短信等聯(lián)系,例如號碼a與號碼b在集會時間、集會地點范圍內(nèi)打過電話或者發(fā)過短信一次,則在網(wǎng)絡(luò)中將頂點a與頂點b連接并將該權(quán)重加1,通過這種方式構(gòu)建每次集會,即實驗中每起案件的無向加權(quán)通信網(wǎng)絡(luò),如下圖2所示,頂點a與頂點b鄰接邊權(quán)重為2,表示為號碼a與號碼b在集會時間和集會地點范圍內(nèi)有過兩次聯(lián)絡(luò)。

每次集會的無向加權(quán)通信圖,就是整個演變網(wǎng)絡(luò)中根據(jù)不同集會時空特征提取的靜態(tài)網(wǎng)絡(luò)。

s06、構(gòu)建與無向加權(quán)通信圖相關(guān)的拉普拉斯矩陣。

拉普拉斯矩陣(laplacianmatrix)也叫做導納矩陣、基爾霍夫矩陣或離散拉普拉斯算子,主要應用在圖論中,作為一個圖的矩陣表示。拉普拉斯特征向量可以將處于流形上的數(shù)據(jù),在盡量保留原數(shù)據(jù)間相似度的情況下,映射到低維度下表示。

本發(fā)明考慮通信話單不同維度的數(shù)據(jù)特征不具備可比較性,即使標準化后采用歐氏距離進行聚類仍存在嚴重不合理性,所以使用拉普拉斯矩陣的特征向量降維處理,然后聚類。

拉普拉斯矩陣公式如下所示:

l=d-a

其中d是度矩陣,a是鄰接矩陣,l是拉普拉斯矩陣。

構(gòu)建鄰接矩陣a,鄰接矩陣是表示頂點之間相鄰關(guān)系的矩陣,根據(jù)圖2構(gòu)建的鄰接矩陣a如下所示:

構(gòu)建度矩陣d,d根據(jù)圖中的入度、出度僅考慮其中一個構(gòu)建的對角矩陣,在本發(fā)明中無向加權(quán)通信圖中使用度的值構(gòu)建,根據(jù)圖2構(gòu)建的度矩陣d如下所示:

根據(jù)拉普拉斯矩陣公式,得出圖2的拉普拉斯矩陣l如下:

根據(jù)依照s05方法構(gòu)建的每次集會的無向加權(quán)通信圖,依照上述取得拉普拉斯矩陣的方法,構(gòu)建與無向加權(quán)通信圖圖相關(guān)的拉普拉斯矩陣。

s07、計算每個靜態(tài)網(wǎng)絡(luò)的拉普拉斯矩陣求特征向量α。

設(shè)a是n階矩陣,如果存在數(shù)λ和非零n維列向量α,使得公式成立,公式如下:

a*α=λ*α

λ是a的一個特征值。則非零n維列向量α稱為矩陣a的對應于特征值λ的特征向量,簡稱a的特征向量。

根據(jù)上述特征值計算公式,根據(jù)s06構(gòu)建的每起案件的拉普拉斯矩陣,可以得出每起案件拉普拉斯矩陣的特征向量。

s08、對每個靜態(tài)網(wǎng)絡(luò)的特征向量使用k-means進行聚類。

k-means算法的基本思想是:以空間中k個點為中心進行聚類,對最靠近他們的對象歸類。通過迭代的方法,逐次更新各聚類中心的值,直至得到最好的聚類結(jié)果。

假設(shè)要把樣本集分為c個類別,算法描述如下:

(1)隨機選擇c個類的初始中心;

(2)在第k次迭代中,對任意一個樣本,求其到c個中心的距離,將該樣本歸到距離最短的中心所在的類;

(3)利用均值等方法更新該類的中心值;

(4)對于所有的c個聚類中心,如果利用(2)(3)的迭代法更新后,中心值保持不變,則迭代結(jié)束,否則繼續(xù)迭代。

利用s07得出的每個靜態(tài)網(wǎng)絡(luò)的拉普拉斯矩陣的特征向量,選擇其中合適的特征向量使用上述算法對其劃分成兩個類,屬于特殊群體的聚類和不屬于特殊群體的聚類。從而,得出實驗數(shù)據(jù)中每起案件的犯罪團伙社區(qū)。

s09、根據(jù)每個靜態(tài)網(wǎng)絡(luò)挖掘出的特殊群體社區(qū)得出最終的特殊群體社區(qū)。

由根據(jù)s08的k-means算法挖掘出每個靜態(tài)網(wǎng)絡(luò)挖掘出的特殊群體社區(qū),采用投票機制設(shè)票數(shù)閾值為n,在每個靜態(tài)網(wǎng)絡(luò)挖掘出的特殊群體社區(qū)中出現(xiàn)的號碼記票數(shù)為1,對每個靜態(tài)網(wǎng)絡(luò)挖掘出的特殊群體社區(qū)進行遍歷,計算每個號碼的票數(shù),當號碼的票數(shù)達到閾值時,則將它記入整個演變網(wǎng)絡(luò)的特殊群體社區(qū)中,得出最終的特殊群體社區(qū)。

s10、對得出的結(jié)果進行評價。

用于本發(fā)明的通信數(shù)據(jù)中,有效電話號碼共1316個。團伙犯罪案件共14起,僅采用其中7起案件。最終,依照上述方法得出聚類結(jié)果共11個犯罪團伙嫌疑人電話號碼,經(jīng)警方驗證,整個犯罪團伙共使用8個號碼,其中4個出現(xiàn)在犯罪團伙的挖掘結(jié)果中。

準確率pred的計算公式:

其中accuate是準確判斷出犯罪嫌疑人電話號碼的數(shù)量,n是挖掘結(jié)果中共多少個電話號碼。依照上述公式得出最終演變網(wǎng)絡(luò)的犯罪團伙社區(qū)的準確率pred約為0.364。

召回率recall的計算公式:

其中accuate是準確判斷出犯罪嫌疑人電話號碼的數(shù)量,realsum是經(jīng)警方驗證的犯罪團伙使用的電話號碼。依照上述公式得出召回率recall為0.5。

利用準確率pred和召回率recall得出的結(jié)果,可以計算出更合理的評價標準f1值。f1值的計算公式如下:

依照上述公式得出整個演變網(wǎng)絡(luò)犯罪團伙挖掘的f1值約為0.421。

本發(fā)明還提出一種基于通信時空特征的演變網(wǎng)絡(luò)特殊群體挖掘系統(tǒng),包括:

獲取數(shù)據(jù)模塊,用于根據(jù)通信數(shù)據(jù),獲取時間特征數(shù)據(jù)與空間特征數(shù)據(jù),其中所述空間特征數(shù)據(jù)為產(chǎn)生所述通信數(shù)據(jù)的地點;

聚類模塊,用于按照所述時間特征數(shù)據(jù)與所述空間特征數(shù)據(jù)及通信關(guān)系,構(gòu)建靜態(tài)通信網(wǎng)絡(luò),并構(gòu)建與所述靜態(tài)通信網(wǎng)絡(luò)相對應的拉普拉斯矩陣,計算矩陣特征向量,并對矩陣特征向量進行聚類,將聚類分為特殊群體和非特殊群體兩種類簇,并獲取聚類結(jié)果;

獲取結(jié)果模塊,用于根據(jù)所述聚類結(jié)果,采取投票機制,獲取最終特殊群體聚類結(jié)果。

通過逆地址解析將將所述通信數(shù)據(jù)中的基站數(shù)據(jù)轉(zhuǎn)化為經(jīng)緯度地點數(shù)據(jù)。

所述靜態(tài)通信網(wǎng)絡(luò)為無向加權(quán)通信圖。

所述獲取結(jié)果模塊中所述投票機制為設(shè)投票閾值為n,采用迭代方法找到滿足閾值的結(jié)果。

還包括對所述最終特殊群體聚類結(jié)果進行評價,評價公式為:

準確率pred的計算公式:

其中accuate是準確判斷出所述群體電話號碼的數(shù)量,n是電話號碼總個數(shù);

召回率recall的計算公式:

其中realsum是經(jīng)驗證的所述群體使用的電話號碼;

根據(jù)準確率pred與召回率recall計算評價標準f1值,計算所述評價標準f1值的計算公式如下:

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1