基于lda模型及中心度算法的郵件網(wǎng)絡(luò)取證分析方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種基于LDA模型及中心度算法的郵件網(wǎng)絡(luò)取證分析方法。
【背景技術(shù)】
[0002] 如今,電子郵件的應(yīng)用已遍及社會(huì)各行各業(yè),它使得人們之間的溝通變得更加方 便快捷,但同時(shí)也為犯罪分子提供了犯罪的新途徑。一些違法犯罪分子利用電子郵件組織 并策劃一系列犯罪活動(dòng),甚至是利用電子郵件的形式進(jìn)行走私貨物的販賣。電子郵件犯罪 已經(jīng)對(duì)人們的財(cái)產(chǎn)安全造成嚴(yán)重的影響,作為數(shù)字取證的一個(gè)重要分支,電子郵件取證的 技術(shù)應(yīng)用問(wèn)題已成為當(dāng)前研究和討論的熱點(diǎn)。電子郵件數(shù)據(jù)不但記錄了通訊雙方的聯(lián)系, 還包含了通信的時(shí)間、頻率和內(nèi)容等信息,這些為數(shù)字取證調(diào)查提供了重要的數(shù)據(jù)來(lái)源。
[0003] 目前,關(guān)于郵件網(wǎng)絡(luò)結(jié)構(gòu)的分析,一些學(xué)者從社交網(wǎng)絡(luò)角度對(duì)郵件網(wǎng)絡(luò)開展了廣 泛的研究,如社團(tuán)劃分、重要節(jié)點(diǎn)的發(fā)現(xiàn)、社會(huì)關(guān)系與地位的推斷等.但是大部分社交網(wǎng)絡(luò) 層面的研究工作重點(diǎn)在于構(gòu)建社交網(wǎng)絡(luò)層面的普適性算法,考慮的因素較少,挖掘的結(jié)果 比較宏觀.
[0004] 如Zhang Lixiao等采用基于多級(jí)貪婪策略的重疊社區(qū)發(fā)現(xiàn)算法MSG-O⑶來(lái)檢測(cè) 初始社區(qū)結(jié)構(gòu),并分析重疊社區(qū)結(jié)構(gòu)。胡天天等將社會(huì)網(wǎng)絡(luò)分析方法應(yīng)用于郵件網(wǎng)絡(luò)分 析,提出了基于CN-M(CoreNode - Module)的郵件網(wǎng)絡(luò)核心社團(tuán)挖掘算法。Henderson等 提出了結(jié)構(gòu)角色的概念,用于對(duì)復(fù)雜網(wǎng)絡(luò)的節(jié)點(diǎn)進(jìn)行劃分及節(jié)點(diǎn)行為的分析預(yù)測(cè)。隨后, Rossir等通過(guò)考察節(jié)點(diǎn)結(jié)構(gòu)角色的變化構(gòu)建了一種分析網(wǎng)絡(luò)及節(jié)點(diǎn)結(jié)構(gòu)變化模式的方法。
[0005] 綜上,關(guān)于電子郵件的網(wǎng)絡(luò)結(jié)構(gòu)分析研究已經(jīng)出現(xiàn)了較完善的技術(shù)和方法,但這 些方法大多只考慮了網(wǎng)絡(luò)的邏輯結(jié)構(gòu),并沒(méi)有進(jìn)一步考慮郵件的特有屬性。郵件網(wǎng)絡(luò)除去 社交網(wǎng)絡(luò)中共有的結(jié)構(gòu)特征之外,還有許多特有的屬性,如時(shí)間、抄送關(guān)系、主題內(nèi)容等,這 些特征在郵件通信網(wǎng)絡(luò)的分析中同樣具有重要的價(jià)值。
[0006] 本發(fā)明基于LDA模型和中心度算法,提出了一種基于郵件內(nèi)容的郵件網(wǎng)絡(luò)取證分 析方法。在郵件內(nèi)容相似度計(jì)算中,文中采用LDA模型對(duì)每條通信邊上郵件基于某一犯罪 主題的內(nèi)容關(guān)聯(lián)性進(jìn)行計(jì)算。再結(jié)合中心度算法,對(duì)郵件通信網(wǎng)絡(luò)進(jìn)行基于內(nèi)容和結(jié)構(gòu)的 綜合分析,從而協(xié)助取證人員查找可疑人群,為計(jì)算機(jī)犯罪案件取證提供一定輔助和支持。
【發(fā)明內(nèi)容】
[0007] 本發(fā)明的目的在于提供一種基于LDA模型及中心度算法的郵件網(wǎng)絡(luò)取證分析方 法,協(xié)助調(diào)查取證人員查找可疑人群及分析核心成員角色,為計(jì)算機(jī)犯罪案件取證提供輔 助和支持。
[0008] 為實(shí)現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:一種基于LDA模型及中心度算法的 郵件網(wǎng)絡(luò)取證分析方法,其特征在于包括以下步驟:
[0009] 步驟Sl :讀取郵件數(shù)據(jù),利用Lucene全文檢索技術(shù),通過(guò)一查詢語(yǔ)句Q對(duì)所述郵 件數(shù)據(jù)進(jìn)行基于一犯罪主題的查詢,得到查詢結(jié)果;
[0010] 步驟S2 :根據(jù)所述查詢結(jié)果,構(gòu)造以郵件用戶為節(jié)點(diǎn),以用戶通信關(guān)系為邊的郵 件網(wǎng)絡(luò)圖;
[0011] 步驟S3 :對(duì)所述查詢結(jié)果中的每一封郵件,基于LDA模型計(jì)算其主題分布;
[0012] 步驟S4 :根據(jù)所述查詢結(jié)果,計(jì)算所述查詢結(jié)果中的每一封郵件基于所述犯罪主 題的關(guān)聯(lián)值;
[0013] 步驟S5 :根據(jù)所述郵件網(wǎng)絡(luò)圖,計(jì)算每條邊基于所述犯罪主題的關(guān)聯(lián)值;
[0014] 步驟S6 :根據(jù)所述郵件網(wǎng)絡(luò)圖中每條邊的關(guān)聯(lián)值,計(jì)算每個(gè)節(jié)點(diǎn)的中心值;
[0015] 步驟S7:根據(jù)步驟S6得到的所有節(jié)點(diǎn)的中心值求節(jié)點(diǎn)的影響因子,所述影響因子 大于一閾值a的即為基于所述犯罪主題的可疑對(duì)象。
[0016] 進(jìn)一步的,所述步驟S3的具體內(nèi)容如下:
[0017] 步驟S31 :對(duì)郵件m的正文內(nèi)容進(jìn)行分詞,得到郵件m對(duì)應(yīng)的詞集合(W1, W2,… ,Wi,…,wn},其中,詞Wi屬于第k個(gè)主題的概率計(jì)算如下:
[0018]
[0019] 其中,變量Z1表示詞^的主題,K表示主題的個(gè)數(shù),Zni, i表示在郵件m中除了詞W1 的主題外的其他所有詞的主題集合;n (m,k)表示郵件m中屬于第k個(gè)主題的詞的數(shù)量;變 量α ,表示郵件m中主題k先驗(yàn)分布的參數(shù),#表示第k個(gè)主題中詞W1的分布概率;
[0020] 步驟S32 :歸一化所述步驟S31中所述的詞W1屬于第k個(gè)主題的概率,得到wtk, wtk為詞w i的主題分布WT i中的分量:
[0021]
[0022] WTi= (wt !,wt2,…,wtK)
[0023] 步驟S33 :詞化的主題從WT i中抽樣得到,從而得出郵件m中屬于第k個(gè)主題的詞 的數(shù)量n (m, k),則郵件m的主題分布計(jì)算如下:
[0024]
[0025] 其中#為郵件m中屬于第k個(gè)主題的概率,所述郵件m的主題分布為
[0026] 進(jìn)一步的,所述步驟S4的具體內(nèi)容如下:
[0027] 步驟S41 :給定一主題概率閾值ρτ,將郵件m中的主題分布概率大于等于ρτ的所有 主題篩選出作為郵件m的高概率主題;
[0028] 步驟S42 :給定一詞概率閾值pw,將所述犯罪主題中詞概率大于等于?¥的所有詞作 為所述犯罪主題的高頻詞;
[0029] 步驟S43 :將所述郵件m中的所有高概率主題中的高頻詞的集合作為所述郵件m 的特征關(guān)鍵詞集Keym;
[0030] 步驟S44 :根據(jù)所述查詢語(yǔ)句Q和郵件m的特征關(guān)鍵詞集Keym,計(jì)算所述郵件m基 于Q的關(guān)聯(lián)值:
[0031]
[0032] 其中,0 = |//1也^4"|表示對(duì)所述查詢語(yǔ)句9進(jìn)行分詞后的詞集合,集合長(zhǎng)度為 nq,n (Q (? Keym)為集合Q和集合Keym的交集的元素個(gè)數(shù)。
[0033] 講一步的,所沭步驟S5的具體內(nèi)容如下:
[0034]
[0035] 其中,eAB表示郵件用戶A到郵件用戶B的一條有向通信邊,通信方向指向用戶Β, nAB表示查詢結(jié)果中用戶A發(fā)送給用戶B的所有郵件的個(gè)數(shù)。
[0036] 進(jìn)一步的,所述步驟S6的具體內(nèi)容如下:
[0037] 步驟S61 :根據(jù)所述郵件網(wǎng)絡(luò)圖中每條邊的關(guān)聯(lián)值,計(jì)算每個(gè)節(jié)點(diǎn)的親近值:
[0038]
[0039]
[0040] 其中,Vj表示郵件網(wǎng)絡(luò)圖中節(jié)點(diǎn)V i的可達(dá)節(jié)點(diǎn),g表示郵件網(wǎng)絡(luò)圖中節(jié)點(diǎn)V i的可 達(dá)節(jié)點(diǎn)個(gè)數(shù),(!(Vi, Vj)表示節(jié)點(diǎn)Vi到節(jié)點(diǎn)V 的距離,Am〇11+1)表示節(jié)點(diǎn)Vm到節(jié)點(diǎn)Vm+1的有向 邊上基于所述犯罪主題的關(guān)聯(lián)值,節(jié)點(diǎn)V ni和節(jié)點(diǎn)Vlri表示節(jié)點(diǎn)V i到節(jié)點(diǎn)V ,的最短路徑上的 兩個(gè)相鄰節(jié)點(diǎn);
[0041] 步驟S62 :根據(jù)所述郵件網(wǎng)絡(luò)圖中每條邊的關(guān)聯(lián)值,計(jì)算每個(gè)節(jié)點(diǎn)的中介值:
[0042]
[0043] 其中,njk表示節(jié)點(diǎn)j到節(jié)點(diǎn)k的最短路徑個(gè)數(shù),n _jk (Vi)表示節(jié)點(diǎn)j到節(jié)點(diǎn)k的最 短路徑上經(jīng)過(guò)節(jié)點(diǎn)Vi的個(gè)數(shù),計(jì)算上述節(jié)點(diǎn)j到節(jié)點(diǎn)k之間的最短路徑時(shí),采用d (V Vk)作 為它們之間的距離;
[0044] 步驟S63 :根據(jù)所述郵件網(wǎng)絡(luò)圖中每條邊的關(guān)聯(lián)值,計(jì)算每個(gè)節(jié)點(diǎn)的程度值:
[0045]
[0046] 其中,Au表示節(jié)點(diǎn)V i到節(jié)點(diǎn)V ,的有向邊上基于所述犯罪主題的關(guān)聯(lián)值。
[0047] 進(jìn)一步的,所述步驟S7的具體內(nèi)容如下:
[0048] 步驟S711 :找出所述郵件網(wǎng)絡(luò)圖的所有節(jié)點(diǎn)中親近值最大的節(jié)點(diǎn)Vtopl和親近值第 二大的節(jié)點(diǎn)Vtop2;
[0049] 步驟S712 :計(jì)算節(jié)點(diǎn)V^1的影響因子I (V topl):
[0050]
[0051] 其中,Valuetopl、Valuetopj別表示節(jié)點(diǎn)V _和V _2對(duì)應(yīng)的親近值;
[0052] 步驟S713 :對(duì)于一給定的影響因子閾值a,若I (Vtopl) > a,則將節(jié)點(diǎn)乂咖輸出并刪 除,更新郵件網(wǎng)絡(luò)圖,并返回步驟S71 ;否則進(jìn)行步驟S74 ;
[0053] 步驟S714 :將輸出的全部節(jié)點(diǎn)按輸出順序排列成一節(jié)點(diǎn)序列,所述節(jié)點(diǎn)序列中的 所有節(jié)點(diǎn)即為基于所述犯罪主題的重要可疑對(duì)象,所述節(jié)點(diǎn)對(duì)應(yīng)的郵件用戶為郵件網(wǎng)絡(luò)中 基于所述犯罪主題通信關(guān)系最密切子網(wǎng)的核心用戶。
[0054] 進(jìn)一步的,所述步驟S7的具體內(nèi)容如下:
[0055] 步驟S721 :找出所述郵件網(wǎng)絡(luò)圖的所有節(jié)點(diǎn)中中介值最大的節(jié)點(diǎn)Vtopl和中介值第 二大的節(jié)點(diǎn)Vtop2;
[0056] 步驟S722 :計(jì)算節(jié)點(diǎn)V^1的影響因子I (V topl):
[0057]
[0058] 其中,Valuetopl、Valuetopj別表示節(jié)點(diǎn)V _和V _2對(duì)應(yīng)的中介值;
[0059] 步驟S723 :對(duì)于一給定的影響因子閾值a,若I (Vtopl) > a,則將節(jié)點(diǎn)乂咖輸出并刪 除,更新郵件網(wǎng)絡(luò)圖,并返回步驟S71 ;否則進(jìn)行步驟S74 ;
[0060] 步驟S724 :將輸出的全部節(jié)點(diǎn)按輸出順序排列成一節(jié)點(diǎn)序列,所述節(jié)點(diǎn)序列中的 所有節(jié)點(diǎn)即為基于所述犯