專利名稱:一種基于關(guān)系圖的海量電子郵件分析方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息安全技術(shù)領(lǐng)域,涉及電子郵件檢測(cè)與分析技術(shù),特別是涉及一種基于關(guān)系圖的海量電子郵件分析方法及系統(tǒng)。
背景技術(shù):
電子郵件,英文名稱“Electronic mail”(簡稱“Email”),是一種通過電子通信系統(tǒng)進(jìn)行信息交換的通信工具,現(xiàn)在往往與互聯(lián)網(wǎng)(Internet)聯(lián)系在一起,成為了最受歡迎的互聯(lián)網(wǎng)應(yīng)用服務(wù)之一。隨著互聯(lián)網(wǎng)的高速發(fā)展與網(wǎng)民數(shù)量的持續(xù)增長,電子郵件的服務(wù)商與用戶越來越多,功能也趨于多樣化;產(chǎn)生的數(shù)據(jù)量越來越大,格式也趨于復(fù)雜化。即時(shí)通信、社交網(wǎng)絡(luò)、微博等流行的互聯(lián)網(wǎng)應(yīng)用服務(wù)與電子郵件有著密切的關(guān)系,例如:用戶能夠利用郵箱來驗(yàn)證其他應(yīng)用服務(wù)的賬戶或找回密碼,也可以通過電子郵件獲得其他應(yīng)用服務(wù)推送的信息??梢?,用戶通過電子郵件進(jìn)行信息交流,構(gòu)建成了一個(gè)基于通信行為的社會(huì)化網(wǎng)絡(luò),可稱其為“電子郵件網(wǎng)絡(luò)”。電子郵件網(wǎng)絡(luò)不僅反映了電子郵件用戶之間的關(guān)系,而且可以利用節(jié)點(diǎn)屬性與邊的權(quán)值,進(jìn)一步表示用戶間的通信頻率、通信時(shí)間、通信內(nèi)容和社交范圍等特征。電子郵件在給人類的工作與生活帶來便利的同時(shí),也帶來了許多網(wǎng)絡(luò)信息安全問題。攻擊者利用軟硬件漏洞與社會(huì)工程學(xué)手段,通過發(fā)送大量電子郵件從事多種非法活動(dòng),例如:推送廣告、散布謠言、宣揚(yáng)色情暴力、反動(dòng)串聯(lián)、網(wǎng)絡(luò)釣魚和傳播惡意代碼等,我們把這些電子郵件統(tǒng)稱為“垃圾郵件”。為了應(yīng)對(duì)垃圾郵件的危害與威脅,電子郵件服務(wù)商與安全研究人員設(shè)計(jì)并實(shí)現(xiàn)多種反垃圾郵件系統(tǒng)來檢測(cè)、過濾、追蹤、定位垃圾郵件與其制造者。垃圾郵件防御者首先對(duì)大量垃圾郵件的源碼與行為進(jìn)行分析研究,提取其區(qū)別于正常郵件的特征與屬性,然后根據(jù)這些特征和屬性對(duì)未知郵件進(jìn)行分類識(shí)別?,F(xiàn)有的技術(shù)包括基于黑名單的檢測(cè)技術(shù)、基于特征串的檢測(cè)技術(shù)以及基于模式序列的檢測(cè)技術(shù)等。在反垃圾郵件技術(shù)中,垃圾郵件的檢測(cè)與過濾技術(shù)比較成熟,主要針對(duì)單個(gè)用戶的收發(fā)電子郵件內(nèi)容進(jìn)行分析,很多電子郵件服務(wù)系統(tǒng)都有垃圾郵件過濾功能,能夠較為準(zhǔn)確識(shí)別垃圾郵件并采取相應(yīng)措施;垃圾郵件的追蹤與定位技術(shù)相對(duì)滯后,防御者只有通過對(duì)海量電子郵件與大量相關(guān)用戶進(jìn)行關(guān)聯(lián)分析,進(jìn)而構(gòu)造出特定的電子郵件網(wǎng)絡(luò)進(jìn)行深入挖掘,并綜合其他信息數(shù)據(jù)庫的線索,才有可能真正定位攻擊源,抓到犯罪分子。然而,業(yè)界和學(xué)術(shù)界尚缺乏對(duì)海量電子郵件的快速解析與深入挖掘技術(shù),也沒有與其他信息數(shù)據(jù)庫相關(guān)聯(lián)的綜合分析手段,從而無法有效追蹤與定位垃圾郵件攻擊源與制造者,達(dá)到“治標(biāo)治本”與懲戒不法分子的目的。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問題是提供一種基于關(guān)系圖的海量電子郵件分析方法及系統(tǒng),用于解決現(xiàn)有電子郵件分析方法無法快速有效處理海量電子郵件數(shù)據(jù)及追蹤定位垃圾郵件攻擊源的問題。
本發(fā)明解決上述技術(shù)問題的技術(shù)方案如下:一種基于關(guān)系圖的海量電子郵件分析方法,包括:并行解析步驟:采用并行處理方式解析電子郵件源數(shù)據(jù),并提取出電子郵件頭部信息、正文信息和附件信息,將電子郵件頭部信息和正文信息保存到海量電子郵件數(shù)據(jù)庫的電子郵件表中。附件存儲(chǔ)檢測(cè)步驟:將并行解析步驟中得到的附件信息的摘要信息以設(shè)定的文件存儲(chǔ)結(jié)構(gòu)存儲(chǔ)至海量電子郵件數(shù)據(jù)庫的電子郵件附件表中,并進(jìn)行檢測(cè);關(guān)系圖生成步驟:基于并行解析步驟與附件存儲(chǔ)檢測(cè)步驟得到的電子郵件相關(guān)數(shù)據(jù),構(gòu)建實(shí)時(shí)更新的電子郵件關(guān)系表,并根據(jù)用戶需求和電子郵件關(guān)系表生成單點(diǎn)關(guān)系圖或多點(diǎn)關(guān)系圖;關(guān)聯(lián)分析步驟:引入IP地址地理信息數(shù)據(jù)庫與電子郵件用戶身份信息數(shù)據(jù)庫,并將這兩個(gè)數(shù)據(jù)庫與電子郵件表進(jìn)行關(guān)聯(lián),并基于生成的關(guān)系圖進(jìn)行關(guān)聯(lián)分析,再把關(guān)聯(lián)分析過程與結(jié)果在關(guān)系圖中展示。對(duì)于上述技術(shù)方案,相關(guān)名詞解釋如下:所述電子郵件頭部信息,是基于電子郵件源碼可獲取的除電子郵件正文與附件之外的所有信息,一般包括發(fā)件人IP地址、路由信息、發(fā)送時(shí)間、發(fā)件人姓名、發(fā)件人電子郵箱地址、收件人姓名、收件人電子郵箱地址、抄送人姓名、抄送電子郵箱地址、密送人姓名、密送人電子郵箱地址、電子郵件標(biāo)題、編碼格式等字段信息。所述電子郵件表,是指海量電子郵件數(shù)據(jù)庫中存放解析后的電子郵件頭部信息、正文信息與其他屬性信息的數(shù)據(jù)表。所述電子郵件附件表,是指海量電子郵件數(shù)據(jù)庫中存放解析后的電子郵件附件相關(guān)信息的數(shù)據(jù)表,該表包括附件文件名、附件存儲(chǔ)路徑、處理狀態(tài)、檢測(cè)結(jié)果等字段。另外,由于附件文件本身占用空間較大,因此附件文件本身直接存儲(chǔ)到服務(wù)器磁盤中,而不在海量電子郵件數(shù)據(jù)庫中保存。所述電子郵件關(guān)系表,是指海量電子郵件數(shù)據(jù)庫中存放用于生成關(guān)系圖的相關(guān)信息的數(shù)據(jù)表,主要包括電子郵箱地址、收發(fā)角色、狀態(tài)信息、電子郵件表標(biāo)識(shí)等字段。所述單點(diǎn)關(guān)系圖,是指關(guān)系圖圍繞一個(gè)電子郵箱展開,根據(jù)電子郵件關(guān)系表,提取其發(fā)件人集合與收件人集合生成點(diǎn),根據(jù)往來的電子郵件關(guān)系生成邊。所屬多點(diǎn)關(guān)系圖,是指關(guān)系圖圍繞若干個(gè)電子郵箱展開,根據(jù)這些電子郵箱生成點(diǎn),根據(jù)電子郵件關(guān)系表中的往來電子郵件關(guān)系生成邊。所述IP地址地理信息數(shù)據(jù)庫,是指IP地址對(duì)應(yīng)的相關(guān)地理信息的數(shù)據(jù)庫,包括國家、城市、互聯(lián)網(wǎng)服務(wù)提供商等信息。所述電子郵件用戶身份信息數(shù)據(jù)庫,是指電子郵件用戶對(duì)應(yīng)的其他相關(guān)身份信息的數(shù)據(jù)庫,包括即時(shí)通信ID、手機(jī)號(hào)、身份證號(hào)、性別、住址等信息。在上述技術(shù)方案的基礎(chǔ)上,本發(fā)明還可以做如下改進(jìn)。進(jìn)一步,所述并行解析步驟還包括:對(duì)加密壓縮格式的電子郵件源數(shù)據(jù)進(jìn)行解壓縮和解密,并對(duì)提取的電子郵件頭部信息進(jìn)行檢測(cè)。進(jìn)一步,所述附件存儲(chǔ)檢測(cè)步驟中將附件信息的摘要信息以設(shè)定的文件存儲(chǔ)結(jié)構(gòu)存儲(chǔ)至海量電子郵件數(shù)據(jù)庫的電子郵件附件表中,具體包括:根據(jù)電子郵件附件表的條目標(biāo)識(shí)生成新的附件文件名,再按照“數(shù)據(jù)源編號(hào)/年/月/日/時(shí)”的文件存儲(chǔ)結(jié)構(gòu)存儲(chǔ)至電子郵件附件表;所述附件存儲(chǔ)檢測(cè)步驟中對(duì)存儲(chǔ)的附件信息的摘要信息進(jìn)行檢測(cè),具體包括:通過惡意附件識(shí)別引擎檢測(cè)附件信息的摘要信息是否可疑。進(jìn)一步,所述關(guān)系圖生成步驟還包括:對(duì)生成的關(guān)系圖進(jìn)行多級(jí)顯示模式的處理。所述多級(jí)顯示模式,是指可以基于已有關(guān)系圖中的某點(diǎn)或者某條邊進(jìn)行擴(kuò)展,圍繞其生成新的下一層關(guān)系圖。進(jìn)一步,所述關(guān)聯(lián)分析步驟具體包括:步驟A,獲取待分析的電子郵件表,若電子郵件表為單點(diǎn),則從電子郵件關(guān)系表中獲取與該單點(diǎn)相關(guān)的條目,提取關(guān)聯(lián)節(jié)點(diǎn),形成新的電子郵件表;步驟B,結(jié)合電子郵件用戶身份信息數(shù)據(jù)庫,使用步驟A形成的新的電子郵件表,生成帶有屬性特征的關(guān)系圖點(diǎn)集合;步驟C,根據(jù)電子郵件關(guān)系表,獲取步驟B的關(guān)系圖點(diǎn)集合中的每個(gè)元素關(guān)聯(lián)的邊集合,合并這些邊集合,并結(jié)合IP地址地理信息數(shù)據(jù)庫,生成帶有屬性特征的邊集合,且所述屬性特征包括權(quán)值;步驟D,將步驟B與步驟C生成的關(guān)系圖點(diǎn)集合與邊集合,轉(zhuǎn)化為對(duì)應(yīng)的圖形化描述語言,再調(diào)用圖形化展示接口生成新的關(guān)系圖。對(duì)應(yīng)上述系統(tǒng)的技術(shù)方案,本發(fā)明還提出了一種基于關(guān)系圖的海量電子郵件分析系統(tǒng),包括通過海量電子郵件數(shù)據(jù)庫進(jìn)行數(shù)據(jù)交互的并行解析模塊、附件存儲(chǔ)檢測(cè)模塊、關(guān)系圖生成模塊和關(guān)聯(lián)分析模塊:所述并行解析模塊,其用于通過并行處理方式解析電子郵件源數(shù)據(jù),并提取出電子郵件頭部信息、正文信息和附件信息,并將電子郵件頭部信息和正文信息保存到海量電子郵件數(shù)據(jù)庫的電子郵件表中;所述附件存儲(chǔ)檢測(cè)模塊,其用于將并行解析模塊中得到的附件信息的摘要信息以設(shè)定的文件存儲(chǔ)結(jié)構(gòu)存儲(chǔ)至海量電子郵件數(shù)據(jù)庫的電子郵件附件表中,并對(duì)其進(jìn)行檢測(cè);所述關(guān)系圖生成模塊,其用于根據(jù)并行解析模塊與附件存儲(chǔ)檢測(cè)模塊得到的電子郵件相關(guān)數(shù)據(jù),構(gòu)建實(shí)時(shí)更新的電子郵件關(guān)系表,并根據(jù)用戶需求和電子郵件關(guān)系表生成單點(diǎn)關(guān)系圖或多點(diǎn)關(guān)系圖;所述關(guān)聯(lián)分析模塊,其用于引入IP地址地理信息數(shù)據(jù)庫與電子郵件用戶身份信息數(shù)據(jù)庫,并將這兩個(gè)數(shù)據(jù)庫與電子郵件表進(jìn)行關(guān)聯(lián),并基于所述關(guān)系圖生成模塊生成的關(guān)系圖進(jìn)行關(guān)聯(lián)分析,再把關(guān)聯(lián)分析過程與結(jié)果在關(guān)系圖中展示電子郵件表。進(jìn)一步,所述并行解析模塊包括多數(shù)據(jù)源導(dǎo)入子模塊、解析任務(wù)調(diào)度分配子模塊和電子郵件源碼解析子模塊;所述多數(shù)據(jù)源導(dǎo)入子模塊,用于自動(dòng)化輪詢與拷貝多源電子郵件數(shù)據(jù),對(duì)不同數(shù)據(jù)源進(jìn)行編號(hào),并對(duì)壓縮或加密的原始數(shù)據(jù)進(jìn)行解壓縮和解密處理,生成統(tǒng)一的帶有數(shù)據(jù)源編號(hào)的電子郵件源碼;所述解析任務(wù)調(diào)度分配子模塊,用于評(píng)估電子郵件源碼數(shù)據(jù)解析任務(wù)量,并將其基于負(fù)載均衡的原則分配給所述電子郵件源碼解析子模塊;所述電子郵件源碼解析子模塊,用于并行化解析電子郵件源碼,提取電子郵件頭部信息、正文信息與附件信息,存儲(chǔ)到海量電子郵件數(shù)據(jù)庫的電子郵件表中。進(jìn)一步,所述附件存儲(chǔ)檢測(cè)模塊包括附件信息解析子模塊、附件文件存儲(chǔ)子模塊和可疑附件文件檢測(cè)接口;所述附件信息解析子模塊,用于從電子郵件源碼中提取附件摘要信息與附件文件,并將附件摘要信息存儲(chǔ)到電子郵件附件表中,將附件文件交予所述附件文件存儲(chǔ)子模塊處理;所述附件文件存儲(chǔ)子模塊,用于根據(jù)設(shè)定的文件存儲(chǔ)結(jié)構(gòu)存儲(chǔ)相關(guān)附件文件到電子郵件附件文件數(shù)據(jù)庫;所述可疑附件文件檢測(cè)接口,用于調(diào)用惡意附件識(shí)別引擎檢測(cè)附件信息,并將檢測(cè)結(jié)果和具體描述反饋給所述附件信息解析子模塊進(jìn)行保存。進(jìn)一步,所述關(guān)系圖生成模塊包括分析數(shù)據(jù)交互接口、點(diǎn)邊屬性計(jì)算子模塊、圖形化描述語言轉(zhuǎn)換子模塊和關(guān)系圖展示與編輯子模塊;所述分析數(shù)據(jù)交互接口,用于獲取電子郵箱列表;所述點(diǎn)邊屬性計(jì)算子模塊,用于從獲取的電子郵箱列表中得到相關(guān)的電子郵箱用戶與往來電子郵件,并結(jié)合電子郵件表信息,生成帶屬性的關(guān)系圖點(diǎn)集合與邊集合;所述圖形化描述語言轉(zhuǎn)換子模塊,用于將生成的點(diǎn)集合與邊集合,轉(zhuǎn)化為相關(guān)的圖形化描述語言;所述關(guān)系圖展示與編輯子模塊,用于根據(jù)圖形化描述語言進(jìn)行多級(jí)關(guān)系圖的繪制與展示,并提供用戶編輯與交互功能。進(jìn)一步,所述關(guān)聯(lián)分析模塊包括地理信息關(guān)聯(lián)分析子模塊和用戶信息關(guān)聯(lián)分析子模塊;所述地理信息關(guān)聯(lián)分析子模塊,用于根據(jù)電子郵件表的IP地址字段,利用IP地址地理信息數(shù)據(jù)庫獲取其對(duì)應(yīng)的地理信息,并保存至電子郵件表相關(guān)字段,供用戶進(jìn)行關(guān)聯(lián)分析;所述用戶信息關(guān)聯(lián)分析子模塊,用于結(jié)合電子郵件用戶身份信息數(shù)據(jù)庫,關(guān)聯(lián)更新電子郵件關(guān)系表相關(guān)字段。本發(fā)明的有益效果是:主要包括以下幾點(diǎn):一、能夠高效解析多源海量電子郵件數(shù)據(jù),并具有較高的可擴(kuò)展能力。本發(fā)明所涉及的電子郵件自動(dòng)化解析技術(shù)能夠處理存在源碼加密、格式復(fù)雜、內(nèi)容殘缺等情況的電子郵件源數(shù)據(jù),并且能夠自適應(yīng)地進(jìn)行硬件設(shè)備的擴(kuò)展,達(dá)到準(zhǔn)確實(shí)時(shí)的分析水平。二、能夠利用關(guān)系圖刻畫電子郵件網(wǎng)絡(luò),重現(xiàn)垃圾郵件攻擊脈絡(luò),幫助防御者定位攻擊源。本發(fā)明所涉及的關(guān)系圖生成技術(shù)采用了單表結(jié)構(gòu),優(yōu)化了傳統(tǒng)的“點(diǎn)表邊表”雙表結(jié)構(gòu),提高了數(shù)據(jù)檢索更新的速度,并減少了數(shù)據(jù)存儲(chǔ)空間的開銷。三、能夠結(jié)合用戶擴(kuò)展信息、IP地理信息等數(shù)據(jù)庫進(jìn)行關(guān)聯(lián)分析,并進(jìn)行圖形化展示。本發(fā)明所涉及的系統(tǒng)能夠根據(jù)防御者需求,把海量電子郵件數(shù)據(jù)庫與用戶擴(kuò)展信息庫、IP地理信息庫等數(shù)據(jù)庫相融合,可視化地追蹤、定位和展示可疑攻擊源。
圖1為本發(fā)明所述基于關(guān)系圖的海量電子郵件分析方法的流程示意圖2為實(shí)施例一中海量電子郵件并行解析處理流程圖;圖3為實(shí)施例一中電子郵件附件存儲(chǔ)與檢測(cè)流程圖;圖4為實(shí)施例一中基于關(guān)系圖的動(dòng)態(tài)生成與關(guān)聯(lián)流程圖;圖5為實(shí)施例一中基于關(guān)系圖的海量電子郵件分析系統(tǒng)原理框圖。附圖中,各標(biāo)號(hào)所代表的部件列表如下:1、并行解析模塊,2、附件存儲(chǔ)檢測(cè)模塊,3、關(guān)系圖生成模塊,4、關(guān)聯(lián)分析模塊,5、多數(shù)據(jù)源導(dǎo)入子模塊,6、解析任務(wù)調(diào)度分配子模塊,7、電子郵件源碼解析子模塊,8、附件信息解析子模塊,9、附件文件存儲(chǔ)子模塊,10、可疑附件文件檢測(cè)接口,11、分析數(shù)據(jù)交互接口,12、點(diǎn)邊屬性計(jì)算子模塊,13、圖形化描述語言轉(zhuǎn)換子模塊,14、關(guān)系圖展示與編輯子模塊,15、地理信息關(guān)聯(lián)分析子模塊,16、用戶信息關(guān)聯(lián)分析子模塊。
具體實(shí)施例方式以下結(jié)合附圖對(duì)本發(fā)明的原理和特征進(jìn)行描述,所舉實(shí)例只用于解釋本發(fā)明,并非用于限定本發(fā)明的范圍。如圖1所示,本發(fā)明所述的一種基于關(guān)系圖的海量郵件分析方法主要包括四個(gè)步驟:并行解析步驟:采用并行處理方式解析電子郵件源數(shù)據(jù),并提取出電子郵件頭部信息、正文信息和附件信息,將電子郵件頭部信息和正文信息保存到海量電子郵件數(shù)據(jù)庫的電子郵件表中。附件存儲(chǔ)檢測(cè)步驟:將并行解析步驟中得到的附件信息的摘要信息以設(shè)定的文件存儲(chǔ)結(jié)構(gòu)存儲(chǔ)至海量電子郵件數(shù)據(jù)庫的電子郵件附件表中,并進(jìn)行檢測(cè);關(guān)系圖生成步驟:基于并行解析步驟與附件存儲(chǔ)檢測(cè)步驟得到的電子郵件相關(guān)數(shù)據(jù),構(gòu)建實(shí)時(shí)更新的電子郵件關(guān)系表,并根據(jù)用戶需求和電子郵件關(guān)系表生成單點(diǎn)關(guān)系圖或多點(diǎn)關(guān)系圖;關(guān)聯(lián)分析步驟:引入IP地址地理信息數(shù)據(jù)庫與電子郵件用戶身份信息數(shù)據(jù)庫,并將這兩個(gè)數(shù)據(jù)庫與電子郵件表進(jìn)行關(guān)聯(lián),并基于生成的關(guān)系圖進(jìn)行關(guān)聯(lián)分析,再把關(guān)聯(lián)分析過程與結(jié)果在關(guān)系圖中展示。實(shí)施例一基于上述方法,具體由三個(gè)實(shí)施部分組成:一、海量電子郵件并行解析處理如圖2所示,給出了海量電子郵件并行解析處理的流程圖,其具體實(shí)施步驟如下:I)從海量電子郵件數(shù)據(jù)庫配置表中獲取解析任務(wù)、源數(shù)據(jù)訪問路徑等配置信息,利用配置表構(gòu)建互斥機(jī)制,采用并行處理方式對(duì)電子郵件源數(shù)據(jù)進(jìn)行解析,包括檢測(cè)獲取的配置信息中是否有新數(shù)據(jù),若有則執(zhí)行下一步,否則等待下次輪詢周期后再重新獲取配
置信息。2)對(duì)于每個(gè)解析程序,首先從電子郵件數(shù)據(jù)源獲取原始數(shù)據(jù),若這些數(shù)據(jù)為加密壓縮格式,則先對(duì)其進(jìn)行解壓縮和解密,從而獲取源碼明文。3)對(duì)電子郵件源碼明文進(jìn)行轉(zhuǎn)換,統(tǒng)一其格式,并解析、提取其電子郵件頭部信息,對(duì)提取的頭部信息作檢驗(yàn),若不符合要求(如相關(guān)字段信息殘缺嚴(yán)重),則記錄異常日志,結(jié)束程序;若符合,則繼續(xù)。4)保存電子郵件頭部信息至數(shù)據(jù)庫電子郵件表,然后解析提取電子郵件正文信息,同樣保存至電子郵件表。5)檢測(cè)電子郵件是否帶有附件,若存在附件,則執(zhí)行附件存儲(chǔ)檢測(cè)步驟;若不存在,則直接結(jié)束流程。二、電子郵件附件存儲(chǔ)與檢測(cè)如圖3所示,給出了電子郵件附件存儲(chǔ)與檢測(cè)的流程圖,其具體實(shí)施步驟如下:I)從帶有附件的電子郵件源碼中獲取附件文件以及其他摘要信息,保存到電子郵件附件表,根據(jù)電子郵件附件表的條目標(biāo)識(shí)等信息生成新的附件文件名,格式如“(標(biāo)識(shí)號(hào))_(存儲(chǔ)時(shí)間)_(原附件名)”。2)按照電子郵件發(fā)送時(shí)間生成“數(shù)據(jù)源編號(hào)/年/月/日/時(shí)”存儲(chǔ)目錄,若該目錄不存在,則創(chuàng)建,以步驟I)所述的新附件文件名重命名附件,并保存至該存儲(chǔ)目錄。3)以附件作為輸入,調(diào)用惡意附件識(shí)別引擎,檢測(cè)該附件是否可疑,根據(jù)檢測(cè)結(jié)果(“正?!被颉翱梢伞?,更新電子郵件附件表檢測(cè)結(jié)果字段,并對(duì)以完成檢測(cè)的附件條目處理狀態(tài)字段更新為“已處理”。 三、基于關(guān)系圖的動(dòng)態(tài)生成與關(guān)聯(lián)分析如圖4所示,給出了基于關(guān)系圖的動(dòng)態(tài)生成與關(guān)聯(lián)的流程圖,其具體實(shí)施步驟如下:I)從前端界面接口或者其他模塊調(diào)用接口獲取待分析的電子郵件表,若電子郵件表僅有一個(gè)元素(單點(diǎn)),則從數(shù)據(jù)庫電子郵件關(guān)系表中獲取與該點(diǎn)相關(guān)的條目,提取關(guān)聯(lián)節(jié)點(diǎn),形成新的電子郵件表。2)結(jié)合電子郵件用戶身份信息數(shù)據(jù)庫,使用步驟I)的電子郵件表,生成帶有屬性特征的關(guān)系圖點(diǎn)集合。3)對(duì)于步驟2)點(diǎn)集合中的元素,根據(jù)電子郵件關(guān)系表,對(duì)每個(gè)元素獲取其關(guān)聯(lián)的邊集合,合并這些邊集合,并結(jié)合IP地址地理信息數(shù)據(jù)庫,生成帶有權(quán)值等屬性特征的邊
隹A
口 O4)根據(jù)步驟2)與步驟3)生成的關(guān)系圖點(diǎn)集合與邊集合,轉(zhuǎn)化為對(duì)應(yīng)的圖形化描述語言(例如XML語言),然后調(diào)用圖形化展示接口繪制關(guān)系圖。實(shí)施例一公開的基于關(guān)系圖的海量電子郵件分析系統(tǒng)主要根據(jù)上述三步進(jìn)行部署實(shí)施,使用c/C++、Python語言開發(fā)后臺(tái)程序,使用PHP、JavaScript、XML語言完成前臺(tái)界面與圖形化展示,使用Mysql搭建相關(guān)數(shù)據(jù)庫,并設(shè)計(jì)實(shí)現(xiàn)自定義文件存儲(chǔ)結(jié)構(gòu)存放相關(guān)大數(shù)據(jù)量的附件信息。如圖5所示,對(duì)應(yīng)給出的基于關(guān)系圖的海量電子郵件分析系統(tǒng),本實(shí)施例還公開了相應(yīng)的系統(tǒng),其由并行解析模塊1、附件存儲(chǔ)檢測(cè)模塊2、關(guān)系圖生成模塊3、關(guān)聯(lián)分析模塊4四部分組成,且這四個(gè)模塊通過海量電子郵件數(shù)據(jù)庫進(jìn)行數(shù)據(jù)交互。根據(jù)如圖5所示的模塊劃分,實(shí)施例一的系統(tǒng)的工作原理可以分為四部分來進(jìn)行描述。一、并行解析模塊I。該模塊可分為多數(shù)據(jù)源導(dǎo)入子模塊5、解析任務(wù)調(diào)度分配子模塊6與電子郵件源碼解析子模塊7,該模塊的數(shù)據(jù)交互涉及海量電子郵件數(shù)據(jù)庫的電子郵件表。其中,多數(shù)據(jù)源導(dǎo)入子模塊5主要負(fù)責(zé)自動(dòng)化輪詢與拷貝多源電子郵件數(shù)據(jù),對(duì)不同數(shù)據(jù)源進(jìn)行編號(hào),并對(duì)壓縮或加密的原始數(shù)據(jù)進(jìn)行解壓縮和解密處理,生成統(tǒng)一的帶有數(shù)據(jù)源編號(hào)的電子郵件源碼;解析任務(wù)調(diào)度分配子模塊6主要負(fù)責(zé)評(píng)估電子郵件源碼數(shù)據(jù)解析任務(wù)量,基于負(fù)載均衡的原則分配給電子郵件源碼解析子模塊7,實(shí)現(xiàn)自動(dòng)化管理與配置,支持解析服務(wù)器動(dòng)態(tài)加載與硬件計(jì)算資源的可擴(kuò)展性;電子郵件源碼解析子模塊7主要負(fù)責(zé)并行化解析電子郵件源碼,提取電子郵件頭部信息、正文信息與附件信息,存儲(chǔ)到海量電子郵件數(shù)據(jù)庫的電子郵件表中。二、附件存儲(chǔ)檢測(cè)模塊2。該模塊可分為附件信息解析子模塊8、附件文件存儲(chǔ)子模塊9與可疑附件文件檢測(cè)接口 10,該模塊的數(shù)據(jù)交互涉及海量電子郵件數(shù)據(jù)庫的電子郵件附件表與電子郵件附件文件數(shù)據(jù)庫。其中,附件信息解析子模塊8主要負(fù)責(zé)從電子郵件源碼中提取附件摘要信息與附件文件,并把附件摘要信息存儲(chǔ)到電子郵件附件表中,并附件文件交予附件文件存儲(chǔ)子模塊9處理;附件文件存儲(chǔ)子模塊9主要負(fù)責(zé)根據(jù)本發(fā)明的存儲(chǔ)結(jié)構(gòu)存儲(chǔ)相關(guān)附件文件到電子郵件附件文件數(shù)據(jù)庫;可疑附件文件檢測(cè)接口 10主要負(fù)責(zé)調(diào)用惡意附件識(shí)別引擎進(jìn)行檢測(cè),把檢測(cè)結(jié)果與具體描述,反饋給附件信息解析子模塊8,后者保存至電子郵件附件表中。三、關(guān)系圖生成模塊3。該模塊可分為分析數(shù)據(jù)交互接口 11、點(diǎn)邊屬性計(jì)算子模塊12、圖形化描述語言轉(zhuǎn)換子模塊13與關(guān)系圖展示與編輯子模塊14,該模塊的數(shù)據(jù)交互涉及海量電子郵件數(shù)據(jù)庫的電子郵件表與電子郵件關(guān)系表。其中,分析數(shù)據(jù)交互接口 11主要負(fù)責(zé)獲取前臺(tái)界面輸入或者其他來源的的電子郵箱列表;點(diǎn)邊屬性計(jì)算子模塊12主要負(fù)責(zé)根據(jù)給定的電子郵箱列表,從電子郵件關(guān)系表中獲取相關(guān)的電子郵箱用戶與往來電子郵件,結(jié)合電子郵件表信息,生成帶屬性的關(guān)系圖點(diǎn)集合與邊集合;圖形化描述語言轉(zhuǎn)換子模塊13主要負(fù)責(zé)根據(jù)上述點(diǎn)集合與邊集合,轉(zhuǎn)化為相關(guān)的圖形化描述語言,如XML ;關(guān)系圖展示與編輯子模塊14主要負(fù)責(zé)根據(jù)圖形化描述語言進(jìn)行多級(jí)關(guān)系圖的繪制與展示,并提供用戶編輯與交互功能。四、關(guān)聯(lián)分析模塊4。該模塊可分為地理信息關(guān)聯(lián)分析子模塊15與用戶信息關(guān)聯(lián)分析子模塊16,該模塊的數(shù)據(jù)交互涉及IP地址地理信息數(shù)據(jù)庫與電子郵件用戶身份信息數(shù)據(jù)庫。其中,地理信息關(guān)聯(lián)分析子模塊15主要負(fù)責(zé)根據(jù)電子郵件表的IP地址字段,利用IP地址地理信息數(shù)據(jù)庫獲取其對(duì)應(yīng)的國家、城市、網(wǎng)絡(luò)服務(wù)提供商等地理信息,保存至電子郵件表相關(guān)字段,供用戶進(jìn)行關(guān)聯(lián)分析;用戶信息關(guān)聯(lián)分析子模塊16主要負(fù)責(zé)利用電子郵件用戶身份信息數(shù)據(jù)庫,關(guān)聯(lián)更新電子郵件關(guān)系表相關(guān)字段,進(jìn)而支持關(guān)系圖的關(guān)聯(lián)信息展示與處理。實(shí)施例二基于實(shí)施例一的系統(tǒng)原理,設(shè)計(jì)了一套軟件系統(tǒng)“海量郵件智能分析與管理系統(tǒng)”,并對(duì)其進(jìn)行了部署實(shí)施。這一套軟件系統(tǒng)使用四臺(tái)高性能服務(wù)器,其中兩臺(tái)服務(wù)器用于部署并行解析模塊,一臺(tái)服務(wù)器用戶部署附件存儲(chǔ)檢測(cè)模塊,最后一臺(tái)服務(wù)器用戶部署關(guān)系圖生成模塊與關(guān)聯(lián)分析模塊。通過實(shí)際運(yùn)行,該系統(tǒng)每日解析電子郵件數(shù)據(jù)量可達(dá)100萬封以上;支持半年以上數(shù)據(jù)量的附件存儲(chǔ)與快速檢索,并能夠擴(kuò)展;支持上億條電子郵件數(shù)據(jù)的關(guān)聯(lián)分析,單頁能夠展示與編輯100以上節(jié)點(diǎn)的關(guān)系圖。以上所述僅為本發(fā)明的較佳實(shí)施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種基于關(guān)系圖的海量電子郵件分析方法,其特征在于,包括: 并行解析步驟:采用并行處理方式解析電子郵件源數(shù)據(jù),并提取出電子郵件頭部信息、正文信息和附件信息,將電子郵件頭部信息和正文信息保存到海量電子郵件數(shù)據(jù)庫的電子郵件表中; 附件存儲(chǔ)檢測(cè)步驟:將并行解析步驟中得到的附件信息的摘要信息以設(shè)定的文件存儲(chǔ)結(jié)構(gòu)存儲(chǔ)至海量電子郵件數(shù)據(jù)庫的電子郵件附件表中,并進(jìn)行檢測(cè); 關(guān)系圖生成步驟:基于并行解析步驟與附件存儲(chǔ)檢測(cè)步驟得到的電子郵件相關(guān)數(shù)據(jù),構(gòu)建實(shí)時(shí)更新的電子郵件關(guān)系表,并根據(jù)用戶需求和電子郵件關(guān)系表生成單點(diǎn)關(guān)系圖或多點(diǎn)關(guān)系圖; 關(guān)聯(lián)分析步驟:引入IP地址地理信息數(shù)據(jù)庫與電子郵件用戶身份信息數(shù)據(jù)庫,并將這兩個(gè)數(shù)據(jù)庫與電子郵件表進(jìn)行關(guān)聯(lián),并基于生成的關(guān)系圖進(jìn)行關(guān)聯(lián)分析,再把關(guān)聯(lián)分析過程與結(jié)果在關(guān)系圖中展示。
2.根據(jù)權(quán)利要求1所述的海量電子郵件分析方法,其特征在于,所述并行解析步驟還包括:對(duì)加密壓縮格式的電子郵件源數(shù)據(jù)進(jìn)行解壓縮和解密,并對(duì)提取的電子郵件頭部信息進(jìn)行檢測(cè)。
3.根據(jù)權(quán)利要求1所述的海量電子郵件分析方法,其特征在于,所述附件存儲(chǔ)檢測(cè)步驟中將附件信息的摘要信息以設(shè)定的文件存儲(chǔ)結(jié)構(gòu)存儲(chǔ)至電子郵件附件表中,具體包括:根據(jù)電子郵件附件表的條目標(biāo)識(shí)生成新的附件文件名,再按照“數(shù)據(jù)源編號(hào)/年/月/日/時(shí)”的文件存儲(chǔ)結(jié)構(gòu)存儲(chǔ)至電子郵件附件表; 所述附件存儲(chǔ)檢測(cè)步驟中對(duì)存儲(chǔ)的附件信息的摘要信息進(jìn)行檢測(cè),具體包括:通過惡意附件識(shí)別弓I擎檢測(cè)附件信息的摘要信息是否可疑。
4.根據(jù)權(quán)利要求1所述的海量電子郵件分析方法,其特征在于,所述關(guān)系圖生成步驟還包括:對(duì)生成的關(guān)系圖進(jìn)行多級(jí)顯示模式的處理。
5.根據(jù)權(quán)利要求1所述的海量電子郵件分析方法,其特征在于,所述關(guān)聯(lián)分析步驟具體包括: 步驟A,獲取待分析的電子郵件表,若電子郵件表為單點(diǎn),則從電子郵件關(guān)系表中獲取與該單點(diǎn)相關(guān)的條目,提取關(guān)聯(lián)節(jié)點(diǎn),形成新的電子郵件表; 步驟B,結(jié)合電子郵件用戶身份信息數(shù)據(jù)庫,使用步驟A形成的新的電子郵件表,生成帶有屬性特征的關(guān)系圖點(diǎn)集合; 步驟C,根據(jù)電子郵件關(guān)系表,獲取步驟B的關(guān)系圖點(diǎn)集合中的每個(gè)元素關(guān)聯(lián)的邊集合,合并這些邊集合,并結(jié)合IP地址地理信息數(shù)據(jù)庫,生成帶有屬性特征的邊集合,且所述屬性特征包括權(quán)值; 步驟D,將步驟B與步驟C生成的關(guān)系圖點(diǎn)集合與邊集合,轉(zhuǎn)化為對(duì)應(yīng)的圖形化描述語言,再調(diào)用圖形化展示接口生成新的關(guān)系圖。
6.一種基于關(guān)系圖的海量電子郵件分析系統(tǒng),其特征在于,包括通過海量電子郵件數(shù)據(jù)庫進(jìn)行數(shù)據(jù)交互的并行解析模塊、附件存儲(chǔ)檢測(cè)模塊、關(guān)系圖生成模塊和關(guān)聯(lián)分析模塊: 所述并行解析模塊,其用于通過并行處理方式解析電子郵件源數(shù)據(jù),并提取出電子郵件頭部信息、正文信息和附件信息,并將電子郵件頭部信息和正文信息保存到海量電子郵件數(shù)據(jù)庫的電子郵件表中; 所述附件存儲(chǔ)檢測(cè)模塊,其用于將并行解析模塊中得到的附件信息的摘要信息以設(shè)定的文件存儲(chǔ)結(jié)構(gòu)存儲(chǔ)至海量電子郵件數(shù)據(jù)庫的電子郵件附件表中,并對(duì)其進(jìn)行檢測(cè); 所述關(guān)系圖生成模塊,其用于根據(jù)并行解析模塊與附件存儲(chǔ)檢測(cè)模塊得到的電子郵件相關(guān)數(shù)據(jù),構(gòu)建實(shí)時(shí)更新的電子郵件關(guān)系表,并根據(jù)用戶需求和電子郵件關(guān)系表生成單點(diǎn)關(guān)系圖或多點(diǎn)關(guān)系圖; 所述關(guān)聯(lián)分析模塊,其用于引入IP地址地理信息數(shù)據(jù)庫和電子郵件用戶身份信息數(shù)據(jù)庫,并將這兩個(gè)數(shù)據(jù)庫與電子郵件表進(jìn)行關(guān)聯(lián),并基于所述關(guān)系圖生成模塊生成的關(guān)系圖進(jìn)行關(guān)聯(lián)分析,再把關(guān)聯(lián)分析過程與結(jié)果在關(guān)系圖中展示。
7.根據(jù)權(quán)利要求6所述的海量電子郵件分析系統(tǒng),其特征在于,所述并行解析模塊包括多數(shù)據(jù)源導(dǎo)入子模塊、解析任務(wù)調(diào)度分配子模塊和電子郵件源碼解析子模塊; 所述多數(shù)據(jù)源導(dǎo)入子模塊,用于自動(dòng)化輪詢與拷貝多源電子郵件數(shù)據(jù),對(duì)不同數(shù)據(jù)源進(jìn)行編號(hào),并對(duì)壓縮或加密的原始數(shù)據(jù)進(jìn)行解壓縮和解密處理,生成統(tǒng)一的帶有數(shù)據(jù)源編號(hào)的電子郵件源碼; 所述解析任務(wù)調(diào)度分配子模塊,用于評(píng)估電子郵件源碼數(shù)據(jù)解析任務(wù)量,并將其基于負(fù)載均衡的原則分配給所述電子郵件源碼解析子模塊; 所述電子郵件源碼解析子模塊,用于并行化解析電子郵件源碼,提取電子郵件頭部信息、正文信息與附件信息,存儲(chǔ)到海量電子郵件數(shù)據(jù)庫的電子郵件表中。
8.根據(jù)權(quán)利要求6所述的海量電子郵件分析系統(tǒng),其特征在于,所述附件存儲(chǔ)檢測(cè)模塊包括附件信息解析子模塊、附件文件存儲(chǔ)子模塊和可疑附件文件檢測(cè)接口 ; 所述附件信息解析子模塊,用于從電子郵件源碼中提取附件摘要信息與附件文件,并將附件摘要信息存儲(chǔ)到電子郵件附`件表中,將附件文件交予所述附件文件存儲(chǔ)子模塊處理; 所述附件文件存儲(chǔ)子模塊,用于根據(jù)設(shè)定的文件存儲(chǔ)結(jié)構(gòu)存儲(chǔ)相關(guān)附件文件到電子郵件附件文件數(shù)據(jù)庫; 所述可疑附件文件檢測(cè)接口,用于調(diào)用惡意附件識(shí)別引擎檢測(cè)附件信息,并將檢測(cè)結(jié)果和具體描述反饋給所述附件信息解析子模塊進(jìn)行保存。
9.根據(jù)權(quán)利要求6所述的海量電子郵件分析系統(tǒng),其特征在于,所述關(guān)系圖生成模塊包括分析數(shù)據(jù)交互接口、點(diǎn)邊屬性計(jì)算子模塊、圖形化描述語言轉(zhuǎn)換子模塊和關(guān)系圖展示與編輯子模塊; 所述分析數(shù)據(jù)交互接口,用于獲取電子郵箱列表; 所述點(diǎn)邊屬性計(jì)算子模塊,用于從獲取的電子郵箱列表中得到相關(guān)的電子郵箱用戶與往來電子郵件,并結(jié)合電子郵件表信息,生成帶屬性的關(guān)系圖點(diǎn)集合與邊集合; 所述圖形化描述語言轉(zhuǎn)換子模塊,用于將生成的點(diǎn)集合與邊集合,轉(zhuǎn)化為相關(guān)的圖形化描述語言; 所述關(guān)系圖展示與編輯子模塊,用于根據(jù)圖形化描述語言進(jìn)行多級(jí)關(guān)系圖的繪制與展示,并提供用戶編輯與交互功能。
10.根據(jù)權(quán)利要求6所述的海量電子郵件分析系統(tǒng),其特征在于,所述關(guān)聯(lián)分析模塊包括地理信息關(guān)聯(lián)分析子模塊和用戶信息關(guān)聯(lián)分析子模塊;所述地理信息關(guān)聯(lián)分析子模塊,用于根據(jù)電子郵件表的IP地址字段,利用IP地址地理信息數(shù)據(jù)庫獲取其對(duì)應(yīng)的地理信息,并保存至電子郵件表相關(guān)字段,供用戶進(jìn)行關(guān)聯(lián)分析; 所述用戶信息關(guān)聯(lián)分析子模塊,用于結(jié)合電子郵件用戶身份信息數(shù)據(jù)庫,關(guān)聯(lián)更新電子郵件關(guān)系表相 關(guān)字段。
全文摘要
本發(fā)明涉及一種基于關(guān)系圖的海量電子郵件分析方法及系統(tǒng),所述方法包括并行解析電子郵件源數(shù)據(jù),提取出電子郵件頭部信息、正文信息保存到電子郵件表中;將并行解析得到的附件摘要信息以設(shè)定結(jié)構(gòu)存儲(chǔ)至電子郵件附件表,并進(jìn)行檢測(cè);根據(jù)解析的電子郵件數(shù)據(jù),構(gòu)建電子郵件關(guān)系表,并根據(jù)用戶需求和電子郵件關(guān)系表生成單點(diǎn)關(guān)系圖或多點(diǎn)關(guān)系圖;引入IP地址地理信息數(shù)據(jù)庫與電子郵件用戶身份信息數(shù)據(jù)庫,對(duì)電子郵件表進(jìn)行關(guān)聯(lián)分析,并在生成的關(guān)系圖中展示關(guān)聯(lián)信息。所述系統(tǒng)對(duì)應(yīng)包括并行解析模塊、附件存儲(chǔ)檢測(cè)模塊、關(guān)系圖生成模塊和關(guān)聯(lián)分析模塊。本發(fā)明有效解決了大數(shù)據(jù)量電子郵件的分析處理與電子郵件網(wǎng)絡(luò)中垃圾郵件追蹤定位的問題。
文檔編號(hào)G06Q10/10GK103106573SQ201310054990
公開日2013年5月15日 申請(qǐng)日期2013年2月20日 優(yōu)先權(quán)日2013年2月20日
發(fā)明者李書豪, 云曉春, 張永崢, 郝志宇, 霍永亮 申請(qǐng)人:中國科學(xué)院信息工程研究所