一種垃圾郵件過濾方法及系統(tǒng)的制作方法
【技術領域】
[0001] 本發(fā)明涉及垃圾郵件處理技術領域,特別是涉及一種垃圾郵件過濾方法及系統(tǒng)。
【背景技術】
[0002] 當今,隨著計算機技術以及互聯(lián)網(wǎng)的飛速發(fā)展,電子郵件(E-mail)早已成為人們 日常工作、生活中不可或缺的溝通方式。
[0003] 實際上,電子郵件在給人們帶來極大便利的同時也帶來了一些負面影響,即我們 每天收到的郵件有很大一部分是不請自來的,其中,有些是商業(yè)廣告,有些是政治宣傳,有 些是色情廣告,還有一些甚至是病毒,我們俗稱這些郵件為垃圾郵件。垃圾郵件的發(fā)布者為 了大面積散布信息,通常采用多臺機器同時巨量發(fā)送的方式攻擊郵件服務器,導致被攻擊 郵件服務器大量帶寬的損失,并影響人們正常的工作與生活。因此,尋找一種切實可行的垃 圾郵件過濾方法顯得尤為重要。
[0004] 現(xiàn)有的垃圾郵件過濾方法主要有IP過濾技術、用戶黑白名單技術、基于規(guī)則的關 鍵字過濾、規(guī)則評分等,然而,這些技術都存在共同的缺點:由于垃圾郵件的多源性、不確定 性、多變性,使得垃圾郵件過濾方法的設計復雜度高,并且垃圾郵件過濾的準確率低,已無 法滿足當前形勢下垃圾郵件過濾的需求。
【發(fā)明內容】
[0005] 有鑒于此,本發(fā)明提供了一種垃圾郵件過濾方法及系統(tǒng),以降低垃圾郵件過濾方 法的設計復雜度,提高垃圾郵件過濾的準確性。
[0006] 為解決上述技術問題,本發(fā)明提供一種垃圾郵件過濾方法,包括:
[0007] 接收電子郵件,并提取所述電子郵件的基因序列;
[0008] 對比所述電子郵件的基因序列與預設的郵件DNA庫中的基因序列,確定所述電子 郵件的基因序列與每個所述郵件DNA庫中的基因序列的相似度;
[0009] 將所述相似度超過預設閾值的所述郵件DNA庫中的基因序列對應的郵件屬性作 為所述電子郵件的郵件屬性;
[0010] 其中,所述郵件屬性包括垃圾郵件或者非垃圾郵件。
[0011] 上述方法中,優(yōu)選的,所述提取所述電子郵件的基因序列包括:
[0012] 對所述電子郵件進行分詞,得到分詞結果;
[0013] 利用貝葉斯統(tǒng)計模型,計算所述分詞結果中詞語序列對應的先驗概率;
[0014] 利用所述詞語序列和所述詞語序列對應的先驗概率,構成所述電子郵件的基因序 列。
[0015] 上述方法中,優(yōu)選的,在所述對所述電子郵件進行分詞,得到分詞結果之前,還包 括:
[0016] 將編碼格式的所述電子郵件轉換為可處理文本格式的電子郵件。
[0017] 上述方法中,優(yōu)選的,在所述對比所述電子郵件的基因序列與預設的郵件DNA庫 中的基因序列之前,還包括:
[0018] 獲取作為訓練樣本的電子郵件,并提取所述訓練樣本的基因序列;
[0019] 確定所述訓練樣本的基因序列對應的郵件屬性;
[0020] 利用所述訓練樣本的基因序列、所述訓練樣本的基因序列對應的郵件屬性及兩者 之間的對應關系,構建得到所述郵件DNA庫。
[0021] 上述方法中,優(yōu)選的,在所述將所述相似度超過預設閾值的所述郵件DNA庫中的 基因序列對應的郵件屬性作為所述電子郵件的郵件屬性之后,還包括:
[0022] 將所述電子郵件的基因序列和所述電子郵件的基因序列對應的郵件屬性更新至 所述郵件NDA庫。
[0023] 本發(fā)明還提供了一種垃圾郵件過濾系統(tǒng),包括:
[0024] 提取單元,用于接收電子郵件,并提取所述電子郵件的基因序列;
[0025] 比對單元,用于對比所述電子郵件的基因序列與預設的郵件DNA庫中的基因序 列,確定所述電子郵件的基因序列與每個所述郵件DNA庫中的基因序列的相似度;
[0026] 屬性確定單元,用于將所述相似度超過預設閾值的所述郵件DNA庫中的基因序列 對應的郵件屬性作為所述電子郵件的郵件屬性;
[0027] 其中,所述郵件屬性包括垃圾郵件或者非垃圾郵件。
[0028] 上述系統(tǒng)中,優(yōu)選的,所述提取單元包括:
[0029] 分詞子單元,用于對所述電子郵件進行分詞,得到分詞結果;
[0030] 先驗概率計算子單元,用于利用貝葉斯統(tǒng)計模型,計算所述分詞結果中詞語序列 對應的先驗概率;
[0031] 基因序列構建子單元,用于利用所述詞語序列和所述詞語序列對應的先驗概率, 構成所述電子郵件的基因序列。
[0032] 上述系統(tǒng)中,優(yōu)選的,還包括:
[0033] 預處理模塊,用于在所述對所述電子郵件進行分詞,得到分詞結果之前,將編碼格 式的所述電子郵件轉換為可處理文本格式的電子郵件。
[0034] 上述系統(tǒng)中,優(yōu)選的,還包括:
[0035] 郵件DNA庫生成模塊,用于在所述對比所述電子郵件的基因序列與預設的郵件 DNA庫中的基因序列之前,獲取作為訓練樣本的電子郵件,并提取所述訓練樣本的基因序 列;確定所述訓練樣本的基因序列對應的郵件屬性;利用所述訓練樣本的基因序列、所述 訓練樣本的基因序列對應的郵件屬性及兩者之間的對應關系,構建得到所述郵件DNA庫。
[0036] 上述系統(tǒng)中,優(yōu)選的,還包括:
[0037] 郵件NDA庫更新模塊,用于在所述將所述相似度超過預設閾值的所述郵件DNA庫 中的基因序列對應的郵件屬性作為所述電子郵件的郵件屬性之后,將所述電子郵件的基因 序列和所述電子郵件的基因序列對應的郵件屬性更新至所述郵件NDA庫。
[0038] 以上本發(fā)明提供的一種垃圾郵件過濾方法及系統(tǒng)中,基于郵件DNA庫,首先,接收 電子郵件并提取該電子郵件的基因序列;然后,對比電子郵件的基因序列與預先構建的郵 件DNA庫中的基因序列,確定該電子郵件的基因序列與每個郵件DNA庫中的基因序列的相 似度;最后,將相似度超過預設閾值的郵件DNA庫中的基因序列對應的郵件屬性作為上述 電子郵件的郵件屬性,當該郵件屬性為垃圾郵件時確定接收到的電子郵件為垃圾郵件。綜 上,上述基于郵件DNA庫的垃圾郵件過濾方法彌補了IP過濾技術、用戶黑白名單技術、基于 規(guī)則的關鍵字過濾、規(guī)則評分等方法的不足,大大降低了因垃圾郵件的多源性、不確定性、 多變性帶來的垃圾郵件過濾系統(tǒng)的設計復雜度,有效提高了垃圾郵件過濾的準確性,均具 有較高的技術價值。
【附圖說明】
[0039] 為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn) 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發(fā)明的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù) 提供的附圖獲得其他的附圖。
[0040] 圖1為本發(fā)明實施例提供的一種垃圾郵件過濾方法的流程圖;
[0041] 圖2為本發(fā)明實施例提供的電子郵件預處理的具體過程流程圖;
[0042] 圖3為本發(fā)明實施例提供的提取電子郵件的基因序列的具體過程流程圖;
[0043] 圖4為本發(fā)明實施例提供的郵件DNA庫的具體生成過程流程圖;
[0044] 圖5為本發(fā)明實施例提供的一種垃圾郵件過濾系統(tǒng)的結構框圖示意圖。
【具體實施方式】
[0045] 下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于 本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他 實施例,都屬于本發(fā)明保護的范圍。
[0046] 本發(fā)明的核心是提供垃圾郵件過濾方法及系統(tǒng),以降低垃圾郵件過濾方法的設計 復雜度,提高垃圾郵件過濾的準確性。
[0047] 為了使本技術領域的人員更好地理解本發(fā)明方案,下面結合附圖和【具體實施方式】 對本發(fā)明作進一步的詳細說明。
[0048] 參考圖1,圖1示出了本發(fā)明實施例提供的一種垃圾郵件過濾方法的流程圖,該方 法具體可以包括如下步驟:
[0049] 步驟S100、接收電子郵件,并提取電子郵件的基因序列。
[0050] 本發(fā)明實施例方法的執(zhí)行主體為垃圾郵件過濾系統(tǒng),具體地,可由垃圾郵件過濾 系統(tǒng)中的垃圾郵件過濾模塊來完成步驟S100至步驟S102的具體內容。
[0051] 在實際應用中,接收到的電子郵件(也稱新郵件)的格式通常都是編碼格式的, 因此,在提取電子郵件的基因序列之前,需要基于電子郵件的傳輸協(xié)議和編碼,將編碼格式 的電子郵件轉換為可處理文本格式的電子郵件。具體實施時,可以由垃圾郵件過濾系統(tǒng)中 的預處理模塊實現(xiàn)上述轉換過程。參考圖2,示出了電子郵件預處理的具體過程,在電子 郵件接收端,郵件依次經(jīng)過郵件用戶代理模塊MUA(MailUserAgent)、郵件傳輸代理模塊 MTA(MailTransferAgent)和郵件投遞代理模塊MDA(MailDeliveryAgent)最終到達收 件人郵箱。接著,預處理模塊提取電子郵件的完整內容,然后將提取的內容根據(jù)標簽格式化 為可處理文本以供后續(xù)處理。
[0052] 參考圖3,提取電子郵件的基因序列的具體過程如下:
[0053] 步驟S300、對電子郵件進行分詞,得到分詞結果。
[0054] 在實際應用中,首先需要基于電子郵件的傳輸協(xié)議和編碼,將編碼格式的電子郵 件轉換為可處理文本格式的電子郵件。具體實施時,可以由垃圾郵件過濾系統(tǒng)中的預處理 模塊實現(xiàn)上述轉換過程。
[0055] 在接收到新郵件后,對可處理文本格式的電子郵件的內容進行分詞,得到分詞結 果。
[0056] 步驟S301、利用貝葉斯統(tǒng)計模型,計算分詞結果中詞語序列對應的先驗概率。
[0057] 具體地,將新郵件的基因序列與郵件DNA庫中的基因序列進行比對,利用貝葉斯 統(tǒng)計模型設定閾值并判定新郵件的屬性。
[0058] 步驟S302、利用詞語序列和詞語序列對應的先驗概率,構成電子郵件的基因序列。
[0059] 以上為提取電子郵件的基因序列的具體過程。
[0060] 步驟S101、對比電子郵件的基因序列與預設的郵件DNA庫中的基因序列,確定電 子郵件