專利名稱:反垃圾郵件網(wǎng)關(guān)系統(tǒng)及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子郵件處理領(lǐng)域,特別涉及一種基于大規(guī)模郵件內(nèi)容聚類的反垃圾郵件網(wǎng)關(guān)系統(tǒng)及方法。
背景技術(shù):
垃圾郵件通常被定義為具有下述屬性的電子郵件(一)收件人事先沒有提出要求或者同意接收的廣告、電子刊物、各種形式的宣傳品等宣傳性的電子郵件;(二)收件人無法拒收的電子郵件;(三)隱藏發(fā)件人身份、地址、標(biāo)題等信息的電子郵件;(四)含有虛假的信息源、發(fā)件人、路由等信息的電子郵件。自從第一封垃圾郵件誕生以來,垃圾郵件成了困擾郵件用戶的難題,也成了郵件運(yùn)營(yíng)商的提高用戶體驗(yàn)、吸引用戶的重要考慮因素。反垃圾郵件的任務(wù)是將垃圾郵件阻擋在郵件系統(tǒng)或者用戶收件箱以外。主流的的反垃圾技術(shù)主要基于郵件內(nèi)容和郵件發(fā)信行為。現(xiàn)有的基于郵件內(nèi)容的反垃圾郵件技術(shù)主要有開源系統(tǒng)Dspam(通過網(wǎng)站 http//www. nuclearel印hant.com可以下載);騰訊科技(深圳)有限公司的申請(qǐng)?zhí)枮?200810227762、發(fā)明名稱為“專利對(duì)垃圾郵件進(jìn)行攔截的方法和裝置”的專利申請(qǐng);浙江大學(xué)的申請(qǐng)?zhí)枮?00810059602、發(fā)明名稱為“基于Logistic回歸的中文垃圾郵件過濾方法” 的專利申請(qǐng);北京大學(xué)的申請(qǐng)?zhí)枮?00810115584、發(fā)明名稱為“一種垃圾郵件檢測(cè)方法”的專利申請(qǐng)等。上述反垃圾郵件技術(shù)主要包括訓(xùn)練和線上使用兩個(gè)流程,下面以Dspam為例介紹其在訓(xùn)練和線上使用時(shí)的幾個(gè)主要步驟,其余相關(guān)技術(shù)基本類似。Dspam的訓(xùn)練流程包含以下幾個(gè)步驟1、獲取大量郵件樣本并將這些樣本人工標(biāo)識(shí)為垃圾郵件和正常郵件;2、對(duì)郵件進(jìn)行解碼;3、對(duì)郵件正文內(nèi)容進(jìn)行分詞;4、統(tǒng)計(jì)各個(gè)分詞出現(xiàn)的頻率;5、使用貝葉斯公式訓(xùn)練樸素貝葉斯分類模型。Dspam模型訓(xùn)練好以后,線上使用流程相對(duì)簡(jiǎn)單,僅包含以下兩個(gè)步驟1、對(duì)線上郵件進(jìn)行分詞;2、使用訓(xùn)練好的樸素貝葉斯分類模型對(duì)郵件進(jìn)行分類?;趯?shí)時(shí)發(fā)信行為的反垃圾郵件策略與基于內(nèi)容反垃圾郵件策略的具有較大差別。基于實(shí)時(shí)行為的反垃圾系統(tǒng)一般沒有訓(xùn)練這個(gè)步驟。典型的郵件發(fā)信行為的反垃圾策略主要有Checksum(通過網(wǎng)站http://www. rhyolite. com/dcc/可以下載),哈爾濱工程大學(xué)的申請(qǐng)?zhí)枮?00810064806、發(fā)明名稱為“一種基于拓?fù)湫袨榈睦]件判定方法”專利申請(qǐng)等。下面以Checksum為例介紹其基本流程。Checksum的基本假設(shè)為重復(fù)度大的郵件為垃圾郵件,其流程大致如下1、針對(duì)每個(gè)郵件算一個(gè)指紋;2、針對(duì)線上系統(tǒng)所有郵件的指紋進(jìn)行計(jì)數(shù);3、對(duì)于指紋重復(fù)度高的郵件直接判為垃圾郵件。郵件內(nèi)容和實(shí)時(shí)發(fā)信行為相結(jié)合是目前商業(yè)反垃圾郵件系統(tǒng)方面的主流。將郵件內(nèi)容和實(shí)時(shí)發(fā)信行為特性轉(zhuǎn)換為規(guī)則,并采取各個(gè)規(guī)則累積加分,并根據(jù)得分閾值判斷是否為垃圾郵件是將兩者結(jié)合的有效手段。代表性的技術(shù)有,開源系統(tǒng)的SpamAssassin(通過網(wǎng)站http //spamassassin. apache, org/可以下載)、華南理工大學(xué)的申請(qǐng)?zhí)枮?200710029369、發(fā)明名稱為“基于綜合決策的防垃圾郵件誤過濾方法及系統(tǒng)”的專利申請(qǐng),商業(yè)系統(tǒng)賽門鐵克公司的bright mai 1系統(tǒng)(通過網(wǎng)站http //www. Symantec, com/business/products/family, jsp ? familyid = brightmail 可以下載),漢啟禾斗技的 KBAS 系統(tǒng)(通過網(wǎng)站 http://www. hanqinet.com/projectl. html 可以下載)等。以 SpamAssassin為代表的介紹其主要流程。SpamAssassin包含訓(xùn)練和線上使用兩個(gè)流程?;谝?guī)則的反垃圾相關(guān)技術(shù)的訓(xùn)練主要包括以下幾個(gè)步驟1、獲取大量郵件樣本并將這些樣本人工標(biāo)識(shí)為垃圾郵件和正常郵件;2、人工添加規(guī)則并建立規(guī)則庫;3、使用人工標(biāo)識(shí)樣本對(duì)規(guī)則進(jìn)行評(píng)分。線上使用則包含以下兩個(gè)步驟1、計(jì)算每封郵件匹配的規(guī)則;2、對(duì)所有滿足的規(guī)則得分求和并根據(jù)閾值判斷是否為垃圾郵件。現(xiàn)有反垃圾郵件系統(tǒng)主要存在一下幾個(gè)方面的不足A)、缺乏有效反饋收集機(jī)制, 反饋信息不能有效利用。雖然大部分郵件系統(tǒng)都具有垃圾郵件舉報(bào)等反饋機(jī)制,但是來自用戶反饋、蜜罐郵箱、管理員審核等的各種渠道的反饋信息相對(duì)獨(dú)立、分散,缺乏有效收集、 整合和利用的機(jī)制,其中蜜罐郵箱是一種特殊的郵箱賬號(hào),進(jìn)入其中的郵件都為垃圾郵件。 B)、缺乏自動(dòng)學(xué)習(xí)機(jī)制,對(duì)突然爆發(fā)的垃圾郵件不能及時(shí)響應(yīng),且反垃圾系統(tǒng)容易被反垃圾郵件者攻破?,F(xiàn)有的反垃圾郵件系統(tǒng),都是基于事先學(xué)習(xí)好或者設(shè)置的參數(shù)對(duì)新來郵件類型進(jìn)行判斷。這種反垃圾郵件思路對(duì)于突然爆發(fā)的新的垃圾郵件類型不能有效處理。同時(shí), 由于現(xiàn)有垃圾郵件系統(tǒng)中的模型相對(duì)固定,容易被反垃圾郵件者發(fā)現(xiàn)系統(tǒng)特征,造成系統(tǒng)過一段時(shí)間被垃圾郵件發(fā)送者攻破而失效。C)、漏判率高及誤判率高。現(xiàn)有反垃圾郵件系統(tǒng)不能適應(yīng)郵件類型快速變化、部分國(guó)外的反垃圾郵件策略沒有考慮中國(guó)的特殊情況等原因,造成較高的漏判率。同時(shí),由于現(xiàn)有反垃圾郵件系統(tǒng)缺乏有效誤判反饋機(jī)制,造成誤判不能有效糾正,誤判率過高。D)、人工審核量大?,F(xiàn)有系統(tǒng)兩個(gè)環(huán)節(jié)需要較多的人工審核。 首先,對(duì)于系統(tǒng)部分不能判別結(jié)果需要人工審核,這部分審核量較大。其次,為了使得系統(tǒng)適應(yīng)新的垃圾郵件類型需要準(zhǔn)備樣本進(jìn)行重新訓(xùn)練,這部分不僅審核的樣本量大,而且對(duì)樣本分布也具有較高要求,造成難度大。
發(fā)明內(nèi)容
為了解決上述技術(shù)問題,本發(fā)明提出了一種反垃圾郵件網(wǎng)關(guān)系統(tǒng)及方法。本發(fā)明的反垃圾郵件網(wǎng)關(guān)系統(tǒng)包括郵件樣本數(shù)據(jù)庫,用于存儲(chǔ)各種郵件樣本; 郵件特征挖掘模塊,用于從郵件樣本數(shù)據(jù)庫中獲取郵件樣本,將該郵件樣本與所有的中心點(diǎn)進(jìn)行比對(duì),如果相似性小于一定的閾值則直接將樣本加入到該中心點(diǎn),其中每個(gè)中心點(diǎn)為一類樣本的代表,在計(jì)算郵件樣本與中心點(diǎn)的相似性時(shí),將郵件樣本與中心點(diǎn)分別解析為多個(gè)部分內(nèi)容,針對(duì)每個(gè)部分比較二者的相似性,根據(jù)各個(gè)部分的相似性進(jìn)行加權(quán)組合獲得郵件樣本與中心點(diǎn)的全局相似性。另外,本發(fā)明還提出了一種反垃圾郵件方法,該方法包括在郵件樣本數(shù)據(jù)庫中存儲(chǔ)各種郵件樣本;從郵件樣本數(shù)據(jù)庫中獲取郵件樣本,將該郵件樣本與所有的中心點(diǎn)進(jìn)行比對(duì),如果相似性小于一定的閾值則直接將樣本加入到該中心點(diǎn),其中每個(gè)中心點(diǎn)為一類樣本的代表,在計(jì)算郵件樣本與中心點(diǎn)的相似性時(shí),將郵件樣本與中心點(diǎn)分別解析為多個(gè)部分內(nèi)容,針對(duì)每個(gè)部分比較二者的相似性,根據(jù)各個(gè)部分的相似性進(jìn)行加權(quán)組合獲得郵件樣本與中心點(diǎn)的全局相似性。使用本發(fā)明的反垃圾郵件網(wǎng)關(guān)系統(tǒng)及方法,具有以下幾個(gè)方面的優(yōu)點(diǎn)1)對(duì)突然爆發(fā)的垃圾郵件類型等都有較好的適應(yīng)性,本發(fā)明提出的有效的反饋收集機(jī)制能夠?qū)⒚酃捺]箱、用戶舉報(bào)、管理員審核的郵件進(jìn)行統(tǒng)一及時(shí)收集,能夠?qū)崟r(shí)獲得線上垃圾郵件的最新情況,并通過郵件特征的在線/離線學(xué)習(xí)模塊,能夠及時(shí)獲得線上郵件的最新特征情況,從而使得系統(tǒng)能夠適應(yīng)垃圾郵件類型快速變化。2~)垃圾郵件漏判率低、實(shí)時(shí)性好。本發(fā)明提供了兩個(gè)層次的反垃圾模塊,分別為在線郵件分類模塊和離線郵件分類模塊。在線郵件在線分類器在通過損失部分發(fā)現(xiàn)率,提升了系統(tǒng)的實(shí)時(shí)響應(yīng)能力,而離線郵件分類器則可以彌補(bǔ)在線郵件分類器的不足,以較大的延時(shí)獲得較大的垃圾郵件發(fā)現(xiàn)率,起到亡羊補(bǔ)牢作用。在線/離線郵件分類器的配合使用本發(fā)明反垃圾郵件網(wǎng)關(guān)獲得了較低的漏判率和較好的實(shí)時(shí)性?;萌斯じ深A(yù)小。本發(fā)明通過反饋收集機(jī)制和郵件特征挖掘算法能夠自動(dòng)有效地提取出郵件的特征,不需要人工對(duì)樣本進(jìn)行審核,管理員僅需要對(duì)于挖掘到的部分郵件特征進(jìn)行審核,這部分量是非常少的。因此,使用本發(fā)明的系統(tǒng)和方法,人工審核量非常少。 4)系統(tǒng)可收縮性好,系統(tǒng)可以通過修改郵件分發(fā)服務(wù)器設(shè)置動(dòng)態(tài)增減各種分類模塊服務(wù)器的數(shù)量,可以適應(yīng)多種規(guī)模的反垃圾郵件系統(tǒng),具有很好的可收縮性。
圖1為本發(fā)明的反垃圾郵件網(wǎng)關(guān)系統(tǒng)架構(gòu)圖;圖2為本發(fā)明的發(fā)垃圾郵件方法的流程圖;圖3是本發(fā)明的發(fā)垃圾郵件方法中反饋獲取步驟的實(shí)現(xiàn)原理圖;圖4是本發(fā)明的發(fā)垃圾郵件方法中郵件特征挖掘步驟的實(shí)現(xiàn)原理圖;圖5是本發(fā)明的發(fā)垃圾郵件方法中郵件分類步驟的實(shí)現(xiàn)原理圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說明。圖1示出了本發(fā)明基于大規(guī)模郵件內(nèi)容聚類的反垃圾郵件網(wǎng)關(guān)系統(tǒng)架構(gòu)圖。參照?qǐng)D1,本發(fā)明的網(wǎng)關(guān)系統(tǒng)包括郵件系統(tǒng)接口、郵件分發(fā)模塊、在線郵件分類模塊、離線郵件分類模塊、郵件樣本收集模塊、郵件特征挖掘模塊、系統(tǒng)管理模塊、管理員接口、數(shù)據(jù)庫接口、郵件樣本數(shù)據(jù)庫、郵件特征數(shù)據(jù)庫郵件系統(tǒng)接口,用于實(shí)現(xiàn)反垃圾郵件網(wǎng)關(guān)與郵件系統(tǒng)各種通信,包括從郵件傳輸代理實(shí)時(shí)獲取線上郵件并將郵件傳遞給郵件分發(fā)模塊;將在線郵件分類模塊的郵件分類結(jié)果返回給郵件傳輸代理,將離線郵件分類模塊的垃圾郵件列表返回給郵件傳輸代理;建立批量郵件導(dǎo)出連接、從郵件服務(wù)器獲得用戶郵箱舉報(bào)、蜜罐郵箱等類型郵件等功能。郵件分發(fā)模塊,將進(jìn)入網(wǎng)關(guān)系統(tǒng)相關(guān)請(qǐng)求根據(jù)其類型分發(fā)給對(duì)應(yīng)模塊,其中線上郵件請(qǐng)求將轉(zhuǎn)發(fā)給在線/離線郵件分類器,用戶舉報(bào)、蜜罐、管理員等反饋郵件請(qǐng)求則將傳遞給郵件樣本收集模塊。同時(shí)郵件分發(fā)模塊還需要負(fù)責(zé)在各個(gè)在線/離線郵件分類模塊、 郵件樣本收集模塊的負(fù)載均衡。在線郵件分類模塊,響應(yīng)郵件分發(fā)模塊發(fā)送過來的請(qǐng)求與郵件分發(fā)模塊建立連接并獲取郵件相關(guān)內(nèi)容,然后根據(jù)已有的正常/垃圾郵件特征對(duì)線上郵件進(jìn)行分類,并將是否為垃圾郵件的鑒別結(jié)果通過原連接實(shí)時(shí)返回給郵件傳輸代理,該原連接表示在響應(yīng)郵件分發(fā)模塊過來的請(qǐng)求時(shí)建立的郵件傳輸連接。同時(shí),在線郵件分類模塊還需要通過數(shù)據(jù)庫接口與郵件特征數(shù)據(jù)庫建立連接,并按照一定時(shí)間間隔從郵件特征數(shù)據(jù)庫獲取最新的郵件特征。郵件特征數(shù)據(jù)庫中的郵件特征要被實(shí)時(shí)更新,最新的郵件特征是指經(jīng)過最近一次更新后的郵件特征。離線郵件分類模塊,通過數(shù)據(jù)庫接口與郵件特征數(shù)據(jù)庫建立連接,并按照一定時(shí)間間隔從郵件特征數(shù)據(jù)庫獲取最新的郵件特征,然后使用最新提取的郵件特征對(duì)過去一段時(shí)間的緩存郵件進(jìn)行分類,分類結(jié)果以需要進(jìn)行移信操作的郵件列表的形式返回給郵件傳輸代理。郵件樣本收集模塊,響應(yīng)郵件分發(fā)模塊發(fā)送過來的請(qǐng)求,建立連接獲取郵件樣本類型及內(nèi)容,以郵件樣本數(shù)據(jù)庫中各種類型郵件比例均衡為原則,進(jìn)行郵件樣本收集。收集郵件樣本的類型包括,用戶舉報(bào)的垃圾郵件、用戶舉報(bào)的正常郵件、來自蜜罐的郵件、管理員審核結(jié)果等。郵件特征挖掘模塊,由系統(tǒng)管理模塊調(diào)用,用于從郵件樣本數(shù)據(jù)庫中獲取郵件樣本,并對(duì)該郵件樣本挖掘垃圾郵件及正常郵件的特征。首先郵件特征挖掘模塊通過數(shù)據(jù)庫接口與郵件樣本數(shù)據(jù)庫建立連接獲取反饋樣本,然后系統(tǒng)的郵件特征挖掘模塊對(duì)這部分樣本進(jìn)行分析,挖掘到的郵件特征通過系統(tǒng)管理員審核后進(jìn)入到郵件特征數(shù)據(jù)庫。郵件特征挖掘模塊使用聚類算法從各種反饋樣本中提取各種類型的郵件特征。具體地,從各種反饋郵件樣本提取出舉報(bào)數(shù)量達(dá)到一定閾值的郵件,剔除由于干擾及用戶愛好加入的反饋信息。例如,如發(fā)現(xiàn)某一類以發(fā)票為主題的垃圾郵件,如果被舉報(bào)次數(shù)超過閾值(比如100)次,則這種類型的郵件將被判為垃圾郵件,并將這部分郵件的特征加入到垃圾郵件特征庫中。另外,如果有新聞列表等郵件,部分用戶將其舉報(bào)為垃圾郵件,而另外部分用戶認(rèn)為其為正常郵件,這部分郵件不能作為垃圾郵件樣本。本發(fā)明采用的聚類算法優(yōu)選采用改進(jìn)中心點(diǎn)聚類算法,每個(gè)中心點(diǎn)為一類樣本的代表,且包括以下幾個(gè)方面信息郵件標(biāo)題模板、短文本則為短文本模板、長(zhǎng)文本則為相應(yīng)指紋的平均值、附件的指紋平均值、IP集合、發(fā)信人集合。一個(gè)典型的中心點(diǎn)如下郵件標(biāo)題模板為“代開*發(fā)票*”(*為通配符),短文本模板“我公*司代*開***各種增值稅發(fā)票,有需要**聯(lián)系扣扣92342*”,長(zhǎng)文本指紋和附件指紋為相應(yīng)內(nèi)容的nilsimsa哈希值,IP 集合為發(fā)件人的IP列表,如“199. 1. 1. 1”,發(fā)信人集合為發(fā)信郵箱列表,如aSdf@163. com。 當(dāng)一個(gè)新的郵件樣本進(jìn)入時(shí),將該郵件樣本與現(xiàn)在所有的中心點(diǎn)進(jìn)行比對(duì),如果相似性小于一定的閾值則直接將樣本加入到該中心點(diǎn),并更新該中心點(diǎn)。聚類獲得的郵件中心點(diǎn)即為一個(gè)郵件特征。當(dāng)聚類后一個(gè)類別中樣本超過閾值n,并且舉報(bào)為ham(正常郵件)樣本的比例少于閾值t,則抽取該類別中心點(diǎn)為spam(垃圾郵件)樣本。改進(jìn)的中心點(diǎn)聚類算法可通過下面的程序來實(shí)現(xiàn)。
權(quán)利要求
1.一種反垃圾郵件網(wǎng)關(guān)系統(tǒng),其包括郵件系統(tǒng)接口,用于從郵件傳輸代理實(shí)時(shí)獲取線上郵件并將郵件傳遞給郵件分發(fā)模塊,將在線郵件分類模塊的郵件分類結(jié)果返回給郵件傳輸代理,將離線郵件分類模塊的垃圾郵件列表返回給郵件傳輸代理;郵件分發(fā)模塊,用于將線上郵件請(qǐng)求轉(zhuǎn)發(fā)給在線/離線郵件分類器,將通過各種方式反饋的郵件請(qǐng)求傳遞給郵件樣本收集模塊;在線郵件分類模塊,用于根據(jù)已有的正常/垃圾郵件特征對(duì)線上郵件進(jìn)行分類,并將鑒別結(jié)果實(shí)時(shí)返回給郵件傳輸代理,并按照一定時(shí)間間隔從郵件特征數(shù)據(jù)庫獲取最新的郵件特征;離線郵件分類模塊,用于按照一定時(shí)間間隔從郵件特征數(shù)據(jù)庫獲取最新的郵件特征, 使用最新提取的郵件特征對(duì)過去一段時(shí)間的緩存郵件進(jìn)行分類,并將分類結(jié)果返回給郵件傳輸代理;郵件樣本收集模塊,響應(yīng)郵件分發(fā)模塊發(fā)送過來的請(qǐng)求,建立連接獲取郵件樣本類型及內(nèi)容;郵件特征挖掘模塊,用于從郵件樣本數(shù)據(jù)庫中獲取郵件樣本,并從中挖掘垃圾郵件及正常郵件的特征,并將挖掘到的郵件特征通過系統(tǒng)管理員審核后進(jìn)入到郵件特征數(shù)據(jù)庫;郵件樣本數(shù)據(jù)庫,用于存儲(chǔ)各種郵件樣本。
2.如權(quán)利要求1所述的郵件網(wǎng)關(guān)系統(tǒng),其特征在于,郵件特征挖掘模塊還用于從郵件樣本數(shù)據(jù)庫中獲取郵件樣本,將該郵件樣本與所有的中心點(diǎn)進(jìn)行比對(duì),如果相似性小于一定的閾值則直接將樣本加入到該中心點(diǎn),其中每個(gè)中心點(diǎn)為一類樣本的代表,在計(jì)算郵件樣本與中心點(diǎn)的相似性時(shí),將郵件樣本與中心點(diǎn)分別解析為多個(gè)部分內(nèi)容,針對(duì)每個(gè)部分比較二者的相似性,根據(jù)各個(gè)部分的相似性進(jìn)行加權(quán)組合獲得郵件樣本與中心點(diǎn)的全局相似性。
3.如權(quán)利要求2所述的郵件網(wǎng)關(guān)系統(tǒng),其特征在于,在針對(duì)每個(gè)部分比較郵件樣本和中心點(diǎn)的相似性時(shí),對(duì)枚舉變量采用集合是否有交集來度量其相似性,對(duì)長(zhǎng)文本信息及附件采用指紋計(jì)算兩者的相似性,對(duì)短文本采用Needleman-Wimsch算法確定兩者間的相似性。
4.如權(quán)利要求3所述的郵件網(wǎng)關(guān)系統(tǒng),其特征在于,當(dāng)一個(gè)新的郵件樣本進(jìn)入時(shí),將該郵件樣本與所有的中心點(diǎn)進(jìn)行比對(duì),如果相似性小于一定的閾值則直接將樣本加入到該中心點(diǎn),當(dāng)聚類后一個(gè)類別中樣本超過一閾值,并且舉報(bào)為正常郵件樣本的比例少于另一閾值,則抽取該類別中心為垃圾郵件樣本。
5.如權(quán)利要求4所述的郵件網(wǎng)關(guān)系統(tǒng),其特征在于,所述系統(tǒng)進(jìn)一步包括管理員接口,用于系統(tǒng)管理員對(duì)網(wǎng)關(guān)系統(tǒng)挖掘得到的郵件特征的人工審核確認(rèn),部分可疑郵件的審核,各種參數(shù)的設(shè)置。
6.一種反垃圾郵件方法,該方法包括步驟通過郵件系統(tǒng)接口從郵件傳輸代理實(shí)時(shí)獲取線上郵件并將郵件傳遞給郵件分發(fā)模塊, 將在線郵件分類模塊的郵件分類結(jié)果返回給郵件傳輸代理,將離線郵件分類模塊的垃圾郵件列表返回給郵件傳輸代理;通過郵件分發(fā)模塊將線上郵件請(qǐng)求轉(zhuǎn)發(fā)給在線/離線郵件分類器,并將通過各種方式反饋的郵件請(qǐng)求傳遞給郵件樣本收集模塊;利用線郵件分類模塊根據(jù)已有的正常/垃圾郵件特征對(duì)線上郵件進(jìn)行分類,并將鑒別結(jié)果實(shí)時(shí)返回給郵件傳輸代理,并按照一定時(shí)間間隔從郵件特征數(shù)據(jù)庫獲取最新的郵件特征;利用離線郵件分類模塊按照一定時(shí)間間隔從郵件特征數(shù)據(jù)庫獲取最新的郵件特征,使用最新提取的郵件特征對(duì)過去一段時(shí)間的緩存郵件進(jìn)行分類,并將分類結(jié)果返回給郵件傳輸代理;通過郵件樣本收集模塊響應(yīng)郵件分發(fā)模塊發(fā)送過來的請(qǐng)求,建立連接獲取郵件樣本類型及內(nèi)容;通過郵件特征挖掘模塊從郵件樣本數(shù)據(jù)庫中獲取郵件樣本,并從中挖掘垃圾郵件及正常郵件的特征,并將挖掘到的郵件特征通過系統(tǒng)管理員審核后進(jìn)入到郵件特征數(shù)據(jù)庫;在郵件樣本數(shù)據(jù)庫中存儲(chǔ)各種郵件樣本。
7.如權(quán)利要求6所述的方法,其特征在于,郵件特征挖掘模塊還用于從郵件樣本數(shù)據(jù)庫中獲取郵件樣本,將該郵件樣本與所有的中心點(diǎn)進(jìn)行比對(duì),如果相似性小于一定的閾值則直接將樣本加入到該中心點(diǎn),其中每個(gè)中心點(diǎn)為一類樣本的代表,在計(jì)算郵件樣本與中心點(diǎn)的相似性時(shí),將郵件樣本與中心點(diǎn)分別解析為多個(gè)部分內(nèi)容,針對(duì)每個(gè)部分比較二者的相似性,根據(jù)各個(gè)部分的相似性進(jìn)行加權(quán)組合獲得郵件樣本與中心點(diǎn)的全局相似性。
8.如權(quán)利要求7所述的方法,其特征在于,在針對(duì)每個(gè)部分比較郵件樣本和中心點(diǎn)的相似性時(shí),對(duì)枚舉變量采用集合是否有交集來度量其相似性,對(duì)長(zhǎng)文本信息及附件采用指紋計(jì)算兩者的相似性,對(duì)短文本采用Needleman-Wimsch算法確定兩者間的相似性。
9.如權(quán)利要求8所述的方法,其特征在于,當(dāng)一個(gè)新的郵件樣本進(jìn)入時(shí),將該郵件樣本與所有的中心點(diǎn)進(jìn)行比對(duì),如果相似性小于一定的閾值則直接將樣本加入到該中心點(diǎn),當(dāng)聚類后一個(gè)類別中樣本超過一閾值,并且舉報(bào)為正常郵件樣本的比例少于另一閾值,則抽取該類別中心為垃圾郵件樣本。
10.如權(quán)利要求9所述的方法,其特征在于,進(jìn)一步包括對(duì)挖掘得到的郵件特征進(jìn)行人工審核確認(rèn),部分可疑郵件的審核,各種參數(shù)的設(shè)置。
全文摘要
本發(fā)明公開了一種反垃圾郵件網(wǎng)關(guān)系統(tǒng)及方法。該系統(tǒng)包括郵件樣本數(shù)據(jù)庫,用于存儲(chǔ)各種郵件樣本;郵件特征挖掘模塊,用于從郵件樣本數(shù)據(jù)庫中獲取郵件樣本,將該郵件樣本與所有的中心點(diǎn)進(jìn)行比對(duì),如果相似性小于一定的閾值則直接將樣本加入到該中心點(diǎn),其中每個(gè)中心點(diǎn)為一類樣本的代表,在計(jì)算郵件樣本與中心點(diǎn)的相似性時(shí),將郵件樣本與中心點(diǎn)分別解析為多個(gè)部分內(nèi)容,針對(duì)每個(gè)部分比較二者的相似性,根據(jù)各個(gè)部分的相似性進(jìn)行加權(quán)組合獲得郵件樣本與中心點(diǎn)的全局相似性。樣本數(shù)據(jù)庫特征數(shù)據(jù)庫利用本發(fā)明的系統(tǒng)和方法,對(duì)突然爆發(fā)的垃圾郵件類型等都有較好的適應(yīng)性,垃圾郵件漏判率低、實(shí)時(shí)性好,人工干預(yù)小,系統(tǒng)可收縮性好。
文檔編號(hào)H04L12/24GK102377690SQ201110304470
公開日2012年3月14日 申請(qǐng)日期2011年10月10日 優(yōu)先權(quán)日2011年10月10日
發(fā)明者喬斌, 向東, 周達(dá)和, 洪陸駕, 潘雷明, 熊衛(wèi)華, 蔡瑞初, 譚景峰 申請(qǐng)人:網(wǎng)易(杭州)網(wǎng)絡(luò)有限公司