專利名稱:反垃圾郵件的方法及其郵件服務(wù)器的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種郵件過濾技術(shù),尤其是指一種可以自動提取垃圾郵件規(guī)則并反垃圾郵件的方法及其郵件服務(wù)器。
背景技術(shù):
隨著網(wǎng)絡(luò)的發(fā)展,每個人郵件的利用率都非常高,因此在網(wǎng)絡(luò)上也出現(xiàn)了一些利用郵件散發(fā)廣告用戶,他們發(fā)送這些廣告頻率高,并且內(nèi)容多,網(wǎng)上黑客也利用這些信息創(chuàng)建一些病毒通過郵件傳播,給用戶造成諸多麻煩,這些郵件被我們稱為垃圾郵件。這些垃圾郵件一般出現(xiàn)頻率很高,并且具有很多相同的特征,因此利用這些郵件的特征,出現(xiàn)了使用相當(dāng)廣泛的垃圾郵件過濾技術(shù),通過正確的識別垃圾郵件,郵件病毒或者郵件攻擊程序等都會減少。
郵件過濾技術(shù)一般都是采用內(nèi)容過濾技術(shù),以下對基于規(guī)則的過濾技術(shù)進行簡單的介紹基于規(guī)則的方法就是在郵件內(nèi)容中尋找特定的模式,規(guī)則一般都是人工編寫生成,一個人寫出的規(guī)則可以提供給多個人,多個服務(wù)器使用,可以共享,具有很強的推廣性很強,基本可以較準(zhǔn)確的提取垃圾郵件的特征。
利用規(guī)則進行過濾垃圾郵件,它的思路是根據(jù)某些特征(比如單詞、詞組、位置、大小、附件等)來形成規(guī)則,通過這些規(guī)則來描述垃圾郵件,大多數(shù)規(guī)則可以采用正則表達(dá)式。如果有匹配的模式,則增加消息分?jǐn)?shù),否則,則減少消息分?jǐn)?shù)。如果消息分?jǐn)?shù)超過某一特定的閾值,則將其視為垃圾郵件而過濾它;否則認(rèn)為是合法。
首先,規(guī)則的提出需要根據(jù)某些特征(比如單詞、詞組、位置、大小、附件等)來形成,要使得過濾器有效,就意味著管理人員要維護一個龐大的規(guī)則庫。我們現(xiàn)在常用的規(guī)則大概維持在600條左右,而過濾垃圾郵件時經(jīng)常被命中的不超過5%,大部分規(guī)則的作用是極少被命中的;而命中的也會存在很高的誤判率;其次,目前規(guī)則的提取是靠人工判定,手動添加進規(guī)則庫的,而且添加進去如果刪除也需要人工刪除,這樣一方面要耗費較多的人工去添加刪除,而且如果不刪除過期的規(guī)則可能就會導(dǎo)致誤判,因為規(guī)則的時效性很強,某些過期的規(guī)則也容易導(dǎo)致誤判,比如“9.11”時期發(fā)出的大量垃圾郵件可能都會包含“9.11”字眼。這樣造成規(guī)則庫是定死,無法自動學(xué)習(xí),不能自動增強反垃圾能力,門檻較高。
基于以上的考慮,現(xiàn)有的垃圾郵件過濾技術(shù)已經(jīng)不能滿足網(wǎng)絡(luò)的發(fā)展,所以需要提供一種自動判定更新規(guī)則庫以及反垃圾郵件的方法,從而增加對可變垃圾郵件的捕捉能力。
發(fā)明內(nèi)容
本發(fā)明提供一種反垃圾郵件的方法及其郵件服務(wù)器,用以解決現(xiàn)有技術(shù)中存在垃圾郵件攔截率低,且同時誤判率也高、規(guī)則命中率低、無法自動更新規(guī)則庫的問題。
本發(fā)明方法包括一種反垃圾郵件的方法,包括以下步驟A、接收外域或本域的郵件;B、采用相似度分析算法解析判斷該郵件是否為垃圾郵件;C、根據(jù)步驟B的判斷,對該郵件進行發(fā)送或者攔截處理。
根據(jù)本發(fā)明的上述方法,所述的相似度分析算法包括以下步驟B1、解析接收的郵件,提取郵件的特征向量;B2、根據(jù)步驟B1提取的郵件的特征向量的分析確定郵件是否為垃圾郵件。
本發(fā)明的方法中,在步驟B1中對接收的郵件進行格式解析,提取郵件的詞語特征以及結(jié)構(gòu)特征。
在步驟B2中,包括以下判斷步驟B21、將提取的郵件的特征向量與設(shè)置的攔截規(guī)則數(shù)據(jù)相匹配,統(tǒng)計所述特征向量與攔截規(guī)則數(shù)據(jù)的匹配率;B22、如步驟B21統(tǒng)計的匹配率大于等于設(shè)定的攔截匹配率,生成郵件攔截指令,在步驟C中攔截該郵件;如步驟B21統(tǒng)計的匹配率小于設(shè)定的攔截匹配率,生成郵件發(fā)送指令,在步驟C中發(fā)送該郵件。
在步驟B2中還包括對接收的郵件進行相似性判斷的步驟B21′、在相似垃圾郵件記錄數(shù)據(jù)中查找與具有該特征向量的郵件相似的郵件,統(tǒng)計該郵件所具有相似垃圾郵件的數(shù)目;B22′、如查找到與該郵件相似的郵件的數(shù)目大于或等于設(shè)定的最大相似郵件閾值時,生成郵件攔截指令,則在步驟C中攔截該郵件;如查找到與該郵件相似的郵件的數(shù)目小于設(shè)定的最大相似郵件閾值時,則記錄該郵件特征向量,生成郵件發(fā)送指令,在步驟C中發(fā)送該郵件。
在步驟B22′中,攔截該郵件時,根據(jù)該郵件的特征向量生成攔截規(guī)則,添加進攔截規(guī)則數(shù)據(jù)中。
在生成攔截規(guī)則時,記錄攔截規(guī)則的形成時間,設(shè)定該生成的攔截規(guī)則的時效。
在生成攔截規(guī)則時,刪除相似垃圾郵件記錄數(shù)據(jù)中與該攔截規(guī)則相關(guān)的郵件記錄。
本發(fā)明還提供一種反垃圾郵件的郵件服務(wù)器,至少包括郵件接收單元、郵件解析判斷單元、郵件攔截單元以及郵件發(fā)送單元所述郵件接收單元,用于接收外域或本域的郵件;所述郵件解析判斷單元,用于對所述郵件接收單元接收的郵件進行垃圾郵件判斷,生成郵件攔截或發(fā)送指令;所述郵件攔截單元,用于接收所述郵件解析判斷單元生成的郵件攔截指令,攔截接收的郵件;
所述郵件發(fā)送單元,用于接收所述郵件解析判斷單元生成的郵件發(fā)送指令,發(fā)送接收的郵件。
所述郵件解析判斷單元包括郵件解析單元,用于解析收到的郵件,提取郵件的特征向量;郵件數(shù)據(jù)存儲單元,用于存儲郵件的攔截規(guī)則以及相似垃圾郵件記錄;郵件匹配單元,用于根據(jù)所述郵件解析單元提取的郵件的特征向量與所述郵件數(shù)據(jù)存儲單元中存儲的郵件攔截規(guī)則進行匹配,得到攔截匹配率;第一指令生成單元,用于根據(jù)所述郵件匹配單元的攔截匹配率生成郵件攔截或郵件發(fā)送指令。
所述郵件解析判斷單元還包括相似郵件統(tǒng)計單元,根據(jù)所述郵件匹配單元的攔截匹配率進行相似垃圾郵件數(shù)目統(tǒng)計;第二指令生成單元,根據(jù)相似郵件統(tǒng)計單元的統(tǒng)計結(jié)果生成郵件攔截或郵件發(fā)送指令。
所述郵件解析判斷單元還包括郵件向量記錄單元,根據(jù)所述相似郵件統(tǒng)計單元的統(tǒng)計結(jié)果記錄該郵件的特征向量。
所述郵件解析判斷單元還包括攔截規(guī)則生成單元,用于根據(jù)所述相似郵件統(tǒng)計單元的統(tǒng)計結(jié)果生成郵件攔截規(guī)則,并存儲在郵件數(shù)據(jù)存儲單元中;或/和攔截規(guī)則時效生成單元,用于根據(jù)所述攔截規(guī)則生成單元生成的攔截規(guī)則形成該規(guī)則的生成時間以及時效,存儲在郵件數(shù)據(jù)存儲單元中;或/和郵件記錄刪除單元,用于根據(jù)所述攔截規(guī)則生成單元生成的攔截規(guī)則,刪除所述郵件數(shù)據(jù)存儲單元中存儲的相似垃圾郵件記錄。
本發(fā)明有益效果如下本發(fā)明通過對相似的垃圾郵件樣本特征的分析,能夠十分準(zhǔn)確的攔截垃圾郵件,并且本發(fā)明的規(guī)則提煉可以實時進行,時效性非常強,一個攔截規(guī)則一旦生成,則可以立即實時生效進行攔截;本發(fā)明采用C/S架構(gòu)的判斷結(jié)構(gòu),一方面可以大幅度提升過濾率,另一方面可以提高判斷效率。
圖1為本發(fā)明的方法流程示意圖;圖2為本發(fā)明的相似度分析算法流程示意圖;圖3為本發(fā)明對垃圾郵件判斷的實施例一;圖4為本發(fā)明對垃圾郵件判斷的實施例二;圖5為本發(fā)明的一個具體的實施方式;圖6為本發(fā)明的郵件服務(wù)器的結(jié)構(gòu)框圖;圖7為本發(fā)明的郵件服務(wù)器的郵件解析判斷單元的具體實施結(jié)構(gòu)框圖。
具體實施例方式
本發(fā)明提供一種反垃圾郵件的方法,如圖1所示,該方法包括以下步驟101、接收外域或本域的郵件;102、采用相似度分析算法解析判斷該郵件是否為垃圾郵件;103、根據(jù)步驟102的判斷,對該郵件進行發(fā)送或者攔截處理。
本發(fā)明所述的方法,如圖2所示,步驟102所述的相似度分析算法包括以下步驟201、解析接收的郵件,提取郵件的特征向量;202、根據(jù)步驟201提取的郵件的特征向量判斷郵件是否為垃圾郵件。
其中在步驟201中,對郵件進行解析時,是有對接收的郵件進行格式解析,即將郵件的MIME格式解析為一個符合RFC MIME IMB規(guī)范的字符串,并根據(jù)解析得到的結(jié)果提取接收到的郵件的詞語特征以及結(jié)構(gòu)特征,如郵件正文長度、郵件主顯示部分結(jié)構(gòu)(打印內(nèi)容、圖標(biāo)、傳輸編碼等)以及郵件附件等,這些特征都是郵件的特征向量,根據(jù)這些特征向量即可對郵件是否垃圾郵件作出判斷。對于步驟202所提出的郵件判斷,可以有兩種方式如圖3所示,可采用以下步驟對郵件是否屬于垃圾郵件進行判斷,具體為301、在攔截規(guī)則數(shù)據(jù)中查找與提取的郵件的特征向量匹配的攔截規(guī)則數(shù)據(jù),統(tǒng)計該封郵件的特征向量在攔截規(guī)則庫中命中的數(shù)目,確定攔截匹配率;302、統(tǒng)計匹配后的攔截匹配率是否小于設(shè)定的攔截匹配率;303、如統(tǒng)計的攔截匹配率大于等于設(shè)定的攔截匹配率,生成郵件攔截指令,在上述步驟103中攔截該郵件;304、如統(tǒng)計的攔截匹配率小于設(shè)定的攔截匹配率,生成郵件發(fā)送指令,在上述步驟103中發(fā)送該郵件。
在上述方法中,由提取的郵件的特征向量具有多個,在進行匹配的過程中,當(dāng)多個特征向量命中了多條攔截規(guī)則后,系統(tǒng)會根據(jù)統(tǒng)計或簡單的加權(quán)算法確定是否生成郵件攔截指令;例如,當(dāng)郵件的特征向量(假設(shè)提取了有14個特征向量)有10個與設(shè)定的攔截規(guī)則相匹配,經(jīng)過統(tǒng)計后按照匹配結(jié)果根據(jù)設(shè)定的規(guī)則(設(shè)定具有50%為攔截規(guī)則時,對郵件進行攔截)確定該郵件需要被攔截。當(dāng)然在實際應(yīng)用中,也可以采用其他規(guī)則(如好郵件規(guī)則)對接收到的郵件進行判斷,其原理相同,故在此不再贅述。
如圖4所示,也可以采用以下步驟對郵件是否屬于垃圾郵件進行判斷,具體為401、在相似垃圾郵件記錄(存儲的垃圾郵件記錄)中查找與收到的郵件相似的郵件的數(shù)目;402、統(tǒng)計查找到的相似垃圾郵件的數(shù)目是否小于設(shè)定的最大相似閾值;403、當(dāng)查找到的相似郵件的數(shù)目小于設(shè)定的最大相似閾值時,生成郵件發(fā)送指令,在上述步驟103中發(fā)送該郵件;404、當(dāng)查找到的相似垃圾郵件的數(shù)目不小于(大于等于)設(shè)定的最大相似閾值時,生成郵件攔截指令,在上述步驟103中攔截郵件。
在圖4所述的判斷步驟中,在攔截該郵件時,具有根據(jù)該特征向量生成新的攔截規(guī)則并添加在攔截規(guī)則數(shù)據(jù)中的步驟,這些攔截規(guī)則的自動更新可以保證更準(zhǔn)確的攔截收到的郵件,在該步驟中,生成該攔截規(guī)則的同時還生成該規(guī)則的時間以及時效信息,其中這些時效信息可以根據(jù)實際需求進行配置;為了避免相似垃圾郵件記錄中無效記錄的增加,在本步驟中可以同時刪除相似垃圾郵件記錄中與該攔截規(guī)則相關(guān)的郵件記錄。
根據(jù)上述描述,本發(fā)明的最優(yōu)的實施方式,可以參見圖5的內(nèi)容進行具體說明,本發(fā)明的方法用在郵件服務(wù)器側(cè),例如,本發(fā)明的郵件服務(wù)器接收到外域或本域發(fā)來的新郵件(假設(shè)由外域的sohu服務(wù)器或者本域內(nèi)的263服務(wù)器發(fā)送到本發(fā)明的263郵件服務(wù)器),本服務(wù)器接收到該郵件后,對郵件進行格式解析(由MIME格式解析為符合RFC MIME IMB規(guī)范的字符串),然后提取該郵件的一些結(jié)構(gòu)特征,并將這些結(jié)構(gòu)特征做為特征向量提取出來,并將這些特征向量與設(shè)定的攔截規(guī)則數(shù)據(jù)進行匹配,假設(shè)設(shè)定的攔截規(guī)則數(shù)據(jù)中包括郵件正文的長度長于128k;郵件中的正文中的郵件地址為群發(fā);....................
郵件包括“培訓(xùn)”等詞語;經(jīng)過匹配后,如果提取的郵件特征向量與設(shè)定的攔截規(guī)則的匹配率大于等于設(shè)定的攔截匹配率,生成郵件攔截指令,本服務(wù)器攔截該郵件,并將該郵件存儲在服務(wù)器上;如果這些特征向量與設(shè)定的攔截規(guī)則的匹配率小于設(shè)定的攔截匹配率,生成郵件發(fā)送指令,本服務(wù)器將接收的郵件發(fā)送出去。
而在本發(fā)明的方法中,為了確保對垃圾郵件判斷的準(zhǔn)確性,如果提取的特征向量不屬于設(shè)定的攔截規(guī)則時,需要對這些特征向量進行相似性判斷,即在服務(wù)器中查找到的垃圾郵件中查找與接收到的郵件相似的郵件記錄,假設(shè)在這些郵件中查找到與接收到的郵件相似的郵件記錄的數(shù)目為5個,而服務(wù)器設(shè)定的允許容納相似垃圾郵件數(shù)據(jù)的閾值為10,則此時還沒有達(dá)到可以對該郵件進行攔截的程度,生成郵件發(fā)送指令,發(fā)送該郵件;如這些郵件中查找到與接收到的郵件相似的郵件記錄的數(shù)目為10個,則此時就需要攔截該郵件,生成郵件攔截指令,避免將其發(fā)送出去。在本實施例中,對于相似的郵件記錄的數(shù)目的統(tǒng)計可以采用計數(shù)器實現(xiàn)。另外基于對圖4的描述,本實施例中,還可以在攔截收到郵件時,自動更新存儲的攔截規(guī)則,以便對垃圾郵件作出準(zhǔn)確的判斷,具體內(nèi)容在此不再贅述。
本發(fā)明還提出一種反垃圾郵件的郵件服務(wù)器,如圖6所示,該郵件服務(wù)器至少包括郵件接收單元61、郵件解析判斷單元62、郵件攔截單元63以及郵件發(fā)送單元64其中所述郵件接收單元61,用于接收外域或本域的郵件;所述郵件解析判斷單元62,用于對所述郵件接收單元接收的郵件進行垃圾郵件判斷,生成郵件攔截或發(fā)送指令;所述郵件攔截單元63,用于接收所述郵件解析判斷單元生成的郵件攔截指令,攔截所接收的郵件;所述郵件發(fā)送單元64,用于接收所述郵件解析判斷單元生成的郵件發(fā)送指令,發(fā)送所接收的郵件。
在本實施例中,如圖7所示,所述郵件解析判斷單元62包括郵件解析單元71,用于解析收到的郵件,提取郵件的特征向量;郵件數(shù)據(jù)存儲單元74,用于存儲郵件的攔截規(guī)則以及相似垃圾郵件記錄;郵件匹配單元72,用于根據(jù)所述郵件解析單元71提取的郵件的特征向量與所述郵件數(shù)據(jù)存儲單元74中存儲的郵件攔截規(guī)則進行統(tǒng)計匹配,確定攔截匹配率;第一指令生成單元73,用于根據(jù)郵件匹配單元72的攔截匹配率生成郵件攔截或郵件發(fā)送指令。
在本實施例中,所述郵件解析判斷單元62還包括相似郵件統(tǒng)計單元75,根據(jù)所述郵件匹配單元72的攔截匹配率進行相似垃圾郵件數(shù)目統(tǒng)計;第二指令生成單元76,根據(jù)相似郵件統(tǒng)計單元75的統(tǒng)計結(jié)果生成郵件攔截或郵件發(fā)送指令。
在本實施例中,所述郵件解析判斷單元62還包括郵件向量記錄單元80,根據(jù)統(tǒng)計結(jié)果記錄該郵件的特征向量。
在本實施例中,所述郵件解析判斷單元62還包括攔截規(guī)則生成單元77,用于根據(jù)所述相似郵件統(tǒng)計單元75的統(tǒng)計結(jié)果生成郵件攔截規(guī)則,并存儲在郵件數(shù)據(jù)存儲單元74中。
所述郵件解析判斷單元62還包括攔截規(guī)則時效生成單元78,用于根據(jù)所述攔截規(guī)則生成單元77生成的攔截規(guī)則形成該規(guī)則的生成時間以及時效,存儲在郵件數(shù)據(jù)存儲單元74中。
所述郵件解析判斷單元62還包括郵件記錄刪除單元79,用于根據(jù)所述攔截規(guī)則生成單元77生成的攔截規(guī)則,刪除所述郵件數(shù)據(jù)存儲單元74中存儲的相似垃圾郵件記錄。
基于本發(fā)明的郵件服務(wù)器具有上述結(jié)構(gòu),以下對該服務(wù)器的具體流程進行說明本發(fā)明的郵件服務(wù)器的郵件接收單元61接收外域或本域發(fā)送來的郵件,由郵件判斷解析單元62的郵件解析單元71解析出收到的郵件,提取郵件的特征向量(包括詞語特征以及結(jié)構(gòu)特征),由郵件匹配單元72對接收的郵件的特征向量以及郵件數(shù)據(jù)存儲單元74中存儲的攔截規(guī)則進行匹配,確定攔截匹配率,如果確定的攔截匹配率大于等于設(shè)定的攔截匹配率,由該第一指令生成單元73生成郵件攔截指令,郵件攔截單元63根據(jù)該郵件攔截指令攔截該郵件,不向用戶下發(fā)該郵件;如果確定的攔截匹配率小于設(shè)定的攔截匹配率,由該第一指令生成單元73生成郵件發(fā)送指令,郵件發(fā)送單元64根據(jù)該郵件發(fā)送指令將該郵件發(fā)送出去。
而為保證服務(wù)器能對垃圾郵件作出正確的判斷,當(dāng)根據(jù)郵件匹配單元的匹配不攔截該郵件時,再由相似郵件統(tǒng)計單元75根據(jù)所述郵件匹配單元72的匹配率進行相似垃圾郵件數(shù)目統(tǒng)計,即在郵件數(shù)據(jù)存儲單元74中查找與收到的郵件相似的垃圾郵件的數(shù)目,當(dāng)統(tǒng)計到該郵件與在郵件數(shù)據(jù)存儲單元74中存儲的垃圾郵件記錄相似的數(shù)目小于設(shè)定的最大相似閾值時,由第二指令生成單元76生成郵件發(fā)送指令,由郵件發(fā)送單元64將該郵件發(fā)送給用戶,并由郵件向量記錄單元80將該郵件的特征向量記錄起來;如統(tǒng)計到該郵件與在郵件數(shù)據(jù)存儲單元74中存儲的垃圾郵件記錄相似的數(shù)目大于等于設(shè)定的最大相似閾值時,由第二指令生成單元76生成郵件攔截指令,由郵件攔截單元63將該郵件攔截。在本發(fā)明中,當(dāng)由于相似郵件統(tǒng)計單元75的統(tǒng)計結(jié)果使該郵件被攔截時,攔截規(guī)則生成單元77生成新的郵件攔截規(guī)則,并存儲在郵件數(shù)據(jù)存儲單元74中,以便對郵件攔截規(guī)則隨時更新,而生成的攔截規(guī)則時,由攔截規(guī)則時效生成單元78形成該規(guī)則的生成時間以及時效,其中生成的攔截規(guī)則的時效可以根據(jù)需求任意配置,并將其存儲在郵件數(shù)據(jù)存儲單元74中。在本發(fā)明中,由于增加了新的攔截規(guī)則,本服務(wù)器中的郵件記錄刪除單元79根據(jù)該生成的攔截規(guī)則,刪除所述郵件數(shù)據(jù)存儲單元74中存儲的相似垃圾郵件記錄。
綜上所述,本發(fā)明通過對相似的垃圾郵件樣本特征的分析,能夠十分準(zhǔn)確的攔截垃圾郵件,并且本發(fā)明的規(guī)則提煉可以實時進行,時效性非常強,一個攔截規(guī)則一旦生成,則可以立即實時生效進行攔截;本發(fā)明可以采用C/S架構(gòu)的判斷結(jié)構(gòu),一方面可以大幅度提升過濾率,另一方面可以提高判斷效率。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種反垃圾郵件的方法,其特征在于,包括以下步驟A、接收外域或本域的郵件;B、采用相似度分析算法解析判斷該郵件是否為垃圾郵件;C、根據(jù)步驟B的判斷,對該郵件進行發(fā)送或者攔截處理。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的相似度分析算法包括以下步驟B1、解析接收的郵件,提取郵件的特征向量;B2、根據(jù)步驟B1提取的郵件的特征向量的分析確定郵件是否為垃圾郵件。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,在步驟B1中,對接收的郵件進行格式解析,提取郵件的詞語特征以及結(jié)構(gòu)特征。
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,在步驟B2中,包括以下判斷步驟B21、將提取的郵件的特征向量與設(shè)置的攔截規(guī)則數(shù)據(jù)相匹配,統(tǒng)計所述特征向量與攔截規(guī)則數(shù)據(jù)的匹配率;B22、如步驟B21統(tǒng)計的匹配率大于等于設(shè)定的攔截匹配率,生成郵件攔截指令,在步驟C中攔截該郵件;如步驟B21統(tǒng)計的匹配率小于設(shè)定的攔截匹配率,生成郵件發(fā)送指令,在步驟C中發(fā)送該郵件。
5.根據(jù)權(quán)利要求2或4所述的方法,其特征在于,在步驟B2中包括對接收的郵件進行相似性判斷的步驟B21′、在相似垃圾郵件記錄數(shù)據(jù)中查找與具有該特征向量的郵件相似的郵件,統(tǒng)計該郵件所具有相似垃圾郵件的數(shù)目;B22′、如查找到與該郵件相似的郵件的數(shù)目大于或等于設(shè)定的最大相似郵件閾值時,生成郵件攔截指令,則在步驟C中攔截該郵件;如查找到與該郵件相似的郵件的數(shù)目小于設(shè)定的最大相似郵件閾值時,則記錄該郵件特征向量,生成郵件發(fā)送指令,在步驟C中發(fā)送該郵件。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,在步驟B22′中,攔截該郵件時,根據(jù)該郵件的特征向量生成攔截規(guī)則,添加進攔截規(guī)則數(shù)據(jù)中。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,在生成攔截規(guī)則時,記錄攔截規(guī)則的形成時間,設(shè)定該生成的攔截規(guī)則的時效。
8.根據(jù)權(quán)利要求6或7所述的方法,其特征在于,在生成攔截規(guī)則時,刪除相似垃圾郵件記錄數(shù)據(jù)中與該攔截規(guī)則相關(guān)的郵件記錄。
9.一種反垃圾郵件的郵件服務(wù)器,其特征在于,至少包括郵件接收單元、郵件解析判斷單元、郵件攔截單元以及郵件發(fā)送單元所述郵件接收單元,用于接收外域或本域的郵件;所述郵件解析判斷單元,用于對所述郵件接收單元接收的郵件進行垃圾郵件判斷,生成郵件攔截或發(fā)送指令;所述郵件攔截單元,用于接收所述郵件解析判斷單元生成的郵件攔截指令,攔截接收的郵件;所述郵件發(fā)送單元,用于接收所述郵件解析判斷單元生成的郵件發(fā)送指令,發(fā)送接收的郵件。
10.根據(jù)權(quán)利要求9所述的服務(wù)器,其特征在于,所述郵件解析判斷單元包括郵件解析單元,用于解析收到的郵件,提取郵件的特征向量;郵件數(shù)據(jù)存儲單元,用于存儲郵件的攔截規(guī)則以及相似垃圾郵件記錄;郵件匹配單元,用于根據(jù)所述郵件解析單元提取的郵件的特征向量與所述郵件數(shù)據(jù)存儲單元中存儲的郵件攔截規(guī)則進行匹配,得到攔截匹配率;第一指令生成單元,用于根據(jù)所述郵件匹配單元的攔截匹配率生成郵件攔截或郵件發(fā)送指令。
11.根據(jù)權(quán)利要求10所述的服務(wù)器,其特征在于,所述郵件解析判斷單元還包括相似郵件統(tǒng)計單元,根據(jù)所述郵件匹配單元的攔截匹配率進行相似垃圾郵件數(shù)目統(tǒng)計;第二指令生成單元,根據(jù)相似郵件統(tǒng)計單元的統(tǒng)計結(jié)果生成郵件攔截或郵件發(fā)送指令。
12.根據(jù)權(quán)利要求11所述的服務(wù)器,其特征在于,所述郵件解析判斷單元還包括郵件向量記錄單元,根據(jù)所述相似郵件統(tǒng)計單元的統(tǒng)計結(jié)果記錄該郵件的特征向量。
13.根據(jù)權(quán)利要求10或11或12所述的服務(wù)器,其特征在于,所述郵件解析判斷單元還包括攔截規(guī)則生成單元,用于根據(jù)所述相似郵件統(tǒng)計單元的統(tǒng)計結(jié)果生成郵件攔截規(guī)則,并存儲在郵件數(shù)據(jù)存儲單元中;或/和攔截規(guī)則時效生成單元,用于根據(jù)所述攔截規(guī)則生成單元生成的攔截規(guī)則形成該規(guī)則的生成時間以及時效,存儲在郵件數(shù)據(jù)存儲單元中;或/和郵件記錄刪除單元,用于根據(jù)所述攔截規(guī)則生成單元生成的攔截規(guī)則,刪除所述郵件數(shù)據(jù)存儲單元中存儲的相似垃圾郵件記錄。
全文摘要
本發(fā)明公開了一種反垃圾郵件的方法,包括以下步驟A.接收到外域或本域的郵件;B.采用相似度分析算法解析判斷該郵件是否為垃圾郵件;C.根據(jù)步驟B的判斷,對該郵件進行發(fā)送或者攔截處理。同時本發(fā)明還提供一種采用反垃圾郵件方法的郵件服務(wù)器。本發(fā)明的方案通過對相似的垃圾郵件樣本特征的分析,能夠十分準(zhǔn)確的攔截垃圾郵件,并且本發(fā)明的規(guī)則提煉可以實時進行,時效性非常強,一個攔截規(guī)則一旦生成,則可以立即實時生效進行攔截;本發(fā)明采用C/S架構(gòu)的判斷結(jié)構(gòu),一方面可以大幅度提升過濾率,另一方面可以提高判斷效率。
文檔編號H04L29/06GK101094197SQ20061009010
公開日2007年12月26日 申請日期2006年6月23日 優(yōu)先權(quán)日2006年6月23日
發(fā)明者母天石 申請人:騰訊科技(深圳)有限公司