專利名稱:一種實時垃圾電子郵件過濾方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子郵件領(lǐng)域,尤其涉及一種實時垃圾電子郵件過濾方法及系統(tǒng)。
背景技術(shù):
電子郵件系統(tǒng)是互聯(lián)網(wǎng)應(yīng)用的一個成功典范,它給人們的工作和生活帶來 了極大的便利,使不同國家的人們可以方便、快捷的迸行合作。電子郵件系統(tǒng)
通過簡單郵件傳輸協(xié)議(Simple Mail Transfer Protocol, SMTP)進行信息傳輸, 在其內(nèi)部中傳遞的信件一般稱之為電子郵件(E-mail)。
根據(jù)SMTP協(xié)議,郵件的傳送過程可分為發(fā)送、傳輸和接收三個階段,如 圖1所示。
發(fā)送郵件客戶端向郵件服務(wù)器發(fā)送電子郵件為發(fā)送階段發(fā)送郵件客戶端 可能是合法用戶也可能是垃圾郵件發(fā)送者,他們將編輯好的郵件發(fā)送到發(fā)送郵 件服務(wù)器。
郵件在發(fā)送郵件服務(wù)器和接收郵件服務(wù)器之間傳送為傳輸階段發(fā)送郵件 服務(wù)器根據(jù)接收到郵件的目的地址,依照SMTP協(xié)議將該郵件發(fā)送到接收郵件 服務(wù)器,此階段多個發(fā)送郵件服務(wù)器產(chǎn)生的郵件大量匯集于骨干網(wǎng)鏈路。
接收郵件服務(wù)器接收目標(biāo)地址為本網(wǎng)域的郵件為接收階段。
在上述運用SMTP協(xié)議傳輸電子郵件的整個過程中,通過對發(fā)送階段、傳 輸階段或接收階段進行郵件流量的檢測和過濾,有助于限制垃圾郵件的傳輸。
目前,在發(fā)送階段和接收階段使用的垃圾郵件過濾技術(shù)大致可分為內(nèi)容過 濾和接入過濾兩種,但少有可用于傳輸階段的過濾技術(shù)。
內(nèi)容過濾技術(shù)通過建立"垃圾郵件特征庫"的方法來阻止垃圾郵件,通過 對郵件的信封、信頭和信體等內(nèi)容進行對比檢測,從而對垃圾郵件進行過濾。 此外,人們還采用了散列技術(shù)、貝葉斯算法等。貝葉斯算法可以學(xué)習(xí)單詞的頻 率和模式,這樣可以將垃圾郵件和正常郵件關(guān)聯(lián)起來進行判斷。這是一種相對
于關(guān)鍵字來說,更復(fù)雜和更智能化的內(nèi)容過濾技術(shù)。內(nèi)容過濾技術(shù)的缺點是速 度慢、需要用戶不斷更新規(guī)則庫或訓(xùn)練集等,隨著垃圾郵件制造者技術(shù)水平的 不斷提高,這種方法很容易失效。
接入過濾技術(shù)對郵件信頭部分進行檢査,可以提前發(fā)現(xiàn)或阻斷非法信息, 且不侵犯個人隱私。常見的方法有實時黑名單、郵資策略、基于DNS的驗證 技術(shù)、路徑分析法等。
實時黑名單實際上是一組可供査詢的IP地址列表。使用黑名單服務(wù)的軟 件向黑名單服務(wù)器發(fā)出査詢請求,如果該地址被列入了黑名單,那么服務(wù)器會 返回一個有效地址的答案;反之將得到一個否定答案。目前世界上大多數(shù)的主
流郵件服務(wù)器都支持實時黑名單服務(wù),因此該名單是可信任的。但這種方式最 大弊端是容易發(fā)生"誤判",比如ISP提供的虛擬主機服務(wù), 一旦某個用戶被 認(rèn)定發(fā)送垃圾郵件,就會導(dǎo)致該IP地址所在整個網(wǎng)域被列入黑名單,其它的 用戶也會受到牽連。
郵資策略的原理是發(fā)送者要為每封信件付出一定的代價,即所謂的郵資, 這個代價與發(fā)信規(guī)模成正比,對于合法的發(fā)送者來說是可以接受的,但對大規(guī) 模垃圾郵件發(fā)送者來說是難以承擔(dān)的。反向圖靈機測試就是每個發(fā)送者必須首 先通過郵件服務(wù)器的一個簡單的測試,例如準(zhǔn)確描述圖片中的數(shù)字等,從而證 明發(fā)送者是人而不是機器。郵資策略處理速度較慢,無法應(yīng)用于實時處理的環(huán) 境。
基于DNS的驗證技術(shù)的原理是,接收郵件服務(wù)器收到一封郵件時通過 DNS解析和DNS反解析査詢發(fā)送者IP地址或域名信息,如果查詢結(jié)果與郵 件宣稱的內(nèi)容不符,則認(rèn)為該信件為垃圾郵件而拒收。基于DNS的驗證技術(shù) 對于使用虛假域名發(fā)送垃圾郵件的情況比較有效,但對于通過被控制的、具有 真實域名的結(jié)點發(fā)送垃圾郵件的情況就無能為力了。同時,不支持反向DNS 驗證的合法網(wǎng)域也將被視為垃圾郵件源,易產(chǎn)生誤報。此外,基于DNS的驗 證技術(shù)處理速度較慢, 一般無法應(yīng)用于實時處理的環(huán)境。
基于路徑分析的垃圾郵件過濾其原理是,通過郵件信頭中的接收行字段 (Receivedline)中的路徑信息來統(tǒng)計郵件服務(wù)器的歷史行為,從而判斷其以 后是否會發(fā)送垃圾郵件。該方法以標(biāo)注過的郵件集(分為垃圾郵件、合法郵件 兩類)為輸入,提取接收行中所有郵件服務(wù)器對應(yīng)的IP地址,統(tǒng)計這些地址
在垃圾郵件與合法郵件中的出現(xiàn)頻率,為其評分建立郵件服務(wù)器的信譽度。然 后,對于收到的一封郵件,如果其來自于信譽度較高的郵件服務(wù)器,則被標(biāo)注 為合法郵件,否則將被標(biāo)注為垃圾郵件。
由于垃圾郵件發(fā)送者可以偽造郵件的路徑信息,可能使接收行信息的可用 性較差,影響過濾算法的準(zhǔn)確率;此外,這種方法需要完整的接收行及經(jīng)過標(biāo) 注的樣本數(shù)據(jù),很難應(yīng)用于傳輸階段的郵件流量過濾。
盡管從實際過濾效果來看,基于發(fā)送和接收階段的解決方案使用戶接收的 垃圾郵件數(shù)量顯著減少,但垃圾郵件占用網(wǎng)絡(luò)帶寬、浪費存儲和運算資源的問 題依然沒有得到解決,因此解決垃圾郵件問題應(yīng)該將實現(xiàn)可應(yīng)用于郵件傳輸階 段的實時過濾技術(shù),以便有效提高網(wǎng)絡(luò)資源利用率,同時減輕用戶端的過濾壓 力。
發(fā)明內(nèi)容
為了解決上述的技術(shù)問題,本發(fā)明提供了一種實時垃圾電子郵件過濾方法 及系統(tǒng),其目的在于,在傳輸階段實時過濾垃圾電子郵件。
本發(fā)明提供了一種實時垃圾電子郵件過濾方法,用于在網(wǎng)絡(luò)互聯(lián)點處過濾 垃圾郵件,包括
步驟l,依據(jù)郵件中的路由信息構(gòu)建路徑集合P,路徑集合P為
(發(fā)送通信者,接收通信者}和/或{發(fā)送通信者,信宿};
步驟2,按照IP地址映射或者域名映射將路徑集合P中的元素的IP地址 或者域名進行屬性空間映射;
步驟3,依據(jù)路徑集合P中各元素的屬性空間映射結(jié)果判斷當(dāng)前郵件是否 為垃圾郵件,如果是,執(zhí)行步驟4,否則不處理該當(dāng)前郵件;
步驟4,過濾該當(dāng)前郵件。
所述網(wǎng)絡(luò)互聯(lián)點處包括國際出入口 、運營商網(wǎng)絡(luò)接入點或省間網(wǎng)絡(luò)出入□。
步驟3中,如果當(dāng)前郵件的發(fā)送通信者和接收通信者的屬性空間映射結(jié)果 相同,則判斷該郵件為垃圾郵件;如果當(dāng)前郵件的發(fā)送通信者和信宿的屬性空 間映射結(jié)果相同,則判斷該郵件為垃圾郵件。
步驟2中,屬性空間映射包括地理信息映射、管理信息映射或行政區(qū)域信
息映射。
步驟2中,按照IP地址映射將發(fā)送通信者和接收通信者的IP地址映射為
地理信息、管理信息或行政區(qū)域信息;或者按照域名映射將發(fā)送通信者的域名
映射為地理信息、管理信息或行政區(qū)域信息,按照IP映射將接收通信者的IP 地址映射為地理信息、管理信息或行政區(qū)域信息。
步驟2中,按照域名映射將發(fā)送通信者和信宿的域名映射為地理信息、管 理信息或行政區(qū)域信息。
發(fā)送通信者的IP地址或者域名為HELO命令中攜帶的發(fā)送通信者的域信息。
發(fā)送通信者的域名為HELO命令中攜帶的發(fā)送通信者的域信息。 還包括步驟91,如果當(dāng)前郵件為垃圾郵件,則對該當(dāng)前郵件進行監(jiān)控。 路徑集合P還包括(終端用戶,發(fā)送通信者},用于判斷當(dāng)前郵件是否為可 疑垃圾郵件。
步驟3還包括判斷當(dāng)前郵件是否為可疑垃圾郵件如果終端用戶和發(fā)送通 信者不是同一節(jié)點,發(fā)送通信者提供的域信息應(yīng)符合域名命名規(guī)則,否則該郵 件為可疑垃圾郵件。
本發(fā)明提供了一種實時垃圾電子郵件過濾系統(tǒng),用于在網(wǎng)絡(luò)互聯(lián)點處過濾
垃圾郵件,其包括
郵件路徑分析模塊,用于分析郵件路由信息,構(gòu)建路徑集合p,路徑集合
P為(發(fā)送通信者,接收通信者}和/或{發(fā)送通信者,信宿};
屬性空間映射模塊,用于對路徑集合P中的元素的IP地址或者域名進行 屬性空間映射,并給出屬性空間映射結(jié)果;
判斷識別模塊,用于依據(jù)路徑集合P中各元素的屬性空間映射結(jié)果判斷當(dāng) 前郵件是否為垃圾郵件;
過濾模塊,用于過濾垃圾郵件。
所述網(wǎng)絡(luò)互聯(lián)點處包括國際出入口 、運營商網(wǎng)絡(luò)接入點或省間網(wǎng)絡(luò)出入□。
如果當(dāng)前郵件的發(fā)送通信者和接收通信者的屬性空間映射結(jié)果相同,則判 斷識別模塊判斷該郵件為垃圾郵件;如果當(dāng)前郵件的發(fā)送通信者和信宿的屬性 空間映射結(jié)果相同,則判斷識別模塊判斷該郵件為垃圾郵件。屬性空間映射包括地理信息映射、管理信息映射或行政區(qū)域信息映射。 屬性空間映射模塊按照IP地址映射將發(fā)送通信者和接收通信者的IP地址 映射為地理信息、管理信息或行政區(qū)域信息;或者屬性空間映射模塊按照域名 映射將發(fā)送通信者的域名映射為地理信息、管理信息或行政區(qū)域信息,按照IP 映射將接收通信者的IP地址映射為地理信息、管理信息或行政區(qū)域信息。
屬性空間映射模塊按照域名映射將發(fā)送通信者和信宿的域名映射為地理 信息、管理信息或行政區(qū)域信息。
發(fā)送通信者的IP地址或者域名為HELO命令中攜帶的發(fā)送通信者的域信息。
發(fā)送通信者的域名為HELO命令中攜帶的發(fā)送通信者的域信息。 還包括監(jiān)控模塊,用于監(jiān)控垃圾郵件。
路徑集合P還包括(終端用戶,發(fā)送通信者},用于判斷當(dāng)前郵件是否為可 疑垃圾郵件。
判斷識別模塊還用于依據(jù)終端用戶、發(fā)送通信者以及路由信息中的接收行 判斷當(dāng)前郵件是否為可疑垃圾郵件。
本發(fā)明僅對郵件命令和信頭中的內(nèi)容進行解析,處理速度快,可支持大流 量環(huán)境下的實時處理操作,且不會侵犯用戶的隱私,能夠有效用于大流量環(huán)境 下過濾垃圾郵件,緩解垃圾郵件占用網(wǎng)絡(luò)帶寬、浪費存儲和運算資源等問題, 從而提高網(wǎng)絡(luò)資源利用率,同時減輕用戶端的過濾壓力。另外該方法在準(zhǔn)確率 和速度方面具有優(yōu)勢,且不需要在線學(xué)習(xí),因此還可以為其它過濾技術(shù)提供垃 圾郵件的模式或者特征實例,更好的協(xié)同解決垃圾郵件問題。
圖1為現(xiàn)有技術(shù)中電子郵件傳輸系統(tǒng)結(jié)構(gòu)圖; 圖2為本發(fā)明提供的垃圾郵件過濾系統(tǒng)的結(jié)構(gòu)圖; 圖3為按照SMTP協(xié)議的郵件存儲轉(zhuǎn)發(fā)流程; 圖4為IP地址存儲結(jié)構(gòu)示意圖。
具體實施例方式
郵件在傳輸階段可能經(jīng)過多個路由器和郵件服務(wù)器,在發(fā)明中,將過濾系
統(tǒng)部署在流量大規(guī)模匯集的網(wǎng)絡(luò)互聯(lián)點路由器處(包括國際出入口、運營商網(wǎng) 絡(luò)接入點或省間網(wǎng)絡(luò)出入口等處)。這樣部署的優(yōu)點是,此處數(shù)據(jù)規(guī)模大,垃 圾郵件的各種特征較為明顯;過濾系統(tǒng)兩側(cè)的收發(fā)郵件服務(wù)器(是郵件路徑中 的兩個節(jié)點)屬性特征間存在邏輯關(guān)系。 本發(fā)明中
首先,根據(jù)SMTP協(xié)議, 一封郵件的命令和信頭等部分以路徑結(jié)點的形式 記錄了信件在傳輸過程中所經(jīng)過的郵件服務(wù)器信息,這些郵件服務(wù)器按順序排 列形成一條郵件路徑,路徑中結(jié)點在不同的屬性空間下均存在較強的邏輯關(guān) 系。
其次,經(jīng)過對傳輸階段近百萬封郵件進行統(tǒng)計,發(fā)現(xiàn)為了隱藏發(fā)信者的真
正身份,垃圾郵件發(fā)送者會偽造路徑信息;而為保證信件成功發(fā)送,垃圾郵件
發(fā)送者又必須填寫部分真實的內(nèi)容,這樣垃圾郵件路徑中可能會攜帶相互矛盾 的屬性信息,而合法郵件的路徑中一般不會存在相互矛盾的屬性信息,利用這 些相互矛盾的信息發(fā)現(xiàn)垃圾郵件。
圖2是本發(fā)明提供的垃圾郵件過濾系統(tǒng)的結(jié)構(gòu)圖,垃圾郵件過濾系統(tǒng)20 包括郵件路徑分析模塊21、屬性空間映射模塊22、判斷識別模塊23、過濾模 塊24以及監(jiān)控模塊25。屬性空間映射模塊22可進行域名映射和IP地址映射。 下面對各模塊進行詳細(xì)說明。
A、郵件路徑分析模塊21,用于分析郵件的傳輸路徑。
SMTP是一種存儲轉(zhuǎn)發(fā)協(xié)議,它允許郵件通過一系列的郵件服務(wù)器(簡稱 為郵件傳輸代理或MTA)發(fā)送到最終的目的地。如圖3所示,終端用戶和這 些MTA可組成一條郵件路徑。通常情況下, 一條郵件路徑P中依次存在如下 角色中的幾種(1)終端用戶,又稱為MUA (Mail User Agent,郵件用戶代 理)。該用戶可能通過客戶端發(fā)送郵件,也可能以Web方式登陸到郵件服務(wù) 器上發(fā)送郵件。由于MUA不具備轉(zhuǎn)發(fā)功能,如果存在則必為路徑中的第一個 結(jié)點。(2)信源,即郵件的真實發(fā)送網(wǎng)域,記為MTAsource。 (3)中繼者, 郵件傳輸過程中的轉(zhuǎn)發(fā)結(jié)點,記為MTArday。 (4)通信者,是指檢測點兩側(cè) 當(dāng)前通信的兩個MTA,分別稱為發(fā)送通信者和接收通信者,分別記為MTAsend 和MTArecv。
(5)信宿,即郵件的真實接收網(wǎng)域,記為MTAdest。
需要注意的是,在路徑P中,可能存在以下幾種情況發(fā)送通信者MTAsend 與MUA相同、發(fā)送通信者MTAsend與信源MTAsource相同、接收通信者 MTArecv與信宿MTAdest相同; 一般地對一封郵件的路徑來說,MUA、 MTAsource、 MTAsend、 MTArecv、 MTAdest分別對應(yīng)路徑上的一個結(jié)點,而 MTArelay可能對應(yīng)一個結(jié)點集合。
本發(fā)明中的垃圾郵件過濾系統(tǒng)安裝在圖3中的檢測點上,用于實現(xiàn)過濾垃 圾郵件。理論上,檢測點可能觀測到的一條郵件路徑的結(jié)點集合為T={MUA, MTAsource, MTArelay, MTAsend, MTArecv, MTAdest}。但由于其所在位 置的局限,實際構(gòu)成的郵件路徑不一定包括上述所有角色。
對檢測點而言,發(fā)送通信者、接收通信者、信宿一定在路徑中出現(xiàn);發(fā)送 通信者之前和接收通信者之后是否有中繼者是無法判斷的;由于垃圾郵件發(fā)送 者可能偽造發(fā)件地址,因此信源對應(yīng)的實際路徑節(jié)點不一定會在在郵件路徑中 出現(xiàn)。本發(fā)明是通過尋找垃圾郵件過濾系統(tǒng)兩側(cè)節(jié)點屬性矛盾來識別垃圾郵 件,因此不一定需要構(gòu)造完整的郵件路徑,在具體實施中,本發(fā)明僅僅用到了 路徑中的MUA、 MTAsend、 MTArecv、 MTAdest四個節(jié)點。
下面給出提取路由信息并構(gòu)建郵件路徑的方法。
對于一封郵件,首先從郵件命令報文中提取如下路由信息
(1) 發(fā)送通信者和接收通信者的IP地址,分別記為IPs與IPd。由于過 濾系統(tǒng)兩側(cè)的收發(fā)郵件服務(wù)器屬于不同的區(qū)域,因此,IPs和IPd具有不同的 屬性特征。
(2) HELO命令中攜帶的發(fā)送通信者的域信息,記為Hdomain,可以用 IP地址或者域名表示。HELO命令的發(fā)起者也是MTAsend。
(3) RCPTTO命令中攜帶的郵件信封地址,記為EAd。值得注意的是, 這條命令的發(fā)起者是MTAsend。 EAd表示信宿在Internet屬性空間中的網(wǎng)域信 息,對應(yīng)郵件路徑上的尾結(jié)點,因此在有向傳遞路徑中出現(xiàn)的位置不早于IPd 所對應(yīng)的結(jié)點位置,且兩者在檢測點同一側(cè)。
(4) 提取郵件中接收行字段,記為Rdomain。
需要說明的是,本發(fā)明并不分析郵件信頭中的收方郵件地址,因為一封郵 件信頭中的接收地址為一個組地址或與信宿無關(guān)(考慮抄送、暗送等情況)等 情況是合理的,因此信頭中的收方地址可用性較差,不能采用。
在以上所提取的路由信息中,收、發(fā)通信者的IP地址難以偽造,因此是
可信的;信宿EAd是郵件目的接收服務(wù)器地址,是可信的;由于垃圾郵件發(fā)
送者可能偽造發(fā)件地址,因此信源MTAsource以及路由信息Hdomain是不可 信的;同理,垃圾郵件發(fā)送者可以在郵件中插入多條接收行字段,因此Rdomain 的可信程度較低。
下面討論如何根據(jù)一封郵件的路由信息集合R={ Rdomain, Hdomain, IPs, IPd, EAd)構(gòu)建相應(yīng)的郵件路徑P。 P為路徑節(jié)點集合(MUA, MTAsource, MTArelay, MTAsend, MTArecv, MTAdest》的子集。
(1) 確定路徑中是否有MUA。根據(jù)SMTP協(xié)議,為便于跟蹤?quán)]件路由, 在郵件從一個郵件服務(wù)器傳遞到另一個郵件服務(wù)器過程中,接收方必須在信頭 填寫接收行字段,其中包括此封郵件的當(dāng)前發(fā)送者和接收者的域名或IP地址, 接收到郵件的時間等,而對MUA則無此要求。
在本發(fā)明中,通過判斷接收行字段是否為空來識別MUA是否在路徑中出 現(xiàn)。因為垃圾郵件發(fā)送者可以利用控制的郵件路徑中的節(jié)點發(fā)送垃圾郵件,但 一般不能完全控制該節(jié)點上的每個動作(例如,垃圾郵件發(fā)送者可以偽造接收 行信息,但不能刪除歷史的路由信息。),也不能改變其后節(jié)點的行為。因此 有如下結(jié)論如果Rdomain為空,則發(fā)送通信者MTAsend就是MUA,即路 徑中存在MUA;否則不能確定路徑中是否有MUA。
(2) 確定郵件路徑中通信者。根據(jù)SMTP協(xié)議,路由信息Hdomain與IPs 對應(yīng)的節(jié)點為發(fā)送通信者MTAsend。在本發(fā)明中,判斷識別模塊23使用路由 信息Hdomain完成IP地址映射或域名映射工作,過濾模塊24及監(jiān)控模塊25 在工作時會使用到路由信息IPs。路由信息IPd對應(yīng)的節(jié)點為接收通信者 MTArecv 。
(3) 確定路徑中信宿。路由信息EAd對應(yīng)的節(jié)點為信宿MTAdest。
(4) 關(guān)于確定路徑中其它節(jié)點。中繼者MTArelay和MTAsource不需要確定。
通過上述步驟可以確定有關(guān)結(jié)點在路徑中的角色,在此基礎(chǔ)上可以確定郵
件路徑中結(jié)點屬性信息。
B、屬性空間映射模塊22,用于進行IP地址映射或者域名映射。 本發(fā)明中提取的路由信息屬于郵件路徑中各結(jié)點在Internet地址空間中的
屬性信息,如果這些屬性信息違背結(jié)點之間的邏輯關(guān)系,例如同一節(jié)點的IP
地址與域名信息不一致,則說明郵件可能含有虛假信息。同理,路徑中各結(jié)點 的其他屬性(如地理位置為其在地理空間下的地理屬性信息,提供接入服務(wù)的 運營商為其在管理域空間下的屬性信息,所屬省份為其在行政區(qū)域空間下的屬 性信息等等)信息違背結(jié)點之間的邏輯關(guān)系,則很可能為垃圾郵件。本發(fā)明采
用屬性空間映射方法,以路徑中包含的結(jié)點的路由信息(Internet地址空間下 的屬性信息)為基礎(chǔ),經(jīng)過映射得到節(jié)點在其它屬性空間下的屬性信息,進而 分析路徑結(jié)點在其它屬性空間的邏輯關(guān)系背離情況。
在本模塊中,以地理屬性空間為例進行具體闡述,映射到其他屬性空間下 的操作與此類似。進一步地,本發(fā)明中的垃圾郵件過濾系統(tǒng)位于國際出入口路 由器處,從Internet地址空間映射到地理屬性空間時只需標(biāo)注出該結(jié)點為"中 國大陸"或"非中國大陸"即可。此外,地理屬性映射應(yīng)能滿足大流量環(huán)境下 的實時操作要求。因為路由信息有域名和IP地址兩種表達方式,下面我們分 別對其進行映射。
Bl、映射域名。在本發(fā)明中依次應(yīng)用如下啟發(fā)式規(guī)則進行域名的地理屬 性映射
(1) 郵件地址中包含"yahoo." 、 "msn." 、 "hotmail." 、 "AOL."、 "earthlink." 、 "gmail."等知名國外郵件服務(wù)商信息,該域名不屬于中國大陸。
(2) 郵件地址中包含"163.com" 、 "126.com"等知名國內(nèi)郵件服務(wù)商
信息,該域名屬于中國大陸;
(3) 如果郵件地址中的頂級域名長度為2字節(jié)且為"cn",則該域名屬
于中國大陸;
(4) 如果郵件地址中的頂級域名長度為2字節(jié)且不為"cn",則該域名 不屬于中國大陸;
(5) 如果郵件地址中的頂級域名長度為3字節(jié)且為"edu",則該域名不 屬于中國大陸;
(6) 其它情況,認(rèn)為該域名地理屬性未知。
B2、映射IP地址。 一般地,IP地址存儲結(jié)構(gòu)應(yīng)該保存系統(tǒng)兩側(cè)區(qū)域內(nèi)所 有IP地址信息,以備查詢使用。如果將本發(fā)明用于國際出入口,則只需保存 中國大陸的IP地址信息。 根據(jù)APNIC及CNNIC在2006年7月公布的IPv4地址分配情況,中國大 陸目前擁有IPv4地址總數(shù)為8479萬個,約合5A+13B+190C個類地址。我們 將中國大陸擁有的IP地址信息保存在樹形存儲結(jié)構(gòu)中。如果當(dāng)前IP地址査詢 命中,則由該IP地址確定的結(jié)點屬于中國大陸;否則,該結(jié)點不屬于中國大 陸。雖然IP地址分配機構(gòu)提供的數(shù)據(jù)粒度較粗,但其國別信息足以滿足本文 的地理映射需要。
IP地址樹形存儲結(jié)構(gòu)圖4所示。樹根(Root)為第0層,分別對應(yīng)點分十 進制IP地址的左側(cè)第一個字節(jié),構(gòu)成樹的第l層;就目前中國大陸擁有的IP 地址來說,該層共有26個結(jié)點。第l層每個結(jié)點有256棵子樹,分別對應(yīng)點 分十進制IP地址的左側(cè)第二個字節(jié),構(gòu)成樹的第2層。第2層每個結(jié)點引出 一個記錄IP地址前綴信息的鏈表,表中每個元素以子網(wǎng)/前綴的格式(例如 58.14.0.0/16)保存IP地址的分段信息。在構(gòu)建IP地址樹時,網(wǎng)絡(luò)前綴長度大 于/16的IP地址段可直接加入相應(yīng)鏈表,小于/16的要進行拆分處理,將處理 后的多個/16的地址段加入相應(yīng)結(jié)點的鏈表中??傮w來說,分配給中國大陸的 地址段較集中,統(tǒng)計發(fā)現(xiàn),第2層結(jié)點的鏈表最大長度為8,因而IP地址樹 形存儲結(jié)構(gòu)具有較快的查詢速度。
C、判斷識別模塊23。經(jīng)過屬性空間映射模塊22處理之后,路徑中各節(jié) 點在某屬性空間下的信息已經(jīng)保存在系統(tǒng)中,本發(fā)明將在該屬性空間下使用下 面三個條件檢測路徑結(jié)點之間屬性邏輯關(guān)系背離情況。
對于一封郵件,其路由信息集合為R={Rdomain, Hdomain, IPd, EAd}, 構(gòu)建相應(yīng)的郵件路徑為路徑節(jié)點集合《MUA, MTAsource, MTArelay, MTAsend, MTArecv, MTAdest}的一個子集,則有
1) 如果MUA、 MTAsend不是同一節(jié)點,且Hdomain不是IP地址,貝U Hdomain應(yīng)符合Internet上域名命名規(guī)則,否則該郵件為可疑垃圾郵件。
2) 發(fā)送通信者MTAsend和接收通信者MTArecv的屬性信息不能相同, 否則該郵件為垃圾郵件。
3) 如果HELO命令中攜帶的發(fā)送通信者的域信息(Hdomain)為域名, 則發(fā)送通信者MTAsend與信宿MTAdest的屬性信息不能相同,否則該郵件為 垃圾郵件。
對傳輸階段大規(guī)模郵件流量進行統(tǒng)計后發(fā)現(xiàn),當(dāng)Hdomain為IP地址,一
些合法郵件的發(fā)送通信者和信宿屬性信息相同;而當(dāng)Hdomain為域名時,僅 垃圾郵件的發(fā)送通信者和信宿屬性信息相同。因此當(dāng)Hdomain為IP地址,不 能用條件3)判斷該郵件是否為垃圾郵件。
以上三個條件的檢測順序為,首先判斷2),如果滿足條件,則當(dāng)前郵件 為垃圾郵件;否則判斷是否滿足3),如果滿足3),則當(dāng)前郵件為垃圾郵件; 否則判斷是否滿足l),如果滿足l),則當(dāng)前郵件為可疑垃圾郵件;如果不 滿足條件l),則當(dāng)前郵件為合法郵件,系統(tǒng)不采取任何動作。
D、 過濾模塊24,用于過濾垃圾郵件。如果判斷識別模塊23判斷當(dāng)前郵 件為垃圾郵件,過濾模塊24對其進行過濾。
在郵件路徑分析模塊21中,檢測系統(tǒng)已經(jīng)提取發(fā)送通信者、接收通信者 的IP地址IPs和IPd,因此可以分別向發(fā)送通信者和接收通信者發(fā)送偽造的IP 報文,提前中止該垃圾郵件的傳輸。對于滿足條件2) 、 3)的垃圾郵件,通 過向發(fā)送通信者發(fā)送含5xx命令的IP報文(根據(jù)SMTP協(xié)議,551命令表明 接收郵件服務(wù)器上無此用戶),對接收通信者發(fā)送Reset報文,切斷此次連接。 對于滿足條件l)的垃圾郵件,同時向發(fā)送通信者和接收通信者發(fā)送Reset報 文,切斷此次連接。通常,為保證較高的吞吐率,垃圾郵件發(fā)送者對發(fā)送失敗 的郵件不會進行重傳嘗試,因此我們的方法可有效減少垃圾郵件流量。
E、 監(jiān)控模塊25,用于對垃圾郵件進行監(jiān)控。如果有對垃圾郵件監(jiān)控的需 求,可以不對垃圾郵件進行過濾,而對其進行監(jiān)控。
如在判斷識別模塊23中己經(jīng)識別當(dāng)前郵件為垃圾郵件或可疑垃圾郵件, 本系統(tǒng)可以通過保存該郵件正文內(nèi)容,記錄發(fā)送通信者IP地址(IPs)或域名 變化規(guī)律等手段,為研究垃圾郵件多層次特征提供樣本實例。
下面以在地理屬性空間的應(yīng)用為例,在其它屬性空間的應(yīng)用與此類似
例如,郵件經(jīng)過垃圾郵件過濾系統(tǒng),系統(tǒng)提取路由信息如下 R={Rdomain= (...) , Hdomain= (pc27) , IPs= (222.169.83.80) , IPd= (219.110.2.152) , EAd= (246.ne.jp) }
可確定路徑中的節(jié)點(MTAsend, MTArecv, MTAdest)及它們的屬性信 息。因為Hdomair^ (pc27),判斷識別模塊23無法完成映射,因此發(fā)送通信 者的地理屬性不能確定,無法使用條件2)和3)來進行判斷。Rdomain不為 空,則說明MUA與發(fā)送通信者MTAsend不是同一節(jié)點;發(fā)送通信者為郵件
服務(wù)器,但有Homair^pc27,不是標(biāo)準(zhǔn)的域名格式,因此滿足條件l),所以 是可疑垃圾郵件。
又例如,郵件經(jīng)過垃圾郵件過濾系統(tǒng),系統(tǒng)提取路由信息如下
R={Rdomain= (......) , Hdomain=(210.8.168.129) , IPs= (222.80.117.114),
IPd= (210.8.168.154) , EAd= (westlakes.enviro.com.au) }
可確定路徑中的節(jié)點為(MTAsend, MTArecv, MTAdest)及它們的屬性 信息,下面進行過濾。根據(jù)Hdomair^ (210.8.168.129) , IPd= (210.8.168.154), 可知,發(fā)送通信者和接收通信者均在國外,滿足條件2)。因為IPs= (222.80.117.114)是可信的,這說明發(fā)送通信者真實位置在中國,它偽造了 Hdomain信息,所以是垃圾郵件。
如果郵件經(jīng)過垃圾郵件過濾系統(tǒng),系統(tǒng)提取路由信息如下
R={Rdomain={} , Hdomain= (al,mmtr.or.jp) , IPs= (219.147.232.86), IPd= (202.239.124.126) , EAd= (bl.mmtr.or.jp) }
可確定路徑中的節(jié)點為(MUA, MTAsend, MTArecv, MTAdest)及它 們的屬性信息,下面進行過濾。
根據(jù)Hdomain二 (al.mmtr.or.jp) , IPd= (202.239.124.126),可知發(fā)送通 信者和接收通信者分別位于國外和國內(nèi),不滿足條件2) ; Hdomain為域名, 根據(jù)EAd二 (bl.mmtr.or.jp)以及Hdomain= (al.mmtr.or.jp)可知,發(fā)送通信者 和信宿具有相同的地理屬性,滿足條件3),所以是垃圾郵件。
如果當(dāng)前郵件不滿足上述3個條件中的任何一個,則對該郵件不采取任何 動作。
垃圾郵件過濾需要全局協(xié)作,很難在某一個環(huán)節(jié)解決所有問題。本發(fā)明定 位在傳輸階段,主要用于過濾那些攜帶虛假屬性信息的垃圾郵件流量。當(dāng)然, 本發(fā)明中的垃圾郵件過濾系統(tǒng)和現(xiàn)有的垃圾郵件過濾技術(shù)可以任意結(jié)合,從而 使整個反垃圾郵件體系能夠從全局的角度更大程度限制垃圾郵件的傳輸。
本發(fā)明提供的另外兩個實施例為
(1)過濾提供接入服務(wù)的運營商網(wǎng)間垃圾郵件,例如在電信運行商M和 電信運營商N之間的網(wǎng)間出入口上設(shè)置檢測點,將IP地址或者域名映射為管 理信息(即屬于哪個提供網(wǎng)絡(luò)接入服務(wù)的運營商),利用本發(fā)明提供的方法和 系統(tǒng)過濾電信運行商M和電信運營商之間N之間的垃圾郵件。
(2)過濾國內(nèi)省級行政區(qū)域網(wǎng)間垃圾郵件,例如湖南和湖北之間的省網(wǎng) 間出入口上設(shè)置檢測點,將IP地址或者域名映射為所屬行政區(qū)域信息(即屬 于哪個省級行政單位),利用本發(fā)明提供的方法和系統(tǒng)過濾省間的垃圾郵件。
本領(lǐng)域的技術(shù)人員在不脫離權(quán)利要求書確定的本發(fā)明的精神和范圍的條 件下,還可以對以上內(nèi)容進行各種各樣的修改。因此本發(fā)明的范圍并不僅限于 以上的說明,而是由權(quán)利要求書的范圍來確定的。
權(quán)利要求
1、一種實時垃圾電子郵件過濾方法,用于在網(wǎng)絡(luò)互聯(lián)點處過濾垃圾郵件,其特征在于,包括步驟1,依據(jù)郵件中的路由信息構(gòu)建路徑集合P,路徑集合P為{發(fā)送通信者,接收通信者}和/或{發(fā)送通信者,信宿};步驟2,按照IP地址映射或者域名映射將路徑集合P中的元素的IP地址或者域名進行屬性空間映射;步驟3,依據(jù)路徑集合P中各元素的屬性空間映射結(jié)果判斷當(dāng)前郵件是否為垃圾郵件,如果是,執(zhí)行步驟4,否則不處理該當(dāng)前郵件;步驟4,過濾該當(dāng)前郵件。
2、 如權(quán)利要求1所述的實時垃圾電子郵件過濾方法,其特征在于,所述 網(wǎng)絡(luò)互聯(lián)點處包括國際出入口 、運營商網(wǎng)絡(luò)接入點或省間網(wǎng)絡(luò)出入口 。
3、 如權(quán)利要求1所述的實時垃圾電子郵件過濾方法,其特征在于,步驟 3中,如果當(dāng)前郵件的發(fā)送通信者和接收通信者的屬性空間映射結(jié)果相同,則 判斷該郵件為垃圾郵件;如果當(dāng)前郵件的發(fā)送通信者和信宿的屬性空間映射結(jié) 果相同,則判斷該郵件為垃圾郵件。
4、 如權(quán)利要求1、 2或3所述的實時垃圾電子郵件過濾方法,其特征在于, 步驟2中,屬性空間映射包括地理信息映射、管理信息映射或行政區(qū)域信息映 射。
5、 如權(quán)利要求4所述的實時垃圾電子郵件過濾方法,其特征在于,步驟 2中,按照IP地址映射將發(fā)送通信者和接收通信者的IP地址映射為地理信息、 管理信息或行政區(qū)域信息;或者按照域名映射將發(fā)送通信者的域名映射為地理 信息、管理信息或行政區(qū)域信息,按照IP映射將接收通信者的IP地址映射為 地理信息、管理信息或行政區(qū)域信息。
6、 如權(quán)利要求4所述的實時垃圾電子郵件過濾方法,其特征在于,步驟 2中,按照域名映射將發(fā)送通信者和信宿的域名映射為地理信息、管理信息或 行政區(qū)域信息。
7、 如權(quán)利要求5所述的實時垃圾電子郵件過濾方法,其特征在于,發(fā)送 通信者的IP地址或者域名為HELO命令中攜帶的發(fā)送通信者的域信息。
8、 如權(quán)利要求6所述的實時垃圾電子郵件過濾方法,其特征在于,發(fā)送通信者的域名為HELO命令中攜帶的發(fā)送通信者的域信息。
9、 如權(quán)利要求1、 2或3所述的實時垃圾電子郵件過濾方法,其特征在于, 還包括步驟91,如果當(dāng)前郵件為垃圾郵件,則對該當(dāng)前郵件進行監(jiān)控。
10、 如權(quán)利要求l、 2或3所述的實時垃圾電子郵件過濾方法,其特征在 于,路徑集合P還包括(終端用戶,發(fā)送通信者},用于判斷當(dāng)前郵件是否為可 疑垃圾郵件。
11、 如權(quán)利要求IO所述的實時垃圾電子郵件過濾方法,其特征在于,步 驟3還包括判斷當(dāng)前郵件是否為可疑垃圾郵件如果終端用戶和發(fā)送通信者不 是同一節(jié)點,發(fā)送通信者提供的域信息應(yīng)符合域名命名規(guī)則,否則該郵件為可 疑垃圾郵件。
12、 一種實時垃圾電子郵件過濾系統(tǒng),用于在網(wǎng)絡(luò)互聯(lián)點處過濾垃圾郵件, 其特征在于,包括郵件路徑分析模塊,用于分析郵件路由信息,構(gòu)建路徑集合P,路徑集合 P為《發(fā)送通信者,接收通信者}和/或{發(fā)送通信者,信宿};屬性空間映射模塊,用于對路徑集合P中的元素的IP地址或者域名進行 屬性空間映射,并給出屬性空間映射結(jié)果;判斷識別模塊,用于依據(jù)路徑集合P中各元素的屬性空間映射結(jié)果判斷當(dāng) 前郵件是否為垃圾郵件;過濾模塊,用于過濾垃圾郵件。
13、 如權(quán)利要求12所述的實時垃圾電子郵件過濾系統(tǒng),其特征在于,所 述網(wǎng)絡(luò)互聯(lián)點處包括國際出入口 、運營商網(wǎng)絡(luò)接入點或省間網(wǎng)絡(luò)出入口 。
14、 如權(quán)利要求12所述的實時垃圾電子郵件過濾系統(tǒng),其特征在于,如 果當(dāng)前郵件的發(fā)送通信者和接收通信者的屬性空間映射結(jié)果相同,則判斷識別 模塊判斷該郵件為垃圾郵件;如果當(dāng)前郵件的發(fā)送通信者和信宿的屬性空間映 射結(jié)果相同,則判斷識別模塊判斷該郵件為垃圾郵件。
15、 如權(quán)利要求12、 13或14所述的實時垃圾電子郵件過濾系統(tǒng),其特征 在于,屬性空間映射包括地理信息映射、管理信息映射或行政區(qū)域信息映射。
16、 如權(quán)利要求15所述的實時垃圾電子郵件過濾系統(tǒng),其特征在于,屬 性空間映射模塊按照IP地址映射將發(fā)送通信者和接收通信者的IP地址映射為地理信息、管理信息或行政區(qū)域信息;或者屬性空間映射模塊按照域名映射將 發(fā)送通信者的域名映射為地理信息、管理信息或行政區(qū)域信息,按照IP映射 將接收通信者的IP地址映射為地理信息、管理信息或行政區(qū)域信息。
17、 如權(quán)利要求15所述的實時垃圾電子郵件過濾系統(tǒng),其特征在于,屬 性空間映射模塊按照域名映射將發(fā)送通信者和信宿的域名映射為地理信息、管理信息或行政區(qū)域信息。
18、 如權(quán)利要求16所述的實時垃圾電子郵件過濾系統(tǒng),其特征在于,發(fā) 送通信者的IP地址或者域名為HELO命令中攜帶的發(fā)送通信者的域信息。
19、 如權(quán)利要求17所述的實時垃圾電子郵件過濾系統(tǒng),其特征在于,發(fā) 送通信者的域名為HELO命令中攜帶的發(fā)送通信者的域信息。
20、 如權(quán)利要求12、 13或14所述的實時垃圾電子郵件過濾系統(tǒng),其特征 在于,還包括監(jiān)控模塊,用于監(jiān)控垃圾郵件。
21、 如權(quán)利要求12、 13或14所述的實時垃圾電子郵件過濾系統(tǒng),其特征 在于,路徑集合P還包括(終端用戶,發(fā)送通信者},用于判斷當(dāng)前郵件是否為 可疑垃圾郵件。
22、 如權(quán)利要求21所述的實時垃圾電子郵件過濾系統(tǒng),其特征在于,判 斷識別模塊還用于依據(jù)終端用戶、發(fā)送通信者以及路由信息中的接收行判斷當(dāng) 前郵件是否為可疑垃圾郵件。
全文摘要
本發(fā)明涉及一種實時垃圾電子郵件過濾方法,用于在網(wǎng)絡(luò)互聯(lián)點處過濾垃圾郵件,包括步驟1,依據(jù)郵件中的路由信息構(gòu)建路徑集合P,路徑集合P為{發(fā)送通信者,接收通信者}和/或{發(fā)送通信者,信宿};步驟2,按照IP地址映射或者域名映射將路徑集合P中的元素的IP地址或者域名進行屬性空間映射;步驟3,依據(jù)路徑集合P中各元素的屬性空間映射結(jié)果判斷當(dāng)前郵件是否為垃圾郵件,如果是,執(zhí)行步驟4,否則不處理該當(dāng)前郵件;步驟4,過濾該當(dāng)前郵件。本發(fā)明僅對郵件命令和信頭中的內(nèi)容進行解析,處理速度快,能夠提高網(wǎng)絡(luò)資源利用率,同時減輕用戶端的過濾壓力。
文檔編號H04L12/58GK101188580SQ20071017883
公開日2008年5月28日 申請日期2007年12月5日 優(yōu)先權(quán)日2007年12月5日
發(fā)明者譽 姜, 尼 張, 范 張, 張智江, 方濱興 申請人:中國聯(lián)合通信有限公司