本發(fā)明涉及網(wǎng)絡(luò)安全領(lǐng)域,具體涉及垃圾郵件的檢測(cè)過(guò)濾系統(tǒng)和方法。
背景技術(shù):
電子郵件作為人們?nèi)粘9ぷ?、工作、學(xué)習(xí)中信息交換的一種重要手段,也是Internet應(yīng)用最廣泛的服務(wù)之一。但隨著網(wǎng)絡(luò)電子郵件的發(fā)展,越來(lái)越多帶有商業(yè)性推廣,政治目的和內(nèi)容中含有大量釣魚網(wǎng)站的垃圾郵件數(shù)目急劇增長(zhǎng)。垃圾郵件的泛濫不僅會(huì)極大浪費(fèi)用戶的工作時(shí)間處理一些根本沒(méi)有用的郵件,甚至內(nèi)容中含有釣魚網(wǎng)站的郵件可能會(huì)對(duì)用戶的財(cái)產(chǎn)安全構(gòu)成為威脅。目前,針對(duì)垃圾郵件的過(guò)濾已經(jīng)有了不少的研究,大多數(shù)方法,都是基于郵件內(nèi)容(文本分詞)的檢測(cè)方法。該類方法有一個(gè)明顯的缺點(diǎn),由于為所有的用戶保存統(tǒng)一的垃圾郵件過(guò)濾參數(shù),提供一致的模型。因此,無(wú)法滿足不同用戶的個(gè)性化需求(對(duì)垃圾郵件的定義不同),當(dāng)然該方法也不能通過(guò)自主學(xué)習(xí),改變識(shí)別策略,尤其不能適應(yīng)當(dāng)用戶對(duì)黑名單的內(nèi)容改變時(shí)情形。
對(duì)于現(xiàn)有的對(duì)垃圾郵件檢測(cè)的方法,郵件的處理流程存在可以優(yōu)化情形。例如我們可以對(duì)不同類型的郵件采用不同的處理方式,這樣在不影響對(duì)郵件結(jié)果判斷的情況下,又能提高對(duì)郵件處理的速度。例如現(xiàn)實(shí)中,很多廣告郵件或者商業(yè)推廣郵件往往都有群發(fā)的現(xiàn)象,利用這個(gè)特性,當(dāng)用戶收到的一份新郵件中,發(fā)現(xiàn)收件人有很多,對(duì)于這份郵件,很可能為垃圾郵件,我們可以直接對(duì)這份郵件進(jìn)行文本分詞處理,然后看它是否符合垃圾郵件的特性,而不用,再去分析它的發(fā)件人是否來(lái)自用戶黑名單中的郵箱,這樣就節(jié)省了郵件的處理時(shí)間。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明為了解決現(xiàn)有的垃圾郵件檢測(cè)大多基于用戶的設(shè)置信息對(duì)垃圾郵件進(jìn)行判斷存在的不能對(duì)用戶設(shè)置中沒(méi)有設(shè)置信息的垃圾郵件進(jìn)行過(guò)濾的問(wèn)題。
一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過(guò)濾系統(tǒng),包括:
郵箱個(gè)性化設(shè)置模塊,用于獲取用戶郵箱的個(gè)性化設(shè)置,包括好友郵箱信息、訂閱賬號(hào)信息和黑名單郵箱賬號(hào)信息;
郵件預(yù)處理模塊,用于將新接收的郵件進(jìn)行解析,獲取郵件收件人信息、發(fā)件人信息和郵件的主題及內(nèi)容;
垃圾郵件初步判斷模塊,根據(jù)郵箱個(gè)性化設(shè)置模塊的信息和郵件預(yù)處理模塊的信息,對(duì)郵件進(jìn)行初步過(guò)濾;
郵件內(nèi)容處理模塊,用于對(duì)垃圾郵件初步判斷模塊過(guò)濾后的郵件進(jìn)行行識(shí)別,根據(jù)郵件內(nèi)容是否包含共性中文分詞或誘導(dǎo)性鏈接,從而判斷郵件是否為垃圾郵件。
優(yōu)選地,所述一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過(guò)濾系統(tǒng)還包括誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)和垃圾郵件中文分詞數(shù)據(jù)庫(kù);所述的誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)是經(jīng)過(guò)對(duì)網(wǎng)絡(luò)中已知垃圾郵件(并非針對(duì)本郵箱收到的,是針對(duì)網(wǎng)絡(luò)中已經(jīng)發(fā)現(xiàn)所有的垃圾郵件)提取鏈接信息;所述的垃圾郵件中文分詞數(shù)據(jù)庫(kù)是經(jīng)過(guò)對(duì)網(wǎng)絡(luò)中已知垃圾郵件(并非針對(duì)本郵箱收到的,是針對(duì)網(wǎng)絡(luò)中已經(jīng)發(fā)現(xiàn)所有的垃圾郵件)進(jìn)行中文分詞處理后獲得的中文分詞集合,稱為共性中文分詞集合;誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)和垃圾郵件中文分詞數(shù)據(jù)庫(kù)用于對(duì)郵件內(nèi)容處理模塊中的含有的鏈接和文本分詞進(jìn)行比對(duì),判斷收到的郵件是否為垃圾郵件。
一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過(guò)濾方法,包括以下步驟:
步驟1、用戶新收到的郵件后,郵箱個(gè)性化設(shè)置模塊獲取用戶郵箱中設(shè)置的黑名單郵箱賬號(hào)、用戶的好友郵箱賬戶信息、用戶訂閱的公眾郵箱賬戶信息;
步驟2、郵件預(yù)處理模塊將新收到的郵件進(jìn)行處理,獲取收件人信息、發(fā)件人信息和郵件的主題及內(nèi)容(SMTP,POP3協(xié)議很容易獲取到這些內(nèi)容);收件人信息包括郵件發(fā)送方發(fā)送時(shí)對(duì)應(yīng)所有收信人的數(shù)量,即郵件的收信人很多,收件人信息包括這些收信人的數(shù)量;
步驟3、垃圾郵件初步判斷模塊內(nèi)設(shè)置收件人閾值;垃圾郵件初步判斷模塊首先獲取包含有郵件發(fā)送方發(fā)送時(shí)對(duì)應(yīng)所有收信人的數(shù)量的收件人信息,并將收信人的數(shù)量與所述的收件人閾值(例如將閾值設(shè)置為50)進(jìn)行比較;
如果收信人的數(shù)量大于等于收件人閾值,那么這份郵件很符合商業(yè)推廣、廣告郵件等垃圾郵件的某些特征,則將該郵件的主題及內(nèi)容發(fā)送至郵件內(nèi)容處理模塊進(jìn)行處理;
如果收信人的數(shù)量小于收件人閾值,則將發(fā)件人信息與郵箱個(gè)性化設(shè)置模塊獲取的黑名單郵箱賬號(hào)信息進(jìn)行比對(duì),如果發(fā)件人信息屬于黑名單郵箱賬號(hào)信息,則判定該郵件為垃圾郵件;如果發(fā)件人信息不屬于黑名單郵箱賬號(hào)信息,則繼續(xù)判斷發(fā)件人是否為好友郵箱賬戶信息或用戶訂閱的公眾郵箱賬戶信息,如果是則判定郵件為正常郵件,如果發(fā)件人信息也不屬于好友郵箱賬戶信息或者用戶訂閱的公眾郵箱賬戶信息,則將該郵件的主題及內(nèi)容送至郵件內(nèi)容處理模塊處理;
步驟4、郵件內(nèi)容處理模塊對(duì)收到郵件的主題及內(nèi)容后進(jìn)行識(shí)別,如果郵件內(nèi)容包含共性中文分詞或誘導(dǎo)性鏈接,則判定該郵件為垃圾郵件,否者判斷郵件為正常郵件。
優(yōu)選地,所述步驟4的實(shí)現(xiàn)過(guò)程包括以下步驟:
步驟4.1、郵件內(nèi)容處理模塊對(duì)郵件的主題及內(nèi)容進(jìn)行識(shí)別,獲得郵件內(nèi)容的文本分詞和郵件內(nèi)容含有的鏈接;
步驟4.2、郵件內(nèi)容處理模塊將郵件內(nèi)容含有的鏈接與誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)進(jìn)行比對(duì);如果郵件內(nèi)容含有的鏈接有一條鏈接為誘導(dǎo)性鏈接,則判定該郵件是垃圾郵件,并將該郵件中含有的、且不屬于誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)中的鏈接添加到誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)中,對(duì)誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)進(jìn)行更新;
將已知的垃圾郵件中文分詞數(shù)據(jù)庫(kù)中的中文分詞集合稱為共性中文分詞集合;郵件內(nèi)容處理模塊將郵件內(nèi)容的文本分詞與共性中文分詞集合進(jìn)行比對(duì);當(dāng)郵件內(nèi)容的文本分詞符合共性中文分詞集合的數(shù)量達(dá)到設(shè)定的分詞閾值時(shí),判斷郵件為垃圾郵件;
當(dāng)郵件內(nèi)容含有的鏈接均不含有誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)中的鏈接且郵件內(nèi)容的文本分詞符合共性中文分詞集合的數(shù)量低于設(shè)定的分詞閾值時(shí),判斷郵件為正常郵件。
優(yōu)選地,步驟4中所述的誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)是網(wǎng)絡(luò)中安全軟件(例如殺毒軟件)或郵件服務(wù)器已經(jīng)發(fā)現(xiàn)所有的垃圾郵件中包含的鏈接集合。
優(yōu)選地,步驟4中所述的共性中文分詞集合是網(wǎng)絡(luò)中安全軟件(例如殺毒軟件)或郵件服務(wù)器已經(jīng)發(fā)現(xiàn)所有的垃圾郵件的分詞集合。
本發(fā)明具有以下有益效果:
本發(fā)明不但能夠基于用戶的個(gè)性化設(shè)置信息對(duì)垃圾郵件進(jìn)行判斷,提高用戶的體驗(yàn);同時(shí)能夠?qū)τ脩粼O(shè)置中沒(méi)有設(shè)置信息的郵件盡心判斷,提高了接收新垃圾郵件屏蔽過(guò)濾概率。相比現(xiàn)有的完全基于用戶個(gè)性化設(shè)置信息對(duì)垃圾郵件判斷方法,本發(fā)明能夠?qū)⑸虡I(yè)推廣等垃圾郵件的屏蔽概率提高50%以上。
附圖說(shuō)明
圖1為本發(fā)明的方法流程示意圖。
具體實(shí)施方式
具體實(shí)施方式一:
一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過(guò)濾系統(tǒng),包括:
郵箱個(gè)性化設(shè)置模塊,用于獲取用戶郵箱的個(gè)性化設(shè)置,包括好友郵箱信息、訂閱賬號(hào)信息和黑名單郵箱賬號(hào)信息;
郵件預(yù)處理模塊,用于將新接收的郵件進(jìn)行解析,獲取郵件收件人信息、發(fā)件人信息和郵件的主題及內(nèi)容;
垃圾郵件初步判斷模塊,根據(jù)郵箱個(gè)性化設(shè)置模塊的信息和郵件預(yù)處理模塊的信息,對(duì)郵件進(jìn)行初步過(guò)濾;
郵件內(nèi)容處理模塊,用于對(duì)垃圾郵件初步判斷模塊過(guò)濾后的郵件進(jìn)行行識(shí)別,根據(jù)郵件內(nèi)容是否包含共性中文分詞或誘導(dǎo)性鏈接,從而判斷郵件是否為垃圾郵件。
具體實(shí)施方式二:
本實(shí)施方式所述的一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過(guò)濾系統(tǒng),還包括誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)和垃圾郵件中文分詞數(shù)據(jù)庫(kù);所述的誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)是經(jīng)過(guò)對(duì)網(wǎng)絡(luò)中已知垃圾郵件(并非針對(duì)本郵箱收到的,是針對(duì)網(wǎng)絡(luò)中已經(jīng)發(fā)現(xiàn)所有的垃圾郵件)提取鏈接信息;所述的垃圾郵件中文分詞數(shù)據(jù)庫(kù)是經(jīng)過(guò)對(duì)網(wǎng)絡(luò)中已知垃圾郵件(并非針對(duì)本郵箱收到的,是針對(duì)網(wǎng)絡(luò)中已經(jīng)發(fā)現(xiàn)所有的垃圾郵件)進(jìn)行中文分詞處理后獲得的中文分詞集合,稱為共性中文分詞集合;誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)和垃圾郵件中文分詞數(shù)據(jù)庫(kù)用于對(duì)郵件內(nèi)容處理模塊中的含有的鏈接和文本分詞進(jìn)行比對(duì),判斷收到的郵件是否為垃圾郵件。
其他模塊和功能與具體實(shí)施方式一相同。
具體實(shí)施方式三:結(jié)合圖1說(shuō)明本實(shí)施方式,
一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過(guò)濾方法,包括以下步驟:
步驟1、用戶新收到的郵件后,郵箱個(gè)性化設(shè)置模塊獲取用戶郵箱中設(shè)置的黑名單郵箱賬號(hào)、用戶的好友郵箱賬戶信息、用戶訂閱的公眾郵箱賬戶信息;
步驟2、郵件預(yù)處理模塊將新收到的郵件進(jìn)行處理,獲取收件人信息、發(fā)件人信息和郵件的主題及內(nèi)容(SMTP,POP3協(xié)議很容易獲取到這些內(nèi)容);收件人信息包括郵件發(fā)送方發(fā)送時(shí)對(duì)應(yīng)所有收信人的數(shù)量,即郵件的收信人很多,收件人信息包括這些收信人的數(shù)量;
步驟3、垃圾郵件初步判斷模塊內(nèi)設(shè)置收件人閾值;垃圾郵件初步判斷模塊首先獲取包含有郵件發(fā)送方發(fā)送時(shí)對(duì)應(yīng)所有收信人的數(shù)量的收件人信息,并將收信人的數(shù)量與所述的收件人閾值(例如將閾值設(shè)置為50)進(jìn)行比較;
如果收信人的數(shù)量大于等于收件人閾值,那么這份郵件很符合商業(yè)推廣、廣告郵件等垃圾郵件的某些特征,則將該郵件的主題及內(nèi)容發(fā)送至郵件內(nèi)容處理模塊進(jìn)行處理;
如果收信人的數(shù)量小于收件人閾值,則將發(fā)件人信息與郵箱個(gè)性化設(shè)置模塊獲取的黑名單郵箱賬號(hào)信息進(jìn)行比對(duì),如果發(fā)件人信息屬于黑名單郵箱賬號(hào)信息,則判定該郵件為垃圾郵件;如果發(fā)件人信息不屬于黑名單郵箱賬號(hào)信息,則繼續(xù)判斷發(fā)件人是否為好友郵箱賬戶信息或用戶訂閱的公眾郵箱賬戶信息,如果是則判定郵件為正常郵件,如果發(fā)件人信息也不屬于好友郵箱賬戶信息或者用戶訂閱的公眾郵箱賬戶信息,則將該郵件的主題及內(nèi)容送至郵件內(nèi)容處理模塊處理;
步驟4、郵件內(nèi)容處理模塊對(duì)收到郵件的主題及內(nèi)容后進(jìn)行識(shí)別,如果郵件內(nèi)容包含共性中文分詞或誘導(dǎo)性鏈接,則判定該郵件為垃圾郵件,否者判斷郵件為正常郵件。
具體實(shí)施方式四:
本實(shí)施方式所述步驟4的實(shí)現(xiàn)過(guò)程包括以下步驟:
步驟4.1、郵件內(nèi)容處理模塊對(duì)郵件的主題及內(nèi)容進(jìn)行識(shí)別,獲得郵件內(nèi)容的文本分詞和郵件內(nèi)容含有的鏈接;
步驟4.2、郵件內(nèi)容處理模塊將郵件內(nèi)容含有的鏈接與誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)進(jìn)行比對(duì);如果郵件內(nèi)容含有的鏈接有一條鏈接為誘導(dǎo)性鏈接,則判定該郵件是垃圾郵件,并將該郵件中含有的、且不屬于誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)中的鏈接添加到誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)中,對(duì)誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)進(jìn)行更新;
將已知的垃圾郵件中文分詞數(shù)據(jù)庫(kù)中的中文分詞集合稱為共性中文分詞集合;郵件內(nèi)容處理模塊將郵件內(nèi)容的文本分詞與共性中文分詞集合進(jìn)行比對(duì);當(dāng)郵件內(nèi)容的文本分詞符合共性中文分詞集合的數(shù)量達(dá)到設(shè)定的分詞閾值時(shí),判斷郵件為垃圾郵件;
當(dāng)郵件內(nèi)容含有的鏈接均不含有誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)中的鏈接且郵件內(nèi)容的文本分詞符合共性中文分詞集合的數(shù)量低于設(shè)定的分詞閾值時(shí),判斷郵件為正常郵件。
其他模塊和步驟與具體實(shí)施方式三相同。
具體實(shí)施方式五:
本實(shí)施方式所述步驟4中所述的誘導(dǎo)性鏈接數(shù)據(jù)庫(kù)是網(wǎng)絡(luò)中安全軟件(例如殺毒軟件)或郵件服務(wù)器已經(jīng)發(fā)現(xiàn)所有的垃圾郵件中包含的鏈接集合。
其他模塊和步驟與具體實(shí)施方式三或四相同。
具體實(shí)施方式六:
本實(shí)施方式所述步驟4中所述的共性中文分詞集合是網(wǎng)絡(luò)中安全軟件(例如殺毒軟件)或郵件服務(wù)器已經(jīng)發(fā)現(xiàn)所有的垃圾郵件的分詞集合。
其他模塊和步驟與具體實(shí)施方式三至五之一相同。