1.一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過濾系統(tǒng),其特征在于,包括:
郵箱個(gè)性化設(shè)置模塊,用于獲取用戶郵箱的個(gè)性化設(shè)置,包括好友郵箱信息、訂閱賬號(hào)信息和黑名單郵箱賬號(hào)信息;
郵件預(yù)處理模塊,用于將新接收的郵件進(jìn)行解析,獲取郵件收件人信息、發(fā)件人信息和郵件的主題及內(nèi)容;
垃圾郵件初步判斷模塊,根據(jù)郵箱個(gè)性化設(shè)置模塊的信息和郵件預(yù)處理模塊的信息,對(duì)郵件進(jìn)行初步過濾;
郵件內(nèi)容處理模塊,用于對(duì)垃圾郵件初步判斷模塊過濾后的郵件進(jìn)行行識(shí)別,根據(jù)郵件內(nèi)容是否包含共性中文分詞或誘導(dǎo)性鏈接,從而判斷郵件是否為垃圾郵件。
2.根據(jù)權(quán)利要求1所述的一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過濾系統(tǒng),其特征在于,還包括誘導(dǎo)性鏈接數(shù)據(jù)庫和垃圾郵件中文分詞數(shù)據(jù)庫;所述的誘導(dǎo)性鏈接數(shù)據(jù)庫是經(jīng)過對(duì)網(wǎng)絡(luò)中已知垃圾郵件提取鏈接信息;所述的垃圾郵件中文分詞數(shù)據(jù)庫是經(jīng)過對(duì)網(wǎng)絡(luò)中已知垃圾郵件進(jìn)行中文分詞處理后獲得的中文分詞集合,稱為共性中文分詞集合;誘導(dǎo)性鏈接數(shù)據(jù)庫和垃圾郵件中文分詞數(shù)據(jù)庫用于對(duì)郵件內(nèi)容處理模塊中的含有的鏈接和文本分詞進(jìn)行比對(duì),判斷收到的郵件是否為垃圾郵件。
3.一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過濾方法,其特征在于,包括以下步驟:
步驟1、用戶新收到的郵件后,郵箱個(gè)性化設(shè)置模塊獲取用戶郵箱中設(shè)置的黑名單郵箱賬號(hào)、用戶的好友郵箱賬戶信息、用戶訂閱的公眾郵箱賬戶信息;
步驟2、郵件預(yù)處理模塊將新收到的郵件進(jìn)行處理,獲取收件人信息、發(fā)件人信息和郵件的主題及內(nèi)容;收件人信息包括郵件發(fā)送方發(fā)送時(shí)對(duì)應(yīng)所有收信人的數(shù)量;
步驟3、垃圾郵件初步判斷模塊內(nèi)設(shè)置收件人閾值;垃圾郵件初步判斷模塊首先獲取包含有郵件發(fā)送方發(fā)送時(shí)對(duì)應(yīng)所有收信人的數(shù)量的收件人信息,并將收信人的數(shù)量與所述的收件人閾值進(jìn)行比較;
如果收信人的數(shù)量大于等于收件人閾值,則將該郵件的主題及內(nèi)容發(fā)送至郵件內(nèi)容處理模塊進(jìn)行處理;
如果收信人的數(shù)量小于收件人閾值,則將發(fā)件人信息與郵箱個(gè)性化設(shè)置模塊獲取的黑名單郵箱賬號(hào)信息進(jìn)行比對(duì),如果發(fā)件人信息屬于黑名單郵箱賬號(hào)信息,則判定該郵件為垃圾郵件;如果發(fā)件人信息不屬于黑名單郵箱賬號(hào)信息,則繼續(xù)判斷發(fā)件人是否為好友郵箱賬戶信息或用戶訂閱的公眾郵箱賬戶信息,如果是則判定郵件為正常郵件,如果發(fā)件人信息也不屬于好友郵箱賬戶信息或者用戶訂閱的公眾郵箱賬戶信息,則將該郵件的主題及內(nèi)容送至郵件內(nèi)容處理模塊處理;
步驟4、郵件內(nèi)容處理模塊對(duì)收到郵件的主題及內(nèi)容后進(jìn)行識(shí)別,如果郵件內(nèi)容包含共性中文分詞或誘導(dǎo)性鏈接,則判定該郵件為垃圾郵件,否者判斷郵件為正常郵件。
4.根據(jù)權(quán)利要求3所述的一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過濾方法,其特征在于,所述步驟4的實(shí)現(xiàn)過程包括以下步驟:
步驟4.1、郵件內(nèi)容處理模塊對(duì)郵件的主題及內(nèi)容進(jìn)行識(shí)別,獲得郵件內(nèi)容的文本分詞和郵件內(nèi)容含有的鏈接;
步驟4.2、郵件內(nèi)容處理模塊將郵件內(nèi)容含有的鏈接與誘導(dǎo)性鏈接數(shù)據(jù)庫進(jìn)行比對(duì);如果郵件內(nèi)容含有的鏈接有一條鏈接為誘導(dǎo)性鏈接,則判定該郵件是垃圾郵件,并將該郵件中含有的、且不屬于誘導(dǎo)性鏈接數(shù)據(jù)庫中的鏈接添加到誘導(dǎo)性鏈接數(shù)據(jù)庫中,對(duì)誘導(dǎo)性鏈接數(shù)據(jù)庫進(jìn)行更新;
將已知的垃圾郵件中文分詞數(shù)據(jù)庫中的中文分詞集合稱為共性中文分詞集合;郵件內(nèi)容處理模塊將郵件內(nèi)容的文本分詞與共性中文分詞集合進(jìn)行比對(duì);當(dāng)郵件內(nèi)容的文本分詞符合共性中文分詞集合的數(shù)量達(dá)到設(shè)定的分詞閾值時(shí),判斷郵件為垃圾郵件;
當(dāng)郵件內(nèi)容含有的鏈接均不含有誘導(dǎo)性鏈接數(shù)據(jù)庫中的鏈接且郵件內(nèi)容的文本分詞符合共性中文分詞集合的數(shù)量低于設(shè)定的分詞閾值時(shí),判斷郵件為正常郵件。
5.根據(jù)權(quán)利要求3或4所述的一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過濾方法,其特征在于,步驟4中所述的誘導(dǎo)性鏈接數(shù)據(jù)庫是網(wǎng)絡(luò)中安全軟件或郵件服務(wù)器已經(jīng)發(fā)現(xiàn)所有的垃圾郵件中包含的鏈接集合。
6.根據(jù)權(quán)利要求3或4所述的一種基于用戶個(gè)性化設(shè)置的垃圾郵件的過濾方法,其特征在于,步驟4中所述的共性中文分詞集合是網(wǎng)絡(luò)中安全軟件或郵件服務(wù)器已經(jīng)發(fā)現(xiàn)所有的垃圾郵件的分詞集合。