一種基于用戶反饋的垃圾郵件檢測方法
【專利摘要】本發(fā)明提出了一種基于用戶反饋的垃圾郵件檢測方法,該方法首先收集用戶反饋信息,用來更新垃圾郵件數(shù)據(jù)庫;然后提取郵件的發(fā)件人郵箱號,判斷該郵箱號或者它所在郵箱服務器的可信度是否小于某一閾值,若是,則認為該郵件為垃圾郵件;否則,提取郵件內(nèi)容的簽名;通過與數(shù)據(jù)庫中已知垃圾郵件計算漢明距離,若距離小于某一閾值,則認為該郵件為垃圾郵件;否則,認為該郵件為正常郵件;它包括收集用戶反饋信息、讀取郵件、判斷發(fā)件人郵箱號是否為垃圾制造者、獲取郵件內(nèi)容簽名、檢測郵件內(nèi)容是否為垃圾郵件等步驟。本發(fā)明可提高垃圾郵件的識別范圍和準確度,具有識別范圍廣、準確度高、自學習能力強等特點。
【專利說明】一種基于用戶反饋的垃圾郵件檢測方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及ー種電子郵件的處理方法,特別是涉及ー種基于用戶反饋的垃圾郵件檢測方法。
【背景技術(shù)】
[0002]電子郵件是ー種用電子手段提供信息交換的通信方式,是Internet應用最廣泛的服務之一。隨著網(wǎng)絡(luò)電子郵件的日益普及,越來越多的帶有廣告性質(zhì)、政治目的和惡意連接的垃圾郵件數(shù)量也在急速增長,其中來自個人或者小単位的郵件服務器更成為垃圾郵件的主要來源。垃圾郵件的泛濫不僅給用戶造成極大的干擾,帶來不友好的用戶體驗,而且大量的垃圾郵件占用了巨大的網(wǎng)絡(luò)帶寬。目前,針對垃圾郵件的檢測已經(jīng)有了不少相關(guān)研究,主要分為基于黑白名單的過濾方法、基于規(guī)則的過濾方法和基于內(nèi)容的過濾方法。這三種方法都是在電子郵件層面對電子郵件的識別處理,對于制造垃圾郵件的個人或小単位的小型郵件服務器沒有有效的處理辦法,而且都忽視了用戶在檢測垃圾郵件中的重要作用。而目前垃圾郵件大量存在的事實也說明垃圾郵件處理策略還需要改進。
【發(fā)明內(nèi)容】
[0003]本發(fā)明要解決的技術(shù)問題是:提供一種基于用戶反饋的垃圾郵件檢測方法,以解決現(xiàn)有技術(shù)中存在的忽視用戶反饋而造成垃圾郵件識別準確度欠缺、識別范圍小以及對小型垃圾郵件服務器無力的不足之處。
[0004]為解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案是:
[0005]一種基于用戶反饋的垃圾郵件檢測方法,所述方法包括如下步驟:
[0006]S1、收集用戶反饋信息,更新垃圾郵件數(shù)據(jù)庫;
[0007]S2、接收郵件:接收全部的郵件數(shù)據(jù),分別對每一封郵件處理,轉(zhuǎn)向步驟S3 ;
[0008]S3、獲取發(fā)件人郵箱號及所屬郵箱服務器,并根據(jù)數(shù)據(jù)庫中可信度判斷是否為垃圾郵件制造者:
[0009]根據(jù)郵箱服務器預先設(shè)定好的可信度閾值e,若是可信度小于e,則轉(zhuǎn)向步驟S6 ;若否,則轉(zhuǎn)向步驟S4,所述可信度閾值0 —般取0.2?0.8 ;
[0010]S4、獲取郵件內(nèi)容的簽名:
[0011]根據(jù)郵件內(nèi)容的文本特征集,采用SMHASH算法生成該郵件的簽名
算法的計算公式為:S = SMHASH(MAIL-TEXT),其中SMHASH表示SMHASH算法,MAIL TEXT表示郵件內(nèi)容中的文本特征集和權(quán)重信息,S為輸出的64位的郵件簽名;
[0012]S5、檢測郵件內(nèi)容是否為垃圾郵件:
[0013]根據(jù)步驟S4得到的郵件內(nèi)容簽名S,通過與數(shù)據(jù)庫中已知垃圾郵件計算漢明距離,當簽名差距小于預先設(shè)定好的某ー閾值U吋,則認為當前郵件與已知垃圾郵件相似,從而斷定其為垃圾郵件;否則,認為當前郵件為正常郵件,所述U —般取3 ;
[0014]S6、處理郵件:[0015]根據(jù)前面步驟的判斷,如果當前郵件為垃圾郵件,則根據(jù)收件人預先設(shè)定好的策略進行處理;如果為正常郵件,則將其放入收件箱未讀郵件中。
[0016]本發(fā)明的再進ー步技術(shù)方案是:所述的步驟S1、收集用戶反饋信息包括如下步驟:
[0017]S1.1、用戶登錄郵箱,記錄用戶對每封郵件的操作日志;
[0018]S1.2、判斷用戶對未讀郵件的操作:
[0019]當用戶登錄郵箱后,監(jiān)聽用戶的操作,如果用戶打開了未讀郵件,則期待用戶的后續(xù)操作,轉(zhuǎn)向步驟S1.3:如果用戶刪除了未讀郵件,則認為該郵件為垃圾郵件,轉(zhuǎn)向步驟S1.7:
[0020]S1.3、用戶是否評級:
[0021]如果用戶對郵件進行評級,則轉(zhuǎn)向步驟S1.4 ;否則,則轉(zhuǎn)向步驟S1.5 ;
[0022]S1.4、用戶評級處理:
[0023]如果用戶給與郵件差評,則認為是垃圾郵件,轉(zhuǎn)入步驟S1.7 ;否則,認為是正常郵件,轉(zhuǎn)入步驟S1.6 ;
[0024]S1.5、根據(jù)用戶對該郵件的操作響應判斷是否為垃圾郵件:
[0025]檢查當前郵件的操作日志,如果發(fā)現(xiàn)操作順序為“打開、查閱時間過短、刪除”,則認為當前郵件為垃圾郵件;否則,則認為當前郵件為正常郵件;所述操作“查閱時間”是指查閱時間t小于預先設(shè)定好的閾值小,所述查閱時間t是指用戶打開郵件并且活動窗ロ為郵件所在窗ロ所持續(xù)的時間,所述小一般取0.1ms?2s:
[0026]S1.6、正常郵件處理:
[0027]檢索垃圾郵件數(shù)據(jù)庫,查看該郵件是否存在數(shù)據(jù)庫中,如果存在,好評數(shù)增加1,分別重新計算該郵件發(fā)件人、郵箱服務器和郵件內(nèi)容的可信度b ;否則,則結(jié)束。所述可信度b的計算公式為:b = good/total,其中g(shù)ood為好評數(shù),total為好評數(shù)與差評數(shù)的總和。
[0028]S1.7、垃圾郵件處理:
[0029]檢索垃圾郵件數(shù)據(jù)庫,查看該郵件是否存在數(shù)據(jù)庫中,如果存在,差評數(shù)增加1,分別重新計算該郵件發(fā)件人、郵箱服務器和郵件內(nèi)容的可信度b ;否則,則在垃圾郵件數(shù)據(jù)庫中添加該郵件的信息。
[0030]作為本發(fā)明的一種優(yōu)選方案,垃圾郵件數(shù)據(jù)庫中的信息包含有:垃圾郵件發(fā)件人、垃圾郵件郵箱服務器、垃圾郵件內(nèi)容簽名以及它們各自的可信度。
[0031]作為本發(fā)明的一種優(yōu)選方案,垃圾郵件數(shù)據(jù)庫應能夠在可信郵件提供商間共享。
[0032]作為本發(fā)明的一種優(yōu)選方案,垃圾郵件數(shù)據(jù)庫的更新方式應包括本地收集用戶反饋的自我更新方式和從信任郵件服務器獲取數(shù)據(jù)的更新方式。
[0033]作為本發(fā)明的一種優(yōu)選方案,用戶反饋包括用戶對郵件評級、打開郵件、查閱郵件時間和刪除郵件操作。
[0034]作為本發(fā)明的一種優(yōu)選方案,用戶預先設(shè)定的策略應包括拒收垃圾郵件和設(shè)置用戶預設(shè)可信度。
[0035]作為本發(fā)明的一種優(yōu)選方案,用戶操作日志記錄的操作包括打開郵件、查閱時間和刪除郵件。
[0036]本發(fā)明的有益效果在干:本發(fā)明提出的基于用戶反饋的垃圾郵件檢測方法,保障了用戶反映在垃圾郵件檢測中重要的積極作用,能夠準確的檢測出垃圾郵件,識別范圍廣,并且能夠識別出小型垃圾郵件服務器,從而在服務器層面抵制垃圾郵件,更加高效。
【專利附圖】
【附圖說明】
[0037]圖1為本發(fā)明提供的基于用戶反饋的垃圾郵件檢測方法流程圖;
[0038]圖2為本發(fā)明提供的收集用戶反饋信息流程圖;
【具體實施方式】
[0039]下面結(jié)合附圖詳細說明本發(fā)明,其作為本說明書的一部分,通過實施例來說明本發(fā)明的原理,本發(fā)明的其他方面,特征及其優(yōu)點通過該詳細說明將會變得一目了然。
[0040]本發(fā)明提供的基于用戶反饋的垃圾郵件檢測方法的具體步驟(參見圖1)如下:
[0041]S1、收集用戶反饋信息,更新垃圾郵件數(shù)據(jù)庫;
[0042]S2、接收郵件:接收全部的郵件數(shù)據(jù),分別對每一封郵件處理,轉(zhuǎn)向步驟S3 ;
[0043]S3、獲取發(fā)件人郵箱號及所屬郵箱服務器,并根據(jù)數(shù)據(jù)庫中可信度判斷是否為垃圾郵件制造者:
[0044]根據(jù)郵箱服務器預先設(shè)定好的可信度閾值e,若是可信度小于e,則轉(zhuǎn)向步驟S6 ;若否,則轉(zhuǎn)向步驟S4,所述可信度閾值0 —般取0.2?0.8 ;
[0045]S4、獲取郵件內(nèi)容的簽名:
[0046]根據(jù)郵件內(nèi)容的文本特征集,采用SMHASH算法生成該郵件的簽名;所述SMHASH算法的計算公式為:S = SMHASH(MAIL_TEXT),其中 SMHASH 表示 SMHASH算法,MAIL_TEXT表示郵件內(nèi)容中的文本特征集和權(quán)重信息,S為輸出的64位的郵件簽名;
[0047]S5、檢測郵件內(nèi)容是否為垃圾郵件:
[0048]根據(jù)步驟S4得到的郵件內(nèi)容簽名S,通過與數(shù)據(jù)庫中已知垃圾郵件計算漢明距離,當簽名差距小于預先設(shè)定好的某ー閾值U吋,則認為當前郵件與已知垃圾郵件相似,從而斷定其為垃圾郵件;否則,認為當前郵件為正常郵件,所述U-般取3 ;
[0049]S6、處理郵件:
[0050]根據(jù)前面步驟的判斷,如果當前郵件為垃圾郵件,則根據(jù)收件人預先設(shè)定好的策略進行處理;如果為正常郵件,則將其放入收件箱未讀郵件中。
[0051]上述的步驟S1、收集用戶反饋信息包括如下步驟(參見圖2):
[0052]S1.1、用戶登錄郵箱,記錄用戶對每封郵件的操作日志;
[0053]S1.2、判斷用戶對未讀郵件的操作:
[0054]當用戶登錄郵箱后,監(jiān)聽用戶的操作,如果用戶打開了未讀郵件,則期待用戶的后續(xù)操作,轉(zhuǎn)向步驟S1.3:如果用戶刪除了未讀郵件,則認為該郵件為垃圾郵件,轉(zhuǎn)向步驟S1.7 ;
[0055]S1.3、用戶是否評級:
[0056]如果用戶對郵件進行評級,則轉(zhuǎn)向步驟S1.4 ;否則,則轉(zhuǎn)向步驟S1.5 ;
[0057]S1.4、用戶評級處理:
[0058]如果用戶給與郵件差評,則認為是垃圾郵件,轉(zhuǎn)入步驟S1.7 ;否則,認為是正常郵件,轉(zhuǎn)入步驟S1.6 ;[0059]S1.5、根據(jù)用戶對該郵件的操作響應判斷是否為垃圾郵件:
[0060]檢查當前郵件的操作日志,如果發(fā)現(xiàn)操作順序為“打開、查閱時間過短、刪除”,則認為當前郵件為垃圾郵件;否則,則認為當前郵件為正常郵件;所述操作“查閱時間”是指查閱時間t小于預先設(shè)定好的閾值小,所述查閱時間t是指用戶打開郵件并且活動窗ロ為郵件所在窗ロ所持續(xù)的時間,所述小一般取0.1ms?2s ;
[0061]S1.6、正常郵件處理:
[0062]檢索垃圾郵件數(shù)據(jù)庫,查看該郵件是否存在數(shù)據(jù)庫中,如果存在,好評數(shù)增加1,分別重新計算該郵件發(fā)件人、郵箱服務器和郵件內(nèi)容的可信度b ;否則,則結(jié)束。所述可信度b的計算公式為:b = good/total,其中g(shù)ood為好評數(shù),total為好評數(shù)與差評數(shù)的總和。
[0063]S1.7、垃圾郵件處理:
[0064]檢索垃圾郵件數(shù)據(jù)庫,查看該郵件是否存在數(shù)據(jù)庫中,如果存在,差評數(shù)增加1,分別重新計算該郵件發(fā)件人、郵箱服務器和郵件內(nèi)容的可信度b ;否則,則在垃圾郵件數(shù)據(jù)庫中添加該郵件的信息。
[0065]本發(fā)明提供的一種基于用戶反饋的垃圾郵件檢測方法,能夠根據(jù)用戶對于郵件的反饋信息判斷郵件是否為垃圾郵件,并且能夠識別出垃圾郵件服務器,從而更加高效、準確地抵制垃圾郵件。
[0066]以上所揭露的僅為本發(fā)明的優(yōu)選實施例而已,當然不能以此來限定本發(fā)明之權(quán)利范圍,因此依本發(fā)明申請專利范圍所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。
【權(quán)利要求】
1.一種基于用戶反饋的垃圾郵件檢測方法,其特征在于,該方法包括如下步驟: 51、收集用戶反饋信息,更新垃圾郵件數(shù)據(jù)庫; 52、接收郵件:接收全部的郵件數(shù)據(jù),分別對每一封郵件處理,轉(zhuǎn)向步驟S3; 53、獲取發(fā)件人郵箱號及所屬郵箱服務器,并根據(jù)數(shù)據(jù)庫中可信度判斷是否為垃圾郵件制造者: 根據(jù)郵箱服務器預先設(shè)定好的可信度閾值e,若是可信度小于0,則轉(zhuǎn)向步驟36;若否,則轉(zhuǎn)向步驟S4,所述可信度閾值0 —般取0.2~0.8; 54、獲取郵件內(nèi)容的簽名: 根據(jù)郵件內(nèi)容的文本特征集,采用SMHASH算法生成該郵件的簽名;所述SMHASH算法的計算公式為:S = SMHASH(MAIL_TEXT),其中 SMHASH 表示 SMHASH 算法,MAIL-TEXT 表示郵件內(nèi)容中的文本特征集和權(quán)重信息,S為輸出的64位的郵件簽名; 55、檢測郵件內(nèi)各是否為垃圾郵件: 根據(jù)步驟S4得到的郵 件內(nèi)容簽名S,通過與數(shù)據(jù)庫中已知垃圾郵件計算漢明距離,當簽名差距小于預先設(shè)定好的某ー閾值U吋,則認為當前郵件與已知垃圾郵件相似,從而斷定其為垃圾郵件;否則,認為當前郵件為正常郵件,所述U —般取3; 56、處理郵件: 根據(jù)前面步驟的判斷,如果當前郵件為垃圾郵件,則根據(jù)收件人預先設(shè)定好的策略進行處理;如果為正常郵件,則將其放入收件箱未讀郵件中。
2.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測方法,其特征在于,所述的步驟S1、收集用戶反饋信息包括如下步驟: S1.1、用戶登錄郵箱,記錄用戶對每封郵件的操作日志; S1.2、判斷用戶對未讀郵件的操作: 當用戶登錄郵箱后,監(jiān)聽用戶的操作,如果用戶打開了未讀郵件,則期待用戶的后續(xù)操作,轉(zhuǎn)向步驟S1.3:如果用戶刪除了未讀郵件,則認為該郵件為垃圾郵件,轉(zhuǎn)向步驟S1.7 ; S1.3、用戶是否評級: 如果用戶對郵件進行評級,則轉(zhuǎn)向步驟S1.4 ;否則,則轉(zhuǎn)向步驟S1.5 ; S1.4、用戶評級處理: 如果用戶給與郵件差評,則認為是垃圾郵件,轉(zhuǎn)入步驟S1.7;否則,認為是正常郵件,轉(zhuǎn)入步驟S1.6 ; S1.5、根據(jù)用戶對該郵件的操作響應判斷是否為垃圾郵件: 檢查當前郵件的操作日志,如果發(fā)現(xiàn)操作順序為“打開、查閱時間過短、刪除”,則認為當前郵件為垃圾郵件;否則,則認為當前郵件為正常郵件;所述操作“查閱時間”是指查閱時間t小于預先設(shè)定好的閾值小,所述查閱時間t是指用戶打開郵件并且活動窗ロ為郵件所在窗ロ所持續(xù)的時間,所述小一般取0.1ms~2s ; S1.6、正常郵件處理: 檢索垃圾郵件數(shù)據(jù)庫,查看該郵件是否存在數(shù)據(jù)庫中,如果存在,好評數(shù)增加1,分別重新計算該郵件發(fā)件人、郵箱服務器和郵件內(nèi)容的可信度b ;否則,則結(jié)束。所述可信度b的計算公式為:b = good/total,其中g(shù)ood為好評數(shù),total為好評數(shù)與差評數(shù)的總和。 S1.7、垃圾郵件處理:檢索垃圾郵件數(shù)據(jù)庫,查看該郵件是否存在數(shù)據(jù)庫中,如果存在,差評數(shù)增加1,分別重新計算該郵件發(fā)件人、郵箱服務器和郵件內(nèi)容的可信度b ;否則,則在垃圾郵件數(shù)據(jù)庫中添加該郵件的信息。
3.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測方法,其特征在于,所述的垃圾郵件數(shù)據(jù)庫中的信息包含有:垃圾郵件發(fā)件人、垃圾郵件郵箱服務器、垃圾郵件內(nèi)容簽名以及它們各自的可信度。
4.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測方法,其特征在于,所述的垃圾郵件數(shù)據(jù)庫應能夠在可信郵件提供商間共享。
5.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測方法,其特征在于,所述的垃圾郵件數(shù)據(jù)庫的更新方式應包括本地收集用戶反饋的自我更新方式和從信任郵件服務器獲取數(shù)據(jù)的更新方式。
6.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測方法,其特征在于,所述的用戶反饋包括用戶對郵件評級、打開郵件、查閱郵件時間和刪除郵件操作。
7.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測方法,其特征在于,所述的用戶預先設(shè)定的策略應包括拒收垃圾郵件和設(shè)置用戶預設(shè)可信度。
8.根據(jù)權(quán)利要求1所述的基于用戶反饋的垃圾郵件檢測方法,其特征在于,所述的用戶操作日志記錄的操作包括打開郵件、查閱時間和刪除郵件。
【文檔編號】H04L29/06GK103595614SQ201210290542
【公開日】2014年2月19日 申請日期:2012年8月16日 優(yōu)先權(quán)日:2012年8月16日
【發(fā)明者】李朋飛, 崔可想, 耿振民, 楊磊, 戴偉強 申請人:無錫華御信息技術(shù)有限公司