基于用戶興趣的垃圾郵件過(guò)濾方法

文檔序號(hào)：6585232閱讀：211來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：基于用戶興趣的垃圾郵件過(guò)濾方法
技術(shù)領(lǐng)域：
本發(fā)明涉及網(wǎng)絡(luò)安全領(lǐng)域，尤其涉及一種基于用戶興趣的垃圾郵件過(guò)濾方法。
背景技術(shù)：
鑒于垃圾郵件所引發(fā)的嚴(yán)重社會(huì)問題，近年來(lái)，反垃圾郵件策略受到了前所未有的關(guān)注。許多學(xué)者將研究焦點(diǎn)集中于自動(dòng)化的垃圾郵件的檢測(cè)和過(guò)濾，提出了許多方法，如黑名單，機(jī)器學(xué)習(xí)(包括NaiVe Bayes， Support Vector Machine, Neural Network, Boosting Trees等)。為了給用戶提供垃圾郵件過(guò)濾服務(wù)，郵件服務(wù)提供商將這些過(guò)濾垃圾郵件的方法應(yīng)用在服務(wù)器級(jí)別進(jìn)行相應(yīng)的處理工作，然而他們的效果卻并不盡如人意。其中一個(gè)最主要的問題是，現(xiàn)有的垃圾郵件檢測(cè)服務(wù)器部署并不區(qū)分不同用戶的興趣，無(wú)法為各用戶保存各自獨(dú)立的運(yùn)行參數(shù)與配置，更無(wú)法適應(yīng)用戶興趣的變化。現(xiàn)有的服務(wù)器上部署垃圾郵件檢測(cè)技術(shù)為所有的用戶保存統(tǒng)一的垃圾郵件檢測(cè) 參數(shù)，提供一致的模型。然而，這種實(shí)現(xiàn)方案無(wú)法滿足用戶興趣不同(對(duì)垃圾郵件和正常郵件的不同定義)和用戶興趣變化的情形。 —方面，現(xiàn)有的郵件服務(wù)器實(shí)現(xiàn)技術(shù)無(wú)法滿足用戶不同的用戶需求。在現(xiàn)實(shí)生活中，用戶的興趣并不盡相同。例如對(duì)同一包含招聘信息的郵件來(lái)說(shuō)，用戶甲會(huì)認(rèn)定其為正常郵件，因?yàn)樗谡夜ぷ?。而用戶乙則會(huì)由于不需要這些信息而認(rèn)定其為垃圾郵件。在這種情形下，若對(duì)服務(wù)器上所有的用戶提供統(tǒng)一的參數(shù)設(shè)置和統(tǒng)一的檢測(cè)模型，那么服務(wù) 器必然會(huì)給某些用戶提供錯(cuò)誤的垃圾郵件檢測(cè)信息。若服務(wù)器通過(guò)檢測(cè)判定那個(gè)郵件為垃圾郵件，則會(huì)給用戶甲提供錯(cuò)誤檢測(cè)信息，用戶甲的該正常郵件將被服務(wù)器當(dāng)作垃圾郵件過(guò)濾；反之，服務(wù)器將會(huì)給用戶乙提供錯(cuò)誤信息，不能為用戶乙有效地對(duì)該郵件進(jìn)行過(guò)濾。
另一方面，現(xiàn)有的郵件服務(wù)器實(shí)現(xiàn)技術(shù)不能適應(yīng)用戶興趣的變化。由于現(xiàn)有技術(shù) 對(duì)所有用戶進(jìn)行統(tǒng)一的檢測(cè)參數(shù)設(shè)置，所以當(dāng)某些郵件用戶的興趣(對(duì)垃圾郵件的定義) 發(fā)生改變時(shí)，服務(wù)器不能根據(jù)這些用戶的興趣進(jìn)行調(diào)整，否則將對(duì)其他用戶帶來(lái)負(fù)面影響 (因?yàn)樗麄兊呐d趣并未變化，故參數(shù)的調(diào)整反而會(huì)導(dǎo)致檢測(cè)性能的下降)。

發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足，提供了一種新的基于用戶興趣的垃圾郵件過(guò)濾方法，該方法通過(guò)為每個(gè)用戶保存各自獨(dú)立的參數(shù)設(shè)置(對(duì)應(yīng)的各自獨(dú)立的分類器模型)，從而根據(jù)用戶興趣的不同，為他們產(chǎn)生相應(yīng)的郵件分類結(jié)果。而且，該方案能檢測(cè)各用戶興趣的變化，并根據(jù)變化及時(shí)地調(diào)整各相應(yīng)的分類器模型。當(dāng)只有某些用戶的興趣發(fā)生變化時(shí)，該方案將調(diào)整這些用戶相對(duì)應(yīng)的模型，從而進(jìn)行再訓(xùn)練和重新分類。為達(dá)到上述目的，本發(fā)明提供了一種基于用戶興趣的垃圾郵件過(guò)濾方法，包括以下步驟 Sl，各用戶收到郵件后，對(duì)備用戶的郵件分別進(jìn)行解析，得到郵件的標(biāo)題、正文和收件人與發(fā)件人地址，其中收件人地址用于選擇和確定其相對(duì)應(yīng)的檢測(cè)器集和分類器模型； S2，將郵件的標(biāo)題和正文進(jìn)行分詞，根據(jù)分詞后的郵件的標(biāo)題和正文、檢測(cè)器集生成特征向量，通過(guò)在每個(gè)用戶各自的訓(xùn)練集上訓(xùn)練，為每個(gè)用戶生成各自獨(dú)立的分類器模型，在收到新郵件時(shí)根據(jù)各用戶相應(yīng)的分類器模型對(duì)郵件進(jìn)行分類，當(dāng)檢測(cè)到用戶興趣發(fā) 生變化時(shí)，對(duì)相應(yīng)用戶的分類器模型用郵件進(jìn)行再訓(xùn)練，所述用戶興趣通過(guò)用戶對(duì)垃圾郵件的定義進(jìn)行設(shè)置來(lái)體現(xiàn)。所述分類器模型為支持向量機(jī)組(即多個(gè)支持向量機(jī))。當(dāng)用戶興趣發(fā)生變化時(shí)，采用由多個(gè)支持向量機(jī)所組成的滑動(dòng)窗對(duì)檢測(cè)器集和特征向量進(jìn)行更新。所述步驟S2中對(duì)郵件進(jìn)行再訓(xùn)練的步驟具體為采用由多個(gè)支持向量機(jī)所組成的滑動(dòng)窗，以及新郵件對(duì)用戶的分類器模型進(jìn)行再訓(xùn)練，并依次調(diào)整每個(gè)用戶相應(yīng)的支持向量機(jī)組和檢測(cè)器集。
所述步驟S2中對(duì)郵件進(jìn)行分類的步驟具體為將所述特征向量輸入通過(guò)收件人
地址確定的用戶相對(duì)應(yīng)的支持向量機(jī)組，返回的分類結(jié)果即決定該郵件的分類。
上述技術(shù)方案具有如下優(yōu)點(diǎn)通過(guò)對(duì)每個(gè)用戶設(shè)置不同的分類器參數(shù)、保存不同
的分類器模型，能夠提高垃圾郵件檢測(cè)的整體性能；通過(guò)使用由多個(gè)支持向量機(jī)所組成的
滑動(dòng)窗還能夠有效地檢測(cè)用戶興趣的變化，并在檢測(cè)到用戶興趣的變化后，對(duì)相應(yīng)用戶的
分類器模型進(jìn)行再訓(xùn)練，以自適應(yīng)用戶需求的變化。

圖1為本發(fā)明實(shí)施例的方法的流程圖。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例，對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步詳細(xì)描述。以下實(shí)施例用于說(shuō)明本發(fā)明，但不用來(lái)限制本發(fā)明的范圍。如圖1所示，依據(jù)本發(fā)明實(shí)施例的一種基于用戶興趣的垃圾郵件的過(guò)濾方法，包括以下步驟 Sl，各用戶收到郵件后，對(duì)各用戶的郵件分別進(jìn)行解析，得到郵件的標(biāo)題、正文和收件人與發(fā)件人地址，其中收件人地址用于選擇和確定其相對(duì)應(yīng)的檢測(cè)器集和分類器模型； S2，將郵件的標(biāo)題和正文進(jìn)行分詞，根據(jù)分詞后的郵件的標(biāo)題和正文、檢測(cè)器集生
成特征向量，通過(guò)在每個(gè)用戶各自的訓(xùn)練集上訓(xùn)練，為每個(gè)用戶生成各自獨(dú)立的分類器模
型，在收到新郵件時(shí)根據(jù)各用戶相應(yīng)的分類器模型對(duì)郵件進(jìn)行分類，當(dāng)檢測(cè)到用戶興趣發(fā)
生變化時(shí)，對(duì)相應(yīng)用戶的分類器模型對(duì)郵件進(jìn)行再訓(xùn)練，所述用戶興趣通過(guò)用戶對(duì)垃圾郵
件的定義進(jìn)行設(shè)置來(lái)體現(xiàn)。所述分類器模型為支持向量機(jī)組。當(dāng)用戶興趣發(fā)生變化時(shí)，使用由多個(gè)支持向量機(jī)所組成的滑動(dòng)窗對(duì)檢測(cè)器集和特征向量進(jìn)行更新。
所述步驟S2中對(duì)郵件進(jìn)行再訓(xùn)練的步驟具體為采用由多個(gè)支持向量機(jī)所組成的滑動(dòng)窗，以及新郵件對(duì)用戶的分類器模型進(jìn)行再訓(xùn)練，并依次調(diào)整每個(gè)用戶相應(yīng)的支持向量機(jī)組和檢測(cè)器集來(lái)完成。
所述步驟S2中對(duì)郵件進(jìn)行分類的步驟具體為將所述特征向量輸入通過(guò)收件人
地址確定的用戶的所對(duì)應(yīng)的支持向量機(jī)組，返回的分類結(jié)果即決定該郵件的分類。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式，應(yīng)當(dāng)指出，對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人
員來(lái)說(shuō)，在不脫離本發(fā)明技術(shù)原理的前提下，還可以做出若干改進(jìn)和變型，這些改進(jìn)和變型
也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
一種基于用戶興趣的垃圾郵件過(guò)濾方法，其特征在于，包括以下步驟S1，各用戶收到郵件后，對(duì)各用戶的郵件分別進(jìn)行解析，得到郵件的標(biāo)題、正文和收件人與發(fā)件人地址，其中收件人地址用于選擇和確定其相對(duì)應(yīng)的檢測(cè)器集和分類器模型；S2，將郵件的標(biāo)題和正文進(jìn)行分詞，根據(jù)分詞后的郵件的標(biāo)題和正文以及檢測(cè)器集生成特征向量，通過(guò)在每個(gè)用戶各自的訓(xùn)練集上訓(xùn)練，為每個(gè)用戶生成各自獨(dú)立的分類器模型，在收到新郵件時(shí)根據(jù)各用戶相應(yīng)的分類器模型對(duì)郵件進(jìn)行分類，當(dāng)檢測(cè)到用戶興趣發(fā)生變化時(shí)，對(duì)相應(yīng)用戶的分類器模型用郵件進(jìn)行再訓(xùn)練，所述用戶興趣通過(guò)用戶對(duì)垃圾郵件的定義進(jìn)行設(shè)置來(lái)體現(xiàn)。
2. 如權(quán)利要求1所述的基于用戶興趣的垃圾郵件過(guò)濾方法，其特征在于，所述分類器模型為支持向量機(jī)組。
3. 如權(quán)利要求2所述的基于用戶興趣的垃圾郵件過(guò)濾方法，其特征在于，當(dāng)用戶興趣發(fā)生變化時(shí)，使用由多個(gè)支持向量機(jī)所組成的滑動(dòng)窗對(duì)檢測(cè)器集和特征向量進(jìn)行更新。
4. 如權(quán)利要求2所述的基于用戶興趣的垃圾郵件過(guò)濾方法，其特征在于，所述步驟S2 中對(duì)郵件進(jìn)行再訓(xùn)練的步驟具體為根據(jù)由多個(gè)支持向量機(jī)所組成的滑動(dòng)窗，依次調(diào)整每個(gè)用戶相應(yīng)的支持向量機(jī)組和檢測(cè)器集來(lái)完成。
5. 如權(quán)利要求2所述的基于用戶興趣的垃圾郵件過(guò)濾方法，其特征在于，所述步驟S2 中對(duì)郵件進(jìn)行分類的步驟具體為將所述特征向量輸入通過(guò)收件人地址確定的用戶的相對(duì) 應(yīng)的支持向量機(jī)組，返回的分類結(jié)果即決定該郵件的分類。
全文摘要
本發(fā)明公開了一種基于用戶興趣的垃圾郵件過(guò)濾方法，包括步驟各用戶收到郵件后，對(duì)各用戶的郵件分別解析，得到郵件的標(biāo)題、正文和收件人與發(fā)件人地址；將郵件的標(biāo)題和正文分詞，根據(jù)分詞后的郵件的標(biāo)題和正文及檢測(cè)器集生成特征向量，通過(guò)在每個(gè)用戶各自的訓(xùn)練集上訓(xùn)練，為每個(gè)用戶分別生成的分類器模型；在收到新郵件時(shí)根據(jù)各用戶相應(yīng)的分類器模型對(duì)郵件進(jìn)行分類；當(dāng)檢測(cè)到用戶興趣發(fā)生變化時(shí)，對(duì)相應(yīng)用戶的分類器模型用郵件進(jìn)行再訓(xùn)練，用戶興趣通過(guò)用戶對(duì)垃圾郵件的定義進(jìn)行設(shè)置體現(xiàn)。本發(fā)明能提高垃圾郵件檢測(cè)的整體性能，有效地檢測(cè)用戶興趣的變化，在檢測(cè)到用戶興趣的變化后，對(duì)用戶的分類器模型再訓(xùn)練，自適應(yīng)于用戶需求或興趣的變化。
文檔編號(hào)G06F17/27GK101764765SQ20091024293
公開日2010年6月30日申請(qǐng)日期2009年12月21日優(yōu)先權(quán)日2009年12月21日
發(fā)明者譚營(yíng) 申請(qǐng)人:北京大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：譚營(yíng)
技術(shù)所有人：北京大學(xué)
我是此專利的發(fā)明人

上一篇：一種精確定位及位址確認(rèn)方法
上一篇：一種智能提取文檔結(jié)構(gòu)的方法及系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

垃圾郵件過(guò)濾方法相關(guān)技術(shù)

垃圾郵件過(guò)濾相關(guān)技術(shù)

貝葉斯垃圾郵件過(guò)濾相關(guān)技術(shù)

垃圾郵件過(guò)濾系統(tǒng)相關(guān)技術(shù)

exchange垃圾郵件過(guò)濾相關(guān)技術(shù)

垃圾郵件過(guò)濾算法相關(guān)技術(shù)

垃圾郵件過(guò)濾器相關(guān)技術(shù)

垃圾郵件過(guò)濾技術(shù)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于用戶興趣的垃圾郵件過(guò)濾方法