專利名稱:基于用戶興趣的垃圾郵件過(guò)濾方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)安全領(lǐng)域,尤其涉及一種基于用戶興趣的垃圾郵件過(guò)濾方法。
背景技術(shù):
鑒于垃圾郵件所引發(fā)的嚴(yán)重社會(huì)問題,近年來(lái),反垃圾郵件策略受到了前所未有 的關(guān)注。許多學(xué)者將研究焦點(diǎn)集中于自動(dòng)化的垃圾郵件的檢測(cè)和過(guò)濾,提出了許多方法, 如黑名單,機(jī)器學(xué)習(xí)(包括NaiVe Bayes, Support Vector Machine, Neural Network, Boosting Trees等)。 為了給用戶提供垃圾郵件過(guò)濾服務(wù),郵件服務(wù)提供商將這些過(guò)濾垃圾郵件的方法 應(yīng)用在服務(wù)器級(jí)別進(jìn)行相應(yīng)的處理工作,然而他們的效果卻并不盡如人意。其中一個(gè)最主 要的問題是,現(xiàn)有的垃圾郵件檢測(cè)服務(wù)器部署并不區(qū)分不同用戶的興趣,無(wú)法為各用戶保 存各自獨(dú)立的運(yùn)行參數(shù)與配置,更無(wú)法適應(yīng)用戶興趣的變化。 現(xiàn)有的服務(wù)器上部署垃圾郵件檢測(cè)技術(shù)為所有的用戶保存統(tǒng)一的垃圾郵件檢測(cè) 參數(shù),提供一致的模型。然而,這種實(shí)現(xiàn)方案無(wú)法滿足用戶興趣不同(對(duì)垃圾郵件和正常郵 件的不同定義)和用戶興趣變化的情形。 —方面,現(xiàn)有的郵件服務(wù)器實(shí)現(xiàn)技術(shù)無(wú)法滿足用戶不同的用戶需求。在現(xiàn)實(shí)生活 中,用戶的興趣并不盡相同。例如對(duì)同一包含招聘信息的郵件來(lái)說(shuō),用戶甲會(huì)認(rèn)定其為正 常郵件,因?yàn)樗谡夜ぷ?。而用戶乙則會(huì)由于不需要這些信息而認(rèn)定其為垃圾郵件。在 這種情形下,若對(duì)服務(wù)器上所有的用戶提供統(tǒng)一的參數(shù)設(shè)置和統(tǒng)一的檢測(cè)模型,那么服務(wù) 器必然會(huì)給某些用戶提供錯(cuò)誤的垃圾郵件檢測(cè)信息。若服務(wù)器通過(guò)檢測(cè)判定那個(gè)郵件為垃 圾郵件,則會(huì)給用戶甲提供錯(cuò)誤檢測(cè)信息,用戶甲的該正常郵件將被服務(wù)器當(dāng)作垃圾郵件 過(guò)濾;反之,服務(wù)器將會(huì)給用戶乙提供錯(cuò)誤信息,不能為用戶乙有效地對(duì)該郵件進(jìn)行過(guò)濾。
另一方面,現(xiàn)有的郵件服務(wù)器實(shí)現(xiàn)技術(shù)不能適應(yīng)用戶興趣的變化。由于現(xiàn)有技術(shù) 對(duì)所有用戶進(jìn)行統(tǒng)一的檢測(cè)參數(shù)設(shè)置,所以當(dāng)某些郵件用戶的興趣(對(duì)垃圾郵件的定義) 發(fā)生改變時(shí),服務(wù)器不能根據(jù)這些用戶的興趣進(jìn)行調(diào)整,否則將對(duì)其他用戶帶來(lái)負(fù)面影響 (因?yàn)樗麄兊呐d趣并未變化,故參數(shù)的調(diào)整反而會(huì)導(dǎo)致檢測(cè)性能的下降)。
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)的不足,提供了一種新的基于用戶興趣的垃圾郵件過(guò)濾方 法,該方法通過(guò)為每個(gè)用戶保存各自獨(dú)立的參數(shù)設(shè)置(對(duì)應(yīng)的各自獨(dú)立的分類器模型),從 而根據(jù)用戶興趣的不同,為他們產(chǎn)生相應(yīng)的郵件分類結(jié)果。而且,該方案能檢測(cè)各用戶興趣 的變化,并根據(jù)變化及時(shí)地調(diào)整各相應(yīng)的分類器模型。當(dāng)只有某些用戶的興趣發(fā)生變化時(shí), 該方案將調(diào)整這些用戶相對(duì)應(yīng)的模型,從而進(jìn)行再訓(xùn)練和重新分類。 為達(dá)到上述目的,本發(fā)明提供了一種基于用戶興趣的垃圾郵件過(guò)濾方法,包括以 下步驟 Sl,各用戶收到郵件后,對(duì)備用戶的郵件分別進(jìn)行解析,得到郵件的標(biāo)題、正文和收件人與發(fā)件人地址,其中收件人地址用于選擇和確定其相對(duì)應(yīng)的檢測(cè)器集和分類器模 型; S2,將郵件的標(biāo)題和正文進(jìn)行分詞,根據(jù)分詞后的郵件的標(biāo)題和正文、檢測(cè)器集生 成特征向量,通過(guò)在每個(gè)用戶各自的訓(xùn)練集上訓(xùn)練,為每個(gè)用戶生成各自獨(dú)立的分類器模 型,在收到新郵件時(shí)根據(jù)各用戶相應(yīng)的分類器模型對(duì)郵件進(jìn)行分類,當(dāng)檢測(cè)到用戶興趣發(fā) 生變化時(shí),對(duì)相應(yīng)用戶的分類器模型用郵件進(jìn)行再訓(xùn)練,所述用戶興趣通過(guò)用戶對(duì)垃圾郵 件的定義進(jìn)行設(shè)置來(lái)體現(xiàn)。 所述分類器模型為支持向量機(jī)組(即多個(gè)支持向量機(jī))。 當(dāng)用戶興趣發(fā)生變化時(shí),采用由多個(gè)支持向量機(jī)所組成的滑動(dòng)窗對(duì)檢測(cè)器集和特 征向量進(jìn)行更新。 所述步驟S2中對(duì)郵件進(jìn)行再訓(xùn)練的步驟具體為采用由多個(gè)支持向量機(jī)所組成 的滑動(dòng)窗,以及新郵件對(duì)用戶的分類器模型進(jìn)行再訓(xùn)練,并依次調(diào)整每個(gè)用戶相應(yīng)的支持 向量機(jī)組和檢測(cè)器集。
所述步驟S2中對(duì)郵件進(jìn)行分類的步驟具體為將所述特征向量輸入通過(guò)收件人
地址確定的用戶相對(duì)應(yīng)的支持向量機(jī)組,返回的分類結(jié)果即決定該郵件的分類。
上述技術(shù)方案具有如下優(yōu)點(diǎn)通過(guò)對(duì)每個(gè)用戶設(shè)置不同的分類器參數(shù)、保存不同
的分類器模型,能夠提高垃圾郵件檢測(cè)的整體性能;通過(guò)使用由多個(gè)支持向量機(jī)所組成的
滑動(dòng)窗還能夠有效地檢測(cè)用戶興趣的變化,并在檢測(cè)到用戶興趣的變化后,對(duì)相應(yīng)用戶的
分類器模型進(jìn)行再訓(xùn)練,以自適應(yīng)用戶需求的變化。
圖1為本發(fā)明實(shí)施例的方法的流程圖。
具體實(shí)施例方式
下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明的具體實(shí)施方式
作進(jìn)一步詳細(xì)描述。以下實(shí)施 例用于說(shuō)明本發(fā)明,但不用來(lái)限制本發(fā)明的范圍。 如圖1所示,依據(jù)本發(fā)明實(shí)施例的一種基于用戶興趣的垃圾郵件的過(guò)濾方法,包 括以下步驟 Sl,各用戶收到郵件后,對(duì)各用戶的郵件分別進(jìn)行解析,得到郵件的標(biāo)題、正文和 收件人與發(fā)件人地址,其中收件人地址用于選擇和確定其相對(duì)應(yīng)的檢測(cè)器集和分類器模 型; S2,將郵件的標(biāo)題和正文進(jìn)行分詞,根據(jù)分詞后的郵件的標(biāo)題和正文、檢測(cè)器集生
成特征向量,通過(guò)在每個(gè)用戶各自的訓(xùn)練集上訓(xùn)練,為每個(gè)用戶生成各自獨(dú)立的分類器模
型,在收到新郵件時(shí)根據(jù)各用戶相應(yīng)的分類器模型對(duì)郵件進(jìn)行分類,當(dāng)檢測(cè)到用戶興趣發(fā)
生變化時(shí),對(duì)相應(yīng)用戶的分類器模型對(duì)郵件進(jìn)行再訓(xùn)練,所述用戶興趣通過(guò)用戶對(duì)垃圾郵
件的定義進(jìn)行設(shè)置來(lái)體現(xiàn)。 所述分類器模型為支持向量機(jī)組。 當(dāng)用戶興趣發(fā)生變化時(shí),使用由多個(gè)支持向量機(jī)所組成的滑動(dòng)窗對(duì)檢測(cè)器集和特 征向量進(jìn)行更新。
所述步驟S2中對(duì)郵件進(jìn)行再訓(xùn)練的步驟具體為采用由多個(gè)支持向量機(jī)所組成 的滑動(dòng)窗,以及新郵件對(duì)用戶的分類器模型進(jìn)行再訓(xùn)練,并依次調(diào)整每個(gè)用戶相應(yīng)的支持 向量機(jī)組和檢測(cè)器集來(lái)完成。
所述步驟S2中對(duì)郵件進(jìn)行分類的步驟具體為將所述特征向量輸入通過(guò)收件人
地址確定的用戶的所對(duì)應(yīng)的支持向量機(jī)組,返回的分類結(jié)果即決定該郵件的分類。
以上所述僅是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對(duì)于本技術(shù)領(lǐng)域的普通技術(shù)人
員來(lái)說(shuō),在不脫離本發(fā)明技術(shù)原理的前提下,還可以做出若干改進(jìn)和變型,這些改進(jìn)和變型
也應(yīng)視為本發(fā)明的保護(hù)范圍。
權(quán)利要求
一種基于用戶興趣的垃圾郵件過(guò)濾方法,其特征在于,包括以下步驟S1,各用戶收到郵件后,對(duì)各用戶的郵件分別進(jìn)行解析,得到郵件的標(biāo)題、正文和收件人與發(fā)件人地址,其中收件人地址用于選擇和確定其相對(duì)應(yīng)的檢測(cè)器集和分類器模型;S2,將郵件的標(biāo)題和正文進(jìn)行分詞,根據(jù)分詞后的郵件的標(biāo)題和正文以及檢測(cè)器集生成特征向量,通過(guò)在每個(gè)用戶各自的訓(xùn)練集上訓(xùn)練,為每個(gè)用戶生成各自獨(dú)立的分類器模型,在收到新郵件時(shí)根據(jù)各用戶相應(yīng)的分類器模型對(duì)郵件進(jìn)行分類,當(dāng)檢測(cè)到用戶興趣發(fā)生變化時(shí),對(duì)相應(yīng)用戶的分類器模型用郵件進(jìn)行再訓(xùn)練,所述用戶興趣通過(guò)用戶對(duì)垃圾郵件的定義進(jìn)行設(shè)置來(lái)體現(xiàn)。
2. 如權(quán)利要求1所述的基于用戶興趣的垃圾郵件過(guò)濾方法,其特征在于,所述分類器 模型為支持向量機(jī)組。
3. 如權(quán)利要求2所述的基于用戶興趣的垃圾郵件過(guò)濾方法,其特征在于,當(dāng)用戶興趣 發(fā)生變化時(shí),使用由多個(gè)支持向量機(jī)所組成的滑動(dòng)窗對(duì)檢測(cè)器集和特征向量進(jìn)行更新。
4. 如權(quán)利要求2所述的基于用戶興趣的垃圾郵件過(guò)濾方法,其特征在于,所述步驟S2 中對(duì)郵件進(jìn)行再訓(xùn)練的步驟具體為根據(jù)由多個(gè)支持向量機(jī)所組成的滑動(dòng)窗,依次調(diào)整每 個(gè)用戶相應(yīng)的支持向量機(jī)組和檢測(cè)器集來(lái)完成。
5. 如權(quán)利要求2所述的基于用戶興趣的垃圾郵件過(guò)濾方法,其特征在于,所述步驟S2 中對(duì)郵件進(jìn)行分類的步驟具體為將所述特征向量輸入通過(guò)收件人地址確定的用戶的相對(duì) 應(yīng)的支持向量機(jī)組,返回的分類結(jié)果即決定該郵件的分類。
全文摘要
本發(fā)明公開了一種基于用戶興趣的垃圾郵件過(guò)濾方法,包括步驟各用戶收到郵件后,對(duì)各用戶的郵件分別解析,得到郵件的標(biāo)題、正文和收件人與發(fā)件人地址;將郵件的標(biāo)題和正文分詞,根據(jù)分詞后的郵件的標(biāo)題和正文及檢測(cè)器集生成特征向量,通過(guò)在每個(gè)用戶各自的訓(xùn)練集上訓(xùn)練,為每個(gè)用戶分別生成的分類器模型;在收到新郵件時(shí)根據(jù)各用戶相應(yīng)的分類器模型對(duì)郵件進(jìn)行分類;當(dāng)檢測(cè)到用戶興趣發(fā)生變化時(shí),對(duì)相應(yīng)用戶的分類器模型用郵件進(jìn)行再訓(xùn)練,用戶興趣通過(guò)用戶對(duì)垃圾郵件的定義進(jìn)行設(shè)置體現(xiàn)。本發(fā)明能提高垃圾郵件檢測(cè)的整體性能,有效地檢測(cè)用戶興趣的變化,在檢測(cè)到用戶興趣的變化后,對(duì)用戶的分類器模型再訓(xùn)練,自適應(yīng)于用戶需求或興趣的變化。
文檔編號(hào)G06F17/27GK101764765SQ20091024293
公開日2010年6月30日 申請(qǐng)日期2009年12月21日 優(yōu)先權(quán)日2009年12月21日
發(fā)明者譚營(yíng) 申請(qǐng)人:北京大學(xué)