亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種垃圾郵件的過濾方法

文檔序號(hào):6650545閱讀:114來源:國(guó)知局
專利名稱:一種垃圾郵件的過濾方法
技術(shù)領(lǐng)域
本發(fā)明涉及網(wǎng)絡(luò)信息處理技術(shù),特別涉及一種垃圾郵件的過濾方法。
背景技術(shù)
基于網(wǎng)絡(luò)傳輸?shù)目旖菪?,電子郵件的應(yīng)用日益廣泛,但同時(shí)伴隨而來的是大量垃圾郵件的涌現(xiàn)。因此,有效過濾垃圾郵件顯得尤為重要。
現(xiàn)有技術(shù)中,垃圾郵件的過濾主要在郵件客戶端或服務(wù)器端來實(shí)現(xiàn),使用較為廣泛的是規(guī)則過濾法。所述規(guī)則過濾,具體而言,就是根據(jù)某些特征(比如單詞、詞組、位置、大小、附件等)來形成規(guī)則,通過這些規(guī)則來描述垃圾郵件,大多數(shù)規(guī)則是正則表達(dá)式。同時(shí)人工設(shè)置每條規(guī)則的分?jǐn)?shù),規(guī)則有好、壞之分,好規(guī)則即為判斷一封郵件為正郵件的規(guī)則,其分?jǐn)?shù)符號(hào)為負(fù);壞規(guī)則即為判斷一封郵件為負(fù)郵件的規(guī)則,其分?jǐn)?shù)符號(hào)為正。但無論是好規(guī)則的負(fù)分?jǐn)?shù)還是壞規(guī)則的正分?jǐn)?shù),分?jǐn)?shù)的絕對(duì)值都代表了本條規(guī)則區(qū)分正負(fù)郵件的一種能力,區(qū)分能力好的分?jǐn)?shù)絕對(duì)值較高,區(qū)分能力差的分?jǐn)?shù)絕對(duì)值較低。一封新郵件到達(dá)后,與設(shè)置的規(guī)則進(jìn)行匹配,按照匹配的規(guī)則分?jǐn)?shù)進(jìn)行累加計(jì)算(包括分?jǐn)?shù)符號(hào)),最后得到郵件的整體分?jǐn)?shù),如果整體分?jǐn)?shù)超過某一設(shè)定的閾值,則將該封郵件視為垃圾郵件而過濾它;否則認(rèn)為是合法郵件。
規(guī)則分?jǐn)?shù)制定的高低直接影響此條規(guī)則對(duì)于一封郵件整體分?jǐn)?shù)的判定,因此每條規(guī)則的分?jǐn)?shù)制定是否恰當(dāng)尤為重要。但是,目前每條規(guī)則的分?jǐn)?shù)需要人工進(jìn)行制定,由此容易造成分?jǐn)?shù)制定的隨機(jī)性大、不準(zhǔn)確,進(jìn)而影響垃圾郵件過濾的有效性。

發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種垃圾郵件的過濾方法,以解決現(xiàn)有人工定制每條規(guī)則分?jǐn)?shù),容易造成隨機(jī)性大、不準(zhǔn)確的技術(shù)問題。
為解決上述技術(shù)問題,本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的一種垃圾郵件的過濾方法,包括1)收集郵件樣本集以及規(guī)則集;2)根據(jù)所述郵件樣本集和規(guī)則集生成規(guī)則訓(xùn)練集;3)根據(jù)所述規(guī)則訓(xùn)練集構(gòu)造決策樹模型,所述決策樹模型包括處于各個(gè)節(jié)點(diǎn)的規(guī)則及其統(tǒng)計(jì)值;4)根據(jù)所述決策樹模型,判斷郵件是否作為垃圾郵件予以過濾。
優(yōu)選的,還包括定期向規(guī)則訓(xùn)練集添加新規(guī)則,并重構(gòu)決策樹模型。
優(yōu)選的,還包括設(shè)置規(guī)則的失效時(shí)間。
所述步驟2)具體包括21)建立規(guī)則集中各條規(guī)則和郵件樣本集中正負(fù)郵件之間的映射關(guān)系;22)根據(jù)所述映射關(guān)系,獲得每條規(guī)則在郵件樣本集中的正負(fù)郵件命中率。
所述步驟3)的構(gòu)造包括31)根據(jù)規(guī)則的正負(fù)郵件命中率,確定規(guī)則區(qū)分正負(fù)郵件的能力;32)根據(jù)規(guī)則區(qū)分正負(fù)郵件的能力,確定其在決策樹中的節(jié)點(diǎn)位置;32)根據(jù)規(guī)則的正負(fù)郵件命中率,獲得規(guī)則所處節(jié)點(diǎn)位置的統(tǒng)計(jì)值。
所述步驟4)具體包括41)預(yù)先設(shè)置垃圾郵件閾值;42)郵件沿決策樹模型的一條路徑,從根節(jié)點(diǎn)遍歷到葉節(jié)點(diǎn);43)以經(jīng)過的各條規(guī)則統(tǒng)計(jì)值為基礎(chǔ),獲得所述郵件參考值;44)將所述參考值和垃圾郵件閾值進(jìn)行比較,根據(jù)比較結(jié)果判斷所述郵件是否作為垃圾郵件予以過濾。
優(yōu)選的,所述郵件參考值為經(jīng)過的各條規(guī)則統(tǒng)計(jì)值之積/和。
優(yōu)選的,所述步驟4)還包括設(shè)置決策樹不同層次的權(quán)重值。所述郵件參考值為其經(jīng)過的各條規(guī)則統(tǒng)計(jì)值與所處層次權(quán)重值的乘積之和。
優(yōu)選的,所述步驟4)還包括設(shè)置經(jīng)過的節(jié)點(diǎn)總數(shù)系數(shù)。所述郵件參考值為其經(jīng)過的各條規(guī)則統(tǒng)計(jì)值之和與節(jié)點(diǎn)總數(shù)系數(shù)的乘積。
優(yōu)選的,所述規(guī)則統(tǒng)計(jì)值為信息增益、概率或增益比率。
以上技術(shù)方案可以看出,在本發(fā)明中,由于通過郵件樣本集以及規(guī)則集生成規(guī)則訓(xùn)練集,進(jìn)而根據(jù)規(guī)則訓(xùn)練集構(gòu)造決策樹模型,從而將每條規(guī)則在郵件樣本集中區(qū)分正負(fù)郵件的能力,反映在其處于決策樹的節(jié)點(diǎn)位置和統(tǒng)計(jì)值上,使得根據(jù)決策樹模型,判斷郵件是否作為垃圾郵件予以過濾時(shí),已經(jīng)考慮了每條規(guī)則的區(qū)分能力,無需人工為所述能力再設(shè)置分?jǐn)?shù),避免了人工設(shè)置的隨機(jī)性大,不準(zhǔn)確,提高了每條規(guī)則區(qū)分能力的判斷準(zhǔn)確性,降低了誤判率。
此外,通過定期向規(guī)則訓(xùn)練集添加新規(guī)則,可以定期調(diào)整規(guī)則訓(xùn)練集的結(jié)果,用于重構(gòu)決策樹模型,進(jìn)而優(yōu)化規(guī)則判斷能力的有效性。


圖1為本發(fā)明公開的垃圾郵件的過濾方法流程圖;圖2為本發(fā)明公開的一種決策樹模型示意圖;圖3為根據(jù)決策樹模型進(jìn)行判斷的具體實(shí)施流程圖;圖4為本發(fā)明公開的垃圾郵件過濾方法的整體示意圖。
具體實(shí)施例方式
請(qǐng)參閱圖1,其為本發(fā)明垃圾郵件的過濾方法流程圖。
步驟110收集郵件樣本集以及規(guī)則集。
所述郵件樣本集為現(xiàn)有的一定數(shù)量的郵件。例如郵件元素E=<M1,M2,...,Mn>稱為郵件樣本,其包含2個(gè)例子集,分別叫正郵件樣本和負(fù)郵件樣本。所述正郵件樣本代表不需要過濾掉的非垃圾郵件;所述負(fù)郵件樣本集代表需要過濾的垃圾郵件。
所述規(guī)則集是根據(jù)現(xiàn)有垃圾過濾規(guī)則預(yù)先設(shè)定的一個(gè)集合。例如規(guī)則集R=R1×R2×...×Rn,n維有窮向量空間,其中Rn是有窮離散符號(hào)集,每一維代表一個(gè)規(guī)則。
步驟120根據(jù)所述郵件樣本集和規(guī)則集生成規(guī)則訓(xùn)練集。
首先,建立規(guī)則集中各條規(guī)則和郵件樣本集中正負(fù)郵件之間的映射關(guān)系;其次,根據(jù)所述映射關(guān)系,獲得每條規(guī)則在郵件樣本集中的正負(fù)郵件命中率。規(guī)則訓(xùn)練集的一種表示方式如下表所示
表1 由上表可知,規(guī)則集中的每條規(guī)則與正負(fù)郵件樣本集中的郵件都存在一種映射關(guān)系。例如,假設(shè)正負(fù)郵件樣本集各含有10000封郵件,通過上表之間的映射關(guān)系得到規(guī)則R1的命中率為“+9987;-69”,即規(guī)則R1在非垃圾郵件(正樣本)中命中了9987次,在垃圾郵件(負(fù)樣本)中命中了69次;規(guī)則R2被命中的頻率為“+213;-9988”,即規(guī)則R2在非垃圾郵件(正樣本)中命中了213次,在垃圾郵件(負(fù)樣本)中命中了9988次。其他規(guī)則的命中率同理。
此外,所述規(guī)則訓(xùn)練集中的規(guī)則向量數(shù)目可以定期手動(dòng)更新,即在一定時(shí)間間隔內(nèi)將新的規(guī)則送入訓(xùn)練集接受訓(xùn)練,得到所述新規(guī)則與郵件樣本的映射關(guān)系及其命中率。由于向規(guī)則集中添加的規(guī)則會(huì)不斷增多,如果全部加進(jìn)決策樹內(nèi)會(huì)使樹變得越來越龐大,對(duì)于一封郵件的查詢代價(jià)會(huì)越來越高,所以必須對(duì)規(guī)則進(jìn)行裁減。某些規(guī)則具有很強(qiáng)的時(shí)效性,譬如在9.11時(shí)期可能會(huì)有很多垃圾郵件主題中會(huì)包含”9.11”字眼,推銷反恐類的產(chǎn)品或者虛假信息,于是提取這個(gè)字眼作為規(guī)則的一部分。對(duì)于某些時(shí)效性很強(qiáng)的規(guī)則,在構(gòu)造規(guī)則訓(xùn)練集時(shí)會(huì)記錄它們的加入時(shí)間和其作用的有效時(shí)間。這樣就會(huì)定期刪除掉一些規(guī)則,同時(shí)可以補(bǔ)充進(jìn)一些新的規(guī)則,從而保持構(gòu)造的決策樹的平衡性。
步驟130根據(jù)所述規(guī)則訓(xùn)練集構(gòu)造決策樹模型,所述決策樹模型包括處于各個(gè)節(jié)點(diǎn)的規(guī)則及其統(tǒng)計(jì)值。
在構(gòu)造過程中,主要包括根據(jù)規(guī)則的正負(fù)郵件命中率,確定規(guī)則區(qū)分正負(fù)郵件的能力;進(jìn)而根據(jù)規(guī)則區(qū)分正負(fù)郵件的能力,確定其在決策樹中的節(jié)點(diǎn)位置;同時(shí)根據(jù)規(guī)則的正負(fù)郵件命中率,獲得規(guī)則所處節(jié)點(diǎn)位置的統(tǒng)計(jì)值。
目前的決策樹模型應(yīng)用在各個(gè)領(lǐng)域,其生成算法也多種多樣,比如ID3、C4.5、SLIQ、CART和CHAID等等,由于這些算法是現(xiàn)有技術(shù),因而不再贅述。但無論使用哪種算法,對(duì)規(guī)則訓(xùn)練集構(gòu)造的決策樹模型結(jié)構(gòu)基本一致區(qū)分正負(fù)郵件能力最強(qiáng)的規(guī)則放在第一層次,區(qū)分能力弱一些的放在第二層次,依次類推,直至決策樹的最后一層。例如,某條規(guī)則在垃圾郵件和非垃圾郵件中的命中率相近,在總數(shù)均為10000的正負(fù)郵件樣本中分別被命中了200次和197次,此時(shí)這條規(guī)則對(duì)于判別垃圾郵件的效果就不好,因?yàn)樗痪邆淠軌虼淼湫屠蚍抢]件的特征,進(jìn)而認(rèn)為它對(duì)郵件的決策能力很弱,即區(qū)分正負(fù)郵件的能力差。
決策樹構(gòu)造算法能夠根據(jù)上述得到的正負(fù)樣本命中率,將各條規(guī)則插入在決策樹模型合適的節(jié)點(diǎn)位置。請(qǐng)同時(shí)參閱圖2,其為本發(fā)明公開的一種決策樹模型意圖。決策樹200包括8條規(guī)則R1-R8,其中R8位于決策樹的根節(jié)點(diǎn)(第一層),R6、R2和R4位于葉節(jié)點(diǎn)(第二層),R1和R3處于R6之下的葉節(jié)點(diǎn)(第三層),R5和R7處于R4之下的葉節(jié)點(diǎn)(第三層)。通過它們所處的節(jié)點(diǎn)位置即可看出區(qū)分好壞郵件能力最強(qiáng)的是規(guī)則R8,其次是R6、R2和R4,最弱的是R1、R3、R5和R7。實(shí)際中的決策樹模型擁有的規(guī)則很多,即節(jié)點(diǎn)數(shù)很龐大,本圖僅僅通過示意性的幾條規(guī)則進(jìn)行描述。
通過本圖還可以看到每條規(guī)則后面都注有一個(gè)統(tǒng)計(jì)值,這個(gè)統(tǒng)計(jì)值是在生成決策樹模型的同時(shí)產(chǎn)生的。所述統(tǒng)計(jì)值,一方面取決于規(guī)則在正負(fù)郵件樣本集中的命中率,另一方面與生成決策樹時(shí)采用的算法有關(guān),不同算法得到的統(tǒng)計(jì)值也不同,比如可以是節(jié)點(diǎn)(規(guī)則)的信息增益IG、概率,或者增益比率(Gain ration)等等。由此可知,處于各個(gè)節(jié)點(diǎn)位置的規(guī)則所對(duì)應(yīng)的統(tǒng)計(jì)值,用于度量給定的屬性對(duì)于規(guī)則訓(xùn)練集中樣例的區(qū)分能力。例如,決策樹每一層次區(qū)分能力的概念可以通過處于不同層次的規(guī)則IG值體現(xiàn)出來。這也是本發(fā)明中將現(xiàn)有規(guī)則借助于決策樹體現(xiàn)的關(guān)鍵所在,每條規(guī)則對(duì)于區(qū)分好壞郵件的能力無需人工進(jìn)行分?jǐn)?shù)定制,而是自動(dòng)生成的,因此對(duì)于判別一封郵件是否為垃圾郵件更為有效準(zhǔn)確。
步驟140根據(jù)所述決策樹模型,判斷郵件是否作為垃圾郵件予以過濾。請(qǐng)參閱圖3,其為根據(jù)決策樹模型進(jìn)行判斷的具體實(shí)施流程圖,即步驟140包含的具體過程。仍然以圖2所示的決策樹模型為例加以說明。
步驟310預(yù)先設(shè)置垃圾郵件閾值。由于判斷一封郵件是垃圾郵件的方式很多,因而對(duì)應(yīng)垃圾郵件閾值也有很多種,本文將在步驟330中結(jié)合不同實(shí)施方式介紹垃圾郵件閾值的設(shè)置。
步驟320郵件沿決策樹模型的一條路徑,從根節(jié)點(diǎn)遍歷到葉節(jié)點(diǎn)。
當(dāng)一封新郵件到達(dá)后,將通過決策樹模型對(duì)其進(jìn)行掃描。比如一封新郵件在決策樹模型200中沿粗線所示的路徑遍歷根節(jié)點(diǎn)至葉節(jié)點(diǎn),其經(jīng)過的根節(jié)點(diǎn)是規(guī)則R8,葉節(jié)點(diǎn)是R6和R3。其中,R8對(duì)應(yīng)的統(tǒng)計(jì)值是0.62,R6對(duì)應(yīng)的統(tǒng)計(jì)值是0.32,R3對(duì)應(yīng)的統(tǒng)計(jì)值是0.029。
步驟330以經(jīng)過的各條規(guī)則統(tǒng)計(jì)值為基礎(chǔ),獲得所述郵件是垃圾郵件的參考值。
步驟340將所述參考值和垃圾郵件閾值進(jìn)行比較,根據(jù)比較結(jié)果判斷所述郵件是否作為垃圾郵件予以過濾。
通過決策樹200可知,新郵件經(jīng)過的規(guī)則是R8、R6和R3,它們對(duì)應(yīng)的統(tǒng)計(jì)值分別是0.62、0.32以及0.029。在此基礎(chǔ)之上,獲得的該封郵件的參考值可以有多種實(shí)現(xiàn)方式。
方式一,直接將上述三個(gè)統(tǒng)計(jì)值相加0.62+0.32+0.029=0.969,于是該封電子郵件參考值為0.969。在步驟310中設(shè)置的垃圾郵件閾值也是針對(duì)這種判斷方式而設(shè)置其數(shù)值的,一封郵件的參考值越大,其為垃圾郵件的可能性越大。比如預(yù)先設(shè)置的垃圾郵件閾值是0.8,則0.969>0.8,即可判斷該封郵件為垃圾郵件,予以過濾。
方式二,將上述三個(gè)統(tǒng)計(jì)值相乘0.62×0.32×0.029=0.00575,假設(shè)相應(yīng)地,在步驟310中設(shè)置的垃圾郵件閾值為0.004,在該種判斷方式下,一封郵件的參考值越小,其為垃圾郵件的可能性越大,根據(jù)0.00575>0.004,即可判斷該封郵件為非垃圾郵件,不予以過濾。
方式三,可以設(shè)置決策樹不同層次的權(quán)重值,所述權(quán)重值意味著該層規(guī)則對(duì)于郵件參考值的整體評(píng)判所做出的貢獻(xiàn)大小。比如設(shè)置決策樹第一層的權(quán)重值為1.2(包括一個(gè)節(jié)點(diǎn)規(guī)則R8),第二層的權(quán)重值為0.8(包括三個(gè)節(jié)點(diǎn)規(guī)則R6、R2和R4),第三層的權(quán)重值為0.6(包括四個(gè)節(jié)點(diǎn)R1、R3、R5和R7),于是獲得的該封新郵件的參考值即為0.62×1.2+0.32×0.8+0.029×0.6=1.0348。同時(shí)在步驟310中為這種判斷方式也設(shè)置了一個(gè)對(duì)應(yīng)的垃圾郵件閾值,比如垃圾郵件閾值=1.02,1.0348>1.02,即可判定該封電子郵件為垃圾郵件,予以過濾。
此外,還可以對(duì)個(gè)別規(guī)則設(shè)置特殊時(shí)效權(quán)重,這是因?yàn)槟承┮?guī)則的時(shí)效性很強(qiáng),即只對(duì)一段時(shí)間內(nèi)的過濾有效。比如對(duì)R3和R6這兩條規(guī)則設(shè)置有效時(shí)間為3個(gè)月,而且第一個(gè)月賦給的權(quán)重值為1.1,第二個(gè)月賦給的權(quán)重值為0.9,第三個(gè)月賦給的權(quán)重值為0.8。假設(shè)R6這條規(guī)則已經(jīng)使用了1個(gè)多月,它對(duì)應(yīng)的權(quán)值即為0.9;R3這條規(guī)則已經(jīng)使用了2個(gè)多月,它對(duì)應(yīng)的權(quán)值即為0.8,而R8是一條與時(shí)效無關(guān)的規(guī)則,因此采用其所處層次本身的權(quán)重值1.2,于是此封郵件的參考值=0.62×1.2+0.32×0.9+0.029×0.8=1.0552??梢?,特殊時(shí)效權(quán)重值的優(yōu)先級(jí)高于基于層次權(quán)重值的優(yōu)先級(jí),即如果一條規(guī)則既有本身所處層次的權(quán)重值又有特殊時(shí)效權(quán)重值,優(yōu)先采用特殊時(shí)效權(quán)重值進(jìn)行計(jì)算。當(dāng)然,也可以只設(shè)置某些規(guī)則的特殊時(shí)效權(quán)重值,不與基于層次設(shè)置的權(quán)重值同時(shí)存在。
方式四,還可以設(shè)置郵件經(jīng)過的節(jié)點(diǎn)總數(shù)系數(shù)。由于一個(gè)節(jié)點(diǎn)對(duì)應(yīng)一條規(guī)則,因此,所述經(jīng)過的節(jié)點(diǎn)總數(shù)即為匹配的規(guī)則總數(shù)。例如設(shè)置經(jīng)過決策樹路徑上的3個(gè)節(jié)點(diǎn)時(shí)乘以系數(shù)1.1,經(jīng)過10個(gè)節(jié)點(diǎn)時(shí)乘以系數(shù)1.2,經(jīng)過30個(gè)節(jié)點(diǎn)時(shí)乘以系數(shù)1.3。在這種情況下,新郵件為垃圾郵件的參考值為(0.62+0.32+0.029)×1.1=1.0659。設(shè)置閾值以及判斷過程與上述幾種實(shí)施方式的原理相同,因而在此不再贅述。
以上將垃圾郵件的過濾方法分步驟進(jìn)行了詳細(xì)描述,為了使本領(lǐng)域的技術(shù)人員更好的理解本發(fā)明,請(qǐng)同時(shí)參看圖4所示的垃圾郵件過濾方法的整體示意圖。正負(fù)郵件樣本集和過濾垃圾郵件規(guī)則集一起進(jìn)入規(guī)則訓(xùn)練集,同時(shí)在一定時(shí)間間隔內(nèi),可以手工添加規(guī)則到規(guī)則訓(xùn)練集,也可以由程序自動(dòng)加入;規(guī)則訓(xùn)練集輸入到生成決策樹算法的輸入端,輸出決策樹模型;新郵件到達(dá)后,從所述決策樹模型的根節(jié)點(diǎn)沿一條路徑遍歷到葉節(jié)點(diǎn);以其經(jīng)過的規(guī)則統(tǒng)計(jì)值為基礎(chǔ),采用不同的實(shí)施方式得到郵件是垃圾郵件的參考值;最后根據(jù)預(yù)先設(shè)置的垃圾郵件閾值與獲得的郵件參考值進(jìn)行比較,根據(jù)比較結(jié)果判斷郵件是否作為垃圾郵件予以過濾。
以上對(duì)本發(fā)明所提供的一種垃圾郵件的過濾方法進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式
及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
權(quán)利要求
1.一種垃圾郵件的過濾方法,其特征在于,包括步驟1)收集郵件樣本集以及規(guī)則集;2)根據(jù)所述郵件樣本集和規(guī)則集生成規(guī)則訓(xùn)練集;3)根據(jù)所述規(guī)則訓(xùn)練集構(gòu)造決策樹模型,所述決策樹模型包括處于各個(gè)節(jié)點(diǎn)的規(guī)則及其統(tǒng)計(jì)值;4)根據(jù)所述決策樹模型,判斷郵件是否作為垃圾郵件予以過濾。
2.如權(quán)利要求1所述的垃圾郵件的過濾方法,其特征在于,還包括定期向規(guī)則訓(xùn)練集添加新規(guī)則,并重構(gòu)決策樹模型。
3.如權(quán)利要求1或2所述的垃圾郵件的過濾方法,其特征在于,還包括設(shè)置規(guī)則的失效時(shí)間。
4.如權(quán)利要求1所述的垃圾郵件的過濾方法,其特征在于,所述步驟2)具體包括21)建立規(guī)則集中各條規(guī)則和郵件樣本集中正負(fù)郵件之間的映射關(guān)系;22)根據(jù)所述映射關(guān)系,獲得每條規(guī)則在郵件樣本集中的正負(fù)郵件命中率。
5.如權(quán)利要求4所述的垃圾郵件的過濾方法,其特征在于,所述步驟3)的構(gòu)造包括31)根據(jù)規(guī)則的正負(fù)郵件命中率,確定規(guī)則區(qū)分正負(fù)郵件的能力;32)根據(jù)規(guī)則區(qū)分正負(fù)郵件的能力,確定其在決策樹中的節(jié)點(diǎn)位置;32)根據(jù)規(guī)則的正負(fù)郵件命中率,獲得規(guī)則所處節(jié)點(diǎn)位置的統(tǒng)計(jì)值。
6.如權(quán)利要求1所述的垃圾郵件的過濾方法,其特征在于,所述步驟4)具體包括41)預(yù)先設(shè)置垃圾郵件閾值;42)郵件沿決策樹模型的一條路徑,從根節(jié)點(diǎn)遍歷到葉節(jié)點(diǎn);43)以經(jīng)過的各條規(guī)則統(tǒng)計(jì)值為基礎(chǔ),獲得所述郵件參考值;44)將所述參考值和垃圾郵件閾值進(jìn)行比較,根據(jù)比較結(jié)果判斷所述郵件是否作為垃圾郵件予以過濾。
7.如權(quán)利要求6所述的垃圾郵件的過濾方法,其特征在于,所述郵件參考值為經(jīng)過的各條規(guī)則統(tǒng)計(jì)值之積/和。
8.如權(quán)利要求6所述的垃圾郵件的過濾方法,其特征在于,所述步驟4)還包括設(shè)置決策樹不同層次的權(quán)重值。
9.如權(quán)利要求8所述的垃圾郵件的過濾方法,其特征在于,所述郵件參考值為其經(jīng)過的各條規(guī)則統(tǒng)計(jì)值與所處層次權(quán)重值的乘積之和。
10.如權(quán)利要求6所述的垃圾郵件的過濾方法,其特征在于,所述步驟4)還包括設(shè)置經(jīng)過的節(jié)點(diǎn)總數(shù)系數(shù)。
11.如權(quán)利要求10所述的垃圾郵件的過濾方法,其特征在于,所述郵件參考值為其經(jīng)過的各條規(guī)則統(tǒng)計(jì)值之和與節(jié)點(diǎn)總數(shù)系數(shù)的乘積。
12.如權(quán)利要求1所述的垃圾郵件的過濾方法,其特征在于,所述規(guī)則統(tǒng)計(jì)值為信息增益、概率或增益比率。
全文摘要
本發(fā)明公開了一種垃圾郵件的過濾方法,所述方法包括收集郵件樣本集以及規(guī)則集;根據(jù)所述郵件樣本集和規(guī)則集生成規(guī)則訓(xùn)練集;根據(jù)所述規(guī)則訓(xùn)練集構(gòu)造決策樹模型,所述決策樹模型包括處于各個(gè)節(jié)點(diǎn)的規(guī)則及其統(tǒng)計(jì)值;根據(jù)所述決策樹模型,判斷郵件是否作為垃圾郵件予以過濾。
文檔編號(hào)G06Q10/00GK1991879SQ20051012144
公開日2007年7月4日 申請(qǐng)日期2005年12月29日 優(yōu)先權(quán)日2005年12月29日
發(fā)明者母天石, 周顥 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1