一種垃圾郵件的過濾方法

文檔序號：81984閱讀：250來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱:一種垃圾郵件的過濾方法
技術(shù)領(lǐng)域：
本發(fā)明涉及網(wǎng)絡(luò)信息處理技術(shù)，特別涉及一種垃圾郵件的過濾方法。
背景技術(shù)：
基于網(wǎng)絡(luò)傳輸?shù)目旖菪?，電子郵件的應(yīng)用日益廣泛，但同時伴隨而來的是大量垃圾郵件的涌現(xiàn)。因此，有效過濾垃圾郵件顯得尤為重要。
現(xiàn)有技術(shù)中，垃圾郵件的過濾主要在郵件客戶端或服務(wù)器端來實(shí)現(xiàn)，使用較為廣泛的是規(guī)則過濾法。所述規(guī)則過濾，具體而言，就是根據(jù)某些特征(比如單詞、詞組、位置、大小、附件等)來形成規(guī)則，通過這些規(guī)則來描述垃圾郵件，大多數(shù)規(guī)則是正則表達(dá)式。同時人工設(shè)置每條規(guī)則的分?jǐn)?shù)，規(guī)則有好、壞之分，好規(guī)則即為判斷一封郵件為正郵件的規(guī)則，其分?jǐn)?shù)符號為負(fù)；壞規(guī)則即為判斷一封郵件為負(fù)郵件的規(guī)則，其分?jǐn)?shù)符號為正。但無論是好規(guī)則的負(fù)分?jǐn)?shù)還是壞規(guī)則的正分?jǐn)?shù)，分?jǐn)?shù)的絕對值都代表了本條規(guī)則區(qū)分正負(fù)郵件的一種能力，區(qū)分能力好的分?jǐn)?shù)絕對值較高，區(qū)分能力差的分?jǐn)?shù)絕對值較低。一封新郵件到達(dá)后，與設(shè)置的規(guī)則進(jìn)行匹配，按照匹配的規(guī)則分?jǐn)?shù)進(jìn)行累加計(jì)算(包括分?jǐn)?shù)符號)，最后得到郵件的整體分?jǐn)?shù)，如果整體分?jǐn)?shù)超過某一設(shè)定的閾值，則將該封郵件視為垃圾郵件而過濾它；否則認(rèn)為是合法郵件。
規(guī)則分?jǐn)?shù)制定的高低直接影響此條規(guī)則對于一封郵件整體分?jǐn)?shù)的判定，因此每條規(guī)則的分?jǐn)?shù)制定是否恰當(dāng)尤為重要。但是，目前每條規(guī)則的分?jǐn)?shù)需要人工進(jìn)行制定，由此容易造成分?jǐn)?shù)制定的隨機(jī)性大、不準(zhǔn)確，進(jìn)而影響垃圾郵件過濾的有效性。

發(fā)明內(nèi)容本發(fā)明的目的在于提供一種垃圾郵件的過濾方法，以解決現(xiàn)有人工定制每條規(guī)則分?jǐn)?shù)，容易造成隨機(jī)性大、不準(zhǔn)確的技術(shù)問題。
為解決上述技術(shù)問題，本發(fā)明的目的是通過以下技術(shù)方案實(shí)現(xiàn)的一種垃圾郵件的過濾方法，包括1)收集郵件樣本集以及規(guī)則集；2)根據(jù)所述郵件樣本集和規(guī)則集生成規(guī)則訓(xùn)練集；3)根據(jù)所述規(guī)則訓(xùn)練集構(gòu)造決策樹模型，所述決策樹模型包括處于各個節(jié)點(diǎn)的規(guī)則及其統(tǒng)計(jì)值；4)根據(jù)所述決策樹模型，判斷郵件是否作為垃圾郵件予以過濾。
優(yōu)選的，還包括定期向規(guī)則訓(xùn)練集添加新規(guī)則，并重構(gòu)決策樹模型。
優(yōu)選的，還包括設(shè)置規(guī)則的失效時間。
所述步驟2)具體包括21)建立規(guī)則集中各條規(guī)則和郵件樣本集中正負(fù)郵件之間的映射關(guān)系；22)根據(jù)所述映射關(guān)系，獲得每條規(guī)則在郵件樣本集中的正負(fù)郵件命中率。
所述步驟3)的構(gòu)造包括31)根據(jù)規(guī)則的正負(fù)郵件命中率，確定規(guī)則區(qū)分正負(fù)郵件的能力；32)根據(jù)規(guī)則區(qū)分正負(fù)郵件的能力，確定其在決策樹中的節(jié)點(diǎn)位置；32)根據(jù)規(guī)則的正負(fù)郵件命中率，獲得規(guī)則所處節(jié)點(diǎn)位置的統(tǒng)計(jì)值。
所述步驟4)具體包括41)預(yù)先設(shè)置垃圾郵件閾值；42)郵件沿決策樹模型的一條路徑，從根節(jié)點(diǎn)遍歷到葉節(jié)點(diǎn)；43)以經(jīng)過的各條規(guī)則統(tǒng)計(jì)值為基礎(chǔ)，獲得所述郵件參考值；44)將所述參考值和垃圾郵件閾值進(jìn)行比較，根據(jù)比較結(jié)果判斷所述郵件是否作為垃圾郵件予以過濾。
優(yōu)選的，所述郵件參考值為經(jīng)過的各條規(guī)則統(tǒng)計(jì)值之積/和。
優(yōu)選的，所述步驟4)還包括設(shè)置決策樹不同層次的權(quán)重值。所述郵件參考值為其經(jīng)過的各條規(guī)則統(tǒng)計(jì)值與所處層次權(quán)重值的乘積之和。
優(yōu)選的，所述步驟4)還包括設(shè)置經(jīng)過的節(jié)點(diǎn)總數(shù)系數(shù)。所述郵件參考值為其經(jīng)過的各條規(guī)則統(tǒng)計(jì)值之和與節(jié)點(diǎn)總數(shù)系數(shù)的乘積。
優(yōu)選的，所述規(guī)則統(tǒng)計(jì)值為信息增益、概率或增益比率。
以上技術(shù)方案可以看出，在本發(fā)明中，由于通過郵件樣本集以及規(guī)則集生成規(guī)則訓(xùn)練集，進(jìn)而根據(jù)規(guī)則訓(xùn)練集構(gòu)造決策樹模型，從而將每條規(guī)則在郵件樣本集中區(qū)分正負(fù)郵件的能力，反映在其處于決策樹的節(jié)點(diǎn)位置和統(tǒng)計(jì)值上，使得根據(jù)決策樹模型，判斷郵件是否作為垃圾郵件予以過濾時，已經(jīng)考慮了每條規(guī)則的區(qū)分能力，無需人工為所述能力再設(shè)置分?jǐn)?shù)，避免了人工設(shè)置的隨機(jī)性大，不準(zhǔn)確，提高了每條規(guī)則區(qū)分能力的判斷準(zhǔn)確性，降低了誤判率。
此外，通過定期向規(guī)則訓(xùn)練集添加新規(guī)則，可以定期調(diào)整規(guī)則訓(xùn)練集的結(jié)果，用于重構(gòu)決策樹模型，進(jìn)而優(yōu)化規(guī)則判斷能力的有效性。
圖1為本發(fā)明公開的垃圾郵件的過濾方法流程圖；圖2為本發(fā)明公開的一種決策樹模型示意圖；圖3為根據(jù)決策樹模型進(jìn)行判斷的具體實(shí)施流程圖；圖4為本發(fā)明公開的垃圾郵件過濾方法的整體示意圖。
具體實(shí)施方式請參閱圖1，其為本發(fā)明垃圾郵件的過濾方法流程圖。
步驟110收集郵件樣本集以及規(guī)則集。
所述郵件樣本集為現(xiàn)有的一定數(shù)量的郵件。例如郵件元素E＝<M1，M2，...，Mn>稱為郵件樣本，其包含2個例子集，分別叫正郵件樣本和負(fù)郵件樣本。所述正郵件樣本代表不需要過濾掉的非垃圾郵件；所述負(fù)郵件樣本集代表需要過濾的垃圾郵件。
所述規(guī)則集是根據(jù)現(xiàn)有垃圾過濾規(guī)則預(yù)先設(shè)定的一個集合。例如規(guī)則集R＝R1×R2×...×Rn，n維有窮向量空間，其中Rn是有窮離散符號集，每一維代表一個規(guī)則。
步驟120根據(jù)所述郵件樣本集和規(guī)則集生成規(guī)則訓(xùn)練集。
首先，建立規(guī)則集中各條規(guī)則和郵件樣本集中正負(fù)郵件之間的映射關(guān)系；其次，根據(jù)所述映射關(guān)系，獲得每條規(guī)則在郵件樣本集中的正負(fù)郵件命中率。規(guī)則訓(xùn)練集的一種表示方式如下表所示
表1 由上表可知，規(guī)則集中的每條規(guī)則與正負(fù)郵件樣本集中的郵件都存在一種映射關(guān)系。例如，假設(shè)正負(fù)郵件樣本集各含有10000封郵件，通過上表之間的映射關(guān)系得到規(guī)則R1的命中率為“+9987；-69”，即規(guī)則R1在非垃圾郵件(正樣本)中命中了9987次，在垃圾郵件(負(fù)樣本)中命中了69次；規(guī)則R2被命中的頻率為“+213；-9988”，即規(guī)則R2在非垃圾郵件(正樣本)中命中了213次，在垃圾郵件(負(fù)樣本)中命中了9988次。其他規(guī)則的命中率同理。
此外，所述規(guī)則訓(xùn)練集中的規(guī)則向量數(shù)目可以定期手動更新，即在一定時間間隔內(nèi)將新的規(guī)則送入訓(xùn)練集接受訓(xùn)練，得到所述新規(guī)則與郵件樣本的映射關(guān)系及其命中率。由于向規(guī)則集中添加的規(guī)則會不斷增多，如果全部加進(jìn)決策樹內(nèi)會使樹變得越來越龐大，對于一封郵件的查詢代價會越來越高，所以必須對規(guī)則進(jìn)行裁減。某些規(guī)則具有很強(qiáng)的時效性，譬如在9.11時期可能會有很多垃圾郵件主題中會包含”9.11”字眼，推銷反恐類的產(chǎn)品或者虛假信息，于是提取這個字眼作為規(guī)則的一部分。對于某些時效性很強(qiáng)的規(guī)則，在構(gòu)造規(guī)則訓(xùn)練集時會記錄它們的加入時間和其作用的有效時間。這樣就會定期刪除掉一些規(guī)則，同時可以補(bǔ)充進(jìn)一些新的規(guī)則，從而保持構(gòu)造的決策樹的平衡性。
步驟130根據(jù)所述規(guī)則訓(xùn)練集構(gòu)造決策樹模型，所述決策樹模型包括處于各個節(jié)點(diǎn)的規(guī)則及其統(tǒng)計(jì)值。
在構(gòu)造過程中，主要包括根據(jù)規(guī)則的正負(fù)郵件命中率，確定規(guī)則區(qū)分正負(fù)郵件的能力；進(jìn)而根據(jù)規(guī)則區(qū)分正負(fù)郵件的能力，確定其在決策樹中的節(jié)點(diǎn)位置；同時根據(jù)規(guī)則的正負(fù)郵件命中率，獲得規(guī)則所處節(jié)點(diǎn)位置的統(tǒng)計(jì)值。
目前的決策樹模型應(yīng)用在各個領(lǐng)域，其生成算法也多種多樣，比如ID3、C4.5、SLIQ、CART和CHAID等等，由于這些算法是現(xiàn)有技術(shù)，因而不再贅述。但無論使用哪種算法，對規(guī)則訓(xùn)練集構(gòu)造的決策樹模型結(jié)構(gòu)基本一致區(qū)分正負(fù)郵件能力最強(qiáng)的規(guī)則放在第一層次，區(qū)分能力弱一些的放在第二層次，依次類推，直至決策樹的最后一層。例如，某條規(guī)則在垃圾郵件和非垃圾郵件中的命中率相近，在總數(shù)均為10000的正負(fù)郵件樣本中分別被命中了200次和197次，此時這條規(guī)則對于判別垃圾郵件的效果就不好，因?yàn)樗痪邆淠軌虼淼湫屠蚍抢]件的特征，進(jìn)而認(rèn)為它對郵件的決策能力很弱，即區(qū)分正負(fù)郵件的能力差。
決策樹構(gòu)造算法能夠根據(jù)上述得到的正負(fù)樣本命中率，將各條規(guī)則插入在決策樹模型合適的節(jié)點(diǎn)位置。請同時參閱圖2，其為本發(fā)明公開的一種決策樹模型意圖。決策樹200包括8條規(guī)則R1-R8，其中R8位于決策樹的根節(jié)點(diǎn)(第一層)，R6、R2和R4位于葉節(jié)點(diǎn)(第二層)，R1和R3處于R6之下的葉節(jié)點(diǎn)(第三層)，R5和R7處于R4之下的葉節(jié)點(diǎn)(第三層)。通過它們所處的節(jié)點(diǎn)位置即可看出區(qū)分好壞郵件能力最強(qiáng)的是規(guī)則R8，其次是R6、R2和R4，最弱的是R1、R3、R5和R7。實(shí)際中的決策樹模型擁有的規(guī)則很多，即節(jié)點(diǎn)數(shù)很龐大，本圖僅僅通過示意性的幾條規(guī)則進(jìn)行描述。
通過本圖還可以看到每條規(guī)則后面都注有一個統(tǒng)計(jì)值，這個統(tǒng)計(jì)值是在生成決策樹模型的同時產(chǎn)生的。所述統(tǒng)計(jì)值，一方面取決于規(guī)則在正負(fù)郵件樣本集中的命中率，另一方面與生成決策樹時采用的算法有關(guān)，不同算法得到的統(tǒng)計(jì)值也不同，比如可以是節(jié)點(diǎn)(規(guī)則)的信息增益IG、概率，或者增益比率(Gain ration)等等。由此可知，處于各個節(jié)點(diǎn)位置的規(guī)則所對應(yīng)的統(tǒng)計(jì)值，用于度量給定的屬性對于規(guī)則訓(xùn)練集中樣例的區(qū)分能力。例如，決策樹每一層次區(qū)分能力的概念可以通過處于不同層次的規(guī)則IG值體現(xiàn)出來。這也是本發(fā)明中將現(xiàn)有規(guī)則借助于決策樹體現(xiàn)的關(guān)鍵所在，每條規(guī)則對于區(qū)分好壞郵件的能力無需人工進(jìn)行分?jǐn)?shù)定制，而是自動生成的，因此對于判別一封郵件是否為垃圾郵件更為有效準(zhǔn)確。
步驟140根據(jù)所述決策樹模型，判斷郵件是否作為垃圾郵件予以過濾。請參閱圖3，其為根據(jù)決策樹模型進(jìn)行判斷的具體實(shí)施流程圖，即步驟140包含的具體過程。仍然以圖2所示的決策樹模型為例加以說明。
步驟310預(yù)先設(shè)置垃圾郵件閾值。由于判斷一封郵件是垃圾郵件的方式很多，因而對應(yīng)垃圾郵件閾值也有很多種，本文將在步驟330中結(jié)合不同實(shí)施方式介紹垃圾郵件閾值的設(shè)置。
步驟320郵件沿決策樹模型的一條路徑，從根節(jié)點(diǎn)遍歷到葉節(jié)點(diǎn)。
當(dāng)一封新郵件到達(dá)后，將通過決策樹模型對其進(jìn)行掃描。比如一封新郵件在決策樹模型200中沿粗線所示的路徑遍歷根節(jié)點(diǎn)至葉節(jié)點(diǎn)，其經(jīng)過的根節(jié)點(diǎn)是規(guī)則R8，葉節(jié)點(diǎn)是R6和R3。其中，R8對應(yīng)的統(tǒng)計(jì)值是0.62，R6對應(yīng)的統(tǒng)計(jì)值是0.32，R3對應(yīng)的統(tǒng)計(jì)值是0.029。
步驟330以經(jīng)過的各條規(guī)則統(tǒng)計(jì)值為基礎(chǔ)，獲得所述郵件是垃圾郵件的參考值。
步驟340將所述參考值和垃圾郵件閾值進(jìn)行比較，根據(jù)比較結(jié)果判斷所述郵件是否作為垃圾郵件予以過濾。
通過決策樹200可知，新郵件經(jīng)過的規(guī)則是R8、R6和R3，它們對應(yīng)的統(tǒng)計(jì)值分別是0.62、0.32以及0.029。在此基礎(chǔ)之上，獲得的該封郵件的參考值可以有多種實(shí)現(xiàn)方式。
方式一，直接將上述三個統(tǒng)計(jì)值相加0.62+0.32+0.029＝0.969，于是該封電子郵件參考值為0.969。在步驟310中設(shè)置的垃圾郵件閾值也是針對這種判斷方式而設(shè)置其數(shù)值的，一封郵件的參考值越大，其為垃圾郵件的可能性越大。比如預(yù)先設(shè)置的垃圾郵件閾值是0.8，則0.969＞0.8，即可判斷該封郵件為垃圾郵件，予以過濾。
方式二，將上述三個統(tǒng)計(jì)值相乘0.62×0.32×0.029＝0.00575，假設(shè)相應(yīng)地，在步驟310中設(shè)置的垃圾郵件閾值為0.004，在該種判斷方式下，一封郵件的參考值越小，其為垃圾郵件的可能性越大，根據(jù)0.00575＞0.004，即可判斷該封郵件為非垃圾郵件，不予以過濾。
方式三，可以設(shè)置決策樹不同層次的權(quán)重值，所述權(quán)重值意味著該層規(guī)則對于郵件參考值的整體評判所做出的貢獻(xiàn)大小。比如設(shè)置決策樹第一層的權(quán)重值為1.2(包括一個節(jié)點(diǎn)規(guī)則R8)，第二層的權(quán)重值為0.8(包括三個節(jié)點(diǎn)規(guī)則R6、R2和R4)，第三層的權(quán)重值為0.6(包括四個節(jié)點(diǎn)R1、R3、R5和R7)，于是獲得的該封新郵件的參考值即為0.62×1.2+0.32×0.8+0.029×0.6＝1.0348。同時在步驟310中為這種判斷方式也設(shè)置了一個對應(yīng)的垃圾郵件閾值，比如垃圾郵件閾值＝1.02，1.0348＞1.02，即可判定該封電子郵件為垃圾郵件，予以過濾。
此外，還可以對個別規(guī)則設(shè)置特殊時效權(quán)重，這是因?yàn)槟承┮?guī)則的時效性很強(qiáng)，即只對一段時間內(nèi)的過濾有效。比如對R3和R6這兩條規(guī)則設(shè)置有效時間為3個月，而且第一個月賦給的權(quán)重值為1.1，第二個月賦給的權(quán)重值為0.9，第三個月賦給的權(quán)重值為0.8。假設(shè)R6這條規(guī)則已經(jīng)使用了1個多月，它對應(yīng)的權(quán)值即為0.9；R3這條規(guī)則已經(jīng)使用了2個多月，它對應(yīng)的權(quán)值即為0.8，而R8是一條與時效無關(guān)的規(guī)則，因此采用其所處層次本身的權(quán)重值1.2，于是此封郵件的參考值＝0.62×1.2+0.32×0.9+0.029×0.8＝1.0552?？梢?，特殊時效權(quán)重值的優(yōu)先級高于基于層次權(quán)重值的優(yōu)先級，即如果一條規(guī)則既有本身所處層次的權(quán)重值又有特殊時效權(quán)重值，優(yōu)先采用特殊時效權(quán)重值進(jìn)行計(jì)算。當(dāng)然，也可以只設(shè)置某些規(guī)則的特殊時效權(quán)重值，不與基于層次設(shè)置的權(quán)重值同時存在。
方式四，還可以設(shè)置郵件經(jīng)過的節(jié)點(diǎn)總數(shù)系數(shù)。由于一個節(jié)點(diǎn)對應(yīng)一條規(guī)則，因此，所述經(jīng)過的節(jié)點(diǎn)總數(shù)即為匹配的規(guī)則總數(shù)。例如設(shè)置經(jīng)過決策樹路徑上的3個節(jié)點(diǎn)時乘以系數(shù)1.1，經(jīng)過10個節(jié)點(diǎn)時乘以系數(shù)1.2，經(jīng)過30個節(jié)點(diǎn)時乘以系數(shù)1.3。在這種情況下，新郵件為垃圾郵件的參考值為(0.62+0.32+0.029)×1.1＝1.0659。設(shè)置閾值以及判斷過程與上述幾種實(shí)施方式的原理相同，因而在此不再贅述。
以上將垃圾郵件的過濾方法分步驟進(jìn)行了詳細(xì)描述，為了使本領(lǐng)域的技術(shù)人員更好的理解本發(fā)明，請同時參看圖4所示的垃圾郵件過濾方法的整體示意圖。正負(fù)郵件樣本集和過濾垃圾郵件規(guī)則集一起進(jìn)入規(guī)則訓(xùn)練集，同時在一定時間間隔內(nèi)，可以手工添加規(guī)則到規(guī)則訓(xùn)練集，也可以由程序自動加入；規(guī)則訓(xùn)練集輸入到生成決策樹算法的輸入端，輸出決策樹模型；新郵件到達(dá)后，從所述決策樹模型的根節(jié)點(diǎn)沿一條路徑遍歷到葉節(jié)點(diǎn)；以其經(jīng)過的規(guī)則統(tǒng)計(jì)值為基礎(chǔ)，采用不同的實(shí)施方式得到郵件是垃圾郵件的參考值；最后根據(jù)預(yù)先設(shè)置的垃圾郵件閾值與獲得的郵件參考值進(jìn)行比較，根據(jù)比較結(jié)果判斷郵件是否作為垃圾郵件予以過濾。
以上對本發(fā)明所提供的一種垃圾郵件的過濾方法進(jìn)行了詳細(xì)介紹，本文中應(yīng)用了具體個例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實(shí)施方式
及應(yīng)用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。
權(quán)利要求
1.一種垃圾郵件的過濾方法，其特征在于，包括步驟1)收集郵件樣本集以及規(guī)則集；2)根據(jù)所述郵件樣本集和規(guī)則集生成規(guī)則訓(xùn)練集；3)根據(jù)所述規(guī)則訓(xùn)練集構(gòu)造決策樹模型，所述決策樹模型包括處于各個節(jié)點(diǎn)的規(guī)則及其統(tǒng)計(jì)值；4)根據(jù)所述決策樹模型，判斷郵件是否作為垃圾郵件予以過濾。
2.如權(quán)利要求
1所述的垃圾郵件的過濾方法，其特征在于，還包括定期向規(guī)則訓(xùn)練集添加新規(guī)則，并重構(gòu)決策樹模型。
3.如權(quán)利要求
1或2所述的垃圾郵件的過濾方法，其特征在于，還包括設(shè)置規(guī)則的失效時間。
4.如權(quán)利要求
1所述的垃圾郵件的過濾方法，其特征在于，所述步驟2)具體包括21)建立規(guī)則集中各條規(guī)則和郵件樣本集中正負(fù)郵件之間的映射關(guān)系；22)根據(jù)所述映射關(guān)系，獲得每條規(guī)則在郵件樣本集中的正負(fù)郵件命中率。
5.如權(quán)利要求
4所述的垃圾郵件的過濾方法，其特征在于，所述步驟3)的構(gòu)造包括31)根據(jù)規(guī)則的正負(fù)郵件命中率，確定規(guī)則區(qū)分正負(fù)郵件的能力；32)根據(jù)規(guī)則區(qū)分正負(fù)郵件的能力，確定其在決策樹中的節(jié)點(diǎn)位置；32)根據(jù)規(guī)則的正負(fù)郵件命中率，獲得規(guī)則所處節(jié)點(diǎn)位置的統(tǒng)計(jì)值。
6.如權(quán)利要求
1所述的垃圾郵件的過濾方法，其特征在于，所述步驟4)具體包括41)預(yù)先設(shè)置垃圾郵件閾值；42)郵件沿決策樹模型的一條路徑，從根節(jié)點(diǎn)遍歷到葉節(jié)點(diǎn)；43)以經(jīng)過的各條規(guī)則統(tǒng)計(jì)值為基礎(chǔ)，獲得所述郵件參考值；44)將所述參考值和垃圾郵件閾值進(jìn)行比較，根據(jù)比較結(jié)果判斷所述郵件是否作為垃圾郵件予以過濾。
7.如權(quán)利要求
6所述的垃圾郵件的過濾方法，其特征在于，所述郵件參考值為經(jīng)過的各條規(guī)則統(tǒng)計(jì)值之積/和。
8.如權(quán)利要求
6所述的垃圾郵件的過濾方法，其特征在于，所述步驟4)還包括設(shè)置決策樹不同層次的權(quán)重值。
9.如權(quán)利要求
8所述的垃圾郵件的過濾方法，其特征在于，所述郵件參考值為其經(jīng)過的各條規(guī)則統(tǒng)計(jì)值與所處層次權(quán)重值的乘積之和。
10.如權(quán)利要求
6所述的垃圾郵件的過濾方法，其特征在于，所述步驟4)還包括設(shè)置經(jīng)過的節(jié)點(diǎn)總數(shù)系數(shù)。
11.如權(quán)利要求
10所述的垃圾郵件的過濾方法，其特征在于，所述郵件參考值為其經(jīng)過的各條規(guī)則統(tǒng)計(jì)值之和與節(jié)點(diǎn)總數(shù)系數(shù)的乘積。
12.如權(quán)利要求
1所述的垃圾郵件的過濾方法，其特征在于，所述規(guī)則統(tǒng)計(jì)值為信息增益、概率或增益比率。
專利摘要
本發(fā)明公開了一種垃圾郵件的過濾方法，所述方法包括收集郵件樣本集以及規(guī)則集；根據(jù)所述郵件樣本集和規(guī)則集生成規(guī)則訓(xùn)練集；根據(jù)所述規(guī)則訓(xùn)練集構(gòu)造決策樹模型，所述決策樹模型包括處于各個節(jié)點(diǎn)的規(guī)則及其統(tǒng)計(jì)值；根據(jù)所述決策樹模型，判斷郵件是否作為垃圾郵件予以過濾。
文檔編號G06Q10/00GK1991879SQ200510121446
公開日2007年7月4日申請日期2005年12月29日
發(fā)明者母天石, 周顥申請人:騰訊科技(深圳)有限公司導(dǎo)出引文BiBTeX, EndNote, RefMan

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：母天石;周顥
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

垃圾郵件過濾方法相關(guān)技術(shù)

垃圾郵件過濾相關(guān)技術(shù)

貝葉斯垃圾郵件過濾相關(guān)技術(shù)

exchange垃圾郵件過濾相關(guān)技術(shù)

垃圾郵件過濾系統(tǒng)相關(guān)技術(shù)

垃圾郵件過濾算法相關(guān)技術(shù)

垃圾郵件過濾器相關(guān)技術(shù)

垃圾郵件過濾技術(shù)相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種垃圾郵件的過濾方法