專利名稱:一種確定可疑垃圾郵件范圍的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及電子郵件技術(shù)領(lǐng)域,尤其涉及一種確定可疑垃圾郵件范圍的 方法和系統(tǒng)。
背景技術(shù):
電子郵件已經(jīng)成為人們溝通交流的重要通訊工具,隨之而來,如何防止 垃圾郵件對廣大電子郵件用戶的干擾成為了電子郵件技術(shù)領(lǐng)域一個亟待解 決的問題。
目前,為了最大限度地防止垃圾郵件對電子郵件用戶的干擾,出現(xiàn)了一 種采用全文搜索的方式過濾垃圾郵件的方法,下面參照圖l對該方法進(jìn)行介 紹。
圖1是現(xiàn)有技術(shù)中采用全文搜索方式過濾垃圾郵件的方法流程圖,如圖
1所示,該方法包括
步驟IOI,搜索當(dāng)前電子郵件的主題和全部正文,以固定的信息長度從 郵件全文中截取樣本,作為該郵件的指紋信息,代表原始郵件。
步驟102,判斷存儲的郵件中是否有與該當(dāng)前電子郵件的內(nèi)容相似的電 子郵件,如果是,執(zhí)行步驟103,否則,返回步驟IOI。
步驟103,判斷與該當(dāng)前電子郵件的內(nèi)容相似的電子郵件數(shù)目是否已達(dá) 到預(yù)定義的垃圾閾值,若是,執(zhí)行步驟104,否則返回步驟IOI。
步驟104,將該當(dāng)前郵件以及與該當(dāng)前郵件內(nèi)容相似的電子郵件標(biāo)注為 垃圾郵件,結(jié)束本流程。
可見,圖1所示的方法以每一封電子郵件的主題和全部正文為搜索對 象,判斷存儲的電子郵件中是否有與該當(dāng)前電子郵件的內(nèi)容相似的電子郵
件,然后根據(jù)內(nèi)容相似的電子郵件數(shù)目來過濾垃圾郵件。這種方法需要對每 一封郵件都進(jìn)行全文搜索處理,數(shù)據(jù)處理量龐大,判斷郵件是否為垃圾郵件 的效率較低。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明的目的在于提供一種確定可疑垃圾郵件范圍的方法和 系統(tǒng),以預(yù)先確定可疑垃圾郵件的范圍,從而提高判斷郵件是否為垃圾郵件的 效率。
為達(dá)到上述目的,本發(fā)明的技術(shù)方案具體是這樣實(shí)現(xiàn)的 一種確定可疑垃圾郵件范圍的方法,該方法包括
從每個已接收的電子郵件中截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾 郵件特征;
統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有待確定可疑垃 圾郵件特征中的重復(fù)次數(shù),將按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的 待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征;
將具有所述可疑垃圾郵件的特征的郵件作為可疑垃圾郵件。
一種確定可疑垃圾郵件范圍的系統(tǒng),該系統(tǒng)包括待確定可疑垃圾郵件特征 截取裝置、統(tǒng)計(jì)裝置和可疑垃圾郵件確定裝置;
所述待確定可疑垃圾郵件特征截取裝置,用于從每個已接收的電子郵件中 截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征,將截取到的待確定可 疑垃圾郵件特征發(fā)給統(tǒng)計(jì)裝置;
所述統(tǒng)計(jì)裝置,用于接收待確定可疑垃圾郵件特征,統(tǒng)計(jì)接收的每個待確
按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征發(fā)給 所述可疑垃圾郵件確定裝置;
所述可疑垃圾郵件確定裝置,用于將接收的待確定可疑垃圾郵件特征確定 為可疑垃圾郵件的特征,將具有所迷特征的郵件作為可疑垃圾郵件。
可見,由于本發(fā)明中,通過從每個已接收的電子郵件中截取第一預(yù)定數(shù)目 個字符作為待確定可疑垃圾郵件特征,統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件 特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù),將按照重復(fù)次數(shù)
由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征確定為可疑垃圾郵 件的特征,將具有所述特征的郵件作為可疑垃圾郵件,可以在判斷郵件是否是 垃圾郵件之前,預(yù)先確定出可疑垃圾郵件的范圍,后續(xù)只需判斷可疑垃圾郵 件是否為垃圾郵件即可,而不必對每一封郵件均進(jìn)行判斷,提高了判斷郵件 是否為垃圾郵件的效率。
圖1是現(xiàn)有技術(shù)中采用全文搜索方式過濾垃圾郵件的方法流程圖; 圖2是本發(fā)明實(shí)施例中確定可疑垃圾郵件范圍的方法流程圖; 圖3是確定可疑垃圾郵件范圍的系統(tǒng)的第一實(shí)施例結(jié)構(gòu)圖; 圖4是確定可疑垃圾郵件范圍的系統(tǒng)的第二實(shí)施例結(jié)構(gòu)圖; 圖5是確定可疑垃圾郵件范圍的系統(tǒng)的第三實(shí)施例結(jié)構(gòu)圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下參照附圖并舉 實(shí)施例,對本發(fā)明進(jìn)一步詳細(xì)說明。
圖2是本發(fā)明實(shí)施例中確定可疑垃圾郵件范圍的方法流程圖,如圖2所 示,該方法包括
步驟201,從每個已接收的電子郵件中截取待確定可疑垃圾郵件特征。 本步驟中,在電子郵件的主題與全部正文的字符數(shù)總和大于第一預(yù)定數(shù)目 時,從電子郵件的主題和全部正文的固定位置處截取所述第一預(yù)定數(shù)目的字符 作為待確定可疑垃圾郵件特征,在郵件的主題與全部正文的字符數(shù)總和少于所 述第一預(yù)定數(shù)目時,截取所述郵件的主題和全部正文作為待確定可疑垃圾郵件 特征。所述的全部正文不包含主題。這里的待確定可疑垃圾郵件特征實(shí)際上
就是從郵件中截取的字符串。
所述全部正文的固定位置是指正文的某一部分,例如可以是正文的起始 處,也可以是正文的其他部分,例如,可以是正文的中部或者尾部。
例如,如果第一封電子郵件的主題有IO個字符,全部正文有100個字
符,所述固定位置是指所述全部正文的起始處,第二封電子郵件的主題有
12個字符,全部正文有18個字符,而所述第一預(yù)定數(shù)目為60個,那么, 從第一封郵件中截取的待確定可疑垃圾郵件特征就是第一封電子郵件的主 題的10個字符和從第 一封電子郵件的正文起始處開始的50個字符順次組成 的字符串,從第二封電子郵件中截取的待確定可疑垃圾郵件特征就是所述第 二封電子郵件的全部字符順次組成的字符串。
由于本步驟中,對于字符數(shù)大于第一預(yù)定數(shù)目的電子郵件,只對所述電 子郵件的主題和部分正文進(jìn)行處理,而非對所述電子郵件的全部正文進(jìn)行處 理,因此,需要處理的信息量較小,可以提高對每封電子郵件進(jìn)行處理的速 度。
另外,通常垃圾郵件中的大量垃圾信息都出現(xiàn)在郵件的主題和正文的起 始處,例如出現(xiàn)在電子郵件的首段,因此,當(dāng)所述固定位置是正文的起始處 時,還可以在減小需要處理的信息量的同時,避免對垃圾信息的漏檢。當(dāng)然, 如果郵件中的大量垃圾信息出現(xiàn)的位置靠后,例如出現(xiàn)在郵件的中部或者尾
對垃圾信息的漏檢。其中,郵件的垃圾信息通常出現(xiàn)在郵件的哪些位置上可
統(tǒng)計(jì)信息而定,然后在按照圖2所示方法設(shè)計(jì)確定可疑垃圾郵件范圍的程序 或者裝置時,將所述固定位置具體設(shè)置為郵件的起始處、中部或者尾部,則 后續(xù)所述程序或裝置在確定可疑垃圾郵件范圍時,只需對電子郵件的主題和 該固定位置處的正文進(jìn)行處理即可,而無需搜索電子郵件的全文,對該全文 進(jìn)行處理。通過統(tǒng)計(jì)已經(jīng)判斷出的垃圾郵件中的垃圾信息出現(xiàn)在郵件各個位 置的概率,可以得到所述統(tǒng)計(jì)信息。
步驟202,統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有 待確定可疑垃圾郵件特征中的重復(fù)次數(shù)。
本步驟中,統(tǒng)計(jì)所述重復(fù)次數(shù)的方法可以為
方法一,統(tǒng)計(jì)每個待確定可疑垃圾郵件特征在與該待確定可疑垃圾郵件特 征長度相同的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù),將該重復(fù)次數(shù)作為 該待確定可疑垃圾郵件特征在所述截取到的所有待確定可疑垃圾郵件特征中的 重復(fù)次數(shù)
方法二,統(tǒng)計(jì)每個待確定可疑垃圾郵件特征在長度大于或者等于該待確定 可疑垃圾郵件特征長度的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù),將該重 復(fù)次數(shù)作為該待確定可疑垃圾郵件特征在所述截取到的所有待確定可疑垃圾郵 件特征中的重復(fù)次數(shù)。具體地,可以搜索長度大于或者等于被統(tǒng)計(jì)的待確定可 疑垃圾郵件特征長度的待確定可疑垃圾郵件特征的各個字符中,是否按照被統(tǒng) 計(jì)的待確定可疑垃圾郵件特征中各個字符的出現(xiàn)順序,出現(xiàn)了被統(tǒng)計(jì)的待確定 可疑垃圾郵件特征的各個字符,若是,則將重復(fù)次數(shù)加1。
例如,當(dāng)前截取的待確定可疑垃圾郵件特征有"123456" 、"12345"、 "12345" "13589"和"1~2~3~4~5",按照方法一,待確定可疑垃圾郵件 特征"12345"的重復(fù)次數(shù)為2,按照方法二,待確定可疑垃圾郵件特征"12345" 的重復(fù)次^t為4。
當(dāng)按照方法二統(tǒng)計(jì)所述重復(fù)次數(shù)時,可以去除垃圾郵件中干擾字的干 擾,例如,去除字符" ,,的干擾,避免由于干擾字造成的漏檢可疑垃圾郵件。
步驟203,將按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑 垃圾郵件特征確定為可疑垃圾郵件的特征。其中,第二預(yù)定數(shù)目是預(yù)先設(shè)定 的自然數(shù)。
本步驟中,可以按照重復(fù)次數(shù)對各個字符串進(jìn)行排序,例如,可以按照 重復(fù)次數(shù)對字符串進(jìn)行降序排列或升序排列,然后將排在最前面第二預(yù)定數(shù) 目位或最后面第二預(yù)定數(shù)目位的字符串確定為可疑垃圾郵件的特征。
例如,按照字符串的重復(fù)次數(shù)從高到低的順序?qū)ψ址M(jìn)行排序(即P務(wù)序 排列),并列出出現(xiàn)相應(yīng)字符串的郵件列表,以供后續(xù)確定可疑垃圾郵件使用,
具體請見表一,表一中的EML表示郵件。
字符串重復(fù)次數(shù)詞出現(xiàn)在的郵件列表
A、 B20000EML1,EML2,EML3,…
C10000EML3, EML5,EML6,…
D1000…
表一
如果所述第二預(yù)定數(shù)目的取值為2,那么,字符串A、字符串B和字符 串C就是可疑垃圾郵件的特征。第二預(yù)定數(shù)目的具體取值也是在設(shè)計(jì)相應(yīng)的 確定可疑垃圾郵件范圍的程序時確定的。其中的"A" 、 "B"和"C,,是字 符串的代號,并非真正的字符串,例如,字符串A可以代表字符串"12345", 字符串B可以代表字符串"6789"。
步驟204,將具有所述特征的郵件作為可疑垃圾郵件,結(jié)束本流程。
當(dāng)所述第二預(yù)定數(shù)目的取值為2時,按照表一,出現(xiàn)了字符串A或字 符串B或字符串C的郵件被確定為可疑垃圾郵件。
確定出可疑垃圾郵件的范圍后,可以將確定出的可疑垃圾郵件范圍交給 反垃圾系統(tǒng),則后續(xù)可以只判斷可疑垃圾郵件是否是垃圾郵件,而無需判斷 接收的每一封郵件是否是垃圾郵件。其中,可以通過人工或者人工智能(AI) 來判斷可疑垃圾郵件是否為垃圾郵件。實(shí)際應(yīng)用中,可以在收到電子郵件后 立即按照圖2的方法判斷該郵件是否是可疑垃圾郵件,也可以先存儲收到的 電子郵件,然后定時或定量判斷當(dāng)前存儲的電子郵件是否是可疑垃圾郵件。
圖2中的第一預(yù)定數(shù)目的具體取值是由本領(lǐng)域的技術(shù)人員預(yù)先選定的, 下面對所述第一預(yù)定數(shù)目的具體數(shù)值的選擇方法進(jìn)行介紹。
本領(lǐng)域的技術(shù)人員首先預(yù)設(shè)一個閾值范圍,并為所述第一預(yù)定數(shù)目選擇
一個具體的取值,所述閾值范圍的含義是如果字符串的重復(fù)次數(shù)在該閾值 范圍內(nèi),則該字符串是可疑垃圾郵件的特征,否則,該字符串不是可疑垃圾 郵件的特征。本領(lǐng)域技術(shù)人員可以依據(jù)經(jīng)驗(yàn)來確定該閾值范圍,例如,如果 通過一段時間的人工統(tǒng)計(jì),發(fā)現(xiàn)垃圾電子郵件占所有電子郵件的比例在 10% 50%之間,那么當(dāng)對10000封郵件圏定可#是垃圾郵件范圍時,所迷閾值 范圍可以確定為(1000, 5000)。
假設(shè)所述閾值范圍是(1000, 5000),第一預(yù)定數(shù)目取值是5,按照圖 2所示的方法統(tǒng)計(jì)出的某一字符串的重復(fù)次數(shù)大于等于5000,則說明第一預(yù) 定數(shù)目的取值設(shè)得過小,該重復(fù)次數(shù)大于等于5000的字符串不僅可能出現(xiàn) 在垃圾郵件中,還可能大量地出現(xiàn)在非垃圾郵件中,此后,設(shè)計(jì)人員增大第 一預(yù)定數(shù)目的取值,例如,取為7,再次按照圖2所示的方法統(tǒng)計(jì)每一字符 串的重復(fù)次數(shù),如果本次統(tǒng)計(jì)出的該重復(fù)次數(shù)在(1000, 5000)之間,則說 明第一預(yù)定數(shù)目的取值是合理的,因此,可以將第一預(yù)定數(shù)目取為7。
圖2中,確定出可疑垃圾郵件的特征后,可以將可疑垃圾郵件的特征存入
只需判斷可疑垃圾郵件是否為垃圾郵件即可。其中,特征庫可以采用表一的形 式,即存儲有可疑垃圾郵件的特征、每個特征在郵件中出現(xiàn)的重復(fù)次數(shù)以及出 現(xiàn)該特征的郵件列表,也可以采用其他的形式,例如只存儲有特征和所述重復(fù) 次數(shù)。
所述的特征庫占用的存儲空間小,因此,在利用該特征庫確定可疑垃圾郵 件范圍時,可以減小反垃圾郵件系統(tǒng)占用的存儲空間,這是因?yàn)椋绻凑宅F(xiàn) 有技術(shù)對郵件的全文進(jìn)行垃圾郵件處理,則需要存儲所有需要處理的郵件的全 文,存儲空間占用較大。
下面給出確定可疑垃圾郵件范圍的系統(tǒng)的實(shí)施例。
圖3是確定可疑垃圾郵件范圍的系統(tǒng)的第一實(shí)施例結(jié)構(gòu)圖,如圖3所示, 該系統(tǒng)包括待確定可疑垃圾郵件特征截取裝置301、統(tǒng)計(jì)裝置302和可疑垃圾 郵件確定裝置303。
待確定可疑垃圾郵件特征截取裝置301,用于從每個已接收的電子郵件中 截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征,將截取到的待確定可 疑垃圾郵件特征發(fā)給統(tǒng)計(jì)裝置302。
統(tǒng)計(jì)裝置302,用于接收待確定可疑垃圾郵件特征,統(tǒng)計(jì)接收的每個待確 定可疑垃圾郵件特征在接收的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù),將 按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征發(fā)給 可疑垃圾郵件確定裝置303。
可疑垃圾郵件確定裝置303,用于將接收的待確定可疑垃圾郵件特征確定 為可疑垃圾郵件的特征,將具有所述特征的郵件作為可疑垃圾郵件。
待確定可疑垃圾郵件特征截取裝置301,還可以用于在電子郵件的主題與 全部正文的字符數(shù)總和大于第一預(yù)定數(shù)目時,從電子郵件的主題和全部正文的 固定位置處截取所述第一預(yù)定數(shù)目的字符作為待確定可疑垃圾郵件特征,并在 郵件的主題與全部正文的字符數(shù)總和少于所述第一預(yù)定數(shù)目時,截取所述郵件 的主題和全部正文作為待確定可疑垃圾郵件特征,將截取到的待確定可疑垃圾 郵件特征發(fā)給統(tǒng)計(jì)裝置302。
圖4是確定可疑垃圾郵件范圍的系統(tǒng)的第二實(shí)施例結(jié)構(gòu)圖,圖4所示的系 統(tǒng)與圖3所示的系統(tǒng)的區(qū)別僅在于
可疑垃圾郵件確定裝置303包括特征庫3031和可疑垃圾郵件確定模塊 3032。
特征庫3031,用于將接收的待確定可疑垃圾郵件特征作為可疑垃圾郵件特 征進(jìn)行存儲。
可疑垃圾郵件確定模塊3032,用于接收電子郵件,判斷接收的電子郵件是 否具有特征庫3031中的特征,將具有所述特征的電子郵件確定為可疑垃圾郵 件。
圖5是確定可疑垃圾郵件范圍的系統(tǒng)的第三實(shí)施例結(jié)構(gòu)圖,圖5所示的系 統(tǒng)與圖3或圖4所示的系統(tǒng)的區(qū)別僅在于圖5所示的系統(tǒng)進(jìn)一步包括垃圾郵 件確定裝置504。
垃圾郵件確定裝置504,用于判斷可疑垃圾郵件確定裝置303確定出的可 疑垃圾郵件是否是垃圾郵件。具體地,垃圾郵件確定裝置可以采用人工智能 (AI)、貝葉斯類、神經(jīng)網(wǎng)絡(luò)類或支持向量機(jī)等方式來判斷可疑垃圾郵件是否 是垃圾郵件。
可見,由于本發(fā)明實(shí)施例中,通過從每個已接收的電子郵件中截取第一預(yù) 定數(shù)目個字符作為待確定可疑垃圾郵件特征,統(tǒng)計(jì)截取到的每個待確定可疑垃 圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù),將按照重 復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征確定為可疑 垃圾郵件的特征,將具有所述特征的郵件作為可疑垃圾郵件,可以在判斷郵件 是否是可疑垃圾郵件之前,預(yù)先確定出可疑垃圾郵件的范圍,后續(xù)只需判斷 可疑垃圾郵件是否為垃圾郵件即可,而不必對每一封郵件均進(jìn)行判斷,提高 了判斷郵件是否為垃圾郵件的效率。
而且,在確定可疑垃圾郵件的范圍時,只對電子郵件的主題和固定位置 處的正文進(jìn)行處理,無須對電子郵件的全文都進(jìn)行處理,減少了需要處理的 信息量,提高了判斷郵件是否為垃圾郵件的效率。
另外,由于特征庫占用的存儲空間較小,與現(xiàn)有技術(shù)中判斷郵件是否是 垃圾郵件時需要保存郵件的全文信息相比,能夠節(jié)省存儲空間。
以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù) 范圍,凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換、改進(jìn)等, 均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1、一種確定可疑垃圾郵件范圍的方法,其特征在于,該方法包括從每個已接收的電子郵件中截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征;統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù),將按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征;將具有所述可疑垃圾郵件的特征的郵件作為可疑垃圾郵件。
2、 如權(quán)利要求l所述的方法,其特征在于,所述從每個已接收的電子郵件 中截取預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征包括在電子郵件的主題與全部正文的字符數(shù)總和大于第一預(yù)定數(shù)目時,從電子 郵件的主題和全部正文的固定位置處截取所述第一預(yù)定數(shù)目的字符作為待確定 可疑垃圾郵件特征,并在郵件的主題與全部正文的字符數(shù)總和少于所述第一預(yù) 定數(shù)目時,截取所述郵件的主題和全部正文作為待確定可疑垃圾郵件特征。
3、 如權(quán)利要求l所述的方法,其特征在于,所述統(tǒng)計(jì)截取到的每個待確定 可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)包 括統(tǒng)計(jì)每個待確定可疑垃圾郵件特征在與該待確定可疑垃圾郵件特征長度相 同的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù),將該重復(fù)次數(shù)作為該待確定 可疑垃圾郵件特征在所述截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次 數(shù)。
4、 如權(quán)利要求l所述的方法,其特征在于,所述統(tǒng)計(jì)截取到的每個待確定 可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)包 括統(tǒng)計(jì)每個待確定可疑垃圾郵件特征在長度大于或者等于該待確定可疑垃圾 郵件特征長度的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù),將該重復(fù)次數(shù)作為該待確定可疑垃圾郵件特征在所述截取到的所有待確定可疑垃圾郵件特征中 的重復(fù)次數(shù)。
5、 如權(quán)利要求l所述的方法,其特征在于,統(tǒng)計(jì)每個待確定可疑垃圾郵件 特征在長度大于或者等于該待確定可疑垃圾郵件特征長度的所有待確定可疑垃 圾郵件特征中的重復(fù)次數(shù)包括搜索長度大于或者等于被統(tǒng)計(jì)的待確定可疑垃圾郵件特征長度的待確定可 疑垃圾郵件特征的各個字符中,是否按照被統(tǒng)計(jì)的待確定可疑垃圾郵件特征中 各個字符的出現(xiàn)順序,出現(xiàn)了被統(tǒng)計(jì)的待確定可疑垃圾郵件特征的各個字符, 若是,則將重復(fù)次數(shù)加l。
6、 如權(quán)利要求1所述的方法,其特征在于,該方法進(jìn)一步包括將被確定為可疑垃圾郵件特征的待確定可疑垃圾郵件 特征存儲在可疑垃圾郵件特征庫中;所述將具有所述特征的郵件作為可疑垃圾郵件為將具有所述特征庫中的特征的可疑垃圾郵件待確定對象確定為可疑垃圾郵件。
7、 如權(quán)利要求1或6所述的方法,其特征在于,該方法進(jìn)一步包括 判斷可疑垃圾郵件是否為垃圾郵件。
8、 如權(quán)利要求2所述的方法,其特征在于,所述全部正文的固定位置為所 述全部正文的起始處或中部或尾部。
9、 一種確定可疑垃圾郵件范圍的系統(tǒng),其特征在于,該系統(tǒng)包括待確定可 疑垃圾郵件特征截取裝置、統(tǒng)計(jì)裝置和可疑垃圾郵件確定裝置;所述待確定可疑垃圾郵件特征截取裝置,用于從每個已接收的電子郵件中 截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征,將截取到的待確定可 疑垃圾郵件特征發(fā)給統(tǒng)計(jì)裝置;所述統(tǒng)計(jì)裝置,用于接收待確定可疑垃圾郵件特征,統(tǒng)計(jì)接收的每個待確 定可疑垃圾郵件特征在接收的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù),將 按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征發(fā)給 所述可疑垃圾郵件確定裝置;所述可疑垃圾郵件確定裝置,用于將接收的待確定可疑垃圾郵件特征確定 為可疑垃圾郵件的特征,將具有所述特征的郵件作為可疑垃圾郵件。
10、 如權(quán)利要求9所述的系統(tǒng),其特征在于,所述待確定可疑垃圾郵件特征截取裝置,用于在電子郵件的主題與全部正 文的字符數(shù)總和大于第一預(yù)定數(shù)目時,從電子郵件的主題和全部正文的固定位 置處截取所述第一預(yù)定數(shù)目的字符作為待確定可疑垃圾郵件特征,并在郵件的 主題與全部正文的字符數(shù)總和少于所述第一預(yù)定數(shù)目時,截取所述郵件的主題 和全部正文作為待確定可疑垃圾郵件特征,將截取到的待確定可疑垃圾郵件特 征發(fā)給統(tǒng)計(jì)裝置。
11、 如權(quán)利要求9所述的系統(tǒng),其特征在于,所述可疑垃圾郵件確定裝置 包括特征庫和可疑垃圾郵件確定模塊;所述特征庫,用于將接收的待確定可疑垃圾郵件特征作為可疑垃圾郵件特征進(jìn)行存4諸;所述可疑垃圾郵件確定模塊,用于接收電子郵件,判斷接收的電子郵件是 否具有所述特征庫中的特征,將具有所述特征的電子郵件確定為可^^垃圾郵件。
12、 如權(quán)利要求9或10或11所述的系統(tǒng),其特征在于,該系統(tǒng)進(jìn)一步包 括垃圾郵件確定裝置;所述垃圾郵件確定裝置,用于判斷所述可疑垃圾郵件確定裝置確定出的可 疑垃圾郵件是否是垃圾郵件。
全文摘要
本發(fā)明實(shí)施例公開了一種確定可疑垃圾郵件范圍的方法和系統(tǒng)。該方法包括從每個已接收的電子郵件中截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征;統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù),將按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征;將具有所述可疑垃圾郵件的特征的郵件作為可疑垃圾郵件。應(yīng)用本發(fā)明可以預(yù)先確定可疑垃圾郵件的范圍,從而提高判斷郵件是否為垃圾郵件的效率。
文檔編號H04L12/58GK101360074SQ20081016711
公開日2009年2月4日 申請日期2008年9月27日 優(yōu)先權(quán)日2008年9月27日
發(fā)明者暉 王, 陳志強(qiáng) 申請人:騰訊科技(深圳)有限公司