一種確定可疑垃圾郵件范圍的方法和系統(tǒng)的制作方法

文檔序號：7919929閱讀：175來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

專利名稱：一種確定可疑垃圾郵件范圍的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及電子郵件技術(shù)領(lǐng)域，尤其涉及一種確定可疑垃圾郵件范圍的方法和系統(tǒng)。
背景技術(shù)：
電子郵件已經(jīng)成為人們溝通交流的重要通訊工具，隨之而來，如何防止垃圾郵件對廣大電子郵件用戶的干擾成為了電子郵件技術(shù)領(lǐng)域一個亟待解決的問題。
目前，為了最大限度地防止垃圾郵件對電子郵件用戶的干擾，出現(xiàn)了一種采用全文搜索的方式過濾垃圾郵件的方法，下面參照圖l對該方法進(jìn)行介紹。
圖1是現(xiàn)有技術(shù)中采用全文搜索方式過濾垃圾郵件的方法流程圖，如圖
1所示，該方法包括
步驟IOI，搜索當(dāng)前電子郵件的主題和全部正文，以固定的信息長度從郵件全文中截取樣本，作為該郵件的指紋信息，代表原始郵件。
步驟102，判斷存儲的郵件中是否有與該當(dāng)前電子郵件的內(nèi)容相似的電子郵件，如果是，執(zhí)行步驟103，否則，返回步驟IOI。
步驟103，判斷與該當(dāng)前電子郵件的內(nèi)容相似的電子郵件數(shù)目是否已達(dá) 到預(yù)定義的垃圾閾值，若是，執(zhí)行步驟104,否則返回步驟IOI。
步驟104，將該當(dāng)前郵件以及與該當(dāng)前郵件內(nèi)容相似的電子郵件標(biāo)注為垃圾郵件，結(jié)束本流程。
可見，圖1所示的方法以每一封電子郵件的主題和全部正文為搜索對象，判斷存儲的電子郵件中是否有與該當(dāng)前電子郵件的內(nèi)容相似的電子郵
件，然后根據(jù)內(nèi)容相似的電子郵件數(shù)目來過濾垃圾郵件。這種方法需要對每一封郵件都進(jìn)行全文搜索處理，數(shù)據(jù)處理量龐大，判斷郵件是否為垃圾郵件的效率較低。

發(fā)明內(nèi)容
有鑒于此，本發(fā)明的目的在于提供一種確定可疑垃圾郵件范圍的方法和系統(tǒng)，以預(yù)先確定可疑垃圾郵件的范圍，從而提高判斷郵件是否為垃圾郵件的效率。
為達(dá)到上述目的，本發(fā)明的技術(shù)方案具體是這樣實(shí)現(xiàn)的一種確定可疑垃圾郵件范圍的方法，該方法包括
從每個已接收的電子郵件中截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征；
統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)，將按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征；
將具有所述可疑垃圾郵件的特征的郵件作為可疑垃圾郵件。
一種確定可疑垃圾郵件范圍的系統(tǒng)，該系統(tǒng)包括待確定可疑垃圾郵件特征截取裝置、統(tǒng)計(jì)裝置和可疑垃圾郵件確定裝置；
所述待確定可疑垃圾郵件特征截取裝置，用于從每個已接收的電子郵件中截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征，將截取到的待確定可疑垃圾郵件特征發(fā)給統(tǒng)計(jì)裝置；
所述統(tǒng)計(jì)裝置，用于接收待確定可疑垃圾郵件特征，統(tǒng)計(jì)接收的每個待確
按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征發(fā)給所述可疑垃圾郵件確定裝置；
所述可疑垃圾郵件確定裝置，用于將接收的待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征，將具有所迷特征的郵件作為可疑垃圾郵件。
可見，由于本發(fā)明中，通過從每個已接收的電子郵件中截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征，統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)，將按照重復(fù)次數(shù)
由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征，將具有所述特征的郵件作為可疑垃圾郵件，可以在判斷郵件是否是垃圾郵件之前，預(yù)先確定出可疑垃圾郵件的范圍，后續(xù)只需判斷可疑垃圾郵件是否為垃圾郵件即可，而不必對每一封郵件均進(jìn)行判斷，提高了判斷郵件是否為垃圾郵件的效率。

圖1是現(xiàn)有技術(shù)中采用全文搜索方式過濾垃圾郵件的方法流程圖；圖2是本發(fā)明實(shí)施例中確定可疑垃圾郵件范圍的方法流程圖；圖3是確定可疑垃圾郵件范圍的系統(tǒng)的第一實(shí)施例結(jié)構(gòu)圖；圖4是確定可疑垃圾郵件范圍的系統(tǒng)的第二實(shí)施例結(jié)構(gòu)圖；圖5是確定可疑垃圾郵件范圍的系統(tǒng)的第三實(shí)施例結(jié)構(gòu)圖。
具體實(shí)施例方式
為使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白，以下參照附圖并舉實(shí)施例，對本發(fā)明進(jìn)一步詳細(xì)說明。
圖2是本發(fā)明實(shí)施例中確定可疑垃圾郵件范圍的方法流程圖，如圖2所示，該方法包括
步驟201，從每個已接收的電子郵件中截取待確定可疑垃圾郵件特征。本步驟中，在電子郵件的主題與全部正文的字符數(shù)總和大于第一預(yù)定數(shù)目時，從電子郵件的主題和全部正文的固定位置處截取所述第一預(yù)定數(shù)目的字符作為待確定可疑垃圾郵件特征，在郵件的主題與全部正文的字符數(shù)總和少于所述第一預(yù)定數(shù)目時，截取所述郵件的主題和全部正文作為待確定可疑垃圾郵件特征。所述的全部正文不包含主題。這里的待確定可疑垃圾郵件特征實(shí)際上
就是從郵件中截取的字符串。
所述全部正文的固定位置是指正文的某一部分，例如可以是正文的起始處，也可以是正文的其他部分，例如，可以是正文的中部或者尾部。
例如，如果第一封電子郵件的主題有IO個字符，全部正文有100個字
符，所述固定位置是指所述全部正文的起始處，第二封電子郵件的主題有
12個字符，全部正文有18個字符，而所述第一預(yù)定數(shù)目為60個，那么，從第一封郵件中截取的待確定可疑垃圾郵件特征就是第一封電子郵件的主題的10個字符和從第一封電子郵件的正文起始處開始的50個字符順次組成的字符串，從第二封電子郵件中截取的待確定可疑垃圾郵件特征就是所述第二封電子郵件的全部字符順次組成的字符串。
由于本步驟中，對于字符數(shù)大于第一預(yù)定數(shù)目的電子郵件，只對所述電子郵件的主題和部分正文進(jìn)行處理，而非對所述電子郵件的全部正文進(jìn)行處理，因此，需要處理的信息量較小，可以提高對每封電子郵件進(jìn)行處理的速度。
另外，通常垃圾郵件中的大量垃圾信息都出現(xiàn)在郵件的主題和正文的起始處，例如出現(xiàn)在電子郵件的首段，因此，當(dāng)所述固定位置是正文的起始處時，還可以在減小需要處理的信息量的同時，避免對垃圾信息的漏檢。當(dāng)然，如果郵件中的大量垃圾信息出現(xiàn)的位置靠后，例如出現(xiàn)在郵件的中部或者尾
對垃圾信息的漏檢。其中，郵件的垃圾信息通常出現(xiàn)在郵件的哪些位置上可
統(tǒng)計(jì)信息而定，然后在按照圖2所示方法設(shè)計(jì)確定可疑垃圾郵件范圍的程序或者裝置時，將所述固定位置具體設(shè)置為郵件的起始處、中部或者尾部，則后續(xù)所述程序或裝置在確定可疑垃圾郵件范圍時，只需對電子郵件的主題和該固定位置處的正文進(jìn)行處理即可，而無需搜索電子郵件的全文，對該全文進(jìn)行處理。通過統(tǒng)計(jì)已經(jīng)判斷出的垃圾郵件中的垃圾信息出現(xiàn)在郵件各個位置的概率，可以得到所述統(tǒng)計(jì)信息。
步驟202，統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)。
本步驟中，統(tǒng)計(jì)所述重復(fù)次數(shù)的方法可以為
方法一，統(tǒng)計(jì)每個待確定可疑垃圾郵件特征在與該待確定可疑垃圾郵件特征長度相同的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)，將該重復(fù)次數(shù)作為該待確定可疑垃圾郵件特征在所述截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)
方法二，統(tǒng)計(jì)每個待確定可疑垃圾郵件特征在長度大于或者等于該待確定可疑垃圾郵件特征長度的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)，將該重復(fù)次數(shù)作為該待確定可疑垃圾郵件特征在所述截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)。具體地，可以搜索長度大于或者等于被統(tǒng)計(jì)的待確定可疑垃圾郵件特征長度的待確定可疑垃圾郵件特征的各個字符中，是否按照被統(tǒng) 計(jì)的待確定可疑垃圾郵件特征中各個字符的出現(xiàn)順序，出現(xiàn)了被統(tǒng)計(jì)的待確定可疑垃圾郵件特征的各個字符，若是，則將重復(fù)次數(shù)加1。
例如，當(dāng)前截取的待確定可疑垃圾郵件特征有"123456" 、"12345"、 "12345" "13589"和"1~2~3~4~5"，按照方法一，待確定可疑垃圾郵件特征"12345"的重復(fù)次數(shù)為2，按照方法二，待確定可疑垃圾郵件特征"12345" 的重復(fù)次^t為4。
當(dāng)按照方法二統(tǒng)計(jì)所述重復(fù)次數(shù)時，可以去除垃圾郵件中干擾字的干擾，例如，去除字符" ，，的干擾，避免由于干擾字造成的漏檢可疑垃圾郵件。
步驟203，將按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征。其中，第二預(yù)定數(shù)目是預(yù)先設(shè)定的自然數(shù)。
本步驟中，可以按照重復(fù)次數(shù)對各個字符串進(jìn)行排序，例如，可以按照重復(fù)次數(shù)對字符串進(jìn)行降序排列或升序排列，然后將排在最前面第二預(yù)定數(shù) 目位或最后面第二預(yù)定數(shù)目位的字符串確定為可疑垃圾郵件的特征。
例如，按照字符串的重復(fù)次數(shù)從高到低的順序?qū)ψ址M(jìn)行排序(即P務(wù)序排列)，并列出出現(xiàn)相應(yīng)字符串的郵件列表，以供后續(xù)確定可疑垃圾郵件使用，
具體請見表一，表一中的EML表示郵件。
字符串重復(fù)次數(shù)詞出現(xiàn)在的郵件列表
A、 B20000EML1，EML2,EML3，…
C10000EML3, EML5,EML6,…
D1000…
表一
如果所述第二預(yù)定數(shù)目的取值為2，那么，字符串A、字符串B和字符串C就是可疑垃圾郵件的特征。第二預(yù)定數(shù)目的具體取值也是在設(shè)計(jì)相應(yīng)的確定可疑垃圾郵件范圍的程序時確定的。其中的"A" 、 "B"和"C，，是字符串的代號，并非真正的字符串，例如，字符串A可以代表字符串"12345", 字符串B可以代表字符串"6789"。
步驟204，將具有所述特征的郵件作為可疑垃圾郵件，結(jié)束本流程。
當(dāng)所述第二預(yù)定數(shù)目的取值為2時，按照表一，出現(xiàn)了字符串A或字符串B或字符串C的郵件被確定為可疑垃圾郵件。
確定出可疑垃圾郵件的范圍后，可以將確定出的可疑垃圾郵件范圍交給反垃圾系統(tǒng)，則后續(xù)可以只判斷可疑垃圾郵件是否是垃圾郵件，而無需判斷接收的每一封郵件是否是垃圾郵件。其中，可以通過人工或者人工智能(AI) 來判斷可疑垃圾郵件是否為垃圾郵件。實(shí)際應(yīng)用中，可以在收到電子郵件后立即按照圖2的方法判斷該郵件是否是可疑垃圾郵件，也可以先存儲收到的電子郵件，然后定時或定量判斷當(dāng)前存儲的電子郵件是否是可疑垃圾郵件。
圖2中的第一預(yù)定數(shù)目的具體取值是由本領(lǐng)域的技術(shù)人員預(yù)先選定的，下面對所述第一預(yù)定數(shù)目的具體數(shù)值的選擇方法進(jìn)行介紹。
本領(lǐng)域的技術(shù)人員首先預(yù)設(shè)一個閾值范圍，并為所述第一預(yù)定數(shù)目選擇
一個具體的取值，所述閾值范圍的含義是如果字符串的重復(fù)次數(shù)在該閾值范圍內(nèi)，則該字符串是可疑垃圾郵件的特征，否則，該字符串不是可疑垃圾郵件的特征。本領(lǐng)域技術(shù)人員可以依據(jù)經(jīng)驗(yàn)來確定該閾值范圍，例如，如果通過一段時間的人工統(tǒng)計(jì)，發(fā)現(xiàn)垃圾電子郵件占所有電子郵件的比例在 10% 50%之間，那么當(dāng)對10000封郵件圏定可#是垃圾郵件范圍時，所迷閾值范圍可以確定為(1000， 5000)。
假設(shè)所述閾值范圍是(1000, 5000)，第一預(yù)定數(shù)目取值是5，按照圖 2所示的方法統(tǒng)計(jì)出的某一字符串的重復(fù)次數(shù)大于等于5000，則說明第一預(yù) 定數(shù)目的取值設(shè)得過小，該重復(fù)次數(shù)大于等于5000的字符串不僅可能出現(xiàn) 在垃圾郵件中，還可能大量地出現(xiàn)在非垃圾郵件中，此后，設(shè)計(jì)人員增大第一預(yù)定數(shù)目的取值，例如，取為7，再次按照圖2所示的方法統(tǒng)計(jì)每一字符串的重復(fù)次數(shù)，如果本次統(tǒng)計(jì)出的該重復(fù)次數(shù)在(1000， 5000)之間，則說明第一預(yù)定數(shù)目的取值是合理的，因此，可以將第一預(yù)定數(shù)目取為7。
圖2中，確定出可疑垃圾郵件的特征后，可以將可疑垃圾郵件的特征存入
只需判斷可疑垃圾郵件是否為垃圾郵件即可。其中，特征庫可以采用表一的形式，即存儲有可疑垃圾郵件的特征、每個特征在郵件中出現(xiàn)的重復(fù)次數(shù)以及出現(xiàn)該特征的郵件列表，也可以采用其他的形式，例如只存儲有特征和所述重復(fù) 次數(shù)。
所述的特征庫占用的存儲空間小，因此，在利用該特征庫確定可疑垃圾郵件范圍時，可以減小反垃圾郵件系統(tǒng)占用的存儲空間，這是因?yàn)椋绻凑宅F(xiàn) 有技術(shù)對郵件的全文進(jìn)行垃圾郵件處理，則需要存儲所有需要處理的郵件的全文，存儲空間占用較大。
下面給出確定可疑垃圾郵件范圍的系統(tǒng)的實(shí)施例。
圖3是確定可疑垃圾郵件范圍的系統(tǒng)的第一實(shí)施例結(jié)構(gòu)圖，如圖3所示，該系統(tǒng)包括待確定可疑垃圾郵件特征截取裝置301、統(tǒng)計(jì)裝置302和可疑垃圾郵件確定裝置303。
待確定可疑垃圾郵件特征截取裝置301，用于從每個已接收的電子郵件中截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征，將截取到的待確定可疑垃圾郵件特征發(fā)給統(tǒng)計(jì)裝置302。
統(tǒng)計(jì)裝置302,用于接收待確定可疑垃圾郵件特征，統(tǒng)計(jì)接收的每個待確定可疑垃圾郵件特征在接收的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)，將按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征發(fā)給可疑垃圾郵件確定裝置303。
可疑垃圾郵件確定裝置303，用于將接收的待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征，將具有所述特征的郵件作為可疑垃圾郵件。
待確定可疑垃圾郵件特征截取裝置301，還可以用于在電子郵件的主題與全部正文的字符數(shù)總和大于第一預(yù)定數(shù)目時，從電子郵件的主題和全部正文的固定位置處截取所述第一預(yù)定數(shù)目的字符作為待確定可疑垃圾郵件特征，并在郵件的主題與全部正文的字符數(shù)總和少于所述第一預(yù)定數(shù)目時，截取所述郵件的主題和全部正文作為待確定可疑垃圾郵件特征，將截取到的待確定可疑垃圾郵件特征發(fā)給統(tǒng)計(jì)裝置302。
圖4是確定可疑垃圾郵件范圍的系統(tǒng)的第二實(shí)施例結(jié)構(gòu)圖，圖4所示的系統(tǒng)與圖3所示的系統(tǒng)的區(qū)別僅在于
可疑垃圾郵件確定裝置303包括特征庫3031和可疑垃圾郵件確定模塊 3032。
特征庫3031,用于將接收的待確定可疑垃圾郵件特征作為可疑垃圾郵件特征進(jìn)行存儲。
可疑垃圾郵件確定模塊3032，用于接收電子郵件，判斷接收的電子郵件是否具有特征庫3031中的特征，將具有所述特征的電子郵件確定為可疑垃圾郵件。
圖5是確定可疑垃圾郵件范圍的系統(tǒng)的第三實(shí)施例結(jié)構(gòu)圖，圖5所示的系統(tǒng)與圖3或圖4所示的系統(tǒng)的區(qū)別僅在于圖5所示的系統(tǒng)進(jìn)一步包括垃圾郵件確定裝置504。
垃圾郵件確定裝置504,用于判斷可疑垃圾郵件確定裝置303確定出的可疑垃圾郵件是否是垃圾郵件。具體地，垃圾郵件確定裝置可以采用人工智能 (AI)、貝葉斯類、神經(jīng)網(wǎng)絡(luò)類或支持向量機(jī)等方式來判斷可疑垃圾郵件是否是垃圾郵件。
可見，由于本發(fā)明實(shí)施例中，通過從每個已接收的電子郵件中截取第一預(yù) 定數(shù)目個字符作為待確定可疑垃圾郵件特征，統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)，將按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征，將具有所述特征的郵件作為可疑垃圾郵件，可以在判斷郵件是否是可疑垃圾郵件之前，預(yù)先確定出可疑垃圾郵件的范圍，后續(xù)只需判斷可疑垃圾郵件是否為垃圾郵件即可，而不必對每一封郵件均進(jìn)行判斷，提高了判斷郵件是否為垃圾郵件的效率。
而且，在確定可疑垃圾郵件的范圍時，只對電子郵件的主題和固定位置處的正文進(jìn)行處理，無須對電子郵件的全文都進(jìn)行處理，減少了需要處理的信息量，提高了判斷郵件是否為垃圾郵件的效率。
另外，由于特征庫占用的存儲空間較小，與現(xiàn)有技術(shù)中判斷郵件是否是垃圾郵件時需要保存郵件的全文信息相比，能夠節(jié)省存儲空間。
以上所述，僅為本發(fā)明的較佳實(shí)施例而已，并非用于限定本發(fā)明的保護(hù) 范圍，凡在本發(fā)明的精神和原則之內(nèi)所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1、一種確定可疑垃圾郵件范圍的方法，其特征在于，該方法包括從每個已接收的電子郵件中截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征；統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)，將按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征；將具有所述可疑垃圾郵件的特征的郵件作為可疑垃圾郵件。
2、如權(quán)利要求l所述的方法，其特征在于，所述從每個已接收的電子郵件中截取預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征包括在電子郵件的主題與全部正文的字符數(shù)總和大于第一預(yù)定數(shù)目時，從電子郵件的主題和全部正文的固定位置處截取所述第一預(yù)定數(shù)目的字符作為待確定可疑垃圾郵件特征，并在郵件的主題與全部正文的字符數(shù)總和少于所述第一預(yù) 定數(shù)目時，截取所述郵件的主題和全部正文作為待確定可疑垃圾郵件特征。
3、如權(quán)利要求l所述的方法，其特征在于，所述統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)包括統(tǒng)計(jì)每個待確定可疑垃圾郵件特征在與該待確定可疑垃圾郵件特征長度相同的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)，將該重復(fù)次數(shù)作為該待確定可疑垃圾郵件特征在所述截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)。
4、如權(quán)利要求l所述的方法，其特征在于，所述統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)包括統(tǒng)計(jì)每個待確定可疑垃圾郵件特征在長度大于或者等于該待確定可疑垃圾郵件特征長度的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)，將該重復(fù)次數(shù)作為該待確定可疑垃圾郵件特征在所述截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)。
5、如權(quán)利要求l所述的方法，其特征在于，統(tǒng)計(jì)每個待確定可疑垃圾郵件特征在長度大于或者等于該待確定可疑垃圾郵件特征長度的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)包括搜索長度大于或者等于被統(tǒng)計(jì)的待確定可疑垃圾郵件特征長度的待確定可疑垃圾郵件特征的各個字符中，是否按照被統(tǒng)計(jì)的待確定可疑垃圾郵件特征中各個字符的出現(xiàn)順序，出現(xiàn)了被統(tǒng)計(jì)的待確定可疑垃圾郵件特征的各個字符，若是，則將重復(fù)次數(shù)加l。
6、如權(quán)利要求1所述的方法，其特征在于，該方法進(jìn)一步包括將被確定為可疑垃圾郵件特征的待確定可疑垃圾郵件特征存儲在可疑垃圾郵件特征庫中；所述將具有所述特征的郵件作為可疑垃圾郵件為將具有所述特征庫中的特征的可疑垃圾郵件待確定對象確定為可疑垃圾郵件。
7、如權(quán)利要求1或6所述的方法，其特征在于，該方法進(jìn)一步包括判斷可疑垃圾郵件是否為垃圾郵件。
8、如權(quán)利要求2所述的方法，其特征在于，所述全部正文的固定位置為所述全部正文的起始處或中部或尾部。
9、一種確定可疑垃圾郵件范圍的系統(tǒng)，其特征在于，該系統(tǒng)包括待確定可疑垃圾郵件特征截取裝置、統(tǒng)計(jì)裝置和可疑垃圾郵件確定裝置；所述待確定可疑垃圾郵件特征截取裝置，用于從每個已接收的電子郵件中截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征，將截取到的待確定可疑垃圾郵件特征發(fā)給統(tǒng)計(jì)裝置；所述統(tǒng)計(jì)裝置，用于接收待確定可疑垃圾郵件特征，統(tǒng)計(jì)接收的每個待確定可疑垃圾郵件特征在接收的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)，將按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征發(fā)給所述可疑垃圾郵件確定裝置；所述可疑垃圾郵件確定裝置，用于將接收的待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征，將具有所述特征的郵件作為可疑垃圾郵件。
10、如權(quán)利要求9所述的系統(tǒng)，其特征在于，所述待確定可疑垃圾郵件特征截取裝置，用于在電子郵件的主題與全部正文的字符數(shù)總和大于第一預(yù)定數(shù)目時，從電子郵件的主題和全部正文的固定位置處截取所述第一預(yù)定數(shù)目的字符作為待確定可疑垃圾郵件特征，并在郵件的主題與全部正文的字符數(shù)總和少于所述第一預(yù)定數(shù)目時，截取所述郵件的主題和全部正文作為待確定可疑垃圾郵件特征，將截取到的待確定可疑垃圾郵件特征發(fā)給統(tǒng)計(jì)裝置。
11、如權(quán)利要求9所述的系統(tǒng)，其特征在于，所述可疑垃圾郵件確定裝置包括特征庫和可疑垃圾郵件確定模塊；所述特征庫，用于將接收的待確定可疑垃圾郵件特征作為可疑垃圾郵件特征進(jìn)行存4諸；所述可疑垃圾郵件確定模塊，用于接收電子郵件，判斷接收的電子郵件是否具有所述特征庫中的特征，將具有所述特征的電子郵件確定為可^^垃圾郵件。
12、如權(quán)利要求9或10或11所述的系統(tǒng)，其特征在于，該系統(tǒng)進(jìn)一步包括垃圾郵件確定裝置；所述垃圾郵件確定裝置，用于判斷所述可疑垃圾郵件確定裝置確定出的可疑垃圾郵件是否是垃圾郵件。
全文摘要
本發(fā)明實(shí)施例公開了一種確定可疑垃圾郵件范圍的方法和系統(tǒng)。該方法包括從每個已接收的電子郵件中截取第一預(yù)定數(shù)目個字符作為待確定可疑垃圾郵件特征；統(tǒng)計(jì)截取到的每個待確定可疑垃圾郵件特征在截取到的所有待確定可疑垃圾郵件特征中的重復(fù)次數(shù)，將按照重復(fù)次數(shù)由多到少排在前第二預(yù)定數(shù)目位的待確定可疑垃圾郵件特征確定為可疑垃圾郵件的特征；將具有所述可疑垃圾郵件的特征的郵件作為可疑垃圾郵件。應(yīng)用本發(fā)明可以預(yù)先確定可疑垃圾郵件的范圍，從而提高判斷郵件是否為垃圾郵件的效率。
文檔編號H04L12/58GK101360074SQ20081016711
公開日2009年2月4日申請日期2008年9月27日優(yōu)先權(quán)日2008年9月27日
發(fā)明者暉王, 陳志強(qiáng) 申請人:騰訊科技(深圳)有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王暉;陳志強(qiáng)
技術(shù)所有人：騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動信號時頻分析理論與測試系統(tǒng)設(shè)計(jì) 2.汽車檢測系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

垃圾郵件過濾系統(tǒng)相關(guān)技術(shù)

java垃圾郵件過濾系統(tǒng)相關(guān)技術(shù)

spam垃圾郵件過濾系統(tǒng)相關(guān)技術(shù)

垃圾郵件過濾相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種確定可疑垃圾郵件范圍的方法和系統(tǒng)的制作方法