專利名稱:一種基于興趣認(rèn)知的垃圾郵件識別方法及其系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明屬于計算機信息處理領(lǐng)域,具體說是一種在個人計算機中用于識別和過濾垃圾郵件的方法及其系統(tǒng)。本技術(shù)用于個人計算機中對垃圾郵件識別和進行相應(yīng)處理。
背景技術(shù):
近年來垃圾郵件激增,不但占用網(wǎng)絡(luò)資源,影響郵件系統(tǒng)的正常運行,也大大浪費郵件用戶的資源和時間。當(dāng)前,對垃圾郵件的過濾技術(shù)主要有行為過濾(白名單和黑名單過濾)、規(guī)則過濾以及內(nèi)容過濾。其中,白名單和黑名單過濾技術(shù)簡單易行,但是需要實時更新白名單和黑名單,而且很難保證只有有限、固定的幾個用戶在發(fā)送垃圾郵件?;谝?guī)則的過濾方法,即設(shè)置一些規(guī)則,只要符合這些規(guī)則的一條或幾條,就認(rèn)為是垃圾郵件;這些規(guī)則通常有信頭分析、群發(fā)過濾、關(guān)鍵字匹配、郵件內(nèi)容的其他特征等;采用基于規(guī)則的過濾技術(shù),確實能夠在一定時間內(nèi)很好地防范了垃圾郵件,但其不足之處在于規(guī)則都是人工指定的,需要人們不斷去發(fā)現(xiàn)和總結(jié)、更新,人為因素比較多,一些沒有經(jīng)驗的用戶可能很難提供有效的規(guī)則;而且,手工制定規(guī)則比較耗時,準(zhǔn)確率也受到了限制。內(nèi)容過濾主要是文本分類,所謂文本分類,就是通過一定的算法,對輸入文本進行分析,并根據(jù)結(jié)果將文本劃分為正常郵件或者是垃圾郵件。在文本分類中,較多采用關(guān)鍵詞過濾,即文件中包含有某些關(guān)鍵詞,即認(rèn)為該文件是垃圾郵件或者是正常郵件。更加先進的技術(shù)也開始用于反垃圾郵件。
申請?zhí)枮?00410009854的中國發(fā)明專利申請公開了一種“垃圾郵件過濾的方法和系統(tǒng)”,這種技術(shù)將原始郵件庫中的垃圾郵件和合法郵件分別表示為通用后綴樹(GST)結(jié)構(gòu)。對于新到達(dá)的郵件,通過每個文本位置的不定長統(tǒng)計,自動獲得其在垃圾郵件集和合法郵件集中的出現(xiàn)頻率,計算其與垃圾郵件集和合法郵件集的近似度,最終確定新到達(dá)郵件是垃圾郵件或者是正常郵件的屬性。
申請?zhí)枮?00410018327的中國發(fā)明專利申請公開了“一種自適應(yīng)、安全過濾垃圾郵件的方法”,這種方法建立中央和本地兩個規(guī)則庫;其中,中央規(guī)則庫在服務(wù)器上自動形成,本地規(guī)則庫在用戶PC機上自動形成。在用戶PC機上利用郵件處理系統(tǒng)根據(jù)中央規(guī)則庫和本地規(guī)則庫計算所接收的郵件分值,判斷接收的郵件是否為垃圾郵件。中央規(guī)則庫和本地規(guī)則庫自動學(xué)習(xí)更新,即在服務(wù)器上中央規(guī)則庫自動更新,在用戶PC機上本地規(guī)則庫自動更新,用戶PC機自動定期獲得最新的中央規(guī)則庫。對用戶所接受的郵件內(nèi)容經(jīng)過智能分析,自動將合法郵件保留在收件箱,將垃圾郵件存放隔離區(qū),在提高垃圾郵件識別率的同時降低合法郵件的誤判率,從而使用戶節(jié)省時間和精力。
申請?zhí)枮?00510114440的中國發(fā)明專利申請公開了“一種過濾垃圾郵件的方法”,先用DNA模式識別模塊對輸入的正常郵件和垃圾郵件集合進行模式識別,存入DNA模式庫;再利用特征模式分詞模塊對郵件進行檢測,檢測流程依次為對經(jīng)過一定算法編碼的被檢郵件正文進行解碼,識別其所包含的模式;對被檢郵件進行DNA輔助分詞,根據(jù)DNA模式庫識別郵件正文及標(biāo)題中所包含的特征模式,并將其標(biāo)識出來;將經(jīng)過上述處理的郵件正文及標(biāo)題重新組裝成滿足特定要求的郵件,送至貝葉斯檢測系統(tǒng);由貝葉斯檢測系統(tǒng)將經(jīng)過上述處理的郵件進行識別,將不符合分類條件的郵件攔截下來。
本申請人認(rèn)為垃圾郵件是一種對接收者無用的郵件或者是接收者不感興趣的郵件,但同樣的一封郵件,對于不同的接收者可能具有不同的屬性,一些接收者認(rèn)為是有用的正常郵件,而另外一些接收者認(rèn)為是垃圾郵件。遺憾的是截止目前的反垃圾郵件技術(shù),包括上述提及的專利申請技術(shù)方案,都沒有對接收者的工作和生活興趣進行識別,不能形成一種基于興趣認(rèn)知的智能化垃圾郵件處理技術(shù)。
發(fā)明內(nèi)容
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的缺點和不足,提供一種基于興趣認(rèn)知的垃圾郵件識別方法;本方法從認(rèn)知機理出發(fā),通過對客戶發(fā)送的郵件和對接收郵件的處理來認(rèn)知客戶的工作和生活興趣,并根據(jù)該客戶的上述工作和生活興趣來過濾掉垃圾郵件,保存正常郵件。也可以和具它反垃圾郵件結(jié)合使用,在這種情況下,本方法輸出一個代表郵件屬性的指紋,以便系統(tǒng)決策判斷作為依據(jù)。
本發(fā)明的另一目的在于提供一種實現(xiàn)上述方法的基于興趣認(rèn)知的垃圾郵件識別系統(tǒng)。
本發(fā)明的目的通過下技術(shù)方案實現(xiàn)一種基于興趣認(rèn)知的垃圾郵件識別方法,包括下述步驟——1.個人興趣認(rèn)知知識庫的建立和維護1.1通過最大限度地收集客戶往來的郵件,包括客戶發(fā)送出去的郵件和接收的郵件中已經(jīng)被其它過濾系統(tǒng)定性為垃圾郵件的郵件,以便認(rèn)知客戶的生活和工作興趣。本發(fā)明首先將客戶發(fā)送和接收的郵件的郵件主題、郵件內(nèi)容采用自然語言理解的人工智能技術(shù)——分詞技術(shù)分解為單詞(中文分詞)。
1.2以由1.1得到的單詞為索引建立、更新和擴充知識庫,對沒有的單詞進行添加并按1.3登記屬性概率;對知識庫中已經(jīng)有的單詞只是考慮新的事件重新計算并刷新其屬性概率,實現(xiàn)知識庫的積累和更新。在開始使用本發(fā)明時,知識庫中的內(nèi)容為零,通過對用戶郵件的收集,在用戶的指導(dǎo)下,建立知識庫。并隨著用戶郵件的增加而逐步積累和更新知識。
1.3知識庫中的屬性概率按照如下規(guī)律確定并刷新對發(fā)送出去的郵件中所有的單詞,均記為出現(xiàn)在正常郵件中的樣本;對接收郵件中的單詞,在訓(xùn)練期內(nèi),按照客戶確定的屬性記錄樣本數(shù),在訓(xùn)練期完成以后,按照系統(tǒng)決策的屬性記入樣本數(shù)。
1.4對知識庫單詞出現(xiàn)的總樣本數(shù)設(shè)定有閾值,以便對該單詞的屬性成熟度進行標(biāo)識。僅當(dāng)各個分詞的總樣本數(shù)高于這個閾值時,才容許結(jié)束訓(xùn)練期。
2.郵件屬性概率計算和郵件屬性評價2.1按照1.1中得出的單詞總數(shù)和1.2及1.3中得出的屬性概率分別計算各單詞在待評價郵件中出現(xiàn)的條件概率。
2.2利用2.1的結(jié)果利用貝葉斯分類公式計算郵件的屬性概率。
2.3根據(jù)給定的閾值進行屬性評價。
2.4在訓(xùn)練期內(nèi),將評價決策結(jié)果與客戶的決策結(jié)果進行比較并修改決策閾值。僅當(dāng)決策結(jié)果與客戶決策結(jié)果達(dá)到接近時,才能結(jié)束訓(xùn)練期。
3.結(jié)果輸出3.1在本發(fā)明單獨使用時,在訓(xùn)練期內(nèi)顯示評價的郵件屬性指紋(屬性概率)。在訓(xùn)練期結(jié)束后將垃圾郵件放入隔離區(qū)。
3.2在本發(fā)明與其它反垃圾郵件技術(shù)聯(lián)合使用時,向指定接口輸出郵件屬性指紋(屬性概率)。
步驟1.1中,將所述客戶發(fā)送的郵件作為正常郵件且具有最高的權(quán)重;由于客戶發(fā)送的郵件在一定程度上反映了該客戶的工作和社會生活興趣,所以本技術(shù)將客戶的個人興趣(語言特征分詞)進行分析并建立相應(yīng)的指紋庫,同一分詞的再次出現(xiàn)或多次出現(xiàn)將對該分詞的指紋進行修正。
步驟1.1中,所述客戶接收的郵件包括兩類,一種是感興趣的正常郵件,一種是不感興趣的垃圾郵件。本發(fā)明采用有導(dǎo)師的訓(xùn)練學(xué)習(xí),在訓(xùn)練期內(nèi),所述客戶接收的郵件將要求用戶給予定性,訓(xùn)練期結(jié)束后,將由系統(tǒng)自動進行計算和評價來予以定性。被定性郵件的單詞對將作為事件去重新計算該單詞的屬性概率。
步驟1.1中,所述分解為單詞的步驟是將客戶發(fā)送和接收的郵件的郵件主題、郵件內(nèi)容關(guān)鍵字的詞組、短語、句子、文段中的詞分開。將中文詞組、短語、句子、文段中的詞分開技術(shù)稱為中文分詞技術(shù)。
步驟1.2中,所述知識積累和更新包括兩個方面(A)詞的添加;當(dāng)新的郵件進入時,系統(tǒng)迅速按新郵件的詞對詞庫進行檢索,當(dāng)詞庫中沒有檢索的詞時,就將該詞及其概率添加到知識庫中。(B)詞的屬性概率更新;當(dāng)新的郵件進入時,系統(tǒng)迅速按新郵件的詞對詞庫進行檢索,當(dāng)詞庫中已有檢索的詞時,就先前的概率調(diào)出,結(jié)合本次事件重新計算概率并按此刷新庫中該詞的概率。無論是哪種郵件(發(fā)送的郵件、接收的正常郵件和垃圾郵件)輸入,在分詞的過程中都要對庫中的詞進行檢索,對特征庫中沒有的詞,添加到庫中;對庫中已有的分詞,將根據(jù)郵件的性質(zhì)對該分詞的概率進行重新計算并進行庫維護。
步驟1.3中所述訓(xùn)練期,是從用戶開始使用本發(fā)明的時刻開始的,所謂訓(xùn)練期的結(jié)束,有兩個標(biāo)志一是一封郵件中的所有單詞,出現(xiàn)次數(shù)(總樣本數(shù))最少的單詞的總次數(shù)大于某一預(yù)先設(shè)定的閾值;二是系統(tǒng)評價與訓(xùn)練期人為評價結(jié)果近似度超過另一預(yù)先設(shè)定的閾值。當(dāng)一封郵件滿足上述兩個條件時,系統(tǒng)將不提示客戶自動進行定性。當(dāng)用戶有新的社會生活愛好或者是工作變換是,郵件中出現(xiàn)的單詞不能滿足上述條件,系統(tǒng)自動進入訓(xùn)練期一種實現(xiàn)上述方法的基于興趣認(rèn)知的垃圾郵件識別系統(tǒng),包括分詞部件、垃圾郵件概率計算部件、知識庫部件、分類評價部件、屬性評價輸出部件,所述分詞部件同時與垃圾郵件概率計算部件及分類評價部件相連接,垃圾郵件概率計算部件與分類評價部件相互連接,兩者同時與知識庫部件連接,所述屬性評價輸出部件與分類評價部件相連接。
本發(fā)明的出發(fā)點是本發(fā)明認(rèn)為垃圾郵件是因人而異的。例如,對于一個關(guān)于人力資源培訓(xùn)的廣告性宣傳郵件對于從事人力資源管理的人是合法郵件,他們可以從中獲得相應(yīng)的信息和知識,而對于技術(shù)人員、財務(wù)人員和其它人員則是無用的垃圾郵件。同樣,股票知識和信息的郵件對于股民是有用信息,是合法郵件;而對于非股民和對股市沒有興趣的人就是垃圾郵件。因此,判斷一封郵件是否是垃圾郵件,就應(yīng)該對客戶的工作和生活興趣進行認(rèn)知。電子郵件中的郵件主題、郵件內(nèi)容都是由詞來表達(dá)的,本發(fā)明采用中文分詞技術(shù)將郵件的主題、內(nèi)容部分的關(guān)鍵字分開成單詞,那么這些單詞將反映客戶的工作和生活的興趣特征,如果某些詞在客戶發(fā)出和接收的正常郵件中出現(xiàn)的頻率高,而在客戶定性的垃圾郵件中出現(xiàn)的頻率低,若在該客戶再次接收的郵件中出現(xiàn)這個或這些詞,則表明該郵件是合法郵件的可能性較大。因而,本發(fā)明的應(yīng)用的程度取決于對個人興趣認(rèn)知的程度,而本發(fā)明采用與人的認(rèn)知相同的機理來積累知識庫,當(dāng)采用本發(fā)明后,知識庫里的知識像嬰兒一樣開始積累,并逐漸累積成可有效評價郵件并形成郵件指紋的詞庫,利用所述郵件指紋能夠描述郵件的性質(zhì)(垃圾郵件或正常郵件)。
本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點及效果(1)本發(fā)明最大的優(yōu)點是切合客戶的實際,對郵件使用客戶的個人生活和工作興趣進行智能認(rèn)知,本發(fā)明不要求一定采用垃圾郵件語料庫(也可以采用作為初始的單詞屬性),而是由個人進行訓(xùn)練形成知識庫,因此人性化特點突出。從效果上講,就能有效地過濾垃圾郵件和有效地保存合法郵件。
(2)本發(fā)明的個人生活和工作興趣知識庫,采用適時的學(xué)習(xí)和刷新方法,對客戶接受和發(fā)送的每一封郵件都作為學(xué)習(xí)的過程,對上述每一封郵件所包含的單詞的出現(xiàn),都作為事件予以統(tǒng)計。因此知識庫是一個連續(xù)學(xué)習(xí)和刷新的知識庫,這將使得垃圾郵件的過濾效果在不斷提高的基礎(chǔ)上持續(xù)保持。
(3)本發(fā)明對知識庫采用有導(dǎo)師的機器學(xué)習(xí),在開始使用本發(fā)明時,用戶就象沒有使用本發(fā)明一樣進行操作,不同的是對每一封接受的郵件,系統(tǒng)都將向用戶提問其屬性,接受用戶導(dǎo)師的指導(dǎo)。當(dāng)對一封接收的郵件已經(jīng)達(dá)到結(jié)束訓(xùn)練期的要求時,系統(tǒng)會自動過濾掉評價為垃圾郵件的郵件,對合法的郵件予以保存,但不在向用戶提問。在本發(fā)明過濾器已經(jīng)評價為合法而獲得通過的郵件,用戶認(rèn)為是過濾漏掉的垃圾郵件,則可以在刪除時注明,系統(tǒng)會自動接受指導(dǎo)改變知識庫中的事件屬性。這種方式更加貼近客戶,保證了過濾的效果。
(4)本發(fā)明對于訓(xùn)練期和工作期的界線是誠實和智能的,系統(tǒng)不是截然分為訓(xùn)練期和工作期,而是誠實地知之為知之,不知為不知。當(dāng)一封郵件的內(nèi)容,系統(tǒng)知識庫有足夠的知識予以評價和決策時,系統(tǒng)就決策和處理;當(dāng)一封郵件的內(nèi)容,系統(tǒng)知識庫沒有足夠的知識予以評價和決策時,系統(tǒng)就通過向用戶提問來進行學(xué)習(xí)。其突出的優(yōu)點在于,更加細(xì)致地保證了過濾效果。同時當(dāng)客戶的生活和工作興趣變化時,能夠與客戶一道適應(yīng)新的環(huán)境。即便在客戶的生活和工作興趣變化時,也能保證反映客戶興趣的過濾效果。
(5)本發(fā)明是基于郵件內(nèi)容的過濾方法,且在其中又屬于基于統(tǒng)計的過濾方法,但本發(fā)明不排斥其它的方法,可以與其它的過濾方法結(jié)合使用。例如,利用黑名單和白名單等規(guī)則的方法過濾后,本發(fā)明再對通過上述過濾的郵件進行內(nèi)容過濾,在原有的基礎(chǔ)上大大提高了過濾的效果。
圖1是本發(fā)明方框流程圖。
具體實施例方式
下面結(jié)合實施例及附圖對本發(fā)明作進一步詳細(xì)的描述,但本發(fā)明的實施方式不限于此。
實施例圖1示出了本發(fā)明系統(tǒng)的結(jié)構(gòu),由圖1可見,本基于個人興趣認(rèn)知的垃圾郵件識別系統(tǒng)包括分詞部件(4)、垃圾郵件概率計算部件(5)、知識庫(6)、分類評價部件(7)、屬性評價輸出部件(8),所述分詞部件同時與垃圾郵件概率計算部件及分類評價部件相連接,垃圾郵件概率計算部件與分類評價部件相互連接,兩者同時與知識庫連接,所述屬性評價輸出部件與分類評價部件相連接。
本系統(tǒng)實現(xiàn)的基于興趣認(rèn)知的垃圾郵件識別方法的實施過程具體如下1、郵件采集本發(fā)明將客戶通過客戶郵箱發(fā)送和接收的郵件全部采樣,用作認(rèn)知和積累客戶的生活和工作興趣知識。顯然,客戶發(fā)出的的郵件對該客戶來說是合法郵件,如果對事件要加權(quán),則客戶發(fā)送的郵件具有最高的權(quán)重。如果客戶已經(jīng)使用了其它垃圾郵件過濾器,則接收的郵件也將分成兩種已經(jīng)定性為垃圾郵件的郵件和待定性的郵件。圖1中部件1接收已經(jīng)定性為垃圾郵件的這類郵件,如果客戶沒有使用其它垃圾郵件過濾器,則系統(tǒng)中就沒有部件1。部件2接收未被其它垃圾郵件過濾器過濾掉的郵件,或者說是其它過濾器通過的正常郵件。如果客戶沒有使用其它垃圾郵件過濾器,則部件2要接收全部接收的郵件。部件3是接收客戶發(fā)送的郵件。上述三個部件接收上述三種來源的郵件后,都將收到的郵件送到分詞部件4。上述三種郵件接收采用相應(yīng)的復(fù)制技術(shù)。
2、知識庫的建立和維護本發(fā)明將利用認(rèn)知機理建立符合客戶工作和生活興趣的知識庫,客戶的上述興趣將反映在其發(fā)送和接收的郵件中,而反映郵件內(nèi)容的是組成郵件頭和郵件體的句子、短語的詞在合法郵件和在垃圾郵件中出現(xiàn)的頻率。本發(fā)明首先將上述接收和發(fā)送的郵件經(jīng)過分詞處理而成為單詞,然后統(tǒng)計這些詞分別出現(xiàn)在垃圾郵件和合法郵件中出現(xiàn)的頻率,形成該詞的屬性概率。在運行過程中,上述知識庫隨著郵件的增加不斷學(xué)習(xí)和更新。
部件4是分詞部件,其功能是將由部件1、部件2和部件3送來的郵件的郵件主題、郵件內(nèi)容的詞組、短語、句子、文段中的詞分開成為單詞。然后將上述郵件的單詞一一送入部件5進行處理。
部件5是單詞屬性計算部件,它主要根據(jù)部件4提供的單詞的屬性概率進行計算并對知識庫進行維護。具體的維護操作包括(A)詞的添加;系統(tǒng)按分詞處理得到的單詞對知識庫6進行檢索,當(dāng)詞庫中沒有檢索的詞時,就將該詞及其概率添加到知識庫6中。(B)單詞屬性概率的更新;當(dāng)知識庫6中已有被檢索的詞時,就將先前的概率調(diào)出,結(jié)合本次事件重新計算概率并按此刷新庫中該詞的概率。要建立或是維護知識庫中的概率時,對發(fā)送郵件中出現(xiàn)的單詞,當(dāng)前事件的屬性為合法,對已經(jīng)由其它過濾器定性的垃圾郵件,當(dāng)前事件的屬性為非法,對于接收的未定性郵件的屬性,將根據(jù)決策部件7的評價決策結(jié)果進行事件的定性。因此,部件5的輸入來自部件4、6和7。輸出到部件6。
部件5在計算每一個單詞的概率的同時,還對該詞出現(xiàn)的總次數(shù)進行標(biāo)識,該標(biāo)識能夠表明該詞出現(xiàn)的總次數(shù)是否達(dá)到預(yù)先設(shè)定的結(jié)束訓(xùn)練期的次數(shù)并存入單詞屬性知識庫6。
部件6是單詞屬性知識庫,其功能是存儲基于個人興趣的知識。實際上就是存儲單詞及其屬性概率。部件6接受部件5和部件7的查詢,也接受部件5的信息寫入。
3、分類評價決策本發(fā)明利用分類評價部件7對郵件的內(nèi)容的屬性進行計算和屬性決策。分類評價部件7的功能是對郵件進行分類決策。具體操作流程為對接收的郵件(來自部件1和部件2),經(jīng)分詞部件4分成單詞后,進入分類評價部件7,分類評價部件7首先從知識庫中調(diào)出各個單詞詞的屬性概率,然后按照統(tǒng)計決策方法貝葉斯(Bayes)等分類方法(也可以是如KNN、SVM、Winnow、Rocchio、)計算郵件的屬性。屬性是以概率的形式來表示的,部件7中有一個預(yù)先設(shè)定的評價標(biāo)準(zhǔn),當(dāng)計算的概率達(dá)到該評價標(biāo)準(zhǔn)時決策為合法郵件,否則為垃圾郵件。因此,部件7接收部件4送來的單詞和從知識庫部件6提取單詞的屬性概率。部件7的評價結(jié)果分別送到部件5和部件8,部件5根據(jù)部件7的評價結(jié)果重新計算單詞的屬性概率并刷新知識庫。部件8將分類評價結(jié)果以適當(dāng)?shù)男问捷敵觥?br>
4、分類評價輸出分類評價輸出由評價輸出部件8實現(xiàn)。評價輸出部件8的功能是將分類評價部件7的決策結(jié)果以適當(dāng)?shù)男问捷敵觥?br>
對于已被過濾掉的郵件的評價是復(fù)核,要根據(jù)一定的權(quán)重考慮過濾結(jié)果,只有當(dāng)本次決策計算屬于正常郵件的概率達(dá)到較高的程度(概率閾值預(yù)先設(shè)定)時才給予提示,否則不作實質(zhì)性輸出。
對接收郵件中尚未定性郵件的輸出處理是部件8的主要功能。從系統(tǒng)構(gòu)成方面,本發(fā)明可以分為單獨使用和與其它過濾方法集成使用。單獨使用或者與其它過濾器以串行方式使用時輸出為決策結(jié)果,即是合法郵件或者垃圾郵件。所述與其它過濾器串行方式使用中的過濾器是指在郵件進入本發(fā)明的過濾器之前的過濾器或本過濾器過濾之后再進入的過濾器。集成使用方式是指多種過濾方法分別進行計算,集成過濾器根據(jù)各種方法計算結(jié)果再按一定規(guī)則綜合進行屬性決策評價的使用方式。在集成使用方式中,本發(fā)明過濾器輸出的是屬性概率或?qū)傩灾讣y。
從本發(fā)明過濾器的工作狀態(tài)看,本發(fā)明過濾器可以分為訓(xùn)練期和工作期兩種狀態(tài)。進入工作期有兩個條件,一是一封郵件中所有單詞出現(xiàn)的總次數(shù)將超過預(yù)先設(shè)定的最少次數(shù)即從知識庫中檢索的概率中有沒有總樣本數(shù)尚未達(dá)到預(yù)先設(shè)定的最少次數(shù)的概率,二是本發(fā)明過濾器的評價結(jié)果與客戶評價結(jié)果已經(jīng)達(dá)到預(yù)先設(shè)定的近似度。本部件在每一次從部件4接收郵件單詞時都對這兩個標(biāo)志進行檢測。
在訓(xùn)練期,本部件的功能是向客戶提問并記錄并將客戶決策與部件7的決策進行比較,確定是否進入工作期的第二個標(biāo)志。按照客戶的選擇輸出。單獨使用本發(fā)明過濾器時刪除或隔離垃圾郵件,保存合法郵件。在集成使用時輸出最高權(quán)重的指紋分?jǐn)?shù)。
在工作期,本部件的功能是不再向客戶提問,直接輸出部件7的決策結(jié)果。單獨使用本發(fā)明過濾器時刪除或隔離垃圾郵件,保存合法郵件。在集成使用時輸出部件7所計算的指紋分?jǐn)?shù)。
權(quán)利要求
1.一種基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于包括下述步驟1.個人興趣認(rèn)知知識庫的建立和維護1.1通過最大限度地收集客戶往來的郵件,認(rèn)知客戶的生活和工作興趣;將客戶郵件的郵件主題、郵件內(nèi)容分解為單詞;1.2以由1.1得到的單詞為索引建立、更新和擴充知識庫,對沒有的單詞進行添加并按1.3登記屬性概率;對知識庫中已經(jīng)有的單詞只是考慮新的事件重新計算并刷新其屬性概率,實現(xiàn)知識庫的積累和更新;1.3知識庫中的屬性概率按照如下規(guī)律確定并刷新對發(fā)送出去的郵件中所有的單詞,均記為出現(xiàn)在正常郵件中的樣本;對接收郵件中的單詞,在訓(xùn)練期內(nèi),按照客戶確定的屬性記錄樣本數(shù),在訓(xùn)練期完成以后,按照系統(tǒng)決策的屬性記入樣本數(shù);1.4對知識庫單詞出現(xiàn)的總樣本數(shù)設(shè)定有閾值,僅當(dāng)各個分詞的總樣本數(shù)高于這個閾值時,才容許結(jié)束訓(xùn)練期;2.概率計算和郵件屬性評價2.1按照1.1中得出的單詞總數(shù)和1.2及1.3中得出的屬性概率分別計算各單詞在待評價郵件中出現(xiàn)的條件概率;2.2利用2.1的結(jié)果利用貝葉斯分類公式計算郵件的屬性概率;2.3根據(jù)給定的閾值進行屬性評價;2.4在訓(xùn)練期內(nèi),將評價決策結(jié)果與客戶的決策結(jié)果進行比較并修改決策閾值,僅當(dāng)決策結(jié)果與客戶決策結(jié)果達(dá)到接近時,才能結(jié)束訓(xùn)練期;3.結(jié)果輸出。
2.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于所述步驟1.1中,客戶往來的郵件包括客戶發(fā)送出去的郵件和接收的郵件中已經(jīng)被其它過濾系統(tǒng)定性為垃圾郵件的郵件,將客戶發(fā)送的郵件作為正常郵件且具有最高的權(quán)重;對客戶的個人興趣進行分析并建立相應(yīng)的指紋庫,同一分詞的再次出現(xiàn)或多次出現(xiàn)將對該分詞的指紋進行修正。
3.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于步驟1.1中,客戶接收的郵件包括兩類,一種是感興趣的正常郵件,一種是不感興趣的垃圾郵件;采用有導(dǎo)師的訓(xùn)練學(xué)習(xí)對接收的郵件進行處理,在訓(xùn)練期內(nèi),所述客戶接收的郵件將要求用戶給予定性,訓(xùn)練期結(jié)束后,由系統(tǒng)自動進行計算和評價來予以定性;被定性郵件的單詞對將作為事件去重新計算該單詞的屬性概率。
4.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于步驟1.1中,所述分解為單詞的步驟是將客戶發(fā)送和接收的郵件的郵件主題、郵件內(nèi)容關(guān)鍵字的詞組、短語、句子、文段中的詞分開。
5.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于步驟1.2中,所述知識庫的積累和更新包括兩個方面(A)詞的添加;當(dāng)新的郵件進入時,系統(tǒng)迅速按新郵件的詞對詞庫進行檢索,當(dāng)詞庫中沒有檢索的詞時,就將該詞及其概率添加到知識庫中;(B)詞的屬性概率更新;當(dāng)新的郵件進入時,系統(tǒng)迅速按新郵件的詞對詞庫進行檢索,當(dāng)詞庫中已有檢索的詞時,就先前的概率調(diào)出,結(jié)合本次事件重新計算概率并按此刷新庫中該詞的概率。
6.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于步驟1.3中所述訓(xùn)練期,是從用戶開始使用本發(fā)明的時刻開始的,所謂訓(xùn)練期的結(jié)束,有兩個標(biāo)志一是一封郵件中的所有單詞,出現(xiàn)次數(shù)最少的單詞的總次數(shù)大于某一預(yù)先設(shè)定的閾值;二是系統(tǒng)評價與訓(xùn)練期人為評價結(jié)果近似度超過另一預(yù)先設(shè)定的閾值;當(dāng)一封郵件滿足上述兩個條件時,系統(tǒng)將不提示客戶自動進行定性;當(dāng)用戶有新的社會生活愛好或者是工作變換是,郵件中出現(xiàn)的單詞不能滿足上述條件,系統(tǒng)自動進入訓(xùn)練期。
7.根據(jù)權(quán)利要求1所述的基于興趣認(rèn)知的垃圾郵件識別方法,其特征在于步驟3.結(jié)果輸出包括下述步驟3.1在本發(fā)明單獨使用時,在訓(xùn)練期內(nèi)顯示評價的郵件屬性指紋;在訓(xùn)練期結(jié)束后將垃圾郵件放入隔離區(qū);3.2在本發(fā)明與其它反垃圾郵件技術(shù)聯(lián)合使用時,向指定接口輸出郵件屬性指紋。
8.一種實現(xiàn)權(quán)利要求1~7任一項所述方法的基于興趣認(rèn)知的垃圾郵件識別系統(tǒng),其特征在于包括分詞部件、垃圾郵件概率計算部件、知識庫部件、分類評價部件、屬性評價輸出部件,所述分詞部件同時與垃圾郵件概率計算部件及分類評價部件相連接,垃圾郵件概率計算部件與分類評價部件相互連接,兩者同時與知識庫部件連接,所述屬性評價輸出部件與分類評價部件相連接。
全文摘要
本發(fā)明提供一種基于興趣認(rèn)知的垃圾郵件識別方法,包括下述步驟1.個人興趣認(rèn)知知識庫的建立和維護;2.概率計算和郵件屬性評價;3.結(jié)果輸出;一種實現(xiàn)上述方法的垃圾郵件識別系統(tǒng),包括分詞部件、垃圾郵件概率計算部件、知識庫部件、分類評價部件、屬性評價輸出部件等。本發(fā)明精確度好,智能化程度高,可達(dá)到較好的垃圾郵件過濾效果。
文檔編號G06Q10/10GK1976323SQ20061012417
公開日2007年6月6日 申請日期2006年12月12日 優(yōu)先權(quán)日2006年12月12日
發(fā)明者皮佑國 申請人:華南理工大學(xué)