專利名稱:過濾非訓(xùn)練語言的內(nèi)容中的貝葉斯擔(dān)保校驗(yàn)以減少假陽性的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及電子內(nèi)容的貝葉斯過濾,并更具體地涉及當(dāng)處理以非訓(xùn) 練語言記載的電郵時(shí),在貝葉斯垃圾電郵過濾中使用擔(dān)保校驗(yàn)以減少假陽 性。
背景技術(shù):
當(dāng)前統(tǒng)計(jì)垃圾電郵的檢測(cè)技術(shù)主要依靠在分類電子信息時(shí)尋找已知詞 匯的能力。垃圾電郵的發(fā)布者已意識(shí)到這一點(diǎn),并經(jīng)常在他們的信息中包
括無意義(nonsense)的詞匯。使用無意義的詞匯以欺騙垃圾檢測(cè)采取兩種 主要形式。第一種是向電郵中插入少量(例如, 一或二個(gè))的無意義詞匯。 這用于阻礙單個(gè)信息的復(fù)制備份(發(fā)送到一個(gè)因特網(wǎng)服務(wù)運(yùn)營(yíng)商的許多用 戶)的簡(jiǎn)單哈希檢測(cè)。通過將不同的無意義詞匯插入信息的每個(gè)備份,簡(jiǎn) 單哈希檢測(cè)程序不能確定該信息是復(fù)制的。這種無意義的詞匯插入的形式 稱為"哈希破壞法"。第二種形式由向電郵中插入更多的無意義詞匯所組成。 該詞匯作為組合造成整體信息的誤分類。
垃圾電郵分類引擎基于諸如貝葉斯分析的各種統(tǒng)計(jì)技術(shù)來分析電郵信 息的內(nèi)容并試圖確定哪些郵件是垃圾。貝葉斯垃圾過濾是基于出現(xiàn)在垃圾 或合法電郵中的具體詞匯的已建立的概率。例如,上述的無意義詞匯以及 諸如"偉哥(Viagra)"、"再籌款(Refinance)"、"抵押(Mortgage)"等的
特定詞匯頻繁出現(xiàn)在垃圾中,而很少或不常出現(xiàn)在合法電郵中。因此,這 些術(shù)語的出現(xiàn)增加了電郵成為垃圾的概率。貝葉斯垃圾分類引擎對(duì)這些概 率沒有原有的知識(shí),而相反通過由電郵信息集合訓(xùn)練而建立這些概率。
當(dāng)使用諸如貝葉斯法的統(tǒng)計(jì)方法分類文檔時(shí),分類輸出的可靠性只和輸 入一樣(output is as good as i叩ut)。這在統(tǒng)計(jì)分類器遇到以該分類器沒有受
訓(xùn)的語言記載的信息時(shí)(例如,當(dāng)以英語受訓(xùn)的分類器試圖分類德文文檔 時(shí)),就產(chǎn)生了問題。更具體地,與無意義詞匯相反或除了無意義詞匯以外, 垃圾郵件發(fā)布者在垃圾電郵中插入外語詞匯或短語已變得很普遍。這經(jīng)常
導(dǎo)致某些常用的外語詞匯(例如,"el"、 "los"、 "der"、 "die"、 "und"等)被
分類引擎分類為與垃圾電郵相關(guān)。因?yàn)檫@些詞匯出現(xiàn)在許多垃圾電郵中但 實(shí)際上不出現(xiàn)在以英語寫成的合法電郵中,用英語數(shù)據(jù)集訓(xùn)練的貝葉斯分 類引擎將把它們?cè)陔娻]信息中的出現(xiàn)解釋為包括垃圾的信息的強(qiáng)烈指示。
過去,已提出兩種不同方式用于非訓(xùn)練語言中的內(nèi)容的問題。 一種方法 是使用能確定文檔語言的二級(jí)分類器。對(duì)貝葉斯垃圾過濾器的輸入隨后被 限制為以其已經(jīng)被訓(xùn)練的語言記載的內(nèi)容。第二種方法是使貝葉斯過濾器 嘗試分類每個(gè)文檔而不論語言。
第一種方法在金錢和計(jì)算效率上都是昂貴的。為了通過語言分類每個(gè)文 檔,必須注冊(cè)或構(gòu)建昂貴的語言分類引擎以僅僅確定垃圾引擎是否應(yīng)監(jiān)視 輸入的信息。而且,用其他引擎分類每個(gè)輸入的電郵是耗時(shí)的,并減慢垃 圾過濾處理。
在垃圾的范圍中,當(dāng)過濾以貝葉斯過濾器沒有受訓(xùn)的語言記載的電郵 時(shí),第二種方法通常導(dǎo)致極高的假陽性率。如上所指出,以未訓(xùn)練的外語 記載的非常常用的詞匯可能在垃圾的訓(xùn)練數(shù)據(jù)中很普遍。例如,當(dāng)用英語 記載的電郵集訓(xùn)練時(shí),類似"und"和"der"的詞匯經(jīng)常出現(xiàn)在垃圾中并幾乎不 出現(xiàn)在合法電郵中。然而,當(dāng)處理德文電郵時(shí),這些詞匯幾乎出現(xiàn)在無論 是垃圾或合法的每個(gè)信息中。因此,以英語而不是德語訓(xùn)練的分類器會(huì)將 所有或大多數(shù)德文電郵分類為垃圾。
當(dāng)處理以貝葉斯過濾器沒有受訓(xùn)的語言記載的內(nèi)容時(shí),期望能不必須使 用能確定文檔語言的昂貴的二級(jí)分類器而避免該過量的假陽性率。
特殊處理允許極大地改進(jìn)以外語記載的電郵信息的貝葉斯垃圾過濾。貝 葉斯垃圾過濾器確定輸入的電郵信息中由訓(xùn)練知道的內(nèi)容量。如果過濾器 了解該內(nèi)容的閾值量,則過濾器將該將電郵信息進(jìn)行分類為垃圾或合法。 另一方面,如果過濾器經(jīng)訓(xùn)練所知道的電郵中的詞匯不夠,則過濾器不能
準(zhǔn)確確定該信息是否是垃圾。當(dāng)電郵信息是以過濾器沒有被訓(xùn)練的語言寫 成時(shí)通常是這一情形。對(duì)該情形,分類器分類該信息為類型未知。按需要 可以使用不同的閾值矩陣,諸如已知電郵中詞匯的百分比,以及在電郵的 貝葉斯處理中使用的最大校正值的百分比。
在該概述和如下詳細(xì)說明中記載的特點(diǎn)和優(yōu)點(diǎn)并非包括一切,并尤其 是,許多其他特點(diǎn)和優(yōu)點(diǎn)通過附圖、說明書、和其權(quán)利要求對(duì)于本領(lǐng)域技 術(shù)人員將變的顯而易見。而且,應(yīng)該注意,說明書中使用的語言主要用于 可讀性和指導(dǎo)目的,并不用于勾畫或限制發(fā)明的主題,權(quán)利要求用于確定 該發(fā)明的主題。
附圖的簡(jiǎn)要說明
圖1是框圖,說明根據(jù)本發(fā)明的一些實(shí)施例的系統(tǒng),其中當(dāng)處理以非訓(xùn) 練語言記載的電郵時(shí),在貝葉斯垃圾電郵過濾中使用擔(dān)保校驗(yàn)以減少假陽 性。
本圖描繪本發(fā)明的實(shí)施例只用于說明。本領(lǐng)域技術(shù)人員將從如下討論中 輕易理解到,可以使用本文說明的結(jié)構(gòu)和方法的其他實(shí)施例而不不背離本 文所述的發(fā)明的原理。
詳細(xì)說明
圖1說明根據(jù)本發(fā)明的一些實(shí)施例的系統(tǒng)ioo,其中當(dāng)處理以非訓(xùn)練語
言記載的電郵時(shí),在貝葉斯垃圾電郵過濾中使用擔(dān)保校驗(yàn)105以減少假陽 性。應(yīng)該理解,雖然圖1所示的各種組件為單獨(dú)實(shí)體,每個(gè)所示組件表示 能以軟件、硬件、固件或這些的任何組合實(shí)施的功能體的組合。組件以軟 件實(shí)施時(shí),其可以以孤立程序?qū)嵤部梢砸云渌绞綄?shí)施,例如作為 較大程序的一部分、作為多個(gè)單獨(dú)程序、作為內(nèi)核可加載模塊、作為一個(gè) 或多個(gè)設(shè)備驅(qū)動(dòng)或作為一個(gè)或多個(gè)靜止或動(dòng)態(tài)鏈接庫。
如圖1所示,貝葉斯垃圾過濾器101接收輸入的電郵信息103。標(biāo)準(zhǔn)貝 葉斯垃圾過濾器101的實(shí)施機(jī)制對(duì)本領(lǐng)域技術(shù)人員是已知的,并在本發(fā)明 的范圍內(nèi)其用法對(duì)于該技術(shù)水平的人員根據(jù)本說明書是很明顯的。在使用 貝葉斯法以瀏覽輸入電郵103時(shí),貝葉斯垃圾過濾器101分析這些電郵信息103的內(nèi)容。除了標(biāo)準(zhǔn)貝葉斯處理,貝葉斯垃圾過濾器101對(duì)輸入的電
郵103執(zhí)行擔(dān)保校驗(yàn)105。本文的擔(dān)保校驗(yàn)105指分析以確定是否已知大于 閾值107量的內(nèi)容。例如,為了對(duì)輸入電郵信息103執(zhí)行擔(dān)保校驗(yàn)105,貝 葉斯垃圾過濾器101根據(jù)對(duì)其訓(xùn)練的數(shù)據(jù),分析電郵信息103的內(nèi)容,并 確定其中哪些詞匯是貝葉斯垃圾過濾器101已知的。換而言之,如果貝葉 斯垃圾過濾器101在訓(xùn)練期間遇到特定詞匯并且該詞匯與分類概率相關(guān), 則該詞匯是已知的。如果貝葉斯垃圾過濾器101在訓(xùn)練期間沒有遇到詞匯 從而不與設(shè)定的概率相關(guān),則該詞匯是未知的。如下文的更詳細(xì)描述,電 郵103中未知內(nèi)容的量幫助貝葉斯垃圾過濾器101分類電郵103。
更具體地,如果大于閾值107量的電郵內(nèi)容103是未知的,貝葉斯垃圾 過濾器101分類該文檔為未知106類型。換而言之,由于太多內(nèi)容對(duì)于過 濾器101是未知的,所以不能可靠地將電郵103分類為垃圾102或合法104。 因?yàn)檫^濾器101沒有對(duì)電郵103中的足夠詞匯受訓(xùn),不能根據(jù)它知道的詞 匯的概率數(shù)據(jù)對(duì)于電郵103的特性得出可靠的結(jié)論。另一方面,如果貝葉 斯垃圾過濾器101確定少于閾值107量的電郵103的內(nèi)容是已知的,則過 濾器101有足夠信息以執(zhí)行文檔的標(biāo)準(zhǔn)貝葉斯概率分類。
例如,如果貝葉斯垃圾過濾器101已對(duì)英語電郵集而不是德語電郵集受 訓(xùn),由于大多數(shù)德語詞匯對(duì)于過濾器101是未知的,過濾器101將錯(cuò)誤地 將所有或大多數(shù)德語電郵103分類為垃圾102,但一些常用的德語詞匯(例 如,定冠詞和常用連詞)與垃圾102的高概率相關(guān),因?yàn)樗鼈冊(cè)谟⒄Z訓(xùn)練 數(shù)據(jù)中只出現(xiàn)在垃圾102中。擔(dān)保校驗(yàn)105將表征這樣的事實(shí)過濾器101 不知道德語電郵中的大多數(shù)詞匯,并因此過濾器不能得出該電郵不是包括 垃圾102而是包括未知內(nèi)容的結(jié)論。另一方面,包含一些德語詞匯的英語 垃圾102將被標(biāo)記為垃圾102,因?yàn)檫^濾器101知道電郵103中的大多數(shù)(英 語)詞匯,并因此實(shí)質(zhì)分類該電郵103。
可以根據(jù)本發(fā)明的不同實(shí)施例進(jìn)行不同形式的擔(dān)保校驗(yàn)105。在一個(gè)實(shí) 施例中,過濾器101僅計(jì)算由貝葉斯過濾訓(xùn)練已知的輸入電郵信息103中 的詞匯的概率。在該實(shí)施例中,過濾器101只在所需的內(nèi)容量是已知時(shí)才 進(jìn)行實(shí)質(zhì)分類電郵103。當(dāng)然應(yīng)該理解,使用的閾值107是變量設(shè)計(jì)參數(shù)。 在一個(gè)實(shí)施例中,85%用作已知詞匯閾值107,而在其他實(shí)施例中使用其他
值(例如,80%, 90%, 95%等)。
在一些實(shí)施例中,用于電郵信息103的擔(dān)保校驗(yàn)105是在電郵信息103 的貝葉斯過濾期間使用的最大校正值111的百分比。為了 一般了解校正并具 體了解最大校正,首先注意在貝葉斯過濾中,過濾器101對(duì)在訓(xùn)練中沒有 遇到的詞匯使用特別的概率值。在沒有調(diào)整的情況下,電郵103中出現(xiàn)一 個(gè)或多個(gè)訓(xùn)練中沒有遇到的詞匯會(huì)不恰當(dāng)?shù)赜绊戨娻]101的貝葉斯分類。 為此,貝葉斯處理可以對(duì)該詞匯使用默認(rèn)概率。該默認(rèn)概率用在本發(fā)明的 許多實(shí)施例中,包括但不限于使用用作擔(dān)保校驗(yàn)105的最大校正111的百分 比。
在貝葉斯處理中對(duì)訓(xùn)練中沒有遇到的詞匯使用的默認(rèn)概率在本文中被 稱為零計(jì)數(shù)109。零計(jì)數(shù)109可以在本發(fā)明的不同實(shí)施例中按照需要以不同 方式計(jì)算。在一個(gè)實(shí)施例中,根據(jù)下面表1中的公式計(jì)算零計(jì)數(shù)109,其中 總詞匯表示來自訓(xùn)練集的詞匯數(shù)
表1:
<formula>formula see original document page 10</formula>
現(xiàn)在繼續(xù)解釋校正,注意一般在貝葉斯分類中,當(dāng)分類詞匯集(例如, 電郵103中的詞匯)時(shí),通過為該集中每個(gè)詞匯計(jì)算P (類別l詞匯)的總 和向每個(gè)類別(例如,垃圾102和合法電郵104)給出原始分?jǐn)?shù)(即,假定 出現(xiàn)詞匯時(shí),文檔是該類別的概率)。在該步驟中,也能計(jì)算誤差(校正) 值113,該值可以用于避免單個(gè)詞匯超過(overpower)文檔(例如,電郵 信息103)中的其他詞匯。該校正值用在本發(fā)明的許多實(shí)施例中。
校正值113可以按需要以不同形式計(jì)算。在本發(fā)明的一些實(shí)施例中,根 據(jù)下表2中的數(shù)學(xué)計(jì)算校正值
表2:CC=類別數(shù) 詞匯數(shù)
原始分?jǐn)?shù)=^ F (類別間匯s ) 計(jì)數(shù)j
校正值=Z (max( f (類別。k B I詞匯j》—ln( CC))計(jì)數(shù)2
現(xiàn)在繼續(xù)討論最大校正,在一些實(shí)施例中,貝葉斯過濾器101計(jì)算對(duì)于 給定的電郵信息103能發(fā)生的最大可能校正111。它能按需以不同形式計(jì)算。 在本發(fā)明的一些實(shí)施例中,根據(jù)下表3中的公式計(jì)算用于電郵信息103的 最大校正值111:
表3:
最大校正=零計(jì)數(shù)/2*電郵中的詞匯
最后,通過將校正113 (例如,如根據(jù)表2計(jì)算的)除以最大校正lll (例如,根據(jù)表3計(jì)算的)然后可以計(jì)算實(shí)際使用的最大校正的量115。該 結(jié)果115在本發(fā)明的-些實(shí)施例中的擔(dān)保校驗(yàn)105中用作閾值107矩陣。 當(dāng)然,要使用的具體閾值107是變量設(shè)計(jì)參數(shù)。在一些實(shí)施例中,如果所 用的校正115大于最大的95%,過濾器101調(diào)整電郵為類型未知106。其他 閾值107值也是可能的(例如,>98%,〉卯%等)。
在本發(fā)明的一些實(shí)施例中,由過濾器101檢查多個(gè)閾值107矩陣。例如, 在一個(gè)實(shí)施例中,貝葉斯過濾器101只有當(dāng)a)電郵中小于15%的詞匯是已 知的以及b)貝葉斯過濾器101對(duì)電郵103使用的校正115大于最大校正111 的95%才調(diào)整電郵為類型未知106。按需要在其他實(shí)施例中使用其他特定閾 值107值和矩陣。
擔(dān)保校驗(yàn)105的應(yīng)用在貝葉斯垃圾過濾器101的范圍內(nèi)運(yùn)行良好。它也 很快適應(yīng)在部署點(diǎn)執(zhí)行的其他訓(xùn)練,從而允許發(fā)布者在僅對(duì)英語電郵信息 103訓(xùn)練之后就裝載(ship)反垃圾產(chǎn)品。當(dāng)產(chǎn)品在基于非訓(xùn)練語言的環(huán)境 中使用時(shí),貝葉斯過濾器101迅速對(duì)該語言(例如,借助接收(inbound) 信息103的自動(dòng)發(fā)送(outbound)訓(xùn)練和再分類)受訓(xùn),并因此擔(dān)保校驗(yàn) 105不再宣布以那些語言寫成的郵件為類型未知106。
本發(fā)明也允許反垃圾方法在沒有訓(xùn)練數(shù)據(jù)的區(qū)域中快速配置。此外,本
發(fā)明使得反垃圾軟件的發(fā)布者通過不注冊(cè)昂貴語言分類引擎而僅以確定垃 圾引擎是否應(yīng)監(jiān)視信息103而節(jié)省金錢。
也應(yīng)進(jìn)一步理解,雖然本說明書已討論將電郵信息103分類為垃圾102、 合法104或未知106,本發(fā)明并不受限于此。雖然垃圾分類對(duì)本發(fā)明具有很 大用處,其也能用在將任何文檔類型貝葉斯分類為任何數(shù)量的合適類別的 范圍內(nèi)。
如本領(lǐng)域技術(shù)人員所理解的,在不背離其精神或?qū)嵸|(zhì)特性的情況下本發(fā) 明可體現(xiàn)為其他特定形式。類似地,部分、模塊、引擎(agent)、管理器、 組件、函數(shù)、過程、操作、層、特性、屬性、方法以及其他方面的特定命 令和劃分不是強(qiáng)制的或有影響的,并且實(shí)施本發(fā)明或其特性的機(jī)制可具有 不同的名稱、劃分和/或格式。此外,對(duì)本領(lǐng)域技術(shù)人員明顯的是,本發(fā)明 的部分、模塊、引擎、管理器、組件、函數(shù)、過程、操作、層、特性、屬 性、方法和其他方面可以實(shí)施為軟件、硬件、固件或這三類的任意組合。 當(dāng)然,在本發(fā)明的組件實(shí)施為軟件時(shí),該組件可以實(shí)施為腳本、孤立程序、 較大程序的一部分、多個(gè)獨(dú)立腳本和/或程序、靜止或動(dòng)態(tài)的鏈接庫、內(nèi)核 可加載模塊、設(shè)備驅(qū)動(dòng)、和/或現(xiàn)在或?qū)韺?duì)計(jì)算機(jī)編程領(lǐng)域的技術(shù)人員所 公知的每種以及任何其他形式。此外,本發(fā)明并不限于任何特定的編程語 言、或任何特定的操作系統(tǒng)或環(huán)境。而且,對(duì)相關(guān)領(lǐng)域技術(shù)人員明顯的是, 在本發(fā)明整體或部分實(shí)施為軟件時(shí),其軟件組件可以作為計(jì)算機(jī)程序產(chǎn)品 存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上。任何形式的計(jì)算機(jī)可讀介質(zhì)都能用于此,例如 磁性或光學(xué)存儲(chǔ)介質(zhì)。此外,可以在任何可編程計(jì)算設(shè)備的內(nèi)存中例示本 發(fā)明的軟件部分(例如,作為對(duì)象編碼或可執(zhí)行圖像)。因此,本發(fā)明的說 明書意圖用于說明而非限制在隨后的權(quán)利要求書中提出的本發(fā)明的范圍。
權(quán)利要求
1.一種用于在貝葉斯過濾中減少假分類的計(jì)算機(jī)實(shí)施的方法,所述方法包括如下步驟在貝葉斯過濾的范圍中,分析至少一個(gè)要被分類的文檔的內(nèi)容;確定所述至少一個(gè)文檔中是否已知大于閾值量的內(nèi)容;以及響應(yīng)所述確定的結(jié)果來分類所述文檔。
2、 根據(jù)權(quán)利要求1所述的方法,其中所述響應(yīng)所述確定的結(jié)果來分類所述文檔進(jìn)一步包括執(zhí)行來自下述步驟組的步驟,包括響應(yīng)大于閾值量的文檔內(nèi)容是未知的確定,分類所述文檔為未知類型;以及響應(yīng)少于閾值量的文檔內(nèi)容是未知的確定,根據(jù)標(biāo)準(zhǔn)貝葉斯過濾的結(jié)果分類 所述文檔。
3、 根據(jù)權(quán)利要求1所述的方法,其中所述確定所述至少一個(gè)文檔中是否大 于閾值量的內(nèi)容是已知的進(jìn)一步包括執(zhí)行來自下述步驟組的至少一個(gè)步驟,所述步驟組包括確定至少一個(gè)文檔中由貝葉斯過濾訓(xùn)練已知的詞匯的百分比;以及 確定在至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比。
4、 根據(jù)權(quán)利要求3所述的方法,其中所述確定在至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比進(jìn)一步包括作為至少一個(gè)文檔中零計(jì)數(shù)值和若干詞匯的變量計(jì)算至少一個(gè)文檔的最大校正值;以及作為至少一個(gè)文檔的貝葉斯過濾中使用的校正值和至少一個(gè)文檔的最大校 正值的變量計(jì)算至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比。
5、 根據(jù)權(quán)利要求4所述的方法,其中所述零計(jì)數(shù)值進(jìn)一步包括貝葉斯過濾中對(duì)貝葉斯訓(xùn)練中沒有遇到的詞匯所使用的特定值,該方法進(jìn)一步包括以訓(xùn)練數(shù)據(jù)集中的詞匯數(shù)與常數(shù)的乘積被一除后的自然對(duì)數(shù)計(jì)算零計(jì)數(shù)值。
6、 根據(jù)權(quán)利要求4所述的方法,其中所述在至少一個(gè)文檔的貝葉斯過濾中 使用的校正值進(jìn)一步包括特定值,經(jīng)計(jì)算以避免任何單個(gè)詞匯不適當(dāng)?shù)赜绊懼辽僖粋€(gè)文檔的分類。
7、 根據(jù)權(quán)利要求1所述的方法,其中所述至少一個(gè)文檔包括至少一個(gè)電郵 信息,以及貝葉斯過濾分類所述至少一個(gè)電郵信息為歸屬于下述類別組的單個(gè)類 別,該類別組包括 垃圾;合法電郵;以及 未知。
8、 至少一個(gè)計(jì)算禾幾可讀介質(zhì),其含有用于減少貝葉斯過濾中的假分類計(jì)算 機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包括程序代碼,用于在貝葉斯過濾的范圍內(nèi),分析至少一個(gè)要被分類的文檔的內(nèi)容;程序代碼,用于確定至少一個(gè)文檔中是否大于閾值量的內(nèi)容是已知的;以及 程序代碼,用于響應(yīng)所述確定的結(jié)果來分類所述文檔。
9、 根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中所述用于響應(yīng)所述確定的 結(jié)果來分類文檔的程序編碼進(jìn)一步包括用于執(zhí)行下述步驟組的步驟的程序編碼, 所述步驟組包括響應(yīng)大于閾值量的文檔內(nèi)容是未知的確定,分類文檔為未知類型;以及 響應(yīng)少于閾值量的文檔內(nèi)容是未知的確定,根據(jù)標(biāo)準(zhǔn)貝葉斯過濾的結(jié)果分類 所述文檔。
10、 根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,其中所述用于確定至少一個(gè)文 檔中是否超過閾值量的內(nèi)容是已知的程序編碼進(jìn)一步包括執(zhí)行下述步驟組的至 少一個(gè)步驟的程序編碼,所述步驟組包括-確定至少一個(gè)文檔中由貝葉斯過濾訓(xùn)練已知的詞匯的百分比;以及 確定在至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比。
11、 根據(jù)權(quán)利要求IO所述的計(jì)算機(jī)程序產(chǎn)品,其中所述用于確定在至少一 個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比的程序編碼進(jìn)一步包括程序編碼,用于計(jì)算作為至少一個(gè)文檔中零計(jì)數(shù)值和若干詞匯的變量的至少 一個(gè)文檔的最大校正值;以及程序編碼,用于計(jì)算作為至少一個(gè)文檔的貝葉斯過濾中使用的校正值和至少 一個(gè)文檔的最大校正值的變量的至少一個(gè)文檔的貝葉斯過濾中使用的最大校正 值的百分比。
12、 根據(jù)權(quán)利要求11所述的計(jì)算機(jī)程序產(chǎn)品,其中所述零計(jì)數(shù)值進(jìn)一步包 括貝葉斯過濾中對(duì)貝葉斯訓(xùn)練中沒有遇到的詞匯使用的特定值,該方法進(jìn)一步包 括用于計(jì)算零計(jì)數(shù)值的程序編碼,所述零計(jì)數(shù)值是訓(xùn)練數(shù)據(jù)集中的詞匯數(shù)與常 數(shù)的乘積被一除后的自然對(duì)數(shù)。
13、 根據(jù)權(quán)利要求11所述的計(jì)算機(jī)程序產(chǎn)品,其中所述在至少一個(gè)文檔的 貝葉斯過濾中使用的校正值進(jìn)一步包括特定值,經(jīng)計(jì)算以避免任何單個(gè)詞匯不適當(dāng)?shù)赜绊懼辽僖粋€(gè)文檔的分類。
14、 根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品,進(jìn)一步包括程序編碼,用于將 至少一個(gè)電郵信息分類為歸屬于下述類別組的單個(gè)類別,該類別組包括垃圾;合法電郵;以及未知。
15、 一種在貝葉斯過濾中減少假分類的計(jì)算機(jī)系統(tǒng),所述計(jì)算機(jī)系統(tǒng)包括 方法,在貝葉斯過濾的范圍中,分析至少一個(gè)要被分類的文檔的內(nèi)容; 方法,用于確定至少一個(gè)文檔中是否超過閾值量的內(nèi)容是已知的;以及 方法,用于響應(yīng)所述確定的結(jié)果來分類文檔。
16、 根據(jù)權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng),其中所述響應(yīng)所述確定的結(jié)果來分類文檔的方法進(jìn)一步包括執(zhí)行下述步驟組的步驟的方法,所述步驟組包括響應(yīng)超過閾值量的文檔內(nèi)容是未知的確定,分類文檔為未知類型;以及 響應(yīng)少于閾值量的文檔內(nèi)容是未知的確定,根據(jù)標(biāo)準(zhǔn)貝葉斯過濾的結(jié)果分類 所述文檔。
17、 根據(jù)權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng),其中所述用于確定至少一個(gè)文檔 中是否超過閾值量的內(nèi)容是已知的方法進(jìn)一步包括執(zhí)行下述步驟組的至少一個(gè) 步驟的方法,該步驟組包括確定至少一個(gè)文檔中由貝葉斯過濾訓(xùn)練已知的詞匯的百分比;以及 確定在至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比。
18、 根據(jù)權(quán)利要求17所述的計(jì)算機(jī)系統(tǒng),其中所述用于確定在至少一個(gè)文 檔的貝葉斯過濾中使用的最大校正值的百分比的方法進(jìn)一步包括用于計(jì)算作為至少一個(gè)文檔中零計(jì)數(shù)值和若干詞匯的變量的至少一個(gè)文檔 的最大校正值的方法;以及 用于計(jì)算作為至少一個(gè)文檔的貝葉斯過濾中使用的校正值和至少一個(gè)文檔 的最大校正值的變量的至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分 比的方法。 '
19、 根據(jù)權(quán)利要求18所述的計(jì)算機(jī)系統(tǒng),其中所述零計(jì)數(shù)值進(jìn)一步包括貝 葉斯過濾中對(duì)于貝葉斯訓(xùn)練中沒有遇到的詞匯使用的特定值,該方法進(jìn)一步包括用于計(jì)算零計(jì)數(shù)值的方法,所述零計(jì)數(shù)值是訓(xùn)練數(shù)據(jù)集中的詞匯數(shù)與常數(shù)的 乘積被一除后的自然對(duì)數(shù)。
20、 根據(jù)權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng),進(jìn)一步包括用于分類至少一個(gè)電郵信息為歸屬于下述類別組的單個(gè)類別的方法,所述類別組包括 垃圾;合法電郵;以及 未知。
全文摘要
一種貝葉斯垃圾過濾器,確定由訓(xùn)練知道的輸入電郵信息中的內(nèi)容量。如果過濾器熟悉閾值量的內(nèi)容,則過濾器處理以分類電郵信息為垃圾或合法。另一方面,如果過濾器經(jīng)訓(xùn)練沒有知道電郵中的足夠詞匯,則過濾器不能準(zhǔn)確確定信息是否是垃圾。對(duì)該情形,過濾器分類該信息為未知類型??梢允褂貌煌拈撝稻仃嚕T如已知詞匯的百分比和在處理中使用的最大校正值的百分比。這極大的改進(jìn)了對(duì)以過濾器未被訓(xùn)練的語言記載的電郵的處理。
文檔編號(hào)G06Q10/00GK101374122SQ200810135499
公開日2009年2月25日 申請(qǐng)日期2008年8月12日 優(yōu)先權(quán)日2007年8月24日
發(fā)明者肖恩·庫利 申請(qǐng)人:賽門鐵克公司