過濾非訓(xùn)練語言的內(nèi)容中的貝葉斯擔(dān)保校驗(yàn)以減少假陽性的制作方法

文檔序號(hào)：6465889閱讀：137來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：過濾非訓(xùn)練語言的內(nèi)容中的貝葉斯擔(dān)保校驗(yàn)以減少假陽性的制作方法
技術(shù)領(lǐng)域：
本發(fā)明通常涉及電子內(nèi)容的貝葉斯過濾，并更具體地涉及當(dāng)處理以非訓(xùn) 練語言記載的電郵時(shí)，在貝葉斯垃圾電郵過濾中使用擔(dān)保校驗(yàn)以減少假陽性。
背景技術(shù)：
當(dāng)前統(tǒng)計(jì)垃圾電郵的檢測(cè)技術(shù)主要依靠在分類電子信息時(shí)尋找已知詞匯的能力。垃圾電郵的發(fā)布者已意識(shí)到這一點(diǎn)，并經(jīng)常在他們的信息中包
括無意義(nonsense)的詞匯。使用無意義的詞匯以欺騙垃圾檢測(cè)采取兩種主要形式。第一種是向電郵中插入少量(例如，一或二個(gè))的無意義詞匯。這用于阻礙單個(gè)信息的復(fù)制備份(發(fā)送到一個(gè)因特網(wǎng)服務(wù)運(yùn)營(yíng)商的許多用戶)的簡(jiǎn)單哈希檢測(cè)。通過將不同的無意義詞匯插入信息的每個(gè)備份，簡(jiǎn) 單哈希檢測(cè)程序不能確定該信息是復(fù)制的。這種無意義的詞匯插入的形式稱為"哈希破壞法"。第二種形式由向電郵中插入更多的無意義詞匯所組成。該詞匯作為組合造成整體信息的誤分類。
垃圾電郵分類引擎基于諸如貝葉斯分析的各種統(tǒng)計(jì)技術(shù)來分析電郵信息的內(nèi)容并試圖確定哪些郵件是垃圾。貝葉斯垃圾過濾是基于出現(xiàn)在垃圾或合法電郵中的具體詞匯的已建立的概率。例如，上述的無意義詞匯以及諸如"偉哥(Viagra)"、"再籌款(Refinance)"、"抵押(Mortgage)"等的
特定詞匯頻繁出現(xiàn)在垃圾中，而很少或不常出現(xiàn)在合法電郵中。因此，這些術(shù)語的出現(xiàn)增加了電郵成為垃圾的概率。貝葉斯垃圾分類引擎對(duì)這些概率沒有原有的知識(shí)，而相反通過由電郵信息集合訓(xùn)練而建立這些概率。
當(dāng)使用諸如貝葉斯法的統(tǒng)計(jì)方法分類文檔時(shí)，分類輸出的可靠性只和輸入一樣(output is as good as i叩ut)。這在統(tǒng)計(jì)分類器遇到以該分類器沒有受
訓(xùn)的語言記載的信息時(shí)(例如，當(dāng)以英語受訓(xùn)的分類器試圖分類德文文檔時(shí))，就產(chǎn)生了問題。更具體地，與無意義詞匯相反或除了無意義詞匯以外，垃圾郵件發(fā)布者在垃圾電郵中插入外語詞匯或短語已變得很普遍。這經(jīng)常
導(dǎo)致某些常用的外語詞匯(例如，"el"、 "los"、 "der"、 "die"、 "und"等)被
分類引擎分類為與垃圾電郵相關(guān)。因?yàn)檫@些詞匯出現(xiàn)在許多垃圾電郵中但實(shí)際上不出現(xiàn)在以英語寫成的合法電郵中，用英語數(shù)據(jù)集訓(xùn)練的貝葉斯分類引擎將把它們?cè)陔娻]信息中的出現(xiàn)解釋為包括垃圾的信息的強(qiáng)烈指示。
過去，已提出兩種不同方式用于非訓(xùn)練語言中的內(nèi)容的問題。一種方法是使用能確定文檔語言的二級(jí)分類器。對(duì)貝葉斯垃圾過濾器的輸入隨后被限制為以其已經(jīng)被訓(xùn)練的語言記載的內(nèi)容。第二種方法是使貝葉斯過濾器嘗試分類每個(gè)文檔而不論語言。
第一種方法在金錢和計(jì)算效率上都是昂貴的。為了通過語言分類每個(gè)文檔，必須注冊(cè)或構(gòu)建昂貴的語言分類引擎以僅僅確定垃圾引擎是否應(yīng)監(jiān)視輸入的信息。而且，用其他引擎分類每個(gè)輸入的電郵是耗時(shí)的，并減慢垃圾過濾處理。
在垃圾的范圍中，當(dāng)過濾以貝葉斯過濾器沒有受訓(xùn)的語言記載的電郵時(shí)，第二種方法通常導(dǎo)致極高的假陽性率。如上所指出，以未訓(xùn)練的外語記載的非常常用的詞匯可能在垃圾的訓(xùn)練數(shù)據(jù)中很普遍。例如，當(dāng)用英語記載的電郵集訓(xùn)練時(shí)，類似"und"和"der"的詞匯經(jīng)常出現(xiàn)在垃圾中并幾乎不出現(xiàn)在合法電郵中。然而，當(dāng)處理德文電郵時(shí)，這些詞匯幾乎出現(xiàn)在無論是垃圾或合法的每個(gè)信息中。因此，以英語而不是德語訓(xùn)練的分類器會(huì)將所有或大多數(shù)德文電郵分類為垃圾。
當(dāng)處理以貝葉斯過濾器沒有受訓(xùn)的語言記載的內(nèi)容時(shí)，期望能不必須使用能確定文檔語言的昂貴的二級(jí)分類器而避免該過量的假陽性率。
特殊處理允許極大地改進(jìn)以外語記載的電郵信息的貝葉斯垃圾過濾。貝葉斯垃圾過濾器確定輸入的電郵信息中由訓(xùn)練知道的內(nèi)容量。如果過濾器了解該內(nèi)容的閾值量，則過濾器將該將電郵信息進(jìn)行分類為垃圾或合法。另一方面，如果過濾器經(jīng)訓(xùn)練所知道的電郵中的詞匯不夠，則過濾器不能
準(zhǔn)確確定該信息是否是垃圾。當(dāng)電郵信息是以過濾器沒有被訓(xùn)練的語言寫成時(shí)通常是這一情形。對(duì)該情形，分類器分類該信息為類型未知。按需要可以使用不同的閾值矩陣，諸如已知電郵中詞匯的百分比，以及在電郵的貝葉斯處理中使用的最大校正值的百分比。
在該概述和如下詳細(xì)說明中記載的特點(diǎn)和優(yōu)點(diǎn)并非包括一切，并尤其是，許多其他特點(diǎn)和優(yōu)點(diǎn)通過附圖、說明書、和其權(quán)利要求對(duì)于本領(lǐng)域技術(shù)人員將變的顯而易見。而且，應(yīng)該注意，說明書中使用的語言主要用于可讀性和指導(dǎo)目的，并不用于勾畫或限制發(fā)明的主題，權(quán)利要求用于確定該發(fā)明的主題。
附圖的簡(jiǎn)要說明

圖1是框圖，說明根據(jù)本發(fā)明的一些實(shí)施例的系統(tǒng)，其中當(dāng)處理以非訓(xùn) 練語言記載的電郵時(shí)，在貝葉斯垃圾電郵過濾中使用擔(dān)保校驗(yàn)以減少假陽性。
本圖描繪本發(fā)明的實(shí)施例只用于說明。本領(lǐng)域技術(shù)人員將從如下討論中輕易理解到，可以使用本文說明的結(jié)構(gòu)和方法的其他實(shí)施例而不不背離本文所述的發(fā)明的原理。
詳細(xì)說明
圖1說明根據(jù)本發(fā)明的一些實(shí)施例的系統(tǒng)ioo，其中當(dāng)處理以非訓(xùn)練語
言記載的電郵時(shí)，在貝葉斯垃圾電郵過濾中使用擔(dān)保校驗(yàn)105以減少假陽性。應(yīng)該理解，雖然圖1所示的各種組件為單獨(dú)實(shí)體，每個(gè)所示組件表示能以軟件、硬件、固件或這些的任何組合實(shí)施的功能體的組合。組件以軟件實(shí)施時(shí)，其可以以孤立程序?qū)嵤部梢砸云渌绞綄?shí)施，例如作為較大程序的一部分、作為多個(gè)單獨(dú)程序、作為內(nèi)核可加載模塊、作為一個(gè) 或多個(gè)設(shè)備驅(qū)動(dòng)或作為一個(gè)或多個(gè)靜止或動(dòng)態(tài)鏈接庫。
如圖1所示，貝葉斯垃圾過濾器101接收輸入的電郵信息103。標(biāo)準(zhǔn)貝葉斯垃圾過濾器101的實(shí)施機(jī)制對(duì)本領(lǐng)域技術(shù)人員是已知的，并在本發(fā)明的范圍內(nèi)其用法對(duì)于該技術(shù)水平的人員根據(jù)本說明書是很明顯的。在使用貝葉斯法以瀏覽輸入電郵103時(shí)，貝葉斯垃圾過濾器101分析這些電郵信息103的內(nèi)容。除了標(biāo)準(zhǔn)貝葉斯處理，貝葉斯垃圾過濾器101對(duì)輸入的電
郵103執(zhí)行擔(dān)保校驗(yàn)105。本文的擔(dān)保校驗(yàn)105指分析以確定是否已知大于閾值107量的內(nèi)容。例如，為了對(duì)輸入電郵信息103執(zhí)行擔(dān)保校驗(yàn)105，貝葉斯垃圾過濾器101根據(jù)對(duì)其訓(xùn)練的數(shù)據(jù)，分析電郵信息103的內(nèi)容，并確定其中哪些詞匯是貝葉斯垃圾過濾器101已知的。換而言之，如果貝葉斯垃圾過濾器101在訓(xùn)練期間遇到特定詞匯并且該詞匯與分類概率相關(guān)，則該詞匯是已知的。如果貝葉斯垃圾過濾器101在訓(xùn)練期間沒有遇到詞匯從而不與設(shè)定的概率相關(guān)，則該詞匯是未知的。如下文的更詳細(xì)描述，電郵103中未知內(nèi)容的量幫助貝葉斯垃圾過濾器101分類電郵103。
更具體地，如果大于閾值107量的電郵內(nèi)容103是未知的，貝葉斯垃圾過濾器101分類該文檔為未知106類型。換而言之，由于太多內(nèi)容對(duì)于過濾器101是未知的，所以不能可靠地將電郵103分類為垃圾102或合法104。因?yàn)檫^濾器101沒有對(duì)電郵103中的足夠詞匯受訓(xùn)，不能根據(jù)它知道的詞匯的概率數(shù)據(jù)對(duì)于電郵103的特性得出可靠的結(jié)論。另一方面，如果貝葉斯垃圾過濾器101確定少于閾值107量的電郵103的內(nèi)容是已知的，則過濾器101有足夠信息以執(zhí)行文檔的標(biāo)準(zhǔn)貝葉斯概率分類。
例如，如果貝葉斯垃圾過濾器101已對(duì)英語電郵集而不是德語電郵集受訓(xùn)，由于大多數(shù)德語詞匯對(duì)于過濾器101是未知的，過濾器101將錯(cuò)誤地將所有或大多數(shù)德語電郵103分類為垃圾102，但一些常用的德語詞匯(例如，定冠詞和常用連詞)與垃圾102的高概率相關(guān)，因?yàn)樗鼈冊(cè)谟⒄Z訓(xùn)練數(shù)據(jù)中只出現(xiàn)在垃圾102中。擔(dān)保校驗(yàn)105將表征這樣的事實(shí)過濾器101 不知道德語電郵中的大多數(shù)詞匯，并因此過濾器不能得出該電郵不是包括垃圾102而是包括未知內(nèi)容的結(jié)論。另一方面，包含一些德語詞匯的英語垃圾102將被標(biāo)記為垃圾102，因?yàn)檫^濾器101知道電郵103中的大多數(shù)(英語)詞匯，并因此實(shí)質(zhì)分類該電郵103。
可以根據(jù)本發(fā)明的不同實(shí)施例進(jìn)行不同形式的擔(dān)保校驗(yàn)105。在一個(gè)實(shí) 施例中，過濾器101僅計(jì)算由貝葉斯過濾訓(xùn)練已知的輸入電郵信息103中的詞匯的概率。在該實(shí)施例中，過濾器101只在所需的內(nèi)容量是已知時(shí)才進(jìn)行實(shí)質(zhì)分類電郵103。當(dāng)然應(yīng)該理解，使用的閾值107是變量設(shè)計(jì)參數(shù)。在一個(gè)實(shí)施例中，85%用作已知詞匯閾值107，而在其他實(shí)施例中使用其他
值(例如，80%， 90%， 95%等)。
在一些實(shí)施例中，用于電郵信息103的擔(dān)保校驗(yàn)105是在電郵信息103 的貝葉斯過濾期間使用的最大校正值111的百分比。為了一般了解校正并具體了解最大校正，首先注意在貝葉斯過濾中，過濾器101對(duì)在訓(xùn)練中沒有遇到的詞匯使用特別的概率值。在沒有調(diào)整的情況下，電郵103中出現(xiàn)一個(gè)或多個(gè)訓(xùn)練中沒有遇到的詞匯會(huì)不恰當(dāng)?shù)赜绊戨娻]101的貝葉斯分類。為此，貝葉斯處理可以對(duì)該詞匯使用默認(rèn)概率。該默認(rèn)概率用在本發(fā)明的許多實(shí)施例中，包括但不限于使用用作擔(dān)保校驗(yàn)105的最大校正111的百分比。
在貝葉斯處理中對(duì)訓(xùn)練中沒有遇到的詞匯使用的默認(rèn)概率在本文中被稱為零計(jì)數(shù)109。零計(jì)數(shù)109可以在本發(fā)明的不同實(shí)施例中按照需要以不同方式計(jì)算。在一個(gè)實(shí)施例中，根據(jù)下面表1中的公式計(jì)算零計(jì)數(shù)109，其中總詞匯表示來自訓(xùn)練集的詞匯數(shù)
表1:
<formula>formula see original document page 10</formula>
現(xiàn)在繼續(xù)解釋校正，注意一般在貝葉斯分類中，當(dāng)分類詞匯集(例如，電郵103中的詞匯)時(shí)，通過為該集中每個(gè)詞匯計(jì)算P (類別l詞匯)的總和向每個(gè)類別(例如，垃圾102和合法電郵104)給出原始分?jǐn)?shù)(即，假定出現(xiàn)詞匯時(shí)，文檔是該類別的概率)。在該步驟中，也能計(jì)算誤差(校正) 值113，該值可以用于避免單個(gè)詞匯超過(overpower)文檔(例如，電郵信息103)中的其他詞匯。該校正值用在本發(fā)明的許多實(shí)施例中。
校正值113可以按需要以不同形式計(jì)算。在本發(fā)明的一些實(shí)施例中，根據(jù)下表2中的數(shù)學(xué)計(jì)算校正值
表2:CC=類別數(shù) 詞匯數(shù)
原始分?jǐn)?shù)=^ F (類別間匯s ) 計(jì)數(shù)j
校正值=Z (max( f (類別。k B I詞匯j》—ln( CC))計(jì)數(shù)2
現(xiàn)在繼續(xù)討論最大校正，在一些實(shí)施例中，貝葉斯過濾器101計(jì)算對(duì)于給定的電郵信息103能發(fā)生的最大可能校正111。它能按需以不同形式計(jì)算。在本發(fā)明的一些實(shí)施例中，根據(jù)下表3中的公式計(jì)算用于電郵信息103的最大校正值111:
表3:
最大校正=零計(jì)數(shù)/2*電郵中的詞匯
最后，通過將校正113 (例如，如根據(jù)表2計(jì)算的)除以最大校正lll (例如，根據(jù)表3計(jì)算的)然后可以計(jì)算實(shí)際使用的最大校正的量115。該結(jié)果115在本發(fā)明的-些實(shí)施例中的擔(dān)保校驗(yàn)105中用作閾值107矩陣。當(dāng)然，要使用的具體閾值107是變量設(shè)計(jì)參數(shù)。在一些實(shí)施例中，如果所用的校正115大于最大的95%，過濾器101調(diào)整電郵為類型未知106。其他閾值107值也是可能的(例如，>98%，〉卯％等)。
在本發(fā)明的一些實(shí)施例中，由過濾器101檢查多個(gè)閾值107矩陣。例如，在一個(gè)實(shí)施例中，貝葉斯過濾器101只有當(dāng)a)電郵中小于15%的詞匯是已知的以及b)貝葉斯過濾器101對(duì)電郵103使用的校正115大于最大校正111 的95%才調(diào)整電郵為類型未知106。按需要在其他實(shí)施例中使用其他特定閾值107值和矩陣。
擔(dān)保校驗(yàn)105的應(yīng)用在貝葉斯垃圾過濾器101的范圍內(nèi)運(yùn)行良好。它也很快適應(yīng)在部署點(diǎn)執(zhí)行的其他訓(xùn)練，從而允許發(fā)布者在僅對(duì)英語電郵信息 103訓(xùn)練之后就裝載(ship)反垃圾產(chǎn)品。當(dāng)產(chǎn)品在基于非訓(xùn)練語言的環(huán)境中使用時(shí)，貝葉斯過濾器101迅速對(duì)該語言(例如，借助接收(inbound) 信息103的自動(dòng)發(fā)送(outbound)訓(xùn)練和再分類)受訓(xùn)，并因此擔(dān)保校驗(yàn) 105不再宣布以那些語言寫成的郵件為類型未知106。
本發(fā)明也允許反垃圾方法在沒有訓(xùn)練數(shù)據(jù)的區(qū)域中快速配置。此外，本
發(fā)明使得反垃圾軟件的發(fā)布者通過不注冊(cè)昂貴語言分類引擎而僅以確定垃圾引擎是否應(yīng)監(jiān)視信息103而節(jié)省金錢。
也應(yīng)進(jìn)一步理解，雖然本說明書已討論將電郵信息103分類為垃圾102、合法104或未知106，本發(fā)明并不受限于此。雖然垃圾分類對(duì)本發(fā)明具有很大用處，其也能用在將任何文檔類型貝葉斯分類為任何數(shù)量的合適類別的范圍內(nèi)。
如本領(lǐng)域技術(shù)人員所理解的，在不背離其精神或?qū)嵸|(zhì)特性的情況下本發(fā) 明可體現(xiàn)為其他特定形式。類似地，部分、模塊、引擎(agent)、管理器、組件、函數(shù)、過程、操作、層、特性、屬性、方法以及其他方面的特定命令和劃分不是強(qiáng)制的或有影響的，并且實(shí)施本發(fā)明或其特性的機(jī)制可具有不同的名稱、劃分和/或格式。此外，對(duì)本領(lǐng)域技術(shù)人員明顯的是，本發(fā)明的部分、模塊、引擎、管理器、組件、函數(shù)、過程、操作、層、特性、屬性、方法和其他方面可以實(shí)施為軟件、硬件、固件或這三類的任意組合。當(dāng)然，在本發(fā)明的組件實(shí)施為軟件時(shí)，該組件可以實(shí)施為腳本、孤立程序、較大程序的一部分、多個(gè)獨(dú)立腳本和/或程序、靜止或動(dòng)態(tài)的鏈接庫、內(nèi)核可加載模塊、設(shè)備驅(qū)動(dòng)、和/或現(xiàn)在或?qū)韺?duì)計(jì)算機(jī)編程領(lǐng)域的技術(shù)人員所公知的每種以及任何其他形式。此外，本發(fā)明并不限于任何特定的編程語言、或任何特定的操作系統(tǒng)或環(huán)境。而且，對(duì)相關(guān)領(lǐng)域技術(shù)人員明顯的是，在本發(fā)明整體或部分實(shí)施為軟件時(shí)，其軟件組件可以作為計(jì)算機(jī)程序產(chǎn)品存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)上。任何形式的計(jì)算機(jī)可讀介質(zhì)都能用于此，例如磁性或光學(xué)存儲(chǔ)介質(zhì)。此外，可以在任何可編程計(jì)算設(shè)備的內(nèi)存中例示本發(fā)明的軟件部分(例如，作為對(duì)象編碼或可執(zhí)行圖像)。因此，本發(fā)明的說明書意圖用于說明而非限制在隨后的權(quán)利要求書中提出的本發(fā)明的范圍。
權(quán)利要求
1.一種用于在貝葉斯過濾中減少假分類的計(jì)算機(jī)實(shí)施的方法，所述方法包括如下步驟在貝葉斯過濾的范圍中，分析至少一個(gè)要被分類的文檔的內(nèi)容；確定所述至少一個(gè)文檔中是否已知大于閾值量的內(nèi)容；以及響應(yīng)所述確定的結(jié)果來分類所述文檔。
2、根據(jù)權(quán)利要求1所述的方法，其中所述響應(yīng)所述確定的結(jié)果來分類所述文檔進(jìn)一步包括執(zhí)行來自下述步驟組的步驟，包括響應(yīng)大于閾值量的文檔內(nèi)容是未知的確定，分類所述文檔為未知類型；以及響應(yīng)少于閾值量的文檔內(nèi)容是未知的確定，根據(jù)標(biāo)準(zhǔn)貝葉斯過濾的結(jié)果分類所述文檔。
3、根據(jù)權(quán)利要求1所述的方法，其中所述確定所述至少一個(gè)文檔中是否大于閾值量的內(nèi)容是已知的進(jìn)一步包括執(zhí)行來自下述步驟組的至少一個(gè)步驟，所述步驟組包括確定至少一個(gè)文檔中由貝葉斯過濾訓(xùn)練已知的詞匯的百分比；以及確定在至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比。
4、根據(jù)權(quán)利要求3所述的方法，其中所述確定在至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比進(jìn)一步包括作為至少一個(gè)文檔中零計(jì)數(shù)值和若干詞匯的變量計(jì)算至少一個(gè)文檔的最大校正值；以及作為至少一個(gè)文檔的貝葉斯過濾中使用的校正值和至少一個(gè)文檔的最大校正值的變量計(jì)算至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比。
5、根據(jù)權(quán)利要求4所述的方法，其中所述零計(jì)數(shù)值進(jìn)一步包括貝葉斯過濾中對(duì)貝葉斯訓(xùn)練中沒有遇到的詞匯所使用的特定值，該方法進(jìn)一步包括以訓(xùn)練數(shù)據(jù)集中的詞匯數(shù)與常數(shù)的乘積被一除后的自然對(duì)數(shù)計(jì)算零計(jì)數(shù)值。
6、根據(jù)權(quán)利要求4所述的方法，其中所述在至少一個(gè)文檔的貝葉斯過濾中使用的校正值進(jìn)一步包括特定值，經(jīng)計(jì)算以避免任何單個(gè)詞匯不適當(dāng)?shù)赜绊懼辽僖粋€(gè)文檔的分類。
7、根據(jù)權(quán)利要求1所述的方法，其中所述至少一個(gè)文檔包括至少一個(gè)電郵信息，以及貝葉斯過濾分類所述至少一個(gè)電郵信息為歸屬于下述類別組的單個(gè)類別，該類別組包括垃圾；合法電郵；以及未知。
8、至少一個(gè)計(jì)算禾幾可讀介質(zhì)，其含有用于減少貝葉斯過濾中的假分類計(jì)算機(jī)程序產(chǎn)品，所述計(jì)算機(jī)程序產(chǎn)品包括程序代碼，用于在貝葉斯過濾的范圍內(nèi)，分析至少一個(gè)要被分類的文檔的內(nèi)容；程序代碼，用于確定至少一個(gè)文檔中是否大于閾值量的內(nèi)容是已知的；以及程序代碼，用于響應(yīng)所述確定的結(jié)果來分類所述文檔。
9、根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品，其中所述用于響應(yīng)所述確定的結(jié)果來分類文檔的程序編碼進(jìn)一步包括用于執(zhí)行下述步驟組的步驟的程序編碼，所述步驟組包括響應(yīng)大于閾值量的文檔內(nèi)容是未知的確定，分類文檔為未知類型；以及響應(yīng)少于閾值量的文檔內(nèi)容是未知的確定，根據(jù)標(biāo)準(zhǔn)貝葉斯過濾的結(jié)果分類所述文檔。
10、根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品，其中所述用于確定至少一個(gè)文檔中是否超過閾值量的內(nèi)容是已知的程序編碼進(jìn)一步包括執(zhí)行下述步驟組的至少一個(gè)步驟的程序編碼，所述步驟組包括-確定至少一個(gè)文檔中由貝葉斯過濾訓(xùn)練已知的詞匯的百分比；以及確定在至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比。
11、根據(jù)權(quán)利要求IO所述的計(jì)算機(jī)程序產(chǎn)品，其中所述用于確定在至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比的程序編碼進(jìn)一步包括程序編碼，用于計(jì)算作為至少一個(gè)文檔中零計(jì)數(shù)值和若干詞匯的變量的至少一個(gè)文檔的最大校正值；以及程序編碼，用于計(jì)算作為至少一個(gè)文檔的貝葉斯過濾中使用的校正值和至少一個(gè)文檔的最大校正值的變量的至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比。
12、根據(jù)權(quán)利要求11所述的計(jì)算機(jī)程序產(chǎn)品，其中所述零計(jì)數(shù)值進(jìn)一步包括貝葉斯過濾中對(duì)貝葉斯訓(xùn)練中沒有遇到的詞匯使用的特定值，該方法進(jìn)一步包括用于計(jì)算零計(jì)數(shù)值的程序編碼，所述零計(jì)數(shù)值是訓(xùn)練數(shù)據(jù)集中的詞匯數(shù)與常數(shù)的乘積被一除后的自然對(duì)數(shù)。
13、根據(jù)權(quán)利要求11所述的計(jì)算機(jī)程序產(chǎn)品，其中所述在至少一個(gè)文檔的貝葉斯過濾中使用的校正值進(jìn)一步包括特定值，經(jīng)計(jì)算以避免任何單個(gè)詞匯不適當(dāng)?shù)赜绊懼辽僖粋€(gè)文檔的分類。
14、根據(jù)權(quán)利要求8所述的計(jì)算機(jī)程序產(chǎn)品，進(jìn)一步包括程序編碼，用于將至少一個(gè)電郵信息分類為歸屬于下述類別組的單個(gè)類別，該類別組包括垃圾；合法電郵；以及未知。
15、一種在貝葉斯過濾中減少假分類的計(jì)算機(jī)系統(tǒng)，所述計(jì)算機(jī)系統(tǒng)包括方法，在貝葉斯過濾的范圍中，分析至少一個(gè)要被分類的文檔的內(nèi)容；方法，用于確定至少一個(gè)文檔中是否超過閾值量的內(nèi)容是已知的；以及方法，用于響應(yīng)所述確定的結(jié)果來分類文檔。
16、根據(jù)權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng)，其中所述響應(yīng)所述確定的結(jié)果來分類文檔的方法進(jìn)一步包括執(zhí)行下述步驟組的步驟的方法，所述步驟組包括響應(yīng)超過閾值量的文檔內(nèi)容是未知的確定，分類文檔為未知類型；以及響應(yīng)少于閾值量的文檔內(nèi)容是未知的確定，根據(jù)標(biāo)準(zhǔn)貝葉斯過濾的結(jié)果分類所述文檔。
17、根據(jù)權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng)，其中所述用于確定至少一個(gè)文檔中是否超過閾值量的內(nèi)容是已知的方法進(jìn)一步包括執(zhí)行下述步驟組的至少一個(gè) 步驟的方法，該步驟組包括確定至少一個(gè)文檔中由貝葉斯過濾訓(xùn)練已知的詞匯的百分比；以及確定在至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比。
18、根據(jù)權(quán)利要求17所述的計(jì)算機(jī)系統(tǒng)，其中所述用于確定在至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比的方法進(jìn)一步包括用于計(jì)算作為至少一個(gè)文檔中零計(jì)數(shù)值和若干詞匯的變量的至少一個(gè)文檔的最大校正值的方法；以及用于計(jì)算作為至少一個(gè)文檔的貝葉斯過濾中使用的校正值和至少一個(gè)文檔的最大校正值的變量的至少一個(gè)文檔的貝葉斯過濾中使用的最大校正值的百分比的方法。 '
19、根據(jù)權(quán)利要求18所述的計(jì)算機(jī)系統(tǒng)，其中所述零計(jì)數(shù)值進(jìn)一步包括貝葉斯過濾中對(duì)于貝葉斯訓(xùn)練中沒有遇到的詞匯使用的特定值，該方法進(jìn)一步包括用于計(jì)算零計(jì)數(shù)值的方法，所述零計(jì)數(shù)值是訓(xùn)練數(shù)據(jù)集中的詞匯數(shù)與常數(shù)的乘積被一除后的自然對(duì)數(shù)。
20、根據(jù)權(quán)利要求15所述的計(jì)算機(jī)系統(tǒng)，進(jìn)一步包括用于分類至少一個(gè)電郵信息為歸屬于下述類別組的單個(gè)類別的方法，所述類別組包括垃圾；合法電郵；以及未知。
全文摘要
一種貝葉斯垃圾過濾器，確定由訓(xùn)練知道的輸入電郵信息中的內(nèi)容量。如果過濾器熟悉閾值量的內(nèi)容，則過濾器處理以分類電郵信息為垃圾或合法。另一方面，如果過濾器經(jīng)訓(xùn)練沒有知道電郵中的足夠詞匯，則過濾器不能準(zhǔn)確確定信息是否是垃圾。對(duì)該情形，過濾器分類該信息為未知類型?？梢允褂貌煌拈撝稻仃嚕T如已知詞匯的百分比和在處理中使用的最大校正值的百分比。這極大的改進(jìn)了對(duì)以過濾器未被訓(xùn)練的語言記載的電郵的處理。
文檔編號(hào)G06Q10/00GK101374122SQ200810135499
公開日2009年2月25日申請(qǐng)日期2008年8月12日優(yōu)先權(quán)日2007年8月24日
發(fā)明者肖恩·庫利申請(qǐng)人:賽門鐵克公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：肖恩.庫利
技術(shù)所有人：賽門鐵克公司
我是此專利的發(fā)明人

上一篇：可攜式電腦的制作方法
上一篇：縫紉機(jī)的管理系統(tǒng)的制作方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

貝葉斯垃圾郵件過濾相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

過濾非訓(xùn)練語言的內(nèi)容中的貝葉斯擔(dān)保校驗(yàn)以減少假陽性的制作方法