亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于識別垃圾電子郵件的方法和系統(tǒng)的制作方法

文檔序號:7643830閱讀:306來源:國知局
專利名稱:用于識別垃圾電子郵件的方法和系統(tǒng)的制作方法
技術(shù)領域
所公開的本發(fā)明寬泛地涉及信息處理系統(tǒng)領域,更具體地說,涉及未經(jīng)請求(unsolicited)的電子郵件的領域。
背景技術(shù)
垃圾電子郵件(spam)是因特網(wǎng)上日益增加的問題,其繼續(xù)要求新的解決方案。用于攻擊垃圾電子郵件的現(xiàn)有機制使用諸如SMTP(簡單郵件傳輸協(xié)議)分析之類的獨立郵件傳送交易的分析、郵件尋址報頭(“來自”、“至”、“發(fā)送者”等)的分析以及郵件的主題和/或內(nèi)容的分析。雖然這些機制在較大程度上是有效的,但是垃圾電子郵件發(fā)送者(spammer)已經(jīng)學會了繞過它們,并且繼續(xù)改進他們的技術(shù)。當前在該領域中存在的流行機制和想法是(1)DNS(域名服務器)塊列表-“知道”要發(fā)送垃圾電子郵件的郵件代理的IP地址的列表;接收郵件服務器可以檢查這些列表并且拒絕從出現(xiàn)在該列表中的代理接受郵件。這些是由垃圾電子郵件抱怨者維持的反應性的、靜態(tài)列表。它們遭受維護困難的困擾(包括大公司和服務提供商的有聲譽的發(fā)送者常常發(fā)現(xiàn)他們被錯誤地放入這些列表中,并且經(jīng)常不容易將他們自己從這些列表中拿掉)。
(2)SPF(寄信人來源確認(Sender Permitted From)或者發(fā)送者策略框架)、發(fā)送者ID、CSV(驗證的服務器確認)、域密鑰和相關的建議-這些都是被設計來確認郵件的發(fā)送者不試圖謊報其身份的技術(shù)。也就是,它們的每一個都定義“發(fā)送域”并且提供用于域發(fā)表信息的機制,該信息允許接收者確定好像具有特定“發(fā)送域”的消息是否來自被授權(quán)代表該域發(fā)送郵件的代理。當充分采用時,這些對于“白列出(white listing)”是有效的但是不能用于檢測垃圾電子郵件。實際上,許多垃圾電子郵件域參與在SPF中,大概是希望這種參與會給予它們可信性(credibility)。
用于驗證電子郵件消息的發(fā)送域的機制正變得流行、標準化和被激烈辯論。SPF、呼叫者ID和發(fā)送者ID的目標基本上是相同的它們的每一個都被設計來通過使得域所有者發(fā)表有效的輸出(outgoing)電子郵件服務器的列表成為可能來防止“哄騙(spoofing)”??梢钥煽康貙⑼ㄟ^這些測試之一的消息與參與該消息的傳輸?shù)挠蛳嚓P聯(lián),“可靠地”的某種值是許多爭論和爭議的主題。因為這些技術(shù)意味著“最大努力(best effort)”驗證,因此,“似乎正確(plausibly)”可能是較好的定性。
但是,這種信息不足以過濾垃圾電子郵件。在知道負責的域之外,垃圾電子郵件過濾需要關于什么域發(fā)送垃圾電子郵件的信息。因此域驗證的大多數(shù)支持者建議將域驗證與聲譽服務進行組合。
SPF使得域聲明其輸出電子郵件網(wǎng)關。如果SPF信息正確,則來自該域的所有郵件“應該”通過這些網(wǎng)關。如果消息通過SPF檢查,并且我們假設域原則上不發(fā)送垃圾電子郵件,則將該郵件直接繼續(xù)發(fā)給用戶是安全的。但是由于垃圾電子郵件發(fā)送者也已經(jīng)注冊了域并且發(fā)表了SPF記錄,因此我們不能假設通過了SPF驗證的郵件是源自非垃圾電子郵件域的。
因此,需要分析超出垃圾電子郵件發(fā)送者的控制的電子郵件單元并且克服上述缺陷的方法和系統(tǒng)。

發(fā)明內(nèi)容
主要地,根據(jù)本發(fā)明的實施方式,方法包括步驟接收包括多個分組和發(fā)送路徑信息的電子郵件消息;使用所述發(fā)送路徑信息來確定所述電子郵件的路徑;將所述路徑與多個之前電子郵件路徑進行比較;確定接收的所述電子郵件的所述路徑與多個之前電子郵件路徑中的一個或多個之間的相似性度量;以及根據(jù)相似性度量來確定接收的所述電子郵件的垃圾電子郵件得分。其他實施方式包括具有用于執(zhí)行上述功能的計算機代碼的計算機可讀介質(zhì),和具有被配置(例如,被硬件布線(hard-wired)或者被編程)來執(zhí)行所述方法的處理器的信息處理系統(tǒng)。


圖1是表示簡化的電子郵件消息路徑的高級框圖;圖2是示出根據(jù)本發(fā)明另一種實施方式的信息處理系統(tǒng)的高級框圖;和圖3是根據(jù)本發(fā)明實施方式的方法的流程圖。
具體實施例方式
參照圖1,我們示出電子郵件基礎設施100的高度簡化的框圖。發(fā)送者節(jié)點102將電子郵件消息發(fā)送給目的地節(jié)點108。由路由器104和106將該電子郵件消息路由到目的地節(jié)點108。每個路由器將信息添加到該電子郵件消息,使得該消息包括從節(jié)點102到節(jié)點108的電子郵件路徑指示。本發(fā)明的實施方式針對該消息通過因特網(wǎng)郵件傳輸基礎設施的路徑來分析在該電子郵件消息中所存儲的信息。一旦該消息離開垃圾電子郵件發(fā)送者的控制,就將發(fā)送路徑信息添加到該消息中,垃圾電子郵件發(fā)送者不能去除該信息。通過分析這種信息,并且學習不同發(fā)送通道的垃圾電子郵件和非垃圾電子郵件模式,我們能夠檢測到通過內(nèi)容分析或者其他現(xiàn)存技術(shù)不能檢測到的垃圾電子郵件。就用于垃圾電子郵件檢測的現(xiàn)在所嘗試的解決方案來說,本發(fā)明的實施方式的優(yōu)點是使用我們發(fā)明的系統(tǒng)從實際消息中的發(fā)送路徑信息中動態(tài)學習,不需要其他參與者的“參與”,并且能夠?qū)l(fā)送路徑識別為“垃圾電子郵件的”,以及將一些發(fā)送路徑識別為“好的”。
本實施方式通過下面步驟工作分析因特網(wǎng)消息報頭中的標準“接收”行、從它們中提取該消息聲稱被傳過的IP地址和郵件域的列表、以及將這種信息與習得的發(fā)送路徑數(shù)據(jù)庫進行比較。參照圖2,我們示出了使用本發(fā)明實施方式的信息系統(tǒng)200的簡化的框圖。系統(tǒng)200包括處理器202、系統(tǒng)存儲器204、網(wǎng)絡接口206和數(shù)據(jù)庫208。數(shù)據(jù)庫208可以是系統(tǒng)200的一部分或者可以被遠程地經(jīng)由網(wǎng)絡接口206耦合到系統(tǒng)200。系統(tǒng)200通過網(wǎng)絡接口206接收電子郵件消息。然后,其分析該電子郵件消息內(nèi)的路徑信息,以確定是否將該電子郵件消息路由到目的地。將處理器202配置(例如,硬件布線或者編程)為提取該路徑信息并且將其與來自之前所分析的電子郵件的路徑信息進行比較。系統(tǒng)200通過被針對被分類(sort)的消息、垃圾電子郵件和非垃圾電子郵件的開始集合進行訓練來學習其初始數(shù)據(jù)庫;在其整個操作中,其通過從將它們接收到的新消息告訴給其的終端用戶接收者接收“選票”來繼續(xù)學習。根據(jù)它們的可靠性的判斷來對來自每個消息的地址進行分類,根據(jù)已經(jīng)從該地址來的垃圾電子郵件和非垃圾電子郵件將得分給予這些地址的每一個,并且這些的組合產(chǎn)生用于該消息的總得分。然后可以單獨或者與其他消息分類器(classifier)組合來使用這種得分以確定該消息的處置。
當評價每個地址并且將得分給予其時,我們使用“聚集(aggregation)”算法。聚集是不用所分配的網(wǎng)絡拓撲的直接知識而執(zhí)行的、而是通過直接組合IP地址的各部分而進行的一種特設算法。在當前因特網(wǎng)郵件行進其上的IPV4系統(tǒng)中,IP地址每個包括四個字節(jié),并且層級地進行分配。僅僅使用該信息,可以為收集用于每個IP地址的信息,并且為該地址及其數(shù)據(jù)與共享連續(xù)高級字節(jié)的所有那些相連接,而創(chuàng)建數(shù)據(jù)庫208。例如,表示為“64.233.161.99”的地址可以使得其信息與用“64.233.161”開始的所有那些聚集,其隨后與用“64.233”開始的那些聚集。數(shù)據(jù)庫208分散地維持這種信息(使得地址不產(chǎn)生浪費空間),并且結(jié)果是有效率的,并且在發(fā)現(xiàn)垃圾電子郵件發(fā)送和非垃圾電子郵件發(fā)送的模式時也有效。還可以使用諸如利用域所有者關系(例如,列在下面的whois)之類的其他“聚集”方法。
對于每個地址(和聚集),我們保留在訓練階段期間從該地址(或者聚集)接收來的、通過在操作階段期間所接收到的選票增加的一些數(shù)量的垃圾電子郵件和非垃圾電子郵件信息。在操作期間,我們通過沿如由聚集所確定的其父節(jié)點和“靠近”其的節(jié)點在數(shù)據(jù)庫中發(fā)現(xiàn)其節(jié)點來評價每個地址,這為那個地址產(chǎn)生一個得分。
在以最新地址開始評價了每個地址之后,我們累積經(jīng)加權(quán)的平均值,與僅僅從其他“靠近的”地址中獲得的那些相比,將更多的權(quán)重給予精確(exact)的數(shù)據(jù)庫匹配。我們檢測和去除虛假信息,并且結(jié)果是作為整體用于消息的得分。可以單獨使用該得分、或者與從內(nèi)容分析或者其他反垃圾電子郵件技術(shù)中獲得的得分組合,以確定消息的最終處置。
參照圖3,我們討論根據(jù)本發(fā)明實施方式用于分類電子消息的計算機實施的方法300??梢杂煽刂坡酚伞爸欣^段(hop)”的電子郵件網(wǎng)絡中的任何節(jié)點來實施方法300。
步驟302確定用于傳輸消息的網(wǎng)絡路徑。這可以包括從消息報頭提取發(fā)送路徑。可選地,消息可以符合RFC 2822而且可以從“RECEIVED”報頭中提取網(wǎng)絡路徑。
步驟304將可信性函數(shù)應用于網(wǎng)絡路徑以確定沿從其接收到電子郵件消息的路徑的節(jié)點的可信性。應用可信性函數(shù)的步驟可以包括分離地考慮網(wǎng)絡路徑中的每個節(jié)點;針對每個節(jié)點確定初步可信性;使用所述初步可信性,和路徑中一個或多個其他節(jié)點的可信性來確定該節(jié)點的可信性。確定初步可信性的步驟可以包括計數(shù)每個節(jié)點之前所發(fā)送的每個分類的消息的頻率。每個節(jié)點可以由它的IP地址來表示。
步驟306將關系函數(shù)應用于網(wǎng)絡路徑。步驟308根據(jù)網(wǎng)絡路徑與之前所分析的消息所使用的路徑的相似性來確定消息的分類。步驟310根據(jù)該路徑的分析來確定要對電子郵件消息采取的行動(例如,作為垃圾電子郵件刪除、發(fā)送到用戶的收件箱(inbox)或者發(fā)送到諸如“可疑垃圾電子郵件”郵件箱之類的替代目的地)。步驟310可以包括檢查從最近到最早的節(jié)點和將不好于之前所檢查的節(jié)點的可信性分配給每個節(jié)點。
方法300可以包括附加條件,即將低可信性給予計數(shù)步驟中對于適當計數(shù)不具有足夠的歷史的節(jié)點。在本方法中,可以通過檢查由從消息中確定的參考域所發(fā)表的信息來確定初步可信性。
關系函數(shù)將每個之前沒被看到的節(jié)點與帶有類似IP地址的已知節(jié)點進行比較??梢哉J為在它們的高階比特(higher-order bit)中匹配的IP地址和具有相同所有者的IP地址類似。
關系函數(shù)將每個之前沒被看到的節(jié)點域帶有類似域名的已知節(jié)點進行比較??梢哉J為在域名層級中帶有部分匹配的節(jié)點類似??梢哉J為其域名具有相同所有者的節(jié)點類似。
根據(jù)另一種實施方式,我們討論根據(jù)分析用于傳輸已知垃圾電子郵件和已知好郵件的路徑來學習電子郵件域和IP地址的聲譽的方法。將該信息與用于過濾經(jīng)哄騙的郵件報頭的方法組合以確保垃圾電子郵件發(fā)送者不能規(guī)避路由分類分析。
所討論的方法只使用來自電子郵件消息的報頭中在標準“接收”行中所提及的IP地址來將消息分類為垃圾電子郵件或者非垃圾電子郵件。其實施一學習算法,其中我們假設用所選擇的對應IP地址在之前所分類的郵件的代表集合上訓練該算法。來自相同或者類似IP地址的郵件可能共享相同的分類。
為了精確地標定(label)針對其存在少量數(shù)據(jù)的站點,我們可以使用利用諸如本地Bayes(native Bayes)或者Chung-Kwei之類的、可以更加精確地進行區(qū)分的另一種技術(shù)的分類器。例如,雖然SMTP路徑分析不如通常所使用的Bayesian垃圾電子郵件分類器精確,但是其識別Bayesian分類器一般處理得最好的信息,并且在該空間的那些部分上其做得更好。雖然Bayesian分類器可以分類針對其不存在用于有效路徑分析的足夠數(shù)據(jù)的例子,但是可以使用SMTP路徑分析結(jié)果來修正來自Bayesian分類器的錯誤評價。使用兩種結(jié)果的聚集分類器可以比使用任何一個的都好。
這里所描述的方法直接使用IP地址并且有時根據(jù)鄰近的IP地址來建立它們的聲譽,而不是通過聲明的外部集合將它們成組(grouping)并且學習這些組的聲譽。SPF在這方面具有的主要優(yōu)點是SPF可以將根本不同的地址范圍成組為單個實體,所以需要損失信息來創(chuàng)建用于該成組的聲譽;而且SPF明確描述范圍的界限在哪里。
SPF(寄信人來源確認)可以宣稱另一個優(yōu)點,其中,如果聲稱發(fā)送的域發(fā)表SPF記錄,其可以將通過合法網(wǎng)關的郵件與從僵進程(zombie)直接發(fā)送到因特網(wǎng)的郵件進行區(qū)分。然而,我們的算法實際上善于識別合法網(wǎng)關以及將直接來自僵進程機器(或者“botnets”)的郵件進行分類,所以該優(yōu)點小于其可能表現(xiàn)的那樣。當可用時可以結(jié)合我們的算法來清楚地使用SPF信息,而當不可用時,該算法代表其自己。還要注意,雖然如果所聲稱的發(fā)送域不發(fā)布SPF記錄,則SPF不能說明任何問題,但是我們的算法還是從發(fā)送路徑中學習而不論將什么域宣稱為消息的源。
SMTP協(xié)議指定用于發(fā)送電子郵件消息的每個SMTP中繼必須將(至少)包含關于接收該消息的SMTP服務器(服務器從該位置接收了消息)的信息的“接收”行、和聲明添加該報頭的時間的時間戳添加到該消息報頭列表的開始處。當被一同考慮時,這些報頭行提供用于發(fā)送消息的SMTP路徑的蹤跡(trace)。
然而,不能完全相信在消息的接收報頭中所列出的SMTP路徑。不以任何方式標記(sign)或者驗證消息報頭,因此可以容易地進行哄騙。沿路徑的任何SMTP服務器可以插入虛假報頭,其使得該消息看起來來自發(fā)送者選擇的任何路徑。
盡管如此,某些所接收的行報頭是可靠的。例如,可以信任由用戶自己域的進入(inbound)SMPT服務器添加的所有報頭。站點還可以相信由與其有規(guī)律地進行商業(yè)往來的組織所產(chǎn)生的接收行,假設它們可以識別這些組織的發(fā)出(outbound)服務器。但是一旦在接收行中暗示的SMTP路徑到達未知或者不值得信任的服務器,就不能信任剩余的所聲稱的SMTP路徑。
SMTP路徑分析通過分析使用該IP地址所發(fā)送的電子郵件的過去的歷史來學習IP地址的垃圾電子郵件特性(spamminess)或者良好性以進行工作。該算法的學習階段將被標為垃圾電子郵件或者非垃圾電子郵件的預先分類的消息的集合作為輸入。該學習算法從每個消息中提取按照推測郵件采用來到達接收者的IP地址序列,并且收集關于每個IP地址的統(tǒng)計。在其分類階段,該算法從目標消息中提取IP地址序列,并且根據(jù)按照推測用于傳輸該消息的網(wǎng)關的IP地址產(chǎn)生用于該消息的得分。該得分可以受閾值的支配以產(chǎn)生是否為垃圾電子郵件的分類,或者可以被用作對聚集分類器的輸入。該算法不查看其他信息;特別是,其不另外地分析消息的內(nèi)容,也不考慮任何域信息。
在我們的方法的最基本形式中,針對每個IP地址所收集的統(tǒng)計完全就是其為之出現(xiàn)的垃圾電子郵件和非垃圾電子郵件的數(shù)量。然后,使用這些計數(shù)來估計通過任何之前所看見的IP地址的郵件是垃圾電子郵件的概率。根據(jù)需要將所述概率估計進行平滑以針對小樣本尺寸進行修正。在分類期間,我們查看用于傳送該消息的IP地址的序列并且根據(jù)我們具有針對其的足夠數(shù)據(jù)的鏈中的最后IP地址來將垃圾電子郵件特性分配給該消息。
在算法的上述概述甚至似乎正確之前還有兩個必須被解決的問題1.許多機器(特別是在鏈的開始的那些,其可以是連接到它們的服務提供商的僵進程或者垃圾電子郵件發(fā)送者)不具有固定的IP地址,所以在作為我們正在試圖分類的消息中的一個的訓練集合中看見相同IP地址的概率比希望的小。
2.上面技術(shù)易于哄騙。也就是,該消息可能來自垃圾電子郵件性的(spammy)IP地址和可能宣稱其正在繼續(xù)發(fā)送來自合法發(fā)送者的消息的機器。
我們通過在不存在針對當前IP地址作出可靠決定的足夠數(shù)據(jù)的任何時候?qū)斍癐P地址的統(tǒng)計與“鄰近“IP”地址的那些進行組合來應對動態(tài)IP問題。存在可以用于這種目的的“鄰近”的許多可能定義。一種解決方案是建造迄今我們已經(jīng)看見的IP地址的樹。該樹的根具有多至256個子樹,每個與IP地址的各種可能的第一字節(jié)對應。為了效率,我們使得樹稀疏,所以我們還沒有遇到的第一字節(jié)在該樹中不出現(xiàn)。這種稀疏性在該樹的所有分支中繼續(xù)。
隨后這些子樹的每一個其自己具有多至256個子樹,每個對應于第二字節(jié)。雖然針對第三和第四字節(jié)進行相同的過程,當然,當我們沿樹向下時分支變得更加稀疏,產(chǎn)生帶有少于232個節(jié)點的樹。
在每個節(jié)點n,我們存儲該節(jié)點所表示的該IP地址或者范圍已經(jīng)出現(xiàn)在其中的非垃圾電子郵件消息的數(shù)量NSn和垃圾電子郵件消息的數(shù)量Sn。計算作為節(jié)點的垃圾電子郵件性度量的比率,即Sn/(Sn+NSn)將垃圾電子郵件消息的數(shù)量除以已經(jīng)通過該地址或者范圍的消息的總數(shù)。
我們不能僅僅就這樣使用該比率。而且,存在兩個問題1.我們正在試圖記錄在內(nèi)部節(jié)點處的是如果我們獲得IP地址而不具有在該節(jié)點下面的精確匹配則將會有幫助的信息。應該通過在平均IP子范圍處所發(fā)生的而不是在這些范圍中在一些特定IP地址處可能發(fā)生的來影響該值。在垃圾電子郵件發(fā)送者使用特定地址而不是作為整體的范圍的情況下這可能特別重要,并且因此我們將子節(jié)點的活動進行平均,而不由通過它們的郵件的數(shù)量進行加權(quán)。
2.如果節(jié)點僅僅看見一個垃圾電子郵件而沒有非垃圾電子郵件,下一個郵件是垃圾電子郵件的概率不是100%。
我們通過我們實際計算用于該IP地址的得分的方式來解決這兩個問題。我們添加帶有得分為0.5的人為的新的根。如果可以獲得一個的話,我們重復地轉(zhuǎn)到包含實際IP地址的子樹。在該子樹處,我們計算該子樹的孩子和父親的平均值。也就是,如果存在九個孩子則我們采用平均十個節(jié)點父親和九個孩子。對于葉節(jié)點,我們采用由包含該葉的消息的數(shù)量所加權(quán)的葉節(jié)點的比率和父親的平均值。當然,有時如果我們從未在我們的訓練集合中看見這種精確的IP地址,則我們不到達葉節(jié)點。當我們獲得新消息時,我們查看每個IP地址,從最后一個(最接近我們的接收機器的一個)開始。我們計算其得分,其為在0和1之間的數(shù)字,然后將其與用于下一個IP地址的得分組合。我們以權(quán)重等于1/(s*(1-s))采用兩個IP地址的垃圾電子郵件性的經(jīng)加權(quán)的平均,其中s是上述的垃圾電子郵件性。原理是在序列中強垃圾電子郵件性和強非垃圾電子郵件性的IP地址是消息郵件的特性的較高指示器-帶有最極端得分的地址是對于計算最有意義的地址。我們繼續(xù)將當前的平均值與下一個IP地址的垃圾電子郵件性組合的這種過程,直到我們到達列表結(jié)尾為止。
如上所述,上面技術(shù)易于哄騙。如果垃圾電子郵件發(fā)送者進行哄騙以妨礙我們的算法,則郵件將顯示為通過垃圾電子郵件性的地址而來自合法的源。為了應對這種問題,我們?yōu)槊總€中間地址建立可信性值,并且如果地址是不可信的,則我們至少可以部分忽略剩余的地址。
在實踐中,如果在序列中存在與訓練集合中的IP地址精確匹配的任何IP地址,則當我們只發(fā)現(xiàn)內(nèi)部節(jié)點時,其是比上面給出的得分更好的指示器。所以我們將更多權(quán)重給予精確的匹配。
在作為消息源頭的地址和作為網(wǎng)關動作的地址之間存在區(qū)別,而我們針對源頭地址和中間地址保持分離的統(tǒng)計??紤]這樣的例子,一個企業(yè),當其開發(fā)了其公司現(xiàn)在的因特網(wǎng)時,在一個部門中的、已經(jīng)在之前的某段時間內(nèi)具有了因特網(wǎng)電子郵件地址的大多數(shù)用戶緩慢地從該部門內(nèi)的網(wǎng)關向企業(yè)范圍的網(wǎng)關移動。當垃圾電子郵件增加時,很少將該部門的網(wǎng)關用于合法郵件-通過這些網(wǎng)關之一移動的郵件中98%為垃圾電子郵件,但是某些部門員工還繼續(xù)使用它。因此,根據(jù)對接收到的行的分析,會將從那些到該企業(yè)的其他部分的郵件標為可能的垃圾電子郵件??梢酝ㄟ^將最后IP地址(按照推測為源頭站點)的統(tǒng)計與所有其他的分離來解決這個問題。所以,如果地址范圍接收許多垃圾電子郵件,但是源頭靠近其的所有郵件是好的,則其將被給予好的得分。
因此,雖然已經(jīng)描述了現(xiàn)在被認為是優(yōu)選實施方式的實施方式,但是本領域的普通技術(shù)人員應該理解,在本發(fā)明的精神內(nèi)可以進行其他修改。
權(quán)利要求
1.一種計算機實施的方法,包括步驟接收電子郵件消息,其包括多個分組、包括一個或多個單元的傳輸路徑信息以及針對所述電子郵件消息的至少一個接收者;使用所述傳輸路徑信息的所述一個或多個單元來確定針對所述電子郵件的網(wǎng)絡路徑;將所述路徑與多個之前電子郵件路徑進行比較;確定所接收到的電子郵件的路徑和多個之前電子郵件路徑中的一個或多個之間的相似性度量;和根據(jù)所述相似性度量來確定針對所接收到的所述電子郵件的垃圾電子郵件得分。
2.根據(jù)權(quán)利要求1所述的方法,還包括當將所述電子郵件消息確定為包括垃圾電子郵件時不將所述電子郵件消息轉(zhuǎn)發(fā)到所述的至少一個接收者。
3.根據(jù)權(quán)利要求1所述的方法,其中,所述傳輸路徑信息包括接收行,而所述方法還包括分析所述電子郵件消息報頭中的所述接收行;從所述接收行中提取所述電子郵件聲稱通過的IP地址和郵件域的列表;和將所述IP地址與包括沿每個傳輸路徑的IP地址的傳輸路徑的習得數(shù)據(jù)庫進行比較。
4.根據(jù)權(quán)利要求3所述的方法,其中,在接收所述電子郵件消息之前,所述方法包括通過訓練包括垃圾電子郵件和非垃圾電子郵件消息的經(jīng)分類的消息的開始集合來創(chuàng)建用于存儲多個之前電子郵件路徑的習得數(shù)據(jù)庫;和存儲用于在所述數(shù)據(jù)庫中所存儲的每個IP地址的開始垃圾電子郵件得分,其中所述垃圾電子郵件得分指示所接收到的電子郵件是垃圾電子郵件的似然性。
5.根據(jù)權(quán)利要求4所述的方法,還包括通過從接收電子郵件的用戶處接收選票來更新所述數(shù)據(jù)庫,其中每個選票指示所述用戶將所述電子郵件當作垃圾電子郵件還是非垃圾電子郵件。
6.根據(jù)權(quán)利要求5所述的方法,還包括當存儲IP地址時組合所述IP地址的各部分。
7.根據(jù)權(quán)利要求6所述的方法,還包括當訓練所述數(shù)據(jù)庫時聚集IP地址。
8.根據(jù)權(quán)利要求1所述的方法,還包括在以最近地址開始評價每個地址之后,累積經(jīng)加權(quán)的平均值,并且與僅僅從其他鄰近地址所獲得的那些相比將更多的權(quán)重給予精確的數(shù)據(jù)庫匹配。
9.根據(jù)權(quán)利要求1所述的方法,還包括檢測和去除虛假信息,和作為整體提供關于該消息的得分。
10.根據(jù)權(quán)利要求1所述的方法,還包括對由所述電子郵件消息所跟隨的所述網(wǎng)絡路徑應用可信性函數(shù)。
11.根據(jù)權(quán)利要求1所述的方法,還包括對由所述電子郵件消息所跟隨的所述網(wǎng)絡路徑應用關系函數(shù)。
12.根據(jù)權(quán)利要求11所述的方法,其中應用所述可信性函數(shù)的所述步驟包括分離地考慮所述網(wǎng)絡路徑中的每個節(jié)點;確定針對每個節(jié)點的初步可信性;使用所述初步可信性,和所述路徑中一個或多個其他節(jié)點的可信性,來確定該節(jié)點的可信性。
13.根據(jù)權(quán)利要求11所述的方法,其中確定所述初步可信性的所述步驟包括對之前由每個節(jié)點所發(fā)送的每個分類的消息的頻率進行計數(shù)。
14.根據(jù)權(quán)利要求7所述的方法,其中聚集IP地址是基于域所有者關系的。
15.根據(jù)權(quán)利要求11所述的方法,其中至少一個節(jié)點由其IP地址表示。
16.根據(jù)權(quán)利要求11所述的方法,其中由所述網(wǎng)關計算機的DNS名表示至少一個節(jié)點。
17.根據(jù)權(quán)利要求12所述的方法,其中使用所述初步可信性的所述步驟包括檢查從最近到最早的所述節(jié)點;將不好于所述之前檢查的節(jié)點的可信性的可信性分配給每個節(jié)點。
18.根據(jù)權(quán)利要求12所述的方法,其中將低可信性給予在所述計數(shù)步驟中針對適當計數(shù)不具有足夠歷史的節(jié)點。
19.一種信息處理系統(tǒng),包括處理器,配置來接收包括多個分組和傳輸路徑信息的電子郵件消息;使用所述傳輸路徑信息來確定針對所述電子郵件的路徑;將所述路徑與多個之前電子郵件路徑進行比較;確定所接收到的所述電子郵件的所述路徑和多個之前電子郵件路徑中的一個或多個之間的相似性度量;和根據(jù)所述相似性度量來確定針對接收到的所述電子郵件的垃圾電子郵件得分。
全文摘要
一種方法,包括步驟接收包括多個分組和傳輸路徑信息的電子郵件消息;使用所述傳輸路徑信息確定針對所述電子郵件的路徑;將所述路徑與多個之前電子郵件路徑進行比較;確定所接收到的電子郵件的路徑和多個之前電子郵件路徑中的一個或多個之間的相似性度量;和根據(jù)所述相似性度量來確定針對所接收到的所述電子郵件的垃圾電子郵件得分。其他實施方式包括具有執(zhí)行上述功能的計算機代碼的計算機可讀介質(zhì),和包括被配置(即,硬件布線或者編程)來執(zhí)行該方法的處理器的信息處理系統(tǒng)。
文檔編號H04L9/00GK101014020SQ200710004759
公開日2007年8月8日 申請日期2007年1月30日 優(yōu)先權(quán)日2006年2月3日
發(fā)明者馬克·N·韋格曼, 巴里·萊巴, 理查德·西格爾, 韋達科達圖·T·拉簡, 喬爾·奧施爾 申請人:國際商業(yè)機器公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1