使用多尺度文本指紋的文檔分類的制作方法
【專利說明】使用多尺度文本指紋的文檔分類
【背景技術】
[0001] 本發(fā)明涉及用于分類電子文檔的方法及系統(tǒng),且尤其涉及用于篩選未經(jīng)請求的電 子通信(垃圾郵件)且檢測詐騙性網(wǎng)上文檔的系統(tǒng)及方法。
[0002] 未經(jīng)請求的電子通信(也稱為垃圾郵件)形成全球通信業(yè)務的顯著部分,從而影 響計算機消息傳遞服務及電話消息傳遞服務兩者。垃圾郵件可呈許多形式,從未經(jīng)請求的 電子郵件通信到偽裝成各種互聯(lián)網(wǎng)站點(例如,網(wǎng)志及社交網(wǎng)絡站點)上的用戶評論的垃 圾郵件消息。垃圾郵件占用寶貴的硬件資源、影響生產率,且被通信服務及/或互聯(lián)網(wǎng)的許 多用戶視為討厭的及打擾的。
[0003] 網(wǎng)上詐騙(尤其是呈網(wǎng)絡釣魚及身份盜用的形式)已正對全球互聯(lián)網(wǎng)用戶造成日 益增加的威脅。由在互聯(lián)網(wǎng)上操作的國際犯罪網(wǎng)絡詐騙性地獲得的敏感身份信息(例如用 戶姓名、ID、密碼、身份證號碼及醫(yī)療記錄、銀行及信用卡明細)用于提取私人資金及/或進 一步賣給第三方。除了給個人造成直接的金融損失以外,網(wǎng)上詐騙也造成一系列有害的副 作用,例如公司日益增加的安全成本、較高的零售價格及銀行收費、下跌的股票價值、較低 的工資及下降的稅收收入。
[0004] 在示范性網(wǎng)絡釣魚嘗試中,虛假網(wǎng)站(也稱為克?。┛蓚窝b成屬于網(wǎng)上零售商或 金融機構的正版網(wǎng)頁,要求用戶輸入一些個人信息(例如,用戶名或密碼)或一些金融信息 (例如,信用卡號、賬號或安全代碼)。一旦毫無戒心的用戶提交所述信息,其就可由所述虛 假網(wǎng)站搜集。另外,用戶可被引導到另一網(wǎng)頁,其能夠在用戶的計算機上安裝惡意軟件。所 述惡意軟件(例如,病毒、特洛伊木馬)能夠通過記錄由用戶在訪問某些網(wǎng)頁時鍵入的密鑰 而繼續(xù)竊取個人信息,且能夠將用戶的計算機變換成用于發(fā)動其它網(wǎng)絡釣魚及垃圾郵件攻 擊的平臺。
[0005] 在垃圾電子郵件或電子郵件詐騙的情況下,在用戶或電子郵件服務提供商的計算 機系統(tǒng)上運行的軟件可用于將電子郵件消息分類為垃圾郵件/非垃圾郵件(或詐騙性/合 法),且甚至區(qū)分各種種類的消息,例如,區(qū)分產品提供、成人內容及尼日利亞詐騙。垃圾郵 件/詐騙性消息可隨后被引導到特殊文件夾或被刪除。類似地,在內容提供商的計算機系 統(tǒng)上運行的軟件能夠用于攔截發(fā)布到由相應內容提供商托管的網(wǎng)站的垃圾郵件/詐騙性 消息,且防止顯示相應消息,或向所述網(wǎng)站的用戶顯示所述相應消息可為詐騙性或垃圾郵 件的警告。
[0006] 已提出用于識別垃圾郵件及/或網(wǎng)上詐騙的若干方法,其包含使消息的發(fā)端地址 與已知違法或受信任地址列表(分別稱為黑名單及白名單的技術)匹配、搜索某些字或字 形(例如,再融資、Viagra?、股票),及分析消息標頭。有時結合自動化數(shù)據(jù)分類方法(例 如,貝葉斯(Bayesian)篩選、神經(jīng)網(wǎng)絡)而使用特征提取/匹配方法。
[0007] -些所提出的方法使用散列以產生電子文本消息的緊湊表示。此類表示允許有效 的消息間比較,其用于垃圾郵件或詐騙檢測目的。
[0008] 垃圾郵件發(fā)送者及網(wǎng)上詐騙者試圖通過使用各種迷惑方法(例如,拼錯某些字、 將垃圾郵件及/或詐騙性內容嵌入到偽裝成合法文檔的較大文本塊中,及將消息的形式及 /或內容從一個分布波更改到另一分布波)而避開檢測。使用散列的反垃圾郵件及反詐騙 方法通常易受此類迷惑的干擾,這是因為文本的小改變可產生實質上不同的散列。成功的 檢測可因此受益于能夠識別多態(tài)垃圾郵件及詐騙的方法及系統(tǒng)。
【發(fā)明內容】
[0009] 根據(jù)一個方面,一種客戶端計算機系統(tǒng)包括至少一個處理器,其經(jīng)配置以確定目 標電子文檔的文本指紋,使得所述文本指紋的長度約束在下限與上限之間,其中所述下限 及上限為預定的。確定所述文本指紋包括:選擇所述目標電子文檔的多個文本標記;及響 應于選擇所述多個文本標記,根據(jù)所述上限及下限且根據(jù)所述所選擇的多個文本標記的計 數(shù)而確定指紋片段大小。確定所述文本指紋進一步包括:確定多個指紋片段,所述多個指紋 片段中的每一指紋片段是根據(jù)所述所選擇的多個文本標記中的相異文本標記的散列而確 定,每一指紋片段由字符序列組成,所述序列的長度經(jīng)選擇為等于所述指紋片段大??;及級 聯(lián)所述多個指紋片段以形成所述文本指紋。
[0010] 根據(jù)另一方面,一種服務器計算機系統(tǒng)包括至少一個處理器,其經(jīng)配置以執(zhí)行與 多個客戶端系統(tǒng)進行的事務,其中事務包括:從所述多個客戶端系統(tǒng)中的客戶端系統(tǒng)接收 文本指紋,所述文本指紋是針對目標電子文檔而確定,使得所述文本指紋的長度約束在下 限與上限之間,其中所述下限及上限為預定的;及向所述客戶端系統(tǒng)發(fā)送指示所述目標電 子文檔所屬的文檔類別的目標標簽。確定所述文本指紋包括:選擇所述目標電子文檔的多 個文本標記;及響應于選擇所述多個文本標記,根據(jù)所述上限及下限且根據(jù)所述所選擇的 多個文本標記的計數(shù)而確定指紋片段大小。確定所述文本指紋進一步包括:確定多個指紋 片段,所述多個指紋片段中的每一指紋片段是根據(jù)所述所選擇的多個文本標記中的相異文 本標記的散列而確定,每一指紋片段由字符序列組成,所述序列的長度經(jīng)選擇為等于所述 指紋片段大??;及級聯(lián)所述多個指紋片段以形成所述文本指紋。確定所述目標標簽包括: 從參考指紋的數(shù)據(jù)庫檢索參考指紋,所述參考指紋是針對屬于所述類別的參考電子文檔而 確定,所述參考指紋是根據(jù)所述參考指紋的長度而選擇,使得所述參考指紋的所述長度在 所述上限與下限之間;及根據(jù)比較所述文本指紋與所述參考指紋的結果而確定所述目標電 子文檔是否屬于所述類別。
[0011] 根據(jù)另一方面,一種方法包括使用客戶端計算機系統(tǒng)的至少一個處理器以確定目 標電子文檔的文本指紋,使得所述文本指紋的長度約束在下限與上限之間,其中所述下限 及上限為預定的。確定所述文本指紋包括:選擇所述目標電子文檔的多個文本標記;及響 應于選擇所述多個文本標記,根據(jù)所述上限及下限且根據(jù)所述所選擇的多個文本標記的計 數(shù)而確定指紋片段大小。確定所述文本指紋進一步包括:確定多個指紋片段,所述多個指紋 片段中的每一指紋片段是根據(jù)所述所選擇的多個文本標記中的相異文本標記的散列而確 定,每一指紋片段由字符序列組成,所述序列的長度經(jīng)選擇為等于所述指紋片段大??;及級 聯(lián)所述多個指紋片段以形成所述文本指紋。
[0012] 根據(jù)另一方面,一種方法包括使用經(jīng)配置以執(zhí)行與多個客戶端系統(tǒng)進行的事務的 服務器計算機系統(tǒng)的至少一個處理器以:從所述多個客戶端系統(tǒng)中的客戶端系統(tǒng)接收文本 指紋,所述文本指紋是針對目標電子文檔而確定,使得所述文本指紋的長度約束在下限與 上限之間,其中所述下限及上限為預定的;及向所述客戶端系統(tǒng)發(fā)送針對所述目標電子文 檔所確定的目標標簽,所述目標標簽指示所述目標電子文檔所屬的文檔類別。確定所述文 本指紋包括:選擇所述目標電子文檔的多個文本標記;及響應于選擇所述多個文本標記, 根據(jù)所述上限及下限且根據(jù)所述所選擇的多個文本標記的計數(shù)而確定指紋片段大小。確定 所述文本指紋進一步包括:確定多個指紋片段,所述多個指紋片段中的每一指紋片段是根 據(jù)所述所選擇的多個文本標記中的相異文本標記的散列而確定,每一指紋片段由字符序列 組成,所述序列的長度經(jīng)選擇為等于所述指紋片段大?。患凹壜?lián)所述多個指紋片段以形成 所述文本指紋。確定所述目標標簽包括:從參考指紋的數(shù)據(jù)庫檢索參考指紋,所述參考指紋 是針對屬于所述類別的參考電子文檔而確定,所述參考指紋是根據(jù)所述參考指紋的長度而 選擇,使得所述參考指紋的所述長度在所述上限與下限之間;及根據(jù)比較所述文本指紋與 所述參考指紋的結果而確定所述目標電子文檔是否屬于所述類別。
【附圖說明】
[0013] 在閱讀以下詳細描述后及在參考圖式后就將更好地理解本發(fā)明的前述方面及優(yōu) 點,在圖式中:
[0014] 圖1展示根據(jù)本發(fā)明的一些實施例的包括保護多個客戶端系統(tǒng)的安全服務器的 示范性反垃圾郵件/反詐騙系統(tǒng)。
[0015] 圖2-A展示根據(jù)本發(fā)明的一些實施例的客戶端計算機系統(tǒng)的示范性硬件配置。
[0016] 圖2-B展示根據(jù)本發(fā)明的一些實施例的安全服務器計算機系統(tǒng)的示范性硬件配 置。
[0017] 圖2-C展示根據(jù)本發(fā)明的一些實施例的內容服務器計算機系統(tǒng)的示范性硬件配 置。
[0018] 圖3-A展示根據(jù)本發(fā)明的一些實施例的包括文本塊的示范性垃圾電子郵件消息。
[0019] 圖3-B展示根據(jù)本發(fā)明的一些實施例的包括文本塊的示范性垃圾郵件網(wǎng)志評論。
[0020] 圖3-C說明根據(jù)本發(fā)明的一些實施例的包括多個文本塊的示范性詐騙性網(wǎng)頁。
[0021] 圖4-A說明根據(jù)本發(fā)明的一些實施例的客戶端計算機與安全服務器之間的示范 性垃圾郵件/詐騙檢測事務。
[0022] 圖4-B說明根據(jù)本發(fā)明的一些實施例的內容服務器與安全服務器之間的示范性 垃圾郵件/詐騙檢測事務。
[0023] 圖5展示根據(jù)本發(fā)明的一些實施例的目標電子文檔的示范性目標指示符,所述指 示符包括文本指紋及其它垃圾郵件/詐騙識別數(shù)據(jù)。
[0024] 圖6展示根據(jù)本發(fā)明的一些實施例的在客戶端系統(tǒng)上執(zhí)行的示范性應用程序集 合的圖解。
[0025] 圖7說明根據(jù)本發(fā)明的一些實施例的由圖6的指紋計算器執(zhí)行的示范性步驟序 列。
[0026] 圖8展示根據(jù)本發(fā)明的一些實施例的目標文本塊的文本指紋的示范性確定。
[0027] 圖9展示根據(jù)本發(fā)明的一些實施例的針對處于各種放大及縮小因數(shù)的目標文本 塊而確定的多個指紋。
[0028] 圖10說明根據(jù)本發(fā)明的一些實施例的由指紋計算器執(zhí)行以確定縮小指紋的示范 性步驟序列。
[0029] 圖11展示根據(jù)本發(fā)明的一些實施例的在安全服務器上執(zhí)行的示范性應用程序。
[0030] 圖12展示根據(jù)本發(fā)明的一些實施例的在安全服務器上執(zhí)行的示范性文檔分類器 的圖解。
[0031] 圖13展示在包括分析實際垃圾郵件消息流的計算機實驗中獲得的垃圾郵件檢測 率,所述分析是根據(jù)本發(fā)明的一些實施例而執(zhí)行;比較所述檢測率與通過常規(guī)方法而獲得 的檢測率。
【具體實施方式】
[0032] 在以下描述中,應理解,結構之間的所有列舉的連接可為直接操作連接或通過中 介結構的間接操作連接。元件集合包含一或多個元件。元件的任何列舉應被理解為是指至 少一個元件。多個元件包含至少兩個元件。除非另有要求,否則任何所描述的方法步驟未必 需要按所說明的特定次序執(zhí)行。來源于第二元件的第一元件(例如,數(shù)據(jù))涵蓋等于第二 元件的第一元件,以及通過處理第二元件而產生的第一元件及任選的其它數(shù)據(jù)。根據(jù)參數(shù) 做出確定或決定涵蓋根據(jù)參數(shù)且任選地根據(jù)其它數(shù)據(jù)做出確定或決定。除非另有指定,否 則一些數(shù)量/數(shù)據(jù)的指示符