專利名稱:利用改進的高斯混合模型分類器檢測圖像垃圾郵件的方法
技術領域:
本發(fā)明是運用統(tǒng)計思想中的高斯混合模型,對圖片的局部不變特征進行密度函數 擬合。提出基于高斯混合模型的均值聚類算法以及分類模型,對圖像型垃圾郵件進行檢測。 主要解決了當今的技術對圖像型垃圾郵件的檢測效率和召回率低等問題,屬于數據挖掘和 機器學習領域。
背景技術:
電子郵件已成為人們進行網絡交流溝通的重要途徑,但是由于巨大的商業(yè)、經濟 及政治利益,導致垃圾郵件數量急劇膨脹。起初盛行的圖像型垃圾郵件是將廣告等垃圾信 息以文字形式嵌入圖像中,Hrishikesh等人在利用挖掘出來的文本以及顏色特征來對郵件 進行分類[1]。Fumera等在2006年提出了一種OCR(光學字符識別)技術檢測圖像型垃圾 郵件的文本信息,相對其他過濾系統(tǒng)來說,具有較好的檢測效果[2]。同時垃圾郵件制造者 們也在不斷地增強垃圾郵件逃避檢測系統(tǒng)的能力,他們對嵌有廣告等垃圾信息的圖像進行 了模糊處理,這使得當時的OCR技術無法挖掘出嵌入這種圖片中的文字。Dredze et al.提 出了利用圖片的高級特征來對圖片進行分類,高級特征指的是文件格式,大小,顏色分布等。這種方法的優(yōu)點是檢測速度很快,并且具有較好的擴展性,能夠與對低級特征的圖片 過濾器進行有效的結合。Fumera在2007年提出了一種通過計算圖像周長復雜度的方法來判別一張圖片是 否經過了模糊技術的處理W]。一張圖片的模糊的程度可以由周長復雜度來衡量的,計算方 法為文字區(qū)域周長的平方和文字區(qū)域面積的比值。通過文字周長復雜度可以標識斷字符或 者是噪音對象的出現。由于不能證實經過模糊處理的圖像就是攜帶垃圾信息的圖像,這種 處理技術只能作為垃圾郵件過濾系統(tǒng)中預處理某個模塊。Zhe Wang等人提出的圖像型垃圾 郵件過濾方法是通過比較圖像之間的相似性方法[5]分別使用結合三類圖像型垃圾郵件 過濾方法(顏色直方圖過濾方法、哈爾小波過濾以及方向直方圖特征),實驗的結果表明 每個過濾系統(tǒng)單獨執(zhí)行時,通過比較發(fā)現小波過濾獲取了最好的檢測率并且其誤檢率(將 正常圖片標識為垃圾圖片)低于0. 0009%,三類過濾器結合起來的精確率達到96%,該方 法是通過結合已有的過濾系統(tǒng)來實現的,可以說它是對一個階段的垃圾郵件過濾技術的一 個總結,使用該方法提高了圖像型垃圾郵件過濾系統(tǒng)的性能。Mehta等在2008年針對使用模板而大量生成的垃圾郵件進行檢測,利用重復相 似性質,使用支持向量機分類器的精確度達到了 98%,同時提出了利用高斯混合模型來對 圖片進行聚類的算法[6]將每幅圖片縮小到100X100像素點,提取每個像素的紋理形狀 和顏色特征,對每幅圖片訓練其高斯混合模型,并計算高斯混合模型之間的相近距離來聚 類。通過計算閥值來分辨垃圾圖片,雖然該方法采用統(tǒng)計學知識計算比較精確但是計算量 太大,算法的時間復雜度較高,不利于在實際的應用中。隨后由Zuo等提出了使用核函數 為PMK的一類支持向量機分類器對電子郵件中圖像的局部不變特征進行歸類[7]。該方法 主要是針對那些為了逃避基于圖像模板相似性的過濾器,而改變圖像的總體布局,保留圖片中的某些局部不變特征的垃圾郵件。所以這種方法在一定程度上彌補了相似性檢測的漏 洞。[1]Hrishikesh Aradhye, Gregory Myers, and James Herson. Image analysis forefficient categorization of image-based spam e-mail.In Proceedings of EighthInternational Conference on Document Analysis and Recognition, ICDAR 2005, volume 2, pages 914-918. IEEE Computer Society,2005.[2]Giorgio Fumera, Ignazio Pillai, and Fabio Roli.Spam filtering based on theanalysis of text information embedded into images. Journal of Machine LearningResearch, (7) :2699-2720,2006.[3]Mark Dredze, Reuven Gevaryahu, and Ari Elias-Bachrach. Learning fast classifiersfor image spam. In Proceedings of the Fourth Conference on Email and Anti-Spam, CEAS,2007,2007.[4]Giorgio Fumera,Ignazio Pillai, Fabio Roli, and Battista Biggio. Image spamfiltering using textual and visual information, MIT Spam Conference2007, Cambridge, USA, March 2007[5]Zhe Wang, William Josephson, Qin Lv, Moses Charikar, and Kai Li.Filteringimage spam with near-duplicate detection. In Proceedings of the FourthConference on Email and Anti-Spam, CEAS' 2007,2007.[6]Mehta, B. , Nangia, S. , Gupta, Μ. , and Nejdl, W. Detecting image spam usingvisual features and near duplicate detection. In Proceeding of the 17th internationalConference on World Wide Web(Beijing, China, April 21-25,2008). WWW' 08. ACM, New York, NY, 497-506.[7]Haiqiang Zuo, Weiming Hu, Ou Wu, Yunfei Chen, Guan Luo. Detecting ImageSpam Using Local Invariant Features and Pyramid Match Kernel. Proceedings ofthe 18th international conference on World Wide Web Pages,2009,1187—1188.
發(fā)明內容
技術問題本發(fā)明的目的是提供一種利用改進的高斯混合模型分類器檢測圖像垃 圾郵件的方法。針對挖掘出的圖片局部不變特征是大樣本數據這個現象,從統(tǒng)計學角度,使 用高斯混合模型對其進行密度函數擬合,作為一種特殊的特征向量。設計基于高斯混合模 型的均值聚類算法,即設計聚類算法能夠對這種特殊的特征向量進行聚類。并在此基礎上 構建分類器,用于對待檢測圖像進行分類以達到檢測圖像型垃圾郵件的目的。技術方案本發(fā)明提出的利用改進的高斯混合模型分類器檢測圖像垃圾郵件的方 法,是一種基于尺度空間的不變量技術的特征檢測方法,對圖像平移、旋轉、縮放、甚至仿射 變換保持不變性的圖像局部特征。用這種方法來提取圖片中的不變區(qū)域特征,其維數較大, 使用高斯混合模型對其進行密度函數擬合,以形成一種特殊的特征向量是由擬合而成的 局部不變特征密度函數的均值與協(xié)方差矩陣構成的。針對這種特殊的特征向量,準備設計 一種新的聚類方法并且在此基礎上構建分類器,對其進行分類評估,也就是基于高斯混合 模型均值聚類的分類器。改進分布之間的距離計算方法,使用交叉熵作為計算分布之間的相似度的衡量指標。整個方法包括圖片不變特征的提取,密度函數均值與協(xié)方差矩陣的提取,基于高 斯混合模型的均值聚類算法的實現,基于此聚類算法的分類模型的設計四大模塊組成,系 統(tǒng)的模塊組成如圖1所示。利用改進的高斯混合模型分類器檢測圖像型垃圾郵件的實現方法需要以下步 驟一、根據樣本集進行訓練步驟1)對待訓練的圖片數據集進行標簽,分為垃圾圖片和正常圖片;步驟2~)采用“健壯特征的加速提取算法”分別提取每個垃圾圖片和正常圖片的局 部不變特征描述符;步驟幻對每張圖片的局部不變特征描述符進行高斯混合模型擬合,采用期望最 大化方法評估其權重、均值以及協(xié)方差矩陣,作為高斯混合特征向量;步驟4)對均值聚類算法進行改進,使其對這種特殊的高斯混合特征向量進行聚 類,涉及到距離計算方法以及標準測度函數的確定;步驟幻使用交叉熵作為高斯混合分布之間的距離計算方法;步驟6)根據交叉熵計算公式,需要兩個分布之間的樣本是相同的,因此編寫根據 均值與協(xié)方差矩陣來獲取樣本的函數方法;步驟7)以圖片所屬的聚類中心的索引值向量作為標準測度函數;步驟8)在步驟4) 步驟7)確定了距離計算方法以及標準測度函數的基礎上,再 運用均值聚類算法構成基于高斯混合分布的均值聚類算法;步驟9)根據步驟8)形成的聚類算法分別對垃圾圖片與正常圖片進行聚類;步驟10)在基于高斯混合分布的均值聚類算法基礎上再結合交叉熵的距離計算 方法構建高斯混合模型的分類器;二、使用訓練好的高斯混合模型分類器對待檢測圖片進行分類階段步驟1)采用“健壯特征的加速提取算法”提取待檢測圖片的局部不變特征描述 符;步驟2)對每張圖片的局部不變特征描述符進行高斯混合分布的擬合,采用期望 最大化方法評估其權重、均值以及協(xié)方差矩陣,作為高斯混合特征向量;步驟3)使用由均值以及協(xié)方差矩陣確定的樣本獲取函數,獲取待檢測圖片的樣 本值;步驟4)計算每張待檢測圖片的高斯混合分布與垃圾圖片以及正常圖片的聚類中 心的交叉熵值,選取兩類的最小交叉熵值,作為待檢測圖片與兩大類圖片的相似程度;步驟5)比較兩個最小熵值的大小,由此對待檢測圖片進行垃圾圖片與正常圖片 的歸類。有益效果本發(fā)明方法針對局部不變特征的大樣本特性,采用統(tǒng)計學中的高斯混 合模型對其進行密度函數擬合,設計適用于該特征向量的均值聚類算法以及分類模型。通 過本方法的使用,能夠提高圖像型垃圾郵件檢測的精度和召回率,節(jié)省程序運算時間和空 間。
圖1利用改進的高斯混合模型分類器進行圖像型垃圾郵件檢測的流程2提出的基于高斯混合模型的均值聚類算法的原理3提出的基于高斯混合分布的分類模型圖
具體實施例方式該方法主要分為以下步驟一、根據樣本集進行訓練步驟1)對待訓練的圖片數據集進行標簽,分為垃圾圖片和正常圖片;步驟2~)采用“健壯特征的加速提取算法”分別提取每個垃圾圖片和正常圖片的局 部不變特征描述符;步驟幻對每張圖片的局部不變特征描述符進行高斯混合模型擬合,采用期望最 大化方法評估其權重、均值以及協(xié)方差矩陣,作為高斯混合特征向量;步驟4)對均值聚類算法進行改進,使其對這種特殊的高斯混合特征向量進行聚 類,涉及到距離計算方法以及標準測度函數的確定;步驟幻使用交叉熵作為高斯混合分布之間的距離計算方法;步驟6)根據交叉熵計算公式,需要兩個分布之間的樣本是相同的,因此編寫根據 均值與協(xié)方差矩陣來獲取樣本的函數方法;步驟7)以圖片所屬的聚類中心的索引值向量作為標準測度函數;步驟8)在步驟4) 步驟7)確定了距離計算方法以及標準測度函數的基礎上,再 運用均值聚類算法構成基于高斯混合分布的均值聚類算法;步驟9)根據步驟8)形成的聚類算法分別對垃圾圖片與正常圖片進行聚類;步驟10)在基于高斯混合分布的均值聚類算法基礎上再結合交叉熵的距離計算 方法構建高斯混合模型的分類器;二、使用訓練好的高斯混合模型分類器對待檢測圖片進行分類階段步驟1)采用“健壯特征的加速提取算法”提取待檢測圖片的局部不變特征描述 符;步驟2)對每張圖片的局部不變特征描述符進行高斯混合分布的擬合,采用期望 最大化方法評估其權重、均值以及協(xié)方差矩陣,作為高斯混合特征向量;步驟3)使用由均值以及協(xié)方差矩陣確定的樣本獲取函數,獲取待檢測圖片的樣 本值;步驟4)計算每張待檢測圖片的高斯混合分布與垃圾圖片以及正常圖片的聚類中 心的交叉熵值,選取兩類的最小交叉熵值,作為待檢測圖片與兩大類圖片的相似程度;步驟5)比較兩個最小熵值的大小,由此對待檢測圖片進行垃圾圖片與正常圖片 的歸類。其中詳細的具體步驟如下利用改進的高斯混合模型分類器檢測圖像型垃圾郵件,采用MATLAB與Eclipse為 開發(fā)工具,應用MATLAB與JAVA的混合編程。其中對圖像特征的處理利用Opencv開源庫。—、訓練階段獲取垃圾圖片與正常圖片,構成訓練集,訓練形成一個基于高斯混
6合分布的分類器。a)局部不變特征提取階段步驟1)對圖片數據集進行標記;步驟2~)采用健壯特征的加速提取算法提取垃圾圖片數據集和正常圖片數據集中 每張圖片的視覺特征也就是局部不變特征描述符,每張圖片中的描述符數量不等;步驟幻通過步驟幻得到了垃圾圖片特征庫和正常圖片的特征庫,特征庫是由圖 片的局部不變特征描述符構成的,各張圖片的描述符數量是不同的,但是每個描述符是由 相同維數的數值構成的。將每張圖片的特征描述符分別寫入到各個文本文件中;b)高斯混合模型參數估計階段步驟4)以垃圾郵件數據集作為樣本,利用期望最大化算法估計出樣本集中每張 垃圾圖片的高斯混合模型參數0spam= (Ji1, Ji2,..., JIl5U1, μ2,...,
權利要求
1. 一種利用改進的高斯混合模型分類器檢測圖像垃圾郵件的方法,其特征在于該方法 主要分為以下步驟一、根據樣本集進行訓練步驟1)對待訓練的圖片數據集進行標簽,分為垃圾圖片和正常圖片; 步驟2~)采用“健壯特征的加速提取算法”分別提取每個垃圾圖片和正常圖片的局部不 變特征描述符;步驟幻對每張圖片的局部不變特征描述符進行高斯混合模型擬合,采用期望最大化 方法評估其權重、均值以及協(xié)方差矩陣,作為高斯混合特征向量;步驟4)對均值聚類算法進行改進,使其對這種特殊的高斯混合特征向量進行聚類,涉 及到距離計算方法以及標準測度函數的確定;步驟幻使用交叉熵作為高斯混合分布之間的距離計算方法; 步驟6)根據交叉熵計算公式,需要兩個分布之間的樣本是相同的,因此編寫根據均值 與協(xié)方差矩陣來獲取樣本的函數方法;步驟7)以圖片所屬的聚類中心的索引值向量作為標準測度函數; 步驟8)在步驟4) 步驟7)確定了距離計算方法以及標準測度函數的基礎上,再運用 均值聚類算法構成基于高斯混合分布的均值聚類算法;步驟9)根據步驟8)形成的聚類算法分別對垃圾圖片與正常圖片進行聚類; 步驟10)在基于高斯混合分布的均值聚類算法基礎上再結合交叉熵的距離計算方法 構建高斯混合模型的分類器;二、使用訓練好的高斯混合模型分類器對待檢測圖片進行分類階段步驟21)采用“健壯特征的加速提取算法”提取待檢測圖片的局部不變特征描述符; 步驟2 對每張圖片的局部不變特征描述符進行高斯混合分布的擬合,采用期望最大 化方法評估其權重、均值以及協(xié)方差矩陣,作為高斯混合特征向量;步驟2 使用由均值以及協(xié)方差矩陣確定的樣本獲取函數,獲取待檢測圖片的樣本值;步驟24)計算每張待檢測圖片的高斯混合分布與垃圾圖片以及正常圖片的聚類中心 的交叉熵值,選取兩類的最小交叉熵值,作為待檢測圖片與兩大類圖片的相似程度;步驟25)比較兩個最小熵值的大小,由此對待檢測圖片進行垃圾圖片與正常圖片的歸類。
全文摘要
利用改進的高斯混合模型分類器檢測垃圾郵件的方法,利用健壯特征的加速提取算法來提取圖片中垃圾信息的不變區(qū)域特征,對不變區(qū)域特征進行高斯混合模型擬合,使用期望最大化方法來進行權重、均值以及協(xié)方差矩陣的評估,具體為對待檢測數據集的圖片進行標簽,分為垃圾圖片與正常圖片;采用健壯特征的加速提取算法提取所有數據集的局部不變特征的向量;采用高斯混合模型對局部不變特征進行密度函數擬合,得到所有圖片的均值與協(xié)方差矩陣;改進均值聚類算法,使其適用于對上一步驟中得出的特殊特征向量進行聚類,使用交叉熵作為分布之間相似度的衡量指標,實現基于高斯混合模型的均值聚類算法;利用基于高斯混合模型的均值聚類算法來構建分類器。
文檔編號G06K9/62GK102129568SQ20111011241
公開日2011年7月20日 申請日期2011年4月29日 優(yōu)先權日2011年4月29日
發(fā)明者周國強, 張衛(wèi)豐, 張迎周, 王慕妮, 許碧歡, 陸柳敏 申請人:南京郵電大學