亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種反圖像型垃圾郵件的方法及裝置的制作方法

文檔序號:6602882閱讀:198來源:國知局
專利名稱:一種反圖像型垃圾郵件的方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及圖像處理與模式識別技術(shù),具體涉及一種垃圾郵件圖像的特征提取、 識別技術(shù)及裝置。
背景技術(shù)
經(jīng)過30多年的發(fā)展,電子郵件已成為互連網(wǎng)非常重要的的組成部分,電子郵件在 人們交流和通信中扮演越來越重要的角色。然而,垃圾郵件的泛濫使得電子郵件受到巨大 挑戰(zhàn)。目前,我國已成為垃圾郵件的受害者。據(jù)中國互聯(lián)網(wǎng)信息中心(CNNIC)發(fā)布的《中國 互聯(lián)網(wǎng)發(fā)展?fàn)顩r統(tǒng)計報告》顯示,2004年1月中國網(wǎng)民平均每周收到垃圾郵件7. 9封,但是 2009年1月中國網(wǎng)民平均每周收到的垃圾郵件數(shù)量達(dá)到17. 55封,隨著網(wǎng)民數(shù)量的增加垃 圾郵件的數(shù)量也不斷的在增加。普通用戶收到的垃圾郵件主要有三種純文本格式,純圖片 格式和圖片加文本格式。其中只有30%是純文本格式,這也說明圖像垃圾郵件所占比例接 近70%。垃圾郵件問題從出現(xiàn)之初就引起了社會各界的關(guān)注,并出現(xiàn)了大量的垃圾郵件檢 測算法,例如IP黑名單、基于規(guī)則的垃圾郵件檢測算法、基于文本內(nèi)容的檢測算法等、基于 行為的過濾方式。其中以基于文本內(nèi)容的檢測算法研究得最多,其性能也最好。然而,就像在病毒與反病毒的斗爭中一樣,隨著反垃圾郵件技術(shù)的不斷發(fā)展,垃圾 郵件制造者自身技術(shù)也在不斷提高。由于基于文本內(nèi)容的反垃圾郵件系統(tǒng)在檢測文本信息 方面已經(jīng)具有很高的效率,為了逃避此種系統(tǒng)的檢測,垃圾郵件制造者將文字信息嵌入到 圖像中,以圖像為載體來傳播垃圾信息。這種以圖像為載體的垃圾郵件被稱為圖像型垃圾 郵件,由于其文本內(nèi)容被嵌入在圖像中,使得基于文本內(nèi)容的反垃圾郵件系統(tǒng)完全失效。并 且圖像型垃圾郵件的體積是文本型垃圾郵件的10-20倍,圖片型垃圾郵件一方面消耗大量 的網(wǎng)絡(luò)資源,導(dǎo)致網(wǎng)絡(luò)堵塞;另一方面浪費大量的存儲資源,導(dǎo)致社會經(jīng)濟(jì)的重大損失。圖 像型垃圾郵件的蔓延,已給社會帶來極大的負(fù)面影響。為遏制圖像型垃圾郵件的蔓延,彌補基于文本內(nèi)容的垃圾郵件檢測系統(tǒng)的不足, 已經(jīng)有許多學(xué)者對圖像型垃圾郵件作了較深入的研究。當(dāng)前主流的商業(yè)系統(tǒng)采用該技術(shù)利 用光學(xué)文字識別技術(shù)(OCR)來提取圖像中嵌入的文字,然后利用傳統(tǒng)的基于文本內(nèi)容的垃 圾郵件檢測手段識別圖像型垃圾郵件。但是垃圾郵件中所嵌入的圖像通常含有大量人為干 擾,使得文字識別正確率較低,效率也不高。另外一些學(xué)者則提出利用垃圾郵件中所含圖像 的屬性作為特征來識別圖像型垃圾郵件,例如大小、寬、高、面積等。該方法雖然識別速度較 快,但僅能識別出較少的圖像型垃圾郵件。反垃圾郵件領(lǐng)域仍在尋找一種快速高效的圖像 型垃圾郵件識別算法以解決圖像型垃圾郵件問題。

發(fā)明內(nèi)容
本發(fā)明主要提出一種垃圾郵件圖像識別方法及裝置。通過提取郵件中所含圖像的 元數(shù)據(jù)、顏色特征、紋理特征和形狀特征,結(jié)合支持向量機(jī)實現(xiàn)垃圾郵件圖像的自動檢測與 識別。本發(fā)明的主要內(nèi)容包括提取郵件圖像的元數(shù)據(jù)特征、提取圖像的顏色特征、提取圖像的紋理特征和形狀特征的技術(shù),基于支持向量機(jī)的垃圾郵件圖像自動識別裝置。為了實現(xiàn)上述目的,采取的技術(shù)方案是1.提取待測圖像郵件中圖像的元數(shù)據(jù)特征。元數(shù)據(jù)特征包括高度、寬度、高寬比、文件類型、文件大小、文件面積、壓縮率、周 長復(fù)雜度、文字區(qū)域占總區(qū)域的面積比率等。2.提取待測圖像郵件中圖像的顏色特征。顏色特征包括灰度直方圖、顏色直方圖、平均色、顏色集、顏色聚合向量、平均亮 度、顏色空間等。3.提取待測圖像郵件中圖像的紋理特征。紋理特征包括共生矩陣、邊緣頻率、小波變換等。4.提取待測圖像郵件中圖像的形狀特征。形狀特征包括幾何矩、偏心率、骨架等。5.基于支持向量機(jī)的垃圾郵件圖像自動識別裝置支持向量機(jī)(SVM,Support Vector Machine)是一種基于統(tǒng)計學(xué)習(xí)理論的機(jī)器學(xué) 習(xí)方法。統(tǒng)計學(xué)習(xí)理論針對小樣本統(tǒng)計問題建立了一套新的理論體系,最近10多年間發(fā)展 迅速,成為各界研究的熱點。支持向量機(jī)也隨之發(fā)展,它通過構(gòu)造最優(yōu)分類平面來實現(xiàn)分 類。在傳統(tǒng)的基于文本內(nèi)容的垃圾郵件過濾算法中,支持向量機(jī)就表現(xiàn)出了很好的性能。因 此本發(fā)明利用支持向量機(jī)作為分類算法,對郵件圖像進(jìn)行分類以識別出垃圾郵件圖像。構(gòu)建一個基于支持向量機(jī)的分類器,需要大量的郵件圖像樣本,包括正常郵件圖 像樣本和垃圾郵件圖像樣本。提取這些圖像的元數(shù)據(jù)、顏色和紋理特征,并對特征進(jìn)行歸一 化,然后利用網(wǎng)格法搜索支持向量機(jī)的最佳參數(shù)。找到最佳參數(shù)后便可以利用提取的圖像 特征數(shù)據(jù)及參數(shù)對支持向量機(jī)進(jìn)行訓(xùn)練以生成一個基于元數(shù)據(jù)、顏色、紋理、形狀特征和支 持向量機(jī)的郵件圖像分類器。當(dāng)出現(xiàn)未知的郵件圖像時,提取其元數(shù)據(jù)、顏色、紋理和形狀 特征,然后將特征向量輸入到該分類器即可判定該郵件圖像是否是垃圾郵件圖像。最后,實施本發(fā)明具有以下有益效果從本發(fā)明提供的以上技術(shù)方案可以看出,本發(fā)明提取郵件圖像的元數(shù)據(jù)、顏色、紋 理和形狀特征,并結(jié)合支持向量機(jī)實現(xiàn)垃圾郵件圖像的自動識別。其中,顏色和直方圖的矩 對平移、旋轉(zhuǎn)、縮放有較好的魯棒性,因此其抗干擾能力強,能應(yīng)對絕大多數(shù)垃圾郵件圖像 中的人為干擾。由于提取的是圖像的元數(shù)據(jù)特征,以及圖像的顏色和紋理特征,而不是提 取、分析和區(qū)別圖像中文字特征,采用直接視覺特征的好處是僅需要對圖像文件進(jìn)行一次 線性掃描,避免了文字識別所需的反復(fù)掃描,降低了計算復(fù)雜度。同時,采用直接視覺特征 能夠有效克服文字扭曲技術(shù)對OCR字符識別軟件的影響,提高分類器的抗干擾能力。因此 本發(fā)明速度較快、效率高。另外,支持向量機(jī)的引入,使得整個裝置更加智能化、自動化。并 且通過利用新的樣本郵件圖像對分類器的訓(xùn)練,可以快速識別新類型的垃圾郵件圖像。


圖1為本發(fā)明構(gòu)建基于支持向量機(jī)的分類器的具體流程圖;圖2為本發(fā)明對未知郵件圖像屬性的典型判定流程圖。
具體實施例方式為使本發(fā)明的目的、技術(shù)方案、及優(yōu)點更加清楚明白,以下參照附圖對本發(fā)明進(jìn)一 步詳細(xì)說明。圖1描述了本發(fā)明構(gòu)建基于支持向量機(jī)的分類器的具體過程步驟101、手工標(biāo)記正常圖像和垃圾圖像為構(gòu)建一個較好的分類器,首先需要大量樣本對分類器進(jìn)行訓(xùn)練,其中正常郵件 樣本最好與垃圾郵件樣本數(shù)量相當(dāng)。步驟102、提取樣本集中各幅圖像的元數(shù)據(jù)特征、顏色特征、紋理特征和形狀特征步驟103、尋找分類器的最佳參數(shù)采用不同的參數(shù),訓(xùn)練所獲得的分類器性能差別非常大。為了尋找一組最佳的參 數(shù),可以采用的一種方法是用網(wǎng)格法在一個2維平面中搜索最佳參數(shù)包括懲罰因子C和參 數(shù) gama。步驟104、訓(xùn)練支持向量機(jī)分類器利用步驟102獲得的大量訓(xùn)練樣本的特征數(shù)據(jù)和步驟103獲得的最佳參數(shù),對支 持向量機(jī)進(jìn)行訓(xùn)練。訓(xùn)練后生成一模型文件,其中包含各種參數(shù)和選取的支撐矢量。這樣 便完成了一個分類器的構(gòu)建。圖2描述了本發(fā)明對未知郵件圖像的典型判定過程步驟201、讀入郵件圖像如果成功載入圖像則繼續(xù)步驟202以提取圖像的特征,否則執(zhí)行步驟208返回判 定失敗消息。步驟202、圖像特征提取提取未知圖像的元數(shù)據(jù)特征、顏色特征、紋理特征和形狀特征。步驟203、載入訓(xùn)練階段所生成的模型文件圖1描述了支持向量機(jī)分類器的構(gòu)建過程,其最終生成了一個模型文件。該文件 中包含了支持向量機(jī)的參數(shù)和選擇的支撐矢量。將這些信息讀入,構(gòu)建一個分類器;如果文 件讀入失敗則執(zhí)行步驟208以返回判定失敗消息。步驟204、判定郵件圖像屬性將步驟203所獲得的郵件圖像特征作為步驟203所生成的分類器的輸入,利用分 類器判定圖像的屬性。如果為正常郵件圖像則執(zhí)行步驟205,返回圖像為正常郵件圖像消 息;否則執(zhí)行步驟206,返回該圖像為垃圾郵件圖像消息。步驟205、返回圖像為正常郵件圖像消息當(dāng)系統(tǒng)將判斷為正常郵件圖像時,則返回正常郵件圖像標(biāo)志。步驟206、返回圖像為垃圾郵件圖像消息當(dāng)系統(tǒng)將判斷為垃圾郵件圖像時,則返回垃圾郵件圖像標(biāo)志。步驟207、返回判定失敗消息當(dāng)系統(tǒng)出現(xiàn)異常時,如圖像文件載入失敗,則返回判定失敗消息。以上對本發(fā)明中利用圖像元數(shù)據(jù)、顏色特征、紋理特征和形狀特征,結(jié)合支持向量 機(jī)對垃圾郵件圖像的自動識別算法及裝置進(jìn)行了詳細(xì)介紹,以上的說明只是用于幫助理解 本發(fā)明的方法及其思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限 制。
權(quán)利要求
一種利用圖像元數(shù)據(jù)、顏色特征、紋理特征和形狀特征,結(jié)合支持向量機(jī)自動識別垃圾郵件圖像的方法及裝置;首先提取出圖像的元數(shù)據(jù);其次提取出圖像的顏色特征;再次提取出圖像的紋理特征和形狀特征;最后利用支持向量機(jī)分類器對圖像進(jìn)行分類,以判定圖像是垃圾郵件圖像還是正常郵件圖像。
2.如權(quán)利要求1所述,提取圖像的元數(shù)據(jù)、顏色特征、紋理特征和形狀特征,圖像的這 些特征可以很好的反映圖像中所含對象的形狀信息;垃圾郵件圖像與正常郵件圖像不同, 通常它們的大小比較正常圖片小,顏色較正常圖片單一,紋理沒有正常圖片豐富;利用元數(shù) 據(jù)、顏色特征、紋理特征和形狀特征可以很好的表達(dá)這些特征并區(qū)分垃圾郵件圖像和正常 圖像。
3.如權(quán)利要求1所述,利用權(quán)力要求2提取的特征并結(jié)合所構(gòu)造的支持向量機(jī)分類器 對未知圖像進(jìn)行自動分類,返回結(jié)果為正常郵件圖像或者垃圾郵件圖像。
4.權(quán)力要求3中的支持向量機(jī)分類器的構(gòu)造方式如下首先,獲取大量的垃圾郵件圖像和正常郵件圖像樣本集,當(dāng)正常圖像樣本數(shù)量與垃圾 郵件圖像樣本數(shù)量相當(dāng)時,效果最佳;其次,提取以上圖像集中各幅圖像的元數(shù)據(jù)、顏色特征、紋理特征和形狀特征,并對這 些特征歸一化處理。然后對每一個特征向量手工加上正常郵件圖像或者垃圾郵件圖像標(biāo) 簽;再次,將這些特征向量作為訓(xùn)練樣本,利用網(wǎng)格法選取支持向量機(jī)的最佳參數(shù);最后,利用上一步選取的參數(shù)和所獲得的訓(xùn)練樣本作為支持向量機(jī)的輸入,訓(xùn)練生成 模型文件,其中包含最佳參數(shù)和所選取的支持向量。
全文摘要
本發(fā)明涉及圖像處理技術(shù)和模式識別領(lǐng)域的相關(guān)技術(shù),公開了一種利用垃圾郵件圖像自動識別的方法及裝置。利用圖像的元數(shù)據(jù)、顏色特征和紋理特征并結(jié)合支持向量機(jī)實現(xiàn)對正常郵件圖像和垃圾郵件圖像的自動分類。首先提取出圖像的元數(shù)據(jù);其次提取出圖像的顏色特征;再次提取出圖像的紋理特征和形狀特征;最后,利用支持向量機(jī)分類器對圖像進(jìn)行自動識別。本發(fā)明中,由于提取的是圖像的元數(shù)據(jù)特征,以及圖像的顏色、紋理和形狀特征,因此本發(fā)明速度較快、效率高。
文檔編號G06K9/66GK101877066SQ20101017996
公開日2010年11月3日 申請日期2010年5月21日 優(yōu)先權(quán)日2010年5月21日
發(fā)明者劉嶠, 王超, 羅緒成, 鄧蔚 申請人:電子科技大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1