亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種垃圾郵件過濾的方法及系統(tǒng)的制作方法

文檔序號:7889714閱讀:380來源:國知局
專利名稱:一種垃圾郵件過濾的方法及系統(tǒng)的制作方法
技術領域
本發(fā)明涉及網(wǎng)絡安全技術領域,特別涉及ー種垃圾郵件過濾的方法及系統(tǒng)。
背景技術
垃圾郵件是用專門的郵件地址搜索軟件和郵件群發(fā)軟件來完成電子郵件地址收集和垃圾郵件散發(fā)的,一個郵件地址搜索軟件每次可以搜索到幾萬至十幾萬個有用郵件地址,一個郵件群發(fā)軟件每天可以發(fā)送百萬封同樣或不同內(nèi)容的垃圾郵件。對于這種自動化的垃圾郵件制造方代,人工手段進行刪除顯得無能為力,必須借助ー種的技術手段進行反垃圾郵件工作。(I)黑白名單
黒白名單是垃圾郵件過濾最傳統(tǒng)的方式,它通過基于IP地址、域名以及郵件地址等信息的黑名單技術對垃圾郵件進行屏蔽,通過白名單技術對允許的郵件進行放行。這種技術的優(yōu)勢在于不占用系統(tǒng)資源,易部署;缺點是需要用戶手動維護,而且垃圾郵件發(fā)送者可以通過更改相關信息來逃避過濾。RBL (實時黑名單)技術是從黑名單技術發(fā)展而來的,它可以通過RBL運營服務商提供的公共RBL數(shù)據(jù)進行更新,彌補了單純黑名單需要手工維護的缺陷。遺憾的是,目前很多黑名單數(shù)據(jù)庫具有很強的區(qū)域歧視性,例如,北美的RBL包含了我國大量的主機名字和IP地址,其中有些是早期的Open Relay造成的,有些則是由于誤報造成的。但這些遲遲得不到糾正,在一定程度上阻礙了我國與北美地區(qū)的郵件聯(lián)系,也妨礙了我國的用戶使用這些黑名單服務。(2) SMTP連接頻度控制垃圾郵件發(fā)送者經(jīng)常會在一段時間內(nèi)發(fā)送大量的垃圾郵件,阻塞郵件服務器。SMTP連接頻度控制可以保證郵件服務器不響應異常的連接請求,保證正常郵件的順利通行。(3)逆向域名驗證無論哪ー種認證,其目的都是避免MTA被垃圾郵件發(fā)送者所利用,但是對于發(fā)送到本地的垃圾郵件可能仍然無可奈何。要解決這個問題,最簡單有效的方法是對發(fā)送者的IP地址進行逆向域名驗證。通過DNS查詢來判斷發(fā)送者的IP與其聲稱的名字是否一致,例如其聲稱的名字為mx. yahoo, com,而其連接地址為10. 10. 10. 10,與其DNS記錄不符,貝U予以拒收。這種方法可以有效過濾掉來自動態(tài)IP的垃圾郵件,對于某些使用動態(tài)域名的發(fā)送者,也可以根據(jù)實際情況進行屏蔽。(4)內(nèi)容過濾即使使用了前面諸多環(huán)節(jié)中的技術,仍然會有相當一部分垃圾郵件漏網(wǎng)。對此情況,目前常用的方法是基于郵件標題或正文的內(nèi)容過濾。關鍵詞過濾法是通過郵件內(nèi)容掃描引擎,對郵件的常用標題語,垃圾郵件受益者的姓名、電話號碼等信息進行過濾。由于不同時期垃圾郵件的關鍵詞會發(fā)生變化,因此需要定期更新關鍵詞過濾集?;谪惾~斯概率理論的統(tǒng)計方法更加復雜,但又同時更具智能性。這種方法的理論基礎是通過對大量垃圾郵件中常見關鍵詞進行分析后得出其分布的統(tǒng)計模型,并由此推算目標郵件是垃圾郵件的可能性。這種方法具有一定的自適應、自學習能力,目前已經(jīng)得到了廣泛的應用。還有ー種基于規(guī)則評分的過濾技木,目前比較有代表性的是SpamAssassin,它是ー種人工智能技術應用系統(tǒng),它對郵件中發(fā)現(xiàn)的每ー個關鍵詞進行打分,分數(shù)越高,垃圾郵件的可能性就越高,當所有關鍵詞得分超過一定數(shù)值時,該郵件將被判定為垃圾郵件。 需要指出的是,內(nèi)容過濾是以上所有各種方法中耗費系統(tǒng)資源最多的。因此,在郵件流量較大的場合,最好配合高性能服務器使用。(5)病毒掃描很多垃圾郵件往往是由病毒程序產(chǎn)生的,而且病毒會隨郵件在網(wǎng)絡上傳播。因此病毒掃描也是減少垃圾郵件的ー個重要手段。本次參測的所有產(chǎn)品均具備殺毒引擎。(6)行為分析技術行為分析技術是最近興起的ー種郵件過濾技術,它的優(yōu)勢在于可以對垃圾郵件進行空中攔截,減少了因接收郵件并進行內(nèi)容分析所占用的系統(tǒng)資源和網(wǎng)絡帶寬。雖然目前行為過濾技術還不完全成熟,而且對網(wǎng)絡環(huán)境要求較高,但是行為分析技術憑借其良好的應用前景還是引起了各大安全廠商的關注。本次參加測試的產(chǎn)品或多或少均具備一定的行為分析能力,特別是梭子魚垃圾郵件防火墻有2000多條行為分析規(guī)則來識別垃圾郵件。針對現(xiàn)有技術中的不足,即系統(tǒng)的靈活性和準確性不夠,不能有效識別新型垃圾郵件,自適應能力不足,故提出ー種能有效降低郵件過濾的開銷,提高入侵檢測系統(tǒng)的效率的ー種垃圾郵件過濾的方法及系統(tǒng),是網(wǎng)絡安全技術領域目前急待解決的問題之一。

發(fā)明內(nèi)容
有鑒于此,本發(fā)明實施例提出了ー種垃圾郵件過濾的方法及系統(tǒng),通過在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義,接著采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理,然后通過結合否定選擇算法和克隆選擇算法,產(chǎn)生新的抗體,進而對垃圾郵件進行檢測和過濾,進而降低郵件過濾的開銷,提高入侵檢測系統(tǒng)的效率。為解決上述技術問題,本發(fā)明實施例的目的是通過以下技術方案實現(xiàn)的ー種垃圾郵件過濾的方法,包括步驟一、在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義;步驟ニ、采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理;步驟三、通過結合否定選擇算法和克隆選擇算法,產(chǎn)生新的抗體,進而對垃圾郵件進行檢測和過濾。優(yōu)選的,上述步驟一中,模式集是對8個屬性的描述。優(yōu)選的,上述8個屬性包括但不限于服務類型,源地址,源端ロ,目的地址,時延,源端發(fā)送字節(jié)數(shù),目的端發(fā)送字節(jié)數(shù)以及狀態(tài)。
優(yōu)選的,進ー步包括檢測是指檢測模式和被檢測模式間的匹配。優(yōu)選的,上述步驟ニ中,表現(xiàn)性模式是指可讀的、由聯(lián)接記錄直接得到的規(guī)則。優(yōu)選的,上述步驟ニ中,基因型模式是指抗體演化、否定選擇和克隆選擇時使用的ー種內(nèi)部表現(xiàn)形式。優(yōu)選的,進ー步包括將占用字節(jié)數(shù)較多的時延和源和目的端發(fā)送字節(jié)三個屬性轉化為模糊集形式,只分別用倆位ニ進制即可表示出來,縮短ニ進制表示抗體的長度,把ニ進制基因位轉化為對應模糊集。優(yōu)選的,上述步驟三中,進ー步包括算法中包括親和カ計算、抗原樣本訓練、克隆變異和否定選擇。一種垃圾郵件過濾系統(tǒng),包括定義單元、編碼單元及算法単元,通過在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義,接著采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理,然后通過結合否定選擇算法和克隆選擇算法,產(chǎn)生新的抗體,進而對垃圾郵件進行檢測和過濾。優(yōu)選的,上述定義單元用于在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義。優(yōu)選的,上述編碼單元用于采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理。優(yōu)選的,上述算法単元用于通過結合否定選擇算法和克隆選擇算法,產(chǎn)生新的抗體,進而對垃圾郵件進行檢測和過濾。綜上所述,本發(fā)明提供了ー種垃圾郵件過濾的方法及系統(tǒng),通過在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義,接著采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理,然后通過結合否定選擇算法和克隆選擇算法,產(chǎn)生新的抗體,進而對垃圾郵件進行檢測和過濾,進而降低郵件過濾的開銷,提高入侵檢測系統(tǒng)的效率。


圖I為本發(fā)明實施例提供的ー種垃圾郵件過濾方法流程圖;圖2為本發(fā)明實施例提供的一種垃圾郵件過濾系統(tǒng)示意圖。
具體實施例方式
本發(fā)明實施例提供的一種垃圾郵件過濾的方法及系統(tǒng),通過在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義,接著采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理,然后通過結合否定選擇算法和克隆選擇算法,產(chǎn)生新的抗體,進而對垃圾郵件進行檢測和過濾,進而降低郵件過濾的開銷,提高入侵檢測系統(tǒng)的效率。
本技術方案的主要思路為利用人工免疫原理進行郵件過濾檢測已成為ー個研究方向,運用計算機免疫的目的和生物機體免疫一祥,為的是使系統(tǒng)能夠快速、準確地檢測出未授權的郵件的侵入以及其它非法使用,并對之作出相應反應。基于免疫原理的過濾檢測主要開銷在抗體生成階段,尤其是當初始模式集規(guī)模很大的時候.雖然運用克隆選擇的約束可以大大減少空間和時間的需求,但尋找更加高效的抗體生成算法仍是應用人工免疫原理必須解決的問題,它決定了整個系統(tǒng)的實用性。通過提出一種新的抗體生成算法以降低郵件過濾的開銷,提高入侵檢測系統(tǒng)的效率。為使本發(fā)明的目的、技術方案及優(yōu)點更加清楚明白,下面參照附圖并舉實施例,對本發(fā)明進一歩詳細說明。本發(fā)明實施例提供ー種垃圾郵件過濾的方法,如圖I所示,具體步驟包括步驟一、在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義;具體而言,在本發(fā)明實施例中,是把垃圾郵件檢測中存在的問題,用免疫系統(tǒng)的免疫思想來解決。在生物體中,抗體對抗原物質的識別是依靠抗體表面的受體與特定抗原的 抗原決定基問化學健的“結合”,安全系統(tǒng)中的檢測是指檢測模式和被檢測模式間的匹配。進ー步的,在本方案中,對人工免疫原理的應用是功能上的模擬而非所有部件的實現(xiàn)。在生物體中,抗體對抗原物質的識別是依靠抗體表面的受體與特定抗原的抗原決定基問化學健的“結合”,過濾系統(tǒng)中的檢測是指檢測模式和被檢測模式間的匹配。本方案在原來建立的過濾系統(tǒng)模型時基礎上引入人工免疫的概念,構建了ー個更加精確合理的模型。模型綜合考慮精確性和效率??寺∵x擇和否定選擇是抗體生成和演化過程中兩個重要過程。克隆選擇學說中,機體免疫系統(tǒng)被認為事先就存在能識別各種抗原的細胞克隆,每個克隆細胞表面都有針對不同特定抗原的受體,不同抗原選擇與之相適應的受體結合,從而刺激該細胞克隆的増殖分化,產(chǎn)生免疫應答而生成多祥性的各種抗體。該學說說明了抗體形成的機制,解釋了免疫系統(tǒng)對抗原的識別、免疫記憶等形成的原因。說明抗體的生成演化向著接近已有抗原的方向進行。利用這ー原理可以約簡垃圾郵件檢測中入侵行為規(guī)則集,使檢測器的構造不是盲目的進行。否定選擇學說認為機體內(nèi)先產(chǎn)生大量隨機抗體,其中對“自己”抗原物質產(chǎn)生破壞的將被清除(否則將導致自身免疫功能疾病),剰余的抗體可以檢測一切外來抗原物質。在本方案中可分階段使用兩個過程根據(jù)保留數(shù)據(jù)挖掘出異常模式,井根據(jù)經(jīng)驗知識補充之,以這些模式作為父代抗原,經(jīng)編碼后利用遺傳算子對它們進行變異和増殖,生成ー個大的候選抗體庫,對其中每ー個個體要進行適應度測定,計算與現(xiàn)有抗原的相似度,這樣做是因為假設所有新生成的個體都是以現(xiàn)有異常模式為基礎的,而非ー種不可能存在的模式,這樣做有利于保障檢測效率,節(jié)約存儲空間;然后再進行否定選擇,刪除其中的自體模式。最后生成ー個較完備的異己模式庫。本方案利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立起“自體模式集”和“異己模式集”。這些模式是對8個屬性的描述,S卩,服務類型(service),源地址(src_host),源端ロ(src_port),目的地址(dst_host),時延(dur),源端發(fā)送字節(jié)數(shù)(src_bytes),目的端發(fā)送字節(jié)數(shù)(dst_bytes),狀態(tài)(flag)。為了便于描述和理解,下面給出ー些與頻繁序列模式相關的定義。定義I :一階模式(ー階染色體)包含一個項目集的頻繁模式。模式中的項目(屬性)來自于ー個網(wǎng)絡聯(lián)接,如(service = http, flag = SO)或(service = icmp_echo, flag = SF, src_host = host2, dst_host = hostl)。我イ門約定,一階模式中的屬性按其重要程度排列,即service, flag, src_host, src_port, dst_host,dur, src_bytes, dst_bytes等屬性在決定ー個聯(lián)接時,重要性依次降低。定義2 :完整ー階模式模式中包含了所有屬性值描述,即包含了完整的項目集。通過將缺失屬性值補為零可以將非完整模式轉變?yōu)橥暾J健6x3 :多階模式(多階染色體)包含了多個項目集的頻繁序列模式。模式中的項目集來自于多個聯(lián)接,這些項目集描述了ー種頻繁的操作序列,如(,service = http, flag = SO) — (service = http, flag = SO) — (service = nttp, flag=SO)。定義4 :基因是模式中的各個屬性。
定義5 :基因鏈是將系統(tǒng)中每個屬性的取值組織成為ー個鏈表,標記該屬性的取值情況,鏈表入口項表示為 Glist (number, attribute value)。也就是說,系統(tǒng)中存在有8條基因鏈,分別對應了 8種屬性的所有取值。這8條基因鏈組成了ー個基因庫。隨著系統(tǒng)的運行有新的屬性值產(chǎn)生的話,需要更新基因庫。此外,在本方案中,有意義的多階模式主要集中在三階,有部分的ニ階和四階模式。ー階頻繁模式由于不具有統(tǒng)計意義而被忽略。編碼過程中我們將超過四階的模式截取為四階處理,即,如有模式Xl — X2 —X3 —X4 —X5...,則轉化為xl — X2 — X3 — X4??梢宰C明這種截取不影響系統(tǒng)的檢測結果。步驟ニ、采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理;具體而言,在本發(fā)明實施例中,使用的模式包含“表現(xiàn)型”和“基因型”,前者指可讀的、由聯(lián)接記錄直接得到的規(guī)則,后者指“抗體演化、否定選擇和克隆選擇”時使用的ー種內(nèi)部表現(xiàn)形式.由于運算必須對群體中具有某種結構形式的個體施加結構重組、挑選和量化計算來完成,因此需要ー種直接的數(shù)字化表示形式.將表現(xiàn)型映射成基因型的過程稱為編碼。進ー步的,在本方案中,為了便于模式間比較,本方案中將數(shù)值型屬性離散化為區(qū)間值。屬性dur(時延)分別按照其長短離散化為短、一般、長、很長;同理,將源和目的端發(fā)送字節(jié)分為少、一般、多和很多.于是可以將網(wǎng)絡入侵中占用字節(jié)數(shù)較多的dur (時延)和源和目的端發(fā)送字節(jié)三個屬性可以轉化為模糊集形式,只分別用倆位ニ進制即可表示出來,大大縮短了ニ進制表示抗體的長度。把ニ進制基因位轉化為對應模糊集,如下表所示
參數(shù)基因模糊集
00LOW
01NORMAL
10HIGH
11HIGHER步驟三、通過結合否定選擇算法和克隆選擇算法,產(chǎn)生新的抗體,進而對垃圾郵件進行檢測和過濾。具體而言,在本發(fā)明實施例中,設計抗體生成算法,算法中包括親和カ計算、抗原樣本訓練、克隆變異和否定選擇。進ー步的,在本方案中,把每個垃圾郵件的檢測和被檢測模式表示為ー個八維向量,分為服務類型(service),源地址(src_host),源端ロ (src_port),目的地址(dst_host),時延(dur),源端發(fā)送字節(jié)數(shù)(src_bytes),目的端發(fā)送字節(jié)數(shù)(dst_bytes),狀態(tài)(flag)八部分 Vector = くservice,flag,src—nost,src—port,ast—host,dur, src—bytes,dst_bytes>為方便下述的算法設計,這里先給出免疫系統(tǒng)的ー些初始設定BC-初始為空的B細胞集,//be為B細胞集中的B細胞,代表“非己”信息,即垃圾郵件信息,主要由服務類型(service),源地址(src_host),源端ロ(src_port),目的地址(dst_host),時延(dur),源端發(fā)送字節(jié)數(shù)(src_bytes),目的端發(fā)送字節(jié)數(shù)(dst_bytes),狀態(tài)(flag)組成;B細胞分泌抗體;MC-初始為空的記憶B細胞集//me為記憶B細胞集中的記憶細胞,代表被用戶確認的“非己”信息,主要由服務類型(service),源地址(src_host),源端ロ (src_port),目的地址(dst_host)組成;R-抗體ニ進制表示;Kt-初始記憶細胞數(shù)目;Ka-親和カ閥值;e -匹配閾值;Kl-克隆常量;Km-變異常量;Ag-抗原;代表用戶所面對的“自體”和“非自體”信息;本方案的算法如下
Procedure Tram(trammg set)
{
Foreach(te £ TE)
Add title words and key words to appropriate library Remove Kt random elements from TE and insert into MC Foreach(mc £ MC)
If(affinity(mc,te)>Ka)
Clone s—clone_mutate(mc ,te) //克隆變異生成新抗體 Foreacn^clo £ clones)

If(affinity(clo,te)>=affinity(mc,te))
BC-BC U {clo}
Negachoose(BC) //否定選擇算法
}否定選擇算法否定免疫算法是對免疫細胞的成熟過程的模擬,經(jīng)歷耐受的檢測器模擬成熟的免疫細胞。
Procedure NegacnoosefBC)
{
從BC中隨機生成大量的侯選檢測器be (即免疫細胞);//初始化 while 一個給定大小的檢測器集合還沒有被產(chǎn)生do //耐受 Foreachi self)
If (affinity(self,bc)> e ) //選擇 Then Remove be irom BC }克隆選擇算法垃圾郵件入侵攻擊是會發(fā)生變化的,有時用戶對是否是垃圾郵件入侵攻擊模糊不清,或很難選擇準確的關鍵詞,以致提交的信息不一定準確,本發(fā)明提供了克隆選擇的算法來結合多個用戶的信息反饋,進行交叉變異可以生成新的抗體。
Procedure clone—mutatefbcl,bc2)
{
aff — affinity (be l,bc2) clones 一 O
//親和カ越人克隆的數(shù)目就越多,相應變異的就越少;反之則克隆的少變異的多;
num clones 一aff*kl
num mutate—(I -aff)*bc’ s feature vector 1ength*km
For(T=1 ;T<=num clones;!+十)bcx—a copy of be I
For (j=I ;j <=num—mutate ;j++)
//對克隆中的隨機關鍵詞進行替換; p—a random point in dcx’ s feature vector w—a random word from the appropriate gene library replace word in bcx’ s feature vector at location p with w clones 一clones U {bcx} return clones }針對用戶的反饋,要對規(guī)則進行提升,規(guī)則的提升算法系統(tǒng)內(nèi)的規(guī)則克隆變異和系統(tǒng)外的用戶反饋共同決定規(guī)則的變化。
Procedure Update! ag)
{
Foreach(bc£BC)
If(affinity(ag,bc)>Ka)
Increment be ’ s stimulation count //找出與該抗原親和カ最高的抗體,如果該抗體與抗原的親和カ高于記憶細 胞與抗原的親和カ,則在提升規(guī)則的同時更新記憶細胞 Be best—element of BC with highest aftmity to ag //系統(tǒng)內(nèi)B細胞克隆變異 BC—BC U clone—mutate(bc—best,ag)
Be best—element of BC with highest affinity to agMc best—element of MC with highest affinity to agIf(affinity(bc best,ag)> affinity(mc best,ag))
BC—BC U {be—best}
MC—MC U {me—best} U {be—best}
Foreach(mc E MC)
If(affinity(bc best,mc)>Ka)
Decrement me stimulation count and add words from ag’ s feature vector togene libraries}其中,親和カ的計算按下式進行Affinity (i, j) = code (i)-code (j)式中 code 表示待測模式的ニ進制編碼。在本方案中,克隆選擇和否定選擇是抗體生成和演化過程中兩個重要過程,也是 現(xiàn)代免疫學中比較完善的兩個理論學說。本發(fā)明將克隆選擇與否定選擇相結合,大大縮小了系統(tǒng)的時空開銷。將ニ進制位轉化為對應的模糊集大大縮短了抗體的長度,將克隆選擇和否定選擇相結合,使抗體進行否定選擇時時空開銷降低,提高了入侵檢測的效率。將垃圾郵件入侵檢測的過程視做抗體培養(yǎng)和抗原檢測的過程,提出了一種有效的模式編碼方法。由分析可知,應用人工免疫原理的開銷主要集中在抗體生成階段,尤其是當初始模式集規(guī)模很大的時候。運用克隆選擇和否定選擇的約束可以大大減少空間和時間的需求。此外,一旦抗體成熟后,它的檢測效率和系統(tǒng)魯棒性是很高的。另外,本發(fā)明實施例還提供ー種垃圾郵件過濾系統(tǒng)。如圖2所示,為本發(fā)明實施例提供的一種垃圾郵件過濾系統(tǒng)示意圖。一種垃圾郵件過濾系統(tǒng),包括定義單元11、編碼單元22及算法単元33。定義單元11,用于在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義;具體而言,在本發(fā)明實施例中,是把垃圾郵件檢測中存在的問題,用免疫系統(tǒng)的免疫思想來解決。在生物體中,抗體對抗原物質的識別是依靠抗體表面的受體與特定抗原的抗原決定基問化學健的“結合”,安全系統(tǒng)中的檢測是指檢測模式和被檢測模式間的匹配。進ー步的,在本方案中,對人工免疫原理的應用是功能上的模擬而非所有部件的實現(xiàn)。在生物體中,抗體對抗原物質的識別是依靠抗體表面的受體與特定抗原的抗原決定基問化學健的“結合”,過濾系統(tǒng)中的檢測是指檢測模式和被檢測模式間的匹配。本方案在原來建立的過濾系統(tǒng)模型時基礎上引入人工免疫的概念,構建了ー個更加精確合理的模型。模型綜合考慮精確性和效率??寺∵x擇和否定選擇是抗體生成和演化過程中兩個重要過程??寺∵x擇學說中,機體免疫系統(tǒng)被認為事先就存在能識別各種抗原的細胞克隆,每個克隆細胞表面都有針對不同特定抗原的受體,不同抗原選擇與之相適應的受體結合,從而刺激該細胞克隆的増殖分化,產(chǎn)生免疫應答而生成多祥性的各種抗體。該學說說明了抗體形成的機制,解釋了免疫系統(tǒng)對抗原的識別、免疫記憶等形成的原因。說明抗體的生成演化向著接近已有抗原的方向進行。利用這ー原理可以約簡垃圾郵件檢測中入侵行為規(guī)則集,使檢測器的構造不是盲目的進行。否定選擇學說認為機體內(nèi)先產(chǎn)生大量隨機抗體,其中對“自己”抗原物質產(chǎn)生破壞的將被清除(否則將導致自身免疫功能疾病),剰余的抗體可以檢測一切外來抗原物質。在本方案中可分階段使用兩個過程根據(jù)保留數(shù)據(jù)挖掘出異常模式,井根據(jù)經(jīng)驗知識補充之,以這些模式作為父代抗原,經(jīng)編碼后利用遺傳算子對它們進行變異和増殖,生成ー個大的候選抗體庫,對其中每ー個個體要進行適應度測定,計算與現(xiàn)有抗原的相似度,這樣做是因為假設所有新生成的個體都是以現(xiàn)有異常模式為基礎的,而非ー種不可能存在的模式,這樣做有利于保障檢測效率,節(jié)約存儲空間;然后再進行否定選擇,刪除其中的自體模式。最后生成ー個較完備的異己模式庫。本方案利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立起“自體模式集”和“異己模式集”。這些模式是對8個屬性的描述,S卩,服務類型(service),源地址(src_host),源端ロ(src_port),目的地址(dst_host),時延(dur),源端發(fā)送字節(jié)數(shù)(src_bytes),目的端發(fā)送字節(jié)數(shù)(dst_bytes),狀態(tài)(flag)。為了便于描述和理解,下面給出ー些與頻繁序列模式相關的定義。
定義I :一階模式(ー階染色體)包含一個項目集的頻繁模式。模式中的項目(屬性)來自于ー個網(wǎng)絡聯(lián)接,如(service = http, flag = S0)或(,service = icmp_echo, flag = SF, src_host = host2, dst_host = hostl)。我イ門約>£,一階模式中的屬性按其重要程度排列,即service, flag, src_host, src_port, dst_host,dur, src_bytes, dst_bytes等屬性在決定ー個聯(lián)接時,重要性依次降低。定義2 :完整ー階模式模式中包含了所有屬性值描述,即包含了完整的項目集。通過將缺失屬性值補為零可以將非完整模式轉變?yōu)橥暾J?。定義3 :多階模式(多階染色體)包含了多個項目集的頻繁序列模式。模式中的項目集來自于多個聯(lián)接,這些項目集描述了ー種頻繁的操作序列,如(,service = http, flag = SO) — (service = http, flag = SO) — (service = nttp, flag=SO)。定義4 :基因是模式中的各個屬性。定義5 :基因鏈是將系統(tǒng)中每個屬性的取值組織成為ー個鏈表,標記該屬性的取值情況,鏈表入口項表示為 Glist (number, attribute value)。也就是說,系統(tǒng)中存在有8條基因鏈,分別對應了 8種屬性的所有取值。這8條基因鏈組成了ー個基因庫。隨著系統(tǒng)的運行有新的屬性值產(chǎn)生的話,需要更新基因庫。此外,在本方案中,有意義的多階模式主要集中在三階,有部分的ニ階和四階模式。ー階頻繁模式由于不具有統(tǒng)計意義而被忽略。編碼過程中我們將超過四階的模式截取為四階處理,即,如有模式Xl — X2 —X3 —X4 —X5...,則轉化為xl — X2 — X3 — X4??梢宰C明這種截取不影響系統(tǒng)的檢測結果。編碼單元22,用于采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理;具體而言,在本發(fā)明實施例中,使用的模式包含“表現(xiàn)型”和“基因型”,前者指可讀的、由聯(lián)接記錄直接得到的規(guī)則,后者指“抗體演化、否定選擇和克隆選擇”時使用的ー種內(nèi)部表現(xiàn)形式.由于運算必須對群體中具有某種結構形式的個體施加結構重組、挑選和量化計算來完成,因此需要ー種直接的數(shù)字化表示形式.將表現(xiàn)型映射成基因型的過程稱為編碼。進ー步的,在本方案中,為了便于模式間比較,本方案中將數(shù)值型屬性離散化為區(qū)間值。屬性dur(時延)分別按照其長短離散化為短、一般、長、很長;同理,將源和目的端發(fā)送字節(jié)分為少、一般、多和很多.于是可以將網(wǎng)絡入侵中占用字節(jié)數(shù)較多的dur (時延)和源和目的端發(fā)送字節(jié)三個屬性可以轉化為模糊集形式,只分別用倆位ニ進制即可表示出來,大大縮短了ニ進制表示抗體的長度。把ニ進制基因位轉化為對應模糊集,如下表所示
權利要求
1.ー種垃圾郵件過濾的方法,其特征在于,所述方法包括 步驟一、在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義; 步驟ニ、采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理; 步驟三、通過結合否定選擇算法和克隆選擇算法,產(chǎn)生新的抗體,進而對垃圾郵件進行檢測和過濾。
2.根據(jù)權利要求I所述的方法,其特征在于,所述步驟一中,模式集是對8個屬性的描述。
3.根據(jù)權利要求2所述的方法,其特征在于,所述8個屬性包括但不限于服務類型,源地址,源端ロ,目的地址,時延,源端發(fā)送字節(jié)數(shù),目的端發(fā)送字節(jié)數(shù)以及狀態(tài)。
4.根據(jù)權利要求I所述的方法,其特征在干,進ー步包括檢測是指檢測模式和被檢測模式間的匹配。
5.根據(jù)權利要求I所述的方法,其特征在于,所述步驟ニ中,表現(xiàn)性模式是指可讀的、由聯(lián)接記錄直接得到的規(guī)則。
6.根據(jù)權利要求I所述的方法,其特征在于,所述步驟ニ中,基因型模式是指抗體演化、否定選擇和克隆選擇時使用的ー種內(nèi)部表現(xiàn)形式。
7.根據(jù)權利要求I或3所述的方法,其特征在干,進ー步包括將占用字節(jié)數(shù)較多的時延和源和目的端發(fā)送字節(jié)三個屬性轉化為模糊集形式,只分別用倆位ニ進制即可表示出來,縮短ニ進制表示抗體的長度,把ニ進制基因位轉化為對應模糊集。
8.根據(jù)權利要求I所述的方法,其特征在于,所述步驟三中,進ー步包括算法中包括親和カ計算、抗原樣本訓練、克隆變異和否定選擇。
9.一種垃圾郵件過濾系統(tǒng),其特征在于,所述系統(tǒng)包括定義單元、編碼單元及算法單元,通過在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義,接著采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理,然后通過結合否定選擇算法和克隆選擇算法,產(chǎn)生新的抗體,進而對垃圾郵件進行檢測和過濾。
10.根據(jù)權利要求9所述的系統(tǒng),其特征在于,所述定義単元用于在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義。
11.根據(jù)權利要求9所述的系統(tǒng),其特征在于,所述編碼単元用于采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理。
12.根據(jù)權利要求9所述的系統(tǒng),其特征在于,所述算法単元用于通過結合否定選擇算法和克隆選擇算法,產(chǎn)生新的抗體,進而對垃圾郵件進行檢測和過濾。
全文摘要
本發(fā)明提供了一種垃圾郵件過濾的方法及系統(tǒng),通過在垃圾郵件檢測中利用數(shù)據(jù)挖掘方法挖掘出訓練數(shù)據(jù)中的使用模式,建立自體模式集和異己模式集,并對模式集中的屬性進行定義,接著采用數(shù)字化表示形式將表現(xiàn)型映射成基因型之編碼處理,然后通過結合否定選擇算法和克隆選擇算法,產(chǎn)生新的抗體,進而對垃圾郵件進行檢測和過濾,進而降低郵件過濾的開銷,提高入侵檢測系統(tǒng)的效率。
文檔編號H04L12/58GK102664817SQ20121003757
公開日2012年9月12日 申請日期2012年2月17日 優(yōu)先權日2012年2月17日
發(fā)明者趙孟德 申請人:上海電機學院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1