專利名稱:針對不安全網(wǎng)頁文本的過濾監(jiān)管方法
技術領域:
本發(fā)明涉及一種網(wǎng)絡和信息安全領域技術領域的方法,具體是一種針對不安全網(wǎng) 頁文本的過濾監(jiān)管方法。
背景技術:
隨著互聯(lián)網(wǎng)的快速發(fā)展,Internet上的信息呈現(xiàn)多樣性,據(jù)百度統(tǒng)計05年中文網(wǎng) 頁總數(shù)猛增至M億;同時廉價的存儲設備也加速了文本、圖片等信息載體的發(fā)展。如此多 的信息之中,存在著大量的暴力、色情、反動等有害網(wǎng)頁。這些網(wǎng)頁的存在無論對社會穩(wěn)定, 還是對有效信息的獲取都是一個障礙。因此如何從浩瀚如煙的信息中過濾掉有害信息,是 一個迫切需要解決的問題。目前對互聯(lián)網(wǎng)上的信息過濾大多采用以下幾種方法基于分級標簽、URL及關鍵 詞過濾分析。其中,基于分級標簽的監(jiān)管方法有效的先決條件是信息發(fā)布者具有良好的自 律性;基于URL過濾的方法有效的先決條件是預先知道含有不安全信息的網(wǎng)址;基于關鍵 詞過濾的方法不能理解文本信息的含義,通常效果不是很理想。并且過濾方法在針對某一 主題方面是由于特征向量相似而引起效果不佳的問題,例如,同樣是針對法輪功的文章,一 篇可能是闡述法輪功對社會的危害,是批判的目的;另一篇可能就是弘揚法輪功的文章。然 而它們可能具有相似的向量表示。因此過通過關鍵字的形式來過濾,就會產(chǎn)生誤判。經(jīng)對現(xiàn)有技術的文獻檢索發(fā)現(xiàn),樊興華等在《計算機學報》2006年第一期第9卷 IM頁上發(fā)表的《一種高性能的兩類中文文本分類方法》,該文中提出的兩元詞串為特征來 進行分類,其不足在于沒有考慮到詞語距離等因素,并且其中提到的特征值計算方法針對 兩元詞組并不合適。
發(fā)明內(nèi)容
本發(fā)明針對上述現(xiàn)有技術中的不足,提供了一種針對不安全網(wǎng)頁的過濾監(jiān)管方 法,使其考慮文本的語義,用概念特征向量來替代傳統(tǒng)的關鍵詞的特征向量,一方面提高過 濾效果,另一方面由于特征向量減少加快過濾速度。本發(fā)明是通過以下技術方案實現(xiàn)的,本發(fā)明包括如下具體步驟
步驟一,針對不同主題文本統(tǒng)計概念特征向量、計算特征值,將多種不同的主題文本的 概念特征向量、特征值存儲到概念庫;
所述將多種不同的主題文本的概念特征向量、特征值存儲到概念庫,是指設定某主題 文本有不安全文本和正常文本兩種語料,分別統(tǒng)計概念特征向量、計算特征值,并將不安全 文本和正常文本的概念特征向量、特征值分別存儲到概念庫的相應主題的正集和負集中, 對不同主題的文本都作如上操作,最終概念庫包含了關于不安全文本的多種不同的主題, 每一部分都包含相應的正集和負集部分;
所述統(tǒng)計概念特征向量,是指統(tǒng)計出所有的在若干個詞語距離之間同時出現(xiàn)的兩個詞 語,即若兩個詞語之間的距離不超過若干個詞語,則這兩個詞語所組成的2元組計為1個概念特征向量,概念特征向量是基于詞語前后之間的相關性;
所述特征值,由于特征向量數(shù)量巨大,各個特征向量之間的相關性小,特征值的大小主 要由該特征向量出現(xiàn)頻率和構成該特征向量的2元詞語頻率相關,特征值與特征向量頻率 的log成正比,同2元詞組頻率和成反比。步驟二,通過網(wǎng)絡節(jié)點使用HTTP協(xié)議下的文本傳輸協(xié)議捕獲文本數(shù)據(jù),并對其進 行預處理,預處理包括分詞、剔除無意義的詞語;
步驟三,判斷經(jīng)過步驟二預處理后的網(wǎng)頁文本的主題是否屬于敏感主題; 所述判斷是否屬于敏感主題,是指通過關鍵字的方式進行判斷預處理后的網(wǎng)頁文本的 主題是否與不安全內(nèi)容主題相關,如果不屬于則判斷結束;否則,判斷屬于概念庫的哪一方 面主題,并將該網(wǎng)頁文本歸類到概念庫的相應主題中。例如包含法輪功等關鍵字的話,就將 該文本歸類到概念庫的法輪功主題部分,進行步驟四操作。步驟四,若網(wǎng)頁文本的主題屬于敏感主題,判斷該話題的內(nèi)容屬于哪一主題,并按 照與步驟一中相同的方法統(tǒng)計概念特征向量、計算特征值;
步驟五,將步驟四計算出網(wǎng)頁文本的概念特征向量和特征值,與概念庫中相對應主題 的特征向量以及特征值進行相似度計算,采用VSM、SVM或KNN分類方法找到與網(wǎng)頁文本相 似度最大的類,并將該網(wǎng)頁文本分類到該類中,該文本的性質(zhì)取決于類的性質(zhì),若該類為需 要過濾的類別,則該文本應該被過濾,并繼續(xù)由步驟六處理;
步驟六,根據(jù)過濾結果,將該網(wǎng)頁地址置于監(jiān)管數(shù)據(jù)庫中,之后管理員將該網(wǎng)頁直接置 于防火墻之后,所有訪問該網(wǎng)頁的請求當自動屏蔽,從而實現(xiàn)網(wǎng)頁信息監(jiān)管的目的。與現(xiàn)有技術相比,本發(fā)明具有如下有益效果本發(fā)明提供了一種新的信息過濾方 法,用概念特征向量來替代傳統(tǒng)的關鍵詞的特征向量。一方面可以提高過濾效果,普通的分 類算法準確率在80%左右,本發(fā)明的準確率在擬%左右,另一方面由于特征向量減少可以加 快過濾速度,速度上每秒可以處理500篇左右。
圖1是本發(fā)明的工作流程圖。
具體實施例方式下面結合附圖對本發(fā)明的實施例作詳細說明本實施例在以本發(fā)明技術方案為前 提下進行實施,給出了詳細的實施方式和具體的操作過程,但本發(fā)明的保護范圍不限于下 述的實施例。本實施例過濾監(jiān)管包含有法輪功信息的不安全網(wǎng)頁。如圖1所示,本實施包括如下具體步驟
1.針對法輪功主題收集正面和反面的兩類文本,包括有關法輪功的宣揚和抨擊兩方面 的,然后計算它們的特征向量和特征值,并置于概念庫中關于法輪功主題的正反兩部分。所述統(tǒng)計概念特征向量,是指統(tǒng)計出所有的在N個詞語距離之間同時出現(xiàn)的兩個 詞語,即若兩個詞語之間的距離不超過N個詞語,則這兩個詞語所組成的2元組計為1個概 念特征向量,概念特征向量是基于詞語前后之間的相關性;如,法輪功危害社會,法輪功危 害、危害社會就是特征向量;所述計算特征值,是指特征值表示兩個詞組的相關性,m為詞組1的頻率,N2為詞組 2的頻率,N為m和N2同時出現(xiàn)的頻率,則該特征值就表示為log(N)/(m+N2),特征值表 示一個特征向量對分類的貢獻,特征值越大表示分辨率越好。通過網(wǎng)絡節(jié)點,使用HTTP協(xié)議下的文本傳輸協(xié)議捕獲文本數(shù)據(jù),然后,依賴于編 碼和格式轉換方案對得到的文本數(shù)據(jù)進行格式轉換和編碼轉換,并進行分詞,剔除無意義 的詞匯;
3.采用關鍵字匹配的方式來判斷網(wǎng)頁文本是否屬于法輪功敏感話題,敏感話題的關鍵 詞由管理員制定,關鍵詞存儲于數(shù)據(jù)庫中,通過查詢數(shù)據(jù)庫就可判斷是否屬于敏感話題,如 果不是結束判斷;如果是,進行如下處理;
4.統(tǒng)計該文本的特征向量并計算對應的特征值,并判斷該話題的內(nèi)容屬于哪一話題, 例如包含法輪功等字眼的文本屬于法輪功話題;
5.查詢概念庫中該話題中相應特征向量的特征值,該話題在概念庫中有兩類不同的特 征向量和特征值,分別代表對該話題的正面和反面態(tài)度,之后通過采用VSM,SVM, KNN分類 方法計算得到與待分類文本相似度最大的類別一一法輪功宣傳類別,則該文本就判別為 法輪功宣傳的文章,將分類結果用于監(jiān)管,并進行下面一步處理;
6.根據(jù)過濾結果,將該網(wǎng)頁地址置于監(jiān)管數(shù)據(jù)庫中,之后管理員將該網(wǎng)頁直接置于防 火墻之后,所有訪問該網(wǎng)頁的請求當自動屏蔽,從而實現(xiàn)網(wǎng)頁信息監(jiān)管的目的。與現(xiàn)有技術相比,本實施例具有如下有益效果本實施例提供了一種新的信息過 濾方法,用概念特征向量來替代傳統(tǒng)的關鍵詞的特征向量,本實施例的準確率在9 左右, 另外本實施例每秒可以處理500篇左右。
權利要求
1.一種針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,其特征在于,包括如下具體步驟步驟一,針對不同主題文本統(tǒng)計概念特征向量、計算特征值,將多種不同的主題文本的 概念特征向量、特征值存儲到概念庫;步驟二,通過網(wǎng)絡節(jié)點使用HTTP協(xié)議下的文本傳輸協(xié)議捕獲文本數(shù)據(jù),并對其進行預 處理,預處理包括分詞、剔除無意義的詞語;步驟三,判斷經(jīng)過步驟二預處理后的網(wǎng)頁文本的主題是否屬于敏感主題; 步驟四,若網(wǎng)頁文本的主題屬于敏感主題,判斷該話題的內(nèi)容屬于哪一主題,并按照與 步驟一中相同的方法統(tǒng)計概念特征向量、計算特征值;步驟五,將步驟四計算出網(wǎng)頁文本的概念特征向量和特征值,與概念庫中相對應主題 的特征向量以及特征值進行相似度計算,采用VSM、SVM或KNN分類方法找到與網(wǎng)頁文本相 似度最大的類,并將該網(wǎng)頁文本分類到該類中,該文本的性質(zhì)取決于類的性質(zhì),若該類為需 要過濾的類別,則該文本應該被過濾,并繼續(xù)由步驟六處理;步驟六,根據(jù)過濾結果,將該網(wǎng)頁地址置于監(jiān)管數(shù)據(jù)庫中,之后管理員將該網(wǎng)頁直接置 于防火墻之后,所有訪問該網(wǎng)頁的請求當自動屏蔽,從而實現(xiàn)網(wǎng)頁信息監(jiān)管的目的。
2.根據(jù)權利要求1所述的針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,其特征是,所述將多 種不同的主題文本的概念特征向量、特征值存儲到概念庫,是指設定某主題文本有不安全 文本和正常文本兩種語料,分別統(tǒng)計概念特征向量、計算特征值,并將不安全文本和正常文 本的概念特征向量、特征值分別存儲到概念庫的相應主題的正集和負集中,對不同主題的 文本都作如上操作,最終概念庫包含了關于不安全文本的多種不同的主題,每一部分都包 含相應的正集和負集部分。
3.根據(jù)權利要求1或2所述的針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,其特征是,所述統(tǒng) 計概念特征向量,是指統(tǒng)計出所有的在若干個詞語距離之間同時出現(xiàn)的兩個詞語,即若兩 個詞語之間的距離不超過若干個詞語,則這兩個詞語所組成的2元組計為1個概念特征向 量,概念特征向量是基于詞語前后之間的相關性。
4.根據(jù)權利要求1或2所述的針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,其特征是,所述特 征值,其與特征向量出現(xiàn)頻率和構成該特征向量的2元詞語頻率相關,特征值與特征向量 頻率的log成正比,同2元詞組頻率和成反比。
5.根據(jù)權利要求1所述的針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,其特征是,所述判斷 是否屬于敏感主題,是指通過關鍵字的方式進行判斷預處理后的網(wǎng)頁文本的主題是否與不 安全內(nèi)容主題相關,如果不屬于則判斷結束;否則,判斷屬于概念庫的哪一方面主題,并將 該網(wǎng)頁文本歸類到概念庫的相應主題中。
全文摘要
一種網(wǎng)絡和信息安全領域技術領域的針對不安全網(wǎng)頁文本的過濾監(jiān)管方法,包括步驟一,將多種不同的主題文本的概念特征向量、特征值存儲到概念庫;步驟二,通過網(wǎng)絡節(jié)點捕獲文本數(shù)據(jù),并對其進行預處理,預處理包括分詞、剔除無意義的詞語;步驟三,判斷網(wǎng)頁文本的主題是否屬于敏感主題;步驟四,判斷該話題的內(nèi)容屬于哪一主題,并按照與步驟一中相同的方法統(tǒng)計概念特征向量、計算特征值;步驟五,將該網(wǎng)頁文本進行分類;步驟六,根據(jù)過濾結果,將該網(wǎng)頁地址置于監(jiān)管數(shù)據(jù)庫中,之后管理員將該網(wǎng)頁直接置于防火墻之后,所有訪問該網(wǎng)頁的請求當自動屏蔽,從而實現(xiàn)網(wǎng)頁信息監(jiān)管的目的。本發(fā)明能夠增加準確度,并且加快了過濾速度。
文檔編號G06F17/27GK102117339SQ201110083908
公開日2011年7月6日 申請日期2011年3月30日 優(yōu)先權日2011年3月30日
發(fā)明者曹曉晶 申請人:曹曉晶