網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法
【專利摘要】本發(fā)明公開了網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法,能夠增強(qiáng)模板生成速度的同時(shí),提高敏感信息模板在該類文本信息語義表達(dá)方面的準(zhǔn)確性。該方法采用遺傳算法進(jìn)行模板構(gòu)建,按照設(shè)定的分塊長(zhǎng)度K,對(duì)當(dāng)前種群中每個(gè)染色體個(gè)體編碼串按照編碼位從左至右進(jìn)行分塊,并以分塊為單位進(jìn)行染色體的交叉和變異操作。
【專利說明】網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)內(nèi)容安全領(lǐng)域,尤其涉及網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大,網(wǎng)絡(luò)在社會(huì)生活中扮演著越來越重要的角色,不僅成為人們聊天交友和娛樂媒介,更已經(jīng)成為人們獲取信息的主要渠道,特別是微博、微信等新型溝通形式的發(fā)展成熟,網(wǎng)絡(luò)正日益成為人們自由交流和表達(dá)意愿的重要平臺(tái)。然而,網(wǎng)絡(luò)信息傳播的便捷性和隨意性問題日益突出,網(wǎng)絡(luò)上既有大量進(jìn)步、健康、有益的信息,也有不少庸俗、灰色、暴力、虛假的言論,給網(wǎng)絡(luò)內(nèi)容安全帶來了巨大的挑戰(zhàn)。對(duì)此,世界各國(guó)政府、研究機(jī)構(gòu)紛紛投入大量資源研究對(duì)策。
[0003]在戰(zhàn)略層面,由美國(guó)國(guó)家安全局建設(shè)的“Echelon”通信監(jiān)視網(wǎng)絡(luò),利用衛(wèi)星接收站和間諜衛(wèi)星,攔截大量電子郵件等個(gè)人信息以發(fā)現(xiàn)網(wǎng)絡(luò)上犯罪行為;英國(guó)政府出臺(tái)了一項(xiàng)“網(wǎng)絡(luò)信息調(diào)查授權(quán)法案”,授權(quán)情報(bào)機(jī)構(gòu)對(duì)通過因特網(wǎng)進(jìn)出英國(guó)的所有電子郵件以及網(wǎng)絡(luò)信息進(jìn)行檢查和監(jiān)控,以及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)犯罪的蛛絲馬跡,除此之外,俄羅斯、以色列、韓國(guó)、日本以及其它歐美國(guó)家都針對(duì)網(wǎng)絡(luò)上傳輸信息內(nèi)容進(jìn)行實(shí)時(shí)監(jiān)控與分析。而國(guó)內(nèi)對(duì)于網(wǎng)絡(luò)內(nèi)容安全的研究方興未艾,北京圖形研究所的孫春來等針對(duì)網(wǎng)絡(luò)信息的保密要求,提出了基于內(nèi)容過濾的網(wǎng)絡(luò)內(nèi)容監(jiān)控系統(tǒng)-DFNMS ;由北大青鳥環(huán)宇公司開發(fā)的JB-searchX網(wǎng)絡(luò)監(jiān)控系統(tǒng)是一套互聯(lián)網(wǎng)信息監(jiān)控系統(tǒng),能夠設(shè)置和監(jiān)控敏感詞并進(jìn)行報(bào)警;中軟信息安全實(shí)驗(yàn)室推出的網(wǎng)絡(luò)信息監(jiān)控分析與取證系統(tǒng),可以根據(jù)用戶定義的監(jiān)控和分析策略對(duì)網(wǎng)絡(luò)信息文字內(nèi)容進(jìn)行分析并將信息還原、歸類。
[0004]在技術(shù)層面,基于內(nèi)容的信息過濾是網(wǎng)絡(luò)內(nèi)容安全監(jiān)控的重要手段,Stanford大學(xué)的Takl.Yen和Hector Garcia-Mina開發(fā)了基于內(nèi)容的過濾系統(tǒng)SIFT (StanfordInformation Filtering Tool),該系統(tǒng)利用向量空間模型來完成用戶信息需求與新聞資料之間的匹配,從而實(shí)現(xiàn)對(duì)因特網(wǎng)上新聞組內(nèi)容的過濾。該類技術(shù)利用關(guān)鍵詞將信息流與敏感信息模板進(jìn)行匹配計(jì)算,當(dāng)相似性高于一定閾值時(shí),則過濾目標(biāo)信息流,因此敏感信息模板的準(zhǔn)確性直接關(guān)系到信息過濾的精度。
[0005]在敏感信息模板的構(gòu)建中,相關(guān)研究人員提出了很多方法,比較具有代表性的有:用于文本分類的支持向量機(jī)和用于垃圾郵件過濾的貝葉斯算法。然而,支持向量機(jī)的方法在訓(xùn)練過程中要求同時(shí)使用正樣本和負(fù)樣本,但是敏感信息識(shí)別應(yīng)更多關(guān)注正樣本,因此無法滿足對(duì)于敏感信息過濾的需求J.s.Su等人在對(duì)分類算法進(jìn)行研究的基礎(chǔ)上,指出貝葉斯方法雖然簡(jiǎn)單高效,但存在過分依賴先驗(yàn)值的缺點(diǎn),同時(shí)由于敏感信息在發(fā)現(xiàn)以前很難建立相應(yīng)的概率模型,因此,貝葉斯方法不能適應(yīng)敏感信息過濾的動(dòng)態(tài)性要求。Cohen提出了利用基于RIPPER規(guī)則學(xué)習(xí)算法和關(guān)鍵詞學(xué)習(xí)規(guī)則進(jìn)行郵件分類模板生成;M.Taesup提出了一種基于隱馬爾可夫模型的通用過濾算法,將語義元素加入到過濾類別模板中;在國(guó)內(nèi),清華大學(xué)的曾春等提出利用領(lǐng)域分類模型上的概率分布表達(dá)過濾模板,給出相似性計(jì)算和模板更新方法;洪宇等人提出了一種建立信息流二元近似關(guān)系模型,輔助信息過濾系統(tǒng)識(shí)別和屏蔽反饋中的噪聲,從而使生成的過濾類別信息模板更加準(zhǔn)確。
[0006]然而,將遺傳算法引入到敏感信息模板生成的研究很少,且主要集中在進(jìn)行特征選擇以及將遺傳算法應(yīng)用于生成模板的實(shí)際應(yīng)用,哈爾濱工程大學(xué)呂志龍?zhí)岢隽烁鶕?jù)用戶需求描述和少量正例文檔構(gòu)建初始用戶模板,并基于遺傳算法進(jìn)行用戶模板的自適應(yīng)學(xué)習(xí),但是存在的問題是系統(tǒng)過濾初期,效果并不能令人滿意;此外,山東大學(xué)劉玉國(guó)等人提出了一種基于遺傳算法的敏感信息過濾方法,綜合利用過濾模板和文檔特性計(jì)算方法在一定程度上提高了敏感信息過濾的準(zhǔn)確度,但是存在過濾模板生成速度慢、容易陷入局部最優(yōu)的問題。
【發(fā)明內(nèi)容】
[0007]有鑒于此,本發(fā)明基于遺傳算法,提供了網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法,有效提高敏感信息模板中關(guān)鍵詞表述的準(zhǔn)確性,可以增強(qiáng)模板生成的速度。
[0008]為了解決上述技術(shù)問題,本發(fā)明是這樣實(shí)現(xiàn)的:
[0009]步驟1、選擇一類敏感信息的訓(xùn)練文本集,該訓(xùn)練文本集中包括信息文本向量和多個(gè)訓(xùn)練文本;將每個(gè)訓(xùn)練文本轉(zhuǎn)換為二進(jìn)制編碼串并且作為一個(gè)染色體個(gè)體,構(gòu)成遺傳算法初始種群;
[0010]步驟2、計(jì)算初始種群中每個(gè)染色體個(gè)體的適應(yīng)度值,并保存適應(yīng)度值最高的染色體及其適應(yīng)度值為最優(yōu)染色體BI和最優(yōu)適應(yīng)度值f (BI);
[0011]步驟3、按照設(shè)定的分塊長(zhǎng)度K,對(duì)當(dāng)前種群中每個(gè)染色體個(gè)體的編碼串按照編碼位從左至右進(jìn)行分塊,得到η個(gè)分塊;Κ的取值范圍為3?5 ;
[0012]步驟4、以分塊為單位,依據(jù)交叉概率,對(duì)當(dāng)前種群中的染色體個(gè)體進(jìn)行交叉操作;
[0013]步驟5、以分塊為單位,依據(jù)變異概率,對(duì)交叉操作后新生成的染色體個(gè)體進(jìn)行變異操作;
[0014]步驟6、重復(fù)執(zhí)行步驟4和步驟5,直至當(dāng)前種群中最后一個(gè)染色體完成交叉操作和變異操作,得到新種群;
[0015]步驟7:計(jì)算所述染新種群中每個(gè)染色體個(gè)體的適應(yīng)度值;
[0016]步驟8:根據(jù)本輪適應(yīng)度值最高和最低的染色體,執(zhí)行遺傳算法中的精英保持策略,對(duì)所述最優(yōu)染色體BI及其最優(yōu)適應(yīng)度值f (BI)進(jìn)行替換;
[0017]步驟9:判斷算法迭代停止條件,如果停止,進(jìn)入步驟10 ;否則,以新種群作為當(dāng)前種群,返回步驟4;
[0018]步驟10:從所述信息文本向量中提取最優(yōu)染色體BI中的編碼位I對(duì)應(yīng)的關(guān)鍵詞,構(gòu)成敏感信息模板輸出。
[0019]進(jìn)一步地,在所述步驟5中,對(duì)于每個(gè)染色體個(gè)體執(zhí)行如下步驟51?步驟54的變異操作:
[0020]步驟51、令 j=l;
[0021]步驟52、取整數(shù) block=min {randi (1:K), L_j},其中,randi (1:K)表示在 I 至 K中隨機(jī)產(chǎn)生一個(gè)整數(shù)山表示每個(gè)染色體個(gè)體編碼長(zhǎng)度;j為整數(shù),表示染色體個(gè)體的第j個(gè)編碼位;min{}表示取{}中的最小值;
[0022]步驟53、隨機(jī)產(chǎn)生一個(gè)(0,I)之間的小數(shù)rand,如果rand小于或等于變異概率,則對(duì)染色體個(gè)體的第j位到第j+block%K位執(zhí)行按位取反操作,然后將j更新為j+K ;其中,block%K表示block除以K取余數(shù);
[0023]步驟54、循環(huán)執(zhí)行步驟52和步驟53,直至j>L,則循環(huán)停止,完成一個(gè)染色體個(gè)體變異操作。
[0024]有益效果:
[0025](I)本發(fā)明按照語義劃分編碼塊,以編碼塊為單位進(jìn)行交叉和變異操作,降低交叉和變異所帶來的語義變異過大的問題,在增強(qiáng)模板生成速度的同時(shí),可以有效提高敏感信息模板在該類文本信息語義表達(dá)方面的準(zhǔn)確性。
[0026](2)有針對(duì)性地根據(jù)種群相似性設(shè)計(jì)交叉和變異概率,可以利用種群多樣性引導(dǎo)遺傳過程,可以增強(qiáng)模板生成的速度。
[0027](3)采用精英保持策略,可以保證遺傳過程不退化,具有提高敏感信息模板構(gòu)建的準(zhǔn)確性和生成速度的效果。
【具體實(shí)施方式】
[0028]本發(fā)明提供了網(wǎng)絡(luò)內(nèi)容安全管理中的敏感信息模板構(gòu)建方法,該方法采用遺傳算法,并按照語義劃分編碼塊,以編碼塊為單位進(jìn)行交叉和變異操作,降低交叉和變異所帶來的語義變異過大的問題,可以有效提高敏感信息模板中關(guān)鍵詞表述的準(zhǔn)確性。
[0029]下面對(duì)本發(fā)明敏感信息模板構(gòu)建方法進(jìn)行詳細(xì)描述。
[0030]步驟1:選擇一類敏感信息的訓(xùn)練文本集,該訓(xùn)練文本集中包括信息文本向量和多個(gè)訓(xùn)練文本;將每個(gè)訓(xùn)練文本轉(zhuǎn)換為二進(jìn)制編碼串并且作為一個(gè)染色體個(gè)體,構(gòu)成遺傳算法初始種群
[0031]敏感信息分類包括政治、經(jīng)濟(jì)、軍事等。每一次針對(duì)一類敏感信息進(jìn)行模板構(gòu)建。因此本步驟中,選擇一類敏感信息的訓(xùn)練文本集。
[0032]對(duì)于一類文本信息T,通過文本分詞方法可以將該類文本信息T轉(zhuǎn)化成一個(gè)由若干關(guān)鍵詞組成的信息文本向量Wl,該信息文本向量Wl包含該類文本信息T的全部關(guān)鍵字。例如,某類文本信息的信息文本向量為[我,不,是,中國(guó),美國(guó),人]。
[0033]文本信息T是訓(xùn)練文本的集合。每個(gè)敏感信息模板訓(xùn)練文本在經(jīng)過文本分詞和特征提取之后也可以轉(zhuǎn)換為一個(gè)由若干關(guān)鍵詞組成的向量W2,根據(jù)文本信息T的上下文采用關(guān)鍵詞權(quán)重計(jì)算方法獲得向量W2中每個(gè)關(guān)鍵詞的權(quán)重;然后依據(jù)出現(xiàn)的關(guān)鍵字與信息文本向量Wl對(duì)比,可得到訓(xùn)練文本的權(quán)重特征向量W3,該權(quán)重特征向量W3的長(zhǎng)度與信息文本向量Wl的長(zhǎng)度相同,且其元素的值就是相應(yīng)位關(guān)鍵詞的權(quán)重。為了進(jìn)行遺傳計(jì)算,將權(quán)重特征向量轉(zhuǎn)換為二進(jìn)制編碼串,該二進(jìn)制編碼串的長(zhǎng)度與權(quán)重特征向量長(zhǎng)度相同,轉(zhuǎn)換時(shí),權(quán)重特征向量中為O的元素轉(zhuǎn)換為二進(jìn)制O,非零的元素轉(zhuǎn)換為二進(jìn)制I。
[0034]例如:一個(gè)訓(xùn)練文本為[我是中國(guó)人],根據(jù)文本信息的上下文采用關(guān)鍵詞權(quán)重計(jì)算方法獲得訓(xùn)練文本中關(guān)鍵詞的權(quán)重分別為[0.2,0.3,0.1,0.5],則對(duì)應(yīng)到信息文本向量[我,不,是,中國(guó),美國(guó),人]中,得到相應(yīng)權(quán)重特征向量為[0.2,0,0.3,0.1,0,0.5]。將權(quán)重特征向量轉(zhuǎn)換為且其二進(jìn)制編碼串可表示為[1,0,1,1,0,I]。[0035]對(duì)應(yīng)到遺傳算法中,每個(gè)訓(xùn)練文本的二進(jìn)制編碼串稱為一個(gè)染色體,訓(xùn)練文本的個(gè)數(shù)稱為染色體的群體規(guī)模,用N表示;二進(jìn)制編碼串的長(zhǎng)度表示該類文本向量中關(guān)鍵字的個(gè)數(shù),用L表示;另外,Pc為染色體遺傳過程中的交叉概率,Pm為染色體遺傳過程中的變異概率。
[0036]將訓(xùn)練文本集中的每個(gè)訓(xùn)練文本轉(zhuǎn)化為二進(jìn)制編碼串,并且作為一個(gè)染色體個(gè)體,從而構(gòu)成遺傳算法初始種群StlHX1, X2,…XN},其中Xi表示第i個(gè)染色體個(gè)體。
[0037]步驟2、計(jì)算初始種群Stl中每個(gè)染色體個(gè)體的適應(yīng)度值,并保存適應(yīng)度值最高的染色體及其適應(yīng)度值為最優(yōu)染色體BI和最優(yōu)適應(yīng)度值f (BI)。
[0038]本步驟中,按照如下方法計(jì)算每個(gè)染色體的適應(yīng)度值。
[0039]假設(shè)兩個(gè)兩維的特征向量為aKx” Y1) >b=(x2, y2),則其夾角余弦計(jì)算為:
【權(quán)利要求】
1.網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法,其特征在于,該方法包括: 步驟1、選擇一類敏感信息的訓(xùn)練文本集,該訓(xùn)練文本集中包括信息文本向量和多個(gè)訓(xùn)練文本;將每個(gè)訓(xùn)練文本轉(zhuǎn)換為二進(jìn)制編碼串并且作為一個(gè)染色體個(gè)體,構(gòu)成遺傳算法初始種群; 步驟2、計(jì)算初始種群中每個(gè)染色體個(gè)體的適應(yīng)度值,并保存適應(yīng)度值最高的染色體及其適應(yīng)度值為最優(yōu)染色體BI和最優(yōu)適應(yīng)度值f (BI); 步驟3、按照設(shè)定的分塊長(zhǎng)度K,對(duì)當(dāng)前種群中每個(gè)染色體個(gè)體的編碼串按照編碼位從左至右進(jìn)行分塊,得到η個(gè)分塊;Κ的取值范圍為3~5 ; 步驟4、以分塊為單位,依據(jù)交叉概率,對(duì)當(dāng)前種群中的染色體個(gè)體進(jìn)行交叉操作; 步驟5、以分塊為單位,依據(jù)變異概率,對(duì)交叉操作后新生成的染色體個(gè)體進(jìn)行變異操作; 步驟6、重復(fù)執(zhí)行步驟4和步驟5,直至當(dāng)前種群中最后一個(gè)染色體完成交叉操作和變異操作,得到新種群; 步驟7:計(jì)算所述染新種群中每個(gè)染色體個(gè)體的適應(yīng)度值; 步驟8:根據(jù)本輪適應(yīng)度值最高和最低的染色體,執(zhí)行遺傳算法中的精英保持策略,對(duì)所述最優(yōu)染色體BI及其最優(yōu)適應(yīng)度值f (BI)進(jìn)行替換; 步驟9:判斷算法迭代停止條件,如果停止,進(jìn)入步驟10 ;否則,以新種群作為當(dāng)前種群,返回步驟4; 步驟10:從所述信息文本向量中提取最優(yōu)染色體BI中的編碼位I對(duì)應(yīng)的關(guān)鍵詞,構(gòu)成敏感信息模板輸出。
2.如權(quán)利要求1所述的方法,其特征在于,所述步驟5中,對(duì)于每個(gè)染色體個(gè)體執(zhí)行如下步驟51~步驟54的變異操作: 步驟51、令j=l ;
步驟 52、取整數(shù) block=min {randi (1:K), L_j},其中,randi (1:K)表示在 I 至 K 中隨機(jī)產(chǎn)生一個(gè)整數(shù)山表示每個(gè)染色體個(gè)體編碼長(zhǎng)度;j為整數(shù),表示染色體個(gè)體的第j個(gè)編碼位;min{}表示取{}中的最小值; 步驟53、隨機(jī)產(chǎn)生一個(gè)(0,I)之間的小數(shù)rand,如果rand小于或等于變異概率,則對(duì)染色體個(gè)體的第j位到第j+block%K位執(zhí)行按位取反操作,然后將j更新為j+K ;其中,block%K表示block除以K取余數(shù); 步驟54、循環(huán)執(zhí)行步驟52和步驟53,直至j>L,則循環(huán)停止,完成一個(gè)染色體個(gè)體變異操作。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述步驟4具體為: 隨機(jī)產(chǎn)生一個(gè)長(zhǎng)度為η的二進(jìn)制串binary, binary [k]表示二進(jìn)制串binary的第k位;兩個(gè)待交叉操作的染色體個(gè)體表示為Xi和XXi+1,則依據(jù)如下方式進(jìn)行交叉操作產(chǎn)生新的染色體個(gè)體XXi和XXi+1: 令k遍歷I~η的整數(shù); 如果binary [k]為I,則XXi的第k個(gè)分塊選取Xi中的第k個(gè)分塊,XXi+1的第k個(gè)分塊選取Xi+1中的第k個(gè)分塊; 如果binary [k]為O,則XXi的第k個(gè)分塊選取Xi+1中的第k個(gè)分塊,XXi+1的第k個(gè)分塊選取Xi中的第k個(gè)分塊。
4.如權(quán)利要求1或2所述的方法,其特征在于,根據(jù)種群相似性確定交叉概率和變異概率:若種群中染色體個(gè)體第I位為O的碼位個(gè)數(shù)為M1,C1,為I的碼位個(gè)數(shù)為Mu,定義染色體個(gè)體第I位的相似性為:^t1=Iiiax (Mm, Mu)/N, max O表示取O中的最大值,N表示種群中的染色體個(gè)體規(guī)模,則種群的相似度
5.如權(quán)利要求4所述的方法,其特征在于,M=10。
【文檔編號(hào)】H04L29/06GK103793747SQ201410043993
【公開日】2014年5月14日 申請(qǐng)日期:2014年1月29日 優(yōu)先權(quán)日:2014年1月29日
【發(fā)明者】高巖, 王文彬, 李敏業(yè), 王小康, 王秋實(shí), 陳江寧, 李 杰, 杜光祖 申請(qǐng)人:中國(guó)人民解放軍61660部隊(duì)