網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法

文檔序號(hào)：7796599閱讀：185來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>電子通信裝置的制造及其應(yīng)用技術(shù)

網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法
【專利摘要】本發(fā)明公開了網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法，能夠增強(qiáng)模板生成速度的同時(shí)，提高敏感信息模板在該類文本信息語義表達(dá)方面的準(zhǔn)確性。該方法采用遺傳算法進(jìn)行模板構(gòu)建，按照設(shè)定的分塊長(zhǎng)度K，對(duì)當(dāng)前種群中每個(gè)染色體個(gè)體編碼串按照編碼位從左至右進(jìn)行分塊，并以分塊為單位進(jìn)行染色體的交叉和變異操作。
【專利說明】網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于網(wǎng)絡(luò)內(nèi)容安全領(lǐng)域，尤其涉及網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)規(guī)模的不斷擴(kuò)大，網(wǎng)絡(luò)在社會(huì)生活中扮演著越來越重要的角色，不僅成為人們聊天交友和娛樂媒介，更已經(jīng)成為人們獲取信息的主要渠道，特別是微博、微信等新型溝通形式的發(fā)展成熟，網(wǎng)絡(luò)正日益成為人們自由交流和表達(dá)意愿的重要平臺(tái)。然而，網(wǎng)絡(luò)信息傳播的便捷性和隨意性問題日益突出，網(wǎng)絡(luò)上既有大量進(jìn)步、健康、有益的信息，也有不少庸俗、灰色、暴力、虛假的言論，給網(wǎng)絡(luò)內(nèi)容安全帶來了巨大的挑戰(zhàn)。對(duì)此，世界各國(guó)政府、研究機(jī)構(gòu)紛紛投入大量資源研究對(duì)策。
[0003]在戰(zhàn)略層面，由美國(guó)國(guó)家安全局建設(shè)的“Echelon”通信監(jiān)視網(wǎng)絡(luò)，利用衛(wèi)星接收站和間諜衛(wèi)星，攔截大量電子郵件等個(gè)人信息以發(fā)現(xiàn)網(wǎng)絡(luò)上犯罪行為；英國(guó)政府出臺(tái)了一項(xiàng)“網(wǎng)絡(luò)信息調(diào)查授權(quán)法案”，授權(quán)情報(bào)機(jī)構(gòu)對(duì)通過因特網(wǎng)進(jìn)出英國(guó)的所有電子郵件以及網(wǎng)絡(luò)信息進(jìn)行檢查和監(jiān)控，以及時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)犯罪的蛛絲馬跡，除此之外，俄羅斯、以色列、韓國(guó)、日本以及其它歐美國(guó)家都針對(duì)網(wǎng)絡(luò)上傳輸信息內(nèi)容進(jìn)行實(shí)時(shí)監(jiān)控與分析。而國(guó)內(nèi)對(duì)于網(wǎng)絡(luò)內(nèi)容安全的研究方興未艾，北京圖形研究所的孫春來等針對(duì)網(wǎng)絡(luò)信息的保密要求，提出了基于內(nèi)容過濾的網(wǎng)絡(luò)內(nèi)容監(jiān)控系統(tǒng)-DFNMS ;由北大青鳥環(huán)宇公司開發(fā)的JB-searchX網(wǎng)絡(luò)監(jiān)控系統(tǒng)是一套互聯(lián)網(wǎng)信息監(jiān)控系統(tǒng)，能夠設(shè)置和監(jiān)控敏感詞并進(jìn)行報(bào)警；中軟信息安全實(shí)驗(yàn)室推出的網(wǎng)絡(luò)信息監(jiān)控分析與取證系統(tǒng)，可以根據(jù)用戶定義的監(jiān)控和分析策略對(duì)網(wǎng)絡(luò)信息文字內(nèi)容進(jìn)行分析并將信息還原、歸類。
[0004]在技術(shù)層面，基于內(nèi)容的信息過濾是網(wǎng)絡(luò)內(nèi)容安全監(jiān)控的重要手段，Stanford大學(xué)的Takl.Yen和Hector Garcia-Mina開發(fā)了基于內(nèi)容的過濾系統(tǒng)SIFT (StanfordInformation Filtering Tool),該系統(tǒng)利用向量空間模型來完成用戶信息需求與新聞資料之間的匹配，從而實(shí)現(xiàn)對(duì)因特網(wǎng)上新聞組內(nèi)容的過濾。該類技術(shù)利用關(guān)鍵詞將信息流與敏感信息模板進(jìn)行匹配計(jì)算，當(dāng)相似性高于一定閾值時(shí)，則過濾目標(biāo)信息流，因此敏感信息模板的準(zhǔn)確性直接關(guān)系到信息過濾的精度。
[0005]在敏感信息模板的構(gòu)建中，相關(guān)研究人員提出了很多方法，比較具有代表性的有:用于文本分類的支持向量機(jī)和用于垃圾郵件過濾的貝葉斯算法。然而，支持向量機(jī)的方法在訓(xùn)練過程中要求同時(shí)使用正樣本和負(fù)樣本，但是敏感信息識(shí)別應(yīng)更多關(guān)注正樣本，因此無法滿足對(duì)于敏感信息過濾的需求J.s.Su等人在對(duì)分類算法進(jìn)行研究的基礎(chǔ)上，指出貝葉斯方法雖然簡(jiǎn)單高效，但存在過分依賴先驗(yàn)值的缺點(diǎn)，同時(shí)由于敏感信息在發(fā)現(xiàn)以前很難建立相應(yīng)的概率模型，因此，貝葉斯方法不能適應(yīng)敏感信息過濾的動(dòng)態(tài)性要求。Cohen提出了利用基于RIPPER規(guī)則學(xué)習(xí)算法和關(guān)鍵詞學(xué)習(xí)規(guī)則進(jìn)行郵件分類模板生成；M.Taesup提出了一種基于隱馬爾可夫模型的通用過濾算法，將語義元素加入到過濾類別模板中；在國(guó)內(nèi)，清華大學(xué)的曾春等提出利用領(lǐng)域分類模型上的概率分布表達(dá)過濾模板，給出相似性計(jì)算和模板更新方法；洪宇等人提出了一種建立信息流二元近似關(guān)系模型，輔助信息過濾系統(tǒng)識(shí)別和屏蔽反饋中的噪聲，從而使生成的過濾類別信息模板更加準(zhǔn)確。
[0006]然而，將遺傳算法引入到敏感信息模板生成的研究很少，且主要集中在進(jìn)行特征選擇以及將遺傳算法應(yīng)用于生成模板的實(shí)際應(yīng)用，哈爾濱工程大學(xué)呂志龍?zhí)岢隽烁鶕?jù)用戶需求描述和少量正例文檔構(gòu)建初始用戶模板，并基于遺傳算法進(jìn)行用戶模板的自適應(yīng)學(xué)習(xí)，但是存在的問題是系統(tǒng)過濾初期，效果并不能令人滿意；此外，山東大學(xué)劉玉國(guó)等人提出了一種基于遺傳算法的敏感信息過濾方法，綜合利用過濾模板和文檔特性計(jì)算方法在一定程度上提高了敏感信息過濾的準(zhǔn)確度，但是存在過濾模板生成速度慢、容易陷入局部最優(yōu)的問題。

【發(fā)明內(nèi)容】

[0007]有鑒于此，本發(fā)明基于遺傳算法，提供了網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法，有效提高敏感信息模板中關(guān)鍵詞表述的準(zhǔn)確性，可以增強(qiáng)模板生成的速度。
[0008]為了解決上述技術(shù)問題，本發(fā)明是這樣實(shí)現(xiàn)的:
[0009]步驟1、選擇一類敏感信息的訓(xùn)練文本集，該訓(xùn)練文本集中包括信息文本向量和多個(gè)訓(xùn)練文本；將每個(gè)訓(xùn)練文本轉(zhuǎn)換為二進(jìn)制編碼串并且作為一個(gè)染色體個(gè)體，構(gòu)成遺傳算法初始種群；
[0010]步驟2、計(jì)算初始種群中每個(gè)染色體個(gè)體的適應(yīng)度值，并保存適應(yīng)度值最高的染色體及其適應(yīng)度值為最優(yōu)染色體BI和最優(yōu)適應(yīng)度值f (BI)；
[0011]步驟3、按照設(shè)定的分塊長(zhǎng)度K，對(duì)當(dāng)前種群中每個(gè)染色體個(gè)體的編碼串按照編碼位從左至右進(jìn)行分塊，得到η個(gè)分塊；Κ的取值范圍為3?5 ;
[0012]步驟4、以分塊為單位，依據(jù)交叉概率，對(duì)當(dāng)前種群中的染色體個(gè)體進(jìn)行交叉操作；
[0013]步驟5、以分塊為單位，依據(jù)變異概率，對(duì)交叉操作后新生成的染色體個(gè)體進(jìn)行變異操作；
[0014]步驟6、重復(fù)執(zhí)行步驟4和步驟5，直至當(dāng)前種群中最后一個(gè)染色體完成交叉操作和變異操作，得到新種群；
[0015]步驟7:計(jì)算所述染新種群中每個(gè)染色體個(gè)體的適應(yīng)度值；
[0016]步驟8:根據(jù)本輪適應(yīng)度值最高和最低的染色體，執(zhí)行遺傳算法中的精英保持策略，對(duì)所述最優(yōu)染色體BI及其最優(yōu)適應(yīng)度值f (BI)進(jìn)行替換；
[0017]步驟9:判斷算法迭代停止條件，如果停止，進(jìn)入步驟10 ;否則，以新種群作為當(dāng)前種群，返回步驟4;
[0018]步驟10:從所述信息文本向量中提取最優(yōu)染色體BI中的編碼位I對(duì)應(yīng)的關(guān)鍵詞，構(gòu)成敏感信息模板輸出。
[0019]進(jìn)一步地，在所述步驟5中，對(duì)于每個(gè)染色體個(gè)體執(zhí)行如下步驟51?步驟54的變異操作:
[0020]步驟51、令 j=l;
[0021]步驟52、取整數(shù) block=min {randi (1:K), L_j},其中，randi (1:K)表示在 I 至 K中隨機(jī)產(chǎn)生一個(gè)整數(shù)山表示每個(gè)染色體個(gè)體編碼長(zhǎng)度；j為整數(shù)，表示染色體個(gè)體的第j個(gè)編碼位；min{}表示取{}中的最小值；
[0022]步驟53、隨機(jī)產(chǎn)生一個(gè)(0，I)之間的小數(shù)rand,如果rand小于或等于變異概率，則對(duì)染色體個(gè)體的第j位到第j+block%K位執(zhí)行按位取反操作，然后將j更新為j+K ;其中，block%K表示block除以K取余數(shù)；
[0023]步驟54、循環(huán)執(zhí)行步驟52和步驟53，直至j>L，則循環(huán)停止，完成一個(gè)染色體個(gè)體變異操作。
[0024]有益效果:
[0025](I)本發(fā)明按照語義劃分編碼塊，以編碼塊為單位進(jìn)行交叉和變異操作，降低交叉和變異所帶來的語義變異過大的問題，在增強(qiáng)模板生成速度的同時(shí)，可以有效提高敏感信息模板在該類文本信息語義表達(dá)方面的準(zhǔn)確性。
[0026](2)有針對(duì)性地根據(jù)種群相似性設(shè)計(jì)交叉和變異概率，可以利用種群多樣性引導(dǎo)遺傳過程，可以增強(qiáng)模板生成的速度。
[0027](3)采用精英保持策略，可以保證遺傳過程不退化，具有提高敏感信息模板構(gòu)建的準(zhǔn)確性和生成速度的效果。
【具體實(shí)施方式】
[0028]本發(fā)明提供了網(wǎng)絡(luò)內(nèi)容安全管理中的敏感信息模板構(gòu)建方法，該方法采用遺傳算法，并按照語義劃分編碼塊，以編碼塊為單位進(jìn)行交叉和變異操作，降低交叉和變異所帶來的語義變異過大的問題，可以有效提高敏感信息模板中關(guān)鍵詞表述的準(zhǔn)確性。
[0029]下面對(duì)本發(fā)明敏感信息模板構(gòu)建方法進(jìn)行詳細(xì)描述。
[0030]步驟1:選擇一類敏感信息的訓(xùn)練文本集，該訓(xùn)練文本集中包括信息文本向量和多個(gè)訓(xùn)練文本；將每個(gè)訓(xùn)練文本轉(zhuǎn)換為二進(jìn)制編碼串并且作為一個(gè)染色體個(gè)體，構(gòu)成遺傳算法初始種群
[0031]敏感信息分類包括政治、經(jīng)濟(jì)、軍事等。每一次針對(duì)一類敏感信息進(jìn)行模板構(gòu)建。因此本步驟中,選擇一類敏感信息的訓(xùn)練文本集。
[0032]對(duì)于一類文本信息T,通過文本分詞方法可以將該類文本信息T轉(zhuǎn)化成一個(gè)由若干關(guān)鍵詞組成的信息文本向量Wl，該信息文本向量Wl包含該類文本信息T的全部關(guān)鍵字。例如，某類文本信息的信息文本向量為[我，不，是，中國(guó)，美國(guó)，人]。
[0033]文本信息T是訓(xùn)練文本的集合。每個(gè)敏感信息模板訓(xùn)練文本在經(jīng)過文本分詞和特征提取之后也可以轉(zhuǎn)換為一個(gè)由若干關(guān)鍵詞組成的向量W2，根據(jù)文本信息T的上下文采用關(guān)鍵詞權(quán)重計(jì)算方法獲得向量W2中每個(gè)關(guān)鍵詞的權(quán)重；然后依據(jù)出現(xiàn)的關(guān)鍵字與信息文本向量Wl對(duì)比，可得到訓(xùn)練文本的權(quán)重特征向量W3，該權(quán)重特征向量W3的長(zhǎng)度與信息文本向量Wl的長(zhǎng)度相同，且其元素的值就是相應(yīng)位關(guān)鍵詞的權(quán)重。為了進(jìn)行遺傳計(jì)算，將權(quán)重特征向量轉(zhuǎn)換為二進(jìn)制編碼串，該二進(jìn)制編碼串的長(zhǎng)度與權(quán)重特征向量長(zhǎng)度相同，轉(zhuǎn)換時(shí)，權(quán)重特征向量中為O的元素轉(zhuǎn)換為二進(jìn)制O,非零的元素轉(zhuǎn)換為二進(jìn)制I。
[0034]例如:一個(gè)訓(xùn)練文本為[我是中國(guó)人]，根據(jù)文本信息的上下文采用關(guān)鍵詞權(quán)重計(jì)算方法獲得訓(xùn)練文本中關(guān)鍵詞的權(quán)重分別為[0.2,0.3,0.1,0.5]，則對(duì)應(yīng)到信息文本向量[我，不，是，中國(guó)，美國(guó)，人]中，得到相應(yīng)權(quán)重特征向量為[0.2，0，0.3，0.1，0，0.5]。將權(quán)重特征向量轉(zhuǎn)換為且其二進(jìn)制編碼串可表示為[1，0，1，1，0，I]。[0035]對(duì)應(yīng)到遺傳算法中，每個(gè)訓(xùn)練文本的二進(jìn)制編碼串稱為一個(gè)染色體，訓(xùn)練文本的個(gè)數(shù)稱為染色體的群體規(guī)模，用N表示；二進(jìn)制編碼串的長(zhǎng)度表示該類文本向量中關(guān)鍵字的個(gè)數(shù)，用L表示；另外，Pc為染色體遺傳過程中的交叉概率，Pm為染色體遺傳過程中的變異概率。
[0036]將訓(xùn)練文本集中的每個(gè)訓(xùn)練文本轉(zhuǎn)化為二進(jìn)制編碼串，并且作為一個(gè)染色體個(gè)體，從而構(gòu)成遺傳算法初始種群StlHX1, X2,…XN}，其中Xi表示第i個(gè)染色體個(gè)體。
[0037]步驟2、計(jì)算初始種群Stl中每個(gè)染色體個(gè)體的適應(yīng)度值，并保存適應(yīng)度值最高的染色體及其適應(yīng)度值為最優(yōu)染色體BI和最優(yōu)適應(yīng)度值f (BI)。
[0038]本步驟中，按照如下方法計(jì)算每個(gè)染色體的適應(yīng)度值。
[0039]假設(shè)兩個(gè)兩維的特征向量為aKx” Y1) >b=(x2, y2)，則其夾角余弦計(jì)算為:
【權(quán)利要求】
1.網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法，其特征在于，該方法包括: 步驟1、選擇一類敏感信息的訓(xùn)練文本集，該訓(xùn)練文本集中包括信息文本向量和多個(gè)訓(xùn)練文本；將每個(gè)訓(xùn)練文本轉(zhuǎn)換為二進(jìn)制編碼串并且作為一個(gè)染色體個(gè)體，構(gòu)成遺傳算法初始種群；步驟2、計(jì)算初始種群中每個(gè)染色體個(gè)體的適應(yīng)度值，并保存適應(yīng)度值最高的染色體及其適應(yīng)度值為最優(yōu)染色體BI和最優(yōu)適應(yīng)度值f (BI)；步驟3、按照設(shè)定的分塊長(zhǎng)度K，對(duì)當(dāng)前種群中每個(gè)染色體個(gè)體的編碼串按照編碼位從左至右進(jìn)行分塊，得到η個(gè)分塊；Κ的取值范圍為3~5 ; 步驟4、以分塊為單位，依據(jù)交叉概率，對(duì)當(dāng)前種群中的染色體個(gè)體進(jìn)行交叉操作；步驟5、以分塊為單位，依據(jù)變異概率，對(duì)交叉操作后新生成的染色體個(gè)體進(jìn)行變異操作；步驟6、重復(fù)執(zhí)行步驟4和步驟5，直至當(dāng)前種群中最后一個(gè)染色體完成交叉操作和變異操作，得到新種群；步驟7:計(jì)算所述染新種群中每個(gè)染色體個(gè)體的適應(yīng)度值；步驟8:根據(jù)本輪適應(yīng)度值最高和最低的染色體，執(zhí)行遺傳算法中的精英保持策略，對(duì)所述最優(yōu)染色體BI及其最優(yōu)適應(yīng)度值f (BI)進(jìn)行替換；步驟9:判斷算法迭代停止條件，如果停止，進(jìn)入步驟10 ;否則，以新種群作為當(dāng)前種群，返回步驟4; 步驟10:從所述信息文本向量中提取最優(yōu)染色體BI中的編碼位I對(duì)應(yīng)的關(guān)鍵詞，構(gòu)成敏感信息模板輸出。
2.如權(quán)利要求1所述的方法，其特征在于，所述步驟5中，對(duì)于每個(gè)染色體個(gè)體執(zhí)行如下步驟51~步驟54的變異操作: 步驟51、令j=l ；
步驟 52、取整數(shù) block=min {randi (1:K), L_j},其中，randi (1:K)表示在 I 至 K 中隨機(jī)產(chǎn)生一個(gè)整數(shù)山表示每個(gè)染色體個(gè)體編碼長(zhǎng)度；j為整數(shù)，表示染色體個(gè)體的第j個(gè)編碼位；min{}表示取{}中的最小值；步驟53、隨機(jī)產(chǎn)生一個(gè)(0，I)之間的小數(shù)rand,如果rand小于或等于變異概率,則對(duì)染色體個(gè)體的第j位到第j+block%K位執(zhí)行按位取反操作，然后將j更新為j+K ;其中，block%K表示block除以K取余數(shù)；步驟54、循環(huán)執(zhí)行步驟52和步驟53，直至j>L，則循環(huán)停止，完成一個(gè)染色體個(gè)體變異操作。
3.如權(quán)利要求1或2所述的方法，其特征在于，所述步驟4具體為: 隨機(jī)產(chǎn)生一個(gè)長(zhǎng)度為η的二進(jìn)制串binary, binary [k]表示二進(jìn)制串binary的第k位；兩個(gè)待交叉操作的染色體個(gè)體表示為Xi和XXi+1，則依據(jù)如下方式進(jìn)行交叉操作產(chǎn)生新的染色體個(gè)體XXi和XXi+1: 令k遍歷I~η的整數(shù)；如果binary [k]為I，則XXi的第k個(gè)分塊選取Xi中的第k個(gè)分塊，XXi+1的第k個(gè)分塊選取Xi+1中的第k個(gè)分塊；如果binary [k]為O,則XXi的第k個(gè)分塊選取Xi+1中的第k個(gè)分塊，XXi+1的第k個(gè)分塊選取Xi中的第k個(gè)分塊。
4.如權(quán)利要求1或2所述的方法，其特征在于，根據(jù)種群相似性確定交叉概率和變異概率:若種群中染色體個(gè)體第I位為O的碼位個(gè)數(shù)為M1,C1,為I的碼位個(gè)數(shù)為Mu，定義染色體個(gè)體第I位的相似性為:^t1=Iiiax (Mm, Mu)/N, max O表示取O中的最大值，N表示種群中的染色體個(gè)體規(guī)模，則種群的相似度
5.如權(quán)利要求4所述的方法，其特征在于，M=10。
【文檔編號(hào)】H04L29/06GK103793747SQ201410043993
【公開日】2014年5月14日申請(qǐng)日期:2014年1月29日優(yōu)先權(quán)日:2014年1月29日
【發(fā)明者】高巖, 王文彬, 李敏業(yè), 王小康, 王秋實(shí), 陳江寧, 李杰, 杜光祖申請(qǐng)人:中國(guó)人民解放軍61660部隊(duì)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：高巖;王文彬;李敏業(yè);王小康;王秋實(shí);陳江寧;李杰;杜光祖
技術(shù)所有人：中國(guó)人民解放軍61660部隊(duì)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、王老師：1.數(shù)字信號(hào)處理 2.傳感器技術(shù)及應(yīng)用 3.機(jī)電一體化產(chǎn)品開發(fā) 4.機(jī)械工程測(cè)試技術(shù) 5.逆向工程技術(shù)研究
2、王老師：1.機(jī)器人 2.嵌入式控制系統(tǒng)開發(fā)
3、孫老師：1.振動(dòng)信號(hào)時(shí)頻分析理論與測(cè)試系統(tǒng)設(shè)計(jì) 2.汽車檢測(cè)系統(tǒng)設(shè)計(jì) 3.汽車電子控制系統(tǒng)設(shè)計(jì)
4、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
5、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

網(wǎng)絡(luò)內(nèi)容安全管理中一種敏感信息模板構(gòu)建方法