亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別方法

文檔序號(hào):6336427閱讀:328來源:國(guó)知局
專利名稱:一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別方法
技術(shù)領(lǐng)域
本發(fā)明涉 及一種敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別的方法。主要用于解決企業(yè)中敏感數(shù)據(jù)的動(dòng) 態(tài)準(zhǔn)確的識(shí)別,為敏感數(shù)據(jù)泄漏保護(hù)提供支撐。屬于信息安全軟件領(lǐng)域。
背景技術(shù)
數(shù)據(jù)的保密性、完整性和可用性關(guān)系到國(guó)家的安全、企業(yè)的核心競(jìng)爭(zhēng)力、個(gè)人 的隱私,數(shù)據(jù)安全,作為信息安全領(lǐng)域中的重要課題,正越來越受到關(guān)注。數(shù)據(jù)安全涵蓋了防泄露、防丟失、防濫用三個(gè)方面,其中,數(shù)據(jù)防泄漏是當(dāng)前 尤為突出的熱點(diǎn)問題。電子郵件、即時(shí)通訊、可移動(dòng)存儲(chǔ)介質(zhì)的廣泛應(yīng)用,在提升人們 工作效率的同時(shí),也不可避免地?cái)U(kuò)展了數(shù)據(jù)泄漏的通道,尤其是主動(dòng)泄密行為,其泄漏 途徑更是紛繁復(fù)雜。面對(duì)這樣的嚴(yán)峻形勢(shì),國(guó)內(nèi)外安全廠商紛紛推出自己的解決方案, 目標(biāo)就是確保數(shù)據(jù)的安全,防止數(shù)據(jù)被有意和無意的非法竊取和丟失。敏感數(shù)據(jù)泄漏事關(guān)國(guó)家安全和社會(huì)穩(wěn)定,其防泄漏產(chǎn)品是信息安全的基礎(chǔ)性產(chǎn) 品,無論從國(guó)家安全的高度來看,還是從經(jīng)濟(jì)發(fā)展的角度來看,敏感數(shù)據(jù)防泄漏都變得 日益重要。敏感數(shù)據(jù)防泄漏的關(guān)鍵技術(shù)主要包括敏感數(shù)據(jù)識(shí)別、敏感數(shù)據(jù)標(biāo)記、敏感數(shù) 據(jù)阻斷與銷毀和策略管理等,其中敏感數(shù)據(jù)識(shí)別是敏感數(shù)據(jù)防泄漏解決方案中非常關(guān)鍵 的一環(huán),只有準(zhǔn)確地識(shí)別出了敏感數(shù)據(jù)才能對(duì)這些數(shù)據(jù)進(jìn)行有效保護(hù)。因此研究一種能 夠準(zhǔn)確并高效地識(shí)別敏感數(shù)據(jù)的方法能夠更好地提高敏感數(shù)據(jù)防泄漏方案的能力,具有 重要的意義。敏感數(shù)據(jù)識(shí)別主要考慮如下幾方面的問題(1)敏感數(shù)據(jù)和待識(shí)別文檔的預(yù)處 理;(2)敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別模型的建立。對(duì)于敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別而言,首先就是要對(duì)敏 感數(shù)據(jù)和待識(shí)別文檔進(jìn)行分詞、量化和歸一化處理,得到敏感數(shù)據(jù)和待識(shí)別文檔對(duì)應(yīng)的 特征詞-文檔矩陣,然后對(duì)特征詞_文檔矩陣中進(jìn)行降維處理,再對(duì)降維后的敏感數(shù)據(jù)文 檔進(jìn)行訓(xùn)練,得到敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別模型。最后將待識(shí)別的文檔輸入到敏感數(shù)據(jù)動(dòng)態(tài)識(shí) 別模型中進(jìn)行動(dòng)態(tài)識(shí)別。

發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)識(shí)別方法,來解決數(shù)據(jù)防泄 漏方案中敏感數(shù)據(jù)的識(shí)別問題,通過使用本方法可以實(shí)現(xiàn)對(duì)企業(yè)數(shù)據(jù)中心中存儲(chǔ)的敏感 數(shù)據(jù)的自動(dòng)、準(zhǔn)確和高效的識(shí)別。為了實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明采用的是一種數(shù)據(jù)挖掘的方法,通過對(duì)已知的 敏感數(shù)據(jù)文檔向量化和特征提取,組成敏感數(shù)據(jù)訓(xùn)練樣本集,使用BP神經(jīng)網(wǎng)絡(luò)來訓(xùn)練學(xué) 習(xí)出一個(gè)敏感數(shù)據(jù)識(shí)別模型,最終使用該BP神經(jīng)網(wǎng)絡(luò)模型來識(shí)別敏感數(shù)據(jù)。該模型還可 以在使用過程中通過不斷地學(xué)習(xí)來提高識(shí)別的準(zhǔn)確度。一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別方法,包括以下步驟為
步驟1:流程開始輸入敏感數(shù)據(jù)文檔和待識(shí)別的文檔這兩類文檔,前者是用于 敏感數(shù)據(jù)識(shí)別模型的訓(xùn)練數(shù)據(jù),后者由敏感數(shù)據(jù)識(shí)別模型進(jìn)行運(yùn)算得出是否為敏感數(shù)據(jù) 文檔;步驟2:對(duì)文檔進(jìn)行分詞處理,使用中文電子詞典將文檔中的漢字串與詞典中 的字符串相匹配,匹配采用逆向最大匹配的方法,從右往左對(duì)文檔的漢字串進(jìn)行匹配直 到找到最長(zhǎng)的匹配,將最后匹配成功的漢字串作為文檔的特征詞匯;步驟3 對(duì)分詞處理后文檔中的特征詞匯進(jìn)行統(tǒng)計(jì)運(yùn)算,生成特征詞_文檔矩 陣,記錄分詞后的特征詞在文檔中出現(xiàn)的頻率;步驟4:采用向量空間模型對(duì)特征詞_文檔矩陣進(jìn)行向量化處理,構(gòu)造出文本特 征向量;步驟5 計(jì)算文本特征向量的協(xié)方差矩陣和該協(xié)方差矩陣的特征值及特征向 量;步驟6:根據(jù)主成分分析法的定義計(jì)算出各特征值的貢獻(xiàn)率及累積貢獻(xiàn)率,并 根據(jù)累積貢獻(xiàn)率選擇對(duì)應(yīng)的特征值計(jì)算出主成分,同時(shí)計(jì)算出文檔特征向量空間的主成 分后,確定各文檔特征分量在各主成分在上的載荷,最后得到降維后的主成分分量來代 替原來特征向量空間;步驟7 根據(jù)步驟1中的兩類文檔來選擇是否對(duì)敏感數(shù)據(jù)識(shí)別模型進(jìn)行訓(xùn)練;如 果是則轉(zhuǎn)到步驟8,否則轉(zhuǎn)到步驟13 ;步驟8:根據(jù)預(yù)處理后的敏感數(shù)據(jù)訓(xùn)練樣本集參數(shù),初始化BP神經(jīng)網(wǎng)絡(luò),包括 BP神經(jīng)網(wǎng)絡(luò)的輸入層、隱層和輸出層神經(jīng)元的個(gè)數(shù)及各神經(jīng)元的權(quán)值和閾值;步驟9 由BP神經(jīng)網(wǎng)絡(luò)來對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行運(yùn)算;步驟10 計(jì)算BP神經(jīng)網(wǎng)絡(luò)的輸出向量和預(yù)先定義文檔敏感級(jí)別向量之間的誤 差,如果誤差超過閾值,則轉(zhuǎn)到步驟11,否則轉(zhuǎn)到步驟14;步驟11 調(diào)整BP神經(jīng)網(wǎng)絡(luò)隱層中神經(jīng)元個(gè)數(shù)及其權(quán)值,轉(zhuǎn)到步驟9 ;步驟12 輸出一個(gè)BP神經(jīng)網(wǎng)絡(luò)敏感數(shù)據(jù)識(shí)別模型;步驟13 根據(jù)步驟12得到的敏感數(shù)據(jù)識(shí)別模型,對(duì)待識(shí)別的文檔進(jìn) 行動(dòng)態(tài)識(shí) 另IJ,并輸出動(dòng)態(tài)識(shí)別結(jié)果;步驟14 敏感數(shù)據(jù)識(shí)別結(jié)束。本發(fā)明的有益效果在于提出了一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別方法,主 要用于解決數(shù)據(jù)防泄漏中敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別的問題,通過使用本發(fā)明中提出的方法可以 快速識(shí)別出當(dāng)前用戶操作的數(shù)據(jù)是否為敏感數(shù)據(jù),便于結(jié)合策略管理來阻斷敏感數(shù)據(jù)的 泄漏。


圖1是敏感數(shù)據(jù)識(shí)別組成結(jié)構(gòu)圖。主要包括敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別器、敏感數(shù)據(jù) 識(shí)別操作核心、文本預(yù)處理控制器和敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別控制器。圖2是參考體系結(jié)構(gòu)示意圖。表示本發(fā)明方法包括的組件。圖3是本發(fā)明方法的流程示意圖。
具體實(shí)施例方式體系結(jié)構(gòu)圖1給出了基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)識(shí)別方法的組成結(jié)構(gòu)圖,它主要包括四個(gè)部分敏感數(shù)據(jù)識(shí)別模型訓(xùn)練器、敏感數(shù)據(jù)識(shí)別操作核心、文本預(yù)處理控制器和敏感數(shù) 據(jù)動(dòng)態(tài)識(shí)別控制器。圖中的敏感數(shù)據(jù)操作核心包括了在文檔被預(yù)處理過后對(duì)文檔集中的 敏感數(shù)據(jù)進(jìn)行識(shí)別的所有具體操作。本發(fā)明增加的其它三個(gè)部分是用來保證使用數(shù)據(jù)挖 掘的方法進(jìn)行敏感數(shù)據(jù)識(shí)別的輔助模塊,能夠保證敏感數(shù)據(jù)識(shí)別更加順利有效地進(jìn)行。下面給出這四個(gè)部分的具體介紹敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別器在該發(fā)明中進(jìn)行敏感數(shù)據(jù)識(shí)別主要是使用BP神經(jīng)網(wǎng)絡(luò)作 為識(shí)別敏感數(shù)據(jù)的模型,通過該模型來完成對(duì)敏感數(shù)據(jù)的動(dòng)態(tài)識(shí)別,本發(fā)明中由敏感數(shù) 據(jù)識(shí)別器來完成模型的建立、訓(xùn)練以及使用模型對(duì)敏感數(shù)據(jù)進(jìn)行識(shí)別。敏感數(shù)據(jù)識(shí)別操作核心該部分是在其他三個(gè)部分的輔助下完成敏感數(shù)據(jù)識(shí)別 具體操作的核心部分,通過將預(yù)處理過的文檔以多個(gè)分向量的方式作為一個(gè)識(shí)別模型的 輸入,由該模型來計(jì)算文檔的敏感程度作為模型的輸出從而達(dá)到動(dòng)態(tài)識(shí)別敏感數(shù)據(jù)的效果。文本預(yù)處理控制器由文本分詞器提取出來的各敏感關(guān)鍵詞的頻度并不能直接 作為敏感數(shù)據(jù)識(shí)別操作核心中敏感數(shù)據(jù)識(shí)別模型的輸入,需要將其量化,使用向量空間 模型表示出來,并且為了消除各文檔詞匯集合中詞匯量不同所造成的敏感詞匯頻度統(tǒng)計(jì) 上的差異還需要由文本向量處理器來對(duì)向量空間模型中各向量進(jìn)行標(biāo)準(zhǔn)化處理。敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別控制器在該發(fā)明中,需要通過BP神經(jīng)網(wǎng)絡(luò)的方法來得到一 個(gè)敏感數(shù)據(jù)的識(shí)別模型。該敏感數(shù)據(jù)識(shí)別模型使用敏感數(shù)據(jù)訓(xùn)練樣本集通過BP神經(jīng)網(wǎng)絡(luò) 訓(xùn)練得到,同時(shí)將待識(shí)別的文檔輸入到該模型中得到相應(yīng)的敏感數(shù)據(jù)類型,故需要一個(gè) 控制器來區(qū)分是訓(xùn)練用的已知包含敏感數(shù)據(jù)的文檔還是待識(shí)別的文檔。本專利中對(duì)敏感 數(shù)據(jù)動(dòng)態(tài)識(shí)別控制的具體實(shí)現(xiàn)不做任何限制。方法流程1、文本預(yù)處理控制器文本屬于非結(jié)構(gòu)化的數(shù)據(jù),對(duì)可能包含敏感數(shù)據(jù)的文檔進(jìn)行識(shí)別時(shí)首先需要對(duì) 文檔進(jìn)行預(yù)處理將其轉(zhuǎn)化為可處理的結(jié)構(gòu)化形式,它把從文本中抽取出的特征詞進(jìn)行量 化來表示文本信息,將文檔從無結(jié)構(gòu)的原始文本轉(zhuǎn)化為結(jié)構(gòu)化的計(jì)算機(jī)可識(shí)別和處理的 信息,這樣就可以由計(jì)算機(jī)挖掘和識(shí)別文本中的一些有用信息。目前對(duì)文本的預(yù)處理需要考慮如下的幾個(gè)問題1)有具體的分詞方法,對(duì)敏感 數(shù)據(jù)進(jìn)行分詞處理,將文檔中有獨(dú)立含義的詞匯統(tǒng)計(jì)出來;2)對(duì)分詞處理后的詞匯統(tǒng)計(jì) 信息這種離散值進(jìn)行處理,用結(jié)構(gòu)化的形式表示;3)對(duì)從不同結(jié)構(gòu)的文本中統(tǒng)計(jì)出來的 數(shù)據(jù)要能夠屏蔽其差異;4)對(duì)統(tǒng)計(jì)出來的初始結(jié)構(gòu)化信息表示要能夠盡量消除其中無用 數(shù)據(jù)的干擾。針對(duì)上述問題,在本發(fā)明中,我們對(duì)分詞過后的文本采用詞頻統(tǒng)計(jì)的方法來得 到文本中詞匯的統(tǒng)計(jì)信息,對(duì)這樣一種離散的信息我們采用向量空間模型來得到文本的 向量描述。在選擇特征詞匯時(shí),本發(fā)明主要考慮如下的幾個(gè)原則1)特征項(xiàng)要能夠確實(shí)標(biāo)識(shí)文本內(nèi)容;2)特征項(xiàng)具有將目標(biāo)文本與其他文本相區(qū)分的能力;3)特征項(xiàng)的個(gè)數(shù)不能 太多;4)特征項(xiàng)分離要比較容易實(shí)現(xiàn)。一般在中文文本中可以采用字、詞或短語作為表 示文本的特征項(xiàng)。相比較而言,詞比字具有更強(qiáng)的表達(dá)能力,而詞和短語相比,詞的切 分難度比短語的切分難度小得多。因此,本發(fā)明中采用詞作為文本的特征項(xiàng),稱作為特 征詞,用Tk表示。特征詞的選取方面我們主要采用對(duì)文本進(jìn)行分詞的方法,使用一個(gè)中文電子詞 典與文檔中的漢字串匹配,將匹配得到的文本中的漢字串作為文本的特征詞。匹配過程 采用逆向最大匹配算法,該算法從右往左對(duì)文本中的漢字串進(jìn)行最大匹配,匹配成功則 將該漢字串提取出來作為文本的一個(gè)特征詞,若匹配不成功則將文本中用于匹配的漢字 串最前的一個(gè)漢字去掉,剩下的漢字串作為新的匹配字段與中文電子詞典中的字符串進(jìn) 行匹配,重復(fù)上述的過程直到提取出所有的特征詞。對(duì)預(yù)處理的文本用DJj = 1,2,…,η)來表示,經(jīng)過分詞處理得到一個(gè)詞-文 檔矩陣,矩陣中的每一個(gè)元素表示詞Tk在文檔D”中出現(xiàn)的頻率。如表1所示表1詞在文檔中出現(xiàn)的頻率
權(quán)利要求
1. 一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別方法,其特征就在于,包括以下步驟為 步驟1:流程開始輸入敏感數(shù)據(jù)文檔和待識(shí)別的文檔這兩類文檔,前者是用于敏感 數(shù)據(jù)識(shí)別模型的訓(xùn)練數(shù)據(jù),后者由敏感數(shù)據(jù)識(shí)別模型進(jìn)行運(yùn)算得出是否為敏感數(shù)據(jù)文 檔;步驟2:對(duì)文檔進(jìn)行分詞處理,使用中文電子詞典將文檔中的漢字串與詞典中的字 符串相匹配,匹配采用逆向最大匹配的方法,從右往左對(duì)文檔的漢字串進(jìn)行匹配直到找 到最長(zhǎng)的匹配,將最后匹配成功的漢字串作為文檔的特征詞匯;步驟3:對(duì)分詞處理后文檔中的特征詞匯進(jìn)行統(tǒng)計(jì)運(yùn)算,生成特征詞-文檔矩陣,記 錄分詞后的特征詞在文檔中出現(xiàn)的頻率;步驟4:采用向量空間模型對(duì)特征詞_文檔矩陣進(jìn)行向量化處理,構(gòu)造出文本特征向量;步驟5 計(jì)算文本特征向量的協(xié)方差矩陣和該協(xié)方差矩陣的特征值及特征向量; 步驟6:根據(jù)主成分分析法的定義計(jì)算出各特征值的貢獻(xiàn)率及累積貢獻(xiàn)率,并根據(jù) 累積貢獻(xiàn)率選擇對(duì)應(yīng)的特征值計(jì)算出主成分,同時(shí)計(jì)算出文檔特征向量空間的主成分后, 確定各文檔特征分量在各主成分在上的載荷,最后得到降維后的主成分分量來代替原來 特征向量空間;步驟7:根據(jù)步驟1中的兩類文檔來選擇是否對(duì)敏感數(shù)據(jù)識(shí)別模型進(jìn)行訓(xùn)練;如果 是則轉(zhuǎn)到步驟8,否則轉(zhuǎn)到步驟13 ;步驟8:根據(jù)預(yù)處理后的敏感數(shù)據(jù)訓(xùn)練樣本集參數(shù),初始化BP神經(jīng)網(wǎng)絡(luò),包括BP神 經(jīng)網(wǎng)絡(luò)的輸入層、隱層和輸出層神經(jīng)元的個(gè)數(shù)及各神經(jīng)元的權(quán)值和閾值; 步驟9 由BP神經(jīng)網(wǎng)絡(luò)來對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行運(yùn)算;步驟10:計(jì)算BP神經(jīng)網(wǎng)絡(luò)的輸出向量和預(yù)先定義文檔敏感級(jí)別向量之間的誤差,如 果誤差超過閾值,則轉(zhuǎn)到步驟11,否則轉(zhuǎn)到步驟14;步驟11:調(diào)整BP神經(jīng)網(wǎng)絡(luò)隱層中神經(jīng)元個(gè)數(shù)及其權(quán)值,轉(zhuǎn)到步驟9; 步驟12:輸出一個(gè)BP神經(jīng)網(wǎng)絡(luò)敏感數(shù)據(jù)識(shí)別模型;步驟13:根據(jù)步驟12得到的敏感數(shù)據(jù)識(shí)別模型,對(duì)待識(shí)別的文檔進(jìn)行動(dòng)態(tài)識(shí)別,并 輸出動(dòng)態(tài)識(shí)別結(jié)果;步驟14:敏感數(shù)據(jù)識(shí)別結(jié)束。
全文摘要
一種基于數(shù)據(jù)挖掘的敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別方法。當(dāng)各種數(shù)據(jù)需要進(jìn)行網(wǎng)絡(luò)傳輸、終端處理時(shí),需要判斷當(dāng)前待傳輸或處理的業(yè)務(wù)數(shù)據(jù)是否敏感,根據(jù)敏感程度結(jié)合管理策略來決定業(yè)務(wù)數(shù)據(jù)是否可以進(jìn)行網(wǎng)絡(luò)傳輸?shù)雀鞣N操作。通過對(duì)現(xiàn)有的敏感數(shù)據(jù)文檔進(jìn)行分詞、量化和歸一化處理,得到該敏感數(shù)據(jù)文檔的特征詞-文檔矩陣,利用主成分分析法對(duì)特征詞-文檔矩陣進(jìn)行降維,得到降維后的特征詞-文檔矩陣,再基于BP神經(jīng)網(wǎng)絡(luò)對(duì)降維后的特征詞-文檔矩陣進(jìn)行分類建模,得到敏感數(shù)據(jù)識(shí)別模型,對(duì)待識(shí)別的文檔進(jìn)行分詞、量化、歸一化和降維處理后代入敏感數(shù)據(jù)識(shí)別模型中進(jìn)行識(shí)別計(jì)算,判斷出待識(shí)別的文檔是否為敏感數(shù)據(jù)。用于解決數(shù)據(jù)防泄漏中敏感數(shù)據(jù)動(dòng)態(tài)識(shí)別的問題。
文檔編號(hào)G06F21/00GK102012985SQ20101055265
公開日2011年4月13日 申請(qǐng)日期2010年11月19日 優(yōu)先權(quán)日2010年11月19日
發(fā)明者張濤, 林為民, 楚杰, 秦超, 費(fèi)稼軒, 鄧松, 邵志鵬, 陳亞東 申請(qǐng)人:國(guó)網(wǎng)電力科學(xué)研究院
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1