機(jī)密信息的檢測的制作方法
【專利說明】機(jī)密信息的檢測
[0001]本申請為以下申請的分案申請:
[0002]申請日:2009年10月1日
[0003]申請?zhí)?200980139094.8
[0004]發(fā)明名稱:機(jī)密信息的檢測
技術(shù)領(lǐng)域
[0005]本申請涉及機(jī)密信息的檢測。
【背景技術(shù)】
[0006]在一些數(shù)據(jù)處理環(huán)境中,機(jī)密信息有可能出現(xiàn)在沒有被充分保護(hù)的數(shù)據(jù)存儲設(shè)備中存儲的電子文件中。在不安全文件中存在這種機(jī)密信息可能危及其所關(guān)聯(lián)的個體的安全性和私密性,并使操作該不安全數(shù)據(jù)存儲系統(tǒng)的實體負(fù)有責(zé)任。機(jī)密信息可以包括敏感的財務(wù)數(shù)據(jù)或者可用于識別具體個體并且將他們與文件的內(nèi)容相關(guān)的任何信息。機(jī)密信息的一些例子包括:姓名、地址、電話號碼、社保號碼以及信用卡號碼。
【發(fā)明內(nèi)容】
[0007]在一個一般方面,一種用于讀取存儲的數(shù)據(jù)的方法包括:識別所述存儲的數(shù)據(jù)內(nèi)的字串,其中每個字串包括連續(xù)字節(jié)序列,所述字節(jié)全部具有在可能值的預(yù)定子集中的值;對于至少一些字串中的每一個,確定所述字串是否包括表示一個或多個格式匹配的字節(jié),其中格式匹配包括匹配與機(jī)密信息關(guān)聯(lián)的預(yù)定格式的值的集合;對于每個格式匹配,利用與所述機(jī)密信息關(guān)聯(lián)的規(guī)則集合測試匹配預(yù)定格式的值,以確定所述格式匹配是否是包括一個或多個無效值的無效格式匹配;以及至少部分地基于無效格式匹配的計數(shù)對其它格式匹配的計數(shù)的比值,計算所述存儲的數(shù)據(jù)的得分。
[0008]在另一個一般方面,一種用于檢測機(jī)密信息的系統(tǒng)包括:數(shù)據(jù)存儲設(shè)備;以及連接到所述數(shù)據(jù)存儲設(shè)備的運行時環(huán)境。該運行時環(huán)境被配置為:從所述數(shù)據(jù)存儲設(shè)備讀取存儲的數(shù)據(jù);識別所述存儲的數(shù)據(jù)內(nèi)的字串,其中每個字串包括連續(xù)字節(jié)序列,所述字節(jié)全部具有在可能值的預(yù)定子集中的值;對于至少一些字串中的每一個,確定所述字串是否包括表示一個或多個格式匹配的字節(jié),其中格式匹配包括匹配與機(jī)密信息關(guān)聯(lián)的預(yù)定格式的值的集合;對于每個格式匹配,利用與所述機(jī)密信息關(guān)聯(lián)的規(guī)則集合測試和匹配預(yù)定格式的值,以確定所述格式匹配是否是包括一個或多個無效值的無效格式匹配;以及至少部分地基于無效格式匹配的計數(shù)對其它格式匹配的計數(shù)的比值,計算所述存儲的數(shù)據(jù)的得分。
[0009]在又一個一般方面,一種計算機(jī)可讀介質(zhì)存儲用于檢測機(jī)密信息的計算機(jī)程序。該計算機(jī)程序包括導(dǎo)致計算機(jī)執(zhí)行以下步驟的指令:讀取存儲的數(shù)據(jù);識別所述存儲的數(shù)據(jù)內(nèi)的字串,其中每個字串包括連續(xù)字節(jié)序列,所述字節(jié)全部具有在可能值的預(yù)定子集中的值;對于至少一些字串中的每一個,確定所述字串是否包括表示一個或多個格式匹配的字節(jié),其中格式匹配包括匹配與機(jī)密信息關(guān)聯(lián)的預(yù)定格式的值的集合;對于每個格式匹配,利用與所述機(jī)密信息關(guān)聯(lián)的規(guī)則集合測試匹配預(yù)定格式的值,以確定所述格式匹配是否是包括一個或多個無效值的無效格式匹配;以及至少部分地基于無效格式匹配的計數(shù)對其它格式匹配的計數(shù)的比值,計算所述存儲的數(shù)據(jù)的得分。
[0010]這些方面可以包括一個或多個下列特征:
[0011]所述機(jī)密信息可以是信用卡號碼。當(dāng)在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于在信用卡號碼的標(biāo)準(zhǔn)格式中的數(shù)字?jǐn)?shù)目時,確定出現(xiàn)格式匹配。與信用卡號碼關(guān)聯(lián)的規(guī)則可以包括有效發(fā)行商識別號碼的列表的規(guī)范。與信用卡號碼關(guān)聯(lián)的規(guī)則可以包括校驗和算法的規(guī)范。
[0012]所述機(jī)密信息可以是社保號碼。當(dāng)在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于9時,確定出現(xiàn)格式匹配。與社保號碼關(guān)聯(lián)的規(guī)則可以包括對于由社保號碼的前五個數(shù)字表示的號碼的值的有效子集的規(guī)范。
[0013]所述機(jī)密信息可以是電話號碼。當(dāng)在所述字串中檢測到的具有表示數(shù)字的值的字節(jié)數(shù)目等于10、或者在所述字串中檢測到的數(shù)字?jǐn)?shù)目等于第一個數(shù)字為“1”的11個數(shù)字時,確定出現(xiàn)格式匹配。與電話號碼關(guān)聯(lián)的規(guī)則可以包括有效區(qū)號的列表的規(guī)范。與電話號碼關(guān)聯(lián)的規(guī)則可以包括在區(qū)號之后的第一個數(shù)字必須不是1或0的規(guī)范。
[0014]所述機(jī)密信息可以是郵政編碼。當(dāng)檢測到如下字節(jié)序列時確定出現(xiàn)格式匹配:由具有表示數(shù)字的值的五個字節(jié)組成、或者由具有表示九個數(shù)字且在第五個數(shù)字與第六個數(shù)字之間有連字號的值的十個字節(jié)組成。與電話號碼關(guān)聯(lián)的規(guī)則可以包括有效的五個數(shù)字郵政編碼的列表的規(guī)范。
[0015]對于每個字串,確定該字串是否包括一個或多個匹配姓名的詞,其中,詞是字串內(nèi)的連續(xù)字節(jié)序列,所述字節(jié)全部具有表示字母數(shù)字字符的值,以及姓名是來自通常用于指代個別個人的序列的列表的字符序列;以及至少部分地基于存儲的數(shù)據(jù)中檢測到的姓名的計數(shù),計算存儲的數(shù)據(jù)的得分。所述姓名列表可以被分成兩個子集:姓和名。
[0016]對于每個字串,確定該字串是否包括一個或多個全名,其中全名是字符序列,該字符列表如下組成:來自姓列表姓后面跟著空格符、并且后面跟著來自名列表的名;以及至少部分地基于檢測到的全名的計數(shù),計算存儲的數(shù)據(jù)的得分。
[0017]列表中的姓名可以各自具有與它們關(guān)聯(lián)的頻率計數(shù),并且對于出現(xiàn)在存儲的數(shù)據(jù)中的姓名計算平均頻率計數(shù),以及可以至少部分地基于所述平均頻率計數(shù)計算存儲的數(shù)據(jù)的得分。如果存儲的數(shù)據(jù)中檢測到的姓名數(shù)目小于閾值,則可以忽略平均頻率計數(shù)。
[0018]對于每個字串,對由兩個字母組成的詞的數(shù)目計數(shù),其中,詞是字串內(nèi)的連續(xù)字節(jié)序列,所述字節(jié)全部具有表示字母數(shù)字字符的值。對于每個兩個字母的詞,確定該兩個字母的詞是否是有效的州縮寫;以及至少部分地基于有效的州縮寫的計數(shù)以及兩個字母的詞的計數(shù),計算存儲的數(shù)據(jù)的得分。
[0019]對于每個字串,確定該字串是否包括一個或多個州/郵編對,其中,州/郵編對是如下組成的字符列表:州縮寫后面跟著空格符,所述空格符后面依次跟著郵政編碼;以及至少部分地基于檢測到的州/郵編對的計數(shù),計算存儲的數(shù)據(jù)的得分。
[0020]檢測在電存儲的文件系統(tǒng)中哪些文件最近被更新過;以及在最近被更新過的文件中的每一個中搜索機(jī)密信息。
[0021]定義字串的字節(jié)值的子集可以表示字母數(shù)字字符、括號、連字號以及空格符。
[0022]將所述得分與閾值相比較;以及如果該得分超過所述閾值,則將該存儲的數(shù)據(jù)標(biāo)記為可能包含機(jī)密信息。
[0023]這些方面可以包括一個或多個下列好處:
[0024]使得對機(jī)密信息的搜索自動化。有效檢測機(jī)密信息以實現(xiàn)并增強(qiáng)安全性和私密性保護(hù)手段。
[0025]本申請的其它特征和好處將從以下說明以及從權(quán)利要求中變得清楚。
【附圖說明】
[0026]圖1是用于檢測存儲的數(shù)據(jù)中的機(jī)密信息的系統(tǒng)的框圖。
[0027]圖2是用于檢測存儲的數(shù)據(jù)中的機(jī)密信息的軟件的框圖。
[0028]圖3是用于計算表示文件包含機(jī)密信息的可能性的得分的過程的流程圖。
【具體實施方式】
[0029]期望能夠在較大數(shù)據(jù)集中檢測的機(jī)密數(shù)據(jù)的出現(xiàn),并且具體來說,期望在搜索機(jī)密數(shù)據(jù)的過程中檢測機(jī)密信息而無需人工代理審閱大部分的數(shù)據(jù)。用于檢測機(jī)密信息的系統(tǒng)能夠自動檢測可能的機(jī)密數(shù)據(jù),這些可能的機(jī)密數(shù)據(jù)之后能夠被人工代理整體或者部分地審閱。在一些實施例中,機(jī)密數(shù)據(jù)的人工審閱可能局限于明確的工作人員在極少時間進(jìn)行或者被完全避免,由此降低或者消除由機(jī)密信息的誤處理所引起的私密性侵害。
[0030]圖1描繪了用于檢測電子存儲的數(shù)據(jù)中的機(jī)密信息的示范性系統(tǒng)。感興趣的數(shù)據(jù)可以存儲在一個或多個數(shù)據(jù)存儲設(shè)備中,諸如實現(xiàn)在平行文件系統(tǒng)的多個設(shè)備上的平行“多文件”110(例如,如通過引用并入此處的美國申請5,897,638中所述)或者數(shù)據(jù)庫服務(wù)器120中。機(jī)密信息檢測(CID)系統(tǒng)100使用運行在運行時環(huán)境150中的軟件來分析數(shù)據(jù)存儲設(shè)備中存儲的數(shù)據(jù)。分析的結(jié)果,包括存儲的數(shù)據(jù)的每個單元一一諸如文件一一的得分、以及可能指示存儲的數(shù)據(jù)的哪些單元可能包含機(jī)密信息的標(biāo)記,可以被寫入同一個110、120或者其它數(shù)據(jù)存儲設(shè)備160、170。在一些情況下,可以由操作者使用用戶接口 180配置和控制CID系統(tǒng)的運行以及審閱結(jié)果。
[0031]可以在合適的操作系統(tǒng)--諸如UNIX操作系統(tǒng)--的控制下在一個或多個通用計算機(jī)上提供運行時環(huán)境150。例如,運行時環(huán)境150能夠包括多節(jié)點平行計算環(huán)境,該環(huán)境包括使用多個中央處理單元(CPU)的計算機(jī)系統(tǒng)的配置,多個中央處理單元要么是本地的(例如,諸如SMP計算機(jī)的多處理器系統(tǒng))或者本地分布的(例如,耦接為群或者M(jìn)PP的多個處理器),要么是遠(yuǎn)程或者遠(yuǎn)程分布的(例如,經(jīng)由LAN或者WAN網(wǎng)絡(luò)耦接的多個處理器),或者其任意組合。由運行時環(huán)境150存取的輸入、輸出或者中間數(shù)據(jù)集可以是存儲在平行文件系統(tǒng)(例如,數(shù)據(jù)存儲器160,或者本地或者通過通信鏈接遠(yuǎn)程地耦接到系統(tǒng)100的外部數(shù)據(jù)存儲器170)中的平行“多文件”。
[0032]圖2描繪了可以在運行時環(huán)境中運行以實現(xiàn)用于檢測電子存儲文件中的機(jī)密信息的系統(tǒng)的軟件的結(jié)構(gòu)。CID系統(tǒng)100將所有文件格式都視為未知并且搜索包含機(jī)密數(shù)據(jù)的字符串。文件是從數(shù)據(jù)存儲設(shè)備201讀取的。字串提取模塊210將文件視為數(shù)據(jù)字節(jié)序列。用于識別字串的方法將去除除了表示下述字符的字節(jié)之外的所有字節(jié):這些字符用于表示機(jī)密信息的數(shù)據(jù)或者表示機(jī)密信息的數(shù)據(jù)的通常格式化。典型地,字節(jié)是8比特長,但是可以定義為適合于試圖檢測的字符集的任意大小。例如,一字節(jié)的長度可以定義為16或32比特。所示的示例系統(tǒng)使用8比特的字節(jié)大小。
[0033]使用與感