用于去除個(gè)人可識(shí)別信息的清理器的制造方法
【專利摘要】一種個(gè)人可識(shí)別信息(PII)清理系統(tǒng)。所述PII清理系統(tǒng)基于對(duì)應(yīng)于日志的清理器配置,如外科手術(shù)般地從日志中清理PII。清理器配置包括:與在日志中的PII的位置和類型有關(guān)的上下文信息,以及指定如何對(duì)PII進(jìn)行定位和保護(hù)的規(guī)則。當(dāng)清理要求改變時(shí)或遇到新的場(chǎng)景時(shí),能夠快速且容易地創(chuàng)建或修改清理器配置。清理器配置所提供的靈活性允許即使是從非結(jié)構(gòu)化的數(shù)據(jù)中也僅清理PII,無(wú)須包括周圍數(shù)據(jù)。許多顧客可以使用經(jīng)清理的數(shù)據(jù),無(wú)須暴露PII,這是因?yàn)檩^少的非個(gè)人數(shù)據(jù)被模糊。如外科手術(shù)般的清理即使在保護(hù)PII的同時(shí)也保留底層PII的有用性。顧客可以將受保護(hù)的PII相互關(guān)聯(lián)以定位特定信息,無(wú)須暴露額外的PII。
【專利說(shuō)明】用于去除個(gè)人可識(shí)別信息的清理器
【背景技術(shù)】
[0001] 許多組織收集系統(tǒng)日志、錯(cuò)誤報(bào)告以及其他用于例行的商務(wù)目的的數(shù)據(jù)。該數(shù)據(jù) 可以被挖掘以創(chuàng)建并且維持有競(jìng)爭(zhēng)力的優(yōu)點(diǎn),但由于這種數(shù)據(jù)可能包含合法目的所需要的 用戶信息,故而這種數(shù)據(jù)的可用性的增加以及對(duì)這種數(shù)據(jù)的訪問(wèn)的增加還會(huì)增加將公司暴 露給有意的或無(wú)意的數(shù)據(jù)濫用的風(fēng)險(xiǎn)。
[0002] 對(duì)個(gè)人可識(shí)別信息(PII)進(jìn)行清理(scrubbing)是一種用于從日志中去除用戶信 息以使得該信息可以被廣泛受眾安全訪問(wèn)的標(biāo)準(zhǔn)技術(shù),但是清理是昂貴的、受限的且不完 善的。雖然用戶可能能夠在看到時(shí)識(shí)別他們的個(gè)人信息,但要建立能夠在大型組織每天收 集的以拍字節(jié)計(jì)的數(shù)據(jù)上做同樣的事情的、可擴(kuò)展并且有成本效益的系統(tǒng)則困難得多。
[0003] 政府法律或法規(guī)可能要求保護(hù)一些(PII)。即使當(dāng)未要求保護(hù)時(shí),組織也可能有動(dòng) 機(jī)保護(hù)PII,這是出于各種原因,例如,培養(yǎng)與顧客/用戶的信任或最小化法律風(fēng)險(xiǎn)。不管何 種原因,保護(hù)PII在資源(例如,處理時(shí)間、存儲(chǔ)空間和PII清理器的開發(fā)時(shí)間)方面都是昂貴 的,這最終轉(zhuǎn)變成組織的財(cái)務(wù)成本。處理可能包含PII的日志所需要的時(shí)間可能導(dǎo)致組織人 員對(duì)于包含最新信息的日志的訪問(wèn)延遲。如果用于日志的清理器當(dāng)前不可用或需要被修 改,則可能直到情況被補(bǔ)救為止組織人員都不能訪問(wèn)日志。取決于優(yōu)先級(jí)和資源,在確定日 志可能包含PII和開發(fā)合適的清理器之間的滯后可能是幾個(gè)月或更長(zhǎng)。
[0004] 當(dāng)試圖使得直到經(jīng)清理的日志可用為止的時(shí)間最小化時(shí),組織可以求助于利用 "蠻力(brute-force)"清理器對(duì)日志進(jìn)行過(guò)度清理(over-scrubbing)。這些蠻力清理器通 常采用不精確的或破壞性的技術(shù),例如,清理可能包含PII的日志的整個(gè)部分而不是確定數(shù) 據(jù)是否實(shí)際上是PII,將會(huì)導(dǎo)致永久丟失至少一些原始數(shù)據(jù)的清理,和/或用涵蓋整個(gè)組的 令牌替換有區(qū)別的數(shù)據(jù)項(xiàng)。
[0005] 過(guò)度清理通常增加了處理時(shí)間和存儲(chǔ)要求,這是因?yàn)榧词鼓繕?biāo)數(shù)據(jù)不是PII也不 加區(qū)別地應(yīng)用保護(hù)。存儲(chǔ)要求增加的原因在于保護(hù)技術(shù)大多產(chǎn)生顯著大于正被保護(hù)數(shù)據(jù)的 值。不加區(qū)別的對(duì)日志的部分進(jìn)行保護(hù),可能容易地使原始日志大小變?yōu)閮杀痘蛉?。過(guò)度 清理的另一成本在于原始包含于日志中的有價(jià)值的商務(wù)智能的損失,因?yàn)閿?shù)據(jù)已經(jīng)被破壞 或者已經(jīng)被以使得對(duì)其進(jìn)行分析的能力受限的方式轉(zhuǎn)化。例如,過(guò)度清理對(duì)于消息的整個(gè) 組件(或者甚至整個(gè)消息)使用單個(gè)替換,而不是對(duì)組成較大組件的單件進(jìn)行替換,這就使 得難以(甚至不可能)對(duì)受保護(hù)的數(shù)據(jù)進(jìn)行有意義的利用。
[0006] 本發(fā)明正是關(guān)于這些和其它考量而做出的。雖然已經(jīng)討論了相對(duì)具體的問(wèn)題,但 應(yīng)該理解的是,本文公開的實(shí)施例不應(yīng)限于解決在【背景技術(shù)】中確定的具體問(wèn)題。
【發(fā)明內(nèi)容】
[0007] 提供該
【發(fā)明內(nèi)容】
是為了引入將在下文【具體實(shí)施方式】部分進(jìn)一步描述的簡(jiǎn)化形式 的概念的選集。該
【發(fā)明內(nèi)容】
并不意圖識(shí)別所要求保護(hù)主題的關(guān)鍵特征或重要特征,也不意 圖用來(lái)幫助確定所要求保護(hù)主題的范圍。
[0008] PII清理系統(tǒng)的實(shí)施例基于對(duì)應(yīng)于日志的清理器配置,如外科手術(shù)般地從日志中 清理PII。清理器配置包括:與在日志中的PII的位置和類型有關(guān)的上下文信息,以及指定 (specify)如何對(duì)PII進(jìn)行定位和保護(hù)的規(guī)則。當(dāng)清理要求改變時(shí)或遇到新的場(chǎng)景時(shí),能夠 快速且容易地創(chuàng)建或修改清理器配置。清理器配置所提供的靈活性允許即使是從非結(jié)構(gòu)化 的數(shù)據(jù)中也只清理PII,無(wú)須包括周圍數(shù)據(jù)。許多顧客可以使用經(jīng)清理的數(shù)據(jù),無(wú)須暴露于 PII,這是因?yàn)檩^少的非個(gè)人數(shù)據(jù)被模糊。如外科手術(shù)般的清理即使在保護(hù)PII的同時(shí)也保 留底層PII的有用性。顧客可以將受保護(hù)的PII相互關(guān)聯(lián),以定位特定的信息,無(wú)須暴露PII。 顧客還可以進(jìn)行搜索以尋找與受保護(hù)的PII相關(guān)的數(shù)據(jù),無(wú)須暴露額外的PII。
[0009]清理器配置提供信息,所述信息被清理代理用來(lái)定位PII以及從消息中清理PII。 在各個(gè)實(shí)施例中,清理器配置提供關(guān)于在消息中的數(shù)據(jù)的上下文信息,以及用于基于所述 上下文信息處理消息的邏輯。所述上下文信息表明PII位于日志消息中的何處,或PII的類 型。所述邏輯提供關(guān)于如何處理PII的指令,例如,用于處理PII的條件,和/或如何保護(hù)PII (例如,指定替換技術(shù))。共同地,上下文信息和邏輯形成清理規(guī)則。在各個(gè)實(shí)施例中,清理規(guī) 則包括解析器、處理器和過(guò)濾器,這對(duì)應(yīng)于由清理代理提供的通用動(dòng)作。在一些實(shí)施例中, 清理規(guī)則將對(duì)應(yīng)的上下文信息納入,作為規(guī)則的參數(shù)。清理規(guī)則可以被組織成處理組 (processing groups)。處理組允許在該組內(nèi)的一個(gè)或多個(gè)規(guī)則的操作以該組內(nèi)的一個(gè)或 多個(gè)其它規(guī)則的結(jié)果為條件。
[0010]在各個(gè)實(shí)施例中,清理代理包括:解析引擎,其將數(shù)據(jù)分解成字段或者在字段中定 位數(shù)據(jù);處理引擎,其負(fù)責(zé)任務(wù),任務(wù)例如但不限于清理包含PII的字段或進(jìn)一步將字段解 析為更小的組件(例如,子字段,或"名稱/值"的對(duì));以及過(guò)濾引擎,其確定消息或字段是被 處理還是排除在處理之外。
[0011]消息清理操作利用由清理器配置提供的規(guī)則和上下文信息,在消息中定位并且替 換PII??蛇x的預(yù)解析過(guò)濾操作基于在消息中的內(nèi)容是否與在清理器配置中指定的過(guò)濾器 參數(shù)相匹配,來(lái)確定消息是否應(yīng)該被處理。消息解析操作基于在清理器配置中指定的解析 器參數(shù)將消息解析為字段。處理操作基于在清理器配置中指定的處理器參數(shù)來(lái)保護(hù)PII。字 段選擇操作選擇要清理的字段。
[0012] 處理操作可以涉及一個(gè)或多個(gè)子操作,所述子操作施加清理?xiàng)l件或就如何處理選 定的字段來(lái)進(jìn)行細(xì)化。子操作可以包括字段解析操作或用于在選定字段中定位ΡΠ 的搜索 操作。字段解析操作將字段解析為子字段或"名稱/值"的對(duì)。搜索操作在選定字段中查找與 在清理器配置中指定的過(guò)濾參數(shù)(例如,模式)相匹配的內(nèi)容。子操作還可以包括過(guò)濾操作, 其基于消息中的字段的內(nèi)容是否匹配在清理器配置中指定的過(guò)濾參數(shù)而確定選定字段是 否應(yīng)該被處理。為了滿足子操作施加的任意條件,"替換值生成"操作生成針對(duì)在選定字段 中的PII的替換值。替換技術(shù)的選擇通常是在最小化數(shù)據(jù)損失、減少對(duì)性能的影響以及對(duì)數(shù) 據(jù)膨脹進(jìn)行管理三者之間的平衡動(dòng)作??捎锰鎿Q技術(shù)的例子包括但不限于:編校 (redaction)、靜態(tài)置換、泛化(generalization)、散列和加密。
【附圖說(shuō)明】
[0013] 通過(guò)參考后續(xù)附圖,可以更好地理解本公開的其它特征、方面和優(yōu)點(diǎn),在附圖中元 件不是按比例的以便能更清楚地示出細(xì)節(jié),并且其中貫穿若干視圖類似的附圖標(biāo)記表示類 似的元件:
[0014] 圖1是在適當(dāng)?shù)挠?jì)算環(huán)境中實(shí)現(xiàn)的個(gè)人可識(shí)別信息(PII)清理系統(tǒng)的一個(gè)實(shí)施例 的流程圖;
[0015] 圖2是用于使用PII清理系統(tǒng)保護(hù)PII的如外科手術(shù)般地清理的方法的一個(gè)實(shí)施例 的高級(jí)流程圖;
[0016] 圖3是用于在清理器友好開發(fā)環(huán)境中收集關(guān)于PII的上下文信息的如外科手術(shù)般 地清理的方法的收集上下文信息操作的一個(gè)實(shí)施例的高級(jí)流程圖;
[0017] 圖4是如外科手術(shù)般地清理的方法的消息清理操作的一個(gè)實(shí)施例的高級(jí)流程圖; [0018]圖5A是示出由PII清理系統(tǒng)的一個(gè)實(shí)施例利用對(duì)應(yīng)清理器配置在第一日志上執(zhí)行 的清理操作的流程圖;
[0019] 圖5B是示出由PII清理系統(tǒng)的一個(gè)實(shí)施例利用與先前例子中的相同的清理器配置 在第二日志上執(zhí)行的清理操作的流程圖;
[0020] 圖5C是由PII清理系統(tǒng)的一個(gè)實(shí)施例執(zhí)行的清理操作的流程圖,示出了當(dāng)清理器 配置沒(méi)有提供規(guī)則集時(shí)退回到默認(rèn)清理規(guī)則的結(jié)果;
[0021] 圖5D是由PII清理系統(tǒng)的一個(gè)實(shí)施例利用清理器配置的修改版本在第二日志上執(zhí) 行的清理操作的流程圖;
[0022] 圖6是示出可借助來(lái)實(shí)踐本發(fā)明實(shí)施例的計(jì)算設(shè)備的物理組件的一個(gè)實(shí)施例的框 圖;
[0023]圖7A和7B是可借助來(lái)實(shí)踐本發(fā)明實(shí)施例的移動(dòng)計(jì)算設(shè)備的簡(jiǎn)化框圖;以及 [0024]圖8是可在其中實(shí)踐本發(fā)明實(shí)施例的分布式計(jì)算系統(tǒng)的簡(jiǎn)化框圖。
【具體實(shí)施方式】
[0025] 下文參考附圖更完整地描述了各種實(shí)施例,附圖形成特定示例性實(shí)施例的一部分 并示出了特定示例性實(shí)施例。然而,實(shí)施例可以以多種不同形式實(shí)現(xiàn),并且不應(yīng)該被解釋為 是限于本文所闡述的實(shí)施例;相反地,提供這些實(shí)施例是為了使得本公開透徹和完備,并向 本領(lǐng)域技術(shù)人員完整地傳達(dá)實(shí)施例的范圍。實(shí)施例可以作為方法、系統(tǒng)或設(shè)備來(lái)實(shí)踐。因 此,實(shí)施例可以采取如下形式:硬件實(shí)現(xiàn)方式、完全軟件實(shí)現(xiàn)方式或?qū)④浖陀布矫嫦嘟Y(jié) 合的實(shí)現(xiàn)方式。因此,以下【具體實(shí)施方式】不應(yīng)被認(rèn)為是限制意義的。
[0026] 個(gè)人可識(shí)別信息(PII)清理系統(tǒng)的實(shí)施例在本文中進(jìn)行描述并在附圖中進(jìn)行圖 示。PII清理系統(tǒng)基于對(duì)應(yīng)于日志的清理器配置,如外科手術(shù)般地從日志中清理PII。清理器 配置包括:與在日志中的PII的位置和類型有關(guān)的上下文信息,以及指定如何對(duì)PII進(jìn)行定 位和保護(hù)的規(guī)則。當(dāng)清理要求改變時(shí)或遇到新的場(chǎng)景時(shí),能夠快速且容易地創(chuàng)建或修改清 理器配置。清理器配置所提供的靈活性允許即使是從非結(jié)構(gòu)化的數(shù)據(jù)中也只清理PII,無(wú)須 包括周圍數(shù)據(jù)。許多顧客可以使用經(jīng)清理的數(shù)據(jù),無(wú)須暴露于PII,同時(shí)仍可以訪問(wèn)非個(gè)人 數(shù)據(jù)。如外科手術(shù)般的清理即使在保護(hù)PII的同時(shí)也保留底層PII的有用性。顧客可以將受 保護(hù)的PII相互關(guān)聯(lián)以定位特定信息,無(wú)須暴露額外的PII。
[0027] 圖1示出了在適當(dāng)?shù)挠?jì)算環(huán)境中實(shí)現(xiàn)的PII清理系統(tǒng)100的一個(gè)實(shí)施例。如本文所 使用的,PII廣義上包括用戶不想讓他人知道的任何事情。這通常意味著所收集的關(guān)于用戶 的或者由用戶提供的任何數(shù)據(jù),除非用戶已經(jīng)明確向組織授權(quán)將該信息共享。PII的一些常 見例子(例如,人名、生日、SSN、賬戶名稱和電話號(hào)碼)易于識(shí)別。其它可以被認(rèn)為是PII的數(shù) 據(jù)包括IP地址、公司名稱和位置信息。PII的另一種可能的源是自由形式數(shù)據(jù),如文件名稱 或電子郵件臺(tái)頭。
[0028] "清理"是關(guān)于對(duì)出現(xiàn)在數(shù)據(jù)集合中的PII進(jìn)行保護(hù)來(lái)使用的。在數(shù)據(jù)集合中的個(gè) 體條目可以被稱作列、行、消息或記錄。作為具體實(shí)用的例子,在"從日志中清理ΡΙΓ的上下 文中描述了 PII清理器系統(tǒng);然而,PII清理器系統(tǒng)具有更廣泛的實(shí)用,并不意圖限于在日志 上的操作。日志代表著以持續(xù)的基礎(chǔ)生成的大量數(shù)據(jù)的集合,幾乎不具有甚至完全不具有 標(biāo)準(zhǔn)化。這樣,日志代表了保護(hù)PII的最大挑戰(zhàn)之一。
[0029] PII清理系統(tǒng)100包括在被記錄的系統(tǒng)(logged system) 104上執(zhí)行的記錄代理 (logging agent) 102。被記錄的系統(tǒng)是計(jì)算設(shè)備。用于實(shí)現(xiàn)被記錄的系統(tǒng)和/或組成PII清 理系統(tǒng)的其它系統(tǒng)的適當(dāng)?shù)挠?jì)算設(shè)備的例子不限于服務(wù)器計(jì)算機(jī)、臺(tái)式計(jì)算機(jī)、膝上型計(jì) 算機(jī)、平板計(jì)算機(jī)或表面計(jì)算機(jī)、智能手機(jī)以及智能家電。記錄代理生成用于被記錄的應(yīng)用 (logged application)106的日志。被記錄的應(yīng)用可以是任意服務(wù)器或臺(tái)式應(yīng)用,包括操作 系統(tǒng),及其任意組件或服務(wù)。記錄代理可以獨(dú)立于被記錄的應(yīng)用,例如,通過(guò)應(yīng)用程序接口 (API)訪問(wèn)且結(jié)合多個(gè)不同被記錄的應(yīng)用使用的庫(kù)或引擎。記錄代理還可以與被記錄的應(yīng) 用集成,并專用于被記錄的應(yīng)用,被記錄的應(yīng)用例如在應(yīng)用中的模塊。
[0030] 記錄代理生成消息108,其可以包含從用戶110處收集的PII作為出于商業(yè)目的而 例行地記錄的一部分?jǐn)?shù)據(jù),例如但不限于,安全審計(jì)、產(chǎn)品支持、產(chǎn)品改進(jìn)、產(chǎn)品注冊(cè)和用戶 注冊(cè)??梢杂涗浀臄?shù)據(jù)類型的例子包括但不限于:安全事件(例如,登錄嘗試和授權(quán)),輸入/ 輸出事件(例如,網(wǎng)絡(luò)或文件系統(tǒng)事務(wù)),程序錯(cuò)誤和沖突,系統(tǒng)性能和資源利用,以及程序 或特征用途。消息可以被流送、寫入或以其它方式傳輸?shù)奖镜鼗蜻h(yuǎn)程目的地(即,數(shù)據(jù)流)。 目的地可以是易失性存儲(chǔ)位置,例如,存儲(chǔ)器中數(shù)據(jù)對(duì)象(例如,事件記錄);或非易失性存 儲(chǔ)位置,例如,在輔助存儲(chǔ)設(shè)備上的文件(即,硬盤驅(qū)動(dòng))。消息可以是文本數(shù)據(jù)(即,字符 串)、二進(jìn)制數(shù)據(jù)或其組合。
[0031] 數(shù)據(jù)的內(nèi)容、命名、組織、結(jié)構(gòu)和/或呈現(xiàn)可以在不同日志或日志類型之間變化,以 及有時(shí)在日志中的消息之間變化。例如,相同類型的日志可能取決于所使用的記錄代理或 被記錄的應(yīng)用而不同。即使是由相同的記錄代理和被記錄的應(yīng)用所產(chǎn)生的日志,在被更新 到新版本的記錄代理或被記錄的應(yīng)用時(shí)也可能變化。對(duì)于大型組織的不同商業(yè)單位或位置 來(lái)說(shuō),由于不同需求或不同升級(jí)周期而運(yùn)行來(lái)自不同開發(fā)商的替代應(yīng)用或不同版本的相同 應(yīng)用是并不罕見的。
[0032] 清理代理112基于清理器配置114處理日志消息。清理代理可以是獨(dú)立應(yīng)用或者是 另一應(yīng)用的集成組件,包括但不限于被記錄的應(yīng)用。記錄代理和清理代理雖然被示出并被 描述為在單個(gè)計(jì)算設(shè)備上執(zhí)行,但也可以在分離的計(jì)算設(shè)備上執(zhí)行。PII清理系統(tǒng)可以本地 運(yùn)行,或在分布式環(huán)境中(例如在客戶端-服務(wù)器或云服務(wù)架構(gòu)中)運(yùn)行。PII清理系統(tǒng)的任 意的分布式組件或?qū)τ赑II清理系統(tǒng)可用的資源可以彼此通信,或通過(guò)至少一個(gè)計(jì)算機(jī)網(wǎng) 絡(luò)(例如但不限于,互聯(lián)網(wǎng)、內(nèi)聯(lián)網(wǎng)、局域網(wǎng)或廣域網(wǎng))被訪問(wèn)。例如,記錄代理可以將未清理 的日志上傳到受保護(hù)的中央系統(tǒng)。對(duì)在受保護(hù)的中央系統(tǒng)中的未清理日志進(jìn)行的訪問(wèn)將限 于一小群有需要立即訪問(wèn)日志信息(即,值得暴露于PII的風(fēng)險(xiǎn))的個(gè)人。隨后,未清理的日 志通過(guò)在被記錄的系統(tǒng)上或在受保護(hù)的中央系統(tǒng)上運(yùn)行的清理代理來(lái)清理,并且經(jīng)清理的 日志被上傳到對(duì)于訪問(wèn)約束較少的另一系統(tǒng)。大部分顧客將從該后一系統(tǒng)中拉出經(jīng)清理的 數(shù)據(jù)。
[0033] 清理代理包括在日志消息上執(zhí)行不同類型動(dòng)作的不同引擎。在各個(gè)實(shí)施例中,清 理代理包括解析引擎、過(guò)濾引擎和處理引擎。解析引擎執(zhí)行解析動(dòng)作,其將數(shù)據(jù)分解為字段 或在字段中定位數(shù)據(jù)。處理引擎執(zhí)行負(fù)責(zé)任務(wù)的處理動(dòng)作,所述任務(wù)例如但不限于,清理包 含PII的字段,或?qū)⒆R(shí)別出的字段轉(zhuǎn)發(fā)到可以將字段分解為更小的組件(例如,子字段或"名 稱/值"的對(duì))的子解析器。過(guò)濾引擎執(zhí)行過(guò)濾動(dòng)作,其確定消息或字段是被處理還是被從處 理中排除。
[0034] 動(dòng)作的范圍可以從本質(zhì)上通用變動(dòng)到專用。通用動(dòng)作提供靈活性,其允許清理代 理處理基本任何情形。專用動(dòng)作在處理頻繁發(fā)生的情形時(shí)提供簡(jiǎn)化性和/或一致性?;诠?應(yīng)的定界符將消息分離成字段的解析動(dòng)作,是通用動(dòng)作的一個(gè)例子。對(duì)字段進(jìn)行搜索、并為 表現(xiàn)為簡(jiǎn)單郵件傳輸協(xié)議(SMTP)地址的任意和所有數(shù)據(jù)創(chuàng)建子字段的解析動(dòng)作,是專用動(dòng) 作的例子。
[0035]清理器配置提供由清理代理所使用的信息來(lái)定位并從消息中清理PII。在各個(gè)實(shí) 施例中,清理器配置提供關(guān)于消息中的數(shù)據(jù)的上下文信息,以及用于基于上下文信息對(duì)信 息進(jìn)行處理的邏輯。上下文信息表示PII位于日志消息中的何處,或PII的類型。邏輯提供關(guān) 于如何處理PII (例如,處理PII的條件)和/或關(guān)于如何保護(hù)PII (例如,指定替換技術(shù))的指 令。上下文信息和邏輯共同地形成清理規(guī)則。在各個(gè)實(shí)施例中,清理規(guī)則包括解析器、處理 器和過(guò)濾器,其對(duì)應(yīng)于清理代理所提供的通用動(dòng)作。在一些實(shí)施例中,清理規(guī)則將對(duì)應(yīng)的上 下文信息納入,作為規(guī)則的參數(shù)。清理規(guī)則可以被組織成處理組。處理組允許該組內(nèi)的一個(gè) 或多個(gè)規(guī)則的操作以該組內(nèi)的一個(gè)或多個(gè)其它規(guī)則的結(jié)果為條件。
[0036] 可以創(chuàng)建個(gè)體清理器配置,來(lái)處理獨(dú)特的場(chǎng)景(例如,新的或不同的日志、日志版 本、日志類型、PII或PII類型)或需要(例如,用于不同日志的顧客的交替輸出),無(wú)須要求修 改清理代理。例如,當(dāng)新場(chǎng)景出現(xiàn)時(shí),可以容易地創(chuàng)建新的清理器配置;并且例如,當(dāng)清理要 求改變時(shí),或當(dāng)要保護(hù)被當(dāng)前清理器配置所丟失的PII時(shí),可以容易地修改現(xiàn)有清理器配 置。
[0037] 清理代理可以將經(jīng)清理的消息116發(fā)送到數(shù)據(jù)倉(cāng)庫(kù)118中的共享存儲(chǔ)設(shè)備中。該共 享存儲(chǔ)設(shè)備對(duì)于日志的多個(gè)顧客是可訪問(wèn)的。可以按照這樣的方式對(duì)日志進(jìn)行清理以使 得:可以在不將受保護(hù)的用戶信息暴露給沒(méi)有針對(duì)特定商業(yè)功能而要求訪問(wèn)所述信息的大 量顧客120a的前提下來(lái)使用相關(guān)記錄。在那些情況下,當(dāng)具有完全保護(hù)的PII 122a的記錄 被呈現(xiàn)給那些顧客時(shí),從共享存儲(chǔ)設(shè)備請(qǐng)求的信息被呈現(xiàn)。類似地,可以通過(guò)向要求對(duì)受保 護(hù)信息中的一些但不是全部進(jìn)行訪問(wèn)的較少量顧客120b有限地暴露受保護(hù)的用戶信息的 前提下來(lái)定位相關(guān)記錄。在那些情況下,當(dāng)具有有限暴露的PII 122b的記錄被呈現(xiàn)給那些 顧客時(shí),從共享存儲(chǔ)設(shè)備請(qǐng)求的信息被呈現(xiàn)。最后,一些商業(yè)功能要求完全訪問(wèn)受保護(hù)的信 息。在這種情況下,具有完全暴露的PII 122c的記錄被呈現(xiàn)給那些有限數(shù)量的顧客120c。
[0038] 對(duì)PII進(jìn)行定位和處理在合適的上下文信息可用時(shí)更為容易。PII清理系統(tǒng)的實(shí)施 例包括清理器友好開發(fā)環(huán)境122,其從被記錄的數(shù)據(jù)的起源(開發(fā)者124)收集上下文信息。 在開發(fā)應(yīng)用期間通過(guò)應(yīng)用收集關(guān)于正被收集的數(shù)據(jù)(其可能包含PII并可能被記錄)的上下 文信息,來(lái)增強(qiáng)上下文信息的完整性、準(zhǔn)確性和細(xì)節(jié)。另外,在應(yīng)用開發(fā)期間收集上下文信 息便于生成清理器友好日志。在清理器友好日志中的消息被組織以使得允許通過(guò)該清理代 理容易地對(duì)PII進(jìn)行定位和保護(hù)。此外,清理器友好日志和合適的上下文信息的組合便于如 外科手術(shù)般地從日志中清理PII。
[0039] 記錄代理或被記錄的應(yīng)用的開發(fā)者通常處于最佳定位以獲知正被收集的數(shù)據(jù)類 型,可能產(chǎn)生的不同消息,以及在每個(gè)消息中可能報(bào)告什么信息(即,日志輸入)。與此相反, 傳統(tǒng)的清理過(guò)程通常基于由監(jiān)察人員(例如,清理器操作員)126對(duì)在實(shí)際(即,生產(chǎn))中的經(jīng) 清理的和未清理的日志(即,日志輸出)中的日志消息進(jìn)行人工檢查以尋找看似是PII的數(shù) 據(jù)。
[0040] 監(jiān)察人員被他們所面對(duì)的信息所制約,因此,傳統(tǒng)的清理過(guò)程由于起源于下列因 素的問(wèn)題而被妨礙,所述因素例如但不限于:不完整信息、模糊性和難以隔離PII。不完整信 息的一個(gè)原因是日志的特定實(shí)例可能不是對(duì)可能出現(xiàn)在所述日志中的所有可能的消息的 完整表示。在這樣的情況下,監(jiān)察人員將不知道包含于不頻繁出現(xiàn)的消息中的PII,所述不 頻繁出現(xiàn)的消息實(shí)際上未出現(xiàn)在正由監(jiān)察人員檢查的生產(chǎn)日志中。因此,當(dāng)PII確實(shí)出現(xiàn) 時(shí),其將不被清理。當(dāng)在輸入側(cè)收集上下文信息時(shí),消息的出現(xiàn)頻率以及導(dǎo)致不完整上下文 信息的類似問(wèn)題將不再是因素。
[0041] 另一件令人擔(dān)憂的事是,消息可能包含模糊值,模糊值可能是PII也可能不是PII。 例如,包含由句點(diǎn)分離的四個(gè)數(shù)的值可以是來(lái)自常見的軟件版本編號(hào)方案的版本號(hào),其不 是PII;或者是互聯(lián)網(wǎng)協(xié)議版本4(IPv4)地址,其是PII。類似地,值"farmer"可能代表職位, 其不是PII;或者代表人名,其是PII。在輸出側(cè),監(jiān)察人員必須試圖推斷這種模糊值是否是 PII。如果包含模糊值的消息還碰巧是不頻繁發(fā)生的消息,則問(wèn)題惡化。當(dāng)不能做出清楚的 確定時(shí),監(jiān)察人員可以簡(jiǎn)單地選擇從大量警告中清理包含模糊數(shù)據(jù)的字段,以確保PII沒(méi)有 不被清理。當(dāng)因?yàn)殚_發(fā)者知道值表示何種類型的信息而在輸入側(cè)供應(yīng)上下文信息時(shí),模糊 性被去除。
[0042] 即使在能夠?qū)⒅得鞔_地識(shí)別為PII的情況下,可能也難以或不可能在不影響其它 數(shù)據(jù)的情況下清理PII。對(duì)于開發(fā)者而言將包括PII的信息封裝到非結(jié)構(gòu)化的數(shù)據(jù)字段中是 常見的,因?yàn)橄⑾到y(tǒng)的結(jié)構(gòu)化部分通常僅提供用于存儲(chǔ)源和時(shí)間等信息的空間。描述字 段(description field)的格式是任意的,且可以隨著每個(gè)日志消息而變化。通常,非結(jié)構(gòu) 化數(shù)據(jù)字段中的數(shù)據(jù)不被加標(biāo)簽,這是因?yàn)殚_發(fā)者知道各條信息表示什么。例如,在非結(jié)構(gòu) 化數(shù)據(jù)字段既包含版本號(hào)又包含IPv4地址的情況下,由于消息的結(jié)構(gòu)和/或當(dāng)前可用的傳 統(tǒng)清理器的局限,不可能僅清理IPv4地址而留下版本號(hào)。因此,因?yàn)镮Pv4地址需要被保護(hù), 所以版本號(hào)將被不必要地清理。
[0043]雖然傳統(tǒng)的清理器可被更新以解決這種問(wèn)題,但通常在新版本可用之前,為確保 更新將不會(huì)不利地影響現(xiàn)有清理過(guò)程或至少將風(fēng)險(xiǎn)最小化而對(duì)清理器進(jìn)行更新、測(cè)試和部 署的同時(shí),存在顯著延遲(例如,幾個(gè)月)。此外,更新可以適當(dāng)?shù)靥幚泶偈垢碌脑记闆r, 但是可能不能解決在其它日志中可能遇到的主題的變化(例如,當(dāng)消息包含相同的信息但 被不同地結(jié)構(gòu)化時(shí))。利用在輸入側(cè)上獲得的上下文信息來(lái)生成清理器友好日志,有效地消 除了這種問(wèn)題。
[0044]清理器友好開發(fā)環(huán)境允許輸入并且跟蹤與清理器友好對(duì)象130相關(guān)聯(lián)的PII元數(shù) 據(jù)128,所述清理器友好對(duì)象130例如但不限于窗體(form)、控制件和數(shù)據(jù)結(jié)構(gòu)。清理器友好 對(duì)象可以包括PII元數(shù)據(jù)屬性和/或增強(qiáng)以處理PII元數(shù)據(jù)的方法??膳c清理器友好對(duì)象相 關(guān)聯(lián)的一些PII元數(shù)據(jù)的例子包括但不限于:清理器友好對(duì)象是否能夠存儲(chǔ)PII的指示(例 如,PII標(biāo)志(PII flag)),對(duì)象所存儲(chǔ)的PII數(shù)據(jù)的類型的指示(例如,類型枚舉),以及PII 值的名稱(其可以是友好的、有意義的和/或唯一的)C3PII元數(shù)據(jù)還可以包括:檢查標(biāo)志 (review flag),其允許開發(fā)者指示PII的內(nèi)容應(yīng)該被監(jiān)察人員檢查;和/或注解字段,其允 許開發(fā)者通信關(guān)于數(shù)據(jù)的額外信息。例如,開發(fā)者可以描述未被現(xiàn)有PII類型涵蓋的數(shù)據(jù), 或解釋為何對(duì)象被加標(biāo)志以供檢查。
[0045] PII元數(shù)據(jù)可以用于自動(dòng)生成參數(shù)鍵132形式的上下文信息。參數(shù)鍵可以由開發(fā)環(huán) 境或由記錄代理所生成。參數(shù)鍵指的是用于描述包含于文檔(例如,清理器友好日志)中的 信息(尤其是ΡΠ )的任何機(jī)制,包括但不限于:圖解(schema)、圖例(legend)或鍵(key)。表1 示出了指定消息標(biāo)識(shí)符、參數(shù)名稱和數(shù)據(jù)類型的參數(shù)鍵的一個(gè)例子。在其它實(shí)施例中,參數(shù) 鍵可以包含額外的信息。
[0046] 衷 1
[0048] 未分類/通用類型如"一般用戶信息"和"未知"用作標(biāo)志(flag),其警示監(jiān)察機(jī)構(gòu)、 質(zhì)量保證或其它類似人員,消息參數(shù)需要被檢查并且確保消息參數(shù)不能由其它特定的枚舉 數(shù)據(jù)類型來(lái)表示。參數(shù)鍵提供的上下文信息幫助監(jiān)察人員檢查日志,并基于開發(fā)者提供的 信息來(lái)開發(fā)清理器配置,而不是基于在現(xiàn)有日志中發(fā)現(xiàn)模式的嘗試。
[0049] PII類型的范圍可以從表示參數(shù)是否是用戶信息的布爾值(例如,真/假)變動(dòng)到提 供關(guān)于與參數(shù)相關(guān)聯(lián)的用戶信息的意圖類型或關(guān)于參數(shù)的其它信息的細(xì)節(jié)的更綜合的枚 舉。數(shù)據(jù)類型的適當(dāng)?shù)膶?shí)現(xiàn)方式的例子包括但不限于:布爾值、枚舉類型、詞典以及列表。表 2示出了 PII類型枚舉的一個(gè)例子,其涵蓋一些更常見的數(shù)據(jù)類型。
[0050] 表 2
[0052]隨著時(shí)間,可以將先前不支持的數(shù)據(jù)類型添加到數(shù)據(jù)類型枚舉中,以針對(duì)需要特 殊處理的每條未知用戶信息提供上下文信息。在一些實(shí)施例中,可以將更廣泛的數(shù)據(jù)類型 細(xì)分為更具體的數(shù)據(jù)類型,其中子類型要求不同的處理。例如,IP地址數(shù)據(jù)類型可以分解成 IP版本4( IPv4)數(shù)據(jù)類型和IP版本6( IPv6)數(shù)據(jù)類型,允許在這兩種地址類型之間的不同。 數(shù)據(jù)類型標(biāo)志(data type flag)可以用于生成單獨(dú)的元數(shù)據(jù)文件,其可以由清理代理和其 他需要消費(fèi)日志數(shù)據(jù)的系統(tǒng)來(lái)消費(fèi)。
[0053] 表示PII可能位于何處的合適的上下文信息,允許通過(guò)對(duì)必須由清理代理掃描的 消息數(shù)量進(jìn)行限制來(lái)優(yōu)化清理過(guò)程。例如,知道只有具有特定消息標(biāo)識(shí)符的消息可能包含 PII,這允許清理代理安全地略過(guò)其它消息,這與掃描整個(gè)日志相比大大減少了處理時(shí)間。 知道所預(yù)期的PII的類型可以用于允許清理代理對(duì)用于定位和清理所預(yù)期的PII類型的規(guī) 則進(jìn)行選擇和應(yīng)用。更具體地,當(dāng)所預(yù)期的PII類型已知時(shí),清理代理可以通過(guò)僅查找在消 息中所預(yù)期的PII類型為目標(biāo)的規(guī)則或以所述規(guī)則開始來(lái)優(yōu)化清理,這與試圖定位潛在的 但未知的PII時(shí)將清理規(guī)則的全集應(yīng)用到消息相比,大大減少了處理時(shí)間。
[0054] 在各個(gè)實(shí)施例中,PII類型元數(shù)據(jù)與清理器友好對(duì)象一起行進(jìn),允許在開發(fā)環(huán)境中 的其它組件或清理器友好應(yīng)用以便于保護(hù)PII的方式與清理器友好對(duì)象進(jìn)行交互。例如,將 數(shù)據(jù)記錄或?qū)懭氲轿募械姆椒梢曰谠獢?shù)據(jù)來(lái)識(shí)別數(shù)據(jù)包含PII,并在寫入到日志或 文件中之前保護(hù)ΡΠ (例如,編校、散列或加密),除非命令明確授權(quán)將未經(jīng)保護(hù)的PII保存。 在各個(gè)實(shí)施例中,記錄代理響應(yīng)于PII元數(shù)據(jù)。因此,記錄代理知道在正被生成的消息中出 現(xiàn)的信息(包括PII)的類型。這種記錄代理可以生成清理器友好日志,其易于創(chuàng)建、可使用, 并具有可預(yù)測(cè)格式,該可預(yù)測(cè)格式允許將用戶信息定為目標(biāo)以便由PII清理系統(tǒng)清理。
[0055] 雖然清理器友好開發(fā)環(huán)境提供了一種機(jī)制來(lái)克服在為收集上下文信息而對(duì)生產(chǎn) 日志進(jìn)行的檢查中固有的許多限制,但生產(chǎn)日志檢查仍然是用于獲得適合與清理代理一起 使用的基本上下文信息和/或生成清理器配置文件的一個(gè)可行選項(xiàng)。這尤其適合于上下文 信息不能在開發(fā)期間收集的情況(例如,來(lái)自不再被開發(fā)的或不在組織的控制下開發(fā)的應(yīng) 用的日志)。
[0056]圖2是用于使用PII清理系統(tǒng)保護(hù)PII的如外科手術(shù)般地清理的方法的一個(gè)實(shí)施例 的高級(jí)流程圖。如外科手術(shù)般地清理的方法200開始于上下文收集操作202,其收集關(guān)于在 日志中發(fā)現(xiàn)的PII的位置和類型的信息。上下文信息可以在當(dāng)(例如,通過(guò)開發(fā)者)創(chuàng)建日志 或者(例如,通過(guò)監(jiān)察人員)根據(jù)對(duì)現(xiàn)有日志的分析而確定日志時(shí)提供。
[0057]在生成配置操作204中,上下文信息被用于生成與日志或日志類型相關(guān)聯(lián)的清理 器配置。清理器配置包含關(guān)于在日志消息中在何處定位PII以及如何處理PII的指令??梢?基于對(duì)使用清理器配置來(lái)清理的日志的分析,隨著時(shí)間細(xì)化清理器配置。當(dāng)處理來(lái)自相關(guān) 聯(lián)日志的消息時(shí),使得清理器配置對(duì)于清理代理是可用于使用的。在各個(gè)實(shí)施例中,清理器 配置被存儲(chǔ)在集中配置倉(cāng)庫(kù)中。在一些實(shí)施例中,來(lái)自配置倉(cāng)庫(kù)的清理器配置的副本被部 署于運(yùn)行清理代理的系統(tǒng)上,并且清理代理使用清理器配置的本地副本。如果現(xiàn)有的清理 器配置被修改,或新的清理器配置被創(chuàng)建,則那些清理器配置可被上傳到所述配置倉(cāng)庫(kù),在 所述配置倉(cāng)庫(kù)處可以將清理器配置重新部署到其它系統(tǒng)。
[0058] 在日志生成操作206中,記錄代理生成可能包含PII的消息。日志生成操作的實(shí)施 例產(chǎn)生具有允許容易地對(duì)PII進(jìn)行定位的可解析的消息的清理器友好日志。例如,記錄代理 可能不允許調(diào)用者選擇參數(shù)的位置。換句話說(shuō),對(duì)于非結(jié)構(gòu)化數(shù)據(jù)字段,記錄代理并不簡(jiǎn)單 地接受開發(fā)者所創(chuàng)建的文本串。相反,記錄代理可能鼓勵(lì)開發(fā)者以有組織的方式供應(yīng)日志 消息的內(nèi)容。例如,記錄代理可以從調(diào)用者接受文本消息和一系列"名稱/值"的對(duì),并產(chǎn)生 格式化消息,其中所有定界符脫離輸入?yún)?shù)。在各個(gè)實(shí)施例中,清理器友好日志可以包括符 合以下格式的消息:
[0059] {自由形式文本}: {名稱1} = {:值1};{名稱2} = {:值2};…
[0060] 例如:
[0061] 用戶登錄:用戶= jd〇e;源Ip = 1〇· 1.50.103
[0062]在一些實(shí)施例中,記錄代理可以限制文本消息的長(zhǎng)度,但是接受任意數(shù)量的"名 稱/值"的對(duì)或清理器友好對(duì)象作為變?cè)?argument)。記錄代理然后可以通過(guò)定界符(例如, 默認(rèn)的或開發(fā)者供應(yīng)的定界符)將"名稱/值"的對(duì)格式化成非結(jié)構(gòu)化數(shù)據(jù)字段。當(dāng)將對(duì)清理 器友好對(duì)象的引用作為變?cè)獣r(shí),名稱變?cè)赡懿皇潜匦璧?。相反,記錄代理可以從PII元數(shù) 據(jù)獲得對(duì)應(yīng)的名稱,或可以使用基于PII類型的標(biāo)準(zhǔn)化名稱。標(biāo)準(zhǔn)化名稱可以用于使得日志 消息更可預(yù)測(cè),這使得更容易定位和保護(hù)在消息中的PII。利用一般用戶標(biāo)識(shí)符數(shù)據(jù)類型作 為例子,開發(fā)者提供的名稱可以選擇如"user_id"、"user"、"username"、"user_name"、 "name"、"login"的名稱或其它描述符。與在非結(jié)構(gòu)化數(shù)據(jù)字段中的未加標(biāo)簽的數(shù)據(jù)相比, 這些名稱確實(shí)提供了容易的方式來(lái)識(shí)別應(yīng)該被清理的PII;但是,可能的變化(包括拼寫錯(cuò) 誤),降低了自動(dòng)PII清理邏輯的有效性,沒(méi)有額外的信息。在各個(gè)實(shí)施例中,參數(shù)鍵包括:消 息標(biāo)識(shí)符一一其表示包含數(shù)據(jù)的特定消息,用于定位對(duì)應(yīng)的PII值的名稱(即,在"名稱/值" 的對(duì)中的名稱),以及PII類型;但是,可以包括其它信息,例如列索引。參數(shù)鍵通過(guò)對(duì)與PII 相關(guān)聯(lián)的名稱和數(shù)據(jù)類型進(jìn)行識(shí)別和鏈接,從而提供對(duì)標(biāo)準(zhǔn)化命名的替代。
[0063] 消息呈現(xiàn)操作208向清理代理呈現(xiàn)日志消息以供處理。記錄代理可以將消息發(fā)送 給清理代理,或者清理代理可以從日志中取回消息。消息可以被單獨(dú)訪問(wèn)或成組訪問(wèn)。例 如,記錄代理可以在每個(gè)消息被生成時(shí)將該消息發(fā)送給清理代理。替代地,記錄代理可以在 數(shù)據(jù)流被關(guān)閉時(shí)發(fā)送消息集合。在另一例子中,清理代理可以定期(例如,每小時(shí)或每天)讀 取日志,并處理自從上次讀取日志后添加的任何新的消息。
[0064]獲得清理器配置操作210向清理代理提供了對(duì)消息進(jìn)行清理所需的清理器配置 (即,規(guī)則和上下文信息)。在一些實(shí)施例中,為不同的日志或日志類型提供不同的清理器配 置,并且適當(dāng)?shù)那謇砥髋渲檬腔趯?duì)日志的識(shí)別而加載的。在其它實(shí)施例中,全局清理器配 置包含用于多個(gè)日志或日志類型的規(guī)則集,并且適當(dāng)?shù)囊?guī)則集是基于對(duì)日志的識(shí)別而應(yīng)用 的。
[0065]消息清理操作212利用清理器配置提供的規(guī)則和上下文信息,來(lái)定位和替換在消 息中的PII。在消息清理操作之后,可選的后處理操作214可以準(zhǔn)備消息以便在數(shù)據(jù)倉(cāng)庫(kù)中 存儲(chǔ)。在各個(gè)實(shí)施例中,后處理操作包括可選的注釋操作,其以正確解釋消息所需的額外信 息來(lái)注釋消息,一旦消息被添加到數(shù)據(jù)倉(cāng)庫(kù)中則該注釋操作被需要。例如,清理代理所接收 到的消息可能不包括時(shí)間戳或日期戳,這允許消息序列一旦被添加到數(shù)據(jù)倉(cāng)庫(kù)中就被重 構(gòu),從而注釋操作可以向消息添加時(shí)間戳或日期戳或序列號(hào)??梢蕴砑拥较⒅械钠渌?息包括例如消息源(例如,服務(wù)器標(biāo)識(shí)符)等信息。后處理操作還可以可選地包括兼容性操 作,其使得消息處于與數(shù)據(jù)倉(cāng)庫(kù)要求兼容的格式。例如,數(shù)據(jù)倉(cāng)庫(kù)可能要求所有數(shù)據(jù)被存儲(chǔ) 為字符串。因此,在將消息傳輸?shù)綌?shù)據(jù)倉(cāng)庫(kù)之前,可以對(duì)消息進(jìn)行串行化、編碼或以其它方 式格式化。
[0066]最后,受保護(hù)的記錄存儲(chǔ)操作216將經(jīng)清理的消息與受保護(hù)格式的PII發(fā)送到數(shù)據(jù) 倉(cāng)庫(kù)。一旦在數(shù)據(jù)倉(cāng)庫(kù)中,經(jīng)清理的消息就是可用的,以便被數(shù)據(jù)的各種顧客使用。
[0067]圖3是在清理器友好開發(fā)環(huán)境中收集關(guān)于PII的上下文信息的如外科手術(shù)般地清 理的方法的收集上下文信息操作的一個(gè)實(shí)施例的高級(jí)流程圖。清理器配置方法300開始于 PII元數(shù)據(jù)創(chuàng)建操作302,其將關(guān)于PII類型的信息與在清理器友好開發(fā)環(huán)境中的清理器友 好對(duì)象鏈接。當(dāng)清理器友好對(duì)象被創(chuàng)建時(shí),PII類型可以默認(rèn)為未分類/通用類型,其將需要 檢查。開發(fā)者可以人工更新PII類型以反映可能或打算由對(duì)象存儲(chǔ)的PII的類型。當(dāng)對(duì)象的 相關(guān)屬性改變時(shí),PII類型可以自動(dòng)更新。例如,如果對(duì)應(yīng)于電話號(hào)碼的字段掩碼或格式被 應(yīng)用于清理器友好控制件,則PII類型將改變以表示該值是電話號(hào)碼。
[0068] 元數(shù)據(jù)轉(zhuǎn)移操作(metadata porting operation)304涉及隨著清理器友好對(duì)象移 動(dòng)PII元數(shù)據(jù),其允許在開發(fā)環(huán)境中或清理器友好應(yīng)用中的組件利用上下文信息。如本文所 描述的,記錄代理可以使用與被記錄以生成清理器友好日志的信息相關(guān)聯(lián)的PII元數(shù)據(jù),所 述清理器友好日志使得能夠基于所供應(yīng)的清理器配置通過(guò)清理代理進(jìn)行如外科手術(shù)般的 清理。
[0069]參數(shù)鍵生成操作306產(chǎn)生一個(gè)或多個(gè)參數(shù)鍵(即,報(bào)告),其提供關(guān)于由被記錄的應(yīng) 用基于底層PII元數(shù)據(jù)所收集的信息的細(xì)節(jié)。報(bào)告可以詳述所有清理器友好對(duì)象,或受限于 作為變?cè)o記錄代理或記錄方法傳遞的清理器友好對(duì)象。在各個(gè)實(shí)施例中,當(dāng)被記錄的應(yīng) 用被編譯時(shí),和/或經(jīng)要求時(shí),由開發(fā)環(huán)境生成參數(shù)鍵。在一些實(shí)施例中,當(dāng)日志被生成并且 可以經(jīng)要求而產(chǎn)生時(shí),由被記錄的應(yīng)用或記錄代理來(lái)建立參數(shù)鍵。參數(shù)鍵可以以多種格式 產(chǎn)生。例如,可以提供人類檢查者使用的以人性化格式(例如,表格格式)出現(xiàn)的一個(gè)版本, 以及更適于軟件應(yīng)用(例如,記錄代理或清理代理)使用的替代版本。替代格式的例子包括 但不限于,被逗號(hào)分隔開的值和可擴(kuò)展標(biāo)記語(yǔ)言(XML)。
[0070] 圖4是消息清理操作212的一個(gè)實(shí)施例的高級(jí)流程圖??蛇x的預(yù)解析過(guò)濾操作402 基于消息中的內(nèi)容是否匹配在清理器配置中指定的過(guò)濾參數(shù)(例如,模式),來(lái)確定該消息 是否應(yīng)該被處理。消息解析操作404基于在清理器配置中指定的解析器參數(shù),將消息解析為 字段。處理操作406基于在清理器配置中指定的處理器參數(shù)來(lái)保護(hù)PII。字段選擇操作408選 擇將清理的字段。處理操作可以涉及一個(gè)或多個(gè)子操作,所述子操作施加清理?xiàng)l件,或就如 何處理選定的字段來(lái)進(jìn)行細(xì)化。子操作可以包括字段解析操作410,或用于在選定字段中定 位PII的搜索操作412。字段解析操作將字段解析為子字段或"名稱/值"的對(duì)。搜索操作在選 定字段中查找與在清理器配置中指定的過(guò)濾參數(shù)(例如,模式)相匹配的內(nèi)容。子操作還可 以包括過(guò)濾操作414,其基于消息中的字段的內(nèi)容是否匹配在清理器配置中指定的過(guò)濾參 數(shù)而確定選定字段是否應(yīng)該被處理。
[0071] 為了滿足由子操作施加的任意條件,替換值生成操作416生成用于在選定字段中 的PII的替換值。替換技術(shù)的選擇通常是在最小化數(shù)據(jù)損失、減少對(duì)性能的影響以及管理數(shù) 據(jù)膨脹三者之間的平衡動(dòng)作??捎锰鎿Q技術(shù)的例子包括但不限于:編校、靜態(tài)置換、泛化、散 列和加密。
[0072] 編校是這樣一種動(dòng)作:從消息中完全刪除PII而不表明PII曾經(jīng)存在過(guò)。編校非常 快速,但是罕有合適的。靜態(tài)置換是一種用表明PII被去除但是不表明PII值是什么的靜態(tài) 標(biāo)記來(lái)替換PII的動(dòng)作。靜態(tài)置換也很快速并且是可檢測(cè)的,但是沒(méi)有留下關(guān)于PII的可用 信息。
[0073] 泛化是一種用可以允許識(shí)別個(gè)體所屬的組或種類而不識(shí)別個(gè)體的泛化值替換PII 的方法。泛化可以用通配符替換PII部分,或使用查找表或?qū)€(gè)體映射到組中的功能。例如, 電話號(hào)碼可以通過(guò)用星號(hào)替換最后四位來(lái)泛化,或者IP地址可以利用發(fā)現(xiàn)與IP地址相關(guān)聯(lián) 的國(guó)家從而暴露用戶的泛化位置(即,國(guó)家)而不是用戶的IP地址的查找表來(lái)泛化。泛化通 常是不可逆的并導(dǎo)致一些信息丟失。
[0074] 散列是一種用散列碼來(lái)替換PII的動(dòng)作。散列碼是利用表示用戶但是不識(shí)別用戶 的單向散列(one way hash)生成的唯一值。換句話說(shuō),每個(gè)不同的散列碼識(shí)別一個(gè)不同的 用戶,但是散列碼自身不提供實(shí)際的用戶信息。利用散列鍵可以使得參考值與散列PII相互 關(guān)聯(lián),這允許授權(quán)用戶發(fā)現(xiàn)日志中的對(duì)應(yīng)條目。例如,為了定位與特定用戶相關(guān)聯(lián)的日志條 目,可以利用與原先對(duì)日志進(jìn)行散列所利用的相同的鍵對(duì)所述用戶的用戶id進(jìn)行散列。然 后可以搜索日志以尋找那個(gè)散列鍵而不是用戶名稱。
[0075] 加密是應(yīng)用密碼以對(duì)PII進(jìn)行加密和保護(hù)的行為。需要解密秘鑰來(lái)對(duì)密碼文本進(jìn) 行解密,并訪問(wèn)受保護(hù)的PII。加密保存了原始的PII,但是一般具有最高的處理成本。
[0076] 在各個(gè)實(shí)施例中,可以使用編校技術(shù)的組合或多種編校技術(shù)。例如,單個(gè)PII值可 能具有多個(gè)泛化,并且因此PII編校應(yīng)該支持每編校多于一個(gè)泛化。對(duì)多種替換技術(shù)的利用 提供了以多種格式的經(jīng)清理的數(shù)據(jù),并且允許了具有不同的訪問(wèn)級(jí)別和需要的人員利用數(shù) 據(jù),同時(shí)僅暴露必要的量的PII。
[0077]如外科手術(shù)般地對(duì)PII進(jìn)行清理,允許顧客從清理日志獲得大量信息卻不具有對(duì) PII的訪問(wèn)權(quán)或在一些情況下具有對(duì)PII的有限訪問(wèn)權(quán)。一些顧客可能僅需要獲得用戶的計(jì) 數(shù),或者拉取針對(duì)特定區(qū)域或特定用戶的信息。通常,可以利用散列值之間的相互關(guān)聯(lián)獲得 必要信息。例如,包含以這種方式清理的路徑的日志消息是通過(guò)為尋找與特定用戶名稱(例 如,jdoe)或文件名稱(例如,letter to smith.docx)相對(duì)應(yīng)的散列值而進(jìn)行的搜索來(lái)返回 的,而不是必須對(duì)能夠包含該數(shù)據(jù)的每條可能路徑進(jìn)行搜索。然而,這僅在單獨(dú)地對(duì)PII產(chǎn) 生散列時(shí)起作用??紤]以下日志消息,示出了 PII被非結(jié)構(gòu)化數(shù)據(jù)圍繞的例子:
[0078] 用戶jdoe登錄。
[0079] 創(chuàng)建了文件 c: \users\jdoe\documents\test · docx。
[0080] 用戶注冊(cè)了電子郵件地址jdoeOhotmail · com。
[0081] 在沒(méi)有途徑來(lái)可預(yù)測(cè)地且有效地定位PII的情況下,整體值將被保護(hù)。用于 "jdoe"、"c: \users\jdoe\documents\test · docx" 和 "jdoeOhotmail · com" 的散列是完全不 同的,且不能被相互關(guān)聯(lián)。即使所有的消息指的是同一用戶,也沒(méi)有辦法使用散列來(lái)找到該 數(shù)據(jù)。為了使用該數(shù)據(jù),顧客必須下載和解密每個(gè)消息,暴露其可能包含的任意其它PII。 [0082]清理器配置所提供的能力和靈活性允許清理代理被配置為精確地僅以PII為目標(biāo) 來(lái)進(jìn)行替換,并且留下周圍的非個(gè)人信息未受影響,即使當(dāng)PII與以非結(jié)構(gòu)化數(shù)據(jù)的非個(gè)人 信息相混合時(shí)。例如,當(dāng)處理來(lái)自操作系統(tǒng)的具有用戶簡(jiǎn)檔特定文件名稱的日志時(shí),清理代 理可以配置為僅清理路徑中專用于用戶的部分(例如,用戶名稱和文件名稱)。因此,路徑 "c:\users\jdoe\documents\letter to smith.docx" 變?yōu)?"c:\users\###\ d〇CUmentS\##r,這原封不動(dòng)地留下了更多信息,且與將整個(gè)路徑在單次編校中保護(hù)相比 提供了更大的機(jī)會(huì)進(jìn)行分析。類似地,已知數(shù)據(jù)表示電子郵件地址,則用戶名稱和域名可以 被獨(dú)立地編校,從而這兩部分都可以單獨(dú)地相互關(guān)聯(lián)。此外,使用清理器友好日志進(jìn)一步增 強(qiáng)了 PII清理系統(tǒng)的如外科手術(shù)般地清理的能力。
[0083]在一些實(shí)施例中,清理代理存儲(chǔ)對(duì)PII的引用,而不是每當(dāng)針對(duì)頻繁重復(fù)的用戶信 息(例如,賬戶名稱和IP地址)而要求ΡΠ 時(shí)都計(jì)算并且存儲(chǔ)PII。存儲(chǔ)對(duì)PII的引用的效率隨 著由清理代理處理的數(shù)據(jù)量的增加而增加,例如,在使得整個(gè)系統(tǒng)專用于PII清理的集中式 清理代理中。在各個(gè)實(shí)施例中,清理代理包括對(duì)加密PII圖(其用于查找對(duì)先前加密值的引 用)的PII散列。換句話說(shuō),只有先前尚未遇到的PII是必須被加密的,這減少了處理時(shí)間。可 以通過(guò)存儲(chǔ)GUID風(fēng)格的標(biāo)識(shí)符而不是散列和密文,來(lái)減少在經(jīng)清理的日志中的膨脹。可以 通過(guò)使用規(guī)范化的PII值來(lái)本質(zhì)上改善命中率,從而增加整體的效率,但是當(dāng)以規(guī)范化的 PII而不是原始PII來(lái)重新創(chuàng)建日志時(shí)以可能損失一些細(xì)節(jié)為代價(jià)。
[0084] 用PII標(biāo)簽(PII tag)替換子字符串使得報(bào)告更加復(fù)雜且更加低效,這是因?yàn)楸仨?對(duì)字符串進(jìn)行搜索以尋找PII標(biāo)簽。為了最小化效率損失,清理代理的實(shí)施例將PII放置在 能夠被獨(dú)立地搜索的單獨(dú)字段中。一些實(shí)施例將標(biāo)記放置在經(jīng)清理的數(shù)據(jù)中表示PII的位 置,并在字符串的開始處存儲(chǔ)ΡΠ 替換。這允許報(bào)告系統(tǒng)快速識(shí)別所述字符串包含受保護(hù)的 PII,并在需要相互關(guān)聯(lián)以增加響應(yīng)時(shí)間時(shí)更早地開始尋找散列。
[0085] 雖然參數(shù)鍵和清理器友好日志是有用的組件,但它們將不會(huì)總是可用的。例如,將 要被清理的日志可以來(lái)自不受組織控制的源,并且因此,不被提供為清理器友好日志和/或 具有參數(shù)鍵。當(dāng)缺少適當(dāng)?shù)纳舷挛男畔⒒虍?dāng)未發(fā)現(xiàn)期望的PII類型時(shí),清理代理的操作取決 于在對(duì)PII進(jìn)行保護(hù)的徹底性和對(duì)日志進(jìn)行清理的效率(即,處理時(shí)間的量)之間選擇的平 衡。在各個(gè)實(shí)施例中,當(dāng)未發(fā)現(xiàn)期望的PII類型時(shí),清理代理可以試圖確定實(shí)際的PII類型, 并應(yīng)用對(duì)應(yīng)的清理規(guī)則。在其它實(shí)施例中,清理代理僅掃描消息以尋找期望的PII類型,并 在未發(fā)現(xiàn)期望的PII類型時(shí)簡(jiǎn)單地移動(dòng)到下一消息上。
[0086]在替換值的生成之后,"經(jīng)清理的消息的重構(gòu)"操作418對(duì)用替換值替換了 PII的消 息進(jìn)行重構(gòu)。
[0087]圖5A是示出由PII清理系統(tǒng)的一個(gè)實(shí)施例利用對(duì)應(yīng)清理器配置在第一日志上執(zhí)行 的清理操作的流程圖。在圖示的實(shí)施例中,清理代理接收第一日志500a和對(duì)應(yīng)的清理器配 置502a作為輸入。清理器配置包含可應(yīng)用于對(duì)應(yīng)的日志上的清理規(guī)則,即,規(guī)則集504a。圖 示實(shí)施例示出了利用標(biāo)記語(yǔ)言(例如但不限于,XML)實(shí)現(xiàn)的清理器配置。但是,清理器配置 還可以以其它格式實(shí)現(xiàn)。
[0088]在各個(gè)實(shí)施例中,通過(guò)記錄代理向?qū)?yīng)的清理器配置提供日志。在一些實(shí)施例中, 當(dāng)接收到日志時(shí),清理代理從可用的SC的倉(cāng)庫(kù)中選擇對(duì)應(yīng)的清理器配置。在這種情況下,記 錄代理可以提供日志標(biāo)識(shí)符。例如,當(dāng)進(jìn)行對(duì)清理代理的連接和/或日志標(biāo)識(shí)符可以納入到 日志中時(shí),記錄代理可以提供日志標(biāo)識(shí)符。日志標(biāo)識(shí)符可以是通用的或?qū)S玫臉?biāo)識(shí)符,其可 以表明日志、日志類型、創(chuàng)建日志的記錄代理、對(duì)應(yīng)的清理器配置、或任何其它在處理日志 時(shí)清理代理應(yīng)該使用的能夠用于將日志與對(duì)應(yīng)的清理器配置相匹配的信息。可以通過(guò)將日 志標(biāo)識(shí)符與清理器配置中的配置標(biāo)識(shí)符506a相匹配,來(lái)選擇對(duì)應(yīng)的清理器配置。在圖示的 實(shí)施例中,日志的第一行攜帶日志標(biāo)識(shí)符508a。
[0089] 配置標(biāo)識(shí)符還可以用作日志標(biāo)識(shí)符特定規(guī)則集的容器。在一些實(shí)施例中,清理器 配置可以包括用于多個(gè)日志的規(guī)則集,其中每個(gè)規(guī)則集是利用唯一配置標(biāo)識(shí)符來(lái)識(shí)別的, 并且清理代理通過(guò)將配置標(biāo)識(shí)符和日志標(biāo)識(shí)符相匹配來(lái)選擇適當(dāng)?shù)囊?guī)則集。
[0090] PII清理系統(tǒng)的實(shí)施例利用信號(hào)510a來(lái)表示清理器配置包含規(guī)則集。如果信號(hào)不 存在于清理器配置中,則清理代理可以對(duì)日志加標(biāo)志(flag)以供操作員檢查、基于日志標(biāo) 識(shí)符回復(fù)到默認(rèn)(例如,硬編碼)清理規(guī)則、和/或?qū)⒃撊罩竞雎?。在各個(gè)實(shí)施例中,規(guī)則集包 括根解析規(guī)則作為信號(hào)。根解析規(guī)則包含關(guān)于如何將日志的每行分離成字段的指令。例如, 根解析規(guī)則可以包括定界符,其由清理代理用于將每個(gè)消息分離成字段;或包括消息標(biāo)識(shí) 符,其指示清理代理使用預(yù)定義的解析算法來(lái)將常見消息格式(common message format) 分離成字段。個(gè)體字段是通過(guò)它們的索引可尋址的。在一些實(shí)施例中,預(yù)定義的解析算法可 以提供可以用于尋址特定字段的字段名稱。根解析規(guī)則有效地充當(dāng)包含對(duì)于給定規(guī)則集的 所有規(guī)則的初級(jí)處理組。
[0091] 出于說(shuō)明目的,簡(jiǎn)化版本的互聯(lián)網(wǎng)信息日志示出為代表性日志。互聯(lián)網(wǎng)信息日志 具有以空格定界的六列(即,字段)。第三列包含IP地址,其被認(rèn)為是PII,并且第六列包含查 詢字符串,其中一些可能包含PII。
[0092] 根解析規(guī)則指定應(yīng)該利用空格()作為定界符將每個(gè)消息解析為字段。過(guò)濾器 512a指定應(yīng)該在解析消息之前評(píng)估消息,并且應(yīng)該跳過(guò)以字符開始的任何消息(例如, 評(píng)論)。
[0093]第一處理器514a是在第三字段上操作的條件規(guī)則,并且包括搜索解析器516a。搜 索解析器指示清理代理發(fā)現(xiàn)與在目標(biāo)字段中的選定模式匹配的任何事物。為了方便和一 致,清理代理可以具有已定義的搜索解析器用于選定的數(shù)據(jù)類型。預(yù)定義的搜索解析器的 例子包括但不限于共同數(shù)據(jù)類型,例如通用互聯(lián)網(wǎng)協(xié)議(IP)地址、版本特定IP地址(例如, IPv4和IPv6地址)以及SMTP地址。在一些實(shí)施例中,利用表達(dá)式語(yǔ)言來(lái)定義搜索模式(例如, 正則表達(dá)式),可以在清理器配置中指定定制搜索解析器。
[0094]與搜索解析器嵌套的是結(jié)果處理器518a。結(jié)果處理器指定如何處理由搜索處理器 返回的結(jié)果。結(jié)果處理器可以指定匹配應(yīng)該受到保護(hù)的選定模式的數(shù)據(jù)的實(shí)例。例如,結(jié)果 處理器可以指定字段中數(shù)據(jù)類型的所有實(shí)例或字段中數(shù)據(jù)類型的僅第二實(shí)例應(yīng)該被保護(hù)。 結(jié)果處理器還可以指定與數(shù)據(jù)項(xiàng)相匹配的部分應(yīng)該被保護(hù)。例如,在IPv4地址的情況下,結(jié) 果處理器可以指示清理代理僅清理最后的區(qū)段(segment)。在圖示的實(shí)施例中,搜索解析器 指示清理代理發(fā)現(xiàn)在目標(biāo)字段中的IPv4地址,并且結(jié)果處理器指定應(yīng)該通過(guò)對(duì)全部地址進(jìn) 行散列來(lái)清理由搜索解析器返回的每個(gè)IPv4地址。
[0095] 規(guī)則集還定義處理組520a。處理組指示清理代理將一組規(guī)則一起處理。例如,處理 組可以包括選擇滿足指定標(biāo)準(zhǔn)的消息的過(guò)濾器,以及在選定消息上操作的處理器。在圖示 實(shí)施例中,在處理組中的過(guò)濾器522a指定僅包含在第五字段中的特定值的消息服從處理組 中的額外規(guī)則。在處理組中的頂級(jí)處理器524a指定嵌套的規(guī)則在第六字段中操作。通過(guò)該 頂級(jí)處理器,字段解析器526a指定應(yīng)該將目標(biāo)字段解析為"名稱/值"的對(duì),其中所述"對(duì)"通 過(guò)"與號(hào)"("&" ^ampersand)來(lái)定界,并且在"對(duì)"中的名稱和值通過(guò)等號(hào)("=")定界。 解析器結(jié)果處理器528a指定僅與名稱"Userid"配對(duì)的值應(yīng)該通過(guò)對(duì)該值進(jìn)行散列而被清 理。在來(lái)自互聯(lián)網(wǎng)信息日志的記錄上運(yùn)行該清理器配置,將產(chǎn)生受保護(hù)的記錄作為輸出 530a。為了易讀,將冗長(zhǎng)的PII替換(例如,散列值)表示為"###"。
[0096]圖5B是示出由PII清理系統(tǒng)的一個(gè)實(shí)施例利用與先前例子相同的清理器配置,在 第二日志上執(zhí)行的清理操作的流程圖。第二互聯(lián)網(wǎng)信息日志500b具有用空格定界的六個(gè)字 段。如在第一互聯(lián)網(wǎng)信息日志中,每個(gè)消息包含IP地址,其被視為PII,并且第六列包含查詢 字符串,其中一些可能包含PII,但是在第二互聯(lián)網(wǎng)信息日志中的消息在小的但是重要的方 面不同。
[0097]在來(lái)自互聯(lián)網(wǎng)信息日志的記錄上運(yùn)行清理器配置將產(chǎn)生受保護(hù)的記錄作為輸出 530b。在這種情況下,IP地址出現(xiàn)在第二字段,其不被清理。在第三字段中的服務(wù)器名稱并 不匹配由IPv4搜索解析器進(jìn)行搜索以尋找的模式,從而其不被清理。倘若簡(jiǎn)單字段替換處 理器已就位(例如,〈Processor FieldIndex = 〃3〃ReplacementStrategy = 〃Hash0nIy〃/>), 則服務(wù)器名稱將會(huì)被不必要地清理。最后,名稱"User"不匹配規(guī)則,并且相關(guān)聯(lián)的值不被清 理。為了易讀,冗長(zhǎng)的PII替換將被表示為"邱#"。
[0098]圖5C是由PII清理系統(tǒng)的一個(gè)實(shí)施例利用修改版本的清理器配置在第二日志上執(zhí) 行的清理操作的流程圖。在該情況下,修改的清理器配置502c包括額外的處理器532c,用于 在字段5中的IPv4地址上操作。此外,將指定應(yīng)該清理與名稱"User"配對(duì)的值的結(jié)果處理器 534c添加到處理組。結(jié)果,第二處理器現(xiàn)在清理"Userid"和"User"兩者的值??梢允褂闷渌?變型來(lái)實(shí)現(xiàn)相同結(jié)果。例如,如果清理器接受通配符,則可以在原始條件處理器中使用例如 "User*"(其中是通配符)的參數(shù)來(lái)實(shí)現(xiàn)相同結(jié)果。在于來(lái)自第二互聯(lián)網(wǎng)信息日志的記錄 上運(yùn)行修改的清理器配置時(shí)獲得的輸出530c現(xiàn)在導(dǎo)致被保護(hù)的PII,并且示出了PII清理系 統(tǒng)的靈活性。如以前,為了易讀,將冗長(zhǎng)的PII替換(例如,散列值)表示為"###"。
[0099]圖5D是由PII清理系統(tǒng)的一個(gè)實(shí)施例執(zhí)行的清理操作的流程圖,示出了退回到默 認(rèn)清理規(guī)則的結(jié)果。在該情況下,清理器配置502d不提供規(guī)則集。PII清理系統(tǒng)的實(shí)施例可 以將來(lái)自傳統(tǒng)清理器的硬編碼邏輯納入,或者可以利用傳統(tǒng)清理器作為基礎(chǔ)來(lái)被構(gòu)建。雖 然并不理想,但是來(lái)自傳統(tǒng)清理器的硬編碼邏輯在規(guī)則集未被提供時(shí)允許PII清理系統(tǒng)繼 續(xù)清理p II。
[0100] 用于該特定互聯(lián)網(wǎng)信息日志的默認(rèn)清理規(guī)則具有硬編碼邏輯,其總是清理第三列 和第六列(也即,IP地址和查詢字符串)。默認(rèn)的清理規(guī)則可以允許清理代理識(shí)別特定類型 的PII,但是沒(méi)有機(jī)會(huì)指定PII類型。清理IP地址是相當(dāng)例行的任務(wù),但是清理查詢字符串則 是另一回事。因此,整個(gè)查詢字符串將作為PII的單個(gè)實(shí)例來(lái)被清理(例如,加密和散列),除 非默認(rèn)的清理規(guī)則碰巧涵蓋查詢字符串。此外,雖然僅某些查詢字符串包含PII,但是所有 的查詢字符串將被清理。利用默認(rèn)的清理規(guī)則獲得的輸出530d混淆每個(gè)查詢字符串的整個(gè) 值,即使僅一些行和僅一部分查詢字符串包含PII。再次,為了易讀,將冗長(zhǎng)的PII替換(例 如,散列值)表示為"###"。
[0101] 利用默認(rèn)清理規(guī)則的該場(chǎng)景還呈現(xiàn)過(guò)度清理(其是保護(hù)非敏感數(shù)據(jù)的動(dòng)作)的經(jīng) 典例子。過(guò)度清理(over-scrubbing)在目前是處理、存儲(chǔ)和使用數(shù)據(jù)的高成本中最大的因 素,這是因?yàn)槠湎奶幚砥鲿r(shí)間、增加日志大小、并使得不可能運(yùn)行使用了包含于查詢字符 串中的數(shù)據(jù)的報(bào)告。增加日志大小的原因在于,PII的每個(gè)實(shí)例不管多小都會(huì)導(dǎo)致創(chuàng)建類似 于以下的替換值:
[0102] <PII :H101(6BAt0ovxxwocsXiPsI19PzYJ4wnRguL7t26IGmj8H0s = ) :E103 (rrmLUjprk8wKxZqxieqXwCJerfUqSlmbdVscoqlsH2E=)> 過(guò)度清理的兩個(gè)常見原因包括:不 能分辨哪些行或哪些列實(shí)際包含PII,并且缺少有效方式來(lái)僅以PII為目標(biāo)。因此,較大部分 的數(shù)據(jù)以被清理而告終,以避免將PII泄漏給上傳的數(shù)據(jù)的風(fēng)險(xiǎn)。
[0103] 該應(yīng)用的主題可以在多個(gè)實(shí)施例中實(shí)踐,所述實(shí)施例例如作為系統(tǒng)、設(shè)備和其它 制品,或作為方法。實(shí)施例可以實(shí)現(xiàn)為硬件、軟件、計(jì)算機(jī)可讀介質(zhì)或其組合。本文描述的實(shí) 施例和功能可以經(jīng)由多個(gè)計(jì)算系統(tǒng)進(jìn)行操作,所述計(jì)算系統(tǒng)包括但不限于臺(tái)式計(jì)算機(jī)系 統(tǒng)、有線和無(wú)線計(jì)算系統(tǒng)、移動(dòng)計(jì)算系統(tǒng)(例如,移動(dòng)電話、上網(wǎng)本、平板或板型計(jì)算機(jī)、筆記 本計(jì)算機(jī)和膝上型計(jì)算機(jī))、手持設(shè)備、多處理器系統(tǒng)、基于微處理器的或可編程消費(fèi)者電 子產(chǎn)品、微型計(jì)算機(jī)以及大型計(jì)算機(jī)。
[0104] 各種類型的用戶界面和信息可以經(jīng)由機(jī)載計(jì)算設(shè)備顯示器或者經(jīng)由與一個(gè)或多 個(gè)計(jì)算設(shè)備相關(guān)聯(lián)的遠(yuǎn)程顯示器單元來(lái)顯示。例如,可以在投影各種類型的用戶界面和信 息的墻面上顯示各種類型的用戶界面和信息并與之交互。與可以實(shí)踐本發(fā)明實(shí)施例的多個(gè) 計(jì)算系統(tǒng)交互可以包括,擊鍵輸入、觸摸屏輸入、語(yǔ)音或其它音頻輸入、在相關(guān)聯(lián)的計(jì)算設(shè) 備裝備有檢測(cè)(例如,攝像機(jī))功能以用于捕捉和解釋用戶手勢(shì)從而控制計(jì)算設(shè)備的功能時(shí) 的手勢(shì)輸入,等等。
[0105] 圖6和圖7以及相關(guān)聯(lián)的描述提供了可以實(shí)踐本發(fā)明實(shí)施例的多種操作環(huán)境的討 論。然而,示出和討論的設(shè)備和系統(tǒng)出于示例和說(shuō)明的目的,而并不限于可以用于實(shí)踐上述 本發(fā)明實(shí)施例的多種計(jì)算設(shè)備配置。
[0106] 圖6是示出可以實(shí)踐本發(fā)明實(shí)施例的計(jì)算設(shè)備600的物理組件(即,硬件)的框圖。 下文描述的計(jì)算設(shè)備組件可能適于具體實(shí)現(xiàn)計(jì)算設(shè)備,包括但不限于,個(gè)人計(jì)算機(jī)、平板計(jì) 算機(jī)、表面計(jì)算機(jī)以及智能手機(jī),或者本文所討論的任意其它計(jì)算設(shè)備。在基本配置中,計(jì) 算設(shè)備600可以包括至少一個(gè)處理單元602和系統(tǒng)存儲(chǔ)器604。取決于計(jì)算設(shè)備的配置和類 型,系統(tǒng)存儲(chǔ)器604可以包括但不限于,易失性存儲(chǔ)設(shè)備(例如,隨機(jī)存取存儲(chǔ)器)、非易失性 存儲(chǔ)設(shè)備(例如,只讀存儲(chǔ)器)、閃存、或者這些存儲(chǔ)器的任意組合。系統(tǒng)存儲(chǔ)器604可以包括 操作系統(tǒng)605和一個(gè)或多個(gè)程序模塊606,其適于運(yùn)行軟件應(yīng)用620,例如記錄代理102、清理 代理112以及開發(fā)環(huán)境130。例如,操作系統(tǒng)605可以適于控制計(jì)算設(shè)備600的操作。此外,本 發(fā)明的實(shí)施例可以結(jié)合圖形庫(kù)、其它操作系統(tǒng)或任意其它應(yīng)用程序?qū)嵺`,且不限于任何特 定應(yīng)用或系統(tǒng)。該基本配置由虛線608以內(nèi)的那些組件示出。計(jì)算設(shè)備600可以具有額外特 征或功能。例如,計(jì)算設(shè)備600還可以包括額外數(shù)據(jù)存儲(chǔ)設(shè)備(可去除和/或不可去除),例 如,磁盤、光盤或磁帶。這種額外的存儲(chǔ)設(shè)備由可去除存儲(chǔ)設(shè)備609和不可去除存儲(chǔ)設(shè)備610 示出。
[0107] 如上所述,多個(gè)程序模塊和數(shù)據(jù)文件可以存儲(chǔ)于系統(tǒng)存儲(chǔ)器604中。雖然在處理單 元602上執(zhí)行,但是軟件應(yīng)用620可以執(zhí)行過(guò)程,過(guò)程包括但不限于如外科手術(shù)般地清理的 方法300的一個(gè)或多個(gè)階段??梢愿鶕?jù)本發(fā)明的實(shí)施例使用的其它程序模塊可以包括電子 郵件和聯(lián)系人應(yīng)用、文字處理應(yīng)用、電子表單應(yīng)用、數(shù)據(jù)庫(kù)應(yīng)用、幻燈片演示應(yīng)用、繪圖或計(jì) 算機(jī)輔助應(yīng)用程序,等等。
[0108] 此外,本發(fā)明的實(shí)施例可以通過(guò)如下實(shí)踐:包括離散電子元件的電路、包含邏輯門 的封裝的或集成的電子芯片、利用微處理器的電路、或者包含電子元件或微處理器的單個(gè) 芯片。例如,可以經(jīng)由片上系統(tǒng)(SOC)實(shí)踐本發(fā)明的實(shí)施例,其中每個(gè)或多個(gè)圖示組件可以 集成到單個(gè)集成電路上。這種SOC設(shè)備可以包括一個(gè)或多個(gè)處理單元、圖形單元、通信單元、 系統(tǒng)虛擬單元以及各種應(yīng)用,其在功能上都集成(或"燒制")到芯片基底上作為單個(gè)集成電 路。當(dāng)經(jīng)由SOC操作時(shí),本文所描述的關(guān)于軟件應(yīng)用620的功能可以經(jīng)由與單個(gè)集成電路(芯 片)上的計(jì)算設(shè)備600的其它組件集成的專用邏輯進(jìn)行操作。本發(fā)明的實(shí)施例還可以利用能 夠執(zhí)行邏輯操作(例如,"與"、"或"和"非")的其它數(shù)據(jù)來(lái)實(shí)踐,包括但不限于機(jī)械、光、流體 和量子技術(shù)。另外,本發(fā)明的實(shí)施例可以在通用計(jì)算機(jī)或在任意其它電路或系統(tǒng)中實(shí)踐。
[0109] 計(jì)算設(shè)備600還可以具有一個(gè)或多個(gè)輸入設(shè)備612,例如鍵盤、鼠標(biāo)、筆、聲音輸入 設(shè)備、觸摸輸入設(shè)備等。還可以包括輸出設(shè)備614,例如顯示器、揚(yáng)聲器、打印機(jī)等。前述設(shè)備 是舉例,其它設(shè)備也可以使用。計(jì)算設(shè)備600可以包括一個(gè)或多個(gè)通信連接616,其允許與其 它計(jì)算設(shè)備618通信。適當(dāng)?shù)耐ㄐ胚B接616的例子包括但不限于RF發(fā)送器、接收器和/或收發(fā) 器電路;通用串行總線(USB),并行和/或串行端口。
[0110] 本文所使用的術(shù)語(yǔ)"計(jì)算機(jī)可讀介質(zhì)"可以包括計(jì)算機(jī)存儲(chǔ)介質(zhì)。計(jì)算機(jī)存儲(chǔ)介質(zhì) 可以包括易失性和非易失性、去除和不可去除的介質(zhì),其被實(shí)現(xiàn)在用于存儲(chǔ)信息(例如,計(jì) 算機(jī)可讀指令、數(shù)據(jù)結(jié)構(gòu)或程序模塊)的任何方法或技術(shù)中。系統(tǒng)存儲(chǔ)器604、可去除存儲(chǔ)設(shè) 備609和不可去除存儲(chǔ)設(shè)備610都是計(jì)算機(jī)存儲(chǔ)介質(zhì)(即,存儲(chǔ)器存儲(chǔ)設(shè)備)的例子。計(jì)算機(jī) 存儲(chǔ)介質(zhì)可以包括隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(R0M)、電可擦除只讀存儲(chǔ)器 (EEPROM)、閃存或其它存儲(chǔ)器技術(shù),壓縮盤只讀存儲(chǔ)器(CD-ROM)、數(shù)字通用盤(DVD)或其它 光盤、磁帶盒、磁帶、磁盤存儲(chǔ)設(shè)備或其它磁存儲(chǔ)設(shè)備,或者可以用于存儲(chǔ)信息并可由計(jì)算 設(shè)備600訪問(wèn)的任意其它制品。任意這種計(jì)算機(jī)存儲(chǔ)介質(zhì)可以是計(jì)算設(shè)備600的一部分。
[0111] 圖7A和7B示出了可以實(shí)踐本發(fā)明實(shí)施例的移動(dòng)計(jì)算設(shè)備700。適當(dāng)?shù)囊苿?dòng)計(jì)算設(shè) 備的例子包括但不限于,移動(dòng)電話、智能手機(jī)、平板計(jì)算機(jī)、表面計(jì)算機(jī)以及膝上型計(jì)算機(jī)。 在基本配置中,移動(dòng)計(jì)算設(shè)備700是既具有輸入元件又具有輸出元件的手持計(jì)算機(jī)。移動(dòng)計(jì) 算設(shè)備700通常包括顯示器705以及一個(gè)或多個(gè)輸入按鈕710,其允許用戶將信息輸入到移 動(dòng)計(jì)算設(shè)備700。移動(dòng)計(jì)算設(shè)備700的顯示器705還可以用作輸入設(shè)備(例如,觸摸屏顯示 器)??蛇x的側(cè)邊輸入元件715如果被包含,則允許進(jìn)一步的用戶輸入。側(cè)邊輸入元件715可 以是旋轉(zhuǎn)開關(guān)、按鈕或任意其它類型的人工輸入元件。在替代實(shí)施例中,移動(dòng)計(jì)算設(shè)備700 可以納入更多或更少的輸入元件。例如,顯示器705在一些實(shí)施例中可以不是觸摸屏。在另 一替代實(shí)施例中,移動(dòng)計(jì)算設(shè)備700是便攜式電話系統(tǒng),例如蜂窩電話。移動(dòng)計(jì)算設(shè)備700還 可以包括可選的小鍵盤735??蛇x小鍵盤735可以是物理小鍵盤,或者是在觸摸屏顯示器上 生成的"軟"小鍵盤。在各個(gè)實(shí)施例中,輸出元件包括用于顯示圖形用戶界面的顯示器705, 視覺(jué)指示器720(例如,發(fā)光二極管),和/或音頻換能器725(例如,揚(yáng)聲器)。在一些實(shí)施例 中,移動(dòng)計(jì)算設(shè)備700納入了振動(dòng)換能器,用于向用戶提供觸覺(jué)反饋。在又一實(shí)施例中,移動(dòng) 計(jì)算設(shè)備700納入了輸入和/或輸出端口,例如,音頻輸入(例如,麥克風(fēng)插孔)、音頻輸出(例 如,耳機(jī)插孔)、以及用于從外部設(shè)備接收信號(hào)或發(fā)送信道到外部設(shè)備的視頻輸出(例如, HDiO端口)。
[0112] 圖7B是示出移動(dòng)計(jì)算設(shè)備的一個(gè)實(shí)施例的架構(gòu)的框圖。也就是,移動(dòng)計(jì)算設(shè)備700 可以將系統(tǒng)(即,架構(gòu))702納入,以實(shí)現(xiàn)一些實(shí)施例。在一個(gè)實(shí)施例中,系統(tǒng)702實(shí)現(xiàn)為智能 手機(jī),其能夠運(yùn)行一個(gè)或多個(gè)應(yīng)用(例如,瀏覽器、電子郵件客戶端、筆記、聯(lián)系人管理器、消 息收發(fā)客戶端、游戲以及媒體客戶端/播放器)。在一些實(shí)施例中,系統(tǒng)702集成為計(jì)算設(shè)備, 例如,集成的個(gè)人數(shù)字助理(PDA)和無(wú)線電話。
[0113] -個(gè)或多個(gè)應(yīng)用程序765可以加載到存儲(chǔ)器762中,并運(yùn)行于操作系統(tǒng)764上或與 操作系統(tǒng)764相關(guān)聯(lián)。應(yīng)用程序的例子包括電話撥號(hào)器程序、電子郵件程序、個(gè)人信息管理 (PM)程序、文字處理程序、電子表單程序、互聯(lián)網(wǎng)瀏覽器程序、消息收發(fā)程序等。系統(tǒng)702還 包括在存儲(chǔ)器762中的非易失性存儲(chǔ)區(qū)域768。非易失性存儲(chǔ)區(qū)域768可以用于存儲(chǔ)持續(xù)信 息,其在系統(tǒng)702掉電時(shí)不會(huì)丟失。應(yīng)用程序765可以使用和存儲(chǔ)在非易失性存儲(chǔ)區(qū)域768中 的信息,例如,電子郵件應(yīng)用所使用的電子郵件或其它消息等。同步應(yīng)用(未示出)也駐留在 系統(tǒng)702上,并被編程為與駐留在主機(jī)計(jì)算機(jī)上的對(duì)應(yīng)同步應(yīng)用交互,以保持存儲(chǔ)于非易失 性存儲(chǔ)區(qū)域768中的信息與存儲(chǔ)于主機(jī)計(jì)算機(jī)上的對(duì)應(yīng)信息同步。如應(yīng)該理解的是,其它應(yīng) 用可以加載到存儲(chǔ)器762上,并運(yùn)行于移動(dòng)計(jì)算設(shè)備700上,包括本文描述的軟件應(yīng)用620。
[0114] 系統(tǒng)702具有電源770,其可以實(shí)現(xiàn)為一個(gè)或多個(gè)電池。電源770還可以包括外部電 源,例如為電池補(bǔ)充或充電的AC適配器或供電底座。
[0115]系統(tǒng)702還可以包括無(wú)線電設(shè)備772,其執(zhí)行發(fā)送和接收射頻通信的功能。無(wú)線電 設(shè)備772便于經(jīng)由通信載體或服務(wù)提供商在系統(tǒng)702和外部世界之間的無(wú)線連接。在操作系 統(tǒng)764的控制下進(jìn)行到和往無(wú)線電設(shè)備772的傳輸。換句話說(shuō),通過(guò)無(wú)線電設(shè)備772接收到的 通信可以被經(jīng)由操作系統(tǒng)764傳播到應(yīng)用程序765,反之亦然。
[0116]視覺(jué)指示器720可以用于提供視覺(jué)通知,和/或音頻接口 774可以用于經(jīng)由音頻換 能器725產(chǎn)生可聽通知。在圖示實(shí)施例中,視覺(jué)指示器720是發(fā)光二極管(LED),并且音頻換 能器725是揚(yáng)聲器。這些設(shè)備可以直接耦合到電源770,從而當(dāng)被激活時(shí),它們?cè)谕ㄖ獧C(jī)制所 指示的持續(xù)時(shí)間內(nèi)保持開啟,即使處理器760和其它組件可能關(guān)閉以保存電池電力。LED可 以被編程為無(wú)限保持開啟,直到用戶采取動(dòng)作來(lái)指示設(shè)備的通電狀態(tài)為止。音頻接口 774用 于提供可聽信號(hào),并從用戶處接收可聽信號(hào)。例如,除了耦合到音頻換能器725上外,音頻接 口 774還可以耦合到麥克風(fēng)以接收可聽輸入,例如,便于電話會(huì)話。根據(jù)本發(fā)明的實(shí)施例,麥 克風(fēng)還可以用作音頻傳感器以便于控制通知,如下文所述。系統(tǒng)702還可以包括視頻接口 776,其使得機(jī)載攝像機(jī)730能夠操作以記錄靜止圖像、視頻流等。
[0117]實(shí)現(xiàn)系統(tǒng)702的移動(dòng)計(jì)算設(shè)備700可以具有額外的特征或功能。例如,移動(dòng)計(jì)算設(shè) 備700還可以包括額外的數(shù)據(jù)存儲(chǔ)設(shè)備(可去除的和/或不可去除的),例如,磁盤、光盤或磁 帶。這種額外的存儲(chǔ)設(shè)備由非易失性存儲(chǔ)區(qū)域768所示。
[0118]通過(guò)移動(dòng)計(jì)算設(shè)備700生成或捕捉且經(jīng)由系統(tǒng)702存儲(chǔ)的數(shù)據(jù)/信息可以本地存儲(chǔ) 于移動(dòng)計(jì)算設(shè)備700上,如上所述,或者數(shù)據(jù)可以存儲(chǔ)在任意數(shù)量的存儲(chǔ)介質(zhì)上,該存儲(chǔ)介 質(zhì)可以由該設(shè)備經(jīng)由無(wú)線電設(shè)備722或經(jīng)由移動(dòng)計(jì)算設(shè)備700和與移動(dòng)計(jì)算設(shè)備700相關(guān)聯(lián) 的分離的計(jì)算設(shè)備(例如,在諸如因特網(wǎng)的分布式計(jì)算網(wǎng)絡(luò)中的服務(wù)器計(jì)算機(jī))之間的有線 連接進(jìn)行訪問(wèn)。如應(yīng)該理解的,這種數(shù)據(jù)/信息可以經(jīng)由移動(dòng)計(jì)算設(shè)備700經(jīng)由無(wú)線電設(shè)備 772或經(jīng)由分布式計(jì)算網(wǎng)絡(luò)訪問(wèn)。類似地,這種數(shù)據(jù)/信息可以根據(jù)已知的數(shù)據(jù)/信息轉(zhuǎn)移和 存儲(chǔ)單元,包括電子郵件和合作數(shù)據(jù)/信息共享系統(tǒng),在計(jì)算設(shè)備之間容易地轉(zhuǎn)移以進(jìn)行存 儲(chǔ)和使用。
[0119] 圖8示出了用于向一個(gè)或多個(gè)客戶端設(shè)備提供PII清理系統(tǒng)功能的系統(tǒng)的架構(gòu)的 一個(gè)實(shí)施例,如上所述。通過(guò)軟件應(yīng)用620開發(fā)、交互或與其關(guān)聯(lián)而編輯的內(nèi)容可以存儲(chǔ)于 不同的通信信道中或其它存儲(chǔ)類型中。例如,可以利用目錄服務(wù)822、web門戶824、郵箱服務(wù) 826、即時(shí)消息收發(fā)存貯828或社交網(wǎng)站830存儲(chǔ)各種文檔。軟件應(yīng)用620可以使用任意這些 類型的系統(tǒng)等以進(jìn)行數(shù)據(jù)利用,如本文所述。服務(wù)器820可以向客戶端提供軟件應(yīng)用620。作 為一個(gè)例子,服務(wù)器820可以是通過(guò)web提供軟件應(yīng)用620的web服務(wù)器。服務(wù)器820可以通過(guò) web向客戶端經(jīng)由網(wǎng)絡(luò)815提供軟件應(yīng)用620。通過(guò)舉例,客戶端計(jì)算設(shè)備可以實(shí)現(xiàn)為計(jì)算設(shè) 備600,并具體實(shí)現(xiàn)在個(gè)人計(jì)算機(jī)802a、平板計(jì)算機(jī)802b和/或移動(dòng)計(jì)算設(shè)備802c (例如,智 能手機(jī))中??蛻舳嗽O(shè)備的任意這些實(shí)施例可以從存貯816獲得內(nèi)容。
[0120] 在該申請(qǐng)中提供的一個(gè)或多個(gè)實(shí)施例的說(shuō)明和圖示旨在向本領(lǐng)域技術(shù)人員提供 對(duì)主題的全部范圍的完全徹底和完整的公開,并非旨在以任意方式限制或約束本發(fā)明的范 圍。在本申請(qǐng)中提供的實(shí)施例、例子和細(xì)節(jié)被認(rèn)為足以傳達(dá)所有權(quán),并使得本領(lǐng)域技術(shù)人員 能夠?qū)嵺`所要求保護(hù)發(fā)明的最佳模式??梢院?jiǎn)述或省略對(duì)本領(lǐng)域技術(shù)人員公知的結(jié)構(gòu)、資 源、操作和動(dòng)作的描述,以避免模糊本申請(qǐng)的主題的較少為人所知的或唯一的方面。所要求 保護(hù)的發(fā)明不應(yīng)解釋為受限于在本申請(qǐng)中提供的任何實(shí)施例、例子或細(xì)節(jié),除非在本文另 有明確陳述。不管是綜合或單獨(dú)示出或描述,(結(jié)構(gòu)和方法兩者的)各個(gè)特征意圖是被選擇 性包含或省略,以產(chǎn)生具有特定特征組的實(shí)施例。此外,任何或所有示出或描述的功能和動(dòng) 作可以以任意順序或并發(fā)地執(zhí)行。在提供了本申請(qǐng)的描述和圖示的情況下,本領(lǐng)域技術(shù)人 員可以設(shè)想到落入在本申請(qǐng)中具體實(shí)現(xiàn)的通用發(fā)明概念的較廣方面的精神內(nèi)的變型、修改 和替代實(shí)施例,而不背離所要求保護(hù)的發(fā)明的廣泛范圍。
【主權(quán)項(xiàng)】
1. 一種對(duì)具有既包含非個(gè)人數(shù)據(jù)又包含個(gè)人可識(shí)別信息的消息的數(shù)據(jù)集進(jìn)行清理的 方法,所述方法包括以下動(dòng)作: 加載既包含非個(gè)人數(shù)據(jù)又包含個(gè)人可識(shí)別信息的消息; 加載包含用于對(duì)所述數(shù)據(jù)集進(jìn)行清理的規(guī)則集的清理器配置; 基于所述規(guī)則集僅清理在所述消息中的所述個(gè)人可識(shí)別信息,以產(chǎn)生經(jīng)清理的消息; 以及 保存所述經(jīng)清理的消息。2. 根據(jù)權(quán)利要求1所述的方法,其中,所述規(guī)則集包括用于對(duì)所述數(shù)據(jù)集進(jìn)行清理的根 解析規(guī)則和孩子規(guī)則。3. 根據(jù)權(quán)利要求2所述的方法,其中,基于所述規(guī)則集清理在所述消息中的所述個(gè)人可 識(shí)別信息以產(chǎn)生經(jīng)清理的消息的動(dòng)作還包括以下動(dòng)作: 基于所述根解析規(guī)則,將所述消息解析為字段;以及 基于所述孩子規(guī)則,清理在所述消息的選定字段中的所述個(gè)人可識(shí)別信息。4. 根據(jù)權(quán)利要求3所述的方法,其中,基于所述根解析規(guī)則將所述消息解析為字段的動(dòng) 作還包括以下動(dòng)作:基于在所述根解析規(guī)則中指定的消息類型,將所述消息拆分為預(yù)定義 的字段集。5. 根據(jù)權(quán)利要求3所述的方法,其中,基于所述孩子規(guī)則保護(hù)在所述消息的選定字段中 的所述個(gè)人可識(shí)別信息的動(dòng)作還包括以下動(dòng)作:應(yīng)用在所述孩子規(guī)則中指定的處理規(guī)則, 以保護(hù)在所述處理規(guī)則中指定的在選定字段中的個(gè)人可識(shí)別信息。6. 根據(jù)權(quán)利要求5所述的方法,其中,應(yīng)用在所述孩子規(guī)則中指定的處理規(guī)則以保護(hù)在 所述處理規(guī)則中指定的在選定字段中的個(gè)人可識(shí)別信息的動(dòng)作還包括以下動(dòng)作: 應(yīng)用在所述孩子規(guī)則中指定的解析規(guī)則來(lái)搜索所述選定字段以尋找具有在所述解析 規(guī)則中指定的類型的個(gè)人可識(shí)別信息;以及 保護(hù)在所述選定字段中發(fā)現(xiàn)的具有所指定的類型的所述個(gè)人可識(shí)別信息。7. 根據(jù)權(quán)利要求1所述的方法,其中,基于所述規(guī)則集僅清理在所述消息中的所述個(gè)人 可識(shí)別信息以產(chǎn)生經(jīng)清理的消息的動(dòng)作還包括以下動(dòng)作: 基于來(lái)自所述清理器配置的規(guī)則,在所述消息中存儲(chǔ)針對(duì)個(gè)人可識(shí)別信息的每個(gè)唯一 實(shí)例的替換值;以及 當(dāng)復(fù)制所述個(gè)人可識(shí)別信息的實(shí)例時(shí),重復(fù)使用所述替換值。8. -種用于從消息中清理個(gè)人可識(shí)別信息的系統(tǒng),所述系統(tǒng)包括: 清理器配置,其包括指定如何對(duì)在所述消息中出現(xiàn)的所述個(gè)人可識(shí)別信息進(jìn)行定位和 替換的根解析規(guī)則和處理規(guī)則,所述清理器配置對(duì)應(yīng)于包含消息的日志; 清理器代理,其加載所述清理器配置,所述清理器代理包括:解析引擎,其執(zhí)行所述根 解析以將所述消息分離成字段;以及處理引擎,其執(zhí)行所述處理規(guī)則以用替換值來(lái)替換在 選定字段中的所述個(gè)人可識(shí)別信息,從而防止所述個(gè)人可識(shí)別信息被暴露,但是允許特定 的個(gè)人可識(shí)別信息通過(guò)相互關(guān)聯(lián)而被定位。9. 根據(jù)權(quán)利要求8所述的系統(tǒng),其中,所述清理代理還包括過(guò)濾引擎,其執(zhí)行在所述清 理器配置中指定的過(guò)濾規(guī)則,以確定是否將所述根解析規(guī)則應(yīng)用到所述消息。10. -種包含計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令當(dāng)被計(jì)算 機(jī)執(zhí)行時(shí)執(zhí)行將個(gè)人可識(shí)別信息從日志中去除的方法,所述方法包括以下動(dòng)作: 加載既包含非個(gè)人數(shù)據(jù)又包含個(gè)人可識(shí)別信息的消息; 加載提供用于對(duì)在所述消息中的個(gè)人可識(shí)別信息進(jìn)行定位和保護(hù)的規(guī)則的清理器配 置,所述清理器配置與包含所述消息的對(duì)應(yīng)日志相關(guān)聯(lián); 將來(lái)自所述清理器配置的規(guī)則應(yīng)用到所述消息,以定位所述個(gè)人可識(shí)別信息; 基于來(lái)自所述清理器配置的規(guī)則,生成針對(duì)在所述消息中的所述個(gè)人可識(shí)別信息的替 換值; 用替換值代替在所述消息中的所述個(gè)人可識(shí)別信息,以創(chuàng)建經(jīng)清理的消息;以及 將所述經(jīng)清理的消息存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。
【文檔編號(hào)】G06F21/62GK105940410SQ201580006460
【公開日】2016年9月14日
【申請(qǐng)日】2015年1月23日
【發(fā)明人】M·比洛多, G·卡爾莫
【申請(qǐng)人】微軟技術(shù)許可有限責(zé)任公司