用于執(zhí)行機(jī)器學(xué)習(xí)的用戶界面和工作流的制作方法
【專利摘要】一種計(jì)算裝置經(jīng)由用戶界面接收訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多個(gè)敏感數(shù)據(jù)的正例和多個(gè)敏感數(shù)據(jù)的反例。計(jì)算裝置通過使用機(jī)器學(xué)習(xí)來分析所述訓(xùn)練數(shù)據(jù)集以便訓(xùn)練基于機(jī)器學(xué)習(xí)的檢測(MLD)的概況,MLD概況將用于將新數(shù)據(jù)分類為敏感數(shù)據(jù)或非敏感數(shù)據(jù)。計(jì)算裝置在所述用戶界面中顯示針對所述MLD概況的質(zhì)量度量。
【專利說明】用于執(zhí)行機(jī)器學(xué)習(xí)的用戶界面和工作流
【技術(shù)領(lǐng)域】
[0001]本發(fā)明的實(shí)施例涉及數(shù)據(jù)丟失防護(hù)的領(lǐng)域,且更特別地涉及提供使用戶能夠生成和配置基于機(jī)器學(xué)習(xí)的檢測(MLD)概況的界面的數(shù)據(jù)丟失防護(hù)(DLP)系統(tǒng)。
【背景技術(shù)】
[0002]許多組織實(shí)施數(shù)據(jù)丟失防護(hù)(DLP)系統(tǒng)來識別和控制對敏感數(shù)據(jù)的訪問。典型的DLP系統(tǒng)通過包括描述技術(shù)和指紋識別技術(shù)的深度內(nèi)容檢查和分析來保護(hù)敏感數(shù)據(jù)。描述技術(shù)通過識別對關(guān)鍵詞、表達(dá)式或圖案和文件類型的匹配并且通過執(zhí)行其它基于簽名的檢測技術(shù)來保護(hù)敏感數(shù)據(jù)。指紋識別技術(shù)通過識別對整體或部分文件的確切匹配來保護(hù)敏感數(shù)據(jù)。雖然有效保護(hù)了組織的敏感數(shù)據(jù)中的許多,但是當(dāng)解決大量的非結(jié)構(gòu)化數(shù)據(jù)和知識產(chǎn)權(quán)(諸如產(chǎn)品配方、源代碼以及銷售與市場報(bào)告時(shí),指紋識別技術(shù)和描述技術(shù)具有局限性。
[0003]為了更精確地保護(hù)敏感的非結(jié)構(gòu)化數(shù)據(jù),一些DLP系統(tǒng)正在探索向量機(jī)器學(xué)習(xí)(VML, vector machine learning)技術(shù)的使用。然而,實(shí)施VML是非常復(fù)雜的。因此,使用VML的當(dāng)前DLP系統(tǒng)需要VML專家來設(shè)計(jì)針對顧客的基于機(jī)器學(xué)習(xí)的檢測(MLD)概況。裝載到顧客的DLP系統(tǒng)則具有顧客不能夠修改的預(yù)先定義的MLD概況。這種DLP系統(tǒng)不提供使用戶能夠生成他們自身MLD概況的任何用戶界面或工作流。
【發(fā)明內(nèi)容】
[0004]在一個(gè)實(shí)施例中,計(jì)算裝置經(jīng)由針對機(jī)器學(xué)習(xí)(ML)的用戶界面接收訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括敏感數(shù)據(jù)的正例和敏感數(shù)據(jù)的反例。計(jì)算裝置通過使用機(jī)器學(xué)習(xí)來分析所述訓(xùn)練數(shù)據(jù)集以便訓(xùn)練MLD概況,所述MLD概況可以用于將新數(shù)據(jù)分類為敏感數(shù)據(jù)或非敏感數(shù)據(jù)。計(jì)算裝置在所述用戶界面中顯示針對所述MLD概況的質(zhì)量度量。在一個(gè)實(shí)施例中,所述MLD概況包括統(tǒng)計(jì)數(shù)據(jù)分類模型和特征集,所述特征集包括正例的統(tǒng)計(jì)上顯著特征和反例的統(tǒng)計(jì)上顯著特征,并且所述質(zhì)量度量包括假正面率、假反面率和存儲(chǔ)器利用率中的至少一種。在一個(gè)實(shí)施例中,所述計(jì)算裝置在所述用戶界面中從所述訓(xùn)練數(shù)據(jù)集識別引起假正面的數(shù)據(jù)和引起假反面的數(shù)據(jù)中的至少一種。
[0005]在一個(gè)實(shí)施例中,所述計(jì)算裝置在分析所述訓(xùn)練文檔集之前,經(jīng)由所述用戶界面接收存儲(chǔ)器分配的用戶選擇,其中針對類別數(shù)據(jù)的所述存儲(chǔ)器利用率符合所述存儲(chǔ)器分配。在一個(gè)實(shí)施例中,如果所述假正面率在假正面閾值內(nèi)并且所述假反面率在假反面閾值內(nèi),計(jì)算裝置就能夠?qū)崿F(xiàn)配置操作。響應(yīng)于接收配置操作的用戶請求,計(jì)算裝置將所述MLD概況添加到DLP系統(tǒng)的數(shù)據(jù)丟失防護(hù)(DLP)策略中。
[0006]在一個(gè)實(shí)施例中,所述計(jì)算裝置接收針對敏感數(shù)據(jù)的正例和針對敏感數(shù)據(jù)的反例的類別信息。所述計(jì)算裝置然后可以在用戶界面中識別添加到訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)類別來改進(jìn)所述質(zhì)量度量。在一個(gè)實(shí)施例中,如果所述質(zhì)量度量不能滿足質(zhì)量閾值,則所述計(jì)算裝置就響應(yīng)于用戶輸入來修改所述訓(xùn)練數(shù)據(jù)集。所述計(jì)算裝置然后分析修改的訓(xùn)練數(shù)據(jù)集以保持所述MLD概況并且在所述用戶界面中顯示針對所述MLD概況的新質(zhì)量度量。
[0007]在一個(gè)實(shí)施例中,通過DLP系統(tǒng)的數(shù)據(jù)丟失防護(hù)(DLP)策略收集所述訓(xùn)練數(shù)據(jù)集,所述多個(gè)敏感數(shù)據(jù)的反例包括由所述DLP策略錯(cuò)誤分類為敏感文檔的文檔。在該實(shí)施例中,所述計(jì)算裝置然后可以將所述MLD概況配置到所述DLP策略中。
[0008]在一個(gè)實(shí)施例中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括指令,所述指令將使執(zhí)行指令的處理器:經(jīng)由針對機(jī)器學(xué)習(xí)的用戶界面來接收包括多個(gè)敏感數(shù)據(jù)的正例和多個(gè)敏感數(shù)據(jù)的反例的訓(xùn)練數(shù)據(jù)集。所述處理器然后通過使用機(jī)器學(xué)習(xí)來分析所述訓(xùn)練數(shù)據(jù)集以便訓(xùn)練基于機(jī)器學(xué)習(xí)的檢測(MLD)概況,所述基于機(jī)器學(xué)習(xí)的檢測(MLD)概況可以用于將新數(shù)據(jù)分類為敏感數(shù)據(jù)或非敏感數(shù)據(jù)并且在所述用戶界面中顯示針對所述MLD概況的質(zhì)量度量。
[0009]在一個(gè)實(shí)施例中,一種用于生成MLD概況的方法包括:經(jīng)由針對機(jī)器學(xué)習(xí)的用戶界面來接收包括多個(gè)敏感數(shù)據(jù)的正例和多個(gè)敏感數(shù)據(jù)的反例的訓(xùn)練數(shù)據(jù)集;通過使用機(jī)器學(xué)習(xí)來分析所述訓(xùn)練數(shù)據(jù)集以便訓(xùn)練基于機(jī)器學(xué)習(xí)的檢測(MLD)概況,所述基于機(jī)器學(xué)習(xí)的檢測(MLD)概況可以用于將新數(shù)據(jù)分類為敏感數(shù)據(jù)或非敏感數(shù)據(jù);以及在所述用戶界面中顯示針對所述MLD概況的質(zhì)量度量。
【專利附圖】
【附圖說明】
[0010]根據(jù)以下給出的詳細(xì)說明并且根據(jù)本發(fā)明各種實(shí)施例的附圖,將更充分地理解本發(fā)明。
[0011]圖1圖示了根據(jù)本發(fā)明一個(gè)實(shí)施例的示例性系統(tǒng)架構(gòu)。
[0012]圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的數(shù)據(jù)丟失防護(hù)代理的框圖。
[0013]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的機(jī)器學(xué)習(xí)管理器的框圖。
[0014]圖4是圖示用于生成和配置MLD概況的方法的一個(gè)實(shí)施例的流程圖。
[0015]圖5至8圖示了根據(jù)本發(fā)明實(shí)施例的用于生成和配置MLD概況的用戶界面的各種視圖。
[0016]圖9是示出根據(jù)本發(fā)明一個(gè)實(shí)施例的在MLD概況生成期間的ML管理器的不同狀態(tài)的狀態(tài)圖。
[0017]圖10是圖示用于生成MLD概況并且配置MLD概況到現(xiàn)存的策略中的方法的一個(gè)實(shí)施例的流程圖。
[0018]圖11是圖示用于通過使用包括MLD概況的DLP策略來保護(hù)計(jì)算裝置免于數(shù)據(jù)丟失的方法的一個(gè)實(shí)施例的流程圖。
[0019]圖12是可以執(zhí)行本文描述的一個(gè)或多個(gè)操作的示例性計(jì)算機(jī)系統(tǒng)的框圖。【具體實(shí)施方式】
[0020]描述了一種用于生成、配置和管理針對數(shù)據(jù)丟失防護(hù)(DLP)系統(tǒng)的基于機(jī)器學(xué)習(xí)的檢測(MLD)概況的系統(tǒng)和方法。在本發(fā)明的實(shí)施例中,該系統(tǒng)和方法提供了一種使(不是向量機(jī)器學(xué)習(xí)專家的)用戶能夠生成MLD概況的用戶界面和工作流。這減少了配置針對DLP的MLD概況的花費(fèi),并且改進(jìn)了 MLD概況的可配置性。此外,這使MLD概況能夠通過DLP管理器連續(xù)地改進(jìn)。
[0021]在以下的說明書中,闡述了眾多細(xì)節(jié)。然而,對從本公開內(nèi)容受益的本領(lǐng)域技術(shù)人員顯而易見的是,在沒有這些具體細(xì)節(jié)的情況下也可以實(shí)施本發(fā)明。在某些情況下,以框圖形式示出(而不是詳細(xì)示出)眾所周知的結(jié)構(gòu)和裝置,以便避免使本發(fā)明晦澀。例如,以下的說明書提供了針對在端點(diǎn)DLP系統(tǒng)中使用MLD概況的細(xì)節(jié)。然而,對本領(lǐng)域技術(shù)人員而言清晰的是,本發(fā)明的實(shí)施例還適用于使DLP系統(tǒng)聯(lián)網(wǎng)并且發(fā)現(xiàn)了 DLP系統(tǒng)(可以掃描存儲(chǔ)裝置以識別和/或分類敏感數(shù)據(jù)的DLP系統(tǒng))。例如,在本發(fā)明的實(shí)施例中,可以生成MLD概況用于檢測通過企業(yè)網(wǎng)絡(luò)移動(dòng)的敏感數(shù)據(jù)。
[0022]根據(jù)對計(jì)算機(jī)存儲(chǔ)器內(nèi)數(shù)據(jù)位操作的算法和符號表示,呈現(xiàn)了以下的詳細(xì)說明的一些部分。這些算法說明和表示是數(shù)據(jù)處理領(lǐng)域的普通技術(shù)人員使用的手段,以便最有效地將他們工作的實(shí)質(zhì)傳達(dá)給本領(lǐng)域的其它技術(shù)人員。算法在本文中且一般地構(gòu)思為導(dǎo)致期望結(jié)果的自我一致的步驟序列。這些步驟是需要物理量的物理操控的步驟。通常,盡管不是必要的,但是這些量采用能夠存儲(chǔ)、轉(zhuǎn)移、組合、比較以及以其它方式操控的電信號或磁信號的形式。主要出于通常使用的原因,已經(jīng)多次證明將這些信號稱為位、值、元素、符號、字符、術(shù)語、數(shù)字等等是方便的。
[0023]然而,應(yīng)該考慮到所有這些術(shù)語與類似術(shù)語都與適當(dāng)?shù)奈锢砹肯嚓P(guān)聯(lián),并且僅是適用于這些量的方便的標(biāo)簽。除非根據(jù)以下討論明顯另有特別說明,否則應(yīng)該領(lǐng)會(huì)的是,貫穿通篇說明書,利用諸如“接收”、“分析”、“顯示”、“啟動(dòng)”、“識別”、“修改”等術(shù)語的討論指的是計(jì)算機(jī)系統(tǒng)或類似電子計(jì)算裝置的動(dòng)作和過程,所述計(jì)算機(jī)系統(tǒng)和類似電子計(jì)算裝置操控如計(jì)算機(jī)系統(tǒng)的寄存器和存儲(chǔ)器內(nèi)的物理(例如,電子)量表示的數(shù)據(jù),并且將如計(jì)算機(jī)系統(tǒng)的寄存器和存儲(chǔ)器內(nèi)的物理(例如,電子)量表示的數(shù)據(jù)變換為類似表示為計(jì)算機(jī)系統(tǒng)存儲(chǔ)器或寄存器或其它這種信息存儲(chǔ)、傳輸或顯示裝置內(nèi)的物理量的其它數(shù)據(jù)。
[0024]本發(fā)明還涉及用于執(zhí)行本文操作的設(shè)備。該設(shè)備可以針對需要的目的而特殊地構(gòu)造,或者該設(shè)備可以包括由存儲(chǔ)在計(jì)算機(jī)中的計(jì)算機(jī)程序選擇性激活或重新配置的通用計(jì)算機(jī)。這種計(jì)算機(jī)程序可以存儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,諸如但不限于,包括軟盤、光盤、⑶-COM和磁光盤中任何類型的盤、只讀存儲(chǔ)器(ROM)、隨機(jī)存取存儲(chǔ)器(RAM)、EPROM、EEPR0M、磁卡或光卡、或適于存儲(chǔ)電子指令的任何類型的介質(zhì)。
[0025]圖1圖示了根據(jù)本發(fā)明一個(gè)實(shí)施例的示例性系統(tǒng)架構(gòu)100。該系統(tǒng)構(gòu)架100包括聯(lián)網(wǎng)到端點(diǎn)服務(wù)器115的多個(gè)端點(diǎn)裝置102A至102C,從而依次聯(lián)網(wǎng)到強(qiáng)制執(zhí)行服務(wù)器(enforcement server) 120。
[0026]每個(gè)端點(diǎn)裝置都可以是個(gè)人計(jì)算機(jī)(PC)、膝上型計(jì)算機(jī)、移動(dòng)電話、平板計(jì)算機(jī)或者可以由用戶訪問的任何其它計(jì)算裝置。每個(gè)端點(diǎn)裝置102A至102C具有多個(gè)不同的數(shù)據(jù)丟失向量。每個(gè)數(shù)據(jù)丟失向量都是通過其數(shù)據(jù)可以從端點(diǎn)裝置轉(zhuǎn)移出的路徑。數(shù)據(jù)丟失向量的示例包括燒錄(burning)文件到光盤、復(fù)制數(shù)據(jù)到便攜式驅(qū)動(dòng)器(例如,便攜式通用串行總線(USB)驅(qū)動(dòng)器)、打印數(shù)據(jù)到打印機(jī)、通過傳真機(jī)發(fā)送數(shù)據(jù)、發(fā)送電子郵件、發(fā)送即時(shí)消息、執(zhí)行打印屏幕操作等等。
[0027]端點(diǎn)裝置102A至102C中的每個(gè)都運(yùn)行管理端點(diǎn)裝置的硬件和軟件的操作系統(tǒng)
(OS)。OS 可以例如是 Microsoft? Window?、Linux?、Symbian?、Apple? 的 OS X?、Solaris?等等。一種或多種應(yīng)用運(yùn)行在OS上,并且各種操作,所述各種操作包括訪問、移動(dòng)、或以其它方式操控存在于數(shù)據(jù)存儲(chǔ)器(包括在端點(diǎn)裝置中、直接附接到端點(diǎn)裝置上或聯(lián)網(wǎng)到端點(diǎn)裝置沖的數(shù)據(jù)。例如,應(yīng)用可以包括⑶或DVD燒錄應(yīng)用、電子郵件應(yīng)用、網(wǎng)頁瀏覽器、即時(shí)消息應(yīng)用、打印應(yīng)用、打印屏幕功能等等。在一個(gè)實(shí)施例中,響應(yīng)于接收用戶指令,應(yīng)用執(zhí)行操作。
[0028]每個(gè)端點(diǎn)裝置102A至102C都可以連接到可以是硬盤驅(qū)動(dòng)器、磁帶備份、光驅(qū)動(dòng)器、易失性存儲(chǔ)器(例如,隨機(jī)存取存儲(chǔ)器(RAM))或其它存儲(chǔ)裝置的數(shù)據(jù)存儲(chǔ)器135A至135C上。數(shù)據(jù)存儲(chǔ)器135A至135C可以在端點(diǎn)裝置102A至102C內(nèi)部或端點(diǎn)裝置102A至102C外部。在一個(gè)實(shí)施例中,數(shù)據(jù)存儲(chǔ)器135A至135C可以組合到諸如存儲(chǔ)區(qū)域網(wǎng)絡(luò)(SAN)或網(wǎng)絡(luò)附接存儲(chǔ)器(NAS)等網(wǎng)絡(luò)存儲(chǔ)器中。在一個(gè)實(shí)施例中,數(shù)據(jù)存儲(chǔ)器135A至135C可以組合到諸如關(guān)系數(shù)據(jù)庫(relational database)之類的網(wǎng)絡(luò)數(shù)據(jù)庫中。數(shù)據(jù)存儲(chǔ)器135A至135C可以包含包括敏感信息的數(shù)據(jù)。數(shù)據(jù)可以包括文件(例如,文檔)、表格或其它數(shù)據(jù)格式。敏感信息的示例包括源代碼、患者健康信息、保險(xiǎn)索賠、產(chǎn)品配方、法律文檔、并購文檔、銷售與市場報(bào)告、社會(huì)保險(xiǎn)號碼、信用卡號碼等等。
[0029]每個(gè)端點(diǎn)裝置102A至102C都包括監(jiān)控?cái)?shù)據(jù)丟失向量的DLP代理106以確保敏感(例如,機(jī)密)信息不離開端點(diǎn)裝置用于非法目的。當(dāng)DLP代理106通過數(shù)據(jù)丟失向量移動(dòng)時(shí),和/或當(dāng)接收到通過數(shù)據(jù)丟失向量發(fā)送數(shù)據(jù)的請求時(shí),DLP代理106可以掃描數(shù)據(jù)。當(dāng)DLP代理106檢測到通過數(shù)據(jù)丟失向量移動(dòng)的數(shù)據(jù)或通過數(shù)據(jù)丟失向量移動(dòng)數(shù)據(jù)的請求時(shí),DLP代理106實(shí)施DLP策略110以確定數(shù)據(jù)是否是敏感數(shù)據(jù)(包括敏感信息)。DLP策略110可以規(guī)定待監(jiān)控的內(nèi)容類型(例如,消息、顯示的數(shù)據(jù)、存儲(chǔ)的文檔,等等),怎樣識別敏感數(shù)據(jù)和/或當(dāng)檢測到敏感數(shù)據(jù)時(shí)待執(zhí)行的動(dòng)作。在一個(gè)實(shí)施例中,DLP策略110包括MLD概況112。DLP代理106包括通過使用MLD概況112來處理數(shù)據(jù)的機(jī)器學(xué)習(xí)(ML)模塊108。通過使用MLD概況112來處理數(shù)據(jù),ML模塊108確定數(shù)據(jù)是否是敏感數(shù)據(jù)。
[0030]對于一些類型的DLP檢測技術(shù)而言,DLP代理106將數(shù)據(jù)發(fā)送到端點(diǎn)服務(wù)器115,并且包括在端點(diǎn)服務(wù)器115中的全局DLP檢測引擎122確定是否數(shù)據(jù)包括敏感信息。一旦全局DLP檢測引擎122確定文件還是其它數(shù)據(jù)包含敏感信息,端點(diǎn)服務(wù)器115就將消息發(fā)送回DLP代理106,從而陳述是否數(shù)據(jù)是敏感數(shù)據(jù)。如果數(shù)據(jù)包含機(jī)密信息,則DLP代理106可以執(zhí)行一個(gè)或多個(gè)動(dòng)作以強(qiáng)制執(zhí)行DLP策略110。在一個(gè)實(shí)施例中,全局DLP檢測引擎122包括ML模塊108和DLP策略126 (包括MLD概況128)。DLP策略128和MLD概況128可以不同于DLP策略110和MLD概況112。
[0031]在一個(gè)實(shí)施例中,端點(diǎn)服務(wù)器115充當(dāng)關(guān)于違反DLP策略的數(shù)據(jù)聚合器(例如,事件報(bào)告的聚合器)。端點(diǎn)服務(wù)器115可以從每個(gè)端點(diǎn)裝置102A至102C收集這種數(shù)據(jù),并且將收集的數(shù)據(jù)報(bào)告給強(qiáng)制執(zhí)行服務(wù)器120以用于分析。
[0032]強(qiáng)制執(zhí)行服務(wù)器120管理DLP策略。這可以包括生成并且修改DLP策略(例如,基于管理員輸入)。強(qiáng)制執(zhí)行服務(wù)器120然后可以將DLP策略傳播到端點(diǎn)服務(wù)器115和/或端點(diǎn)裝置102。此外,強(qiáng)制執(zhí)行服務(wù)器120可以生成DLP應(yīng)答規(guī)則,該DLP應(yīng)答規(guī)則還可以傳播到端點(diǎn)服務(wù)器115和/或端點(diǎn)裝置102。DLP應(yīng)答規(guī)則指明當(dāng)違反DLP策略時(shí)端點(diǎn)裝置102和/或端點(diǎn)服務(wù)器115采取的動(dòng)作。端點(diǎn)裝置可以采取的動(dòng)作的示例包括:將通知發(fā)送到管理員、防止數(shù)據(jù)通過數(shù)據(jù)丟失向量退出端點(diǎn)裝置102A至102C、將端點(diǎn)裝置鎖定使得沒有數(shù)據(jù)可以通過任何數(shù)據(jù)丟失向量移動(dòng)出端點(diǎn)裝置、當(dāng)數(shù)據(jù)移動(dòng)出端點(diǎn)裝置時(shí)對數(shù)據(jù)進(jìn)行加密等等。
[0033]在一個(gè)實(shí)施例中,強(qiáng)制執(zhí)行服務(wù)器120包括機(jī)器學(xué)習(xí)(ML)管理器130。ML管理器130提供針對用戶的用戶界面和工作流,以生成并配置MLD概況。參照附圖3在下文中更詳細(xì)地描述ML管理器130。
[0034]圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的數(shù)據(jù)丟失防護(hù)代理205的框圖。DLP代理205可以監(jiān)控不同的數(shù)據(jù)丟失向量、應(yīng)用、數(shù)據(jù),等等,以便檢測嘗試使數(shù)據(jù)移動(dòng)出端點(diǎn)裝置的操作。用戶發(fā)起的操作可以包括例如:保存或訪問端點(diǎn)裝置的任何存儲(chǔ)裝置上的受限數(shù)據(jù)庫數(shù)據(jù)、使用應(yīng)用中的受限數(shù)據(jù)庫數(shù)據(jù)、打印機(jī)密數(shù)據(jù)、使用網(wǎng)絡(luò)通信協(xié)議中的機(jī)密數(shù)據(jù)。
[0035]DLP代理205可以包括一個(gè)或多個(gè)策略違反檢測器,每個(gè)策略違反檢測器都可以處理不同的DLP策略250和/或DLP策略250內(nèi)的不同概況255、260、265以識別并且保護(hù)敏感數(shù)據(jù)。DLP策略250可以包括可以指示增加的數(shù)據(jù)丟失風(fēng)險(xiǎn)的標(biāo)準(zhǔn)。如果滿足包括在DLP策略250中的一個(gè)或多個(gè)標(biāo)準(zhǔn),則違反DLP策略250。標(biāo)準(zhǔn)的示例包括:用戶狀態(tài)(例如,是否用戶具有對文件的訪問特權(quán))、文件位置(例如,待復(fù)制文件是否存儲(chǔ)在機(jī)密數(shù)據(jù)庫中)、文件內(nèi)容(例如,是否文件包括敏感信息)、時(shí)間(例如,是否在正常營業(yè)時(shí)間期間請求操作)、數(shù)據(jù)丟失向量、嘗試操作的申請等等。
[0036]DLP策略250可以包括一個(gè)或多個(gè)概況255、260、265。每個(gè)概況都可以用于識別敏感數(shù)據(jù)。在一個(gè)實(shí)施例中,DLP策略250包括描述內(nèi)容匹配(DCM)概況255。DCM概況255定義一個(gè)或多個(gè)關(guān)鍵詞和/或待搜索的正則表達(dá)式(regular expression)。例如,通過使用正則表達(dá)式,DCM概況255可以定義社會(huì)保險(xiǎn)號碼。通過使用DCM策略255,DLP代理205確定是否包括在已掃描數(shù)據(jù)中的任何信息與關(guān)鍵詞和/或正則表達(dá)式匹配。如果發(fā)現(xiàn)匹配,則可以確定數(shù)據(jù)包括敏感信息。
[0037]在一個(gè)實(shí)施例中,DLP策略250包括確切數(shù)據(jù)匹配(EDM)概況和/或索引文檔匹配(IDM)概況260。確切數(shù)據(jù)匹配(EDM)可以用于保護(hù)諸如數(shù)據(jù)庫記錄之類的典型結(jié)構(gòu)化格式的數(shù)據(jù)。索引文檔匹配(IDM)可以用于保護(hù)諸如Microsoft? Word或PowerPoint?文檔或CAD制圖之類的非結(jié)構(gòu)化數(shù)據(jù)。對于EDM和IDM而言,敏感數(shù)據(jù)首先由希望保護(hù)數(shù)據(jù)的組織識別,并且然后采集指紋以用于精確、不間斷的檢測。在一個(gè)實(shí)施例中,采集指紋過程包括:訪問并提取文本和數(shù)據(jù)、使文本和數(shù)據(jù)正規(guī)化,并且通過使用不可逆散列來保護(hù)文本和數(shù)據(jù)。當(dāng)掃描文件或其它數(shù)據(jù)時(shí),指紋(例如,散列)根據(jù)該文件或該文件的內(nèi)容生成,并且與存儲(chǔ)的指紋進(jìn)行比較。如果發(fā)現(xiàn)匹配,則掃描的文件識別為包含敏感數(shù)據(jù)。
[0038]在一個(gè)實(shí)施例中,DLP策略250包括基于機(jī)器學(xué)習(xí)-學(xué)習(xí)的檢測(MLD)的概況265。向量機(jī)器學(xué)習(xí)和其它類型的機(jī)器學(xué)習(xí)可以用于保護(hù)諸如Microsoft? Word或PowerPoint?文檔或CAD制圖之類的非結(jié)構(gòu)化數(shù)據(jù)。MLD概況265可以包括訓(xùn)練數(shù)據(jù)集270、分類模型275和特征集280。訓(xùn)練數(shù)據(jù)集270是敏感數(shù)據(jù)的正例(positive example)和敏感數(shù)據(jù)的反例(negative example)的集合。訓(xùn)練數(shù)據(jù)集270由ML管理器處理,以生成分類模型275和特征集280。分類模型275是包括支持向量(表示邊界特征)映射的針對數(shù)據(jù)分類的統(tǒng)計(jì)模型。特征集280是諸如包括從訓(xùn)練數(shù)據(jù)集270提取的多個(gè)特征的列表或表格之類的數(shù)據(jù)結(jié)構(gòu)。在一個(gè)實(shí)施例中,每個(gè)特征都是包括在來自訓(xùn)練數(shù)據(jù)集270的數(shù)據(jù)中的詞。
[0039]策略違反檢測器的一個(gè)不例是機(jī)器學(xué)習(xí)模塊225。ML模塊225包括將MLD概況265和未分類數(shù)據(jù)(例如,文件235)采取為輸入并且將針對數(shù)據(jù)的分類采取為輸出的ML引擎230。通過使用分類模型275和特征集280,ML引擎230處理輸入數(shù)據(jù)。因此,ML模塊225可以使用MLD概況265以便在敏感數(shù)據(jù)與非敏感數(shù)據(jù)之間進(jìn)行區(qū)分。[0040]當(dāng)檢測到DLP策略違反時(shí),策略違反應(yīng)答器220應(yīng)用一種或多種DLP應(yīng)答規(guī)則245。每個(gè)DLP應(yīng)答規(guī)則245都可以與一種或多種DLP策略250相關(guān)聯(lián)。每個(gè)DLP應(yīng)答規(guī)則245都包括一個(gè)或多個(gè)動(dòng)作,策略違反應(yīng)答器220采取所述一個(gè)或多個(gè)動(dòng)作以便響應(yīng)于相關(guān)聯(lián)DLP策略250的違反。一旦發(fā)現(xiàn)違反DLP策略250,策略違反應(yīng)答器220就可以確定哪個(gè)DLP應(yīng)答規(guī)則與違反的DLP策略250相關(guān)聯(lián)。然后可以執(zhí)行包括在應(yīng)答規(guī)則245中的一個(gè)或多個(gè)動(dòng)作。執(zhí)行的動(dòng)作的示例包括:將通知發(fā)送到管理員、防止數(shù)據(jù)通過數(shù)據(jù)丟失向量退出端點(diǎn)裝置、鎖定計(jì)算機(jī)使得沒有數(shù)據(jù)可以通過任何數(shù)據(jù)丟失向量移動(dòng)出端點(diǎn)裝置、當(dāng)數(shù)據(jù)移動(dòng)出端點(diǎn)裝置時(shí)對數(shù)據(jù)進(jìn)行加密等等。
[0041]事件報(bào)告生成器215可以生成記錄違反DLP策略250的事件報(bào)告240和圍繞違反DLP策略250的環(huán)境。事件報(bào)告生成器215保持已經(jīng)在端點(diǎn)裝置上發(fā)生和/或已經(jīng)由特定用戶嘗試的一些或全部策略違反的事件報(bào)告240的記錄??梢岳缁谟脩舻卿涀R別用戶。除了識別違反的DLP策略之外,每份事件報(bào)告240還可以指示策略違反的環(huán)境。例如,事件報(bào)告240可以識別與策略違反相關(guān)聯(lián)的應(yīng)用、用戶、數(shù)據(jù)丟失向量、敏感數(shù)據(jù)類型(例如,社會(huì)保險(xiǎn)號碼、信用卡號碼等等)等等。事件報(bào)告生成器215還可以包括示出策略違反何時(shí)發(fā)生的時(shí)間戳(time stamp)ο
[0042]圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的機(jī)器學(xué)習(xí)(ML)管理器305的框圖。ML管理器305包括MLD概況訓(xùn)練器325、MLD概況測試器320和MLD概況配置器315。在一個(gè)實(shí)施例中,ML管理器305還包括用戶界面310。注意到,在可替換的實(shí)施例中,MLD概況訓(xùn)練器325、MLD概況測試器320中的一個(gè)或多個(gè)或者M(jìn)LR概況訓(xùn)練器325可以組合為單一模塊或劃分為多個(gè)模塊。
[0043]MLD概況訓(xùn)練器325基于訓(xùn)練數(shù)據(jù)集352來訓(xùn)練MLD概況365。MLD概況訓(xùn)練是在其中從訓(xùn)練數(shù)據(jù)集提取內(nèi)容并且對內(nèi)容執(zhí)行統(tǒng)計(jì)分析以生成分類模型和特征集(這都在下文中更詳細(xì)地描述)的過程。用戶(例如,DLP管理員)可以規(guī)定數(shù)據(jù)以在訓(xùn)練數(shù)據(jù)集中使用。在一個(gè)實(shí)施例中,用戶選擇敏感數(shù)據(jù)的正例(正面數(shù)據(jù)345)和敏感數(shù)據(jù)的反例(反面數(shù)據(jù)350),并且將這些示例添加到訓(xùn)練數(shù)據(jù)集352。這可以經(jīng)由用戶界面310來完成??商鎿Q地,用戶可以經(jīng)由標(biāo)準(zhǔn)文件系統(tǒng)界面(例如,Microsoft? Explorer?)將文件添加到正面數(shù)據(jù)文件夾和反面數(shù)據(jù)文件夾。數(shù)據(jù)可以作為謹(jǐn)慎文件(例如,文檔)或單一壓縮文件(例如,zip文件)的組成部分而添加到訓(xùn)練數(shù)據(jù)集。
[0044]在一個(gè)實(shí)施例中,從事件報(bào)告360提取針對訓(xùn)練數(shù)據(jù)集352的數(shù)據(jù)。事件報(bào)告360可以在DLP策略385的強(qiáng)制執(zhí)行期間針對現(xiàn)存的DLP策略而已經(jīng)生成。事件報(bào)告360可以識別操作被執(zhí)行或請求以對敏感數(shù)據(jù)執(zhí)行的實(shí)例。事件報(bào)告可以包括敏感數(shù)據(jù)的真正實(shí)例,并且還可以包括在其中非敏感數(shù)據(jù)被分類為敏感數(shù)據(jù)的假正面(false positive)。其它可以或不可以與事件報(bào)告相關(guān)聯(lián)的歷史數(shù)據(jù)也可以用于訓(xùn)練數(shù)據(jù)集。歷史數(shù)據(jù)可以包括敏感數(shù)據(jù)的真正實(shí)例、誤報(bào)、非敏感數(shù)據(jù)的真正實(shí)例和/或假負(fù)面(false negative)。
[0045]在一個(gè)實(shí)施例中,MLD概況訓(xùn)練器325執(zhí)行針對現(xiàn)存的MLD概況的增值(incremental)訓(xùn)練。利用增值訓(xùn)練,基于自MLD概況最近訓(xùn)練以來已經(jīng)生成的事件報(bào)告,MLD概況訓(xùn)練器325將新的正面數(shù)據(jù)和/或反面數(shù)據(jù)添加到訓(xùn)練數(shù)據(jù)集。MLD概況訓(xùn)練器325可以自動(dòng)或響應(yīng)于用戶輸入執(zhí)行增值訓(xùn)練。在一個(gè)實(shí)施例中,根據(jù)預(yù)定時(shí)間表執(zhí)行增值訓(xùn)練。例如,MLD概況訓(xùn)練器325可以定期地(諸如每天、每周、每月之類)執(zhí)行對MLD概況的訓(xùn)練。
[0046]在一個(gè)實(shí)施例中,MLD概況訓(xùn)練器325直到閾值數(shù)目的文檔已經(jīng)添加到訓(xùn)練數(shù)據(jù)集才生成針對訓(xùn)練數(shù)據(jù)集352的MLD概況325。在一個(gè)實(shí)施例中,應(yīng)該添加正面數(shù)據(jù)345的閾值量和反面數(shù)據(jù)350的閾值量。閾值例如可以是50個(gè)正面文檔和50個(gè)反面文檔。在一個(gè)實(shí)施例中,最大文檔大小(例如,15MB、30MB,等等)由ML管理器305強(qiáng)制執(zhí)行。可以拒絕任何大于最大文檔大小的文檔用作訓(xùn)練數(shù)據(jù)。最大文檔大小可以是用戶可選擇的。
[0047]在一個(gè)實(shí)施例中,MLD概況訓(xùn)練器325包括模型生成器330、特征提取器335和質(zhì)量分析器340。特征提取器335分析訓(xùn)練數(shù)據(jù)集352中的敏感數(shù)據(jù)的正例和敏感數(shù)據(jù)的反例,并且在正面數(shù)據(jù)和反面數(shù)據(jù)中確定特征(例如,詞)的出現(xiàn)頻率。特征提取器335然后基于例如出現(xiàn)頻率而將正面特征和反面特征進(jìn)行排序。在一個(gè)實(shí)施例中,特征提取器335過濾掉諸如“這”、“它”、“和”等常用詞。特征提取器335然后選擇針對特征集375的最高排序的特征。
[0048]在一個(gè)實(shí)施例中,特征提取器335根據(jù)針對諸如中文字符(日本漢字)等基于字符的字母表的字符生成特征。特征提取器335針對每個(gè)字符生成特征,并且附加地創(chuàng)建針對每對相鄰字符的特征。例如,對于字符Ξ λ而言,特征提取器將生成針對Ξ、λ和Ξ λ的特征。
[0049]添加到特征集375的特征數(shù)目可以基于存儲(chǔ)器分配,該存儲(chǔ)器分配可以由MLD概況訓(xùn)練器325自動(dòng)地選擇或可以由用戶選擇。隨著存儲(chǔ)器分配增加,包括在特征集375中的特征數(shù)目也增加,這可以增加MLD概況的精確度。存儲(chǔ)器分配可以例如在大約30ΜΒ與大約100ΜΒ之間變化。在一個(gè)實(shí)施例中,存儲(chǔ)器分配可選擇為高、中或低。可替換地,可以選擇特定存儲(chǔ)器分配(例如,43ΜΒ)。最終得到的MLD概況365的大小與訓(xùn)練文檔的數(shù)目和存儲(chǔ)器分配設(shè)置成比例。在一個(gè)實(shí)施例中,較低存儲(chǔ)器分配用于將由DLP代理實(shí)施的MLD概況365,并且較高存儲(chǔ)器分配用于將由全局DLP檢測引擎實(shí)施的MLD概況365。
[0050]在一個(gè)實(shí)施例中,特征提取器335使用詞頻-逆向文檔頻率(TF-1DF, termfrequency-1nverse document frequency)算法以選擇特征集375。可替換地,特征提取器335可以使用諸如段組詞頻-逆向段組頻率(STF-1SSF, segment-set termfrequency-1nverse segment-set frequency)、段組詞頻-逆文檔頻率(STF-1DF,segment-set term frequency-1nverse document frequency)之類的其它特征提取算法。在一個(gè)實(shí)施例中,特征提取器335使用的特征選擇算法是用戶可選擇的。此外,特征提取器335可以多次執(zhí)行特征提取,每次都使用不同的特征提取算法。使用不同算法生成的特征集每個(gè)都可以用于生成不同的分類模型,并且可以由質(zhì)量分析器340測試。然后可以保存具有最佳質(zhì)量度量(quality metrics)的特征集,并且可以丟棄其它特征集。
[0051]在特征提取器335已經(jīng)生成特征集375之后,模型生成器330基于特征集375和訓(xùn)練數(shù)據(jù)集352生成分類模型380。分類模型380是針對包括支持向量映射(表示邊界特征)的數(shù)據(jù)分類的統(tǒng)計(jì)模型。邊界特征可以從特征集375選擇,并且可以表示特征集375中的最聞排序特征。
[0052]一旦特征提取器335生成特征集375并且模型生成器330生成分類模型380,則MLD概況365就是完整的。MLD概況365可以包括特征集375、分類模型380和/或訓(xùn)練數(shù)據(jù)集370。MLD概況365還可以包括用戶定義設(shè)置。在一個(gè)實(shí)施例中,用戶定義設(shè)置包括敏感性閾值(還稱為置信水平閾值)。敏感性閾值可以設(shè)置為例如75%、90%等等。當(dāng)ML引擎使用MLD概況365以便將文檔分類為敏感或不敏感時(shí),ML引擎可以將置信值分配給分類。如果針對文檔的置信值是100%,則更可能的是,文檔為敏感(或不敏感)的決定比置信值是否是例如50%更精確。如果置信值小于敏感性閾值,則即使文檔分類為敏感文檔,則也可能不生成事件。該特征可以有助于用戶進(jìn)一步控制并且減少假正面和/或假反面。如果ML引擎試圖將訓(xùn)練從未被看到的類型的文檔分類,則其具有非常低的文檔置信為正面和/或反面。在這種情況下,敏感性閾值可以用于減少假正面的發(fā)生。在一個(gè)實(shí)施例中,MLD概況訓(xùn)練器325基于訓(xùn)練自動(dòng)地選擇針對MLD概況365的敏感性閾值。
[0053]在一個(gè)實(shí)施例中,質(zhì)量分析器340分析MLD概況365的質(zhì)量并且生成針對MLD概況365的一個(gè)或多個(gè)質(zhì)量度量。質(zhì)量度量可以包括假正面率(由MLD概況365錯(cuò)誤分類為敏感數(shù)據(jù)的敏感數(shù)據(jù)的反例)、假反面率(由MLD概況365錯(cuò)誤分類為非敏感數(shù)據(jù)的敏感數(shù)據(jù)的正例)和/或存儲(chǔ)器利用率(由MLD概況365使用的存儲(chǔ)器的量)。質(zhì)量分析器340可以將質(zhì)量度量與一個(gè)或多個(gè)質(zhì)量閾值進(jìn)行比較。這些可以包括假正面閾值、假反面閾值和/或存儲(chǔ)器利用閾值。在一個(gè)實(shí)施例中,假正面閾值是5%并且假反面閾值是5%??商鎿Q地,可以使用其它假正面閾值和/或假反面閾值。如果假正面率超過假正面閾值,則假反面率就超過了假反面閾值,或者如果存儲(chǔ)器利用率超過存儲(chǔ)器利用閾值,則MLD概況365可能沒有準(zhǔn)備好配置。如果一個(gè)或多個(gè)質(zhì)量閾值已經(jīng)由MLD概況365超過,則ML管理器305可以不允許MLD概況365被配置。
[0054]通過改變訓(xùn)練數(shù)據(jù)集352并且驗(yàn)算特征集375和分類模型380,可以修改MLD概況365。通過添加新的正面數(shù)據(jù)345、添加新的反面數(shù)據(jù)350、移除正面數(shù)據(jù)345的實(shí)例和/或移除反面數(shù)據(jù)350的實(shí)例,可以修改訓(xùn)練數(shù)據(jù)集352。在一個(gè)實(shí)施例中,質(zhì)量分析器340從引起假正面的反面數(shù)據(jù)350識別特定的文件、文檔等等,并且從引起假反面的正面數(shù)據(jù)345識別特定的文件、文檔等等。用戶可以檢查該信息以確定添加到訓(xùn)練數(shù)據(jù)集的附加數(shù)據(jù)。在訓(xùn)練數(shù)據(jù)集352中可能已經(jīng)非充分表示了某類別的文檔。例如,用戶可以希望保護(hù)源代碼,并且產(chǎn)品文檔可能已經(jīng)由MLD概況365交叉分類為源代碼。用戶可以通過將產(chǎn)品文檔的附加示例添加到反面數(shù)據(jù)集來校正這一點(diǎn)??梢哉J(rèn)出并分類為敏感或非敏感的數(shù)據(jù)類別的示例包括源代碼、處方(recipes)、法律文檔、產(chǎn)品文檔、病歷文檔、保險(xiǎn)文檔、產(chǎn)品配方、患者健康信息等等。
[0055]在一個(gè)實(shí)施例中,用戶能夠規(guī)定針對用戶添加到訓(xùn)練數(shù)據(jù)集的每個(gè)文件(例如,文檔)的類別。質(zhì)量分析器340然后可以識別引起大多數(shù)假正面和/或大多數(shù)假反面的文檔類別。在一個(gè)實(shí)施例中,質(zhì)量分析器340針對用戶建議添加特定的文檔類別,以改進(jìn)MLD概況365的質(zhì)量。
[0056]在一個(gè)實(shí)施例中,ML管理器305保持包括對于之前生成的MLD概況進(jìn)行改變的改變報(bào)告。改變報(bào)告還可以包括之前生成的MLD概況與最近修改的MLD概況之間的質(zhì)量度量區(qū)別。改變報(bào)告可以顯示給用戶以便使用戶能夠接受改變或重新運(yùn)行(roll back)改變以使之前的MLD概況恢復(fù)原狀。
[0057]一旦MLD概況365準(zhǔn)備好配置(例如,質(zhì)量度量在質(zhì)量閾值內(nèi)),MLD概況配置器315就配置MLD概況315。在一個(gè)實(shí)施例中,MLD概況配置器315將MLD概況添加到現(xiàn)存的DLP策略385。可替換地,MLD概況配置器315可以生成新的DLP策略并且將MLD概況365添加到新的DLP策略385。
[0058]在一個(gè)實(shí)施例中,ML管理器305包括VML測試器320。VML測試器測試關(guān)于附加數(shù)據(jù)的MLD概況。在一個(gè)實(shí)施例中,MLD概況測試器執(zhí)行對預(yù)定測試數(shù)據(jù)集的反面測試。該預(yù)定測試數(shù)據(jù)集可以包括已知不包括任何敏感信息的大量數(shù)據(jù)(例如,10,000個(gè)文檔)。MLD概況測試器320還可以測試關(guān)于用戶選擇數(shù)據(jù)的MLD概況,該用戶選擇數(shù)據(jù)的MLD概況可以包括附加的正面數(shù)據(jù)和/或反面數(shù)據(jù)。
[0059]圖4是圖示用于生成并配置MLD概況的方法400的一個(gè)實(shí)施例的流程圖。該方法400通過可以包括硬件(電路、專用邏輯,等等)、軟件(諸如運(yùn)行在通用計(jì)算機(jī)系統(tǒng)或?qū)S脵C(jī)器上)或硬件與軟件組合的處理邏輯來執(zhí)行。方法400可以通過諸如運(yùn)行在圖1的強(qiáng)制執(zhí)行服務(wù)器120上的ML管理器130之類的ML管理器來執(zhí)行。雖然方法400在下文中描述為由ML管理器執(zhí)行,但是方法400還可以由其它處理邏輯執(zhí)行。
[0060]參照圖4,在方框405中,ML管理器生成針對新MLD概況或待修改的現(xiàn)存的MLD概況的臨時(shí)工作空間。在一個(gè)實(shí)施例中,針對可能已經(jīng)使諸如IDM或EDM概況之類的其它概況運(yùn)行的現(xiàn)存的DLP策略生成空的MLD概況。在另一個(gè)實(shí)施例中,針對仍然待配置的新DLP策略生成空的MLD概況。可替換地,在臨時(shí)工作空間中打開現(xiàn)存的MLD概況。在一個(gè)實(shí)施例中,臨時(shí)工作空間響應(yīng)于用戶請求而生成,以便創(chuàng)建新的MLD概況或經(jīng)由用于機(jī)器學(xué)習(xí)的用戶界面修改現(xiàn)存的MLD概況。在一個(gè)實(shí)施例中,新的MLD概況用于保護(hù)數(shù)據(jù)的特定類另O。例如,MLD概況可以用于保護(hù)源代碼、用于保護(hù)患者信息、用于保護(hù)銷售數(shù)據(jù)等等。
[0061]圖5圖示了示出根據(jù)本發(fā)明一個(gè)實(shí)施例的空的臨時(shí)工作空間的用于機(jī)器學(xué)習(xí)的用戶界面的第一視圖500。如所示,臨時(shí)工作空間包括用于上載正面文檔的“正面”按鈕505和用于上載反面文檔的“反面”按鈕510。響應(yīng)于用戶選擇“正面”按鈕505或“反面”按鈕510,ML管理器可以打開文件瀏覽器窗口。用戶然后可以導(dǎo)航文件瀏覽器窗口以選擇用于上載的一個(gè)文檔或多個(gè)文檔。
[0062]在一個(gè)實(shí)施例中,用戶界面包括存儲(chǔ)器分配按鈕515。響應(yīng)于用戶選擇存儲(chǔ)器分配按鈕515,ML管理器打開窗口,所述窗口向用戶呈現(xiàn)存儲(chǔ)器分配的選項(xiàng)。在一個(gè)實(shí)施例中,用戶能夠在高、中與低存儲(chǔ)器分配之間選擇。每個(gè)存儲(chǔ)器分配可以與特定存儲(chǔ)器利用閾值相關(guān)聯(lián)。可替換地,用戶可以能夠選擇特定存儲(chǔ)器分配(例如,12MB、54MB,等等)。在一個(gè)實(shí)施例中,用戶界面包括當(dāng)選擇時(shí)打開窗口(在其中用戶可以在概況名和/或概況描述中打字)的附加按鈕515。
[0063]返回圖4,在方法400的方框410中,ML管理器接收訓(xùn)練數(shù)據(jù)集。在一個(gè)實(shí)施例中,用戶經(jīng)由用戶界面選擇針對訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)。訓(xùn)練數(shù)據(jù)集包括敏感數(shù)據(jù)的正例和敏感數(shù)據(jù)的反例。訓(xùn)練數(shù)據(jù)集可以包括多個(gè)文檔。在一個(gè)實(shí)施例中,用戶針對每個(gè)文檔規(guī)定類別(例如,源代碼、銷售數(shù)據(jù)、病歷等等)。在一個(gè)實(shí)施例中,ML管理器檢查訓(xùn)練數(shù)據(jù)集中每個(gè)文檔的文檔大小。ML管理器可以拒絕超過最大文檔大小的那些ML文檔。
[0064]圖6圖示了示出根據(jù)本發(fā)明一個(gè)實(shí)施例的訓(xùn)練數(shù)據(jù)集的圖5的用戶界面的第二視圖600。訓(xùn)練數(shù)據(jù)集中的每個(gè)文檔可以連同文檔的多個(gè)屬性一起顯示。在一個(gè)實(shí)施例中,顯示的文檔屬性包括文檔類型605 (即,文檔是正面文檔還是反面文檔)、文檔名610、文檔日期615 (B卩,上載文檔的日期)和文檔作者620。每個(gè)文檔還可以包括移除按鈕625。通過選擇移除按鈕625,用戶可以從訓(xùn)練數(shù)據(jù)集移除特定文檔。在一個(gè)實(shí)施例中,還顯示文檔類另|J。用戶可以為每個(gè)文檔分配文檔類別。在一個(gè)實(shí)施例中,點(diǎn)擊臨時(shí)工作空間選項(xiàng)卡(tab)上呈現(xiàn)的叉形按鈕使已經(jīng)對概況進(jìn)行的全部改變重新運(yùn)行。概況然后繼續(xù)保持為最近已知的功能狀態(tài)。
[0065]一旦正面文檔和反面文檔的閾值數(shù)目已經(jīng)添加到訓(xùn)練數(shù)據(jù)集(例如,每個(gè)類型20個(gè)文檔、每個(gè)類型50個(gè)文檔等等),訓(xùn)練概況操作就變得可用的。在一個(gè)實(shí)施例中,當(dāng)正面文檔和反面文檔的閾值數(shù)目已經(jīng)添加時(shí),“訓(xùn)練概況”按鈕630就變得有效。用戶可以選擇“訓(xùn)練概況”按鈕630以便訓(xùn)練MLD概況(例如,針對MLD概況生成特征集和分類模型)。
[0066]返回到圖4,在方法400的方框415中,ML管理器接收存儲(chǔ)器分配的選擇。在方框420中,ML管理器通過使用機(jī)器學(xué)習(xí)(例如,向量機(jī)器學(xué)習(xí))來分析訓(xùn)練數(shù)據(jù)集以便訓(xùn)練MLD概況。在一個(gè)實(shí)施例中,ML管理器在訓(xùn)練期間執(zhí)行對MLD概況的寫入鎖定。在一個(gè)實(shí)施例中,訓(xùn)練MLD概況包括執(zhí)行特征提取(方框421)、生成分類模型(方框422)以及確定分類模型和特征集的質(zhì)量(方框423)。在方框425中,ML管理器在用戶界面中顯示分析結(jié)果。結(jié)果可以包括諸如假正面率、假反面率、存儲(chǔ)器利用率、提取失敗的正面文檔和提取失敗的反面文檔等一個(gè)或多個(gè)質(zhì)量度量。在一個(gè)實(shí)施例中,用戶可以點(diǎn)擊提取失敗信息以發(fā)現(xiàn)哪個(gè)文檔提取失敗。
[0067]圖7圖示示出了訓(xùn)練的MLD概況的圖5的用戶界面的第三視圖700。在一個(gè)實(shí)施例中,用戶界面示出MLD概況訓(xùn)練的每個(gè)步驟,包括特征提取、精確度計(jì)算、模型創(chuàng)建和最終處理??梢酝怀鯩LD概況訓(xùn)練的當(dāng)前步驟以示出ML管理器在MLD概況生成中的位置。在一個(gè)實(shí)施例中,當(dāng)訓(xùn)練概況時(shí),鎖定臨時(shí)工作空間。此外,當(dāng)訓(xùn)練概況時(shí),可以不調(diào)節(jié)存儲(chǔ)器分配。這確保產(chǎn)生精確的訓(xùn)練結(jié)果。在一個(gè)實(shí)施例中,用戶可以在訓(xùn)練期間的任何時(shí)候選擇取消訓(xùn)練選項(xiàng)以停止訓(xùn)練。
[0068]圖8圖示了示出MLD概況訓(xùn)練結(jié)果的圖5的用戶界面的第四視圖800。在一個(gè)實(shí)施例中,MLD概況結(jié)果包括正面文檔計(jì)數(shù)805、反面文檔計(jì)數(shù)810和總文檔計(jì)數(shù)815。在一個(gè)實(shí)施例中,ML管理器顯示在特征集中的特征(例如,詞)列表。訓(xùn)練結(jié)果還包括一個(gè)或多個(gè)針對MLD概況的質(zhì)量度量。在一個(gè)實(shí)施例中,質(zhì)量度量包括假正面率820、假反面率825和存儲(chǔ)器利用率830。用戶可以選擇假正面率820以觀察諸如引起假正面的特定文檔之類的附加假正面率信息。此外,用戶可以選擇假反面率825以觀察諸如引起假反面的特定文檔之類的附加假反面率信息。如果質(zhì)量度量在質(zhì)量閾值內(nèi),則“配置訓(xùn)練”按鈕835可以是有效的。用戶可以選擇“配置訓(xùn)練”按鈕835以便配置MLD概況。用戶還可以選擇“拒絕訓(xùn)練”按鈕840以拒絕MLD概況。
[0069]返回圖4,在方框430中,ML管理器確定分析結(jié)果是否示出MLD概況滿足一個(gè)或多個(gè)配置標(biāo)準(zhǔn)。如果結(jié)果滿足配置標(biāo)準(zhǔn),則方法行進(jìn)到方框435。否則,方法持續(xù)到方框440。
[0070]在方框435中,ML管理器能夠?qū)崿F(xiàn)MLD概況配置操作。在方框450中,ML管理器接收配置命令(例如,基于用戶在用戶界面中按壓配置按鈕)。如果MLD概況與策略相關(guān)聯(lián),則配置命令就導(dǎo)致使概況配置到檢測服務(wù)器。如果DLP策略是有效的DLP策略,則MLD概況變?yōu)橛行Р⑶铱梢粤⒓从糜诓呗晕臋n。注意到,如果MLD概況具有之前配置版本,則該版本保持配置直到配置了該MLD概況的新版本。配置較新的版本的MLD概況可以替代較舊版本。
[0071]在方框440中,ML管理器建議用戶對訓(xùn)練數(shù)據(jù)集進(jìn)行修改。如果用戶在訓(xùn)練數(shù)據(jù)集中標(biāo)示了文檔的類別,則ML管理器可以識別應(yīng)該添加到訓(xùn)練數(shù)據(jù)集的文檔類別。例如,如果特定的文檔類別引起更大數(shù)目的假正面,則ML管理器可以建議用戶將該類別的更多文檔添加到訓(xùn)練數(shù)據(jù)集中的反面文檔上。
[0072]在方框445中,ML管理器確定是否對訓(xùn)練數(shù)據(jù)集或存儲(chǔ)器分配選擇進(jìn)行任何修改。如果對訓(xùn)練數(shù)據(jù)集或存儲(chǔ)器分配進(jìn)行改變,則方法返回到方框420。否則方法結(jié)束??梢栽谂渲玫母艣r頁面上示出配置概況。該頁面提供給用戶當(dāng)前配置概況的視圖。
[0073]圖9是示出根據(jù)本發(fā)明一個(gè)實(shí)施例的MLD概況生成/修改期間的ML管理器的不同狀態(tài)的狀態(tài)圖900。當(dāng)用戶輸入命令以生成新的MLD概況時(shí),ML管理器就進(jìn)入“新”狀態(tài)905,其使ML管理器生成臨時(shí)工作空間和空的MLD概況。根據(jù)“新”狀態(tài)905,ML管理器可以進(jìn)入“管理概況”狀態(tài)910。根據(jù)“管理概況”狀態(tài)910,ML管理器可以基于用戶輸入將文檔添加到訓(xùn)練數(shù)據(jù)集。ML管理器還可以使MLD概況重新運(yùn)行到之前的狀況,并且返回到“新”狀態(tài)905或行進(jìn)到“訓(xùn)練”狀態(tài)915。如果修改之前生成的MLD概況,則ML管理器還可以從“管理概況”狀態(tài)910過渡到“已接受”狀態(tài)930。
[0074]當(dāng)在“訓(xùn)練”狀態(tài)915中時(shí),ML管理器訓(xùn)練MLD概況。如果訓(xùn)練被取消或以其它方式失敗,則ML管理器過渡到“訓(xùn)練失敗/取消”的狀態(tài)920。在用戶確認(rèn)之后,ML管理器使“管理概況”狀態(tài)910恢復(fù)原狀。如果訓(xùn)練成功,則ML管理器過渡到“已訓(xùn)練”狀態(tài)925。用戶然后可以拒絕MLD概況,從而使ML管理器返回到“管理概況”狀態(tài)910,或者接受MLD概況,從而使ML管理器過渡到“已接受”狀態(tài)930。根據(jù)“已接受”狀態(tài),則ML管理器可以配置MLD概況。
[0075]圖10是圖示針對生成MLD概況并且將MLD概況配置到現(xiàn)存的DLP策略的方法1000的一個(gè)實(shí)施例的流程圖。方法1000通過處理邏輯來執(zhí)行,所述處理邏輯可以包括硬件(電路、專用邏輯等等)、軟件(諸如運(yùn)行在通用計(jì)算機(jī)系統(tǒng)或?qū)S脵C(jī)器上)或硬件與軟件組合。方法1000可以通過諸如運(yùn)行在圖1的強(qiáng)制執(zhí)行服務(wù)器120上的ML管理器130之類的ML
管理器來執(zhí)行。
[0076]參考圖10,在方框1005中,ML管理器收集由DLP策略生成的事件報(bào)告和/或歷史數(shù)據(jù)。事件報(bào)告可以包括錯(cuò)誤分類為非敏感文檔的文檔和/或錯(cuò)誤分類為敏感文檔的文檔。此外,事件報(bào)告可以包括正確分類為敏感文檔的文檔和/或正確分類為非敏感文檔的文檔。
[0077]在方框1010中,ML管理器將來自事件報(bào)告/歷史數(shù)據(jù)的文檔添加到針對MLD概況的訓(xùn)練數(shù)據(jù)集。在方框1015中,ML管理器通過使用機(jī)器學(xué)習(xí)來分析訓(xùn)練數(shù)據(jù)集以訓(xùn)練MLD概況。這可以包括生成特征集、生成分類模型和生成一個(gè)或多個(gè)針對MLD概況的質(zhì)量度量。在方框1020中,ML管理器將MLD概況添加到DLP策略。
[0078]方法1000示出來自現(xiàn)存的DLP策略的事件可以怎樣用于生成MLD概況。因此,ML管理器可以執(zhí)行方法1000以改進(jìn)現(xiàn)存的DLP策略,從而使得它能夠?qū)⑽臋n分類為敏感或非敏感(之前其在分類上不成功)。
[0079]圖11是圖示通過使用包括DLP概況的DLP策略來保護(hù)計(jì)算裝置免于數(shù)據(jù)丟失的方法1100的一個(gè)實(shí)施例的流程圖。方法1100通過處理邏輯來執(zhí)行,所述處理邏輯可以包括硬件(電路、專用邏輯等等)、軟件(諸如運(yùn)行在通用計(jì)算機(jī)系統(tǒng)或?qū)S脵C(jī)器上)或硬件與軟件組合。方法1100可以通過諸如運(yùn)行在圖1的端點(diǎn)裝置102A上的DLP代理106之類的DLP代理來執(zhí)行。方法1100還可以通過諸如運(yùn)行在圖1的端點(diǎn)服務(wù)器115上的全局DLP檢測引擎122之類的全局DLP檢測引擎來執(zhí)行。
[0080]參考圖11,在方框1105中,處理邏輯接收在文檔上執(zhí)行操作的請求。在方框1110中,ML模塊通過使用MLD概況來分析文檔以便將文檔分類。在方框1125中,處理邏輯確定文檔分類為敏感還是非敏感。如果文檔分類為敏感,則方法持續(xù)到方框1130,且執(zhí)行通過DLP響應(yīng)規(guī)則規(guī)定的動(dòng)作,并且生成事件報(bào)告。這可以包括防止操作、生成事件響應(yīng)報(bào)告等等。如果文檔分類為非敏感,則方法行進(jìn)到方框1135,并且執(zhí)行操作。
[0081]圖12圖示了以在其內(nèi)部可以執(zhí)行指令集(用于使機(jī)器執(zhí)行在本文中討論的任何一個(gè)或多個(gè)方法)的計(jì)算機(jī)系統(tǒng)1200的示例形式的機(jī)器的圖解表示。在可替換的實(shí)施例中,機(jī)器可以在LAN、內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)或因特網(wǎng)中連接(例如,聯(lián)網(wǎng))到其它機(jī)器。機(jī)器可以在客戶-服務(wù)器網(wǎng)絡(luò)環(huán)境下操以服務(wù)器或者客戶機(jī)的資格操作,或者在點(diǎn)對點(diǎn)(或分布式)網(wǎng)絡(luò)環(huán)境下操作為對等機(jī)器。機(jī)器可以是個(gè)人計(jì)算機(jī)(PO、平板PC、機(jī)頂盒(STB)、個(gè)人數(shù)字助理(PDA)、蜂窩電話、網(wǎng)絡(luò)器具、服務(wù)器、網(wǎng)絡(luò)路由器、交換機(jī)或橋接器或能夠執(zhí)行規(guī)定了待由該機(jī)器采取動(dòng)作的指令集(順序或非順序的)的任何機(jī)器。而且,雖然僅圖示單個(gè)機(jī)器,但是術(shù)語“機(jī)器”還應(yīng)該理解為包括單獨(dú)或共同執(zhí)行一個(gè)或多個(gè)指令集以便執(zhí)行本文中討論的一個(gè)或多個(gè)方法中的任何一個(gè)的任何機(jī)器集合。
[0082]示例性計(jì)算機(jī)系統(tǒng)1200包括處理裝置(處理器)1202、主存儲(chǔ)器1204 (例如,只讀存儲(chǔ)器(ROM)、閃存、諸如同步DRAM (SDRAM)或Rambus DRAM (RDRAM)等等之類的動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器(DRAM)、靜態(tài)存儲(chǔ)器1206 (例如,閃存、靜態(tài)隨機(jī)存取存儲(chǔ)器(SRAM)等等)和經(jīng)由總線1208彼此通信的數(shù)據(jù)存儲(chǔ)裝置1218。
[0083]處理器1202表示諸如微處理器、中央處理單元等之類的一個(gè)或多個(gè)通用處理裝置。更特別地,處理器1202可以是復(fù)雜指令集計(jì)算(CISC)微處理器、精簡指令集計(jì)算(RISC)微處理器、超長指令字(VLIW)微處理器或?qū)嵤┢渌噶罴奶幚砥骰驅(qū)嵤┲噶罴M合的多個(gè)處理器。處理器1202還可以是諸如專用集成電路(ASIC)、現(xiàn)場可編程門陣列(FPGA)、數(shù)字信號處理器(DSP)、網(wǎng)絡(luò)處理器等之類的一個(gè)或多個(gè)專用處理裝置。處理器1202配置成執(zhí)行指令1226以用于執(zhí)行在本文中討論的操作和步驟。
[0084]計(jì)算機(jī)系統(tǒng)1200還可以包括網(wǎng)絡(luò)接口裝置1222。計(jì)算機(jī)系統(tǒng)1200還可以包括視頻顯示單元1210 (例如,液晶顯示器(IXD)或陰極射線管(CRT))、字母數(shù)字輸入裝置1212(例如,鍵盤)、光標(biāo)控制裝置1214 (例如,鼠標(biāo))和信號生成裝置1220 (例如,揚(yáng)聲器)。
[0085]數(shù)據(jù)存儲(chǔ)裝置1218可以包括在其上存儲(chǔ)體現(xiàn)在本文中描述的任何一個(gè)或多個(gè)方法或功能的一個(gè)或多個(gè)指令集1226(例如,軟件)的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)1224。在由計(jì)算機(jī)系統(tǒng)1200關(guān)于其的執(zhí)行期間,指令1226還可以完全或至少部分地居于主存儲(chǔ)器1204內(nèi)和/或處理器1202內(nèi),主存儲(chǔ)器1204和處理器1202還構(gòu)成計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。指令1226可以進(jìn)一步經(jīng)由網(wǎng)絡(luò)接口裝置1222通過網(wǎng)絡(luò)1274發(fā)射或接收。
[0086]在一個(gè)實(shí)施例中,指令1226包括針對諸如圖2的ML管理器205之類的ML管理器的指令,和/或包含調(diào)用ML管理器的方法的軟件庫。雖然在示例性實(shí)施例中計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)1224示出為單個(gè)介質(zhì),但是術(shù)語“計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)”應(yīng)該理解為包括存儲(chǔ)一個(gè)或多個(gè)指令集的單個(gè)介質(zhì)或多個(gè)介質(zhì)(例如,集中式或分布式數(shù)據(jù)庫和/或相關(guān)聯(lián)的緩存和服務(wù)器)。術(shù)語“計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)”還應(yīng)該理解為包括任何介質(zhì),所述任何介質(zhì)能夠存儲(chǔ)、編碼或承載用于由機(jī)器執(zhí)行的指令集并且使機(jī)器執(zhí)行本發(fā)明的一個(gè)或多個(gè)方法中的任何一個(gè)。術(shù)語“計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)”因此應(yīng)該理解為包括但不限于固態(tài)存儲(chǔ)器、光介質(zhì)和磁介質(zhì)。
[0087] 應(yīng)該理解以上說明書意圖是說明性的,而非限制性的。通過閱讀并理解以上說明書,許多其它實(shí)施例對本領(lǐng)域技術(shù)人員將是顯而易見的。因此,應(yīng)該參照所附權(quán)利要求連同使這種權(quán)利要求有權(quán)的全部范圍的等同物來確定本發(fā)明的范圍。
【權(quán)利要求】
1.一種方法,包括: 經(jīng)由用戶界面接收訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多個(gè)敏感數(shù)據(jù)的正例和多個(gè)敏感數(shù)據(jù)的反例; 通過使用機(jī)器學(xué)習(xí)來分析所述訓(xùn)練數(shù)據(jù)集以便訓(xùn)練基于機(jī)器學(xué)習(xí)的檢測(MLD)的概況,MLD概況將用于將新數(shù)據(jù)分類為敏感數(shù)據(jù)或非敏感數(shù)據(jù);以及在所述用戶界面中顯示針對所述MLD概況的質(zhì)量度量。
2.根據(jù)權(quán)利要求1所述的方法,其中, 分析所述訓(xùn)練數(shù)據(jù)集包括: 在所述訓(xùn)練數(shù)據(jù)集上執(zhí)行特征提取以生成特征集,所述特征集包括正例的特征和反例的特征; 從所述訓(xùn)練數(shù)據(jù)集生成分類模型;以及 計(jì)算所述質(zhì)量度量,其中所述質(zhì)量度量包括假正面率、假反面率或存儲(chǔ)器利用率中的至少一種。
3.根據(jù)權(quán)利要求2所述的方法,還包括: 在分析所述訓(xùn)練數(shù)據(jù)集之前,經(jīng)由所述用戶界面接收存儲(chǔ)器分配的用戶選擇,其中針對類別數(shù)據(jù)的所述存儲(chǔ)器利用率符合所述存儲(chǔ)器分配。
4.根據(jù)權(quán)利要求2所述的方法,還包括: 如果所述假正面率在假正面閾值內(nèi)并且所述假反面率在假反面閾值內(nèi),就能夠?qū)崿F(xiàn)配置操作; 經(jīng)由所述用戶界面接收執(zhí)行所述配置操作的用戶請求;以及 響應(yīng)于接收所述用戶請求,將所述MLD概況添加到DLP系統(tǒng)的數(shù)據(jù)丟失防護(hù)(DLP)策略中。
5.根據(jù)權(quán)利要求2所述的方法,還包括: 在所述用戶界面中,從所述訓(xùn)練數(shù)據(jù)集識別引起假正面的數(shù)據(jù)和引起假反面的數(shù)據(jù)中的至少一種。
6.根據(jù)權(quán)利要求1所述的方法,還包括: 接收針對敏感數(shù)據(jù)的正例和針對敏感數(shù)據(jù)的反例的類別信息;以及 在用戶界面中識別添加到訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)類別來改進(jìn)所述質(zhì)量度量。
7.根據(jù)權(quán)利要求1所述的方法,還包括: 如果所述質(zhì)量度量不能滿足質(zhì)量閾值,則響應(yīng)于用戶輸入來修改所述訓(xùn)練數(shù)據(jù)集; 分析修改的訓(xùn)練數(shù)據(jù)集以保持所述MLD概況;以及 在所述用戶界面中顯示針對所述MLD概況的新質(zhì)量度量。
8.根據(jù)權(quán)利要求1所述的方法,其中, 通過DLP系統(tǒng)的數(shù)據(jù)丟失防護(hù)(DLP)策略收集所述訓(xùn)練數(shù)據(jù)集,所述多個(gè)敏感數(shù)據(jù)的反例包括由所述DLP策略錯(cuò)誤分類為敏感文檔的文檔,所述方法還包括: 將所述MLD概況配置到所述DLP策略中。
9.根據(jù)權(quán)利要求1所述的方法,還包括: 經(jīng)由所述用戶界面接收針對所述MLD概況的敏感性閾值的選擇;并且 基于所述選擇控制針對所述MLD概況的敏感性閾值設(shè)置。
10.一種包括指令的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),當(dāng)由處理裝置執(zhí)行時(shí)所述指令使所述處理裝置執(zhí)行方法,所述方法包括: 經(jīng)由用戶界面接收訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多個(gè)敏感數(shù)據(jù)的正例和多個(gè)敏感數(shù)據(jù)的反例; 通過使用機(jī)器學(xué)習(xí)來分析所述訓(xùn)練數(shù)據(jù)集以便訓(xùn)練基于機(jī)器學(xué)習(xí)的檢測(MLD)的概況,MLD概況將用于將新數(shù)據(jù)分類為敏感數(shù)據(jù)或非敏感數(shù)據(jù);以及在所述用戶界面中顯示針對所述MLD概況的質(zhì)量度量。
11.根據(jù)權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中,分析所述訓(xùn)練數(shù)據(jù)集包括: 在所述訓(xùn)練數(shù)據(jù)集上執(zhí)行特征提取以生成特征集,所述特征集包括正例的特征和反例的特征; 從所述訓(xùn)練數(shù)據(jù)集生成分類模型;以及 計(jì)算所述質(zhì)量度量,其中所述質(zhì)量度量包括假正面率、假反面率或存儲(chǔ)器利用率中的至少一種。
12.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述方法還包括: 在分析所述訓(xùn)練數(shù)據(jù)集之前,經(jīng)由所述用戶界面接收存儲(chǔ)器分配的用戶選擇,其中針對類別數(shù)據(jù)的所述存儲(chǔ)器利用率符合所述存儲(chǔ)器分配。
13.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述方法還包括: 如果所述假正面率在假正面閾值內(nèi)并且所述假反面率在假反面閾值內(nèi),就能夠?qū)崿F(xiàn)配置操作;` 經(jīng)由所述用戶界面接收執(zhí)行所述配置操作的用戶請求;以及 響應(yīng)于接收所述用戶請求,將所述MLD概況添加到DLP系統(tǒng)的數(shù)據(jù)丟失防護(hù)(DLP)策略中。
14.根據(jù)權(quán)利要求11所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述方法還包括: 在所述用戶界面中,從所述訓(xùn)練數(shù)據(jù)集識別引起假正面的數(shù)據(jù)和引起假反面的數(shù)據(jù)中的至少一種。
15.根據(jù)權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述方法還包括: 接收針對敏感數(shù)據(jù)的正例和針對敏感數(shù)據(jù)的反例的類別信息;以及 在用戶界面中識別添加到訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)類別來改進(jìn)所述質(zhì)量度量。
16.根據(jù)權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述方法還包括: 如果所述質(zhì)量度量不能滿足質(zhì)量閾值,則響應(yīng)于用戶輸入來修改所述訓(xùn)練數(shù)據(jù)集; 分析修改的訓(xùn)練數(shù)據(jù)集以保持所述MLD概況;以及 在所述用戶界面中顯示針對所述MLD概況的新質(zhì)量度量。
17.根據(jù)權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其中, 通過DLP系統(tǒng)的數(shù)據(jù)丟失防護(hù)(DLP)策略收集所述訓(xùn)練數(shù)據(jù)集,所述多個(gè)敏感數(shù)據(jù)的反例包括由所述DLP策略錯(cuò)誤分類為敏感文檔的文檔,所述方法還包括: 將所述MLD概況配置到所述DLP策略中。
18.根據(jù)權(quán)利要求10所述的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述方法還包括: 經(jīng)由所述用戶界面接收針對所述MLD概況的敏感性閾值的選擇;并且 基于所述選擇控制針對所述MLD概況的敏感性閾值設(shè)置。
19.一種計(jì)算裝置,包括: 存儲(chǔ)器,所述存儲(chǔ)器存儲(chǔ)針對機(jī)器學(xué)習(xí)管理器的指令;以及 處理裝置,所述處理裝置執(zhí)行指令,其中所述指令使所述處理裝置: 提供針對機(jī)器學(xué)習(xí)管理器的用戶界面; 經(jīng)由所述用戶界面接收訓(xùn)練數(shù)據(jù)集,所述訓(xùn)練數(shù)據(jù)集包括多個(gè)敏感數(shù)據(jù)的正例和多個(gè)敏感數(shù)據(jù)的反例; 通過使用機(jī)器學(xué)習(xí)來分析所述訓(xùn)練數(shù)據(jù)集以便訓(xùn)練基于機(jī)器學(xué)習(xí)的檢測(MLD)的概況,MLD概況將用于將新數(shù)據(jù)分類為敏感數(shù)據(jù)或非敏感數(shù)據(jù);以及在所述用戶界面中顯示針對所述MLD概況的質(zhì)量度量。
20.根據(jù)權(quán)利要求19所述的計(jì)算裝置,其中, 分析所述訓(xùn)練數(shù)據(jù)集包括: 在所述訓(xùn)練數(shù)據(jù)集上執(zhí)行特征提取以生成特征集,所述特征集包括正例的特征和反例的特征; 從所述訓(xùn)練數(shù)據(jù)集生成分類模型;以及 計(jì)算所述質(zhì)量度量,其中所述質(zhì)量度量包括假正面率、假反面率或存儲(chǔ)器利用率中的至少一種。
21.根據(jù)權(quán)利要求20所述的計(jì)算裝置,還包括指令,以使所述計(jì)算裝置: 在所述用戶界面中,從所述訓(xùn)練數(shù)據(jù)集識別引起假正面的數(shù)據(jù)和引起假反面的數(shù)據(jù)中的至少一種。
22.根據(jù)權(quán)利要求19所述的計(jì)算裝置,其中, 通過DLP系統(tǒng)的數(shù)據(jù)丟失防護(hù)(DLP)策略收集所述訓(xùn)練數(shù)據(jù)集,所述多個(gè)敏感數(shù)據(jù)的反例包括由所述DLP策略錯(cuò)誤分類為敏感文檔的文檔,還包括指令,以使所述計(jì)算裝置:將所述MLD概況配置到所述DLP策略中。
23.根據(jù)權(quán)利要求19所述的計(jì)算裝置,還包括指令,以使所述計(jì)算裝置: 經(jīng)由所述用戶界面接收針對所述MLD概況的敏感性閾值的選擇;并且 基于所述選擇控制針對所述MLD概況的敏感性閾值設(shè)置。
【文檔編號】G06F15/177GK103620581SQ201280021230
【公開日】2014年3月5日 申請日期:2012年2月29日 優(yōu)先權(quán)日:2011年3月1日
【發(fā)明者】P.迪科波, S.S.薩萬特, S.考夫曼, A.D.加林德斯, S.賈伊斯瓦爾, A.阿加瓦爾 申請人:賽門鐵克公司