用于自動(dòng)數(shù)據(jù)探索的方法和裝置制造方法
【專利摘要】本發(fā)明涉及一種用于自動(dòng)數(shù)據(jù)探索的方法和裝置。用于自動(dòng)數(shù)據(jù)探索的方法包括:從分析流模式選擇多個(gè)分析流;執(zhí)行任務(wù),其中通過(guò)所述多個(gè)分析流跟蹤所述任務(wù);接收所述多個(gè)分析流中的每個(gè)分析流的反饋;確定所述多個(gè)分析流中的每個(gè)分析流的性能得分;以及根據(jù)所述性能得分來(lái)調(diào)整所述流。
【專利說(shuō)明】用于自動(dòng)數(shù)據(jù)探索的方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明一般地涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)以及數(shù)據(jù)探索,更具體地說(shuō),涉及選擇和部署數(shù)據(jù)分析的分析流。
【背景技術(shù)】
[0002]數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)這兩門學(xué)科涉及開(kāi)發(fā)用于從經(jīng)驗(yàn)數(shù)據(jù)中發(fā)現(xiàn)演進(jìn)模式和行為并支持基于這些模式和行為執(zhí)行決策的工具。
[0003]針對(duì)特定數(shù)據(jù)使用特定挖掘或?qū)W習(xí)方法通常涉及根據(jù)給定數(shù)據(jù)表示使用數(shù)據(jù)源,從數(shù)據(jù)中提取感興趣的特征子集,將特征引入學(xué)習(xí)方法中以構(gòu)建模型,以及根據(jù)反饋或真實(shí)情況演進(jìn)或改善模型。這些方法依賴用戶的經(jīng)驗(yàn)。通常,用戶跨方法進(jìn)行整合,具體而言,用戶專注于選擇學(xué)習(xí)方法和選擇感興趣的特征。針對(duì)數(shù)據(jù)探索選擇特定機(jī)器學(xué)習(xí)方法是一個(gè)耗時(shí)的人工密集型過(guò)程,需要機(jī)器學(xué)習(xí)和經(jīng)驗(yàn)數(shù)據(jù)領(lǐng)域中的專門技能。
【發(fā)明內(nèi)容】
[0004]根據(jù)本發(fā)明的一個(gè)實(shí)施例,一種用于自動(dòng)數(shù)據(jù)探索的方法包括:從分析流模式選擇多個(gè)分析流;執(zhí)行任務(wù),其中通過(guò)所述多個(gè)分析流跟蹤所述任務(wù);接收所述多個(gè)分析流中的每個(gè)分析流的反饋;確定所述多個(gè)分析流中的每個(gè)分析流的性能得分;以及根據(jù)所述性能得分來(lái)調(diào)整所述流。
[0005]根據(jù)本發(fā)明的一個(gè)實(shí)施例,一種用于自動(dòng)數(shù)據(jù)探索的方法包括:從分析流模式選擇多個(gè)分析流以便檢測(cè)計(jì)算機(jī)網(wǎng)絡(luò)業(yè)務(wù)中的異常;執(zhí)行用于檢測(cè)所述計(jì)算機(jī)網(wǎng)絡(luò)業(yè)務(wù)中的所述異常的任務(wù),其中通過(guò)所述多個(gè)分析流跟蹤所述任務(wù);接收所述多個(gè)分析流中的每個(gè)分析流的反饋;確定所述多個(gè)分析流中的每個(gè)分析流的性能得分,所述得分指示相應(yīng)分析流檢測(cè)所述計(jì)算機(jī)網(wǎng)絡(luò)業(yè)務(wù)中的惡意軟件活動(dòng)的能力;以及根據(jù)所述性能得分來(lái)調(diào)整所述流。
【專利附圖】
【附圖說(shuō)明】
[0006]下面將參考附圖更詳細(xì)地描述本發(fā)明的優(yōu)選實(shí)施例,這些附圖是:
[0007]圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的分析流模式;
[0008]圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的基于圖1的分析流模式的示例性分析流;
[0009]圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于執(zhí)行機(jī)器學(xué)習(xí)任務(wù)的端到端應(yīng)用的圖示;以及
[0010]圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的用于實(shí)現(xiàn)用于自動(dòng)數(shù)據(jù)探索的方法的計(jì)算機(jī)系統(tǒng)的不意圖。
【具體實(shí)施方式】
[0011]根據(jù)本發(fā)明的一個(gè)實(shí)施例,機(jī)器學(xué)習(xí)任務(wù)可以利用應(yīng)用的分析流和各種任務(wù)的對(duì)應(yīng)分析流模式。這些任務(wù)包括一但不限于一自動(dòng)選擇學(xué)習(xí)方法(多個(gè))、從原始數(shù)據(jù)推導(dǎo)出特征,選擇輸入到每種方法的特征,以及根據(jù)反饋改變包含在這些任務(wù)中的方法、特征、模型以及變量參數(shù)。
[0012]在許多領(lǐng)域中,用于最終用戶(例如,領(lǐng)域?qū)<?的一組流可以遵循特定模式。流開(kāi)發(fā)人員可以指定獨(dú)立的流和流模式。流模式描述在結(jié)構(gòu)上類似并執(zhí)行類似任務(wù)的可能流的空間。
[0013]將根據(jù)計(jì)算機(jī)網(wǎng)絡(luò)的安全分析應(yīng)用描述本發(fā)明的各示例性實(shí)施例。應(yīng)該理解,此處描述的實(shí)施例僅作為示例,在不偏離本發(fā)明的范圍的情況下,本領(lǐng)域的技術(shù)人員可以在其中做出各種其它更改和修改。
[0014]圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例的計(jì)算機(jī)網(wǎng)絡(luò)的安全分析應(yīng)用的示例性分析流模式。圖1的分析流模式為通用模板或模式,其歸納并編碼一組任務(wù)中的不同分析流。分析流模式可以由域?qū)<抑付?,從一個(gè)或多個(gè)傳感器或探測(cè)器(例如,輸出事件、實(shí)時(shí)數(shù)據(jù)、數(shù)據(jù)記錄等)推導(dǎo)出等。
[0015]分析流模式跟蹤任務(wù)之間的數(shù)據(jù)流。例如,圖1的分析流模式包括引入數(shù)據(jù)源(101)、屬性選擇(102)、從選定屬性提取特征(103),屬性分組(104)(例如,根據(jù)所提取的特征)、數(shù)據(jù)聚合(105)、統(tǒng)計(jì)模型構(gòu)建(106),以及統(tǒng)計(jì)上的意外事件(statisticalsurprises)的檢測(cè)(107),例如計(jì)算機(jī)網(wǎng)絡(luò)安全應(yīng)用中的入侵檢測(cè)。
[0016]圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的示例性分析流,其引入域名服務(wù)器(DNS)數(shù)據(jù)流。圖2所示的分析流是圖1的分析流模式的一個(gè)實(shí)例。
[0017]可經(jīng)由分析本體、推理、自動(dòng)化流合成/計(jì)劃方法等從分析流模式提取分析流。例如,在一個(gè)示例性自動(dòng)計(jì)劃和分析流生成工具(例如,MAR10)中,該工具使用注釋分析流構(gòu)造塊(例如,已標(biāo)記組件)存儲(chǔ)庫(kù),接受分析流模式,以及從構(gòu)造塊中自動(dòng)創(chuàng)建一個(gè)或多個(gè)分析流。更具體地說(shuō),MARIO是跨平臺(tái)流程合成器,可用于跨多個(gè)信息處理平臺(tái)合成和部署應(yīng)用。MARIO生成高級(jí)平臺(tái)無(wú)關(guān)的流,并調(diào)用平臺(tái)特定的后端插件以生成和部署這些流的平臺(tái)特定實(shí)現(xiàn)。分析流是分析流模式的實(shí)例。
[0018]分析流模式可使用專用語(yǔ)言來(lái)編寫,例如Cascade。Cascade是描述圖模式的語(yǔ)言。模式提供自上而下的結(jié)構(gòu)化方法來(lái)定義允許的流。通過(guò)這種方式,模式幫助將規(guī)劃者的搜索空間限于較小的有用流集合。模式還可以幫助針對(duì)特定域中的信息處理捕捉可重用的設(shè)計(jì)模式。
[0019]不同的平臺(tái)可以具有它們自己的流語(yǔ)言,例如BPEL適用于面向服務(wù)的系統(tǒng),SPL在IBM的Systems S流處理平臺(tái)中使用,Pig Latin在Apache Pig中使用等。Cascade與平臺(tái)和領(lǐng)域無(wú)關(guān)。它允許以遞歸的方式描述組件,其中組件可以是原始組件,也可以是復(fù)合組件,它在內(nèi)部定義組件流。Cascade組件可通過(guò)將一組標(biāo)簽與分析流模式中的每個(gè)輸出端口相關(guān)聯(lián)來(lái)為開(kāi)發(fā)人員提供注釋。
[0020]圖2的分析流表示數(shù)據(jù)源(201)和各種原子運(yùn)算符(200)的特定合成。原子運(yùn)算符(200)表示不同的數(shù)據(jù)探索和數(shù)據(jù)處理過(guò)程。原子運(yùn)算符可以被視為容納實(shí)現(xiàn)數(shù)據(jù)流分析的運(yùn)算符的容器。原子運(yùn)算符可分布在一個(gè)或多個(gè)計(jì)算機(jī)節(jié)點(diǎn)上。原子運(yùn)算符可以包括分析運(yùn)算符、數(shù)據(jù)變換、過(guò)濾器、統(tǒng)計(jì)模型構(gòu)建器等。
[0021]現(xiàn)在更詳細(xì)地參考圖2,在引入特定數(shù)據(jù)流(例如,網(wǎng)絡(luò)中的用戶發(fā)出的DNS查詢)的分析流中,第一原子運(yùn)算符(201)將DNS數(shù)據(jù)流引入包括原子運(yùn)算符(200)的分析管道。數(shù)據(jù)流可具有特定模式(Schema)。此外,并非模式(Schema)中的所有屬性都可用于當(dāng)前實(shí)例。
[0022]一旦被引入,就可從DNS數(shù)據(jù)流提取感興趣的屬性。例如,原子運(yùn)算符可用于從DNS查詢和響應(yīng)字段提取屬性。在圖2中,可以通過(guò)一組原子運(yùn)算符(202a-202c)執(zhí)行屬性提取。例如,所提取的屬性可以包括DNS查詢的源、查詢所針對(duì)的域名,查詢的狀態(tài)(成功或失敗),以及時(shí)間戳。
[0023]提取屬性之后,可以執(zhí)行從所提取的屬性推導(dǎo)出特定感興趣的特征的過(guò)程(203)。這些過(guò)程可以包括從IP地址推導(dǎo)出子網(wǎng),從時(shí)間戳推導(dǎo)出一天內(nèi)的某一時(shí)間。
[0024]在圖2的示例性實(shí)例中,推導(dǎo)過(guò)程203之后是數(shù)據(jù)聚合過(guò)程(204)。聚合指將多個(gè)數(shù)據(jù)項(xiàng)組合成單個(gè)數(shù)據(jù)記錄,過(guò)濾指刪除被認(rèn)為不必進(jìn)一步分析的數(shù)據(jù)記錄。數(shù)據(jù)聚合過(guò)程(204)可以包括以聚合方式將數(shù)據(jù)流中的多個(gè)數(shù)據(jù)項(xiàng)收集在一起并進(jìn)行概述。
[0025]數(shù)據(jù)聚合可以在完整的數(shù)據(jù)流上執(zhí)行,也可以在跨多個(gè)興趣分組對(duì)數(shù)據(jù)流進(jìn)行分區(qū)之后執(zhí)行。例如,在惡意軟件檢測(cè)的情況下,推導(dǎo)出的聚合可以包括網(wǎng)絡(luò)中的每個(gè)主機(jī)在一個(gè)時(shí)間窗口上做出的多個(gè)查詢、多個(gè)成功的查詢、多個(gè)未成功的查詢,以及多個(gè)分別包含成功查詢和未成功查詢的不同查詢。
[0026]數(shù)據(jù)聚合過(guò)程(204)可以后跟統(tǒng)計(jì)模型構(gòu)建過(guò)程(205 )。例如,統(tǒng)計(jì)模型構(gòu)建過(guò)程
(205)可以包括根據(jù)用戶在某一時(shí)段(例如,一個(gè)小時(shí))內(nèi)訪問(wèn)的不同域的數(shù)量來(lái)構(gòu)建用戶的直方圖。將理解,可使用其它各種統(tǒng)計(jì)模型。例如,對(duì)應(yīng)于已訪問(wèn)的子網(wǎng)、內(nèi)容分析等的統(tǒng)計(jì)模型。
[0027]統(tǒng)計(jì)模型構(gòu)建過(guò)程(205)可以后跟用于檢測(cè)統(tǒng)計(jì)上的意外事件或異常的過(guò)程
(206)。檢測(cè)過(guò)程(206)可以包括提取其查詢計(jì)數(shù)超過(guò)均值一定程度(例如,超過(guò)三個(gè)標(biāo)準(zhǔn)差以上)的用戶(多個(gè))。將理解,可以實(shí)現(xiàn)其它各種檢測(cè)過(guò)程并且本發(fā)明不限于此處描述的實(shí)例。
[0028]在一個(gè)統(tǒng)計(jì)模型實(shí)例中,可以定期確定主機(jī)的協(xié)議和端口的熵。在該實(shí)例中,相應(yīng)的檢測(cè)過(guò)程可以根據(jù)過(guò)去的300個(gè)值檢測(cè)熵的變化(例如,高于閾值)。在另一實(shí)例中,統(tǒng)計(jì)模型可以測(cè)量針對(duì)每個(gè)主機(jī)觸發(fā)的入侵檢測(cè)系統(tǒng)警報(bào)的一分鐘直方圖的小波系數(shù),并且檢測(cè)過(guò)程可以在各時(shí)點(diǎn)處選取那些在小波系數(shù)(例如,高頻系數(shù)或低頻系數(shù))中具有異常高能量的主機(jī)。在又一實(shí)例中,統(tǒng)計(jì)模型可以確定直方圖在一段時(shí)間間隔上的k均值聚類,并且檢測(cè)過(guò)程可以選取出異常值。如上所述,可以構(gòu)想其它各種模型和過(guò)程,此處提供的特定實(shí)例并非旨在作為限制。數(shù)據(jù)源可以包括來(lái)自網(wǎng)絡(luò)的DNS查詢。其它數(shù)據(jù)源可以包括入侵檢測(cè)系統(tǒng)(IDS) /入侵防御系統(tǒng)(IPS)警報(bào)、防火墻警報(bào)和/或日志、DNS響應(yīng)、路由器在網(wǎng)絡(luò)中創(chuàng)建的網(wǎng)絡(luò)流記錄,以及原始網(wǎng)絡(luò)業(yè)務(wù)和/或蹤跡,以及諸如安全更新(例如,在公共域中發(fā)現(xiàn)和公布的軟件補(bǔ)丁和漏洞)之類的其它數(shù)據(jù)源。分析流模式可以編碼所有這些可能的選項(xiàng),而具體的分析流(100)將數(shù)據(jù)源和流中的其它原子運(yùn)算符進(jìn)行具體化(crystallize)。
[0029]圖3示出端到端應(yīng)用用來(lái)執(zhí)行機(jī)器學(xué)習(xí)任務(wù)的方法?,F(xiàn)在參考圖3,可從網(wǎng)絡(luò)引入DNS網(wǎng)絡(luò)業(yè)務(wù)(301)。
[0030]在方框(302),所述方法選擇各種分析流。這些分析流可以涉及屬性選擇、特征提取以及將主機(jī)分類為被感染或未被感染。在方框(302),所述方法可以包括構(gòu)建分類器并使用分類器對(duì)主機(jī)進(jìn)行分類。
[0031]方框(302)可被實(shí)現(xiàn)為自動(dòng)反饋的一個(gè)實(shí)例。在一組分析流根據(jù)它們確定的感染行為準(zhǔn)則來(lái)標(biāo)記主機(jī)時(shí),在方框(303),所述方法可以根據(jù)來(lái)自外部源的真實(shí)情況(304)推導(dǎo)出反饋。例如,在方框(303),所述方法可以包括確定網(wǎng)絡(luò)中哪些被主機(jī)訪問(wèn)的域是因特網(wǎng)中的黑名單域(作為內(nèi)容分析的結(jié)果)的一部分。所述方法可以包括在給定網(wǎng)絡(luò)探測(cè)數(shù)據(jù)之后,檢測(cè)弱基礎(chǔ)設(shè)施,例如檢測(cè)基礎(chǔ)設(shè)施中的瓶頸。所述方法可以還包括檢測(cè)網(wǎng)絡(luò)業(yè)務(wù)中的惡意軟件內(nèi)容。
[0032]方框(303)的反饋可以由方框(302)用于改善所述一組分析流。更具體地說(shuō),在方框(302),所述方法可以確定哪些流根據(jù)反饋(305)正確地預(yù)測(cè)受感染的主機(jī)并為這些流提供較高的權(quán)重。這些流更可能被保留。類似地,在方框(302),所述方法可以確定哪些流未與反饋很好地匹配,并且這些流可被丟棄和/或被其它流取代,例如被較新的流取代。通過(guò)所述方式,可增加整體檢測(cè)速度。決定保留哪些流以及丟棄哪些流的任務(wù)可以由機(jī)器學(xué)習(xí)算法自動(dòng)執(zhí)行。
[0033]反饋可以由一個(gè)或多個(gè)外部源提供,也可以通過(guò)從系統(tǒng)到一個(gè)或多個(gè)外部源的多個(gè)訂閱來(lái)獲知。反饋可以確認(rèn)或拒絕至少一個(gè)分析流的執(zhí)行。例如,反饋可以確認(rèn)某一域被正確標(biāo)記。
[0034]盡管圖3所示的探索的一個(gè)目標(biāo)是分類,但是此處體現(xiàn)的發(fā)明概念可用于其它任務(wù),例如異常檢測(cè),構(gòu)建主機(jī)行為統(tǒng)計(jì)模型,以及群集。
[0035]本發(fā)明的各實(shí)施例的方法可非常適合于在電子設(shè)備或備選系統(tǒng)中使用。因此,本發(fā)明的各實(shí)施例可以采取完全的硬件實(shí)施例或組合了在此可統(tǒng)稱為“處理器”、“電路”、“模塊”或“系統(tǒng)”的軟件和硬件方面的實(shí)施例的形式。此外,本發(fā)明的實(shí)施例還可以采取在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)中包含計(jì)算機(jī)可讀的程序代碼。
[0036]可以采用一個(gè)或多個(gè)計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)的任意組合。計(jì)算機(jī)可用或計(jì)算機(jī)可讀介質(zhì)可以是計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)例如可以是一但不限于一電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的更具體的例子(非窮舉的列表)包括:便攜式計(jì)算機(jī)磁盤、硬盤、隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、可擦式可編程只讀存儲(chǔ)器(EPR0M或閃存)、光纖、便攜式緊湊磁盤只讀存儲(chǔ)器(CD-ROM)、光存儲(chǔ)器件、磁存儲(chǔ)器件、或者上述的任意合適的組合。在本文件中,計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)可以是任何包含或存儲(chǔ)程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
[0037]可以以一種或多種程序設(shè)計(jì)語(yǔ)言的任意組合來(lái)編寫用于執(zhí)行本發(fā)明實(shí)施例的操作的計(jì)算機(jī)程序代碼,所述程序設(shè)計(jì)語(yǔ)言包括面向?qū)ο蟮某绦蛟O(shè)計(jì)語(yǔ)言一諸如Java、Smalltalk、C++等,還包括常規(guī)的過(guò)程式程序設(shè)計(jì)語(yǔ)言一諸如“C”語(yǔ)言或類似的程序設(shè)計(jì)語(yǔ)言。程序代碼可以完全地在用戶計(jì)算機(jī)上執(zhí)行、部分地在用戶計(jì)算機(jī)上執(zhí)行、作為一個(gè)獨(dú)立的軟件包執(zhí)行、部分在用戶計(jì)算機(jī)上部分在遠(yuǎn)程計(jì)算機(jī)上執(zhí)行、或者完全在遠(yuǎn)程計(jì)算機(jī)或服務(wù)器上執(zhí)行。在涉及遠(yuǎn)程計(jì)算機(jī)的情形中,遠(yuǎn)程計(jì)算機(jī)可以通過(guò)任意種類的網(wǎng)絡(luò)一包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN)—連接到用戶計(jì)算機(jī),或者,可以連接到外部計(jì)算機(jī)(例如利用因特網(wǎng)服務(wù)提供商來(lái)通過(guò)因特網(wǎng)連接)。
[0038]上面參考所述方法、裝置(系統(tǒng))和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或框圖描述本發(fā)明的實(shí)施例。應(yīng)當(dāng)理解,流程圖和/或框圖的每個(gè)方框以及流程圖和/或框圖中各方框的組合,都可以由計(jì)算機(jī)程序指令實(shí)現(xiàn)。
[0039]這些計(jì)算機(jī)程序指令可以存儲(chǔ)在能使得計(jì)算機(jī)或其它可編程數(shù)據(jù)處理裝置以特定方式工作的計(jì)算機(jī)可讀介質(zhì)中,這樣,存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出一個(gè)包括實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令裝置(instruction means)的制造品。
[0040]這些計(jì)算機(jī)程序指令可以存儲(chǔ)在能使得計(jì)算機(jī)、其它可編程數(shù)據(jù)處理裝置或其它設(shè)備以特定方式工作的計(jì)算機(jī)可讀介質(zhì)中,這樣,存儲(chǔ)在計(jì)算機(jī)可讀介質(zhì)中的指令就產(chǎn)生出一個(gè)包括實(shí)現(xiàn)流程圖和/或框圖中的方框中規(guī)定的功能/操作的指令的制造品。
[0041]例如,圖4是示出用于執(zhí)行自動(dòng)數(shù)據(jù)探索的方法的示例性計(jì)算機(jī)系統(tǒng)的框圖。計(jì)算機(jī)系統(tǒng)401可以包括處理器402、與所述處理器耦合(例如,通過(guò)總線404或備選的連接手段)的存儲(chǔ)器403,以及在操作上與處理器402對(duì)接的輸入/輸出(I/O)電路405-406。處理器402可被配置為執(zhí)行本發(fā)明中描述的一種或多種方法,這些方法的示例性實(shí)施例在上面的附圖中示出并在此處進(jìn)行描述。
[0042]本發(fā)明的各實(shí)施例可以實(shí)現(xiàn)為存儲(chǔ)在存儲(chǔ)器403中并由處理器402執(zhí)行以處理來(lái)自信號(hào)源408的信號(hào)的例程407。因此,計(jì)算機(jī)系統(tǒng)401為通用計(jì)算機(jī)系統(tǒng),當(dāng)執(zhí)行本發(fā)明的例程407時(shí),變?yōu)閷S糜?jì)算機(jī)系統(tǒng)。
[0043]將理解,如在此使用的,術(shù)語(yǔ)“處理器”旨在包括任何處理設(shè)備,例如,包括中央處理單元(CPU)和/或其它處理電路(例如,數(shù)字信號(hào)處理器(DSP)、微處理器等)的處理設(shè)備。此外,將理解,術(shù)語(yǔ)“處理器”可以指在處理器中包含多個(gè)處理核的多核處理器,或指一個(gè)以上的處理設(shè)備,并且與某一處理設(shè)備關(guān)聯(lián)的各種組件可以被其它處理設(shè)備共享。
[0044]如在此使用的,術(shù)語(yǔ)“存儲(chǔ)器”旨在包括內(nèi)存或與處理器或CPU關(guān)聯(lián)的其它計(jì)算機(jī)可讀介質(zhì),例如隨機(jī)存取存儲(chǔ)器(RAM)、只讀存儲(chǔ)器(ROM)、固定存儲(chǔ)介質(zhì)(例如,硬盤)、可移動(dòng)存儲(chǔ)介質(zhì)(例如,軟盤)、閃存等。此外,如在此使用的,術(shù)語(yǔ)“I/O電路”旨在例如包括一個(gè)或多個(gè)用于將數(shù)據(jù)輸入處理器的輸入設(shè)備(例如,鍵盤、鼠標(biāo)等),和/或一個(gè)或多個(gè)用于呈現(xiàn)與處理器關(guān)聯(lián)的結(jié)果的輸出設(shè)備(例如,打印機(jī)、監(jiān)視器等)。
[0045]附圖中的流程圖和框圖顯示了根據(jù)本發(fā)明的多個(gè)實(shí)施例的系統(tǒng)、方法和計(jì)算機(jī)程序產(chǎn)品的可能實(shí)現(xiàn)的體系架構(gòu)、功能和操作。在這點(diǎn)上,流程圖或框圖中的每個(gè)方框可以代表一個(gè)模塊、程序段或代碼的一部分,所述模塊、程序段或代碼的一部分包含一個(gè)或多個(gè)用于實(shí)現(xiàn)規(guī)定的邏輯功能的可執(zhí)行指令。也應(yīng)當(dāng)注意,在有些作為替換的實(shí)現(xiàn)中,方框中所標(biāo)注的功能也可以以不同于附圖中所標(biāo)注的順序發(fā)生。例如,兩個(gè)連續(xù)的方框?qū)嶋H上可以基本并行地執(zhí)行,它們有時(shí)也可以按相反的順序執(zhí)行,這依所涉及的功能而定。也要注意的是,框圖和/或流程圖中的每個(gè)方框、以及框圖和/或流程圖中的方框的組合,可以用執(zhí)行規(guī)定的功能或操作的專用的基于硬件的系統(tǒng)來(lái)實(shí)現(xiàn),或者可以用專用硬件與計(jì)算機(jī)指令的組合來(lái)實(shí)現(xiàn)。
[0046]盡管此處參考附圖描述了本發(fā)明的示例性實(shí)施例,但是將理解,本發(fā)明并不限于這些精確的實(shí)施例,在不偏離所附權(quán)利要求的范圍的情況下,本領(lǐng)域的技術(shù)人員可以對(duì)這些實(shí)施例做出各種其它更改和修改。
【權(quán)利要求】
1.一種用于自動(dòng)數(shù)據(jù)探索的方法,所述方法包括: 經(jīng)由相連計(jì)算機(jī)節(jié)點(diǎn)的網(wǎng)絡(luò)接收數(shù)據(jù)流; 提取所述數(shù)據(jù)流的多個(gè)屬性; 從每個(gè)所述屬性推導(dǎo)出多個(gè)特征; 聚合所述數(shù)據(jù)流的多個(gè)數(shù)據(jù)項(xiàng); 在給出所述屬性、所述特征以及所述數(shù)據(jù)項(xiàng)的聚合的情況下,創(chuàng)建所述數(shù)據(jù)流的模型;以及 根據(jù)所述模型檢測(cè)所述數(shù)據(jù)流中的事件。
2.根據(jù)權(quán)利要求1的方法,其中在完整的所述數(shù)據(jù)流上執(zhí)行所述聚合。
3.根據(jù)權(quán)利要求1的方法,還包括對(duì)所述數(shù)據(jù)流進(jìn)行分區(qū),其中在所述數(shù)據(jù)流的一個(gè)分區(qū)上執(zhí)行所述聚合。
4.根據(jù)權(quán)利要求1的方法,其中所述事件與所述模型不一致。
5.根據(jù)權(quán)利要求4的方法,還包括接收與所述模型的已測(cè)量性能對(duì)應(yīng)的反饋。
6.根據(jù)權(quán)利要求5的方法,還包括根據(jù)所述反饋來(lái)調(diào)整所述數(shù)據(jù)流的所述多個(gè)屬性的提取。
7.一種用于自動(dòng)數(shù)據(jù)探索的裝置,所述裝置包括: 被配置為從分析流模式選擇多個(gè)分析流的模塊; 被配置為執(zhí)行任務(wù)的模塊,其中通過(guò)所述多個(gè)分析流跟蹤所述任務(wù); 被配置為接收所述多個(gè)分析流中的每個(gè)分析流的反饋的模塊; 被配置為確定所述多個(gè)分析流中的每個(gè)分析流的性能得分的模塊;以及 被配置為根據(jù)所述性能得分來(lái)調(diào)整從所述分析流模式選擇所述多個(gè)分析流的模塊。
8.根據(jù)權(quán)利要求7的裝置,其中被配置為調(diào)整所述多個(gè)分析流的選擇的模塊包括被配置為從所述模式添加流的模塊。
9.根據(jù)權(quán)利要求7的裝置,其中被配置為調(diào)整所述多個(gè)分析流的選擇的模塊包括被配置為從現(xiàn)有選擇刪除流的模塊。
10.根據(jù)權(quán)利要求7的裝置,還包括被配置為請(qǐng)求所述反饋的模塊。
11.根據(jù)權(quán)利要求10的裝置,其中由外部源提供所述反饋。
12.根據(jù)權(quán)利要求10的裝置,其中通過(guò)到外部源的多個(gè)訂閱來(lái)獲知所述反饋。
13.一種用于自動(dòng)數(shù)據(jù)探索的方法,所述方法包括: 從分析流模式選擇多個(gè)分析流以便檢測(cè)相連計(jì)算機(jī)節(jié)點(diǎn)的網(wǎng)絡(luò)之間的計(jì)算機(jī)網(wǎng)絡(luò)業(yè)務(wù)中的異常; 執(zhí)行用于檢測(cè)所述計(jì)算機(jī)網(wǎng)絡(luò)業(yè)務(wù)中的所述異常的任務(wù),其中通過(guò)所述多個(gè)分析流跟蹤所述任務(wù); 接收所述多個(gè)分析流中的每個(gè)分析流的反饋; 確定所述多個(gè)分析流中的每個(gè)分析流的性能得分,所述得分指示相應(yīng)分析流檢測(cè)所述計(jì)算機(jī)網(wǎng)絡(luò)業(yè)務(wù)中的惡意軟件活動(dòng)的能力;以及 根據(jù)所述性能得分來(lái)調(diào)整所述多個(gè)分析流的選擇。
14.根據(jù)權(quán)利要求13的方法,其中調(diào)整所述多個(gè)分析流的選擇包括從所述模式添加分析流。
15.根據(jù)權(quán)利要求13的方法,其中所述多個(gè)分析流的選擇包括從現(xiàn)有選擇刪除分析流。
16.根據(jù)權(quán)利要求13的方法,其中還包括請(qǐng)求所述反饋。
17.根據(jù)權(quán)利要求13的方法,其中由外部源提供所述反饋。
18.根據(jù)權(quán)利要求13的方法,其中通過(guò)到外部源的多個(gè)訂閱來(lái)獲知所述反饋。
19.根據(jù)權(quán)利要求13的方法,其中所述反饋是對(duì)至少一個(gè)分析流的性能的確認(rèn)。
20.根據(jù)權(quán)利要求13的方法,其中所述反饋是對(duì)至少一個(gè)分析流的性能的拒絕。
21.一種用于自動(dòng) 數(shù)據(jù)探索的裝置,用于執(zhí)行權(quán)利要求1至6中的任一權(quán)利要求的方法步驟。
【文檔編號(hào)】G06F17/30GK103577514SQ201310213773
【公開(kāi)日】2014年2月12日 申請(qǐng)日期:2013年5月31日 優(yōu)先權(quán)日:2012年8月2日
【發(fā)明者】A·貝格爾茲莫, N·馬斯特納德, S·帕塔薩拉蒂, A·V·里亞博夫, D·圖拉加, O·烏德雷亞 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司