一種預(yù)處理單元、由其構(gòu)成的數(shù)據(jù)處理系統(tǒng)以及處理方法
【專利摘要】本發(fā)明公開了一種數(shù)據(jù)預(yù)處理單元、由其構(gòu)成的數(shù)據(jù)處理系統(tǒng)以及處理方法。一種數(shù)據(jù)預(yù)處理單元,該單元包括任務(wù)調(diào)度模塊以及由任務(wù)調(diào)度模塊控制的至少一個任務(wù)處理模塊,其中,任務(wù)調(diào)度模塊依據(jù)網(wǎng)絡(luò)接收單元捕獲的網(wǎng)絡(luò)數(shù)據(jù)包,建立任務(wù)列表,向預(yù)處理模塊分配任務(wù)并監(jiān)控其運(yùn)行狀態(tài);任務(wù)處理模塊包括:管理器;應(yīng)用協(xié)議解析引擎;以及業(yè)務(wù)數(shù)據(jù)過濾引擎。所述系統(tǒng)及方法將網(wǎng)絡(luò)數(shù)據(jù)包形成元數(shù)據(jù)存入規(guī)則庫并實現(xiàn)對其的關(guān)聯(lián)分析。本發(fā)明的有益效果為:通過預(yù)處理單元對數(shù)據(jù)的處理,極大的降低后續(xù)單元的工作壓力,更有效的應(yīng)對數(shù)據(jù)訪問高峰。處理系統(tǒng)通過對業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)分析,實現(xiàn)其深度使用。
【專利說明】一種預(yù)處理單元、由其構(gòu)成的數(shù)據(jù)處理系統(tǒng)以及處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息【技術(shù)領(lǐng)域】,具體涉及一種數(shù)據(jù)預(yù)處理單元、由其構(gòu)成的數(shù)據(jù)處理系統(tǒng)以及處理方法。
【背景技術(shù)】
[0002]隨著信息技術(shù)的快速發(fā)展,網(wǎng)絡(luò)服務(wù)器經(jīng)常需要處理大量的業(yè)務(wù)數(shù)據(jù),例如促銷時的網(wǎng)購、綜合查詢系統(tǒng)(或警務(wù)綜合平臺)、情報信息綜合應(yīng)用平臺、人口信息系統(tǒng)、出入境人員/證件信息庫、機(jī)動車/駕駛?cè)诵畔?、公安機(jī)關(guān)戶籍管理系統(tǒng)、金融行業(yè)核心業(yè)務(wù)系統(tǒng)、證券交易系統(tǒng)、企業(yè)ERP應(yīng)用等以及一些其他行業(yè)核心業(yè)務(wù)系統(tǒng),基于現(xiàn)有的網(wǎng)絡(luò)訪問行為尚未建立日志或日志信息不全的現(xiàn)狀,在信息化與業(yè)務(wù)工作不斷深入融合的背景下,利用信息系統(tǒng)的漏洞或不完善的方面違規(guī)操作、冒用他人身份操作、授意他人操作的情況難以避免。更有甚者,在信息系統(tǒng)中惡意修改數(shù)據(jù)、使用黑客軟件攻擊服務(wù)器的現(xiàn)象也偶有發(fā)生。因為沒有專門的操作日志記錄,導(dǎo)致取證困難,這也充分暴露了內(nèi)部監(jiān)督制約的必要性。嚴(yán)格審計管理所有的業(yè)務(wù)信息系統(tǒng),并制定責(zé)任追查和追蹤制度,可以有效防止和避免內(nèi)部人員利用信息系統(tǒng)監(jiān)守自盜等非授權(quán)的行為操作,確保信息系統(tǒng)的安全。
[0003]另外,現(xiàn)有的這些系統(tǒng)中,其業(yè)務(wù)審計功能普遍較弱,為了對業(yè)務(wù)行為進(jìn)行審計,通常的解決方式是對應(yīng)用系統(tǒng)進(jìn)行改造,增加業(yè)務(wù)審計模塊,但改造不僅需要經(jīng)費、影響系統(tǒng)的正常應(yīng)用,而且對系統(tǒng)的資源(CPU、內(nèi)存)也會產(chǎn)生較大的壓力。
【發(fā)明內(nèi)容】
[0004]有鑒于此,本發(fā)明提供的一種預(yù)處理單元、由其構(gòu)成的數(shù)據(jù)處理系統(tǒng)以及處理方法,通過預(yù)處理工序,減輕數(shù)據(jù)訪問高峰階段服務(wù)器的處理壓力。
[0005]為達(dá)到上述目的,本發(fā)明采用的技術(shù)方案是:
一種數(shù)據(jù)預(yù)處理單元,該單元包括任務(wù)調(diào)度模塊以及由任務(wù)調(diào)度模塊控制的至少一個任務(wù)處理模塊,其中,
任務(wù)調(diào)度模塊依據(jù)網(wǎng)絡(luò)接收單元捕獲的網(wǎng)絡(luò)數(shù)據(jù)包,建立任務(wù)列表,向預(yù)處理模塊分配任務(wù)并監(jiān)控其運(yùn)行狀態(tài);
任務(wù)處理模塊包括:
管理器,用于同任務(wù)調(diào)度模塊進(jìn)行數(shù)據(jù)交換,并監(jiān)控任務(wù)處理模塊的系統(tǒng)資源和任務(wù)執(zhí)行進(jìn)度;
應(yīng)用協(xié)議解析引擎,根據(jù)任務(wù)指令接收網(wǎng)絡(luò)數(shù)據(jù)包并進(jìn)行解析、整合,形成網(wǎng)絡(luò)數(shù)據(jù)
包;
以及業(yè)務(wù)數(shù)據(jù)過濾引擎,接收應(yīng)用協(xié)議解析引擎?zhèn)鬏斶^來的網(wǎng)絡(luò)數(shù)據(jù)包,并過濾掉非網(wǎng)絡(luò)數(shù)據(jù)包。通過預(yù)處理單元處理的網(wǎng)絡(luò)數(shù)據(jù)包,都是與業(yè)務(wù)相關(guān)的明文包,極大的減輕處理單元的處理壓力。
[0006]進(jìn)一步的,任務(wù)調(diào)度模塊將任務(wù)分解成子任務(wù)以分配給多個任務(wù)處理模塊,子任務(wù)的處理分為串行處理和并行處理。針對較復(fù)雜的任務(wù),多個模塊同時處理速度更快。
[0007]進(jìn)一步的,任務(wù)和子任務(wù)的運(yùn)行狀態(tài)包括準(zhǔn)備、就序、處理、完成以及收回。更加便于調(diào)度模塊對任務(wù)的調(diào)派。
[0008]一種數(shù)據(jù)處理系統(tǒng),包括網(wǎng)絡(luò)接收單元、處理單元、維護(hù)單元、存儲單元以及前述的預(yù)處理單元,其中,
網(wǎng)絡(luò)接收單元,用以接收網(wǎng)絡(luò)數(shù)據(jù)包;
處理單元,接收網(wǎng)絡(luò)接收單元傳輸過來的網(wǎng)絡(luò)數(shù)據(jù)包,根據(jù)業(yè)務(wù)信息提取規(guī)則對網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行關(guān)聯(lián)分析以生成處理結(jié)果;
維護(hù)單元,對業(yè)務(wù)信息提取規(guī)則和業(yè)務(wù)信息進(jìn)行維護(hù)和更新;
存儲單元,存儲業(yè)務(wù)信息提取規(guī)則以及業(yè)務(wù)信息。
[0009]裝有預(yù)處理單元的系統(tǒng)處理速度更快,處理能力更強(qiáng)大,能應(yīng)對更大量的數(shù)據(jù)訪問。
[0010]進(jìn)一步的,處理單元接收網(wǎng)絡(luò)接收單元傳輸過來的網(wǎng)絡(luò)數(shù)據(jù)包,并處理以形成包括請求人、請求時間、目標(biāo)系統(tǒng)以及業(yè)務(wù)數(shù)據(jù)的元數(shù)據(jù)并存入業(yè)務(wù)信息。使規(guī)則庫具有對訪問數(shù)據(jù)的關(guān)聯(lián)分析能力。
[0011]進(jìn)一步的,網(wǎng)絡(luò)接收單元包括網(wǎng)絡(luò)身份認(rèn)證系統(tǒng)和網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng),網(wǎng)絡(luò)身份認(rèn)證系統(tǒng)用于監(jiān)控用戶狀態(tài)以確認(rèn)是否允許用戶數(shù)據(jù)通過,網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)根據(jù)預(yù)設(shè)抓包規(guī)則捕獲網(wǎng)絡(luò)數(shù)據(jù)包。進(jìn)行身份認(rèn)證以實現(xiàn)請求人確認(rèn),通過兩個系統(tǒng)實現(xiàn)資源的高效利用。
[0012]優(yōu)選的,存儲單元以統(tǒng)一的存儲接口集成數(shù)據(jù)庫管理系統(tǒng)和分布式存儲架構(gòu)。可以部署在低廉的硬件上,也可以提供高傳輸率訪問數(shù)據(jù),適合未來超大數(shù)據(jù)集的審計和應(yīng)用分析。也便于新的存儲單元的接入。
[0013]一種數(shù)據(jù)處理方法,包括以下步驟:
801:構(gòu)建包括業(yè)務(wù)數(shù)據(jù)包識別特征和業(yè)務(wù)信息提取規(guī)則的規(guī)則庫;
802:接收業(yè)務(wù)數(shù)據(jù)包,提取由請求人、請求時間、目標(biāo)系統(tǒng)以及業(yè)務(wù)數(shù)據(jù)組成的元數(shù)
據(jù);
803:根據(jù)元數(shù)據(jù)特征,從規(guī)則庫中讀取提取規(guī)則;
804:根據(jù)提取規(guī)則提取業(yè)務(wù)信息。
[0014]基于關(guān)聯(lián)分析知識,可以對業(yè)務(wù)信息進(jìn)行不同的挖掘,從而可以根據(jù)需求實現(xiàn)對業(yè)務(wù)信息的綜合分析和處理。
[0015]進(jìn)一步的,規(guī)則庫中的業(yè)務(wù)信息提取規(guī)則的狀態(tài)分為測試、活動、凍結(jié)、失效四個階段。規(guī)則庫還包括規(guī)則定義、規(guī)則有效性驗證以及規(guī)則管理。業(yè)務(wù)信息和提取規(guī)則都是動態(tài)的,實時更新的。
[0016]本發(fā)明的有益效果為:通過預(yù)處理單元對數(shù)據(jù)的處理,極大的降低后續(xù)單元的工作壓力,更有效的應(yīng)對數(shù)據(jù)訪問高峰。處理系統(tǒng)通過對業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)分析,實現(xiàn)其深度使用。
【專利附圖】
【附圖說明】
[0017]圖1為本發(fā)明所述數(shù)據(jù)處理系統(tǒng)的結(jié)構(gòu)框圖; 圖2為本發(fā)明所述數(shù)據(jù)處理方法的流程圖;
圖3為本發(fā)明所述數(shù)據(jù)處理系統(tǒng)的具體實施圖。
【具體實施方式】
[0018]下面結(jié)合附圖對本發(fā)明的技術(shù)方案進(jìn)行描述,很顯然的,附圖所描述的僅僅是本發(fā)明的一部分而不是全部實施例。
[0019]如圖1所示,本發(fā)明提供的一種數(shù)據(jù)預(yù)處理單元,包括任務(wù)調(diào)度模塊以及由任務(wù)調(diào)度模塊控制的至少一個任務(wù)處理模塊。在眾多場合,網(wǎng)絡(luò)數(shù)據(jù)訪問在業(yè)務(wù)高峰期的數(shù)據(jù)量非常巨大,對其進(jìn)行業(yè)務(wù)審計所需的資源也非常巨大,本發(fā)明的核心功能是對捕獲的網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行預(yù)處理,減輕后續(xù)審計處理的壓力,主要處理手段包括應(yīng)用協(xié)議分析引擎、協(xié)議算法模塊(http、DES、MD5等)及業(yè)務(wù)數(shù)據(jù)過濾引擎。
[0020]本發(fā)明提供的預(yù)處理單元優(yōu)選分布式設(shè)計,由多個預(yù)處理模塊和調(diào)度模塊構(gòu)成。在實際布置時,可依據(jù)業(yè)務(wù)預(yù)處理需求及預(yù)處理機(jī)的運(yùn)算能力,確定預(yù)處理模塊的數(shù)量。每個預(yù)處理模塊除內(nèi)置數(shù)據(jù)處理模塊外,還包括任務(wù)管理模塊,任務(wù)管理模塊接受任務(wù)調(diào)度模塊的指令,處理指定網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)接受的網(wǎng)絡(luò)數(shù)據(jù)包;預(yù)處理模塊的任務(wù)管理模塊還定時監(jiān)控本機(jī)的系統(tǒng)資源和任務(wù)執(zhí)行情況,并上報到任務(wù)調(diào)度模塊,一旦預(yù)處理模塊出現(xiàn)故障,任務(wù)調(diào)度模塊可以及時協(xié)調(diào)其它預(yù)處理機(jī),接替出現(xiàn)故障的預(yù)處理機(jī)。任務(wù)調(diào)度模塊是預(yù)處理的核心,它可以協(xié)調(diào)多任務(wù)預(yù)處理模塊的并行工作。
[0021]這里需要說明的是,處理模塊和任務(wù)調(diào)度模塊是軟件模塊化概念,在一臺服務(wù)器上,可以安裝處理機(jī)軟件或任務(wù)調(diào)度引擎機(jī)軟件,也可以把處理機(jī)軟件或任務(wù)調(diào)度引擎機(jī)軟件同時安裝到一臺服務(wù)器上。
[0022]每個預(yù)處理模塊內(nèi)部都包括應(yīng)用協(xié)議解析弓I擎和業(yè)務(wù)數(shù)據(jù)過濾弓I擎兩部分。應(yīng)用協(xié)議解析引擎從網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)接收http及https協(xié)議數(shù)據(jù)包并進(jìn)行解析,整合成業(yè)務(wù)數(shù)據(jù)包;業(yè)務(wù)數(shù)據(jù)過濾引擎對解析后的業(yè)務(wù)數(shù)據(jù)包進(jìn)行二次清洗。針對http協(xié)議數(shù)據(jù)包,應(yīng)用協(xié)議解析引擎分別提取請求報文的請求行、消息報頭、請求正文和應(yīng)答報文的狀態(tài)行、消息報頭、響應(yīng)正文,把這些信息作為一個信息單元,提交業(yè)務(wù)數(shù)據(jù)過濾引擎進(jìn)行處理。對于https協(xié)議的數(shù)據(jù)包,在提取http信息之前,還要進(jìn)行報文解密工作。首先,從服務(wù)器證書庫中,提取報文發(fā)起方的數(shù)字證書;然后以數(shù)據(jù)證書對https本次通訊的密鑰協(xié)商報文進(jìn)行解密了,獲取本次通訊的密鑰;分析https本次通訊的協(xié)商報文,確定本次通訊的加密算法;根據(jù)采用的算法調(diào)用相應(yīng)的DES、RC2、RC5等模塊,對報文進(jìn)行解析,獲得通訊的明文;最后,對明文進(jìn)行MD5或SHA的簽名驗證,保證解析的正確性。為了實現(xiàn)https等加密數(shù)據(jù)的還原,本發(fā)明提供的預(yù)處理單元內(nèi)置數(shù)字證書庫,導(dǎo)入數(shù)據(jù)證書,實現(xiàn)解密工作。
[0023]當(dāng)應(yīng)用協(xié)議解析完成后,把全部變?yōu)槊魑牡臄?shù)據(jù)包提交業(yè)務(wù)數(shù)據(jù)過濾引擎,對捕獲的數(shù)據(jù)包進(jìn)行二次清洗,過濾掉與業(yè)務(wù)無關(guān)的CSS、Javascript、圖片等數(shù)據(jù)包。經(jīng)過預(yù)處理單元后,從網(wǎng)絡(luò)捕獲的數(shù)據(jù)包只剩下業(yè)務(wù)相關(guān)的明文包,可以極大地減輕后續(xù)處理壓力。
[0024]如圖1-3所示,本發(fā)明提供的一種數(shù)據(jù)處理系統(tǒng),包括網(wǎng)絡(luò)接收單元、處理單元、維護(hù)單元、存儲單元以及前述的預(yù)處理單元。
[0025]其中,網(wǎng)絡(luò)接收單元的網(wǎng)絡(luò)并非特指互聯(lián)網(wǎng),應(yīng)作廣義的理解,包括各種形式的內(nèi)網(wǎng)以及其他現(xiàn)有網(wǎng)絡(luò)形式。網(wǎng)絡(luò)接收單元由網(wǎng)絡(luò)身份認(rèn)證系統(tǒng)和網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)構(gòu)成,它們分別擔(dān)負(fù)不同任務(wù)。網(wǎng)絡(luò)身份認(rèn)證子系統(tǒng)位于網(wǎng)絡(luò)主干線路上,任務(wù)業(yè)務(wù)請求都必須經(jīng)過該子系統(tǒng)。子系統(tǒng)內(nèi)部的連接控制引擎用于控制用戶,它實時與用戶狀態(tài)監(jiān)控模塊通訊,確定是否允許用戶數(shù)據(jù)通過;如果用戶沒有登錄,連接控制引擎自動把用戶請求跳轉(zhuǎn)到登錄審計界面,由用戶輸入登錄信息;對于第一次進(jìn)入網(wǎng)絡(luò)的用戶,可進(jìn)入用戶信息管理模塊,注冊和管理個人信息;黑、白名單是為了提供系統(tǒng)效率,優(yōu)化系統(tǒng)功能而設(shè)置的;bypass用于保證整個系統(tǒng)的兼容性,當(dāng)網(wǎng)絡(luò)身份認(rèn)證子系統(tǒng)出現(xiàn)軟、硬件故障時,bypass模塊啟動使數(shù)據(jù)包可以直接通過本設(shè)備。網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)位于單位主要交換設(shè)備的鏡像上,根據(jù)預(yù)設(shè)的抓包規(guī)則捕獲網(wǎng)絡(luò)數(shù)據(jù)包,經(jīng)過抓包規(guī)則的過濾,可以屏蔽掉無關(guān)數(shù)據(jù)包,減輕系統(tǒng)壓力;抓包規(guī)則以IP包為目標(biāo),可以設(shè)定源IP、源端口、目標(biāo)IP和目標(biāo)端口 ;另夕卜,考慮到日常工作中,業(yè)務(wù)請求的瞬發(fā)性特點,在網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)中,設(shè)置了大容量的網(wǎng)絡(luò)數(shù)據(jù)緩沖池,起到削峰抑谷的作用,當(dāng)網(wǎng)絡(luò)數(shù)據(jù)流量較大時,網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)的資源主要用來抓包,當(dāng)網(wǎng)絡(luò)數(shù)據(jù)流量較小時,網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)的資源可以用來進(jìn)行數(shù)據(jù)包整合,實現(xiàn)資源的充分利用。
[0026]業(yè)務(wù)內(nèi)容處理單元是本系統(tǒng)的核心,主機(jī)實現(xiàn)業(yè)務(wù)數(shù)據(jù)的提取和關(guān)聯(lián)。主要處理流程包括信息提取、信息有效性驗證、中文編碼轉(zhuǎn)換及信息整合(關(guān)聯(lián))。信息提取時,首先與規(guī)則庫通訊,獲得活動規(guī)則,然后根據(jù)規(guī)則提取數(shù)據(jù);提取數(shù)據(jù)后,要對數(shù)據(jù)的有效性進(jìn)行驗證,如與預(yù)期不一致,應(yīng)產(chǎn)生報警,由管理員對數(shù)據(jù)包或規(guī)則的有效性進(jìn)行確認(rèn);如果提取的信息中含有中文信息,則要進(jìn)行中文編碼轉(zhuǎn)換,把GBK、GB18030、Unicode等編碼的中文統(tǒng)一轉(zhuǎn)換為utf-8格式;最后,要按照關(guān)聯(lián)規(guī)則庫對提取信息進(jìn)行關(guān)聯(lián),生成操作人員、時間、目標(biāo)系統(tǒng)、業(yè)務(wù)信息等元數(shù)據(jù),其中用戶狀態(tài)表由網(wǎng)絡(luò)身份認(rèn)證子系統(tǒng)提供信息元,主要包括〈人員、IP、時段〉三元組,用于操作人員與業(yè)務(wù)數(shù)據(jù)的關(guān)聯(lián)。業(yè)務(wù)規(guī)則管理子系統(tǒng)是主要用于規(guī)則維護(hù),同時管理規(guī)則的分發(fā),同時管理員也可以利用規(guī)則有效性監(jiān)測工具,驗證當(dāng)前規(guī)則是否用效,如果目標(biāo)系統(tǒng)發(fā)生變更,在信息提取時無法通過驗證,那么將向規(guī)則管理子系統(tǒng)發(fā)送規(guī)則失效報警,規(guī)則管理子系統(tǒng)收到報警后,將該規(guī)則狀態(tài)置為“凍結(jié)”,并停止該規(guī)則的分發(fā)。業(yè)務(wù)內(nèi)容處理采用分布式設(shè)計,由調(diào)度機(jī)實現(xiàn)任務(wù)分配、狀態(tài)監(jiān)控及管理,各處理機(jī)定時報送狀態(tài)信息到調(diào)度機(jī)。維護(hù)單元,主要用戶對處理單元中的業(yè)務(wù)信息提取規(guī)則和業(yè)務(wù)信息進(jìn)行維護(hù)和更新;
本發(fā)明提供的系統(tǒng),數(shù)據(jù)存儲單元通過統(tǒng)一的存儲接口可以與數(shù)據(jù)庫管理系統(tǒng)(Oracle、SqlServer> Mysql)和分布式存儲架構(gòu)(hadoop)集成。其中,數(shù)據(jù)庫管理系統(tǒng)以數(shù)據(jù)表為單位,以SQL語言進(jìn)行關(guān)聯(lián)、分析,技術(shù)成熟;分布式存儲架構(gòu)有著高容錯性的特點,并且設(shè)計用來部署在低廉的硬件上,而且提供高傳輸率來訪問的數(shù)據(jù),適合未來超大數(shù)據(jù)集的應(yīng)用分析。
[0027]如圖2所示,本發(fā)明提供的一種業(yè)務(wù)數(shù)據(jù)處理方法,包括以下步驟:
801:構(gòu)建包括業(yè)務(wù)數(shù)據(jù)包識別特征和業(yè)務(wù)信息提取規(guī)則的規(guī)則庫;
802:接收業(yè)務(wù)數(shù)據(jù)包,提取由請求人、請求時間、目標(biāo)系統(tǒng)以及業(yè)務(wù)數(shù)據(jù)組成的元數(shù)
據(jù);
803:根據(jù)元數(shù)據(jù)特征,從規(guī)則庫中讀取提取規(guī)則;
804:根據(jù)提取規(guī)則提取業(yè)務(wù)信息。
[0028]本發(fā)明提供的處理方法,其核心創(chuàng)新點在于:對業(yè)務(wù)信息進(jìn)行分析,按信息提取規(guī)則庫提取業(yè)務(wù)數(shù)據(jù);業(yè)務(wù)信息提取規(guī)則的定義、維護(hù)以及實施算法;基于關(guān)聯(lián)規(guī)則規(guī)則庫,關(guān)聯(lián)分析各類業(yè)務(wù)信息,形成由操作人、目標(biāo)系統(tǒng)、時間、業(yè)務(wù)數(shù)據(jù)組成的元數(shù)據(jù);關(guān)聯(lián)知識的定義及、維護(hù)及實施算法;采用分布式計算方式,實現(xiàn)“業(yè)務(wù)信息分析”和“關(guān)聯(lián)分析”任務(wù)的可調(diào)度性,在物理設(shè)備上實現(xiàn)負(fù)載均衡;提供分布式數(shù)據(jù)接口,支持大數(shù)據(jù)分析。
[0029]另外優(yōu)選的,業(yè)務(wù)數(shù)據(jù)通過網(wǎng)絡(luò)接收,因此在網(wǎng)絡(luò)接收數(shù)據(jù)時還應(yīng)包括Ip數(shù)據(jù)包采集;http(s)等傳輸層協(xié)議的網(wǎng)絡(luò)數(shù)據(jù)包還原;網(wǎng)絡(luò)身份認(rèn)證;現(xiàn)實身份、ip、時段關(guān)聯(lián)算法;相關(guān)業(yè)務(wù)系統(tǒng)的信息采集。
[0030]本發(fā)明提供的方法,步驟802中,業(yè)務(wù)處理單元從預(yù)處理單元的業(yè)務(wù)數(shù)據(jù)緩存處接收業(yè)務(wù)數(shù)據(jù)包,根據(jù)業(yè)務(wù)數(shù)據(jù)包特征,判斷業(yè)務(wù)種類,根據(jù)業(yè)務(wù)種類,從規(guī)則庫中讀取適用于本業(yè)務(wù)的活動規(guī)則子集,按規(guī)則子集提取業(yè)務(wù)信息。如果分析引擎在運(yùn)行過程中,發(fā)現(xiàn)提取規(guī)則有問題,可能由于多種原因,如:業(yè)務(wù)系統(tǒng)升級、規(guī)則適用性不強(qiáng)等,則通過異步機(jī)制通知管理員,由管理員對規(guī)則庫進(jìn)行維護(hù)。
[0031]業(yè)務(wù)信息提取規(guī)則,由抽象化邏輯語言描述,定義適用業(yè)務(wù)、提取參數(shù)定位信息、參數(shù)有效性驗證等信息。根據(jù)不同的業(yè)務(wù),不同的深度分析需求,編輯不同需求規(guī)則。規(guī)則庫包括各種業(yè)務(wù)信息提取規(guī)則的總和。圖2中使用了規(guī)則庫和規(guī)則庫兩個方框表示流程,實際應(yīng)用中提取規(guī)則的總和和業(yè)務(wù)信息的總和即可存儲與一起也可分開放置,根據(jù)實際需求設(shè)置。規(guī)則按其有效狀態(tài)分為活動和凍結(jié),業(yè)務(wù)信息分析引擎提交規(guī)則查詢請求時,規(guī)則庫返回所有適用于該業(yè)務(wù)的、處于活動狀態(tài)的規(guī)則;當(dāng)一條規(guī)則不適用時,可將該規(guī)則狀態(tài)調(diào)整為凍結(jié),該規(guī)則將不生效;規(guī)則庫還包括規(guī)則定義、有效性驗證、規(guī)則管理等工具,由管理員進(jìn)行維護(hù)。
[0032]步驟804中,關(guān)聯(lián)分析包括實現(xiàn)〈業(yè)務(wù)數(shù)據(jù)〉與〈操作人員、時間和業(yè)務(wù)信息〉的關(guān)聯(lián)。這里,業(yè)務(wù)信息根據(jù)需求確定,既需要分析和挖掘網(wǎng)絡(luò)數(shù)據(jù)包何種方向的價值,則選取該方向的業(yè)務(wù)信息對網(wǎng)絡(luò)數(shù)據(jù)包根據(jù)提取規(guī)則進(jìn)行關(guān)聯(lián)以深度分析。業(yè)務(wù)信息可以是業(yè)務(wù)數(shù)據(jù)的總和,也可以是其它信息。
[0033]通過網(wǎng)絡(luò)接收數(shù)據(jù)包時,在網(wǎng)絡(luò)數(shù)據(jù)包還原時,可以提取網(wǎng)絡(luò)數(shù)據(jù)包的操作時間和發(fā)起IP,為了確定操作人員,主要通過網(wǎng)絡(luò)身份認(rèn)證方法,身份認(rèn)證網(wǎng)關(guān)從日切時間點開始工作,記錄各IP地址的狀態(tài),如果I個IP沒經(jīng)過身份認(rèn)證而發(fā)起交易,身份認(rèn)證網(wǎng)關(guān)攔截該IP的通訊,自動跳轉(zhuǎn)到身份認(rèn)證界面,由操作人員輸入身份認(rèn)證信息,實現(xiàn)〈IP,時段〉與〈操作人員〉的關(guān)聯(lián)。對于操作人員的關(guān)聯(lián),視不同目標(biāo)系統(tǒng)可進(jìn)行優(yōu)化,如目標(biāo)系統(tǒng)自身具有身份認(rèn)證模塊,并可提供身份認(rèn)證與通訊session的記錄,那么根據(jù)〈sessionid、操作人員 > 的記錄,可以對身份認(rèn)證網(wǎng)關(guān)的操作人員進(jìn)行確認(rèn)和修正?!礃I(yè)務(wù)數(shù)據(jù)〉與〈業(yè)務(wù)信息〉的關(guān)聯(lián),主要依賴于規(guī)則庫。
[0034]規(guī)則庫中的知識,由業(yè)務(wù)人員歸納、總結(jié),由管理員進(jìn)行維護(hù)。知識采用優(yōu)選采用問題歸約法表述,從關(guān)聯(lián)目標(biāo)出發(fā),逆向推理,通過變換把初始問題變換為子問題集合和子子問題集合,直至最后歸約為一個平凡的本原問題集合。知識同樣存在生命周期的問題,分為測試、活動、凍結(jié)、失效等階段,測試期主要由業(yè)務(wù)人員控制,確認(rèn)關(guān)聯(lián)知識是否有效、是否達(dá)到預(yù)期目標(biāo);確認(rèn)有效后,標(biāo)記知識為活動狀態(tài),關(guān)聯(lián)分析引擎根據(jù)知識,進(jìn)行業(yè)務(wù)數(shù)據(jù)關(guān)聯(lián)處理;同任何事物一樣,知識也有適用性問題,當(dāng)目標(biāo)系統(tǒng)及其關(guān)聯(lián)系統(tǒng)發(fā)生變更時,管理員把知識調(diào)整為凍結(jié)狀態(tài),由業(yè)務(wù)人員對知識的有效進(jìn)行確認(rèn)和調(diào)整;當(dāng)涉及知識的模塊或系統(tǒng)停止服務(wù)時,知識已不適用,即調(diào)整為失效狀態(tài)。
[0035]在業(yè)務(wù)分析和關(guān)聯(lián)分析時,優(yōu)選采用分布式處理算法,由任務(wù)調(diào)度主機(jī)和任務(wù)處理主機(jī)協(xié)作完成。首先,對業(yè)務(wù)分析和關(guān)聯(lián)分析的任務(wù),在調(diào)度主機(jī)上建立任務(wù)列表,任務(wù)處理主機(jī)向調(diào)度主機(jī)提交申請,由調(diào)度主機(jī)分派任務(wù),任務(wù)處理主機(jī)完成工作后,提交處理結(jié)果,調(diào)度主機(jī)對處理情況時行確認(rèn)。調(diào)度主機(jī)除負(fù)責(zé)任務(wù)調(diào)度外,還負(fù)責(zé)監(jiān)控各任務(wù)處理主機(jī)的運(yùn)行狀態(tài),當(dāng)任務(wù)處理主機(jī)出現(xiàn)異常、性能降低時,調(diào)度主機(jī)收回任務(wù),改由其它任務(wù)處理主機(jī)完成;同時,調(diào)度主機(jī)還負(fù)責(zé)任務(wù)的分解及子任務(wù)時序管理,當(dāng)一個任務(wù)被解為可計算的子任務(wù)時,子任務(wù)間存在并行和串行兩種關(guān)系,對于串行關(guān)系,由調(diào)度主機(jī)負(fù)責(zé),只有在前序任務(wù)已完成的情況下,才分配后序任務(wù)。為保證任務(wù)處理的一致性和連續(xù)性,我們在任務(wù)處理中引入狀態(tài)機(jī)概念,任務(wù)狀態(tài)分為準(zhǔn)備、就序、處理、完成、收回等五個狀態(tài),任務(wù)信息及其狀態(tài)以數(shù)據(jù)庫存儲。分布式任務(wù)處理支持系統(tǒng)進(jìn)行事務(wù)性恢復(fù),當(dāng)系統(tǒng)出現(xiàn)斷電等情況時,重新啟動后,調(diào)度機(jī)會根據(jù)數(shù)據(jù)庫中任務(wù)的狀態(tài),進(jìn)行回退和恢復(fù)操作,保證系統(tǒng)狀態(tài)的一致性。
[0036]在數(shù)據(jù)存儲方面,本發(fā)明提供統(tǒng)一的存儲接口,生成的數(shù)據(jù)即可以存儲到傳統(tǒng)的數(shù)據(jù)庫系統(tǒng)中,也可以存儲到hadoop之類的分布式系統(tǒng)。這使得后期數(shù)據(jù)挖掘和科學(xué)決策的技術(shù)方式和體系框架更加靈活。各應(yīng)用單位,可以對生成的數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,提取有價值的業(yè)務(wù)信息,并在此基礎(chǔ)上,通過選用不同的數(shù)學(xué)模型,進(jìn)行量化計算,為市場預(yù)測和科學(xué)決策提供事實依據(jù)。
[0037]如圖3所示,是本發(fā)明在公安系統(tǒng)的一個詳細(xì)實施例,在我國,公安系統(tǒng)下設(shè)的現(xiàn)有業(yè)務(wù)系統(tǒng)有60多個,這些業(yè)務(wù)系統(tǒng)絕大部分都是基于http和https的Web應(yīng)用系統(tǒng),它們由不同的警種、總隊、業(yè)務(wù)處室使用。這些業(yè)務(wù)系統(tǒng)都不能實現(xiàn)總體聯(lián)通和審計,不能達(dá)到公安部關(guān)于《加強(qiáng)信息系統(tǒng)應(yīng)用審計的通知》的要求。如果進(jìn)行整改,一部分系統(tǒng)的開發(fā)商已經(jīng)無法聯(lián)系,不具備改造條件;其它系統(tǒng)則都要按照統(tǒng)一的規(guī)則進(jìn)行改造,影響正常業(yè)務(wù)、改造周期長、成本高。
[0038]本發(fā)明提供的處理系統(tǒng)及其方法采用基本網(wǎng)絡(luò)的架構(gòu),是一種基于網(wǎng)絡(luò)數(shù)據(jù)包(流)的業(yè)務(wù)數(shù)據(jù)審計和業(yè)務(wù)數(shù)據(jù)深度分析的方法,不需要對現(xiàn)在信息系統(tǒng)和網(wǎng)絡(luò)進(jìn)行改造,不需要在原有信息系統(tǒng)的服務(wù)器里安裝任何插件或Agent,就可以達(dá)到公安部對業(yè)務(wù)系統(tǒng)審計的要求,同時還提供豐富的數(shù)據(jù)挖掘功能。在本實施例中,關(guān)聯(lián)分析系統(tǒng)的業(yè)務(wù)審計功能可以細(xì)化到操作級別,其元數(shù)據(jù)為:誰、什么時間、在哪個系統(tǒng)、進(jìn)行了什么操作、操作內(nèi)容是什么,完全滿足公安部的要求。在審計功能的基礎(chǔ)上,關(guān)聯(lián)分析系統(tǒng)提供豐富的數(shù)據(jù)挖掘功能,由于數(shù)據(jù)挖掘功能與業(yè)務(wù)結(jié)合緊密,例如:串并案和逃犯關(guān)注排名。
[0039]在關(guān)聯(lián)分析系統(tǒng)之前,對于一個案件的串并案工作,主要靠內(nèi)部通報,但由于警種和區(qū)域的限制,串并案的線索來源并不全面。如果使用本發(fā)明提供的關(guān)聯(lián)分析系統(tǒng),某一警員在案件偵破過程中,利用信息系統(tǒng)查詢犯罪嫌疑人或案例相關(guān)人員時,其操作記錄都會被關(guān)聯(lián)分析系統(tǒng)審計到。關(guān)聯(lián)分析系統(tǒng)自動根據(jù)被查人員的信息,在數(shù)據(jù)倉庫中檢索所有查詢過該人的警員,按照時間和地域排序,形成案件線索,由內(nèi)部OA系統(tǒng)推送給案件承辦的警員。例如,派出所的A警官處理一起案件,通過網(wǎng)上逃犯庫中查詢了張三的信息,那么隨后王警官就會在OA系統(tǒng)中收到一份“案件線索文件”,其中提示“禁毒總隊的B警官在三天前在禁毒系統(tǒng)中也查詢過張三的信息”。關(guān)聯(lián)分析的具體應(yīng)用串并案自動提示功能實現(xiàn)了跨系統(tǒng)、跨警種、跨地域的線索收集。
[0040]又如,在公安工作中,如何提高辦案效率是公安工作的首要問題。在關(guān)聯(lián)分析系統(tǒng)的逃犯關(guān)注排名,就可以起到探索作用。逃犯關(guān)注排名可以以全國逃犯庫為基礎(chǔ)數(shù)據(jù),以本發(fā)明提供的關(guān)聯(lián)分析系統(tǒng)的提取規(guī)則為主要數(shù)據(jù),通過權(quán)值處理算法,對逃犯進(jìn)行排序,篩選出最受關(guān)注和活躍的逃犯,作為工作的重點。其中,逃犯權(quán)值主要依據(jù)關(guān)注警員職級、關(guān)注(查詢)次數(shù)、時間來計算,如逃犯李四被廳長在上周查詢過一次,被禁毒總隊長在本周查詢過兩次,被基層民警查詢過11次,則其排名靠前,在通報時各警種和基層警員都會把張強(qiáng)作為工作的重點。
[0041]上述技術(shù)方案的描述僅體現(xiàn)了本發(fā)明的優(yōu)選技術(shù)方案,而并不是無遺漏的,很顯然的,基于上述實施例,本領(lǐng)域的技術(shù)人員很容易了解到本發(fā)明提供的技術(shù)方案還應(yīng)用于政府、公安、交警、財政、金融、證券、稅務(wù)、電信運(yùn)營商、醫(yī)療、衛(wèi)生、保險、企業(yè)、電力、能源、國土等各個行業(yè),或者將本發(fā)明限于所公開的形式。基于本發(fā)明的實施例,任何人在沒有做出創(chuàng)造性勞動的前提下所獲得的其他形式的技術(shù)方案,不論其在結(jié)構(gòu)或形式上作出何種變化,均屬于本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種數(shù)據(jù)預(yù)處理單元,其特征在于,該單元包括任務(wù)調(diào)度模塊以及由任務(wù)調(diào)度模塊控制的至少一個任務(wù)處理模塊,其中, 任務(wù)調(diào)度模塊依據(jù)網(wǎng)絡(luò)接收單元捕獲的網(wǎng)絡(luò)數(shù)據(jù)包,建立任務(wù)列表,向預(yù)處理模塊分配任務(wù)并監(jiān)控其運(yùn)行狀態(tài); 任務(wù)處理模塊包括: 管理器,用于同任務(wù)調(diào)度模塊進(jìn)行數(shù)據(jù)交換,并監(jiān)控任務(wù)處理模塊的系統(tǒng)資源和任務(wù)執(zhí)行進(jìn)度; 應(yīng)用協(xié)議解析引擎,根據(jù)任務(wù)指令接收網(wǎng)絡(luò)數(shù)據(jù)包并進(jìn)行解析、整合,形成網(wǎng)絡(luò)數(shù)據(jù)包; 以及業(yè)務(wù)數(shù)據(jù)過濾引擎,接收應(yīng)用協(xié)議解析引擎?zhèn)鬏斶^來的網(wǎng)絡(luò)數(shù)據(jù)包,并過濾掉非網(wǎng)絡(luò)數(shù)據(jù)包。
2.根據(jù)權(quán)利要求1所述的預(yù)處理單元,其特征在于,任務(wù)調(diào)度模塊將任務(wù)分解成子任務(wù)以分配給多個任務(wù)處理模塊,子任務(wù)的處理分為串行處理和并行處理。
3.根據(jù)權(quán)利要求2所述的預(yù)處理單元,其特征在于,任務(wù)和子任務(wù)的運(yùn)行狀態(tài)包括準(zhǔn)備、就序、處理、完成以及收回。
4.一種利用權(quán)利要求1-3任一項所述預(yù)處理單元的數(shù)據(jù)處理系統(tǒng),其特征在于,該系統(tǒng)包括網(wǎng)絡(luò)接收單元、處理單元、維護(hù)單元、存儲單元以及預(yù)處理單元,其中, 網(wǎng)絡(luò)接收單元,用以接收網(wǎng)絡(luò)數(shù)據(jù)包;` 處理單元,接收網(wǎng)絡(luò)接收單元傳輸過來的網(wǎng)絡(luò)數(shù)據(jù)包,根據(jù)業(yè)務(wù)信息提取規(guī)則對網(wǎng)絡(luò)數(shù)據(jù)包進(jìn)行關(guān)聯(lián)分析以生成處理結(jié)果; 維護(hù)單元,對業(yè)務(wù)信息提取規(guī)則和業(yè)務(wù)信息進(jìn)行維護(hù)和更新; 存儲單元,存儲業(yè)務(wù)信息提取規(guī)則以及業(yè)務(wù)信息。
5.根據(jù)權(quán)利要求4所述的處理系統(tǒng),其特征在于,處理單元接收網(wǎng)絡(luò)接收單元傳輸過來的網(wǎng)絡(luò)數(shù)據(jù)包,并處理以形成包括請求人、請求時間、目標(biāo)系統(tǒng)以及業(yè)務(wù)數(shù)據(jù)的元數(shù)據(jù)并存入業(yè)務(wù)信息。
6.根據(jù)權(quán)利要求4所述的處理系統(tǒng),其特征在于,網(wǎng)絡(luò)接收單元包括網(wǎng)絡(luò)身份認(rèn)證系統(tǒng)和網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng),網(wǎng)絡(luò)身份認(rèn)證系統(tǒng)用于監(jiān)控用戶狀態(tài)以確認(rèn)是否允許用戶數(shù)據(jù)通過,網(wǎng)絡(luò)數(shù)據(jù)探針系統(tǒng)根據(jù)預(yù)設(shè)抓包規(guī)則捕獲網(wǎng)絡(luò)數(shù)據(jù)包。
7.根據(jù)權(quán)利要求4所述的處理系統(tǒng),其特征在于,存儲單元以統(tǒng)一的存儲接口集成數(shù)據(jù)庫管理系統(tǒng)和分布式存儲架構(gòu)。
8.一種數(shù)據(jù)處理方法,其特征在于,包括以下步驟: 801:構(gòu)建包括業(yè)務(wù)數(shù)據(jù)包識別特征和業(yè)務(wù)信息提取規(guī)則的規(guī)則庫; 802:接收業(yè)務(wù)數(shù)據(jù)包,提取由請求人、請求時間、目標(biāo)系統(tǒng)以及業(yè)務(wù)數(shù)據(jù)組成的元數(shù)據(jù); 803:根據(jù)元數(shù)據(jù)特征,從規(guī)則庫中讀取提取規(guī)則; 804:根據(jù)提取規(guī)則提取業(yè)務(wù)信息。
9.根據(jù)權(quán)利要求8所述的處理方法,其特征在于,規(guī)則庫中的業(yè)務(wù)信息提取規(guī)則的狀態(tài)分為測試、活動、凍結(jié)、失效四個階段。
10.根據(jù)權(quán)利要求8所述的處理方法,其特征在于,規(guī)則庫還包括規(guī)則定義、規(guī)則有效性驗證以及規(guī)則管理。`
【文檔編號】H04L29/06GK103701783SQ201310689819
【公開日】2014年4月2日 申請日期:2013年12月17日 優(yōu)先權(quán)日:2013年12月17日
【發(fā)明者】邵永剛, 范仲偉, 李穎 申請人:沈陽覺醒軟件有限公司