本發(fā)明涉及數(shù)據(jù)挖掘技術(shù)領(lǐng)域,具體而言,涉及一種異常行為監(jiān)控方法和裝置。
背景技術(shù):
在“大數(shù)據(jù)”時代,誰率先擁有大數(shù)據(jù)、善于利用大數(shù)據(jù),誰就能掌握主動、贏得未來。為了有效維護(hù)社會信息條件下的國家安全和社會穩(wěn)定,公安機(jī)關(guān)就必須加強(qiáng)對各類信息(如出行信息、通話信息、消費(fèi)信息、住宿信息和聊天信息)的全面整合、綜合分析和預(yù)警監(jiān)測。
現(xiàn)有技術(shù)中提供了一種行為分析方法,該方法主要依賴辦案人員的人工處理,即辦案人員首先從各個業(yè)務(wù)系統(tǒng)中獲取登記人員的日?;顒有畔?如出行信息、消費(fèi)信息等等),然后對上述日?;顒有畔⑦M(jìn)行紙質(zhì)分類記錄,最后根據(jù)紙質(zhì)分類記錄對登記人員的行為進(jìn)行分析。
發(fā)明人在研究中發(fā)現(xiàn),現(xiàn)有技術(shù)中的行為分析方法,采用人工的方式對登記人員的活動信息進(jìn)行紙質(zhì)分類以進(jìn)行人員行為分析,耗費(fèi)的人力和時間成本較高,且無法對異常行為進(jìn)行實(shí)時監(jiān)控,實(shí)用性較差。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種異常行為監(jiān)控方法和裝置,利用大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)對用戶的實(shí)時監(jiān)控,省時省力,實(shí)用性較佳。
第一方面,本發(fā)明實(shí)施例提供了一種異常行為監(jiān)控方法,所述方法包括:
獲取用戶的多個歷史行為數(shù)據(jù),多個所述歷史行為數(shù)據(jù)由接入的多個不同的業(yè)務(wù)系統(tǒng)提供,所述多個不同的業(yè)務(wù)系統(tǒng)包括以下系統(tǒng)中的任意多個:售票系統(tǒng)、消費(fèi)系統(tǒng)、通話系統(tǒng)、住宿系統(tǒng)、聊天系統(tǒng)、犯罪系統(tǒng)和賬務(wù)系統(tǒng);
對預(yù)設(shè)時間間隔內(nèi)獲取的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析,得到與所述用戶對應(yīng)的行為標(biāo)簽,所述行為標(biāo)簽用于表征所述用戶的所述歷史行為數(shù)據(jù)符合預(yù)設(shè)閾值,所述歷史行為數(shù)據(jù)和為預(yù)設(shè)時間間隔內(nèi)獲取的所述歷史行為數(shù)據(jù)的和值;
在接入所述用戶的實(shí)時行為數(shù)據(jù)時,根據(jù)所述行為標(biāo)簽判斷所述實(shí)時行為數(shù)據(jù)是否發(fā)生異常。
結(jié)合第一方面,本發(fā)明實(shí)施例提供了第一方面的第一種可能的實(shí)施方式,其中,所述獲取用戶的多個歷史行為數(shù)據(jù)和對預(yù)設(shè)時間間隔內(nèi)獲取的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析之間,包括:
將獲取的多個所述歷史行為數(shù)據(jù)進(jìn)行過濾,得到過濾后的所述歷史行為數(shù)據(jù);
對過濾后的多個所述歷史行為數(shù)據(jù)進(jìn)行類別分析,并將分析后的每個所述歷史行為數(shù)據(jù)均存儲于對應(yīng)的第一數(shù)據(jù)庫中,其中,所述歷史行為數(shù)據(jù)至少包括:第一用戶身份標(biāo)識和對應(yīng)的歷史行為信息;
基于所述第一用戶身份標(biāo)識從所述第一數(shù)據(jù)庫中讀取出對應(yīng)的多個所述歷史行為信息;
將所述第一用戶身份標(biāo)識和多個所述歷史行為信息之間的對應(yīng)關(guān)系存儲于第二數(shù)據(jù)庫中,所述第二數(shù)據(jù)庫為:基于Hadoop平臺運(yùn)行的HBase數(shù)據(jù)庫。
結(jié)合第一方面的第一種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第一方面的第二種可能的實(shí)施方式,其中,所述對預(yù)設(shè)時間間隔內(nèi)獲取的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析,得到與所述用戶對應(yīng)的行為標(biāo)簽,包括:
從所述第二數(shù)據(jù)庫中讀取預(yù)設(shè)時間間隔內(nèi)對應(yīng)于所述第一用戶身份標(biāo)識的多個所述歷史行為信息和,所述歷史行為信息和為預(yù)設(shè)時間間隔內(nèi)讀取的所述歷史行為信息的和值;
基于并行框架利用聚類算法對多個所述歷史行為信息和分別進(jìn)行聚類分析,得到與所述第一用戶身份標(biāo)識相對應(yīng)的行為標(biāo)簽,所述并行框架為:基于Hadoop平臺運(yùn)行的SPARK并行框架。
結(jié)合第一方面的第二種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第一方面的第三種可能的實(shí)施方式,其中,所述對預(yù)設(shè)時間間隔內(nèi)獲取的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析,得到與所述用戶對應(yīng)的行為標(biāo)簽之后,包括:
將所述第一用戶身份標(biāo)識及其對應(yīng)的所述行為標(biāo)簽存儲于第三數(shù)據(jù)庫中;
所述根據(jù)所述行為標(biāo)簽判斷所述實(shí)時行為數(shù)據(jù)是否發(fā)生異常,包括:
接入所述用戶的實(shí)時行為數(shù)據(jù),并提取所述實(shí)時行為數(shù)據(jù)中的第二用戶身份標(biāo)識;
從所述第三數(shù)據(jù)庫中讀取出與所述第二用戶身份標(biāo)識相同的所述第一用戶身份標(biāo)識;
根據(jù)讀取出的所述第一用戶身份標(biāo)識的所述行為標(biāo)簽判斷所述實(shí)時行為數(shù)據(jù)是否發(fā)生異常;若所述實(shí)時行為數(shù)據(jù)不符合所述預(yù)設(shè)閾值,則判斷發(fā)生異常。
結(jié)合第一方面的第三種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第一方面的第四種可能的實(shí)施方式,其中,還包括:通過短信和/或郵箱的方式將與所述行為標(biāo)簽不符的所述實(shí)時行為數(shù)據(jù)和對應(yīng)的所述行為標(biāo)簽發(fā)送至異常處理人員以進(jìn)行異常預(yù)警。
第二方面,本發(fā)明實(shí)施例還提供了一種異常行為監(jiān)控裝置,所述裝置包括:
獲取模塊,用于獲取用戶的多個歷史行為數(shù)據(jù),多個所述歷史行為數(shù)據(jù)由接入的多個不同的業(yè)務(wù)系統(tǒng)提供,所述多個不同的業(yè)務(wù)系統(tǒng)包括以下系統(tǒng)中的任意多個:售票系統(tǒng)、消費(fèi)系統(tǒng)、通話系統(tǒng)、住宿系統(tǒng)、聊天系統(tǒng)、犯罪系統(tǒng)和賬務(wù)系統(tǒng);
第一分析模塊,用于對預(yù)設(shè)時間間隔內(nèi)獲取的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析,得到與所述用戶對應(yīng)的行為標(biāo)簽,所述行為標(biāo)簽用于表征所述用戶的所述歷史行為數(shù)據(jù)符合預(yù)設(shè)閾值,所述歷史行為數(shù)據(jù)和為預(yù)設(shè)時間間隔內(nèi)獲取的所述歷史行為數(shù)據(jù)的和值;
判斷模塊,用于在接入所述用戶的實(shí)時行為數(shù)據(jù)時,根據(jù)所述行為標(biāo)簽判斷所述實(shí)時行為數(shù)據(jù)是否發(fā)生異常。
結(jié)合第二方面,本發(fā)明實(shí)施例提供了第二方面的第一種可能的實(shí)施方式,其中,還包括:過濾模塊、第二分析模塊、讀取模塊和第一存儲模塊;
所述過濾模塊,用于將獲取的多個所述歷史行為數(shù)據(jù)進(jìn)行過濾,得到過濾后的所述歷史行為數(shù)據(jù);
所述第二分析模塊,用于對過濾后的多個所述歷史行為數(shù)據(jù)進(jìn)行類別分析,并將分析后的每個所述歷史行為數(shù)據(jù)均存儲于對應(yīng)的第一數(shù)據(jù)庫中,其中,所述歷史行為數(shù)據(jù)至少包括:第一用戶身份標(biāo)識和對應(yīng)的歷史行為信息;
所述讀取模塊,用于基于所述第一用戶身份標(biāo)識從所述第一數(shù)據(jù)庫中讀取出對應(yīng)的多個所述歷史行為信息;
所述第一存儲模塊,用于將所述第一用戶身份標(biāo)識和多個所述歷史行為信息之間的對應(yīng)關(guān)系存儲于第二數(shù)據(jù)庫中,所述第二數(shù)據(jù)庫為:基于Hadoop平臺運(yùn)行的HBase數(shù)據(jù)庫。
結(jié)合第二方面的第一種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第二方面的第二種可能的實(shí)施方式,其中,所述第一分析模塊包括:
讀取單元,用于從所述第二數(shù)據(jù)庫中讀取預(yù)設(shè)時間間隔內(nèi)對應(yīng)于所述第一用戶身份標(biāo)識的多個所述歷史行為信息和,所述歷史行為信息和為預(yù)設(shè)時間間隔內(nèi)讀取的所述歷史行為信息的和值;
分析單元,用于基于并行框架利用聚類算法對多個所述歷史行為信息和分別進(jìn)行聚類分析,得到與所述第一用戶身份標(biāo)識相對應(yīng)的行為標(biāo)簽,所述并行框架為:基于Hadoop平臺運(yùn)行的SPARK并行框架。
結(jié)合第二方面的第二種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第二方面的第三種可能的實(shí)施方式,其中,還包括:第二存儲模塊;
所述第二存儲模塊,用于將所述第一用戶身份標(biāo)識及其對應(yīng)的所述行為標(biāo)簽存儲于第三數(shù)據(jù)庫中;
所述判斷模塊,還用于接入所述用戶的實(shí)時行為數(shù)據(jù),并提取所述實(shí)時行為數(shù)據(jù)中的第二用戶身份標(biāo)識;從所述第三數(shù)據(jù)庫中讀取出與所述第二用戶身份標(biāo)識相同的所述第一用戶身份標(biāo)識;根據(jù)讀取出的所述第一用戶身份標(biāo)識的所述行為標(biāo)簽判斷所述實(shí)時行為數(shù)據(jù)是否發(fā)生異常;若所述實(shí)時行為數(shù)據(jù)不符合所述預(yù)設(shè)閾值,則判斷發(fā)生異常。
結(jié)合第二方面的第三種可能的實(shí)施方式,本發(fā)明實(shí)施例提供了第二方面的第四種可能的實(shí)施方式,其中,還包括預(yù)警模塊;所述預(yù)警模塊,用于通過短信和/或郵箱的方式將與所述行為標(biāo)簽不符的所述實(shí)時行為數(shù)據(jù)和對應(yīng)的所述行為標(biāo)簽發(fā)送至異常處理人員以進(jìn)行異常預(yù)警。
本發(fā)明實(shí)施例提供的異常行為監(jiān)控方法和裝置,與現(xiàn)有技術(shù)中的行為分析方法,采用人工的方式耗費(fèi)的人力和時間成本較高,且無法對異常行為進(jìn)行實(shí)時監(jiān)控,實(shí)用性較差相比,其首先獲取用戶的多個歷史行為數(shù)據(jù),其中,多個歷史行為數(shù)據(jù)由接入的多個不同的業(yè)務(wù)系統(tǒng)提供,然后對預(yù)設(shè)時間間隔內(nèi)獲取的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析,得到與上述用戶對應(yīng)的行為標(biāo)簽,最后在接入用戶的實(shí)時行為數(shù)據(jù)時,根據(jù)得到的行為標(biāo)簽判斷該實(shí)時行為數(shù)據(jù)是否發(fā)生異常,其利用大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)對用戶的歷史活動信息進(jìn)行聚類分析,并根據(jù)聚類分析得到的行為標(biāo)簽判斷用戶的實(shí)時行為是否存在異常,實(shí)現(xiàn)對用戶的實(shí)時監(jiān)控,省時省力,實(shí)用性較佳。
為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能更明顯易懂,下文特舉較佳實(shí)施例,并配合所附附圖,作詳細(xì)說明如下。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對實(shí)施例中所需要使用的附圖作簡單地介紹,應(yīng)當(dāng)理解,以下附圖僅示出了本發(fā)明的某些實(shí)施例,因此不應(yīng)被看作是對范圍的限定,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他相關(guān)的附圖。
圖1示出了本發(fā)明實(shí)施例所提供的一種異常行為監(jiān)控方法的流程圖;
圖2示出了本發(fā)明實(shí)施例所提供的另一種異常行為監(jiān)控方法的流程圖;
圖3示出了本發(fā)明實(shí)施例所提供的另一種異常行為監(jiān)控方法的流程圖;
圖4示出了本發(fā)明實(shí)施例所提供的另一種異常行為監(jiān)控方法的流程圖;
圖5示出了本發(fā)明實(shí)施例所提供的一種異常行為監(jiān)控裝置的結(jié)構(gòu)示意圖;
圖6示出了本發(fā)明實(shí)施例所提供的一種異常行為監(jiān)控裝置中第一分析模塊的結(jié)構(gòu)示意圖。
主要元件符號說明:
11、獲取模塊;22、第一分析模塊;33、判斷模塊;221、讀取單元;222、分析單元。
具體實(shí)施方式
為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。通常在此處附圖中描述和示出的本發(fā)明實(shí)施例的組件可以以各種不同的配置來布置和設(shè)計。因此,以下對在附圖中提供的本發(fā)明的實(shí)施例的詳細(xì)描述并非旨在限制要求保護(hù)的本發(fā)明的范圍,而是僅僅表示本發(fā)明的選定實(shí)施例?;诒景l(fā)明的實(shí)施例,本領(lǐng)域技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
考慮到現(xiàn)有技術(shù)中的行為分析方法,采用人工的方式對登記人員的活動信息進(jìn)行紙質(zhì)分類以進(jìn)行人員行為分析,耗費(fèi)的人力和時間成本較高,且無法對異常行為進(jìn)行實(shí)時監(jiān)控,實(shí)用性較差?;诖?,本發(fā)明實(shí)施例提供了一種異常行為監(jiān)控方法和裝置,利用大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)實(shí)現(xiàn)對用戶的實(shí)時監(jiān)控,省時省力,實(shí)用性較佳。
參見圖1所示的本發(fā)明實(shí)施例提供的異常行為監(jiān)控方法的流程圖,所述方法具體包括如下步驟:
S101、獲取用戶的多個歷史行為數(shù)據(jù),多個歷史行為數(shù)據(jù)由接入的多個不同的業(yè)務(wù)系統(tǒng)提供,多個不同的業(yè)務(wù)系統(tǒng)包括以下系統(tǒng)中的任意多個:售票系統(tǒng)、消費(fèi)系統(tǒng)、通話系統(tǒng)、住宿系統(tǒng)、聊天系統(tǒng)、犯罪系統(tǒng)和賬務(wù)系統(tǒng);
具體的,考慮到本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法的具體應(yīng)用場景,本發(fā)明實(shí)施例中的歷史行為數(shù)據(jù)來源于公安大數(shù)據(jù),眾所周知,公安行業(yè)每天獲取的數(shù)據(jù)數(shù)以千萬,這些數(shù)據(jù)包含了各種各樣公眾的歷史行為數(shù)據(jù),例如出行活動信息、通話活動信息、聊天活動信息、消費(fèi)活動信息等等。其中,上述歷史行為數(shù)據(jù)可以由不同的業(yè)務(wù)系統(tǒng)來提供,其中,為了更全面的對用戶的歷史行為數(shù)據(jù)進(jìn)行分析,本發(fā)明實(shí)施例中,一般是對兩個或兩個以上的業(yè)務(wù)系統(tǒng)獲取的歷史行為數(shù)據(jù)進(jìn)行分析,以提高實(shí)用性。
其中,上述業(yè)務(wù)系統(tǒng)的接入方式有多種,本發(fā)明實(shí)施例主要采用如下兩種方式:一是公安文件提供,二是通過定制接入?yún)f(xié)議(如HTTP\UDP\TCP協(xié)議)。
S102、對預(yù)設(shè)時間間隔內(nèi)獲取的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析,得到與用戶對應(yīng)的行為標(biāo)簽,行為標(biāo)簽用于表征用戶的歷史行為數(shù)據(jù)符合預(yù)設(shè)閾值,歷史行為數(shù)據(jù)和為預(yù)設(shè)時間間隔內(nèi)獲取的歷史行為數(shù)據(jù)的和值;
具體的,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法能夠?qū)︻A(yù)設(shè)時間間隔內(nèi)產(chǎn)生的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析,得到與用戶對應(yīng)的行為標(biāo)簽,其中,該行為標(biāo)簽與用戶的歷史行為數(shù)據(jù)相對應(yīng),對于每一個歷史行為數(shù)據(jù)將對應(yīng)一個行為標(biāo)簽。該行為標(biāo)簽是用于表征用戶的歷史行為數(shù)據(jù)符合預(yù)設(shè)閾值。
其中,可以對從犯罪系統(tǒng)中獲取的歷史行為數(shù)據(jù)進(jìn)行聚類分析,判斷該用戶是否是犯案人員,若是,添加重點(diǎn)人員的行為標(biāo)簽,還可以對從售票系統(tǒng)中獲取的歷史行為數(shù)據(jù)進(jìn)行聚類分析,分析該用戶的出行記錄,添加國內(nèi)出行、海外出行、很少出行、經(jīng)常出行等出行的行為標(biāo)簽,還可以對消費(fèi)系統(tǒng)中獲取的歷史行為數(shù)據(jù)進(jìn)行聚類分析,添加消費(fèi)水平高、消費(fèi)水平低、經(jīng)常網(wǎng)購、偶爾網(wǎng)購、從不網(wǎng)購、有大額轉(zhuǎn)賬記錄、無大額轉(zhuǎn)賬記錄、從未使用網(wǎng)上轉(zhuǎn)賬等用戶消費(fèi)的行為標(biāo)簽,還可以對從通話系統(tǒng)中獲取的歷史行為數(shù)據(jù)進(jìn)行聚類分析,添加本地通話為主、外地通話為主、白天通話較多、晚上通話較多等通話的行為標(biāo)簽。
S103、在接入用戶的實(shí)時行為數(shù)據(jù)時,根據(jù)行為標(biāo)簽判斷實(shí)時行為數(shù)據(jù)是否發(fā)生異常。
具體的,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法對于實(shí)時接入的實(shí)時行為數(shù)據(jù)將和上述聚類分析得到的行為標(biāo)簽進(jìn)行對比,以判斷該實(shí)時行為數(shù)據(jù)是否發(fā)生異常。
本發(fā)明實(shí)施例提供的異常行為監(jiān)控方法,與現(xiàn)有技術(shù)中的行為分析方法,采用人工的方式耗費(fèi)的人力和時間成本較高,且無法對異常行為進(jìn)行實(shí)時監(jiān)控,實(shí)用性較差相比,其首先獲取用戶的多個歷史行為數(shù)據(jù),其中,多個歷史行為數(shù)據(jù)由接入的多個不同的業(yè)務(wù)系統(tǒng)提供,然后對預(yù)設(shè)時間間隔內(nèi)獲取的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析,得到與上述用戶對應(yīng)的行為標(biāo)簽,最后在接入用戶的實(shí)時行為數(shù)據(jù)時,根據(jù)得到的行為標(biāo)簽判斷該實(shí)時行為數(shù)據(jù)是否發(fā)生異常,其利用大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)對用戶的歷史活動信息進(jìn)行聚類分析,并根據(jù)聚類分析得到的行為標(biāo)簽判斷用戶的實(shí)時行為是否存在異常,實(shí)現(xiàn)對用戶的實(shí)時監(jiān)控,省時省力,實(shí)用性較佳。
為了更好的對歷史行為數(shù)據(jù)進(jìn)行聚類分析,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法還將對獲取的歷史行為數(shù)據(jù)進(jìn)行過濾和類別分析,以及對類別分析結(jié)果進(jìn)行存儲,參見圖2,具體通過如下步驟實(shí)現(xiàn):
S201、將獲取的多個歷史行為數(shù)據(jù)進(jìn)行過濾,得到過濾后的歷史行為數(shù)據(jù);
S202、對過濾后的多個歷史行為數(shù)據(jù)進(jìn)行類別分析,并將分析后的每個歷史行為數(shù)據(jù)均存儲于對應(yīng)的第一數(shù)據(jù)庫中,其中,歷史行為數(shù)據(jù)至少包括:第一用戶身份標(biāo)識和對應(yīng)的歷史行為信息;
S203、基于第一用戶身份標(biāo)識從第一數(shù)據(jù)庫中讀取出對應(yīng)的多個歷史行為信息;
S204、將第一用戶身份標(biāo)識和多個歷史行為信息之間的對應(yīng)關(guān)系存儲于第二數(shù)據(jù)庫中,第二數(shù)據(jù)庫為:基于Hadoop平臺運(yùn)行的HBase數(shù)據(jù)庫。
具體的,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法將對獲取的每一個歷史行為數(shù)據(jù)均進(jìn)行過濾,去除噪音數(shù)據(jù),其中,本發(fā)明實(shí)施例設(shè)置的清洗過濾規(guī)則主要有:數(shù)據(jù)缺失、缺少關(guān)鍵字段、重復(fù)數(shù)據(jù)、無用數(shù)據(jù),即,本發(fā)明實(shí)施例將不符合過濾規(guī)則的歷史行為數(shù)據(jù)進(jìn)行過濾,以得到符合需求的數(shù)據(jù)。其中,考慮到本發(fā)明實(shí)施例后續(xù)的聚類分析是基于用戶標(biāo)識的,所以,上述缺少關(guān)鍵字段主要是指缺少用戶身份標(biāo)識,如缺少身份證號。
通過上述過濾后,將對過濾后的多個歷史行為數(shù)據(jù)進(jìn)行類別分析,并將分析后的每個歷史行為數(shù)據(jù)均存儲于對應(yīng)的第一數(shù)據(jù)庫。可見,上述歷史行為數(shù)據(jù)將根據(jù)不同的類別被存儲于不同的第一數(shù)據(jù)庫中。其中,每一個第一數(shù)據(jù)庫將對應(yīng)于每一個業(yè)務(wù)系統(tǒng),且每一個第一數(shù)據(jù)庫中存儲的歷史行為數(shù)據(jù)是包括所有用戶在內(nèi)的歷史行為數(shù)據(jù)。在進(jìn)行上述類別分析后,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法還將基于第一用戶身份標(biāo)識從第一數(shù)據(jù)庫中讀取出對應(yīng)的多個歷史行為信息,并將第一用戶身份標(biāo)識和多個歷史行為信息之間的對應(yīng)關(guān)系存儲于第二數(shù)據(jù)庫中??梢?,對于類別分析后的歷史行為數(shù)據(jù),本發(fā)明實(shí)施例還基于第一用戶身份標(biāo)識將對應(yīng)的多個歷史行為信息列式存儲在第二數(shù)據(jù)庫中,其中,上述第二數(shù)據(jù)庫優(yōu)選的采用基于Hadoop平臺運(yùn)行的HBase數(shù)據(jù)庫,上述第一用戶身份標(biāo)識對應(yīng)于唯一的一個用戶,且該第一用戶身份標(biāo)識為HBase數(shù)據(jù)庫的ROWKEY。采用上述列式存儲方式能夠更快的讀取數(shù)據(jù),以進(jìn)一步提高聚類分析的效率。
本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法將對預(yù)設(shè)時間間隔內(nèi)Hadoop平臺運(yùn)行的HBase數(shù)據(jù)庫中存儲的數(shù)據(jù)進(jìn)行聚類分析,參見圖3,該分析過濾具體通過如下步驟實(shí)現(xiàn):
S301、從第二數(shù)據(jù)庫中讀取預(yù)設(shè)時間間隔內(nèi)對應(yīng)于第一用戶身份標(biāo)識的多個歷史行為信息和,歷史行為信息和為預(yù)設(shè)時間間隔內(nèi)讀取的歷史行為信息的和值;
S302、基于并行框架利用聚類算法對多個歷史行為信息和分別進(jìn)行聚類分析,得到與第一用戶身份標(biāo)識相對應(yīng)的行為標(biāo)簽,并行框架為:基于Hadoop平臺運(yùn)行的SPARK并行框架。
具體的,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法能夠從第二數(shù)據(jù)庫中以第一身份標(biāo)識為單位讀取預(yù)設(shè)時間間隔(如近三年)內(nèi)用戶的多個歷史行為信息和,其中,該歷史行為信息和為預(yù)設(shè)時間間隔內(nèi)讀取的歷史行為信息的和值。在讀取上述歷史行為信息和后,將采用SPARK并行框架下的聚類算法對其進(jìn)行聚類分析,得到與第一用戶身份標(biāo)識相對應(yīng)的行為標(biāo)簽。
其中,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法中的聚類算法優(yōu)選采用k-means算法。其中,利用該k-means算法得到對應(yīng)的行為標(biāo)簽,舉例如下:公眾境內(nèi)消費(fèi)標(biāo)設(shè)定報警閾值80(滿分100),聚類算法獲取某公眾日常三年內(nèi)所有的消費(fèi)記錄,按消費(fèi)次數(shù)和消費(fèi)境內(nèi)外種類,使用k-means算法最終產(chǎn)生日常行為庫中境內(nèi)消費(fèi)標(biāo)簽值90,證明公眾偏向境內(nèi)消費(fèi),即給該公眾添加對應(yīng)的偏向境內(nèi)消費(fèi)的行為標(biāo)簽。
其中,在聚類分析得到上述行為標(biāo)簽后,還將該行為標(biāo)簽及其對應(yīng)的第一用戶身份標(biāo)識存儲在第三數(shù)據(jù)庫中。
另外,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法在接入用戶的實(shí)時行為數(shù)據(jù)后,還將根據(jù)存儲在第三數(shù)據(jù)庫中的行為標(biāo)簽對該實(shí)時行為數(shù)據(jù)進(jìn)行異常判斷,參見圖4,該判斷過程具體包括:
S401、接入用戶的實(shí)時行為數(shù)據(jù),并提取實(shí)時行為數(shù)據(jù)中的第二用戶身份標(biāo)識;
S402、從第三數(shù)據(jù)庫中讀取出與第二用戶身份標(biāo)識相同的第一用戶身份標(biāo)識;
S403、根據(jù)讀取出的第一用戶身份標(biāo)識的行為標(biāo)簽判斷實(shí)時行為數(shù)據(jù)是否發(fā)生異常;若實(shí)時行為數(shù)據(jù)不符合預(yù)設(shè)閾值,則判斷發(fā)生異常。
具體的,本發(fā)明實(shí)施例在接入用戶的實(shí)時行為數(shù)據(jù)后,將提取實(shí)時行為數(shù)據(jù)中的第二用戶身份標(biāo)識,然后從第三數(shù)據(jù)庫中讀取出與第二用戶身份標(biāo)識相同的第一用戶身份標(biāo)識,并根據(jù)讀取出的第一用戶身份標(biāo)識的行為標(biāo)簽判斷實(shí)時行為數(shù)據(jù)是否發(fā)生異常,且在實(shí)時行為數(shù)據(jù)不符合預(yù)設(shè)閾值,則判斷發(fā)生異常。
其中,在上述實(shí)時行為數(shù)據(jù)發(fā)生異常時,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法還將對異常進(jìn)行預(yù)警,其可以通過短信和/或郵箱的方式將與行為標(biāo)簽不符的實(shí)時行為數(shù)據(jù)和對應(yīng)的行為標(biāo)簽發(fā)送至異常處理人員以進(jìn)行異常預(yù)警。
具體的,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控方法可以通過短信和/或郵箱提醒的方式提醒異常處理人員。具體的,在判斷出用戶的實(shí)時行為數(shù)據(jù)異常時,將組織報警內(nèi)容,該內(nèi)容主要包括什么人(即第二用戶身份標(biāo)識)、什么時間、做了什么事以及報警依據(jù)(即行為標(biāo)簽)。舉例說明,在上述添加有偏向境內(nèi)消費(fèi)的行為標(biāo)簽的用戶產(chǎn)生境外消費(fèi)記錄時,將發(fā)出告警。如張三在2016.01.01 19:55:50秒往境外某賬戶,賬戶號XXXX轉(zhuǎn)入了RMB xxx,報警依據(jù):根據(jù)張三的日常行為庫(第三數(shù)據(jù)庫)分析,該用戶在最近三年內(nèi)從未產(chǎn)生過境外轉(zhuǎn)賬記錄。產(chǎn)生報警信息后,由后端自動連接短信和/或郵箱系統(tǒng),將信息推送給異常處理人員(如民警)。
另外,對于一些特殊用戶,本發(fā)明實(shí)施例還將對其做特殊處理。如接入公眾為犯案人員,則,在其進(jìn)出境、產(chǎn)生大額交易、旅館住宿均將產(chǎn)生報警;如接入公眾的消費(fèi)記錄和日常行為庫發(fā)生較大偏差時,將產(chǎn)生報警;如接入公眾的通話數(shù)據(jù)以本地通話為主,一段時間內(nèi)頻繁產(chǎn)生國際通話,可能存在電信詐騙,也將產(chǎn)生報警。
可見,本發(fā)明提供的異常行為監(jiān)控方法能夠?qū)A繑?shù)據(jù)按照多個維度進(jìn)行提取分析,并通過機(jī)器學(xué)習(xí)為每一個人建立全方位日常行為庫,當(dāng)公眾的日常行為(如消費(fèi)、出行)與個人日常行為庫產(chǎn)生較大偏差時自動給公安機(jī)關(guān)發(fā)出預(yù)警,以達(dá)到對可能發(fā)生的犯罪違法事件及時預(yù)防和處理的目的。
本發(fā)明實(shí)施例提供的異常行為監(jiān)控方法,與現(xiàn)有技術(shù)中的行為分析方法,采用人工的方式耗費(fèi)的人力和時間成本較高,且無法對異常行為進(jìn)行實(shí)時監(jiān)控,實(shí)用性較差相比,其首先獲取用戶的多個歷史行為數(shù)據(jù),其中,多個歷史行為數(shù)據(jù)由接入的多個不同的業(yè)務(wù)系統(tǒng)提供,然后對預(yù)設(shè)時間間隔內(nèi)獲取的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析,得到與上述用戶對應(yīng)的行為標(biāo)簽,最后在接入用戶的實(shí)時行為數(shù)據(jù)時,根據(jù)得到的行為標(biāo)簽判斷該實(shí)時行為數(shù)據(jù)是否發(fā)生異常,其利用大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)對用戶的歷史活動信息進(jìn)行聚類分析,并根據(jù)聚類分析得到的行為標(biāo)簽判斷用戶的實(shí)時行為是否存在異常,實(shí)現(xiàn)對用戶的實(shí)時監(jiān)控,省時省力,實(shí)用性較佳。
本發(fā)明實(shí)施例還提供了一種異常行為監(jiān)控裝置,所述裝置用于執(zhí)行上述異常行為監(jiān)控方法,參見圖5,所述裝置包括:
獲取模塊11,用于獲取用戶的多個歷史行為數(shù)據(jù),多個歷史行為數(shù)據(jù)由接入的多個不同的業(yè)務(wù)系統(tǒng)提供,多個不同的業(yè)務(wù)系統(tǒng)包括以下系統(tǒng)中的任意多個:售票系統(tǒng)、消費(fèi)系統(tǒng)、通話系統(tǒng)、住宿系統(tǒng)、聊天系統(tǒng)、犯罪系統(tǒng)和賬務(wù)系統(tǒng);
第一分析模塊22,用于對預(yù)設(shè)時間間隔內(nèi)獲取的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析,得到與用戶對應(yīng)的行為標(biāo)簽,行為標(biāo)簽用于表征用戶的歷史行為數(shù)據(jù)符合預(yù)設(shè)閾值,歷史行為數(shù)據(jù)和為預(yù)設(shè)時間間隔內(nèi)獲取的歷史行為數(shù)據(jù)的和值;
判斷模塊33,用于在接入用戶的實(shí)時行為數(shù)據(jù)時,根據(jù)行為標(biāo)簽判斷實(shí)時行為數(shù)據(jù)是否發(fā)生異常。
為了更好的對歷史行為數(shù)據(jù)進(jìn)行聚類分析,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控裝置還包括:過濾模塊、第二分析模塊、讀取模塊和第一存儲模塊;
過濾模塊,用于將獲取的多個歷史行為數(shù)據(jù)進(jìn)行過濾,得到過濾后的歷史行為數(shù)據(jù);
第二分析模塊,用于對過濾后的多個歷史行為數(shù)據(jù)進(jìn)行類別分析,并將分析后的每個歷史行為數(shù)據(jù)均存儲于對應(yīng)的第一數(shù)據(jù)庫中,其中,歷史行為數(shù)據(jù)至少包括:第一用戶身份標(biāo)識和對應(yīng)的歷史行為信息;
讀取模塊,用于基于第一用戶身份標(biāo)識從第一數(shù)據(jù)庫中讀取出對應(yīng)的多個歷史行為信息;
第一存儲模塊,用于將第一用戶身份標(biāo)識和多個歷史行為信息之間的對應(yīng)關(guān)系存儲于第二數(shù)據(jù)庫中,第二數(shù)據(jù)庫為:基于Hadoop平臺運(yùn)行的HBase數(shù)據(jù)庫。
參見圖6,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控裝置中的第一分析模塊22包括:讀取單元221和分析單元222,其中:
讀取單元221,用于從第二數(shù)據(jù)庫中讀取預(yù)設(shè)時間間隔內(nèi)對應(yīng)于第一用戶身份標(biāo)識的多個歷史行為信息和,歷史行為信息和為預(yù)設(shè)時間間隔內(nèi)讀取的歷史行為信息的和值;
分析單元222,用于基于并行框架利用聚類算法對多個歷史行為信息和分別進(jìn)行聚類分析,得到與第一用戶身份標(biāo)識相對應(yīng)的行為標(biāo)簽,并行框架為:基于Hadoop平臺運(yùn)行的SPARK并行框架。
其中,在聚類分析得到上述行為標(biāo)簽后,還將通過第二存儲模塊將該行為標(biāo)簽及其對應(yīng)的第一用戶身份標(biāo)識存儲在第三數(shù)據(jù)庫中。
另外,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控裝置在接入用戶的實(shí)時行為數(shù)據(jù)后,還將通過判斷模塊33對實(shí)時行為數(shù)據(jù)進(jìn)行異常判斷,其中,該判斷模塊33,接入用戶的實(shí)時行為數(shù)據(jù),并提取實(shí)時行為數(shù)據(jù)中的第二用戶身份標(biāo)識;從第三數(shù)據(jù)庫中讀取出與第二用戶身份標(biāo)識相同的第一用戶身份標(biāo)識;根據(jù)讀取出的第一用戶身份標(biāo)識的行為標(biāo)簽判斷實(shí)時行為數(shù)據(jù)是否發(fā)生異常;若實(shí)時行為數(shù)據(jù)不符合預(yù)設(shè)閾值,則判斷發(fā)生異常。
其中,在上述實(shí)時行為數(shù)據(jù)發(fā)生異常時,本發(fā)明實(shí)施例所提供的異常行為監(jiān)控裝置還將根據(jù)預(yù)警模塊進(jìn)行預(yù)警,其中,該預(yù)警模塊是通過短信和/或郵箱的方式將與行為標(biāo)簽不符的實(shí)時行為數(shù)據(jù)和對應(yīng)的行為標(biāo)簽發(fā)送至異常處理人員以進(jìn)行異常預(yù)警。
本發(fā)明實(shí)施例提供的異常行為監(jiān)控裝置,與現(xiàn)有技術(shù)中的行為分析方法,采用人工的方式耗費(fèi)的人力和時間成本較高,且無法對異常行為進(jìn)行實(shí)時監(jiān)控,實(shí)用性較差相比,其首先獲取用戶的多個歷史行為數(shù)據(jù),其中,多個歷史行為數(shù)據(jù)由接入的多個不同的業(yè)務(wù)系統(tǒng)提供,然后對預(yù)設(shè)時間間隔內(nèi)獲取的多個歷史行為數(shù)據(jù)和分別進(jìn)行聚類分析,得到與上述用戶對應(yīng)的行為標(biāo)簽,最后在接入用戶的實(shí)時行為數(shù)據(jù)時,根據(jù)得到的行為標(biāo)簽判斷該實(shí)時行為數(shù)據(jù)是否發(fā)生異常,其利用大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù)對用戶的歷史活動信息進(jìn)行聚類分析,并根據(jù)聚類分析得到的行為標(biāo)簽判斷用戶的實(shí)時行為是否存在異常,實(shí)現(xiàn)對用戶的實(shí)時監(jiān)控,省時省力,實(shí)用性較佳。
本發(fā)明實(shí)施例所提供的進(jìn)行異常行為監(jiān)控的方法的計算機(jī)程序產(chǎn)品,包括存儲了程序代碼的計算機(jī)可讀存儲介質(zhì),所述程序代碼包括的指令可用于執(zhí)行前面方法實(shí)施例中所述的方法,具體實(shí)現(xiàn)可參見方法實(shí)施例,在此不再贅述。
本發(fā)明實(shí)施例所提供的異常行為監(jiān)控的裝置可以為設(shè)備上的特定硬件或者安裝于設(shè)備上的軟件或固件等。本發(fā)明實(shí)施例所提供的裝置,其實(shí)現(xiàn)原理及產(chǎn)生的技術(shù)效果和前述方法實(shí)施例相同,為簡要描述,裝置實(shí)施例部分未提及之處,可參考前述方法實(shí)施例中相應(yīng)內(nèi)容。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,前述描述的系統(tǒng)、裝置和單元的具體工作過程,均可以參考上述方法實(shí)施例中的對應(yīng)過程,在此不再贅述。
在本發(fā)明所提供的實(shí)施例中,應(yīng)該理解到,所揭露裝置和方法,可以通過其它的方式實(shí)現(xiàn)。以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時可以有另外的劃分方式,又例如,多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過一些通信接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。
所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本實(shí)施例方案的目的。
另外,在本發(fā)明提供的實(shí)施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨(dú)物理存在,也可以兩個或兩個以上單元集成在一個單元中。
所述功能如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時,可以存儲在一個計算機(jī)可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分或者該技術(shù)方案的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī)軟件產(chǎn)品存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例所述方法的全部或部分步驟。而前述的存儲介質(zhì)包括:U盤、移動硬盤、只讀存儲器(ROM,Read-Only Memory)、隨機(jī)存取存儲器(RAM,Random Access Memory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。
應(yīng)注意到:相似的標(biāo)號和字母在下面的附圖中表示類似項(xiàng),因此,一旦某一項(xiàng)在一個附圖中被定義,則在隨后的附圖中不需要對其進(jìn)行進(jìn)一步定義和解釋,此外,術(shù)語“第一”、“第二”、“第三”等僅用于區(qū)分描述,而不能理解為指示或暗示相對重要性。
最后應(yīng)說明的是:以上所述實(shí)施例,僅為本發(fā)明的具體實(shí)施方式,用以說明本發(fā)明的技術(shù)方案,而非對其限制,本發(fā)明的保護(hù)范圍并不局限于此,盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),其依然可以對前述實(shí)施例所記載的技術(shù)方案進(jìn)行修改或可輕易想到變化,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改、變化或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明實(shí)施例技術(shù)方案的精神和范圍。都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)所述以權(quán)利要求的保護(hù)范圍為準(zhǔn)。