本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種用戶設(shè)備的確定方法及裝置。
背景技術(shù):
:在公共安全領(lǐng)域,異常事件發(fā)生時(shí)需要安全人員通過對事件的調(diào)查,從大量人群中尋找事件相關(guān)人員,通過對相關(guān)人員的進(jìn)一步調(diào)查去尋找線索。而隨著科技的發(fā)展,移動電話的迅速普及,移動通話數(shù)據(jù)的價(jià)值逐漸凸顯,從數(shù)據(jù)中識別與異常事件相關(guān)的人員,并從空間關(guān)系、社會關(guān)系以及領(lǐng)域模型知識等方面,對相關(guān)人員與異常事件的相關(guān)程度排序,以指導(dǎo)安全人員進(jìn)一步的偵查工作,對公共安全問題具有重要意義。針對相關(guān)技術(shù)中,不能通過移動設(shè)備對相關(guān)用戶進(jìn)行識別的問題,還未提出有效的解決方案。技術(shù)實(shí)現(xiàn)要素:本發(fā)明提供了一種用戶設(shè)備的確定方法及裝置,以至少解決相關(guān)技術(shù)中不能通過移動設(shè)備對相關(guān)用戶進(jìn)行識別的問題。根據(jù)本發(fā)明的一個(gè)方面,提供了一種用戶設(shè)備的確定方法,包括:確定指定時(shí)間段位于指定空間范圍內(nèi)的潛在用戶設(shè)備;獲取與所述潛在用戶設(shè)備對應(yīng)的關(guān)聯(lián)信息;依據(jù)所述關(guān)聯(lián)信息在所述潛在用戶設(shè)備中確定指定用戶設(shè)備。進(jìn)一步地,確定指定時(shí)間段位于指定空間范圍內(nèi)的潛在用戶設(shè)備包括:獲取第一類用戶設(shè)備的位置信息;在所述第一類用戶設(shè)備在所述指定時(shí)間段內(nèi)且在所述指定空間范圍內(nèi)時(shí),將所述第一類用戶設(shè)備作為所述潛在用戶設(shè)備;獲取第二類用戶設(shè)備的軌跡信息,在所述軌跡信息滿足在所述指定時(shí)間段內(nèi)位于所述指定空間范圍內(nèi)時(shí),將所述第二類用戶設(shè)備作為所述潛在用戶設(shè)備。進(jìn)一步地,其特征在于,獲取第二類用戶設(shè)備的軌跡信息包括:根據(jù)與所述第二類用戶設(shè)備對應(yīng)的用戶的歷史通話記錄信息挖掘所述用戶的移動規(guī)律性;根據(jù)所述移動規(guī)律性確定所述第二類用戶設(shè)備的軌跡信息。進(jìn)一步地,確定指定時(shí)間段位于指定空間范圍內(nèi)的潛在用戶設(shè)備包括:獲取與所述第二類用戶設(shè)備對應(yīng)的用戶的離散熵;在所述離散熵小于預(yù)定閾值的情況下,根據(jù)所述用戶的歷史通話記錄信息獲取所述用戶的移動規(guī)律性,根據(jù)所述移動規(guī)律性確定所述第二類用戶設(shè)備;在所述離散熵大于或者等于所述預(yù)定閾值的情況下,根據(jù)數(shù)據(jù)庫中所有用戶的歷史通話信息確定所述第二類用戶設(shè)備。進(jìn)一步地,所述關(guān)聯(lián)信息包括以下至少之一:所述潛在用戶設(shè)備對應(yīng)用戶的居住地與工作地信息、與所述潛在用戶設(shè)備對應(yīng)的用戶的社會關(guān)系信息、與所述潛在用戶設(shè)備對應(yīng)的用戶的人口特征信息。進(jìn)一步地,獲取與所述潛在用戶設(shè)備對應(yīng)的用戶的社會關(guān)系信息包括:根據(jù)以下至少之一的信息獲取所述用戶的社會關(guān)系信息:所述用戶設(shè)備進(jìn)行通話的時(shí)間特征信息、與所述用戶設(shè)備在相同時(shí)間處于相同位置的其他用戶設(shè)備的信息、與所述用戶設(shè)備存在共同聯(lián)系人的其他用戶設(shè)備的信息。進(jìn)一步地,根據(jù)所述關(guān)聯(lián)信息在所述潛在用戶設(shè)備中確定指定的用戶設(shè)備包括:獲取所述關(guān)聯(lián)信息包括的各個(gè)指定信息的權(quán)重;根據(jù)所述權(quán)重對所述潛在用戶設(shè)備中的多個(gè)用戶設(shè)備進(jìn)行排序;將排序結(jié)果位于預(yù)定次序的用戶設(shè)備確定為所述指定用戶設(shè)備。根據(jù)本發(fā)明的另一個(gè)方面,提供了一種用戶設(shè)備的確定裝置,包括:第一確定模塊,用于確定指定時(shí)間段位于指定空間范圍內(nèi)的潛在用戶設(shè)備;獲取模塊,用于獲取與所述潛在用戶設(shè)備對應(yīng)的關(guān)聯(lián)信息;第二確定模塊,用于依據(jù)所述關(guān)聯(lián)信息在所述潛在用戶設(shè)備中確定指定用戶設(shè)備。進(jìn)一步地,所述第一確定模塊包括:第一獲取單元,用于獲取第一類用戶設(shè)備的位置信息;在所述第一類用戶設(shè)備在所述指定時(shí)間段內(nèi)且在所述指定空間范圍內(nèi)時(shí),將所述第一類用戶設(shè)備作為所述潛在用戶設(shè)備;第二獲取單元,用于獲取第二類用戶設(shè)備的軌跡信息,在所述軌跡信息滿足在所述指定時(shí)間段內(nèi)位于所述指定空間范圍內(nèi)時(shí),將所述第二類用戶設(shè)備作為所述潛在用戶設(shè)備。進(jìn)一步地,所述第二獲取單元包括:挖掘子單元,用于根據(jù)與所述第二類用戶設(shè)備對應(yīng)的用戶的歷史通話記錄信息挖掘所述用戶的移動規(guī)律性;確定子單元,用于根據(jù)所述移動規(guī)律性確定所述第二類用戶設(shè)備的軌跡信息。進(jìn)一步地,所述第一確定模塊還用于獲取與所述第二類用戶設(shè)備對應(yīng)的用戶的離散熵;在所述離散熵小于預(yù)定閾值的情況下,根據(jù)所述用戶的歷史通話記錄信息獲取所述用戶的移動規(guī)律性,根據(jù)所述移動規(guī)律性確定所述第二類用戶設(shè)備;在所述離散熵大于或者等于所述預(yù)定閾值的情況下,根據(jù)數(shù)據(jù)庫中所有用戶的歷史通話信息確定所述第二類用戶設(shè)備。通過本發(fā)明,采用確定指定時(shí)間段位于指定空間范圍內(nèi)的潛在用戶設(shè)備;獲取與該潛在用戶設(shè)備對應(yīng)的關(guān)聯(lián)信息;依據(jù)關(guān)聯(lián)信息在潛在用戶設(shè)備中確定指定用戶設(shè)備。解決了相關(guān)技術(shù)中不能通過移動設(shè)備對相關(guān)用戶進(jìn)行識別的問題,進(jìn)而實(shí)現(xiàn)了快速對用戶進(jìn)行識別,節(jié)省人力資源的效果。附圖說明此處所說明的附圖用來提供對本發(fā)明的進(jìn)一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實(shí)施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中:圖1是根據(jù)本發(fā)明實(shí)施例的用戶設(shè)備確定方法的流程圖;圖2是根據(jù)本發(fā)明實(shí)施例的用戶設(shè)備確定裝置的結(jié)構(gòu)框圖;圖3是根據(jù)本發(fā)明實(shí)施例的用戶設(shè)備確定裝置的結(jié)構(gòu)框圖(一);圖4是根據(jù)本發(fā)明實(shí)施例的用戶設(shè)備確定裝置的結(jié)構(gòu)框圖(二);圖5是根據(jù)本發(fā)明實(shí)施例的通話數(shù)據(jù)的用戶異常排序方法流程圖;圖6是根據(jù)本發(fā)明實(shí)施例的軌跡預(yù)測流程圖;圖7是根據(jù)本發(fā)明實(shí)施例的通話數(shù)據(jù)的OD識別流程圖;圖8是根據(jù)本發(fā)明實(shí)施例的犯罪學(xué)地理畫像示意圖;圖9是根據(jù)本發(fā)明實(shí)施例的排序模塊流程圖;圖10是根據(jù)本發(fā)明實(shí)施例的用戶識別系統(tǒng)結(jié)構(gòu)圖;圖11是根據(jù)本發(fā)明實(shí)施例一的地理畫像示意圖;圖12是根據(jù)本發(fā)明實(shí)施例的用戶識別流程圖。具體實(shí)施方式下文中將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請中的實(shí)施例及實(shí)施例中的特征可以相互組合。在本實(shí)施例中提供了一種用戶設(shè)備的確定方法,圖1是根據(jù)本發(fā)明實(shí)施例的用戶設(shè)備確定方法的流程圖,如圖1所示,該流程包括如下步驟:步驟S102,確定指定時(shí)間段位于指定空間范圍內(nèi)的潛在用戶設(shè)備;步驟S104,獲取與潛在用戶設(shè)備對應(yīng)的關(guān)聯(lián)信息;步驟S106,依據(jù)關(guān)聯(lián)信息在潛在用戶設(shè)備中確定指定用戶設(shè)備。通過上述步驟,在眾多的潛在用戶設(shè)備中確定指定用戶設(shè)備的過程中,可以根據(jù)與潛在用戶設(shè)備的關(guān)聯(lián)信息進(jìn)行確定,進(jìn)一步可以確定指定用戶設(shè)備對應(yīng)的用戶,相較于傳統(tǒng)人工排查的方式,上述步驟解決了相關(guān)技術(shù)中不能通過移動設(shè)備對相關(guān)用戶進(jìn)行識別的問題,進(jìn)而實(shí)現(xiàn)了快速對用戶進(jìn)行識別,節(jié)省人力資源的效果。上述步驟S102中涉及到確定指定時(shí)間段位于指定空間范圍內(nèi)的潛在用戶設(shè)備,在一個(gè)實(shí)施例中,獲取第一類用戶設(shè)備的位置信息,在第一類用戶設(shè)備在指定時(shí)間段內(nèi)且在指定空間范圍內(nèi)時(shí),將第一類用戶設(shè)備作為潛在用戶設(shè)備。在另一個(gè)可選實(shí)施例中,獲取第二類用戶設(shè)備的軌跡信息,在軌跡信息滿足在指定時(shí)間段內(nèi)位于指定空間范圍內(nèi)時(shí),將第二類用戶設(shè)備作為潛在用戶設(shè)備。從而對指定時(shí)間段內(nèi)且在指定空間范圍內(nèi)的潛在用戶設(shè)備以及依據(jù)用 戶設(shè)備的軌跡信息推斷在指定時(shí)間段位于指定控件范圍的潛在用戶設(shè)備均進(jìn)行了統(tǒng)計(jì)。在上述獲取第二類用戶設(shè)備的軌跡信息的過程中,在一個(gè)可選實(shí)施例中,根據(jù)與第二類用戶設(shè)備對應(yīng)的用戶的歷史通話記錄信息挖掘該用戶的移動規(guī)律性,根據(jù)移動規(guī)律性確定第二類用戶設(shè)備的軌跡信息。在確定指定時(shí)間段位于指定空間范圍內(nèi)的第二類用戶設(shè)備時(shí),在一個(gè)可選實(shí)施例中,獲取與第二類用戶設(shè)備對應(yīng)的用戶的離散熵,在離散熵小于預(yù)定閾值的情況下,根據(jù)該用戶的歷史通話記錄信息獲取該用戶的移動規(guī)律性,根據(jù)移動規(guī)律性確定第二類用戶設(shè)備。在另一個(gè)可選實(shí)施例中,在上述離散熵大于或者等于該預(yù)定閾值的情況下,根據(jù)數(shù)據(jù)庫中所有用戶的歷史通話信息確定該第二類用戶設(shè)備。從而對第二類用戶設(shè)備進(jìn)行了相對精確的確定。上述的關(guān)聯(lián)信息可以包括多種信息,下面對此進(jìn)行舉例說明。在一個(gè)可選實(shí)施例中,關(guān)聯(lián)信息可以是潛在用戶設(shè)備對應(yīng)用戶的居住地與工作地信息,或者可以是與潛在用戶設(shè)備對應(yīng)的用戶的社會關(guān)系信息,也可以是與潛在用戶設(shè)備對應(yīng)的用戶的人口特征信息。其中,用戶的人口特征信息可以是用戶的年齡或者用戶的性別等。在一個(gè)可選實(shí)施例中,根據(jù)以下至少之一的信息獲取用戶的社會關(guān)系信息:用戶設(shè)備進(jìn)行通話的時(shí)間特征信息、與用戶設(shè)備在相同時(shí)間處于相同位置的其他用戶設(shè)備的信息、與用戶設(shè)備存在共同聯(lián)系人的其他用戶設(shè)備的信息。從而可以獲取與潛在用戶設(shè)備對應(yīng)的用戶的社會關(guān)系信息。潛在用戶設(shè)備的數(shù)量可能有很多個(gè),因此,需要從多個(gè)潛在用戶設(shè)備中進(jìn)一步確定一個(gè)或者多個(gè)特定的用戶設(shè)備,在一個(gè)可選實(shí)施例中,獲取上述關(guān)聯(lián)信息包括的各個(gè)指定信息的權(quán)重,根據(jù)該權(quán)重對潛在用戶設(shè)備中的多個(gè)用戶設(shè)備進(jìn)行排序;將排序結(jié)果位于預(yù)定次序的用戶設(shè)備確定為指定用戶設(shè)備。從而完成了根據(jù)關(guān)聯(lián)信息在潛在用戶設(shè)備中確定指定的用戶設(shè)備。在本實(shí)施例中還提供了一種用戶設(shè)備的確定裝置,該裝置用于實(shí)現(xiàn)上述實(shí)施例及優(yōu)選實(shí)施方式,已經(jīng)進(jìn)行過說明的不再贅述。如以下所使用的,術(shù)語“模塊”可以實(shí)現(xiàn)預(yù)定功能的軟件和/或硬件的組合。盡管以下實(shí)施例所描述的裝置較佳地以軟件來實(shí)現(xiàn),但是硬件,或者軟件和硬件的組合的實(shí)現(xiàn)也是可能并被構(gòu)想的。圖2是根據(jù)本發(fā)明實(shí)施例的用戶設(shè)備確定裝置的結(jié)構(gòu)框圖,如圖2所示,該裝置包括:第一確定模塊22,用于確定指定時(shí)間段位于指定空間范圍內(nèi)的潛在用戶設(shè)備;獲取模塊24,用于獲取與該潛在用戶設(shè)備對應(yīng)的關(guān)聯(lián)信息;第二確定模塊26,用于依據(jù)該關(guān)聯(lián)信息在潛在用戶設(shè)備中確定指定用戶設(shè)備。圖3是根據(jù)本發(fā)明實(shí)施例的用戶設(shè)備確定裝置的結(jié)構(gòu)框圖(一),如圖3所示,第一確定模塊22包括:第一獲取單元222,用于獲取第一類用戶設(shè)備的位置信息;在第一類用戶設(shè)備在指定時(shí)間段內(nèi)且在指定空間范圍內(nèi)時(shí),將第一類用戶設(shè)備作為潛在用戶設(shè)備;第二獲取單元224,用于獲取第二類用戶設(shè)備的軌跡信息,在軌跡信息滿足在指定時(shí)間段內(nèi)位于指定空間 范圍內(nèi)時(shí),將第二類用戶設(shè)備作為潛在用戶設(shè)備。圖4是根據(jù)本發(fā)明實(shí)施例的用戶設(shè)備確定裝置的結(jié)構(gòu)框圖(二),如圖4所示,第二獲取單元224包括:挖掘子單元2242,用于根據(jù)與第二類用戶設(shè)備對應(yīng)的用戶的歷史通話記錄信息挖掘該用戶的移動規(guī)律性;確定子單元2244,用于根據(jù)移動規(guī)律性確定第二類用戶設(shè)備的軌跡信息??蛇x地,第一確定模塊22還用于獲取與第二類用戶設(shè)備對應(yīng)的用戶的離散熵;在離散熵小于預(yù)定閾值的情況下,根據(jù)該用戶的歷史通話記錄信息獲取該用戶的移動規(guī)律性,根據(jù)移動規(guī)律性確定第二類用戶設(shè)備;在該離散熵大于或者等于該預(yù)定閾值的情況下,根據(jù)數(shù)據(jù)庫中所有用戶的歷史通話信息確定第二類用戶設(shè)備。需要說明的是,上述各個(gè)模塊是可以通過軟件或硬件來實(shí)現(xiàn)的,對于后者,可以通過以下方式實(shí)現(xiàn),但不限于此:上述各個(gè)模塊均位于同一處理器中;或者,上述各個(gè)模塊分別位于第一處理器、第二處理器和第三處理器…中。針對相關(guān)技術(shù)中存在的上述問題,下面結(jié)合具體的實(shí)施例進(jìn)行說明,在下述的可選實(shí)施例中結(jié)合了上述可選實(shí)施例及其可選實(shí)施方式。本可選實(shí)施例結(jié)合計(jì)算機(jī)技術(shù)與數(shù)據(jù)科學(xué)的發(fā)展,結(jié)合公共安全領(lǐng)域的知識背景,利用社會網(wǎng)絡(luò)分析的方法,提供一種數(shù)字化的異常事件中相關(guān)人員的排查方法,識別與異常事件相關(guān)的用戶并結(jié)合領(lǐng)域知識提供相關(guān)度排名。該方法相比于相關(guān)的人工排查方法,有更快的響應(yīng)速度和更全面的覆蓋范圍,可以有效輔助安全人員的排查工作。由于手機(jī)的普及,手機(jī)通話數(shù)據(jù)是海量的,且覆蓋了城市的絕大部分人口。借助數(shù)據(jù)科學(xué)的發(fā)展,利用數(shù)據(jù)挖掘和社會網(wǎng)絡(luò)分析的手段,從這些通話數(shù)據(jù)中可以分析用戶的出行的源和目的地(OriginandDestination,簡稱為OD)信息(此處的OD特指通勤OD,即上下班出行的源和目的地,即家和辦公地),社會關(guān)系及軌跡模式等信息,這些信息為異常事件中相關(guān)人員相關(guān)度定義提供基礎(chǔ)和依據(jù)。圖5是根據(jù)本發(fā)明實(shí)施例的通話數(shù)據(jù)的用戶異常排序方法流程圖,如圖5所示,通過對原始數(shù)據(jù)進(jìn)行清洗與加密、軌跡預(yù)測、OD識別、社會關(guān)系識別、用戶特征識別以及對經(jīng)過上述處理后的數(shù)據(jù)進(jìn)行相關(guān)性排序,進(jìn)而實(shí)現(xiàn)了基于通話數(shù)據(jù)的用戶異常排序。本可選實(shí)施例結(jié)合基于通話數(shù)據(jù)的OD識別、社會關(guān)系及用戶特征識別,提供一種對異常事件中相關(guān)用戶的識別與排序方法。主要步驟為:步驟1.數(shù)據(jù)預(yù)處理。該部分的目的是將原始的收集到的通話數(shù)據(jù)處理成需要的格式。首先是從原始數(shù)據(jù)中抽取需要的屬性域,包括用戶標(biāo)識(加密后的手機(jī)號碼)、通話基站位置、通話時(shí)間。用戶隱私是通話數(shù)據(jù)中的重要問題,需要對用戶手機(jī)號碼進(jìn)行加密,生成只用于標(biāo)識用戶的鍵值。原始的通話數(shù)據(jù)通常是海量且冗余的,通過預(yù)處理篩選出所需要的數(shù)據(jù),可以有效減小數(shù)據(jù)量,提高后續(xù)處理的效率。步驟2.基于軌跡預(yù)測的異常用戶范圍圈定。圖6是根據(jù)本發(fā)明實(shí)施例的軌跡預(yù)測流程圖,下面對圖6進(jìn)行說明。異常事件發(fā)生時(shí),潛在相關(guān)用戶是指在與異常事件相關(guān)的一定時(shí)間范圍[t1,t2]內(nèi)一定空間范圍[s1,s2]內(nèi)的用戶。但由于通話數(shù)據(jù)并不是實(shí)時(shí)連續(xù)的,異常事件發(fā)生的時(shí)間段內(nèi)未暴露位置,但在時(shí)間段[t1,t2]內(nèi)可能位于空間[s1,s2]內(nèi)的用戶,也應(yīng)該劃分在潛在用戶群內(nèi)。因此我們引入用戶的軌跡預(yù)測模塊,來處理這類用戶。軌跡預(yù)測的處理過程為:對于離散熵較大的用戶,采用群體軌跡預(yù)測模型(TheCrowdTrajectoryPredictor,簡稱為CTP),可用動態(tài)貝葉斯網(wǎng)絡(luò)實(shí)現(xiàn)。對于離散熵小的用戶,采用個(gè)人軌跡預(yù)測模型(TheIndividualTrajectoryPredictor,簡稱為ITP)。離散熵可用于衡量用戶的可預(yù)測性,定義如下:Ed=-Σi=1np(Ri)log2p(Ri)]]>其中p(Ri)為用戶在區(qū)域Ri的頻繁度,其中Ri為基站號。離散熵越大,用戶的運(yùn)動規(guī)律性就越低。定義一種數(shù)據(jù)結(jié)構(gòu)ultra-pattern=<h1,R1><h2,R2>…<hn,Rn>,其中hi表示時(shí)間片(預(yù)設(shè)將一天的24個(gè)小時(shí)均等劃分為24個(gè)時(shí)間片,每個(gè)時(shí)間片1個(gè)小時(shí)),Ri表示位置區(qū)域,這樣的數(shù)據(jù)結(jié)構(gòu)可用于表示用戶的移動軌跡。算法實(shí)現(xiàn)如下:輸入:預(yù)測用戶的ID,預(yù)測日期及時(shí)間點(diǎn)。輸出:基站號,代表用戶在預(yù)測時(shí)間點(diǎn)可能所在的位置,按支持度大小排序。根據(jù)輸入,從數(shù)據(jù)庫中取預(yù)測時(shí)間點(diǎn)前兩個(gè)小時(shí)的通話記錄即用戶當(dāng)前位置,作為預(yù)測依據(jù)。若預(yù)測依據(jù)為空,則使用個(gè)人預(yù)測模型:處理用戶的個(gè)人歷史移動通話數(shù)據(jù),挖掘用戶移動的規(guī)律性,壓縮歷史通話數(shù)據(jù)得到一個(gè)二維數(shù)組UltraPattern[24][7],用于表示以一周為周期,每天24個(gè)小時(shí),每小時(shí)一個(gè)通話記錄的通話記錄數(shù)組。預(yù)測過程:以預(yù)測時(shí)間點(diǎn)對應(yīng)的所有位置作為備選預(yù)測位置,并按照支持度排序。預(yù)測結(jié)束。若預(yù)測依據(jù)不為空,根據(jù)用戶的歷史信息,計(jì)算用戶的離散熵。若用戶的離散熵小于臨界值,即用戶運(yùn)動的周期性比較強(qiáng),則建立個(gè)人預(yù)測模型UltraPattern[24][7]。預(yù)測過程:以預(yù)測依據(jù)在UltraPattern[24][7]中匹配出下一時(shí)刻的位置作為預(yù)測結(jié)果,若沒有完全匹配的路徑,則使用群體預(yù)測模型。若用戶的離散熵大于臨界值,使用群體預(yù)測模型。在同一個(gè)城市,基站位置有限,人類活動很大程度上有一定的共性,所以可根據(jù)數(shù)據(jù)庫中所有用戶歷史移動信息預(yù)測用戶的下一 時(shí)刻位置。首先訓(xùn)練群體預(yù)測模型:將一天分為24個(gè)時(shí)間片,利用數(shù)據(jù)庫中所有用戶的歷史通話記錄,訓(xùn)練出24個(gè)轉(zhuǎn)移預(yù)測矩陣,每個(gè)轉(zhuǎn)移矩陣的橫縱坐標(biāo)代表基站號,<X,Y>對應(yīng)的概率值為相鄰兩個(gè)小時(shí)從基站X轉(zhuǎn)移到基站Y的概率。預(yù)測過程:在給定預(yù)測依據(jù),即用戶當(dāng)前位置的情況下,可取相應(yīng)時(shí)間對應(yīng)的矩陣中的概率較大的值作為預(yù)測結(jié)果返回。預(yù)測結(jié)束。步驟3.基于通話數(shù)據(jù)的OD識別、社會關(guān)系識別、用戶特征識別。利用通話數(shù)據(jù),對用戶的通勤OD、社會關(guān)系及特征(如年齡、性別)等進(jìn)行識別,可以描繪出用戶的社會肖像。這些特征與異常事件當(dāng)事人的相關(guān)程度,為排查人員提供了有效信息。a)OD識別由于工業(yè)社會的發(fā)展,城市人群工作與生活方式具有一定的規(guī)律性,通勤OD(居住地與工作地)是最基礎(chǔ)的出行模式。在相關(guān)技術(shù)中存在基于通話數(shù)據(jù)的簡單而有效的通勤OD挖掘方法。在相關(guān)技術(shù)中OD識別的實(shí)現(xiàn)細(xì)節(jié)具體算法流程如下:基于手機(jī)通話數(shù)據(jù)的大規(guī)模人群通勤OD發(fā)現(xiàn)方法為:輸入:每個(gè)用戶的通話數(shù)據(jù)T,T={<手機(jī)號,通話基站,通話時(shí)間>}輸出:每個(gè)用戶的居住地和工作地泊點(diǎn),即OD泊點(diǎn)。時(shí)空改進(jìn)方法:1.對每個(gè)用戶將通話數(shù)據(jù)分為兩個(gè)集合,Tday和Tnight,分別代表白天和夜晚的通話數(shù)據(jù)。2.分別對Tday和Tnight通話數(shù)據(jù)進(jìn)行統(tǒng)計(jì)。3.將通話數(shù)據(jù)按照通話基站進(jìn)行劃分,每個(gè)基站對應(yīng)一個(gè)通話次數(shù)。4.(空間改進(jìn))將基站按通話次數(shù)從大到小排列,然后進(jìn)行空間合并,形成新的通話位置點(diǎn)。5.(時(shí)間改進(jìn))根據(jù)通話周期性,計(jì)算每個(gè)位置點(diǎn)的通話頻繁度。6.(條件篩選)對每個(gè)位置點(diǎn)進(jìn)行篩選,刪除通話稀疏的位置點(diǎn)。7.將Tday和Tnight數(shù)據(jù)中通話頻繁度最大的位置點(diǎn)作為D和O,即工作地和居住地。8.輸出每個(gè)用戶的通勤OD。圖7是根據(jù)本發(fā)明實(shí)施例的通話數(shù)據(jù)的OD識別流程圖,如圖7所述,該流程包括如下步驟:步驟S702,對數(shù)據(jù)進(jìn)行預(yù)處理;步驟S704,通話位置次數(shù)統(tǒng)計(jì);步驟S706,空間合并優(yōu)化;步驟S708,時(shí)間合并優(yōu)化。b)社會關(guān)系識別把用戶的社會關(guān)系劃分為三類:家人、同事和其他。不同關(guān)系的用戶對之間,在通話行為和位置的時(shí)間、空間分布上具有差異性。從通話數(shù)據(jù)及OD信息中,提取通話時(shí)間、相處時(shí)間(結(jié)合OD信息)及一些群體信息(如共同聯(lián)系人)等相關(guān)的特征,利用分類模型(如決策樹、隨機(jī)森林等)對用戶對之間的關(guān)系進(jìn)行識別。社會關(guān)系的識別用于定義用戶與異常事件當(dāng)事人之間的社會關(guān)系相關(guān)度。社會關(guān)系識別的過程:將社會關(guān)系分為三大類:家人、同事和其他。將有聯(lián)系的兩個(gè)用戶組織成一個(gè)用戶對,關(guān)系的識別轉(zhuǎn)換為分類問題,分類該用戶對是家人關(guān)系、同事關(guān)系還是其他。采用決策樹模型,提取的特征有如下三類:通話時(shí)間特征相處時(shí)間增益特征特征名稱說明周中平均相處時(shí)長在正常工作日內(nèi),用戶對平均每天的相處時(shí)長周末平均相處時(shí)長在周末用戶對平均每天的相處時(shí)長周末時(shí)間增益TΔ,用戶對周末和周中平均相處時(shí)長的變化量群體結(jié)構(gòu)特征c)用戶特征識別通話數(shù)據(jù)中并不能保證有用戶的年齡、性別等信息,有些電信運(yùn)營商的申請?zhí)柎a記錄中會有部分比較完整的用戶信息,但這些信息一方面隱私性要求較高,一方面數(shù)據(jù)完整性和真實(shí)性不能保證。通過統(tǒng)計(jì)發(fā)現(xiàn)不同性別或年齡段的用戶,在通話習(xí)慣上具有一定的差異性,通過提取相關(guān)的特征值,利用分類模型(決策樹、隨機(jī)森林等)對用戶的性別、年齡進(jìn)行識別。用戶的年齡與性別信息對輔助社會關(guān)系相似度有一定幫助。比如,從一些實(shí)證分析案例中的結(jié)論來看,故意殺人案件中加害人與被害人之間關(guān)系在性別上具有差異性,在年齡上具有“重合性”,其中,參考資料為:[1].《中國人民公安大學(xué)學(xué)報(bào):社科版》,2006年第2期,《故意殺人案件中加害人與被害人關(guān)系的實(shí)證分析》,作者:高維儉、查國防。關(guān)于用戶特征識別的過程為:用戶的性別、年齡等信息,在真實(shí)的數(shù)據(jù)中有嚴(yán)重的缺失,使用機(jī)器學(xué)習(xí)的方法對性別與年齡識別可以在一定程度上彌補(bǔ)這一缺陷。將年齡劃分為三個(gè)年齡段(18-25,26-40,41-60),這樣年齡的識別問題轉(zhuǎn)化為多類別的分類問題。從數(shù)據(jù)中抽出部分標(biāo)簽數(shù)據(jù),可以采取有監(jiān)督學(xué)習(xí)的方法,訓(xùn)練模型。采用決策樹模型,提取的特征有:步驟4.排序過程排序部分分三類:空間關(guān)系、社會關(guān)系和基于領(lǐng)域模型的排序,從三個(gè)角度全面地分析用戶與異常事件的相關(guān)程度。a)空間關(guān)系在基于空間關(guān)系的排序中,我們從兩個(gè)方面考查相關(guān)人員與當(dāng)事人空間行為的關(guān)系:一,在一定時(shí)間段內(nèi),與當(dāng)事人軌跡相似度較高的用戶可疑程度高;二,該用戶事發(fā)當(dāng)日與以往的空間行為模式有較大差異,則其可疑程度較高。我們參考文本信息檢索領(lǐng)域中“文本向量”的概念和余弦相似度的度量方法,來處理用戶軌跡及軌跡之間的相似程度。在文本信息檢索領(lǐng)域,常將一篇文檔組織為一個(gè)文檔向量,向量的元素為詞項(xiàng)在該文檔中的出現(xiàn)次數(shù)(或者TF/IDF值),結(jié)合余弦相似度,返回相似文檔。余弦相似度的理論模型如下:對于兩個(gè)向量α和β,兩向量之間夾角越小,其相似度越高。而通過余弦定理,可以求得其夾角的余弦值與兩向量之間的關(guān)系:cosθ=α·β|α|×|β|]]>通過將用戶的軌跡組織為向量,向量中的元素為用戶在該基站出現(xiàn)的平均次數(shù),分別求出用戶與當(dāng)事人軌跡的余弦相似度s1,該用戶以往空間向量與當(dāng)日空間向量的余弦相似度s2,則該用戶在空間行為上的可疑程度為:δ=s1+(1-s2)2]]>b)社會關(guān)系當(dāng)異常事件發(fā)生時(shí),首先根據(jù)異常事件的時(shí)間和空間位置進(jìn)行過濾,篩選潛在可疑用戶集合,即在一定時(shí)間范圍內(nèi)出現(xiàn)在該位置一定范圍內(nèi)的用戶集合S。對于集合S中的用戶,查看其與當(dāng)事人之間社會關(guān)系的重合度,結(jié)合該用戶的性別與年齡信息,給出排序結(jié)果。結(jié)合相關(guān)的實(shí)證分析結(jié)果,在故意殺人案件中,發(fā)生在熟人之間的幾率為78.5%,遠(yuǎn)高于21.5%的陌生人之間,詳見[2].DarcyKimRossmo,M.A.,SimonFraserUniversity,1987,Geographicprofiling:targetpatternsofserialmurderers。因此相關(guān)用戶與當(dāng)事人的社會關(guān)系重合度越高,其可疑度應(yīng)越高,且更可能提供與異常事件相關(guān)的更多信息。實(shí)證分析又指出,在加害人中,80.9%的幾率年齡在18-44區(qū)段;從性別上考慮,加害人85.9%為男性,只有14.1%為女性,詳見[1].《中國人民公安大學(xué)學(xué)報(bào):社科版》,2006年第2期,《故意殺人案件中加害人與被害人關(guān)系的實(shí)證分析》,作者:高維儉、查國防。從實(shí)證研究的成果考慮,依次以社交圈重合度、性別和年齡為排序基準(zhǔn),給出基于社會關(guān)系的異常排序結(jié)果。關(guān)于社會關(guān)系的重合度,我們采用適合對符號度量或布爾值度量的Jaccard相似系數(shù):J=A∩BA∪B]]>c)領(lǐng)域模型根據(jù)犯罪學(xué)地理畫像理論,詳見[2].DarcyKimRossmo,M.A.,SimonFraserUniversity,1987,Geographicprofiling:targetpatternsofserialmurderers.對罪犯的心理基于如下兩個(gè)假設(shè):犯罪嫌疑人不會在離固定活動點(diǎn)(家、工作地等)很近的地方犯罪,因?yàn)檫@樣不僅容易暴露自己,犯罪目標(biāo)也較少;離罪犯的固定工作點(diǎn)越遠(yuǎn)的地方,他在那里犯罪的可能性越小。因?yàn)檫@樣會增加很多交通/逃逸的不便。圖8是根據(jù)本發(fā)明實(shí)施例的犯罪學(xué)地理畫像示意圖,如圖8所示,r1為以犯罪嫌疑人固定活動地(家或者工作地)為圓心的較小圓周的半徑、r2為以犯罪嫌疑人固定活動地(家或者工作地)為圓心的較大圓周的半徑。連環(huán)案件是滿足上述假設(shè)的犯罪,如多次實(shí)施謀殺、搶劫、強(qiáng)奸等犯罪;而這種方法也適合于一次犯罪涉及多個(gè)地點(diǎn)的案例,比如一起謀殺中罪犯被目擊、謀殺、拋尸的地點(diǎn)都不同的情況?;谏鲜龅膬蓚€(gè)假設(shè),對于某一異常事件,可疑人員的固定活動點(diǎn)(OD點(diǎn))通常在以該事件發(fā)生地為圓心,不同半徑所形成的同心圓所形成的環(huán)內(nèi)。此處的距離計(jì)算是基于交通路 網(wǎng),采用曼哈頓距離。首先根據(jù)事件發(fā)生地信息,找出環(huán)形區(qū)域內(nèi)的基站,對以這些基站為O/D的人員進(jìn)行重點(diǎn)排查。如果有多個(gè)事件發(fā)生地,對那些環(huán)形區(qū)域交叉的基站,以這些基站為O/D的人員的嫌疑度更大。因此,基于地理畫像,以相關(guān)人員O/D點(diǎn)出現(xiàn)在環(huán)形區(qū)域中的概率倒序排列。步驟5.結(jié)合異常事件的具體情境,選擇不同的變量和變量的次序?qū)ο嚓P(guān)用戶排序,得到綜合排序序列。針對異常事件的不同情況,結(jié)合領(lǐng)域?qū)<业囊庖娺x擇上述多個(gè)變量中全部或部分,并確定變量的優(yōu)先次序,對用戶進(jìn)行排序。如針對一系列連續(xù)作案的嫌犯,出現(xiàn)在事件現(xiàn)場的次數(shù)和OD點(diǎn)處于事件環(huán)形區(qū)域內(nèi)的次數(shù)對排序結(jié)果的影響更大;而對于有組織的團(tuán)伙犯罪,如團(tuán)伙欺詐行為,軌跡的尾隨效應(yīng)比較明顯,在已知一名嫌疑人時(shí),其他犯罪嫌疑人與之的社會關(guān)系的重合度也較高;對于團(tuán)伙聚眾鬧事或恐怖事件,社會關(guān)系重合度與空間軌跡重合度較高。圖9是根據(jù)本發(fā)明實(shí)施例的排序模塊流程圖,為更加清楚地介紹本發(fā)明的目的和技術(shù)方案,下文將結(jié)合實(shí)施案例和圖9,對技術(shù)方案做進(jìn)一步的詳細(xì)說明。盡管不同實(shí)施例下,排序時(shí)側(cè)重點(diǎn)不同,但對于相關(guān)用戶的識別和數(shù)據(jù)準(zhǔn)備工作都是相同的。至少包含如下各部分:第一部分:數(shù)據(jù)的存儲與清洗。手機(jī)通話數(shù)據(jù)的數(shù)據(jù)量很大,不僅有數(shù)量龐大的用戶量,同時(shí)每天都會產(chǎn)生大量的記錄,因此對于數(shù)據(jù)的入庫存儲的挑戰(zhàn)較大,使用分布式數(shù)據(jù)管理系統(tǒng)和分層存儲體系會是一個(gè)良好的技術(shù)方案。圖10是根據(jù)本發(fā)明實(shí)施例的用戶識別系統(tǒng)結(jié)構(gòu)圖,如圖10所示,使用計(jì)算機(jī)集群與分布式文件系統(tǒng)HDFS作為第一層原始記錄數(shù)據(jù)存儲,而通話數(shù)據(jù)的獲取通過并行的數(shù)據(jù)獲取模塊拉取到集群中;在HDFS的基礎(chǔ)之上,構(gòu)建數(shù)據(jù)清洗的流水線,將最近30天來的數(shù)據(jù)放入響應(yīng)速度更快的數(shù)據(jù)庫系統(tǒng)中,在數(shù)據(jù)庫之上構(gòu)建后續(xù)的處理模塊。當(dāng)處理模塊需要使用30天之前的數(shù)據(jù)時(shí),可以進(jìn)一步訪問HDFS。具體步驟:步驟1:利用并行數(shù)據(jù)獲取模塊,將通話數(shù)據(jù)的原始記錄拉取到計(jì)算機(jī)集群的分布式文件系統(tǒng)中。步驟2:通過一個(gè)Map-reduce的數(shù)據(jù)預(yù)處理的流水線任務(wù),將原始的通話數(shù)據(jù)處理成需要的模式,如去除冗余的信息,對手機(jī)號加密等操作。然后將處理的數(shù)據(jù)存入數(shù)據(jù)庫系統(tǒng),可以根據(jù)系統(tǒng)負(fù)載情況控制載入數(shù)據(jù)庫的數(shù)據(jù)量,既考慮到數(shù)據(jù)庫的負(fù)載能力又考慮到任務(wù)處理速度的需求,一般至少可以在30天以上。對于數(shù)據(jù)的存儲有很多的優(yōu)化方案,如根據(jù)日期進(jìn)行切分,或?qū)?shù)據(jù)進(jìn)行壓縮等。數(shù)據(jù)清洗與加密模塊,是對獲取的原始通話數(shù)據(jù)做一定的去冗余和加密處理。該模塊包含于服務(wù)器端。原始的通話數(shù)據(jù)包含較多的域,如漫游狀態(tài)、用戶手機(jī)移動設(shè)備國際身份碼(International MobileEquipmentIdentity,簡稱為IMEI)碼等無關(guān)信息,共計(jì)二十多個(gè)屬性段。而實(shí)際使用的字段很有限,包括基站信息和通話記錄信息。基站信息的字段:基站的經(jīng)緯度和編號;通話記錄信息的字段:加密后的手機(jī)號碼,對端的手機(jī)號碼,通話時(shí)間,基站編號。用戶隱私是手機(jī)通話數(shù)據(jù)的一個(gè)重要問題。為了保護(hù)用戶的隱私,我們對原始數(shù)據(jù)的手機(jī)號碼進(jìn)行加密處理。手機(jī)號碼的作用僅用來唯一標(biāo)識手機(jī)用戶,并無實(shí)際意義,因此可以使用其他一一對應(yīng)的字符串或數(shù)字代替。加密后的用戶手機(jī)號只用于唯一地區(qū)分用戶,而無法判斷具體用戶,很好地符合了用戶隱私的要求。第二部分:請求處理模塊對于不同的應(yīng)用場景,對數(shù)據(jù)的側(cè)重點(diǎn)不同,通過對請求的特征分析與設(shè)定,針對不同的場景做不同的處理,對提高排序的相關(guān)度有重要作用。結(jié)合實(shí)施例對此做進(jìn)一步的說明。第三部分:業(yè)務(wù)邏輯模塊業(yè)務(wù)邏輯模塊是核心模塊,包括上一部分介紹的異常用戶范圍的圈定,基于通話數(shù)據(jù)的OD識別、社會關(guān)系識別、用戶特征識別和后續(xù)的排序過程。結(jié)合實(shí)施例對此做進(jìn)一步的說明。實(shí)施例一某地連續(xù)發(fā)生多起強(qiáng)奸案件,從被害人描述來看,很可能是同一人所為,體貌特征難以確定,但攜帶手機(jī)。由于作案現(xiàn)場沒有攝像頭,警方難以確定嫌疑人的體貌特征,但根據(jù)被害人的描述,嫌疑人攜帶了手機(jī)。此種情形下,對于多次出現(xiàn)在現(xiàn)場中的用戶,應(yīng)列入重點(diǎn)懷疑對象。從犯罪學(xué)地理畫像看,其OD落入事件的環(huán)形區(qū)域的用戶也有較大嫌疑。從年齡與性別角度講,18-45歲之間的男性可能性較大。從軌跡上來說,具有尾隨性特征或與往日移動模式差別較大的用戶其可疑性較高。在這種情形下,可設(shè)定的相關(guān)性權(quán)重從大到小依次為:出現(xiàn)在案件中的次數(shù)、OD落在案件環(huán)形區(qū)域內(nèi)的概率、性別與年齡、軌跡相關(guān)度、社會關(guān)系相關(guān)度,舉例說明,上述5個(gè)相關(guān)性參數(shù)的權(quán)重可以分別設(shè)置為90、80、70、60、50。步驟1:根據(jù)多次案件的時(shí)間和地點(diǎn),結(jié)合軌跡預(yù)測模塊,圈定這些時(shí)間段與區(qū)域內(nèi)可能出現(xiàn)過的手機(jī)用戶的集合P。步驟2:統(tǒng)計(jì)P中各個(gè)用戶出現(xiàn)在案件相關(guān)集合中的次數(shù)α。步驟3:針對P中的用戶,進(jìn)行OD識別,識別出各個(gè)用戶的OD點(diǎn)。步驟4:統(tǒng)計(jì)P中各個(gè)用戶的OD落在案件環(huán)形區(qū)域的概率β。具體地,如何確定環(huán)形大小圓半徑有兩種可選思路。思路之一,結(jié)合地理畫像實(shí)證研究,在不區(qū)分地形、路網(wǎng)、犯罪類別等的情況下,簡化認(rèn)為,以事件發(fā)生地為圓心,罪犯的固定地點(diǎn)在“案發(fā)地點(diǎn)之間最大距離的2倍”為半徑的多個(gè)圓的相交區(qū)域的概率較大,故計(jì)算環(huán)形區(qū)域時(shí)小圓半徑分別設(shè)置為0和“案發(fā)地點(diǎn)之間最大距離的2倍”。圖11是根據(jù)本發(fā)明實(shí)施例一的地理畫像示意圖,如圖11所示設(shè)置多個(gè)大圓區(qū)域,圓心代表各案發(fā)現(xiàn)場。OD落在多 個(gè)大圓相交區(qū)域的用戶可疑度更高,即圖11中布滿小三角的區(qū)域。統(tǒng)計(jì)P中各個(gè)用戶的OD落在多個(gè)大圓相交區(qū)域的概率β。第二種思路,環(huán)形區(qū)域內(nèi)外半徑的設(shè)定可通過以往破獲的案件中嫌疑人OD與案件地點(diǎn)的距離的統(tǒng)計(jì)量確定。如將距離降序排列,取外半徑為前一半距離的平均值,內(nèi)半徑為后一半距離的平均值;或者取全部距離平均值再各增減0.5倍;或者取中位數(shù)再各增減0.5倍等。步驟5:計(jì)算P中用戶與被害人案件發(fā)生前若干小時(shí)的軌跡的相關(guān)度γ。步驟6:查找P中用戶的性別、年齡信息δ。如數(shù)據(jù)庫中無用戶記錄,則通過機(jī)器學(xué)習(xí)已訓(xùn)練好的模型,對這些用戶進(jìn)行識別,并將識別的結(jié)果存入數(shù)據(jù)庫中。步驟7:對P中的用戶進(jìn)行社會關(guān)系的識別,找出各個(gè)用戶的社會關(guān)系集合。在具體的實(shí)施中,通過構(gòu)建用戶的社會關(guān)系、OD、性別、年齡等的數(shù)據(jù)庫,引入緩存機(jī)制。即當(dāng)數(shù)據(jù)庫中有該用戶的這些記錄,便直接從數(shù)據(jù)庫中取出相應(yīng)結(jié)果;而當(dāng)數(shù)據(jù)庫沒有這些用戶的信息時(shí),調(diào)用機(jī)器學(xué)習(xí)模塊中訓(xùn)練的模型,對這些用戶的社會關(guān)系進(jìn)行識別,并將結(jié)果存入數(shù)據(jù)庫,供以后使用。步驟8:計(jì)算P中用戶與被害人在社會關(guān)系上的相關(guān)程度ε。步驟9:依次以α,β,γ,δ,ε降序?qū)進(jìn)行排序,并顯示排序結(jié)果。根據(jù)權(quán)重計(jì)算并得出綜合的相關(guān)度排序結(jié)果。α×90+β×80+γ×70+δ×60+ε×50圖12是根據(jù)本發(fā)明實(shí)施例的用戶識別流程圖,用戶識別流程請參見圖12。除了如實(shí)施例一所述根據(jù)場景的分析來確定不同因素的相關(guān)度權(quán)重大小外,還可以選擇忽略一些因素,詳見如下實(shí)施例二和實(shí)施例三。實(shí)施例二某受害人報(bào)案在一條古董街上被人詐騙,以高價(jià)購買了偽造古董。根據(jù)被害人的描述,其先后遭受多人的勸說,疑似多人合作各自扮演各自角色的團(tuán)伙犯案。但僅憑受害人的描述,警方無法獲得足以確認(rèn)犯罪嫌疑人的特征。在這種場景下,嫌疑人的軌跡與受害人的軌跡相似度較高,因此軌跡相關(guān)度的影響較大;而從社會關(guān)系的角度講,團(tuán)伙之間電話交流較多,因此相互間互為社會關(guān)系網(wǎng)的可能性較大,即社會關(guān)系的相關(guān)度會較高;其他因素的影響較小。此種情況下,往往可以從軌跡與社會關(guān)系這兩個(gè)因素中獲得重要信息。與實(shí)施例一相比,實(shí)施例二的計(jì)算過程可以省去性別年齡及OD模塊。實(shí)施例三對于群體事件,如聚眾鬧事、群體斗毆類事件,參與人之間往往相互之間有較多的聯(lián)系, 因此社會關(guān)系的重合度較高;從性別、年齡的角度講,一般多為18-40之間的男性;而軌跡的相關(guān)度也有一定影響。OD信息等對這類事件的影響較小,在排序時(shí)可以選擇忽略該因素。簡述基本步驟如下:步驟1:根據(jù)受害人的描述,確定時(shí)間和地點(diǎn)。結(jié)合軌跡預(yù)測模塊,圈定該時(shí)間段和區(qū)域的相關(guān)用戶集合P。步驟2:計(jì)算P中用戶與受害人之間的軌跡相似度γ。步驟3:從數(shù)據(jù)庫中查找P中用戶的社會關(guān)系,如數(shù)據(jù)庫中無用戶記錄,則利用機(jī)器學(xué)習(xí)得到的社會關(guān)系識別模型,通過社會關(guān)系識別模塊識別出其社會關(guān)系,并將結(jié)果存入數(shù)據(jù)庫中。步驟4:計(jì)算P中用戶與受害人之間的社會關(guān)系相關(guān)度ε。步驟5:查找P中用戶的性別、年齡信息,與“18-40之間的男性”相符合的概率δ。如數(shù)據(jù)庫中無用戶記錄,則通過機(jī)器學(xué)習(xí)已訓(xùn)練好的模型,對這些用戶進(jìn)行識別,并將識別的結(jié)果存入數(shù)據(jù)庫中。步驟6:依次以社會關(guān)系相關(guān)度、軌跡相關(guān)度、年齡、性別對P中用戶進(jìn)行排序,并返回排序結(jié)果。相關(guān)度參數(shù)權(quán)重由高到低順序?yàn)樯鐣P(guān)系相關(guān)度、性別和年齡相符合的概率、軌跡相關(guān)度,舉例說明,權(quán)重依次分別設(shè)置為90、80、40。根據(jù)權(quán)重計(jì)算并得出綜合的相關(guān)度排序結(jié)果。ε×90+δ×80+γ×40該實(shí)施例下的過程圖與圖12一致,僅在根據(jù)不同場景的分析下確定不同影響因素的排序優(yōu)先次序上有所差異。綜上所述,本發(fā)明針對異常事件中對潛在用戶群的識別與排序過程進(jìn)行了系統(tǒng)的自動化處理,從數(shù)據(jù)的清洗處理,到潛在相關(guān)用戶群的識別與排序過程進(jìn)行了整理,形成了整體可運(yùn)作與實(shí)現(xiàn)的系統(tǒng)方案。尤其在對潛在用戶群的界定、空間行為的相關(guān)性以及綜合領(lǐng)域知識、社會關(guān)系和空間行為三個(gè)因素的排序思想,有著新穎可操作的解決方案。由于涉及大量的數(shù)據(jù)操作,系統(tǒng)復(fù)雜性較高,要求模型應(yīng)有較快的響應(yīng)速度。而OD識別、社會關(guān)系及用戶特征的識別過程也可以通過線下的訓(xùn)練完成,將識別結(jié)果儲存進(jìn)數(shù)據(jù)庫,供排序步驟查詢使用。無線通信運(yùn)營商為了保證通信系統(tǒng)和通信功能的正常運(yùn)行,會保存大量與通信相關(guān)的數(shù)據(jù),如通話、短信、開關(guān)機(jī)等手機(jī)狀態(tài)的日志,一般以基站為空間位置信息的單位。而數(shù)據(jù)挖掘技術(shù)的發(fā)展使得數(shù)據(jù)的價(jià)值得以有效呈現(xiàn),基于通話數(shù)據(jù),可以識別用戶的通勤OD、社會關(guān)系及軌跡模式等信息,這些信息對于發(fā)掘異常事件中相關(guān)人員的相關(guān)程度具有重要意義。用戶的通勤OD,即家與工作地,是工業(yè)社會發(fā)展的產(chǎn)物,是用戶移動規(guī)律的基本模式。OD信息與相關(guān)的領(lǐng)域知識結(jié)合,如犯罪地理畫像,反映領(lǐng)域模型下用戶與異常事件的相關(guān)程度; 利用社群發(fā)現(xiàn)技術(shù)從數(shù)據(jù)中識別用戶社會關(guān)系,通過社會關(guān)系來進(jìn)一步考察用戶與異常事件的相關(guān)程度;而基于用戶的軌跡信息,從空間行為上對用戶與異常事件的相關(guān)性分析?;谝苿油ㄔ挃?shù)據(jù),綜合領(lǐng)域知識、社會關(guān)系及空間行為三個(gè)方面,分析用戶與異常事件的相關(guān)性,對異常事件的及時(shí)處理有重要意義。相較于傳統(tǒng)人工排查的方式,憑借更全面的數(shù)據(jù)和大數(shù)據(jù)技術(shù)手段,以更快的響應(yīng)速度確定重點(diǎn)的和優(yōu)先的排查范圍,進(jìn)而優(yōu)化人力部署;在公安刑偵領(lǐng)域,這就是在幫助警察抓住破案的黃金時(shí)期,眾所周知,刑偵中分秒必爭就意味著化解危機(jī)、挽救生命和維護(hù)社會正義安寧。在另外一個(gè)實(shí)施例中,還提供了一種軟件,該軟件用于執(zhí)行上述實(shí)施例及優(yōu)選實(shí)施方式中描述的技術(shù)方案。在另外一個(gè)實(shí)施例中,還提供了一種存儲介質(zhì),該存儲介質(zhì)中存儲有上述軟件,該存儲介質(zhì)包括但不限于:光盤、軟盤、硬盤、可擦寫存儲器等。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲在存儲裝置中由計(jì)算裝置來執(zhí)行,并且在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實(shí)施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3