本發(fā)明涉及通信技術(shù)領(lǐng)域,尤其涉及一種用戶行為模式分析方法及裝置。
背景技術(shù):
現(xiàn)有技術(shù)中針對(duì)電子門禁的刷卡記錄的大多應(yīng)用中,只能完成簡單的查找操作,例如根據(jù)用戶的唯一標(biāo)示(ID)或者時(shí)段的信息,在數(shù)據(jù)記錄中篩選出符合條件的記錄集合,之后進(jìn)行手工的分析、制圖、操作、研判等。在部分應(yīng)用中,對(duì)于門禁刷卡記錄的使用只是停留在對(duì)于刷卡次數(shù)、重點(diǎn)時(shí)段的刷卡頻次等簡單的指標(biāo)的統(tǒng)計(jì)。例如,對(duì)于圖書館進(jìn)出刷卡記錄的使用,對(duì)于讀者的行為只是局限于提供日均的刷卡頻次的統(tǒng)計(jì)數(shù)據(jù),用于分析進(jìn)入圖書館的人流數(shù)量和總體的變化趨勢(shì),為圖書館的日常管理,開放時(shí)間等提供規(guī)劃。因?yàn)槿狈ο鄳?yīng)的分析算法和輔助的工具,僅依據(jù)簡單的每日刷卡次數(shù)或者特殊時(shí)段的刷卡次數(shù)對(duì)門禁刷卡行為的分析方法,存在關(guān)注點(diǎn)單一,分析能力有限,效果較差的問題。
因此,面對(duì)大量的門禁數(shù)據(jù),現(xiàn)有的分析能力有限,僅僅依靠簡單的出入頻次分析不能有足夠的甄別能力,無法對(duì)門禁刷卡數(shù)據(jù)進(jìn)行深入分析,根據(jù)用戶的刷卡記錄不能識(shí)別判斷出用戶的可能類型,無法真正刻畫用戶的行為模式。
當(dāng)前,通過門禁的刷卡記錄對(duì)刷卡用戶的行為模式進(jìn)行建模分析,尚未有較好的實(shí)現(xiàn)方案。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明實(shí)施例提供一種用戶行為模式分析方法及裝置,用來實(shí)現(xiàn)對(duì)大量的 門禁刷卡數(shù)據(jù)進(jìn)行建模分析,達(dá)到根據(jù)刷卡用戶的刷卡數(shù)據(jù),識(shí)別出刷卡用戶的行為模式的要求。
本發(fā)明實(shí)施例提供一種用于分析用戶行為模式的模型的建立方法,包括:
獲取用戶的刷卡數(shù)據(jù),根據(jù)所述刷卡數(shù)據(jù)構(gòu)建N個(gè)帶有用戶標(biāo)識(shí)的數(shù)據(jù)點(diǎn),所述數(shù)據(jù)點(diǎn)為單個(gè)用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量,N為大于1的正整數(shù);
對(duì)所述N個(gè)數(shù)據(jù)點(diǎn)進(jìn)行迭代聚類,得到k個(gè)目標(biāo)簇,每個(gè)目標(biāo)簇中的數(shù)據(jù)點(diǎn)與該數(shù)據(jù)點(diǎn)歸屬的目標(biāo)簇的中心點(diǎn)的相異度不大于該數(shù)據(jù)點(diǎn)與其他目標(biāo)簇的中心點(diǎn)的相異度,k為大于1的正整數(shù);
針對(duì)每個(gè)目標(biāo)簇,執(zhí)行:
根據(jù)第m個(gè)目標(biāo)簇中數(shù)據(jù)點(diǎn)的用戶標(biāo)識(shí),查找與所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶信息,并根據(jù)所述用戶信息,確定用于標(biāo)記所述第m個(gè)目標(biāo)簇的用戶行為模式的標(biāo)簽信息,其中,m的取值位于1和k之間;
建立所述第m個(gè)目標(biāo)簇的中心點(diǎn)與所述標(biāo)簽信息的關(guān)聯(lián)關(guān)系;
將所述第m個(gè)目標(biāo)簇的中心點(diǎn)確定為表征所述用戶行為模式的向量模型。
進(jìn)一步地,所述對(duì)所述N個(gè)數(shù)據(jù)點(diǎn)進(jìn)行迭代聚類,得到k個(gè)目標(biāo)簇,包括以下步驟:
步驟1:從所述N個(gè)數(shù)據(jù)點(diǎn)中隨機(jī)選擇k個(gè)數(shù)據(jù)點(diǎn)分別作為k個(gè)目標(biāo)簇的中心點(diǎn),k為設(shè)定的目標(biāo)簇的個(gè)數(shù);
步驟2:將除中心點(diǎn)之外的每個(gè)數(shù)據(jù)點(diǎn)劃分到與該數(shù)據(jù)點(diǎn)相異度最小的中心點(diǎn)所在的簇;
步驟3:計(jì)算每個(gè)簇中各數(shù)據(jù)點(diǎn)的平均值,將每個(gè)簇中離平均值最近的數(shù)據(jù)點(diǎn)作為新的中心點(diǎn);
步驟4:重復(fù)步驟2和步驟3;若滿足迭代次數(shù)或者每個(gè)簇的中心點(diǎn)不再發(fā)生變化,則停止;滿足迭代次數(shù)或者每個(gè)簇的中心點(diǎn)不再發(fā)生變化時(shí),得到k個(gè)目標(biāo)簇和k個(gè)目標(biāo)簇的中心點(diǎn)。
進(jìn)一步地,所述用戶信息為用戶信息庫中存儲(chǔ)的,以所述用戶標(biāo)識(shí)為索引的用戶身份信息;
所述根據(jù)目標(biāo)簇中數(shù)據(jù)點(diǎn)的用戶標(biāo)識(shí),查找與所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶信息,包括:
根據(jù)目標(biāo)簇中數(shù)據(jù)點(diǎn)的用戶標(biāo)識(shí),在用戶信息庫中查找與所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶信息。
基于上述向量模型的建立方法,本發(fā)明實(shí)施例提供一種用戶行為模式分析方法,包括:
提取待識(shí)別用戶的刷卡數(shù)據(jù),根據(jù)所述待識(shí)別用戶的刷卡數(shù)據(jù)構(gòu)建帶有用戶標(biāo)識(shí)的待識(shí)別數(shù)據(jù)點(diǎn),所述待識(shí)別數(shù)據(jù)點(diǎn)為待識(shí)別用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量;
根據(jù)所述待識(shí)別數(shù)據(jù)點(diǎn)與標(biāo)記為不同用戶行為模式的k個(gè)向量模型之間的相似程度,確定出待識(shí)別用戶的行為模式,其中,所述k個(gè)向量模型是通過對(duì)用戶刷卡數(shù)據(jù)進(jìn)行迭代聚類所得到的k個(gè)目標(biāo)簇的中心點(diǎn),每一個(gè)目標(biāo)簇的中心點(diǎn)與用于標(biāo)記該目標(biāo)簇的用戶行為模式的標(biāo)簽信息關(guān)聯(lián)。
進(jìn)一步地,所述根據(jù)所述待識(shí)別數(shù)據(jù)點(diǎn)與標(biāo)記為不同用戶行為模式的k個(gè)向量模型之間的相似程度,確定出待識(shí)別用戶的行為模式,包括:
根據(jù)所述待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)向量模型之間的距離,得到所述待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)向量模型之間的相似程度;
將與待識(shí)別數(shù)據(jù)點(diǎn)相似度最高的向量模型所代表的用戶行為模式確定為待識(shí)別用戶的行為模式。
本發(fā)明實(shí)施例還提供一種用戶行為模式分析方法,包括:
從獲取的用戶刷卡數(shù)據(jù)中選取特征時(shí)段內(nèi)的用戶刷卡數(shù)據(jù)作為備選集合;
統(tǒng)計(jì)備選集合中任一用戶與其余用戶的共現(xiàn)系數(shù),所述共現(xiàn)系數(shù)是指在單個(gè)用戶單次刷卡前后的閾值時(shí)間段內(nèi),備選集合中其余用戶的刷卡次數(shù);
根據(jù)第N用戶與其余用戶的共現(xiàn)系數(shù),建立以所述第N用戶為索引,與 所述第N用戶的相似程度按照由高到低排序的用戶列表,N為大于1的正整數(shù);
從以已知用戶為索引的用戶列表中截取滿足相似程度閾值的用戶,將滿足相似程度閾值的用戶確定為與已知用戶的行為模式相似的用戶,其中,備選集合中包括所述已知用戶的刷卡數(shù)據(jù)。
本發(fā)明實(shí)施例提供一種用于分析用戶行為模式的模型的建立裝置,包括:
獲取單元,用于獲取用戶的刷卡數(shù)據(jù);
數(shù)據(jù)構(gòu)建單元,用于根據(jù)所述刷卡數(shù)據(jù)構(gòu)建N個(gè)帶有用戶標(biāo)識(shí)的數(shù)據(jù)點(diǎn),所述數(shù)據(jù)點(diǎn)為單個(gè)用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量,N為大于1的正整數(shù);
聚類單元,用于對(duì)所述N個(gè)數(shù)據(jù)點(diǎn)進(jìn)行迭代聚類,得到k個(gè)目標(biāo)簇,每個(gè)目標(biāo)簇中的數(shù)據(jù)點(diǎn)與該數(shù)據(jù)點(diǎn)歸屬的目標(biāo)簇的中心點(diǎn)的相異度不大于該數(shù)據(jù)點(diǎn)與其他目標(biāo)簇的中心點(diǎn)的相異度,k為大于1的正整數(shù);
標(biāo)簽確定單元,用于根據(jù)第m個(gè)目標(biāo)簇中數(shù)據(jù)點(diǎn)的用戶標(biāo)識(shí),查找與所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶信息,并根據(jù)所述用戶信息,確定用于標(biāo)記所述第m個(gè)目標(biāo)簇的用戶行為模式的標(biāo)簽信息,其中,m的取值位于1和k之間;
標(biāo)簽標(biāo)記單元,用于建立所述第m個(gè)目標(biāo)簇的中心點(diǎn)與所述標(biāo)簽信息的關(guān)聯(lián)關(guān)系;
向量模型確定單元,用于將所述第m個(gè)目標(biāo)簇的中心點(diǎn)確定為表征所述用戶行為模式的向量模型。
進(jìn)一步地,所述聚類單元具體用于執(zhí)行以下步驟:
步驟1:從所述N個(gè)數(shù)據(jù)點(diǎn)中隨機(jī)選擇k個(gè)數(shù)據(jù)點(diǎn)分別作為k個(gè)目標(biāo)簇的中心點(diǎn),k為設(shè)定的目標(biāo)簇的個(gè)數(shù);
步驟2:將除中心點(diǎn)之外的每個(gè)數(shù)據(jù)點(diǎn)劃分到離與該數(shù)據(jù)點(diǎn)相異度最小的中心點(diǎn)所在的簇;
步驟3:計(jì)算每個(gè)簇中各數(shù)據(jù)點(diǎn)的平均值,將每個(gè)簇中離平均值最近的數(shù)據(jù)點(diǎn)作為新的中心點(diǎn);
步驟4:重復(fù)步驟2和步驟3;若滿足迭代次數(shù)或者每個(gè)簇的中心點(diǎn)不再發(fā)生變化,則停止;滿足迭代次數(shù)或者每個(gè)簇的中心點(diǎn)不再發(fā)生變化時(shí),得到k個(gè)目標(biāo)簇和k個(gè)目標(biāo)簇的中心點(diǎn)。
進(jìn)一步地,所述用戶信息為用戶信息庫中存儲(chǔ)的,以所述用戶標(biāo)識(shí)為索引的用戶身份信息;
所述標(biāo)簽確定單元具體用于:
根據(jù)目標(biāo)簇中數(shù)據(jù)點(diǎn)的用戶標(biāo)識(shí),在用戶信息庫中查找與所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶信息。
本發(fā)明實(shí)施例提供一種用戶行為模式分析裝置,包括:
獲取單元,用于提取待識(shí)別用戶的刷卡數(shù)據(jù);
數(shù)據(jù)構(gòu)建單元,用于根據(jù)所述待識(shí)別用戶的刷卡數(shù)據(jù)構(gòu)建帶有用戶標(biāo)識(shí)的待識(shí)別數(shù)據(jù)點(diǎn),所述待識(shí)別數(shù)據(jù)點(diǎn)為待識(shí)別用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量;
分析單元,用于根據(jù)所述待識(shí)別數(shù)據(jù)點(diǎn)與標(biāo)記為不同用戶行為模式的k個(gè)向量模型之間的相似程度,確定出待識(shí)別用戶的行為模式,其中,所述k個(gè)向量模型是通過對(duì)用戶刷卡數(shù)據(jù)進(jìn)行迭代聚類所得到的k個(gè)目標(biāo)簇的中心點(diǎn),每一個(gè)目標(biāo)簇的中心點(diǎn)與用于標(biāo)記該目標(biāo)簇的用戶行為模式的標(biāo)簽信息關(guān)聯(lián)。
進(jìn)一步地,所述分析單元具體用于:
根據(jù)所述待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)向量模型之間的距離,得到所述待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)向量模型之間的相似程度;
將與待識(shí)別數(shù)據(jù)點(diǎn)相似度最高的向量模型所代表的用戶行為模式確定為待識(shí)別用戶的行為模式。
本發(fā)明實(shí)施例提供一種用戶行為模式分析裝置,包括:
獲取單元,用于從獲取的用戶刷卡數(shù)據(jù)中選取特征時(shí)段內(nèi)的用戶刷卡數(shù)據(jù)作為備選集合;
統(tǒng)計(jì)單元,用于統(tǒng)計(jì)備選集合中任一用戶與其余用戶的共現(xiàn)系數(shù),所述共 現(xiàn)系數(shù)是指在單個(gè)用戶單次刷卡前后的閾值時(shí)間段內(nèi),備選集合中其余用戶的刷卡次數(shù);
建立單元,用于根據(jù)第N用戶與其余用戶的共現(xiàn)系數(shù),建立以所述第N用戶為索引,與所述第N用戶的相似程度按照由高到低排序的用戶列表,N為大于1的正整數(shù);
確定單元,用于從以已知用戶為索引的用戶列表中截取滿足相似程度閾值的用戶,將滿足相似程度閾值的用戶確定為與已知用戶的行為模式相似的用戶,其中,備選集合中包括所述已知用戶的刷卡數(shù)據(jù)。
上述實(shí)施例中,將用戶刷卡數(shù)據(jù)通過多時(shí)段分布向量進(jìn)行表征,可以進(jìn)行相似度、聚類等分析計(jì)算;采用聚類方法對(duì)典型模式進(jìn)行自動(dòng)分類學(xué)習(xí),可以實(shí)現(xiàn)對(duì)大量的門禁刷卡數(shù)據(jù)進(jìn)行深入的分析,達(dá)到對(duì)用戶刷卡行為進(jìn)行建模以及分類的要求,通過對(duì)用戶的行為模式進(jìn)行抽象的建模表示,可以自動(dòng)學(xué)習(xí)到可能的用戶行為模式,刻畫出了用戶的活動(dòng)規(guī)律。本發(fā)明將聚類產(chǎn)生的類別與標(biāo)簽信息關(guān)聯(lián),實(shí)現(xiàn)根據(jù)用戶的刷卡記錄識(shí)別判斷出用戶的可能類型。比如,基于門禁數(shù)據(jù)可以有效的將人群行為進(jìn)行歸納分類,并與實(shí)際人群的背景相結(jié)合,可以將一般用戶(如正常上班)、特殊背景用戶(吸毒用戶)以及一些特殊職業(yè)的從業(yè)者(如早出晚歸者、店鋪經(jīng)營者、小區(qū)安保)區(qū)分開。基于從刷卡記錄中自動(dòng)聚類生成某些用戶類別相應(yīng)的向量模型,以模型或者某重點(diǎn)用戶去匹配查找其它用戶,可以識(shí)別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡要介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為發(fā)明實(shí)施例提供的一種用于分析用戶行為模式的向量模型的建立方法的流程圖;
圖2為本發(fā)明實(shí)施例提供的一種用戶行為模式分析方法的流程圖;
圖3為本發(fā)明實(shí)施例提供的另一種用戶行為模式分析方法的流程圖;
圖4為發(fā)明實(shí)施例提供的一種用于分析用戶行為模式的向量模型的建立裝置的結(jié)構(gòu)示意圖;
圖5為本發(fā)明實(shí)施例提供的一種用戶行為模式分析裝置的結(jié)構(gòu)示意圖;
圖6為本發(fā)明實(shí)施例提供的另一種用戶行為模式分析裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步地詳細(xì)描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部份實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其它實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
現(xiàn)有分析技術(shù)中僅依據(jù)簡單的每日刷卡次數(shù)或者特殊時(shí)段的刷卡次數(shù)對(duì)門禁刷卡行為的分析方法,存在關(guān)注點(diǎn)單一,分析能力有限,效果較差的問題。通過門禁的刷卡記錄對(duì)刷卡用戶的行為模式進(jìn)行建模分析,尚未有較好的實(shí)現(xiàn)方案。針對(duì)上述問題,本發(fā)明首次提出一種用戶行為模式分析方法,首次提出利用門禁電子數(shù)據(jù)對(duì)用戶的行為進(jìn)行建模分析。首先對(duì)用戶的刷卡數(shù)據(jù)進(jìn)行抽取,通過構(gòu)建多時(shí)段分布向量,完成用戶刷卡數(shù)據(jù)的形式化表示;通過大量的向量聚類來獲取代表性的用戶行為模式。具體來說,對(duì)刷卡的數(shù)據(jù)進(jìn)行聚類分析,將其歸類不同的類別,標(biāo)記不同類別的含義,通過對(duì)用戶的行為模式進(jìn)行抽象的建模表示,可以自動(dòng)學(xué)習(xí)到可能的用戶行為模式,刻畫出了用戶的活動(dòng)規(guī)律。對(duì)于某一人的刷卡數(shù)據(jù),可以與已經(jīng)總結(jié)的用戶行為模型相匹配搜索,識(shí)別出符合這一行為類型的用戶。
基于上述發(fā)明構(gòu)思,本發(fā)明實(shí)施例提供一種如圖1所示的用于分析用戶行 為模式的模型的建立方法,該方法包括:
步驟101,獲取用戶的刷卡數(shù)據(jù),根據(jù)刷卡數(shù)據(jù)構(gòu)建N個(gè)帶有用戶標(biāo)識(shí)的數(shù)據(jù)點(diǎn),數(shù)據(jù)點(diǎn)為單個(gè)用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量,N為大于1的正整數(shù);
步驟102,對(duì)N個(gè)數(shù)據(jù)點(diǎn)進(jìn)行迭代聚類,得到k個(gè)目標(biāo)簇,每個(gè)目標(biāo)簇中的數(shù)據(jù)點(diǎn)與該數(shù)據(jù)點(diǎn)歸屬的目標(biāo)簇的中心點(diǎn)的相異度不大于該數(shù)據(jù)點(diǎn)與其他目標(biāo)簇的中心點(diǎn)的相異度,其中,k為大于1的正整數(shù);
步驟103,針對(duì)每個(gè)目標(biāo)簇,執(zhí)行:根據(jù)第m個(gè)目標(biāo)簇中數(shù)據(jù)點(diǎn)的用戶標(biāo)識(shí),查找與所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶信息,并根據(jù)所述用戶信息,確定用于標(biāo)記所述第m個(gè)目標(biāo)簇的用戶行為模式的標(biāo)簽信息,其中,m的取值位于1和k之間;建立所述第m個(gè)目標(biāo)簇的中心點(diǎn)與所述標(biāo)簽信息的關(guān)聯(lián)關(guān)系;將所述第m個(gè)目標(biāo)簇的中心點(diǎn)確定為表征所述用戶行為模式的向量模型。
上述方法流程中,獲取的刷卡數(shù)據(jù)包括但不限于:時(shí)間標(biāo)識(shí),用戶身份標(biāo)識(shí)(比如身份證號(hào)),用戶出入狀態(tài)信息(比如在某個(gè)門禁處、進(jìn)出狀態(tài)),刷卡數(shù)據(jù)一般為日志記錄,例如提取到的所有用戶的刷卡數(shù)據(jù)用{log1,log2...logn}表示,n為用戶總數(shù)目。
電子門禁系統(tǒng)在社區(qū)管理中的安裝使用,不僅大大提升了警務(wù)管理的便利和有效性,同時(shí)也積累了海量的人員、房屋、以及刷卡的記錄數(shù)據(jù),為深入的數(shù)據(jù)挖掘提供了良好的數(shù)據(jù)基礎(chǔ)。上述方法流程的步驟101中,從電子門禁系統(tǒng)存儲(chǔ)的用戶刷卡記錄中提取用戶的刷卡數(shù)據(jù)。電子門禁系統(tǒng)包括但不限于基于IC卡的門禁系統(tǒng),基于其他開鎖信號(hào)(例如指紋,圖像,電話號(hào)碼、短信消息、微信消息或電子郵件)的門禁系統(tǒng)也是適用的。所構(gòu)建的每一個(gè)數(shù)據(jù)點(diǎn)是指單個(gè)用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量。將設(shè)定時(shí)間段按照單位時(shí)間長度可以分成多個(gè)時(shí)間段,因此,用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量可以用多維時(shí)段分布向量表示,其中每一維時(shí)段分布向量表征用戶在每個(gè)時(shí)段內(nèi)的刷卡頻率。根據(jù)一個(gè)用戶在設(shè)定時(shí)間段內(nèi)的刷卡數(shù)據(jù),構(gòu) 建用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量實(shí)現(xiàn)了將大量的門禁記錄進(jìn)行簡潔的表示,同時(shí)可以用于后續(xù)相似度、聚類的計(jì)算和表示。
下面結(jié)合一個(gè)具體的例子說明上述步驟101構(gòu)建數(shù)據(jù)點(diǎn)的過程。
假設(shè)設(shè)定時(shí)間段為一天,將一天按照小時(shí)分為24個(gè)時(shí)段,每個(gè)時(shí)段為1小時(shí),例如0點(diǎn)到1點(diǎn)為一個(gè)時(shí)段,1點(diǎn)到2點(diǎn)為一個(gè)時(shí)段,以此類推。則單個(gè)用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量可以表示為24維的時(shí)段分布向量,實(shí)現(xiàn)對(duì)每一用戶在24小時(shí)內(nèi)的刷卡頻次進(jìn)行分時(shí)段統(tǒng)計(jì)。如果一個(gè)用戶在1個(gè)小時(shí)內(nèi)的刷卡次數(shù)為N1,在這一天內(nèi)的刷卡次數(shù)是N2,則該用戶在這1個(gè)時(shí)段內(nèi)的刷卡頻率是N1/N2。每一維時(shí)段分布向量表征用戶在每個(gè)時(shí)段內(nèi)的刷卡頻率。例如,第0維d0是指用戶在0點(diǎn)至1點(diǎn)的刷卡比例,第1維d1是指用戶在1點(diǎn)至2點(diǎn)的刷卡比例,依存類推。24維的刷卡時(shí)段分布向量表示為:若用表示每一維時(shí)段分布向量,則:
其中,HourCount是指單一用戶在每個(gè)時(shí)段(1小時(shí))內(nèi)的刷卡次數(shù),是指單一用戶在設(shè)定時(shí)間段(一天24小時(shí)內(nèi))的刷卡總次數(shù)。通過這樣的方法,對(duì)每一個(gè)用戶的刷卡數(shù)據(jù)構(gòu)建成一個(gè)24維的時(shí)段分布向量,N個(gè)用戶的刷卡數(shù)據(jù),構(gòu)建出N個(gè)24維的時(shí)段分布向量,即N個(gè)數(shù)據(jù)點(diǎn),N為大于1的正整數(shù)。將用戶刷卡行為通過24小時(shí)的時(shí)段分布向量進(jìn)行表征,實(shí)現(xiàn)了將大量的門禁記錄進(jìn)行簡潔的表示,也可以用于后續(xù)相似度、聚類的計(jì)算和表示。設(shè)定時(shí)間段并不局限于1天,多時(shí)段并不局限于24個(gè)小時(shí),可以根據(jù)具體情況確定。例如,設(shè)定的時(shí)間段也可以是連續(xù)的幾個(gè)小時(shí),也可以是連續(xù)的幾天。
上述構(gòu)建的N個(gè)數(shù)據(jù)點(diǎn)是帶有用戶標(biāo)識(shí)的數(shù)據(jù)點(diǎn),用于后續(xù)步驟根據(jù)用戶標(biāo)識(shí)查找數(shù)據(jù)點(diǎn)的用戶信息,用戶標(biāo)識(shí)是能夠代表用戶個(gè)人信息的標(biāo)識(shí),如用來標(biāo)識(shí)用戶IC卡的卡號(hào),用戶的身份證號(hào),用戶電話號(hào)碼,用戶郵箱號(hào),用 戶微信號(hào)或者用戶的居住地址等信息的用戶標(biāo)識(shí)。
上述步驟102可通過K-means算法對(duì)N個(gè)數(shù)據(jù)點(diǎn)進(jìn)行聚類,得到k個(gè)目標(biāo)簇,k是指定的參數(shù),可能有些聚類的中心并沒有太好的代表性,因此,k值一般大于或等于所期望的目標(biāo)簇的個(gè)數(shù)。K-means聚類算法不僅對(duì)初始中心點(diǎn)敏感,同時(shí)簇個(gè)數(shù)的選擇也是影響聚類結(jié)果的重要因素,因此,可以根據(jù)實(shí)際情況確定合適的初始中心點(diǎn)和簇的個(gè)數(shù),以達(dá)到減少聚類過程的迭代次數(shù),提高聚類效果的目的。
采取K-means(無監(jiān)督)聚類方法對(duì)N個(gè)數(shù)據(jù)點(diǎn)進(jìn)行聚類,可以實(shí)現(xiàn)對(duì)N個(gè)數(shù)據(jù)點(diǎn)自動(dòng)歸類,供后續(xù)建模使用。具體的,步驟102采用K-means聚類算法對(duì)N個(gè)數(shù)據(jù)點(diǎn)進(jìn)行聚類,包括以下步驟:
步驟1:從N個(gè)數(shù)據(jù)點(diǎn)中隨機(jī)選擇k個(gè)數(shù)據(jù)點(diǎn)作為初始中心點(diǎn),k為設(shè)定的目標(biāo)簇的個(gè)數(shù);
步驟2:將除中心點(diǎn)之外的每個(gè)數(shù)據(jù)點(diǎn)劃分到與該數(shù)據(jù)點(diǎn)相異度最小的中心點(diǎn)所在的簇其中,劃分到同一個(gè)中心點(diǎn)的點(diǎn)集為一個(gè)簇;
步驟3:計(jì)算每個(gè)簇中點(diǎn)集的平均值,將每個(gè)簇中離平均值最近的數(shù)據(jù)點(diǎn)作為新的中心點(diǎn),進(jìn)而得到新的k個(gè)中心點(diǎn);
步驟4:重復(fù)步驟2和步驟3;若滿足迭代次數(shù)或者每個(gè)簇的中心點(diǎn)不再發(fā)生變化,則停止;滿足迭代次數(shù)或者每個(gè)簇的中心點(diǎn)不再發(fā)生變化時(shí),得到k個(gè)目標(biāo)簇和k個(gè)目標(biāo)簇的中心點(diǎn)。
上述方法流程的步驟103的用戶信息為用戶信息庫中存儲(chǔ)的,以用戶標(biāo)識(shí)為索引的用戶身份信息,可以是預(yù)先登記的信息,如用戶建卡時(shí)采集的個(gè)人信息,也可以是后期更新的用戶個(gè)人信息。用戶信息包括用戶IC卡的卡號(hào),用戶的身份證號(hào),用戶電話號(hào)碼,用戶郵箱號(hào),用戶微信號(hào)或者用戶的居住地址等信息,還可包括記錄的用戶的一些背景信息,例如年齡,職業(yè),病史,或者特殊背景信息。例如,用戶信息庫中可以包含一些用戶的違法犯罪或者特定職業(yè)的背景信息。因此,根據(jù)目標(biāo)簇中數(shù)據(jù)點(diǎn)的用戶標(biāo)識(shí),在用戶信息庫中可以 查找與用戶標(biāo)識(shí)對(duì)應(yīng)的用戶信息,并根據(jù)用戶信息,確定用于標(biāo)記目標(biāo)簇的用戶行為模式的標(biāo)簽信息。
具體的,通過步驟102得到k個(gè)目標(biāo)簇之后,以第m個(gè)目標(biāo)簇為例,根據(jù)第m個(gè)目標(biāo)簇中每一數(shù)據(jù)點(diǎn)的用戶標(biāo)識(shí),在用戶信息庫中查找每一個(gè)數(shù)據(jù)點(diǎn)對(duì)應(yīng)的用戶信息,查看所有用戶信息,分析這些用戶的行為特性,從所有用戶信息中提取出能夠代表大多數(shù)用戶的用戶行為模式的標(biāo)簽信息。比如在第2目標(biāo)簇的數(shù)據(jù)點(diǎn)對(duì)應(yīng)的所有用戶信息中,發(fā)現(xiàn)80%的的用戶都是有吸毒前科的人,則將“有吸毒前科用戶”作為用于標(biāo)記該目標(biāo)簇的用戶行為模式的標(biāo)簽信息,后續(xù)步驟將該目標(biāo)簇的中心點(diǎn)與該標(biāo)簽信息關(guān)聯(lián),將第2目標(biāo)簇的中心點(diǎn)確定為“有吸毒前科用戶”行為模式的向量模型,作為吸毒可疑用戶的行為代表向量。
通過步驟103,可以建立每一個(gè)目標(biāo)簇的中心點(diǎn)與對(duì)應(yīng)標(biāo)簽信息的關(guān)聯(lián)關(guān)系,可以將每一個(gè)目標(biāo)簇進(jìn)行類別標(biāo)記,使得每一個(gè)目標(biāo)簇標(biāo)記一種用戶行為模式,不同的目標(biāo)簇標(biāo)記了不同的用戶行為模式。將每一個(gè)目標(biāo)簇的中心點(diǎn)作為表征每一類用戶行為模式的向量模型。因此,根據(jù)各種用戶的刷卡記錄,在聚類的基礎(chǔ)上,可以通過類別內(nèi)包含的重點(diǎn)用戶或者嫌疑用戶的比例確定標(biāo)簽信息,對(duì)分類后的確定的模型進(jìn)行區(qū)分定義,解決了分類后無法得到類別標(biāo)簽的問題。
上述實(shí)施例給出了一種建立向量模型的方法,通過對(duì)用戶刷卡數(shù)據(jù)進(jìn)行聚類得到k個(gè)目標(biāo)簇,每一個(gè)目標(biāo)簇的中心點(diǎn)與用于標(biāo)記該目標(biāo)簇的用戶行為模式的標(biāo)簽信息關(guān)聯(lián),將每一個(gè)目標(biāo)簇的中心點(diǎn)確定為表征每一類用戶行為模式的向量模型,進(jìn)而得到k個(gè)向量模型?;谶@k個(gè)向量模型,以模型去匹配查找其它用戶,可以判斷出用戶的可能類型,以及識(shí)別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。比如,基于門禁數(shù)據(jù)可以有效的將人群行為進(jìn)行歸納分類,并與實(shí)際人群的背景相結(jié)合,可以將不同的類別標(biāo)記為一般用戶(如正常上班)、特殊背景用戶(吸毒用戶)以及一些特殊職業(yè)的 從業(yè)者(如早出晚歸者、店鋪經(jīng)營者、小區(qū)安保)。
基于上述實(shí)施例建立的代表不同用戶行為模式的向量模型,本發(fā)明實(shí)施例還提供了一種如圖2所示的一種用戶行為模式分析方法,該方法包括:
步驟201,提取待識(shí)別用戶的刷卡數(shù)據(jù),根據(jù)待識(shí)別用戶的刷卡數(shù)據(jù)構(gòu)建帶有用戶標(biāo)識(shí)的待識(shí)別數(shù)據(jù)點(diǎn),待識(shí)別數(shù)據(jù)點(diǎn)為待識(shí)別用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量;
步驟202,根據(jù)待識(shí)別數(shù)據(jù)點(diǎn)與標(biāo)記為不同用戶行為模式的k個(gè)向量模型之間的相似程度,確定出待識(shí)別用戶的行為模式,其中,k個(gè)向量模型是通過對(duì)用戶刷卡數(shù)據(jù)進(jìn)行聚類所得到的k個(gè)目標(biāo)簇的中心點(diǎn),每一個(gè)目標(biāo)簇的中心點(diǎn)與用于標(biāo)記該目標(biāo)簇的用戶行為模式的標(biāo)簽信息關(guān)聯(lián)。
步驟201根據(jù)待識(shí)別用戶的刷卡數(shù)據(jù)構(gòu)建待識(shí)別用戶的待識(shí)別數(shù)據(jù)點(diǎn)的方法參見上述實(shí)施例,此處不再累述。
上述方法流程的步驟202包括:根據(jù)待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)向量模型之間的距離,得到待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)向量模型之間的相似程度;將與待識(shí)別數(shù)據(jù)點(diǎn)相似度最高的向量模型所代表的用戶行為模式確定為待識(shí)別用戶的行為模式。
具體的,待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)向量模型之間的距離,通過計(jì)算待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)目標(biāo)簇的中心點(diǎn)之間的距離來確定。
例如,針對(duì)前面實(shí)例中所列舉的構(gòu)建的數(shù)據(jù)點(diǎn)用24維的時(shí)段分布向量表示,因此,確定的每一個(gè)目標(biāo)簇的中心點(diǎn)用24維的時(shí)段分布向量表示,為了計(jì)算待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)目標(biāo)簇的中心點(diǎn)之間的距離,待識(shí)別數(shù)據(jù)點(diǎn)也用24維的時(shí)段分布向量表示。所構(gòu)建的待識(shí)別數(shù)據(jù)點(diǎn)24維的時(shí)段分布向量為每一個(gè)目標(biāo)簇的中心點(diǎn)的時(shí)段分布向量為待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)目標(biāo)簇的中心點(diǎn)進(jìn)行距離的計(jì)算時(shí),距離的計(jì)算公式采用余弦距離Dis,其計(jì)算公式如下:
余弦距離Dis是0到1之間的數(shù)值,距離接近于1時(shí),待識(shí)別數(shù)據(jù)點(diǎn)與目標(biāo)簇的中心點(diǎn)越相似;距離接近0時(shí),待識(shí)別數(shù)據(jù)點(diǎn)與目標(biāo)簇的中心點(diǎn)越不相關(guān)。計(jì)算待識(shí)別數(shù)據(jù)點(diǎn)與各個(gè)中心點(diǎn)之間的距離之后,將待識(shí)別數(shù)據(jù)點(diǎn)與各個(gè)中心點(diǎn)之間的距離按照遞增或遞減進(jìn)行排序,將余弦距離Dis值最大的中心點(diǎn)作為與待識(shí)別數(shù)據(jù)點(diǎn)相似度最高的向量模型,當(dāng)然具體實(shí)施中也可以根據(jù)待識(shí)別數(shù)據(jù)點(diǎn)與各個(gè)中心點(diǎn)之間的距離,對(duì)每一個(gè)向量模型進(jìn)行打分,將打分最高的向量模型作為與待識(shí)別數(shù)據(jù)點(diǎn)相似度最高的向量模型。確定出與待識(shí)別數(shù)據(jù)點(diǎn)相似度最高的向量模型后,將與待識(shí)別數(shù)據(jù)點(diǎn)相似度最高的向量模型所標(biāo)記的用戶行為模式確定為待識(shí)別用戶的行為模式。
上述方法流程基于建立的向量模型進(jìn)行用戶行為模式分析,以模型去匹配查找其它用戶,可以判斷出用戶的可能類型,以及識(shí)別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。
上述實(shí)施例可以實(shí)現(xiàn)對(duì)大量的門禁刷卡數(shù)據(jù)進(jìn)行深入的分析,達(dá)到對(duì)用戶行為進(jìn)行建模以及分類的要求,通過對(duì)用戶的行為模式進(jìn)行抽象的建模表示,可以自動(dòng)學(xué)習(xí)到可能的用戶行為模式,刻畫出了用戶的活動(dòng)規(guī)律。本發(fā)明可以根據(jù)用戶的刷卡記錄識(shí)別判斷出用戶的可能類型,比如,基于門禁數(shù)據(jù)可以有效的將人群行為進(jìn)行歸納分類,并與實(shí)際人群的背景相結(jié)合,可以將一般用戶(如正常上班)、特殊背景用戶(吸毒用戶)以及一些特殊職業(yè)的從業(yè)者(如早出晚歸者、店鋪經(jīng)營者、小區(qū)安保)區(qū)分開;從刷卡記錄中自動(dòng)聚類生成某些用戶類別相應(yīng)的用戶行為模型,以模型去匹配查找其它用戶,可以識(shí)別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。
除了上述實(shí)施例提出的基于向量模型進(jìn)行用戶行為模式的分析之外,在已知用戶的某種行為模式(比如某類用戶的特有的行為是夜出晝歸)的情況下, 如何在海量的用戶刷卡數(shù)據(jù)中查找出與已知用戶的行為模式相近的用戶的信息,針對(duì)這種“對(duì)于某個(gè)具體的用戶,查找與其相似的用戶或者用戶群”的應(yīng)用情景,本發(fā)明實(shí)施例給出了一種“啟發(fā)式”的解決方案,可以快速進(jìn)行計(jì)算,獲取與已知用戶的行為模式相似的用戶及用戶信息。啟發(fā)式的策略是指:選取重點(diǎn)的時(shí)間段(如凌晨時(shí)間),對(duì)相關(guān)用戶的一段時(shí)間內(nèi)的共現(xiàn)情況進(jìn)行統(tǒng)計(jì),根據(jù)交集的數(shù)目進(jìn)行排序,選取比例或者絕對(duì)閾值進(jìn)行截?cái)嗟玫脚琶壳暗南嗨朴脩?。啟發(fā)式策略可以達(dá)到比較好的搜索結(jié)果。
基于上述發(fā)明構(gòu)思,本發(fā)明實(shí)施例提供一種如圖3所示的一種用戶行為模式分析方法,該方法包括:
步驟301,從獲取的用戶刷卡數(shù)據(jù)中選取特征時(shí)段內(nèi)的用戶刷卡數(shù)據(jù)作為備選集合S;
其中,可以從關(guān)注的重點(diǎn)時(shí)段入手,采用這種具有較強(qiáng)區(qū)分性的特征時(shí)段進(jìn)行近似性的判斷。例如,從獲取的用戶刷卡數(shù)據(jù)中,選取凌晨1點(diǎn)至3點(diǎn)的時(shí)間區(qū)間的用戶刷卡數(shù)據(jù)作為備選集合S。
步驟302,統(tǒng)計(jì)備選集合S中任一用戶與其余用戶的共現(xiàn)系數(shù),共現(xiàn)系數(shù)是指在單個(gè)用戶單次刷卡前后的閾值時(shí)間段內(nèi),備選集合S中其余用戶的刷卡次數(shù);
統(tǒng)計(jì)備選集合S中任一用戶與其余用戶的共現(xiàn)系數(shù)時(shí),可以對(duì)于集合S中的每個(gè)個(gè)體si,與集合中其余的個(gè)體一一比較,在個(gè)體si每次刷卡的前后某個(gè)時(shí)間段內(nèi),如果可以找到曾經(jīng)刷卡的個(gè)體sj,則得到共現(xiàn)對(duì)(si,sj)并計(jì)數(shù)保存,如果個(gè)體sj在這個(gè)時(shí)間段內(nèi)刷卡次數(shù)較多,則計(jì)數(shù)自增,計(jì)數(shù)可以保存為用戶關(guān)系三元組,即(用戶甲,用戶乙,共現(xiàn)系數(shù))。比如,用戶A與備選集合S中用戶B的共現(xiàn)系數(shù)用(A,B,x)表示,x為共現(xiàn)系數(shù),用戶A在凌晨1點(diǎn)30分刷卡,在A刷卡前的15分鐘和刷卡后的15分鐘內(nèi),備選集合S中用戶B刷卡2次,用戶C刷卡1次,用戶D沒有刷卡,用戶A和用戶B、C、D的共現(xiàn)系數(shù)可以表示為(A,B,2),(A,C,1)(A,D,0)。
步驟303,根據(jù)第N用戶與其余用戶的共現(xiàn)系數(shù),建立以第N用戶為索引,與第N用戶的相似程度按照由高到低排序的用戶列表,N為大于1的正整數(shù);
步驟304,從以已知用戶為索引的用戶列表中截取滿足相似程度閾值的用戶,將所述滿足相似程度閾值的用戶確定為與所述已知用戶的行為模式相似的用戶,其中,備選集合中包括所述已知用戶的刷卡數(shù)據(jù);
具體的,相似程度閾值是選取的表征相似程度高低的比例值或者閾值。從以已知用戶為索引的用戶列表中截取滿足相似程度閾值的用戶,將滿足相似程度閾值的用戶確定為與已知用戶的行為模式重點(diǎn)相似的用戶。。
基于以已知用戶為索引,與已知用戶的相似程度按照由高到低排序的的用戶列表,可以取比例(比如排名前1%的用戶)或者閾值(比如排名top前10名)來選擇出與已知行為模式的用戶重點(diǎn)相似的用戶或用戶群。
上述方法流程中,特征時(shí)間段可以是選取的重點(diǎn)時(shí)間段,利用關(guān)鍵區(qū)間的相似度判斷法選取重點(diǎn)的時(shí)間段(如凌晨時(shí)間),對(duì)相關(guān)用戶的一段時(shí)間內(nèi)的共現(xiàn)情況進(jìn)行統(tǒng)計(jì),根據(jù)交集的數(shù)目進(jìn)行排序,優(yōu)于上述實(shí)施例基于向量模型進(jìn)行全量的向量相似度的計(jì)算。而且可以實(shí)現(xiàn)以某重點(diǎn)用戶去匹配查找其它用戶,進(jìn)一步識(shí)別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。
針對(duì)上述方法流程,本發(fā)明實(shí)施例還提供一種用于分析用戶行為模式的向量模型的建立裝置和用戶行為模式分析裝置,這些裝置的具體內(nèi)容可以參照上述方法實(shí)施,在此不再贅述。
如圖4所示的一種用于分析用戶行為模式的模型的建立裝置,該裝置包括:
獲取單元401,用于獲取用戶的刷卡數(shù)據(jù);
數(shù)據(jù)構(gòu)建單元402,用于根據(jù)刷卡數(shù)據(jù)構(gòu)建N個(gè)帶有用戶標(biāo)識(shí)的數(shù)據(jù)點(diǎn),數(shù)據(jù)點(diǎn)為單個(gè)用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量,N為大于1的正整數(shù);
聚類單元403,用于對(duì)N個(gè)數(shù)據(jù)點(diǎn)進(jìn)行聚類,得到k個(gè)目標(biāo)簇,使得任一 目標(biāo)簇中數(shù)據(jù)點(diǎn)的平均值不再發(fā)生變化,k為大于1的正整數(shù);
標(biāo)簽確定單元404,用于根據(jù)第m個(gè)目標(biāo)簇中數(shù)據(jù)點(diǎn)的用戶標(biāo)識(shí),查找與所述用戶標(biāo)識(shí)對(duì)應(yīng)的用戶信息,并根據(jù)所述用戶信息,確定用于標(biāo)記所述第m個(gè)目標(biāo)簇的用戶行為模式的標(biāo)簽信息,其中,m的取值位于1和k之間;
標(biāo)簽標(biāo)記單元405,用于建立所述第m個(gè)目標(biāo)簇的中心點(diǎn)與所述標(biāo)簽信息的關(guān)聯(lián)關(guān)系;
向量模型確定單元406,用于將所述第m個(gè)目標(biāo)簇的中心點(diǎn)確定為表征所述用戶行為模式的向量模型。
進(jìn)一步地,聚類單元403具體用于執(zhí)行以下步驟:
步驟1:從N個(gè)數(shù)據(jù)點(diǎn)中隨機(jī)選擇k個(gè)數(shù)據(jù)點(diǎn)作為初始中心點(diǎn),k為設(shè)定的目標(biāo)簇的個(gè)數(shù);
步驟2:將除中心點(diǎn)之外的每個(gè)數(shù)據(jù)點(diǎn)劃分到與該數(shù)據(jù)點(diǎn)相異度最小的中心點(diǎn)所在的簇,其中,劃分到一個(gè)中心點(diǎn)的點(diǎn)集為一個(gè)簇;
步驟3:計(jì)算每個(gè)簇中點(diǎn)集的平均值,將每個(gè)簇中離平均值最近的數(shù)據(jù)點(diǎn)作為新的中心點(diǎn);
步驟4:重復(fù)步驟2和步驟3;若滿足迭代次數(shù)或者每個(gè)簇的中心點(diǎn)不再發(fā)生變化,則停止;滿足迭代次數(shù)或者每個(gè)簇的中心點(diǎn)不再發(fā)生變化時(shí),得到k個(gè)目標(biāo)簇和k個(gè)目標(biāo)簇的中心點(diǎn)。
進(jìn)一步地,用戶信息為用戶信息庫中存儲(chǔ)的,以用戶標(biāo)識(shí)為索引的用戶身份信息;
標(biāo)簽確定單元404具體用于:
根據(jù)目標(biāo)簇中數(shù)據(jù)點(diǎn)的用戶標(biāo)識(shí),在用戶信息庫中查找與用戶標(biāo)識(shí)對(duì)應(yīng)的用戶信息。
如圖5所示的一種用戶行為模式分析裝置,該裝置包括:
獲取單元501,用于提取待識(shí)別用戶的刷卡數(shù)據(jù);
數(shù)據(jù)構(gòu)建單元502,用于根據(jù)待識(shí)別用戶的刷卡數(shù)據(jù)構(gòu)建帶有用戶標(biāo)識(shí)的 待識(shí)別數(shù)據(jù)點(diǎn),待識(shí)別數(shù)據(jù)點(diǎn)為待識(shí)別用戶在設(shè)定時(shí)間段內(nèi)刷卡頻率的多時(shí)段分布向量;
分析單元503,用于根據(jù)待識(shí)別數(shù)據(jù)點(diǎn)與標(biāo)記為不同用戶行為模式的k個(gè)向量模型之間的相似程度,確定出待識(shí)別用戶的行為模式,其中,k個(gè)向量模型是通過對(duì)用戶刷卡數(shù)據(jù)進(jìn)行聚類所得到的k個(gè)目標(biāo)簇的中心點(diǎn),每一個(gè)目標(biāo)簇的中心點(diǎn)與用于標(biāo)記該目標(biāo)簇的用戶行為模式的標(biāo)簽信息關(guān)聯(lián)。
進(jìn)一步地,分析單元503具體用于:
根據(jù)待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)向量模型之間的距離,得到待識(shí)別數(shù)據(jù)點(diǎn)與每一個(gè)向量模型之間的相似程度;
將與待識(shí)別數(shù)據(jù)點(diǎn)相似度最高的向量模型所代表的用戶行為模式確定為待識(shí)別用戶的行為模式。
如圖6所示的一種用戶行為模式分析裝置,包括:
獲取單元601,用于從獲取的用戶刷卡數(shù)據(jù)中選取特征時(shí)段內(nèi)的用戶刷卡數(shù)據(jù)作為備選集合;
統(tǒng)計(jì)單元602,用于統(tǒng)計(jì)備選集合中任一用戶與其余用戶的共現(xiàn)系數(shù),共現(xiàn)系數(shù)是指在單個(gè)用戶單次刷卡前后的閾值時(shí)間段內(nèi),備選集合中其余用戶的刷卡次數(shù);
建立單元603,用于根據(jù)第N用戶與其余用戶的共現(xiàn)系數(shù),建立以第N用戶為索引,與第N用戶的相似程度按照由高到低排序的用戶列表,N為大于1的正整數(shù);
確定單元604,用于從以已知用戶為索引的用戶列表中截取滿足相似程度閾值的用戶,將所述滿足相似程度閾值的用戶確定為與所述已知用戶的行為模式相似的用戶,其中,備選集合中包括所述已知用戶的刷卡數(shù)據(jù)。
上述實(shí)施例中,將用戶刷卡數(shù)據(jù)通過多時(shí)段分布向量進(jìn)行表征,可以進(jìn)行相似度、聚類等分析計(jì)算;采用聚類方法對(duì)典型模式進(jìn)行自動(dòng)分類學(xué)習(xí),可以實(shí)現(xiàn)對(duì)大量的門禁刷卡數(shù)據(jù)進(jìn)行深入的分析,達(dá)到對(duì)用戶刷卡行為進(jìn)行建模以 及分類的要求,通過對(duì)用戶的行為模式進(jìn)行抽象的建模表示,可以自動(dòng)學(xué)習(xí)到可能的用戶行為模式,刻畫出了用戶的活動(dòng)規(guī)律。本發(fā)明將聚類產(chǎn)生的類別與標(biāo)簽信息關(guān)聯(lián),實(shí)現(xiàn)根據(jù)用戶的刷卡記錄識(shí)別判斷出用戶的可能類型。比如,基于門禁數(shù)據(jù)可以有效的將人群行為進(jìn)行歸納分類,并與實(shí)際人群的背景相結(jié)合,可以將一般用戶(如正常上班)、特殊背景用戶(吸毒用戶)以及一些特殊職業(yè)的從業(yè)者(如早出晚歸者、店鋪經(jīng)營者、小區(qū)安保)區(qū)分開?;趶乃⒖ㄓ涗浿凶詣?dòng)聚類生成某些用戶類別相應(yīng)的向量模型,以模型或者某重點(diǎn)用戶去匹配查找其它用戶,可以識(shí)別出來有可能同樣具備此行為的一些可疑用戶,具有足夠的甄別能力。
本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。
這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。
這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。
盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要 求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。
顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。