基于時空模式的用戶行為相似性挖掘方法
【專利摘要】本發(fā)明涉及用戶行為軌跡挖掘【技術(shù)領(lǐng)域】,具體涉及一種基于時空模式的用戶行為相似性挖掘方法。本發(fā)明針對LBSN用戶的簽到記錄不連續(xù)、碎片化嚴(yán)重的狀況,發(fā)明了簽到點集的時空模式匹配方法進行數(shù)據(jù)的用戶行為挖掘,將簽到點分為秩次子集與孤立點兩類,對秩次子集內(nèi)的時間順序信息給予保留,并在相似性比較時與位置信息進行有效融合。發(fā)明了一種新的時空Hausdorff距離匹配方法進行有效的時空模式相似判別,無需進行簽到點間的行為軌跡恢復(fù),同時有效的利用了簽到時間順序信息,因而能比較好的判斷用戶簽到行為的相似性。
【專利說明】基于時空模式的用戶行為相似性挖掘方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及用戶行為軌跡挖掘【技術(shù)領(lǐng)域】,具體涉及一種基于時空模式的用戶行為相似性挖掘方法。
【背景技術(shù)】
[0002]在LBSN (基于位置的社交網(wǎng)絡(luò))中每天都會產(chǎn)生大量的簽到數(shù)據(jù)。這些數(shù)據(jù)包括時間、位置、POI屬性等信息,反映了用戶真實的生活軌跡與興趣傾向。對這些基于社交網(wǎng)絡(luò)的簽到數(shù)據(jù)進行挖掘,尋找行為興趣相似的人群可以定量和估算人們的社會活動特征,進而發(fā)掘人們的行為規(guī)律,使人們能夠更深層地認(rèn)知智能化城市中社群的生活軌跡、社交行為、環(huán)境變動等,不僅能夠滿足LBSN用戶越來越強烈的個性化、社會化需求,為社交網(wǎng)站的發(fā)展提供支持,而且能夠為商務(wù)智能、個性化推薦提供支持。
[0003]由于LBSN用戶的簽到記錄是不連貫和碎片化的,時間間隔可能為幾分鐘、幾小時甚至幾天幾個月,在這樣復(fù)雜的簽到率下難以還原出用戶的真實行動軌跡。傳統(tǒng)的方法采用網(wǎng)格或交通路網(wǎng)匹配的方式試圖還原用戶簽到點之間的軌跡(基于路網(wǎng)的LBSN用戶移動軌跡聚類挖掘方法[J].計算機應(yīng)用研究,2013,30(8):2410-2414.等),但這種做法沒考慮到簽到點時間間隔較長的情況下會不可避免的產(chǎn)生軌跡估算錯誤。也有方法利用簽到點的POI屬性構(gòu)建語義主題,通過主題相似性判斷用戶行為相似性(專利201310336664.0),但是這類方法也要求用戶簽到點時間間隔不能隔的太遠(yuǎn),否則隔幾個月的簽到本身不具有什么主題意義聯(lián)系。如果不恢復(fù)用戶軌跡,直接用點集空間關(guān)系的相似性進行用戶行為相似性匹配(專利201210390018.8)的方法忽略了簽到點的先后時間關(guān)系,時間間隔較近的簽到點順序隱含了用戶的行為順序與興趣優(yōu)先信息。本發(fā)明用簽到點集的時空模式匹配方法進行數(shù)據(jù)的用戶行為挖掘,將同一天內(nèi)的簽到時間順序與簽到點位置數(shù)據(jù)進行融合,發(fā)明了一種新的時空HausdorfT距離匹配方法進行有效的時空模式相似判別,無需進行簽到點間的行為軌跡恢復(fù),同時有效的利用了簽到時間順序信息,因此能有效的比較用戶簽到行為的相似性。
【發(fā)明內(nèi)容】
[0004]解決上述技術(shù)問題,本發(fā)明提供了一種基于時空模式的用戶行為相似性挖掘方法,利用對用戶簽到點進行篩選劃分為孤立點與孤立點、孤立點與秩次子集、秩次子集與秩次子集,再采用典型hausdorff距離方法計算的過程中,融合了空間位置與時間秩次信息,形成了基于LBSN用戶簽到數(shù)據(jù)的時空信息來判斷用戶相似性的方法。
[0005]為了達到上述目的,本發(fā)明所采用的技術(shù)方案是,一種基于時空模式的用戶行為相似性挖掘方法,包括以下步驟:
[0006]步驟1:時空數(shù)據(jù)融合步驟,獲取單個用戶的所有簽到數(shù)據(jù),所述簽到數(shù)據(jù)包括簽到時間、簽到點位置信息,將該簽到點按簽到時間先后順序排列,并將該該簽到點分成孤立點與秩次子集兩類,孤立點只保留位置信息,秩次子集中包含若干簽到點,并將簽到時間轉(zhuǎn)換為秩次信息,秩次子集中保留簽到點位置和秩次信息。
[0007]步驟2:時空模式匹配步驟:利用時空HausdorfT距離匹配方法,基于秩次信息與簽到點位置信息計算出的用戶行為相似性,比較孤立點與孤立點之間的相似性距離,秩次子集合與秩次子集合之間的相似性距離,以及孤立點與秩次子集合之間的相似性距離,再根據(jù)該相似性距離,得到融合空間與時間兩種信息的用戶簽到行為相似性度量值。
[0008]進一步的,所述步驟I還包括一下步驟:
[0009]步驟11:將每個用戶的所有原始簽到點的簽到數(shù)據(jù)依據(jù)時間順序排列為(P1, P2, P3,, P?},每個簽到點的簽到數(shù)據(jù)為 Pi= {x, y, t} (i=l, 2,...,M),其中(X,y)表示簽到點Pi的經(jīng)緯度位置信息,t表示簽到點Pi的簽到時間,
[0010]步驟12:構(gòu)成秩次子集,獲取每個用戶一天內(nèi)的簽到點PdQ成單獨的子集合Qj= {P j,P j+1,P j+2,...,P j+N} (N≤M),并對該單獨的子集合Qj內(nèi)的簽到點賦予秩次權(quán)值,即內(nèi)按時間順序第一個簽到點秩次為rank=l,第二個簽到點秩次為rank=2,以此類推,獲得秩次后用秩次rank信息替換時間信息t,得到新的秩次子集合Q,j= {P,j, P,j+1,...P,J+N},P,j= {x, y, rank},
[0011]步驟13:構(gòu)成孤立點集合,所述孤立點的劃分方法為:一用戶I天以內(nèi)(從當(dāng)天O:
00:00到23:59:59)只有一個簽到點,則該簽到點劃分為孤立點Pi,由于該孤立點Pi不構(gòu)成成秩次子集,則去除時間信息,只保留位置信息,形成孤立簽到點Pi=U, y)。
[0012]進一步的,所述步驟2包括:
[0013]步驟21:計算兩個獨立點Pl與P2之間的相似性距離Ds,直接取地理直線距離:
[0014]Ds=Cl(PljP2) (I)
[0015]步驟22:獨立點Pi與秩次子集Q,j={P,j, P,j+1,...P,j+N}之間的相似性距離Db計算公式如下:
[0016]
【權(quán)利要求】
1.一種基于時空模式的用戶行為相似性挖掘方法,其特征在于:包括以下步驟: 步驟1:時空數(shù)據(jù)融合步驟,獲取單個用戶的所有簽到數(shù)據(jù),所述簽到數(shù)據(jù)包括簽到時間、簽到點位置信息,將該簽到點按簽到時間先后順序排列,并將該該簽到點分成孤立點與秩次子集兩類,孤立點只保留位置信息,秩次子集中包含若干簽到點,并將簽到時間轉(zhuǎn)換為秩次信息,秩次子集中保留簽到點位置和秩次信息; 步驟2:時空模式匹配步驟:利用時空HausdorfT距離匹配方法,基于秩次信息與簽到點位置信息計算出的用戶行為相似性,比較孤立點與孤立點之間的相似性距離,秩次子集合與秩次子集合之間的相似性距離,以及孤立點與秩次子集合之間的相似性距離,再根據(jù)該相似性距離,得到融合空間與時間兩種信息的用戶簽到行為相似性度量值。
2.根據(jù)權(quán)利要求1所述的一種基于時空模式的用戶行為相似性挖掘方法,其特征在于:所述步驟I還包括一下步驟: 步驟11:將每個用戶的所有原始簽到點的簽到數(shù)據(jù)依據(jù)時間順序排列為(P1, P2, P3,, P1I,每個簽到點的簽到數(shù)據(jù)為 Pi= {x, y, t} (i=l, 2,...,M),其中(x,y)表示簽到點Pi的經(jīng)緯度位置信息,t表示簽到點Pi的簽到時間, 步驟12:構(gòu)成秩次子集,獲取每個用戶一天的簽到點Pi構(gòu)成單獨的子集合Qj= {Pj,Pj+1,Pj+2,...,Pj+N} (N≤M),并對該單獨的子集合Qj內(nèi)的簽到點賦予秩次權(quán)值,即內(nèi)按時間順序第一個簽到點秩次為rank=l,第二個簽到點秩次為rank=2,以此類推,獲得秩次后用秩次rank信息替換時間信息t,得到新的秩次子集合Q,j= {P,j, P,j+1,...P,J+N},P,j= {x, y, rank}, 步驟13:構(gòu)成孤立點集合,所述孤立點的劃分方法為:一用戶I天以內(nèi)(從當(dāng)天O:00:00到23:59:59)只有一個簽到點,則該簽到點劃分為孤立點Pi,由于該孤立點Pi不構(gòu)成成秩次子集,則去除時間信息,只保留位置信息,形成孤立簽到點Pi=U, y)。
3.根據(jù)權(quán)利要求1所述的一種基于時空模式的用戶行為相似性挖掘方法,其特征在于:所述步驟2具體包括: 步驟21:計算兩個獨立點Pl與P2之間的相似性距離Ds,直接取地理直線距離: Ds=(KP1jP2) (I) 步驟22:獨立點Pi與秩次子集Q,j={P,j, P,j+1,...P,j+N}之間的相似性距離Db計算公式如下:
【文檔編號】G06F17/30GK103942310SQ201410159039
【公開日】2014年7月23日 申請日期:2014年4月18日 優(yōu)先權(quán)日:2014年4月18日
【發(fā)明者】涂巖愷, 黃家乾, 時宜, 陳典全 申請人:廈門雅迅網(wǎng)絡(luò)股份有限公司