亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于位置服務(wù)的人群分類方法及裝置與流程

文檔序號:12132800閱讀:259來源:國知局
基于位置服務(wù)的人群分類方法及裝置與流程

本發(fā)明涉及信息處理技術(shù)領(lǐng)域,尤其涉及一種基于位置服務(wù)的人群分類方法及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)的發(fā)展,人們的生活越來越多地與互聯(lián)網(wǎng)緊密聯(lián)系在一起。隨著人們?nèi)粘I罟?jié)奏越來越快,用戶日益希望能夠通過互聯(lián)網(wǎng)快速找到自己需要的產(chǎn)品或服務(wù),以達(dá)到節(jié)省時間的效果。相應(yīng)地,產(chǎn)品或服務(wù)提供者也希望通過互聯(lián)網(wǎng)快速找到需要其提供的產(chǎn)品或服務(wù)的目標(biāo)用戶,并向目標(biāo)用戶推薦其產(chǎn)品或服務(wù),以促使產(chǎn)品或服務(wù)提供者與目標(biāo)用戶之間達(dá)到相應(yīng)的交易。在銀行、保險等金融機(jī)構(gòu)給客戶提供風(fēng)險類金融產(chǎn)品時,目標(biāo)用戶的設(shè)置,不僅可使金融機(jī)構(gòu)對目標(biāo)用戶進(jìn)行業(yè)務(wù)推廣或廣告宣傳,還在一定程度上對風(fēng)險類金融產(chǎn)品的風(fēng)險控制管理。

現(xiàn)有相似用戶的確定過程如下:通過互聯(lián)網(wǎng)獲取用戶基本信息(包括年齡、性別、學(xué)歷和職業(yè)等)和互聯(lián)網(wǎng)社交信息(如微博、微信和QQ等),并對用戶基本信息和互聯(lián)網(wǎng)社交信息進(jìn)行分類,以將所有用戶劃分成若干分類人群(如基于學(xué)歷、職業(yè)、消費(fèi)能力等),通過對目標(biāo)用戶的用戶基本信息和互聯(lián)網(wǎng)社交信息進(jìn)行分析處理,確定其所屬的分類人群,以確定與目標(biāo)用戶相對應(yīng)的相似用戶,基于相似用戶的喜好給目標(biāo)用戶推薦產(chǎn)品或服務(wù),以提高目標(biāo)用戶對推薦產(chǎn)品或服務(wù)的接受率?,F(xiàn)有相似用戶的確定過程,不僅存在信息采集數(shù)量大的問題,還存在分類結(jié)果準(zhǔn)確性較低和主觀性較強(qiáng)的問題,導(dǎo)致每一分類人群的相似用戶之間的聯(lián)系性較弱,使得產(chǎn)品或服務(wù)提供者向同一分類人群下的相似用戶進(jìn)行業(yè)務(wù)推廣或廣告宣傳時,無法得到相似用戶的響應(yīng)。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明針對現(xiàn)有相似用戶確定過程中存在的問題,提供一種基于位置服務(wù)的人群分類方法及裝置。

本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:一種基于位置服務(wù)的人群分類方法,包括:

基于位置服務(wù)獲取用戶的地理位置信息,所述地理位置信息包括與時間相關(guān)聯(lián)的POI信息;

對任一用戶在預(yù)設(shè)期間內(nèi)所有的地理位置信息進(jìn)行聚類分析,獲取生活習(xí)慣軌跡向量表;

利用所述生活習(xí)慣軌跡向量表構(gòu)建原始用戶軌跡矩陣;

采用奇異值分解算法對所述原始用戶軌跡矩陣進(jìn)行矩陣分解,獲取重構(gòu)用戶軌跡矩陣;

基于所述重構(gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶。

優(yōu)選地,所述對任一用戶在預(yù)設(shè)期間內(nèi)所有的地理位置信息進(jìn)行聚類分析,獲取生活習(xí)慣軌跡向量表,包括:

采用DBSCAN算法對任一用戶在預(yù)設(shè)期間內(nèi)所有POI信息進(jìn)行聚類,以獲取若干子集群;

采用K-MEANS算法對每一所述子集群進(jìn)行迭代聚合,獲取每一所述子集群的質(zhì)心POI信息,并將所述質(zhì)心POI信息作為軌跡點(diǎn)輸出;

依時間順序?qū)㈩A(yù)設(shè)期間內(nèi)所有軌跡點(diǎn)排序,以獲取所述生活習(xí)慣軌跡向量表。

優(yōu)選地,所述利用所述生活習(xí)慣軌跡向量表構(gòu)建原始用戶軌跡矩陣,包括:

對n個用戶的生活習(xí)慣軌跡向量表中所有軌跡點(diǎn)進(jìn)行去重處理,獲取m個去重軌跡點(diǎn);

基于每一用戶的生活習(xí)慣軌跡向量表中各去重軌跡點(diǎn)出現(xiàn)的次數(shù)或頻率,以形成m*1階原始向量;

采用n個用戶對應(yīng)的m*1階原始向量,構(gòu)建m*n階原始用戶軌跡矩陣。

優(yōu)選地,所述采用奇異值分解算法對所述原始用戶軌跡矩陣進(jìn)行矩陣分解,獲取重構(gòu)用戶軌跡矩陣,包括:

采用奇異值分解算法對m*n階原始用戶軌跡矩陣進(jìn)行矩陣分解,以獲取m*m階左奇異向量矩陣、n*n階右奇異向量矩陣的轉(zhuǎn)置和m*n階奇異值對角矩陣;

選取所述奇異值對角矩陣的主對角線上前k個奇異值,對所述左奇異向量矩陣、所述右奇異向量矩陣的轉(zhuǎn)置和所述奇異值對角矩陣進(jìn)行降維處理;以獲取m*k階重構(gòu)左奇異向量矩陣、n*k階右奇異向量矩陣的轉(zhuǎn)置和k*k階奇異值對角矩陣,以形成重構(gòu)用戶軌跡矩陣。

優(yōu)選地,所述基于所述重構(gòu)用戶軌跡矩陣確定目標(biāo)用戶的社交相似用戶,包括:

獲取所述目標(biāo)用戶的m*1階目標(biāo)向量;

采用余弦相似度算法計(jì)算所述目標(biāo)向量與所述原始向量的相似度;

將相似度最高的所述原始向量對應(yīng)的用戶確定為目標(biāo)用戶的社交相似用戶。

本發(fā)明還提供一種基于位置服務(wù)的人群分類裝置,包括:

位置信息獲取模塊,用于基于位置服務(wù)獲取用戶的地理位置信息,所述地理位置信息包括與時間相關(guān)聯(lián)的POI信息;

軌跡向量表獲取模塊,用于對任一用戶在預(yù)設(shè)期間內(nèi)所有的地理位置信息進(jìn)行聚類分析,獲取生活習(xí)慣軌跡向量表;

軌跡矩陣構(gòu)建模塊,用于利用所述生活習(xí)慣軌跡向量表構(gòu)建原始用戶軌跡矩陣;

矩陣分解模塊,用于采用奇異值分解算法對所述原始用戶軌跡矩陣進(jìn)行矩陣分解,獲取重構(gòu)用戶軌跡矩陣;

相似用戶確定模塊,用于基于所述重構(gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶。

優(yōu)選地,所述軌跡向量表獲取模塊包括:

子集群獲取單元,用于采用DBSCAN算法對任一用戶在預(yù)設(shè)期間內(nèi)所有POI信息進(jìn)行聚類,以獲取若干子集群;

軌跡點(diǎn)獲取單元,用于采用K-MEANS算法對每一所述子集群進(jìn)行迭代聚合,獲取每一所述子集群的質(zhì)心POI信息,并將所述質(zhì)心POI信息作為軌跡點(diǎn)輸出;

向量表獲取單元,用于依時間順序?qū)㈩A(yù)設(shè)期間內(nèi)所有軌跡點(diǎn)排序,以獲取所述生活習(xí)慣軌跡向量表。

優(yōu)選地,所述軌跡矩陣構(gòu)建模塊包括:

去重軌跡點(diǎn)獲取單元,用于對n個用戶的生活習(xí)慣軌跡向量表中所有軌跡點(diǎn)進(jìn)行去重處理,獲取m個去重軌跡點(diǎn);

原始向量獲取單元,用于基于每一用戶的生活習(xí)慣軌跡向量表中各去重軌跡點(diǎn)出現(xiàn)的次數(shù)或頻率,以形成m*1階原始向量;

原始矩陣構(gòu)建模塊,用于采用n個用戶對應(yīng)的m*1階原始向量,構(gòu)建m*n階原始用戶軌跡矩陣。

優(yōu)選地,所述矩陣分解模塊包括:

矩陣分解單元,用于采用奇異值分解算法對m*n階原始用戶軌跡矩陣進(jìn)行矩陣分解,以獲取m*m階左奇異向量矩陣、n*n階右奇異向量矩陣的轉(zhuǎn)置和m*n階奇異值對角矩陣;

矩陣降維單元,用于選取所述奇異值對角矩陣的主對角線上前k個奇異值,對所述左奇異向量矩陣、所述右奇異向量矩陣的轉(zhuǎn)置和所述奇異值對角矩陣進(jìn)行降維處理;以獲取m*k階重構(gòu)左奇異向量矩陣、n*k階右奇異向量矩陣的轉(zhuǎn)置和k*k階奇異值對角矩陣,以形成重構(gòu)用戶軌跡矩陣。

優(yōu)選地,所述相似用戶確定模塊包括:

目標(biāo)向量獲取單元,用于獲取所述目標(biāo)用戶的m*1階目標(biāo)向量;

相似度計(jì)算單元,用于采用余弦相似度算法計(jì)算所述目標(biāo)向量與所述原始向量的相似度;

相似用戶確定單元,用于將相似度最高的所述原始向量對應(yīng)的用戶確定為目標(biāo)用戶的社交相似用戶。

本發(fā)明與現(xiàn)有技術(shù)相比具有如下優(yōu)點(diǎn):本發(fā)明所提供的基于位置服務(wù)的人群分類方法及裝置中,通過對用戶在預(yù)設(shè)期間內(nèi)獲取的地理位置信息進(jìn)行聚類分析,獲取生活習(xí)慣軌跡向量表,由于地理位置信息具有較強(qiáng)的客觀性和可靠性,使得形成的生活習(xí)慣軌跡向量表也具有較強(qiáng)的客觀性和可靠性。再基于生活習(xí)慣軌跡向量表構(gòu)建原始用戶軌跡矩陣并采用奇異值分解算法進(jìn)行矩陣,獲取重構(gòu)用戶軌跡矩陣,可基于該重構(gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶?;谥貥?gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶的過程,操作簡單方便,無需采集大量數(shù)據(jù),且獲取的社交相似用戶與目標(biāo)用戶的生活習(xí)慣具有較高的相似性和客觀性,可向目標(biāo)用戶推送與社交相似用戶相同的產(chǎn)品或服務(wù),以提高目標(biāo)用戶對推送產(chǎn)品或服務(wù)的接受度,有利進(jìn)行業(yè)務(wù)推廣、廣告宣傳等。

附圖說明

下面將結(jié)合附圖及實(shí)施例對本發(fā)明作進(jìn)一步說明,附圖中:

圖1是本發(fā)明實(shí)施例1中基于位置服務(wù)的人群分類方法的一流程圖。

圖2是本發(fā)明實(shí)施例2中基于位置服務(wù)的人群分類裝置的一原圖框圖。

具體實(shí)施方式

為了對本發(fā)明的技術(shù)特征、目的和效果有更加清楚的理解,現(xiàn)對照附圖詳細(xì)說明本發(fā)明的具體實(shí)施方式。

實(shí)施例1

圖1示出本實(shí)施例中基于位置服務(wù)的人群分類方法的流程圖。該基于位置服務(wù)的人群分類方法由銀行、保險等金融機(jī)構(gòu)中的終端執(zhí)行,用于確定與目標(biāo)用戶相對應(yīng)的社交相似用戶,進(jìn)行人群分類,以實(shí)現(xiàn)對社交相似用戶進(jìn)行業(yè)務(wù)推廣或廣告宣傳,也可以對社交相似用戶購買風(fēng)險類金融產(chǎn)品進(jìn)行風(fēng)險管控。如圖1所示,該基于位置服務(wù)的人群分類方法包括如下步驟:

S10:基于位置服務(wù)獲取用戶的地理位置信息,地理位置信息包括與時間相關(guān)聯(lián)的POI信息。

本實(shí)施例中,目標(biāo)用戶是所有用戶中的一個。以任一用戶一天的地理位置信息為例,該地理位置信息中包括0:00—24:00的POI信息,每一POI信息用于指示電子地圖中的一點(diǎn),包括POI點(diǎn)名稱、經(jīng)度和緯度等信息,基于用戶的地理位置信息,可了解用戶每天經(jīng)過的家庭住址、辦公場所、購物場所、娛樂場所、健身場所等信息??梢岳斫獾?,基于位置服務(wù)獲取用戶的地理位置信息,具有較強(qiáng)的客觀性和可靠性。

基于位置服務(wù)(Location Based Service,簡稱LBS)是通過電信移動運(yùn)營商的無線電通訊網(wǎng)絡(luò)(如GSM網(wǎng)、CDMA網(wǎng))或外部定位方式(如GPS)獲取移動終端用戶的位置信息(地理坐標(biāo),或大地坐標(biāo)),在地理信息系統(tǒng)(Geographic Information System,簡稱GIS)平臺的支持下,為用戶提供相應(yīng)服務(wù)的一種增值業(yè)務(wù)??傮w來看,LBS由移動通信網(wǎng)絡(luò)和計(jì)算機(jī)網(wǎng)絡(luò)結(jié)合而成,兩個網(wǎng)絡(luò)之間通過網(wǎng)關(guān)實(shí)現(xiàn)交互。移動終端通過移動通信網(wǎng)絡(luò)發(fā)出請求,經(jīng)過網(wǎng)關(guān)傳遞給LBS服務(wù)平臺;LBS服務(wù)平臺根據(jù)用戶請求和用戶當(dāng)前位置進(jìn)行處理,并將結(jié)果通過網(wǎng)關(guān)返回給用戶。POI(Point Of Interest,即興趣點(diǎn)或信息點(diǎn)),包括名稱、類型、經(jīng)度、緯度等資料,以使POI可在電子地圖上呈現(xiàn),以標(biāo)示電子地圖上的某個地點(diǎn)信息。

本實(shí)施例中,基于位置服務(wù)的移動終端為智能手機(jī),通過開啟智能手機(jī)上的定位功能,以使LBS服務(wù)平臺實(shí)時獲取智能手機(jī)的地理位置信息,從而了解攜帶該智能手機(jī)的用戶的地理位置信息。地理位置信息包括與時間相關(guān)聯(lián)的POI信息中的時間包括日期和時刻,通過該地理位置信息可了解用戶在任一時刻所處的POI信息。可以理解地,地理位置信息與用戶ID相關(guān)聯(lián),用戶ID用于識別唯一識別用戶,可以是身份證號或手機(jī)號。

可以理解地,為了減少數(shù)據(jù)處理量,提高處理效率,可預(yù)先設(shè)置時間閾值,以使基于位置服務(wù)獲取用戶的地理位置信息時,只獲取用戶在任一地點(diǎn)停留時間達(dá)到該時間閾值的POI信息,以避免采集到的與時間相關(guān)聯(lián)的POI信息的數(shù)據(jù)量較多,導(dǎo)致處理效率低的問題。

S20:對任一用戶在預(yù)設(shè)期間內(nèi)所有的地理位置信息進(jìn)行聚類分析,獲取生活習(xí)慣軌跡向量表。

其中,生活習(xí)慣軌跡向量表由依據(jù)時間順序排序的軌跡點(diǎn)組成。軌跡點(diǎn)是用戶日常生活中經(jīng)過的地點(diǎn),可以是家庭住址、辦公場所、購物場所、娛樂場所、健身場所等地點(diǎn),可在電子地圖中顯示。其中,預(yù)設(shè)期間可以是當(dāng)前系統(tǒng)時間之前的任意一段時間,可以為一個月、三個月或半年,可根據(jù)需求自主設(shè)置??梢岳斫獾?,預(yù)設(shè)期間越長,其采集到的地理位置信息的數(shù)據(jù)量越多,處理結(jié)果的準(zhǔn)確性越高;預(yù)設(shè)期間越短,其處理效率越高。本實(shí)施例中,從處理結(jié)果的準(zhǔn)確性和處理效率方面進(jìn)行考慮,將設(shè)預(yù)設(shè)期間設(shè)置為1個月。

在一具體實(shí)施方式中,步驟S20包括如下步驟:

S21:采用DBSCAN算法對任一用戶在預(yù)設(shè)期間內(nèi)所有POI信息進(jìn)行聚類,以獲取若干子集群。

其中,DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪聲的基于密度的聚類方法)是一種基于密度的空間算法。該算法將具有足夠密度的區(qū)域劃分為簇,并在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇,它將簇定義為密度相連的點(diǎn)的最大集合。DBSCAN算法具有聚類速度快且能夠有效處理噪聲和發(fā)現(xiàn)任意形成的空間聚類的優(yōu)點(diǎn)。

本實(shí)施例中,預(yù)先設(shè)置DBSCAN算法中的預(yù)設(shè)掃描半徑(以下簡稱為eps)和最小包含點(diǎn)數(shù)(minPts),任選一個未被訪問(unvisited)的POI信息開始,找出與其距離在eps之內(nèi)(包括eps)的所有POI信息,將POI信息與距離在eps之內(nèi)的所有POI信息作為一個子集群輸出。

S22:采用K-MEANS算法對每一子集群進(jìn)行迭代聚合,獲取每一子集群的質(zhì)心POI信息,并將質(zhì)心POI信息作為軌跡點(diǎn)輸出。

K-MEANS算法是很典型的基于距離的算法,采用距離作為相似性的評價指標(biāo),即認(rèn)為兩個對象的距離越近,其相似度就越大。其計(jì)算公式為其中,k個初始類聚類中心點(diǎn)的選取對聚類結(jié)果具有較大的影響,因?yàn)樵谠撍惴ǖ谝徊街惺请S機(jī)的選取任意k個對象作為初始聚類的中心,初始地代表一個簇。該算法在每次迭代中對數(shù)據(jù)集中剩余的每個對象,根據(jù)其與各個簇中心的距離將每個對象重新賦給最近的簇。若一次迭代前后,J的值沒有發(fā)生變化,說明算法已經(jīng)收斂。K-MEANS算法可快速簡單地對數(shù)據(jù)進(jìn)行聚類,對大數(shù)據(jù)集具有較高的效率且可伸縮性,時間復(fù)雜度近于線性,而且適合挖掘大規(guī)模數(shù)據(jù)集。

本實(shí)施例中,采用K-MEANS算法對每一子集群中的POI信息進(jìn)行迭代聚合,直到最后一次迭代時,迭代前后數(shù)值沒有發(fā)生變化,則獲取該子集群的質(zhì)心POI信息,該質(zhì)心POI信息對應(yīng)一軌跡點(diǎn)。

S23:依時間順序?qū)㈩A(yù)設(shè)期間內(nèi)所有軌跡點(diǎn)排序,以獲取生活習(xí)慣軌跡向量表。

本實(shí)施例中設(shè)預(yù)設(shè)期間為1個月,步驟S23中,先將每天獲取到的與時間相關(guān)聯(lián)的軌跡點(diǎn)按時間順序進(jìn)行排序,再將連續(xù)1個月的軌跡點(diǎn)按日期連接起來,從而形成生活習(xí)慣軌跡向量表。該生活習(xí)慣軌跡向量表可清楚體現(xiàn)客戶在預(yù)設(shè)期間內(nèi)所經(jīng)過的家庭住址、辦公場所、購物場所、娛樂場所、健身場所等軌跡點(diǎn),具有較強(qiáng)的客觀性和可靠性。

具體地,若A為家庭住址,B為辦公場所,C為購物場所,D為娛樂場所,E為健身場所,F(xiàn)為公園,G為醫(yī)院等等;且A’和A”為A附近500m內(nèi)的地點(diǎn),B’和B”為B附近500m內(nèi)的地點(diǎn),C’和C”為C附近500m內(nèi)的地點(diǎn),D’和D”為D附近500m內(nèi)的地點(diǎn),D’和D”為D附近500m內(nèi)的地點(diǎn),D’和D”為D附近500m內(nèi)的地點(diǎn),……G’和G”為G附近500m內(nèi)的地點(diǎn)。在1個月內(nèi),第一天的地理位置信息包括A、A’、B’、B、C”、C、B”、B、E”、E、A”、A等POI信息;第二天的地理位置信息包括A、A’、B’、B、D”、D、B”、B、F”、F、A”、A等POI信息……依此類推。步驟S21中采用DBSCAN算法進(jìn)行聚類時,將1個月內(nèi)所有POI信息,通過設(shè)置掃描半徑(以下簡稱為eps)為500m和最小包含點(diǎn)數(shù)(minPts)為1,以將A、A’、A”作為一子集群輸出,將B,B’、B”作為一子集群輸出……G,G’、G”作為一子集群輸出。步驟S22中采用K-MEANS算法對每一子集群進(jìn)行聚類,獲取到子集群中的質(zhì)心POI信息,對于子集群A、A’、A”而言,采用K-MEANS算法進(jìn)行迭代聚類時,獲取到的質(zhì)心POI信息為A,將A作為軌跡點(diǎn)輸出,依此類推,獲取其他軌跡點(diǎn)B、C、D、E、F和G。本實(shí)施例中,任一子集群中質(zhì)心POI信息出現(xiàn)的頻率大于其他POI信息出現(xiàn)的頻率。步驟S23中,用戶第一天的軌跡點(diǎn)為A、B、C、B、E、A,第二天的軌跡點(diǎn)為A、B、D、B、F、A……等,將1個月內(nèi)所有軌跡點(diǎn)依時間順序排序,獲取的生活習(xí)慣軌跡向量表為A、B、C、B、E、A、A、B、D、B、F、A……等。

S30:利用生活習(xí)慣軌跡向量表構(gòu)建原始用戶軌跡矩陣。

具體地,原始用戶軌跡矩陣由多個用戶的生活習(xí)慣軌跡向量表形成,與多個用戶的生活習(xí)慣軌跡向量表中的軌跡點(diǎn)相關(guān)聯(lián),由于軌跡點(diǎn)的形成具有客觀性和可靠性,使得其形成的原始用戶軌跡矩陣也具有客觀性和可靠性。

在一具體實(shí)施方式中,步驟S30包括如下步驟:

S31:對n個用戶的生活習(xí)慣軌跡向量表中所有軌跡點(diǎn)進(jìn)行去重處理,獲取m個去重軌跡點(diǎn)。

具體地,每一用戶的生活習(xí)慣軌跡向量表中有多個軌跡點(diǎn)重復(fù),其出現(xiàn)的次數(shù)或頻率不相同。如,用戶的家庭住址和辦公場所為最常出現(xiàn)的軌跡點(diǎn),其出現(xiàn)的次數(shù)較多或頻率較大;對于身體健康的用戶而言,醫(yī)院為不常出現(xiàn)的軌跡點(diǎn),其出現(xiàn)的次數(shù)較少或頻率較小。若一用戶的生活習(xí)慣軌跡向量表為A、B、C、B、E、A、A、B、D、B、F、A,則對該用戶的生活習(xí)慣軌跡向量表中所有軌跡點(diǎn)進(jìn)行去重處理,可得到A、B、C、D、E和F等6個去重軌跡點(diǎn)。同理,對n個用戶的生活習(xí)慣軌跡向量表中所有軌跡點(diǎn)進(jìn)行去重處理,將n個用戶所有的軌跡點(diǎn)再進(jìn)行去重處理,以獲取m個去重軌跡點(diǎn),如A、B、C、D、E、F和G等7個去重軌跡點(diǎn),此時m為7。

S32:基于每一用戶的生活習(xí)慣軌跡向量表中各去重軌跡點(diǎn)出現(xiàn)的次數(shù)或頻率,以形成m*1階原始向量。

以統(tǒng)計(jì)每一用戶的生活習(xí)慣軌跡向量表中各軌跡點(diǎn)的次數(shù)為例,若任一用戶的生活習(xí)慣軌跡向量表為A、B、C、B、E、A、A、B、D、B、F、A,僅包括6個去重后的軌跡點(diǎn);但對n個用戶的生活軌跡軌跡向量表中各軌跡點(diǎn)進(jìn)行去重處理后,得到m個去重軌跡點(diǎn),此時m≧6;因此,要基于對n個用戶的生活軌跡向量表獲取到的m個去重軌跡點(diǎn),構(gòu)建任一用戶的m*1階原始向量。本實(shí)施例中,m為7,將各軌跡點(diǎn)出現(xiàn)的次數(shù)作為該m*1階原始向量的值,通過形成的m*1階原始向量如下所示,

該m*1階原始向量可直觀顯示用戶的生活習(xí)慣軌跡,以便進(jìn)行社交相似用戶查找。本實(shí)施例中,還可以將每一用戶的生活習(xí)慣軌跡向量表中各軌跡點(diǎn)出現(xiàn)的頻率,作為m*1階原始向量的值。

S33:采用n個用戶對應(yīng)的m*1階原始向量,構(gòu)建m*n階原始用戶軌跡矩陣。

具體地,將n個用戶對應(yīng)的m*1階原始向量,以軌跡點(diǎn)數(shù)量m為行,以用戶數(shù)量n為列,構(gòu)建m*n階原始用戶軌跡矩陣。該m*n階原始用戶軌跡矩陣可直觀地顯示n個用戶的生活習(xí)慣,具有較強(qiáng)的客觀性。

S40:采用奇異值分解算法對原始用戶軌跡矩陣進(jìn)行矩陣分解,獲取重構(gòu)用戶軌跡矩陣。

本實(shí)施例中,通過奇異值分解算法對原始用戶軌跡矩陣進(jìn)行矩陣分解,可獲取降維后的重構(gòu)用戶軌跡矩陣,以便基于重構(gòu)用戶軌跡矩陣確定影響人群分類的各軌跡點(diǎn)的相似度,從而獲取相似社交用戶。

在一具體實(shí)施方式中,步驟S40包括如下步驟:

S41:采用奇異值分解算法對m*n階原始用戶軌跡矩陣進(jìn)行矩陣分解,以獲取m*m階左奇異向量矩陣、n*n階右奇異向量矩陣的轉(zhuǎn)置和m*n階奇異值對角矩陣。

具體地,奇異值分解算法包括M=UΣVT;其中,M為m*n階原始用戶軌跡矩陣,U為m*m階左奇異向量矩陣,V為n*n階右奇異向量矩陣,VT為n*n階右奇異向量矩陣的轉(zhuǎn)置,∑為m*n階奇異值對角矩陣,奇異值對角矩陣的主對角線上的值為奇異值,每個奇異值為非負(fù)數(shù),并按從大到小降序排列。U矩陣是一個原始空間的正交矩陣,它的每一個列向量都是原始空間的規(guī)范正交基;而V矩陣則是變換之后的域的正交矩陣,它的每一個列向量都是變換空間的規(guī)范正交基。奇異值對角矩陣Σ的值則對應(yīng)了從原始空間(U)到變換空間(V)的對應(yīng)關(guān)系,具體來說就是兩個空間的基向量的拉伸程度。

S42:選取奇異值對角矩陣的主對角線上前k個奇異值,對左奇異向量矩陣、右奇異向量矩陣的轉(zhuǎn)置和奇異值對角矩陣進(jìn)行降維處理;以獲取m*k階重構(gòu)左奇異向量矩陣、n*k階右奇異向量矩陣的轉(zhuǎn)置和k*k階奇異值對角矩陣,以形成重構(gòu)用戶軌跡矩陣。

本實(shí)施例中,降維后的m*k階左奇異向量矩陣U用于限定用戶之間的相似性,而降維后的n*k階右奇異向量矩陣的轉(zhuǎn)置VT用于限定軌跡點(diǎn)之間的相似性,降維后的k*k階奇異值對角矩陣∑的主對角線上的奇異值,用于體現(xiàn)用戶與軌跡點(diǎn)之間的相關(guān)關(guān)系。將降維后的m*k階左奇異向量矩陣U、降維后的k*k階奇異值對角矩陣∑和與降維后的n*k階右奇異向量矩陣的轉(zhuǎn)置VT的乘積作為重構(gòu)用戶軌跡矩陣輸出。

本實(shí)施例中,若m為7,而n為5,則形成7*5階原始用戶軌跡矩陣M,采用奇異值分解算法進(jìn)行矩陣分解后,形成7*7階左奇異向量矩陣U,5*5右奇異向量矩陣的轉(zhuǎn)置VT,7*5階奇異值對角矩陣∑。選取奇異值對角矩陣的主對角線上前k=2個奇異值,并進(jìn)行降維;則獲取降維后的7*2階左奇異向量矩陣U,5*2右奇異向量矩陣的轉(zhuǎn)置VT,2*2階奇異值對角矩陣∑。在進(jìn)行相似性分析時,將7*2階左奇異向量矩陣U的每一列當(dāng)成x值,第二列當(dāng)前y值,構(gòu)建二維空間坐標(biāo)系,任意兩點(diǎn)之間夾角越小,且對應(yīng)用戶的生活習(xí)慣越相似,從而確定相似用戶。同理,將5*2右奇異向量矩陣的轉(zhuǎn)置VT在構(gòu)建好的二維空間坐標(biāo)系中體現(xiàn),任意兩點(diǎn)之間夾角越小,其對應(yīng)生活習(xí)慣越相似,從而確定具有相似生活習(xí)慣。

S50:基于重構(gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶。

本實(shí)施例中獲取的重構(gòu)用戶軌跡矩陣中,可確定用戶之間的相似性,軌跡點(diǎn)對應(yīng)的生活習(xí)慣的相似性,以及用戶與軌跡點(diǎn)之間的相似性;因此,可基于該重構(gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶,以便利用該社交相似用戶進(jìn)行業(yè)務(wù)推廣、廣告宣傳等。本實(shí)施例中,基于重構(gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶的過程,操作簡單方便,無需采集大量數(shù)據(jù),具分類結(jié)果較高。

具體地,降維后的m*k階左奇異向量矩陣U用于限定用戶之間的相似性,而降維后的n*k階右奇異向量矩陣的轉(zhuǎn)置VT用于限定軌跡點(diǎn)之間的相似性,可通過目標(biāo)用戶與m*k階左奇異向量矩陣U進(jìn)行處理,以確定該社交相似用戶,也可通過目標(biāo)用戶的軌跡點(diǎn)和相應(yīng)的次數(shù)或頻率與n*k階右奇異向量矩陣的轉(zhuǎn)置VT進(jìn)行處理,以確定該社交相似用戶。

在一具體實(shí)施方式中,步驟S50具體包括如下步驟:

S51:獲取目標(biāo)用戶的m*1階目標(biāo)向量。

采用與m*1階原始向量相同的獲取過程,獲取目標(biāo)用戶的m*1階目標(biāo)向量,操作過程簡單方便,數(shù)據(jù)處理量少。

S52:采用余弦相似度算法計(jì)算目標(biāo)向量與原始向量的相似度。

本實(shí)施例中采用向量空間余弦相似度(Cosine Similarity)計(jì)算目標(biāo)向量與原始向量的相似度。具體地,若a向量是(x1,y1),b向量是(x2,y2),則向量空間余弦相似度的計(jì)算公式如下:

由此可計(jì)算任意兩個用戶之間的相似度。

S53:將相似度最高的原始向量對應(yīng)的用戶確定為目標(biāo)用戶的社交相似用戶。

本實(shí)施例中,余弦值越接近1,則表明夾角越接近0度,即兩個向量越相似;夾角等于0,即兩個向量相等?;谀繕?biāo)用戶的目標(biāo)向量與任一用戶的原始向量的向量空間余弦相似度,確定相似度最高的原始向量對應(yīng)的用戶為目標(biāo)用戶的社交相似用戶,從而獲取與目標(biāo)用戶的生活習(xí)慣高度相似的社交相似用戶。

本實(shí)施例所提供的基于位置服務(wù)的人群分類方法中,通過對用戶在預(yù)設(shè)期間內(nèi)獲取的地理位置信息進(jìn)行聚類分析,獲取生活習(xí)慣軌跡向量表,由于地理位置信息具有較強(qiáng)的客觀性和可靠性,使得形成的生活習(xí)慣軌跡向量表也具有較強(qiáng)的客觀性和可靠性。再基于生活習(xí)慣軌跡向量表構(gòu)建原始用戶軌跡矩陣并采用奇異值分解算法進(jìn)行矩陣,獲取重構(gòu)用戶軌跡矩陣,可基于該重構(gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶?;谥貥?gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶的過程,操作簡單方便,無需采集大量數(shù)據(jù),且獲取的社交相似用戶與目標(biāo)用戶的生活習(xí)慣具有較高的相似性和客觀性,可向目標(biāo)用戶推送與社交相似用戶相同的產(chǎn)品或服務(wù),以提高目標(biāo)用戶對推送產(chǎn)品或服務(wù)的接受度,有利進(jìn)行業(yè)務(wù)推廣、廣告宣傳等。

實(shí)施例2

圖2示出本實(shí)施例中基于位置服務(wù)的人群分類裝置的原理框圖。該基于位置服務(wù)的人群分類裝置由銀行、保險等金融機(jī)構(gòu)中的終端執(zhí)行,用于確定與目標(biāo)用戶相對應(yīng)的社交相似用戶,進(jìn)行人群分類,以實(shí)現(xiàn)對社交相似用戶進(jìn)行業(yè)務(wù)推廣或廣告宣傳,也可以對社交相似用戶購買風(fēng)險類金融產(chǎn)品進(jìn)行風(fēng)險管控。如圖2所示,該基于位置服務(wù)的人群分類裝置包括位置信息獲取模塊10、軌跡向量表獲取模塊20、軌跡矩陣構(gòu)建模塊30、矩陣分解模塊40和相似用戶確定模塊50。

位置信息獲取模塊10,用于基于位置服務(wù)獲取用戶的地理位置信息,地理位置信息包括與時間相關(guān)聯(lián)的POI信息。

本實(shí)施例中,目標(biāo)用戶是所有用戶中的一個。以任一用戶一天的地理位置信息為例,該地理位置信息中包括0:00—24:00的POI信息,每一POI信息用于指示電子地圖中的一點(diǎn),包括POI點(diǎn)名稱、經(jīng)度和緯度等信息,基于用戶的地理位置信息,可了解用戶每天經(jīng)過的家庭住址、辦公場所、購物場所、娛樂場所、健身場所等信息??梢岳斫獾?,基于位置服務(wù)獲取用戶的地理位置信息,具有較強(qiáng)的客觀性和可靠性。

基于位置服務(wù)(Location Based Service,簡稱LBS)是通過電信移動運(yùn)營商的無線電通訊網(wǎng)絡(luò)(如GSM網(wǎng)、CDMA網(wǎng))或外部定位方式(如GPS)獲取移動終端用戶的位置信息(地理坐標(biāo),或大地坐標(biāo)),在地理信息系統(tǒng)(Geographic Information System,簡稱GIS)平臺的支持下,為用戶提供相應(yīng)服務(wù)的一種增值業(yè)務(wù)??傮w來看,LBS由移動通信網(wǎng)絡(luò)和計(jì)算機(jī)網(wǎng)絡(luò)結(jié)合而成,兩個網(wǎng)絡(luò)之間通過網(wǎng)關(guān)實(shí)現(xiàn)交互。移動終端通過移動通信網(wǎng)絡(luò)發(fā)出請求,經(jīng)過網(wǎng)關(guān)傳遞給LBS服務(wù)平臺;LBS服務(wù)平臺根據(jù)用戶請求和用戶當(dāng)前位置進(jìn)行處理,并將結(jié)果通過網(wǎng)關(guān)返回給用戶。POI(Point Of Interest,即興趣點(diǎn)或信息點(diǎn)),包括名稱、類型、經(jīng)度、緯度等資料,以使POI可在電子地圖上呈現(xiàn),以標(biāo)示電子地圖上的某個地點(diǎn)信息。

本實(shí)施例中,基于位置服務(wù)的移動終端為智能手機(jī),通過開啟智能手機(jī)上的定位功能,以使LBS服務(wù)平臺實(shí)時獲取智能手機(jī)的地理位置信息,從而了解攜帶該智能手機(jī)的用戶的地理位置信息。地理位置信息包括與時間相關(guān)聯(lián)的POI信息中的時間包括日期和時刻,通過該地理位置信息可了解用戶在任一時刻所處的POI信息。可以理解地,地理位置信息與用戶ID相關(guān)聯(lián),用戶ID用于識別唯一識別用戶,可以是身份證號或手機(jī)號。

可以理解地,為了減少數(shù)據(jù)處理量,提高處理效率,可預(yù)先設(shè)置時間閾值,以使基于位置服務(wù)獲取用戶的地理位置信息時,只獲取用戶在任一地點(diǎn)停留時間達(dá)到該時間閾值的POI信息,以避免采集到的與時間相關(guān)聯(lián)的POI信息的數(shù)據(jù)量較多,導(dǎo)致處理效率低的問題。

軌跡向量表獲取模塊20,用于對任一用戶在預(yù)設(shè)期間內(nèi)所有的地理位置信息進(jìn)行聚類分析,獲取生活習(xí)慣軌跡向量表。

其中,生活習(xí)慣軌跡向量表由依據(jù)時間順序排序的軌跡點(diǎn)組成。軌跡點(diǎn)是用戶日常生活中經(jīng)過的地點(diǎn),可以是家庭住址、辦公場所、購物場所、娛樂場所、健身場所等地點(diǎn),可在電子地圖中顯示。其中,預(yù)設(shè)期間可以是當(dāng)前系統(tǒng)時間之前的任意一段時間,可以為一個月、三個月或半年,可根據(jù)需求自主設(shè)置??梢岳斫獾?,預(yù)設(shè)期間越長,其采集到的地理位置信息的數(shù)據(jù)量越多,處理結(jié)果的準(zhǔn)確性越高;預(yù)設(shè)期間越短,其處理效率越高。本實(shí)施例中,從處理結(jié)果的準(zhǔn)確性和處理效率方面進(jìn)行考慮,將設(shè)預(yù)設(shè)期間設(shè)置為1個月。

在一具體實(shí)施方式中,軌跡向量表獲取模塊20具體包括子集群獲取單元21、軌跡點(diǎn)獲取單元22和向量表獲取單元23。

子集群獲取單元21,用于采用DBSCAN算法對任一用戶在預(yù)設(shè)期間內(nèi)所有POI信息進(jìn)行聚類,以獲取若干子集群。

其中,DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪聲的基于密度的聚類方法)是一種基于密度的空間算法。該算法將具有足夠密度的區(qū)域劃分為簇,并在具有噪聲的空間數(shù)據(jù)庫中發(fā)現(xiàn)任意形狀的簇,它將簇定義為密度相連的點(diǎn)的最大集合。DBSCAN算法具有聚類速度快且能夠有效處理噪聲和發(fā)現(xiàn)任意形成的空間聚類的優(yōu)點(diǎn)。

本實(shí)施例中,預(yù)先設(shè)置DBSCAN算法中的預(yù)設(shè)掃描半徑(以下簡稱為eps)和最小包含點(diǎn)數(shù)(minPts),任選一個未被訪問(unvisited)的POI信息開始,找出與其距離在eps之內(nèi)(包括eps)的所有POI信息,將POI信息與距離在eps之內(nèi)的所有POI信息作為一個子集群輸出。

軌跡點(diǎn)獲取單元22,用于采用K-MEANS算法對每一子集群進(jìn)行迭代聚合,獲取每一子集群的質(zhì)心POI信息,并將質(zhì)心POI信息作為軌跡點(diǎn)輸出。

K-MEANS算法是很典型的基于距離的算法,采用距離作為相似性的評價指標(biāo),即認(rèn)為兩個對象的距離越近,其相似度就越大。其計(jì)算公式為其中,k個初始類聚類中心點(diǎn)的選取對聚類結(jié)果具有較大的影響,因?yàn)樵谠撍惴ǖ谝徊街惺请S機(jī)的選取任意k個對象作為初始聚類的中心,初始地代表一個簇。該算法在每次迭代中對數(shù)據(jù)集中剩余的每個對象,根據(jù)其與各個簇中心的距離將每個對象重新賦給最近的簇。若一次迭代前后,J的值沒有發(fā)生變化,說明算法已經(jīng)收斂。K-MEANS算法可快速簡單地對數(shù)據(jù)進(jìn)行聚類,對大數(shù)據(jù)集具有較高的效率且可伸縮性,時間復(fù)雜度近于線性,而且適合挖掘大規(guī)模數(shù)據(jù)集。

本實(shí)施例中,采用K-MEANS算法對每一子集群中的POI信息進(jìn)行迭代聚合,直到最后一次迭代時,迭代前后數(shù)值沒有發(fā)生變化,則獲取該子集群的質(zhì)心POI信息,該質(zhì)心POI信息對應(yīng)一軌跡點(diǎn)。

向量表獲取單元23,用于依時間順序?qū)㈩A(yù)設(shè)期間內(nèi)所有軌跡點(diǎn)排序,以獲取生活習(xí)慣軌跡向量表。

本實(shí)施例中設(shè)預(yù)設(shè)期間為1個月,向量表獲取單元23中,先將每天獲取到的與時間相關(guān)聯(lián)的軌跡點(diǎn)按時間順序進(jìn)行排序,再將連續(xù)1個月的軌跡點(diǎn)按日期連接起來,從而形成生活習(xí)慣軌跡向量表。該生活習(xí)慣軌跡向量表可清楚體現(xiàn)客戶在預(yù)設(shè)期間內(nèi)所經(jīng)過的家庭住址、辦公場所、購物場所、娛樂場所、健身場所等軌跡點(diǎn),具有較強(qiáng)的客觀性和可靠性。

具體地,若A為家庭住址,B為辦公場所,C為購物場所,D為娛樂場所,E為健身場所,F(xiàn)為公園,G為醫(yī)院等等;且A’和A”為A附近500m內(nèi)的地點(diǎn),B’和B”為B附近500m內(nèi)的地點(diǎn),C’和C”為C附近500m內(nèi)的地點(diǎn),D’和D”為D附近500m內(nèi)的地點(diǎn),D’和D”為D附近500m內(nèi)的地點(diǎn),D’和D”為D附近500m內(nèi)的地點(diǎn),……G’和G”為G附近500m內(nèi)的地點(diǎn)。在1個月內(nèi),第一天的地理位置信息包括A、A’、B’、B、C”、C、B”、B、E”、E、A”、A等POI信息;第二天的地理位置信息包括A、A’、B’、B、D”、D、B”、B、F”、F、A”、A等POI信息……依此類推。子集群獲取單元21中采用DBSCAN算法進(jìn)行聚類時,將1個月內(nèi)所有POI信息,通過設(shè)置掃描半徑(以下簡稱為eps)為500m和最小包含點(diǎn)數(shù)(minPts)為1,以將A、A’、A”作為一子集群輸出,將B,B’、B”作為一子集群輸出……G,G’、G”作為一子集群輸出。軌跡點(diǎn)獲取單元22中采用K-MEANS算法對每一子集群進(jìn)行聚類,獲取到子集群中的質(zhì)心POI信息,對于子集群A、A’、A”而言,采用K-MEANS算法進(jìn)行迭代聚類時,獲取到的質(zhì)心POI信息為A,將A作為軌跡點(diǎn)輸出,依此類推,獲取其他軌跡點(diǎn)B、C、D、E、F和G。本實(shí)施例中,任一子集群中質(zhì)心POI信息出現(xiàn)的頻率大于其他POI信息出現(xiàn)的頻率。向量表獲取單元23中,用戶第一天的軌跡點(diǎn)為A、B、C、B、E、A,第二天的軌跡點(diǎn)為A、B、D、B、F、A……等,將1個月內(nèi)所有軌跡點(diǎn)依時間順序排序,獲取的生活習(xí)慣軌跡向量表為A、B、C、B、E、A、A、B、D、B、F、A……等。

軌跡矩陣構(gòu)建模塊30,用于利用生活習(xí)慣軌跡向量表構(gòu)建原始用戶軌跡矩陣。

具體地,原始用戶軌跡矩陣由多個用戶的生活習(xí)慣軌跡向量表形成,與多個用戶的生活習(xí)慣軌跡向量表中的軌跡點(diǎn)相關(guān)聯(lián),由于軌跡點(diǎn)的形成具有客觀性和可靠性,使得其形成的原始用戶軌跡矩陣也具有客觀性和可靠性。

在一具體實(shí)施方式中,軌跡矩陣構(gòu)建模塊30具體包括去重軌跡點(diǎn)獲取單元31、原始向量獲取單元32和原始矩陣構(gòu)建模塊33。

去重軌跡點(diǎn)獲取單元31,用于對n個用戶的生活習(xí)慣軌跡向量表中所有軌跡點(diǎn)進(jìn)行去重處理,獲取m個去重軌跡點(diǎn)。

具體地,每一用戶的生活習(xí)慣軌跡向量表中有多個軌跡點(diǎn)重復(fù),其出現(xiàn)的次數(shù)或頻率不相同。如,用戶的家庭住址和辦公場所為最常出現(xiàn)的軌跡點(diǎn),其出現(xiàn)的次數(shù)較多或頻率較大;對于身體健康的用戶而言,醫(yī)院為不常出現(xiàn)的軌跡點(diǎn),其出現(xiàn)的次數(shù)較少或頻率較小。若一用戶的生活習(xí)慣軌跡向量表為A、B、C、B、E、A、A、B、D、B、F、A,則對該用戶的生活習(xí)慣軌跡向量表中所有軌跡點(diǎn)進(jìn)行去重處理,可得到A、B、C、D、E和F等6個去重軌跡點(diǎn)。同理,對n個用戶的生活習(xí)慣軌跡向量表中所有軌跡點(diǎn)進(jìn)行去重處理,將n個用戶所有的軌跡點(diǎn)再進(jìn)行去重處理,以獲取m個去重軌跡點(diǎn),如A、B、C、D、E、F和G等7個去重軌跡點(diǎn),此時m為7。

原始向量獲取單元32,用于基于每一用戶的生活習(xí)慣軌跡向量表中各去重軌跡點(diǎn)出現(xiàn)的次數(shù)或頻率,以形成m*1階原始向量。

以統(tǒng)計(jì)每一用戶的生活習(xí)慣軌跡向量表中各軌跡點(diǎn)的次數(shù)為例,若任一用戶的生活習(xí)慣軌跡向量表為A、B、C、B、E、A、A、B、D、B、F、A,僅包括6個去重后的軌跡點(diǎn);但對n個用戶的生活軌跡軌跡向量表中各軌跡點(diǎn)進(jìn)行去重處理后,得到m個去重軌跡點(diǎn),此時m≧6;因此,要基于對n個用戶的生活軌跡向量表獲取到的m個去重軌跡點(diǎn),構(gòu)建任一用戶的m*1階原始向量。本實(shí)施例中,m為7,將各軌跡點(diǎn)的次數(shù)作為該m*1階原始向量的值,通過形成的m*1階原始向量如下所示,

該m*1階原始向量可直觀顯示用戶的生活習(xí)慣軌跡,以便進(jìn)行社交相似用戶查找。本實(shí)施例中,還可以將每一用戶的生活習(xí)慣軌跡向量表中各軌跡點(diǎn)出現(xiàn)的頻率,作為m*1階原始向量的值。

原始矩陣構(gòu)建模塊33,用于采用n個用戶對應(yīng)的m*1階原始向量,構(gòu)建m*n階原始用戶軌跡矩陣。

具體地,將n個用戶對應(yīng)的m*1階原始向量,以軌跡點(diǎn)數(shù)量m為行,以用戶數(shù)量n為列,構(gòu)建m*n階原始用戶軌跡矩陣。該m*n階原始用戶軌跡矩陣可直觀地顯示n個用戶的生活習(xí)慣,具有較強(qiáng)的客觀性。

矩陣分解模塊40,用于采用奇異值分解算法對原始用戶軌跡矩陣進(jìn)行矩陣分解,獲取重構(gòu)用戶軌跡矩陣。

本實(shí)施例中,通過奇異值分解算法對原始用戶軌跡矩陣進(jìn)行矩陣分解,可獲取降維后的重構(gòu)用戶軌跡矩陣,以便基于重構(gòu)用戶軌跡矩陣確定影響人群分類的各軌跡點(diǎn)的相似度,從而獲取相似社交用戶。

在一具體實(shí)施方式中,矩陣分解模塊40具體包括矩陣分解單元41和矩陣降維單元42。

矩陣分解單元41,用于采用奇異值分解算法對m*n階原始用戶軌跡矩陣進(jìn)行矩陣分解,以獲取m*m階左奇異向量矩陣、n*n階右奇異向量矩陣的轉(zhuǎn)置和m*n階奇異值對角矩陣。

具體地,奇異值分解算法包括M=UΣVT;其中,M為m*n階原始用戶軌跡矩陣,U為m*m階左奇異向量矩陣,V為n*n階右奇異向量矩陣,VT為n*n階右奇異向量矩陣的轉(zhuǎn)置,∑為m*n階奇異值對角矩陣,奇異值對角矩陣的主對角線上的值為奇異值,每個奇異值為非負(fù)數(shù),并按從大到小降序排列。U矩陣是一個原始空間的正交矩陣,它的每一個列向量都是原始空間的規(guī)范正交基;而V矩陣則是變換之后的域的正交矩陣,它的每一個列向量都是變換空間的規(guī)范正交基。奇異值對角矩陣Σ的值則對應(yīng)了從原始空間(U)到變換空間(V)的對應(yīng)關(guān)系,具體來說就是兩個空間的基向量的拉伸程度。

矩陣降維單元42,用于選取奇異值對角矩陣的主對角線上前k個奇異值,對左奇異向量矩陣、右奇異向量矩陣的轉(zhuǎn)置和奇異值對角矩陣進(jìn)行降維處理;以獲取m*k階重構(gòu)左奇異向量矩陣、n*k階右奇異向量矩陣的轉(zhuǎn)置和k*k階奇異值對角矩陣,以形成重構(gòu)用戶軌跡矩陣。

本實(shí)施例中,降維后的m*k階左奇異向量矩陣U用于限定用戶之間的相似性,而降維后的n*k階右奇異向量矩陣的轉(zhuǎn)置VT用于限定軌跡點(diǎn)之間的相似性,降維后的k*k階奇異值對角矩陣∑的主對角線上的奇異值,用于體現(xiàn)用戶與軌跡點(diǎn)之間的相關(guān)關(guān)系。將降維后的m*k階左奇異向量矩陣U、降維后的k*k階奇異值對角矩陣∑和與降維后的n*k階右奇異向量矩陣的轉(zhuǎn)置VT的乘積作為重構(gòu)用戶軌跡矩陣輸出。

本實(shí)施例中,若m為7,而n為5,則形成7*5階原始用戶軌跡矩陣M,采用奇異值分解算法進(jìn)行矩陣分解后,形成7*7階左奇異向量矩陣U,5*5右奇異向量矩陣的轉(zhuǎn)置VT,7*5階奇異值對角矩陣∑。選取奇異值對角矩陣的主對角線上前k=2個奇異值,并進(jìn)行降維;則獲取降維后的7*2階左奇異向量矩陣U,5*2右奇異向量矩陣的轉(zhuǎn)置VT,2*2階奇異值對角矩陣∑。在進(jìn)行相似性分析時,將7*2階左奇異向量矩陣U的每一列當(dāng)成x值,第二列當(dāng)前y值,構(gòu)建二維空間坐標(biāo)系,任意兩點(diǎn)之間夾角越小,且對應(yīng)用戶的生活習(xí)慣越相似,從而確定相似用戶。同理,將5*2右奇異向量矩陣的轉(zhuǎn)置VT在構(gòu)建好的二維空間坐標(biāo)系中體現(xiàn),任意兩點(diǎn)之間夾角越小,其對應(yīng)生活習(xí)慣越相似,從而確定具有相似生活習(xí)慣。

相似用戶確定模塊50,用于基于重構(gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶。

本實(shí)施例中獲取的重構(gòu)用戶軌跡矩陣中,可確定用戶之間的相似性,軌跡點(diǎn)對應(yīng)的生活習(xí)慣的相似性,以及用戶與軌跡點(diǎn)之間的相似性;因此,可基于該重構(gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶,以便利用該社交相似用戶進(jìn)行業(yè)務(wù)推廣、廣告宣傳等。本實(shí)施例中,基于重構(gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶的過程,操作簡單方便,無需采集大量數(shù)據(jù),具分類結(jié)果較高。

具體地,降維后的m*k階左奇異向量矩陣U用于限定用戶之間的相似性,而降維后的n*k階右奇異向量矩陣的轉(zhuǎn)置VT用于限定軌跡點(diǎn)之間的相似性,可通過目標(biāo)用戶與m*k階左奇異向量矩陣U進(jìn)行處理,以確定該社交相似用戶,也可通過目標(biāo)用戶的軌跡點(diǎn)和相應(yīng)的次數(shù)或頻率與n*k階右奇異向量矩陣的轉(zhuǎn)置VT進(jìn)行處理,以確定該社交相似用戶。

在一具體實(shí)施方式中,相似用戶確定模塊50具體包括目標(biāo)向量獲取單元51、相似度計(jì)算單元52和相似用戶確定單元53。

目標(biāo)向量獲取單元51,用于獲取目標(biāo)用戶的m*1階目標(biāo)向量。

采用與m*1階原始向量相同的獲取過程,獲取目標(biāo)用戶的m*1階目標(biāo)向量,操作過程簡單方便,數(shù)據(jù)處理量少。

相似度計(jì)算單元52,用于采用余弦相似度算法計(jì)算目標(biāo)向量與原始向量的相似度。

本實(shí)施例中采用向量空間余弦相似度(Cosine Similarity)計(jì)算目標(biāo)向量與原始向量的相似度。具體地,若a向量是(x1,y1),b向量是(x2,y2),則向量空間余弦相似度的計(jì)算公式如下:

由此可計(jì)算任意兩個用戶之間的相似度。

相似用戶確定單元53,用于將相似度最高的原始向量對應(yīng)的用戶確定為目標(biāo)用戶的社交相似用戶。

本實(shí)施例中,余弦值越接近1,則表明夾角越接近0度,即兩個向量越相似;夾角等于0,即兩個向量相等?;谀繕?biāo)用戶的目標(biāo)向量與任一用戶的原始向量的向量空間余弦相似度,確定相似度最高的原始向量對應(yīng)的用戶為目標(biāo)用戶的社交相似用戶,從而獲取與目標(biāo)用戶的生活習(xí)慣高度相似的社交相似用戶。

本實(shí)施例所提供的基于位置服務(wù)的人群分類裝置中,通過對用戶在預(yù)設(shè)期間內(nèi)獲取的地理位置信息進(jìn)行聚類分析,獲取生活習(xí)慣軌跡向量表,由于地理位置信息具有較強(qiáng)的客觀性和可靠性,使得形成的生活習(xí)慣軌跡向量表也具有較強(qiáng)的客觀性和可靠性。再基于生活習(xí)慣軌跡向量表構(gòu)建原始用戶軌跡矩陣并采用奇異值分解算法進(jìn)行矩陣,獲取重構(gòu)用戶軌跡矩陣,可基于該重構(gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶?;谥貥?gòu)用戶軌跡矩陣確定與目標(biāo)用戶相對應(yīng)的社交相似用戶的過程,操作簡單方便,無需采集大量數(shù)據(jù),且獲取的社交相似用戶與目標(biāo)用戶的生活習(xí)慣具有較高的相似性和客觀性,可向目標(biāo)用戶推送與社交相似用戶相同的產(chǎn)品或服務(wù),以提高目標(biāo)用戶對推送產(chǎn)品或服務(wù)的接受度,有利進(jìn)行業(yè)務(wù)推廣、廣告宣傳等。

本發(fā)明是通過幾個具體實(shí)施例進(jìn)行說明的,本領(lǐng)域技術(shù)人員應(yīng)當(dāng)明白,在不脫離本發(fā)明范圍的情況下,還可以對本發(fā)明進(jìn)行各種變換和等同替代。另外,針對特定情形或具體情況,可以對本發(fā)明做各種修改,而不脫離本發(fā)明的范圍。因此,本發(fā)明不局限于所公開的具體實(shí)施例,而應(yīng)當(dāng)包括落入本發(fā)明權(quán)利要求范圍內(nèi)的全部實(shí)施方式。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1