數(shù)據(jù)柵格化、用戶行為分析的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)處理領(lǐng)域,更具體的涉及一種數(shù)據(jù)柵格化、以及一種用戶行為分 析的方法和裝置。
【背景技術(shù)】
[0002] 隨著移動通信網(wǎng)絡(luò),互聯(lián)網(wǎng),移動終端(智能手機,汽車終端)等的發(fā)展,服務(wù)器 可以借助網(wǎng)絡(luò)中的其他節(jié)點獲得海量的用戶位置數(shù)據(jù)和用戶行為數(shù)據(jù)。其中,用戶位置數(shù) 據(jù)是運營商通過給用戶提供服務(wù)的基站采集到的用戶在某個時刻所在的位置,比如張 X在 2014年10月23日10:00:00分,位置為經(jīng)度113. 5678,煒度23. 111;用戶行為數(shù)據(jù)則是用 戶在某個時間,通過某個終端產(chǎn)生的行為屬性數(shù)據(jù),比如張 X在2014年10月23日10:00:00 分打了一次電話,時長2分鐘,又如百度用戶xyz在XX時間搜索了"西餐"。某個區(qū)域一段 時間內(nèi)大量的用戶位置數(shù)據(jù)和用戶行為數(shù)據(jù)可以反映出這個區(qū)域內(nèi)各種屬性指標如人流 量、消費情況、年齡或偏好等等以及這些屬性指標隨時間變化的趨勢,因此對這些數(shù)據(jù)的按 區(qū)域分析可以給運營商基建、連鎖超市、餐飲或加油站等實體商業(yè)機構(gòu)的選址或商業(yè)推廣 提供定量或定性的參考。
[0003] 然而,目前對某個區(qū)域內(nèi)某時間段內(nèi)的數(shù)據(jù)分析采用的數(shù)據(jù)柵格化的方法卻不能 滿足以上需求。具體的,現(xiàn)行方法是待分析區(qū)域內(nèi)基于運營商的位置數(shù)據(jù)和人群基本信息, 比如人流量與待分析區(qū)域中劃定的柵格進行匹配,即判斷數(shù)據(jù)的位置在哪個柵格中,之后 再以每個柵格為單位對柵格化的數(shù)據(jù)進行定性或定量的分析,得出某些規(guī)律或結(jié)論。通常, 數(shù)據(jù)柵格化采用射線法,具體為在多邊形外面任意一點畫一條虛擬的射線到P (X,y)然后 計算該射線與多邊形上的邊相交的次數(shù)。如果該次數(shù)是偶數(shù),說明P(x,y)在多邊形外,如 果是奇數(shù),則在多邊形內(nèi)。通過循環(huán)判斷每一條位置關(guān)聯(lián)數(shù)據(jù)處于哪一個柵格多邊形內(nèi),就 可以給每一條位置關(guān)聯(lián)數(shù)據(jù)生成一條柵格數(shù)據(jù)。
[0004] 假設(shè)柵格個數(shù)為g個,用戶數(shù)為m,時間段分為η個(如3個月按天分為90個時間 段),平均每個用戶每個時間段產(chǎn)生k條數(shù)據(jù),則所有用戶產(chǎn)生的記錄條數(shù)a = m*n*k。最簡 單的柵格化方法是,逐條遍歷每條數(shù)據(jù)與g個柵格,時間復(fù)雜度為m*n*k*g。假設(shè)m為百萬 級,k為10, η為100, g為1000,則需要遍歷IO12次以上,顯然時間復(fù)雜度太高,而且效率較 低。
[0005] 因此現(xiàn)行的柵格化方法無法處理不包含用戶位置信息的用戶行為數(shù)據(jù),更重要的 是,提取用戶的行為規(guī)律或偏好等數(shù)據(jù)需要以大量多樣化的實時柵格數(shù)據(jù)作為基礎(chǔ),而使 用現(xiàn)有的柵格化方法需要占用的計算資源多,效率低,不適合分析用戶的行為規(guī)律或偏好, 更無法滿足當下的實體商業(yè)機構(gòu)的選址或為商業(yè)推廣提供定量或定性的參考中的數(shù)據(jù)分 析需求。
【發(fā)明內(nèi)容】
[0006] 有鑒于此,本發(fā)明實施例提供了一種數(shù)據(jù)柵格化的方法和裝置,提高了數(shù)據(jù)柵格 化的效率。
[0007] 另一方面,本發(fā)明實施例提供了一種用戶行為的分析方法和裝置,以實現(xiàn)基于大 量多樣化的實時柵格數(shù)據(jù)的用戶行為規(guī)律或偏好分析。
[0008] 第一方面,本發(fā)明實施例提供了一種數(shù)據(jù)柵格化的方法,所述方法應(yīng)用于計算節(jié) 點,所述方法包括:
[0009] 根據(jù)產(chǎn)生于目標時間段中目標區(qū)域內(nèi)的用戶行為數(shù)據(jù),獲得所述用戶行為數(shù)據(jù)對 應(yīng)的用戶關(guān)聯(lián)數(shù)據(jù),所述用戶關(guān)聯(lián)數(shù)據(jù)包括一個或多個用戶的位置信息和所述一個或多個 用戶的行為信息;
[0010] 根據(jù)所述用戶關(guān)聯(lián)數(shù)據(jù)中的位置信息,計算所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的二維編號;
[0011] 以所述二維編號為查詢條件,在二維索引號集中獲得與所述二維編號匹配的二維 索引號,其中所述二維編號落入所述匹配的二維索引號的取值范圍,或者所述二維編號與 所述匹配的二維索引號相同,其中所述匹配的二維索引號表示的二級矩形柵格為所述用戶 關(guān)聯(lián)數(shù)據(jù)匹配的二級矩形柵格,所述二維索引號集包括多個二維索引號,每個所述二維索 引號表示所述目標區(qū)域內(nèi)或者與所述目標區(qū)域相交的一個二維矩形柵格;
[0012] 根據(jù)所述二級矩形柵格與所述一級柵格之間的對應(yīng)關(guān)系,確定所述用戶關(guān)聯(lián)數(shù)據(jù) 匹配的二級矩形柵格所對應(yīng)的一級柵格的柵格標識,所述二級矩形柵格在所述目標區(qū)域的 柵格密度大于所述目標區(qū)域的一級柵格的柵格密度;
[0013] 關(guān)聯(lián)所述一級柵格的柵格標識與所述用戶關(guān)聯(lián)數(shù)據(jù),以得到所述一級柵格的所述 用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的柵格數(shù)據(jù),所述柵格數(shù)據(jù)包括所述行為信息和所述柵格標識,所述柵 格數(shù)據(jù)用于分析所述目標時間段中經(jīng)過所述目標區(qū)域的用戶的行為規(guī)律或偏好。
[0014] 在第一方面的第一種可能的實現(xiàn)方式中,在根據(jù)所述用戶關(guān)聯(lián)數(shù)據(jù)中的位置信 息,計算所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的二維編號的方面,所述方法具體包括:
[0015] 根據(jù)所述用戶關(guān)聯(lián)數(shù)據(jù)中的位置信息,計算所述位置信息表示的位置點相對于所 述目標區(qū)域的標準點的位置參數(shù),所述標準點為所述目標區(qū)域中或與所述目標區(qū)域相交的 二維矩形柵格上經(jīng)煒度的值已知的一個點;
[0016] 將所述位置參數(shù)轉(zhuǎn)化為所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的二維編號。
[0017] 結(jié)合第一方面,或者第一方面第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式 中,所述方法還包括:
[0018] 設(shè)置二級矩形柵格的網(wǎng)格尺寸;
[0019] 根據(jù)所述網(wǎng)格尺寸,將所述目標區(qū)域按所述二級矩形柵格劃分;
[0020] 根據(jù)每個所述二級矩形柵格對應(yīng)的區(qū)域的位置信息,計算每個所述二級矩形柵格 對應(yīng)的二維索引號。
[0021] 結(jié)合第一方面,或者第一方面第一至第二種任意一種可能的實現(xiàn)方式,在第三種 可能的實現(xiàn)方式中,在根據(jù)所述二級矩形柵格與所述一級柵格之間的對應(yīng)關(guān)系,確定所述 用戶關(guān)聯(lián)數(shù)據(jù)匹配的二級矩形柵格所對應(yīng)的一級柵格的柵格標識的方面,所述方法具體包 括:
[0022] 計算所述二級矩形柵格在所述目標區(qū)域內(nèi)的每個頂點與所述一級柵格的網(wǎng)格的 位置關(guān)系,以確定每個所述頂點所對應(yīng)的一級柵格;
[0023] 根據(jù)每個所述頂點與所述一級柵格的對應(yīng)關(guān)系,確定在所述目標區(qū)域內(nèi)或與所述 目標區(qū)域相交的每個所述二級矩形柵格對應(yīng)的一級柵格;
[0024] 根據(jù)所述用戶關(guān)聯(lián)數(shù)據(jù)匹配的二級柵格的二維索引號,獲得所述用戶關(guān)聯(lián)數(shù)據(jù)匹 配的二級矩形柵格對應(yīng)的一級柵格的柵格標識。
[0025] 結(jié)合第一方面,或者第一方面第一至第三種任意一種可能的實現(xiàn)方式,在第四種 可能的實現(xiàn)方式中,在根據(jù)產(chǎn)生于目標時間段中目標區(qū)域內(nèi)的用戶行為數(shù)據(jù),獲得所述用 戶行為數(shù)據(jù)對應(yīng)的用戶關(guān)聯(lián)數(shù)據(jù)的方面,所述方法具體包括:
[0026] 在所述用戶行為數(shù)據(jù)攜帶位置信息的情況下,將所述用戶行為數(shù)據(jù)作為所述對應(yīng) 的用戶關(guān)聯(lián)數(shù)據(jù);
[0027] 在所述用戶行為數(shù)據(jù)不攜帶位置信息的情況下,根據(jù)所述用戶行為數(shù)據(jù)的產(chǎn)生時 間和用戶信息,獲得產(chǎn)生時間與所述用戶行為數(shù)據(jù)的產(chǎn)生時間最接近的同一用戶的用戶位 置數(shù)據(jù),所述用戶位置數(shù)據(jù)包括位置信息;
[0028] 將所述用戶位置數(shù)據(jù)中的位置信息關(guān)聯(lián)到所述用戶行為數(shù)據(jù),以得到所述用戶行 為數(shù)據(jù)對應(yīng)的用戶關(guān)聯(lián)數(shù)據(jù);
[0029] 在所述用戶位置數(shù)據(jù)的產(chǎn)生時間與所述用戶行為數(shù)據(jù)的產(chǎn)生時間之間的間隔大 于關(guān)聯(lián)時間閾值的情況下,計算所述用戶關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)置信度以及根據(jù)所述關(guān)聯(lián)置信度 處理所述用戶關(guān)聯(lián)數(shù)據(jù)。
[0030] 第二方面,本發(fā)明實施例提供了一種用戶行為分析方法,所述方法應(yīng)用于計算節(jié) 點,所述方法包括:
[0031] 根據(jù)產(chǎn)生于目標時間段中目標區(qū)域內(nèi)的用戶行為數(shù)據(jù),獲得所述用戶行為數(shù)據(jù)對 應(yīng)的用戶關(guān)聯(lián)數(shù)據(jù),所述用戶關(guān)聯(lián)數(shù)據(jù)包括一個或多個用戶的位置信息和所述一個或多個 用戶的行為信息;
[0032] 根據(jù)所述用戶關(guān)聯(lián)數(shù)據(jù)中的位置信息,計算所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的二維編號;
[0033] 以所述二維編號為查詢條件,在二維索引號集中獲得與所述二維編號匹配的二維 索引號,其中所述二維編號落入二維索引號的范圍,或者所述二維編號與二維索引號相同, 其中所述匹配的二維索引號表示的二級矩形柵格為所述用戶關(guān)聯(lián)數(shù)據(jù)匹配的二級矩形柵 格,所述二維索引號集包括多個二維索引號,每個所述二維索引號表示所述目標區(qū)域內(nèi)或 者與所述目標區(qū)域相交的一個二維矩形柵格;
[0034] 根據(jù)所述二級矩形柵格與所述一級柵格之間的對應(yīng)關(guān)系,確定所述用戶關(guān)聯(lián)數(shù)據(jù) 匹配的二級矩形柵格所對應(yīng)的一級柵格的柵格標識,所述二級矩形柵格在所述目標區(qū)域的 柵格密度大于所述目標區(qū)域的一級柵格的柵格密度;
[0035] 關(guān)聯(lián)所述一級柵格的柵格標識與所述用戶關(guān)聯(lián)數(shù)據(jù),以得到所述一級柵格的所述 用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的柵格數(shù)據(jù),所述柵格數(shù)據(jù)包括所述行為信息和所述柵格標識;
[0036] 根據(jù)至少一個所述一級柵格的一條或多條所述柵格數(shù)據(jù),提取所述一級柵格在所 述目標時間段中的柵格特征數(shù)據(jù),所述柵格特征數(shù)據(jù)表示所述目標時間段中經(jīng)過所述目標 區(qū)域的用戶的行為規(guī)律或偏好。
[0037] 在第二方面的第一種可能的實現(xiàn)方式中,在根據(jù)所述用戶關(guān)聯(lián)數(shù)據(jù)中的位置信 息,計算所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的二維編號的方面,所述方法具體包括:
[0038] 根據(jù)所述用戶關(guān)聯(lián)數(shù)據(jù)中的位置信息,計算所述位置信息表示的位置點相對于所 述目標區(qū)域的標準點的位置參數(shù),所述標準點為所述目標區(qū)域中或與所述目標區(qū)域相交的 二維矩形柵格上經(jīng)煒度值已知的一個點;
[0039] 將所述位置參數(shù)轉(zhuǎn)化為所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的二維編號。
[0040] 結(jié)合第二方面,或者第二方面第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式 中,所述方法還包括:
[0041] 設(shè)置二級矩形柵格的網(wǎng)格尺寸;
[0042] 根據(jù)所述網(wǎng)格尺寸,將所述目標區(qū)域按所述二級矩形柵格劃分;
[0043] 根據(jù)每個所述二級矩形柵格對應(yīng)的區(qū)域的位置信息,計算每個所述二級矩形柵格 對應(yīng)的二維索引號。
[0044] 結(jié)合第二方面,或者第二方面第一至第二種任意一種可能的實現(xiàn)方式,在第三種 可能的實現(xiàn)方式中,在根據(jù)所述二級矩形柵格與所述一級柵格之間的對應(yīng)關(guān)系,確定所述 用戶關(guān)聯(lián)數(shù)據(jù)匹配的二級矩形柵格所對應(yīng)的一級柵格的柵格標識的方面,所述方法具體包 括:
[0045] 計算所述二級矩形柵格在所述目標區(qū)域內(nèi)的每個頂點與所述一級柵格的網(wǎng)格的 位置關(guān)系,以確定每個所述頂點所對應(yīng)的一級柵格;
[0046] 根據(jù)每個所述頂點與所述一級柵格的對應(yīng)關(guān)系,確定在所述目標區(qū)域內(nèi)或與所述 目標區(qū)域相交的每個所述二級矩形柵格對應(yīng)的一級柵格;
[0047] 根據(jù)所述用戶關(guān)聯(lián)數(shù)據(jù)匹配的二級柵格的二維索引號,獲得所述用戶關(guān)聯(lián)數(shù)據(jù)匹 配的二級矩形柵格對應(yīng)的一級柵格的柵格標識。
[0048] 結(jié)合第二方面,或者第二方面第一至第三種任意一種可能的實現(xiàn)方式,在第四種 可能的實現(xiàn)方式中,在根據(jù)產(chǎn)生于目標時間段中目標區(qū)域內(nèi)的用戶行為數(shù)據(jù),獲得所述用 戶行為數(shù)據(jù)對應(yīng)的用戶關(guān)聯(lián)數(shù)據(jù)的方面,所述方法具體包括:
[0049] 在所述用戶行為數(shù)據(jù)攜帶位置信息的情況下,將所述用戶行為數(shù)據(jù)作為所述對應(yīng) 的用戶關(guān)聯(lián)數(shù)據(jù);
[0050] 在所述用戶行為數(shù)據(jù)不攜帶位置信息的情況下,根據(jù)所述用戶行為數(shù)據(jù)的產(chǎn)生時 間和用戶信息,獲得產(chǎn)生時間與所述用戶行為數(shù)據(jù)的產(chǎn)生時間最接近的同一用戶的用戶位 置數(shù)據(jù),所述用戶位置數(shù)據(jù)包括位置信息;
[0051] 將所述用戶位置數(shù)據(jù)中的位置信息關(guān)聯(lián)到所述用戶行為數(shù)據(jù),以得到所述用戶行 為數(shù)據(jù)對應(yīng)的用戶關(guān)聯(lián)數(shù)據(jù);
[0052] 在所述用戶位置數(shù)據(jù)的產(chǎn)生時間與所述用戶行為數(shù)據(jù)的產(chǎn)生時間之間的間隔大 于關(guān)聯(lián)時間閾值的情況下,計算所述用戶關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)置信度以及根據(jù)所述關(guān)聯(lián)置信度 處理所述用戶關(guān)聯(lián)數(shù)據(jù)。
[0053] 第三方面,本發(fā)明實施例提供了一種數(shù)據(jù)柵格化的方法,所述方法應(yīng)用于計算節(jié) 點,所述方法包括:
[0054] 根據(jù)產(chǎn)生于目標時間段中目標區(qū)域內(nèi)的用戶行為數(shù)據(jù),獲得所述用戶行為數(shù)據(jù)對 應(yīng)的用戶關(guān)聯(lián)數(shù)據(jù),所述用戶關(guān)聯(lián)數(shù)據(jù)包括一個或多個用戶的位置信息和所述一個或多個 用戶的行為信息;
[0055] 根據(jù)所述位置信息,與所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的用戶歷史柵格集中的柵格的位置 信息進行匹配,以得到與所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的柵格的柵格標識;
[0056] 在獲得所述柵格標識的情況下,根據(jù)所述用戶關(guān)聯(lián)數(shù)據(jù)與所述柵格標識,得到所 述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的柵格數(shù)據(jù);
[0057] 在未獲得所述柵格標識的情況下,將所述位置信息與所述目標區(qū)域的不在所述用 戶歷史柵格集中的柵格的位置信息進行匹配,以得到所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的柵格的柵格 標識,關(guān)聯(lián)所述柵格標識與所述用戶關(guān)聯(lián)數(shù)據(jù)以得到所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的柵格數(shù)據(jù), 以及將所述柵格標識加入所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的用戶歷史柵格集;
[0058] 其中所述柵格數(shù)據(jù)包括所述行為信息和所述柵格標識,所述柵格數(shù)據(jù)用于分析所 述目標時間段中經(jīng)過所述目標區(qū)域的用戶的行為規(guī)律或偏好。
[0059] 在第三方面的第一種可能的實現(xiàn)方式中,所述方法還包括:
[0060] 根據(jù)所述用戶關(guān)聯(lián)數(shù)據(jù)中攜帶的用戶信息,確定所述用戶關(guān)聯(lián)數(shù)據(jù)對應(yīng)的用戶歷 史柵格集。
[0061] 結(jié)合第三方面,或者第三方面第一種可能的實現(xiàn)方式,在第二種可能的實現(xiàn)方式 中,在根據(jù)產(chǎn)生于目標時間段中目標區(qū)域內(nèi)的用戶行為數(shù)據(jù),獲得所述用戶行為數(shù)據(jù)對應(yīng) 的用戶關(guān)聯(lián)數(shù)據(jù)的方面,所述方法具體包括:
[0062] 在所述用戶行為數(shù)據(jù)攜帶位置信息的情況下,將所述用戶行為數(shù)據(jù)作為所述對應(yīng) 的用戶關(guān)聯(lián)數(shù)據(jù);
[0063] 在所述用戶行為數(shù)據(jù)不攜帶位置信息的情況下,根據(jù)所述用戶行為數(shù)據(jù)的產(chǎn)生時 間和用戶信息,獲得產(chǎn)生時間與所述用戶行為數(shù)據(jù)的產(chǎn)生時間最接近的同一用戶的用戶位 置數(shù)據(jù),所述用戶位置數(shù)據(jù)包括位置信息;
[0064] 將所述用戶位置數(shù)據(jù)中的位置信息關(guān)聯(lián)到所述用戶行為數(shù)據(jù),以得到所述用戶行 為數(shù)據(jù)對應(yīng)的用戶關(guān)聯(lián)數(shù)據(jù);
[0065] 在所述用戶位置數(shù)據(jù)的產(chǎn)生時間與所述用戶行為數(shù)據(jù)的產(chǎn)生時間之間的間隔大 于關(guān)聯(lián)時間閾值的情況下,計算所述用戶關(guān)聯(lián)數(shù)據(jù)的關(guān)聯(lián)置信度以及根據(jù)所述關(guān)聯(lián)置信度 處理所述用戶關(guān)聯(lián)數(shù)據(jù)。
[0066] 第四方面,本發(fā)明實施例提供了一種用戶行為的分析方法,所述方法應(yīng)用于計算 節(jié)點,所述方法包括:
[0067] 根據(jù)產(chǎn)生于目標時間段中目標區(qū)域內(nèi)的用戶行為數(shù)據(jù),獲得所述用戶行為數(shù)據(jù)對 應(yīng)的用戶關(guān)聯(lián)數(shù)據(jù),所述用戶關(guān)聯(lián)數(shù)據(jù)包括一個或多個用戶的位置信息和所述一個或多個 用戶的行為信息;
[0068] 根據(jù)所述位置信息