本發(fā)明屬于基于用戶(hù)軌跡數(shù)據(jù)的位置預(yù)測(cè)技術(shù)領(lǐng)域,更為具體地講,涉及一種融合個(gè)體與近鄰移動(dòng)規(guī)律的位置預(yù)測(cè)方法。
背景技術(shù):
隨著衛(wèi)星、無(wú)線網(wǎng)絡(luò)以及定位設(shè)備的發(fā)展,大量用戶(hù)軌跡數(shù)據(jù)呈急速增長(zhǎng)的趨勢(shì),如車(chē)輛軌跡數(shù)據(jù)、人員移動(dòng)軌跡數(shù)據(jù)等。通過(guò)用戶(hù)軌跡數(shù)據(jù)挖掘發(fā)現(xiàn)隱含的知識(shí),研究人類(lèi)行為模式并做出預(yù)測(cè),可以幫助政府和用戶(hù)做出更好的決策,甚至可以成為解決城市交通、城市環(huán)境、突發(fā)應(yīng)急事件等重大社會(huì)問(wèn)題的有效手段。例如,在交通方面,通過(guò)分析車(chē)輛的軌跡數(shù)據(jù)可以得知道路的擁堵情況,從而可以根據(jù)推測(cè)的擁堵情況來(lái)向車(chē)輛提示路況堵塞情況和最佳導(dǎo)航,方便城市交通的協(xié)調(diào);另外,通過(guò)分析用戶(hù)軌跡數(shù)據(jù),還可以挖掘出人們之間的社交關(guān)系,從而為人們提供旅游、好友推薦等服務(wù);城市規(guī)劃方面,通過(guò)分析市民的出行習(xí)慣,分析熱點(diǎn)區(qū)域和出行習(xí)慣,更好的建立城市區(qū)域的功能劃分與基礎(chǔ)交通設(shè)施的建設(shè)。因此,近年來(lái)用戶(hù)軌跡數(shù)據(jù)挖掘越來(lái)越受到各界的關(guān)注,包括計(jì)算機(jī)科學(xué)、社會(huì)學(xué)和地理學(xué)等在內(nèi)的各個(gè)領(lǐng)域都將其列為重要研究課題。而移動(dòng)對(duì)象(車(chē)輛、人員)的位置預(yù)測(cè)技術(shù)可以向用戶(hù)提供更好的基于位置的服務(wù),有助于分析和理解用戶(hù)軌跡數(shù)據(jù),具有深遠(yuǎn)的意義和巨大的發(fā)展空間?;谟脩?hù)軌跡數(shù)據(jù)的位置預(yù)測(cè)技術(shù),在城市規(guī)劃、交通管控、用戶(hù)位置預(yù)測(cè)、用戶(hù)位置推薦、社會(huì)人類(lèi)學(xué)研究等政府和商業(yè)應(yīng)用中有著不可估量的作用。
傳統(tǒng)的位置預(yù)測(cè)技術(shù),分為對(duì)用戶(hù)個(gè)人位置的預(yù)測(cè)和對(duì)群體位置分布的預(yù)測(cè)兩類(lèi)?;趥€(gè)人歷史用戶(hù)軌跡數(shù)據(jù),重點(diǎn)關(guān)注個(gè)人歷史用戶(hù)軌跡數(shù)據(jù)中所具有的周期性模式或地理分布模式,如挖掘個(gè)人移動(dòng)規(guī)律等,但該類(lèi)方法不僅忽略了用戶(hù)作為具有社會(huì)屬性特征的個(gè)體這一重要特點(diǎn),而且在用戶(hù)個(gè)人移動(dòng)模式發(fā)現(xiàn)、時(shí)間與空間緊耦合等問(wèn)題上存在缺陷。對(duì)群體位置分布的預(yù)測(cè)大多集中于分析一個(gè)地區(qū)范圍內(nèi)的車(chē)流量或用戶(hù)密度較高的空間分布特點(diǎn),忽略了群體的基礎(chǔ)是個(gè)體,群體是由個(gè)體匯聚而成,這一基礎(chǔ)社會(huì)學(xué)理論。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于克服現(xiàn)有技術(shù)的不足,提供一種融合個(gè)體與近鄰移動(dòng)規(guī)律的位置預(yù)測(cè)方法,以提高位置預(yù)測(cè)抗噪聲能力,更加符合社會(huì)學(xué)規(guī)律即位置預(yù)測(cè)更加魯棒,準(zhǔn)確度更高。
為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明融合個(gè)體與近鄰移動(dòng)規(guī)律的位置預(yù)測(cè)方法,其特征在于,包括以下步驟:
(1)、用戶(hù)移動(dòng)數(shù)據(jù)收集與整理清洗
收集用戶(hù)移動(dòng)數(shù)據(jù),根據(jù)分析需求對(duì)用戶(hù)移動(dòng)數(shù)據(jù)進(jìn)行整理清洗,采用相關(guān)的關(guān)鍵地點(diǎn)信息提取技術(shù)(即POI,Point of Interest發(fā)現(xiàn)及提取)對(duì)隱藏在用戶(hù)移動(dòng)數(shù)據(jù)中重要(關(guān)鍵)地點(diǎn)的時(shí)間位置信息進(jìn)行提取,得到用戶(hù)軌跡數(shù)據(jù)。
(2)、K近鄰發(fā)現(xiàn)
將每個(gè)用戶(hù)的軌跡數(shù)據(jù)映射為一個(gè)帶時(shí)空特征的網(wǎng)絡(luò)即用戶(hù)軌跡網(wǎng)絡(luò),對(duì)需要進(jìn)行位置預(yù)測(cè)的用戶(hù)即預(yù)測(cè)用戶(hù),將其用戶(hù)軌跡網(wǎng)絡(luò)與其他用戶(hù)軌跡網(wǎng)絡(luò)進(jìn)行相似度度量,找到相似度最大的K個(gè)用戶(hù),這K個(gè)用戶(hù)為預(yù)測(cè)用戶(hù)的K個(gè)近鄰;
對(duì)K個(gè)近鄰的相似度進(jìn)行歸一化處理,并作為K個(gè)近鄰對(duì)預(yù)測(cè)用戶(hù)的影響權(quán)值:
其中,Sk為K個(gè)近鄰中第k個(gè)的相似度,wk為對(duì)應(yīng)的影響權(quán)值;
(3)、位置移動(dòng)模式確定
對(duì)于預(yù)測(cè)用戶(hù),在時(shí)間段T內(nèi),從位置A到位置B后所有可能到達(dá)的位置為Ci,則三個(gè)連續(xù)位置即位置A、位置B以及Ci構(gòu)成一個(gè)位置移動(dòng)模式<A-B-Ci,T>;其中,i為可能到達(dá)位置的序號(hào),i=1,2,…,I,I為所有可能到達(dá)位置的數(shù)量;
(4)、用戶(hù)位置預(yù)測(cè)
在預(yù)測(cè)用戶(hù)的K個(gè)近鄰中,對(duì)于每個(gè)近鄰,在其歷史用戶(hù)軌跡數(shù)據(jù)找到位置移動(dòng)模式<A-B-Ci,T>,并計(jì)算該位置移動(dòng)模式發(fā)生的可能性NPrk<A-B-Ci,T>,則預(yù)測(cè)用戶(hù)到達(dá)第i個(gè)位置的可能性為:
其中,Pr(<A-B-Ci,T>)為預(yù)測(cè)用戶(hù)在時(shí)間段T內(nèi),從位置A到位置B后到達(dá)的位置Ci的可能性,UPr(<A-B-Ci,T>)為預(yù)測(cè)用戶(hù)歷史用戶(hù)軌跡數(shù)據(jù)中位置移動(dòng)模式<A-B-Ci,T>發(fā)生的可能性。
本發(fā)明的目的是這樣實(shí)現(xiàn)的。
本發(fā)明融合個(gè)體與近鄰移動(dòng)規(guī)律的位置預(yù)測(cè)方法,首先提取用戶(hù)移動(dòng)數(shù)據(jù)中重要(關(guān)鍵)地點(diǎn)的時(shí)間位置信息進(jìn)行提取,得到用戶(hù)軌跡數(shù)據(jù),然后通過(guò)映射,找出圍繞預(yù)測(cè)用戶(hù)且具有相似時(shí)空分布的K個(gè)用戶(hù),再通過(guò)挖掘歷史用戶(hù)軌跡數(shù)據(jù)中形如<A-B-C,T>(其中A,B,C代表提取出的位置,且A,B,C具有先后順序性,T代表該A-B-C位置模式所具備的時(shí)間特征即時(shí)間段)的位置移動(dòng)模式。在K個(gè)近鄰中,搜索具有相同位置移動(dòng)模式,將預(yù)測(cè)用戶(hù)與近鄰的相似度作為權(quán)重,與預(yù)測(cè)用戶(hù)(個(gè)體)進(jìn)行融合??紤]了K個(gè)近鄰用戶(hù)的相似度并作為權(quán)重對(duì)預(yù)測(cè)用戶(hù)本身的影響,同時(shí)搜索相關(guān)的移動(dòng)規(guī)律即位置移動(dòng)模式進(jìn)行位置預(yù)測(cè),這樣的技術(shù)思路相較與傳統(tǒng)位置預(yù)測(cè)方法更加的魯棒,抗噪聲能力更強(qiáng),也更加符合社會(huì)學(xué)規(guī)律,準(zhǔn)確度更高。
附圖說(shuō)明
圖1是本發(fā)明融合個(gè)體與近鄰移動(dòng)規(guī)律的位置預(yù)測(cè)方法的一種具體實(shí)施方式流程圖;
圖2是圖1所示K近鄰發(fā)現(xiàn)中用戶(hù)軌跡數(shù)據(jù)映射的用戶(hù)軌跡網(wǎng)絡(luò)示意圖;
圖3是圖1所示K近鄰發(fā)現(xiàn)中位置時(shí)間分布示意圖,其中(a)為到達(dá)地點(diǎn)1時(shí)間分布,(b)為離開(kāi)地點(diǎn)1時(shí)間分布;
圖4是本發(fā)明中K近鄰搜索過(guò)程中所采用的近鄰權(quán)重影響一具體實(shí)例示意圖;
圖5是本發(fā)明中對(duì)于用戶(hù)的位置移動(dòng)模式的挖掘,通過(guò)挖掘分析用戶(hù)歷史的移動(dòng)數(shù)據(jù)提取形如<A-B-Ci,T>位置移動(dòng)模式;
圖6是圖1中基于個(gè)體規(guī)律和近鄰規(guī)律的位置預(yù)測(cè)示意圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明的具體實(shí)施方式進(jìn)行描述,以便本領(lǐng)域的技術(shù)人員更好地理解本發(fā)明。需要特別提醒注意的是,在以下的描述中,當(dāng)已知功能和設(shè)計(jì)的詳細(xì)描述也許會(huì)淡化本發(fā)明的主要內(nèi)容時(shí),這些描述在這里將被忽略。
圖1是本發(fā)明融合個(gè)體與近鄰移動(dòng)規(guī)律的位置預(yù)測(cè)方法的一種具體實(shí)施方式流程圖。
在本實(shí)施例中,如圖1所示,本發(fā)明融合個(gè)體與近鄰移動(dòng)規(guī)律的位置預(yù)測(cè)方法包括以下步驟:
S1:用戶(hù)移動(dòng)數(shù)據(jù)收集與整理清洗
用戶(hù)移動(dòng)數(shù)據(jù),如:用戶(hù)手機(jī)定位服務(wù)GPS數(shù)據(jù)、車(chē)輛定位儀的GPS數(shù)據(jù)、航空公司航班飛行數(shù)據(jù)、火車(chē)開(kāi)行數(shù)據(jù)等。
GPS數(shù)據(jù)包括每個(gè)時(shí)間采樣刻度,用戶(hù)所在的經(jīng)緯度信息。航空公司航班飛行數(shù)據(jù)即為每個(gè)用戶(hù)的行程單數(shù)據(jù),火車(chē)開(kāi)行數(shù)據(jù)為用戶(hù)乘坐的火車(chē)出行的數(shù)據(jù)。
在GPS數(shù)據(jù)中,由于GPS數(shù)據(jù)中冗余信息過(guò)多,需要提取具有時(shí)空分布特征的重要(關(guān)鍵)地點(diǎn)的時(shí)間位置信息,在此我們采用傳統(tǒng)的POI(Point of Interest)提取方法,對(duì)隱藏在GPS數(shù)據(jù)中的重要(關(guān)鍵)地點(diǎn)的位置信息進(jìn)行提取,并提取對(duì)應(yīng)位置的時(shí)間分布信息,得到用戶(hù)軌跡數(shù)據(jù)。
在具體實(shí)施過(guò)程中,也可以采用其他類(lèi)似提取方法或是參考專(zhuān)家知識(shí)對(duì)位置數(shù)據(jù)中的重要地點(diǎn)的時(shí)間位置信息進(jìn)行提取。
S2:K近鄰發(fā)現(xiàn)
為了更好地反映預(yù)測(cè)用戶(hù)與其他用戶(hù)的相關(guān)性,在本實(shí)施例中,提出了一種新的用戶(hù)軌跡距離度量函數(shù),可以更好地度量出預(yù)測(cè)用戶(hù)與其他用戶(hù)軌跡的相似度。針對(duì)每個(gè)用戶(hù)的軌跡數(shù)據(jù),將其映射為一個(gè)帶時(shí)空特征的網(wǎng)絡(luò)即用戶(hù)軌跡網(wǎng)絡(luò),將位置變?yōu)榫W(wǎng)絡(luò)中的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)存儲(chǔ)關(guān)于這個(gè)位置的兩個(gè)信息:1.這個(gè)位置在軌跡中出現(xiàn)的次數(shù)(作為節(jié)點(diǎn)的權(quán)重);2.以及進(jìn)入和離開(kāi)這個(gè)地點(diǎn)的時(shí)間分布。這兩者分別反映了該位置的空間信息和時(shí)間信息。用戶(hù)軌跡的相似度的問(wèn)題就轉(zhuǎn)化為了用戶(hù)軌跡網(wǎng)絡(luò)的相似度。在本實(shí)施例中,采用巴氏距離來(lái)進(jìn)行用戶(hù)軌跡網(wǎng)絡(luò)的相似度度量,巴氏距離是一種被廣泛使用的度量離散變量或者連續(xù)變量概率分布之間的距離的指標(biāo)。
在本實(shí)施例中,具體相似度度量方法如下:
為了能夠更加清晰的描述本發(fā)明中的用戶(hù)軌跡網(wǎng)絡(luò)相似度度量方法給出如下幾個(gè)定義:
定義1.用戶(hù)軌跡。在本實(shí)施例中,用Γ表示所有用戶(hù)軌跡構(gòu)成的集合,用L表示一條用戶(hù)軌跡數(shù)據(jù),Γ中第j個(gè)用戶(hù)的軌跡數(shù)據(jù)用L(j)表示。用戶(hù)軌跡數(shù)據(jù)L(j)由一系列包含時(shí)間位置信息的點(diǎn)構(gòu)成,可以是多天,甚至一個(gè)月的。
在本實(shí)施例中,用戶(hù)軌跡數(shù)據(jù)L(j)={<地點(diǎn)3,6:30,到達(dá)>,<地點(diǎn)3,7:00,離開(kāi)>,<地點(diǎn)2,7:10,到達(dá)>,<地點(diǎn)2,7:30,離開(kāi)>,<地點(diǎn)3,7:45,到達(dá)>,<地點(diǎn)3,8:05,離開(kāi)>,<地點(diǎn)1,8:15,到達(dá)>,<地點(diǎn)1,8:35,離開(kāi)>,…,<地點(diǎn)1,10:30,到達(dá)>,<地點(diǎn)1,11:00,離開(kāi)>,<地點(diǎn)5,11:30,到達(dá)>,<地點(diǎn)5,12:00,離開(kāi)>,<地點(diǎn)4,12:30,到達(dá)>,…}。相應(yīng)映射的用戶(hù)軌跡網(wǎng)絡(luò)如圖2所示。
定義2.用戶(hù)軌跡網(wǎng)絡(luò)。對(duì)每一條用戶(hù)軌跡,我們可以將其軌跡數(shù)據(jù)映射為一個(gè)用戶(hù)軌跡網(wǎng)絡(luò)N,N=(V,PV),其中V是節(jié)點(diǎn)構(gòu)成的集合,對(duì)于集合V中的任意一個(gè)節(jié)點(diǎn)v代表用戶(hù)軌跡中的一個(gè)位置;每個(gè)節(jié)點(diǎn)包含兩個(gè)屬性:
(1)、進(jìn)入和離開(kāi)節(jié)點(diǎn)(位置)分別的權(quán)值。比如對(duì)于第j個(gè)用戶(hù)的軌跡網(wǎng)絡(luò)N(j)中的第q個(gè)節(jié)點(diǎn)我們根據(jù)在軌跡中到達(dá)該位置和離開(kāi)該位置次數(shù)賦予其權(quán)值和用戶(hù)軌跡數(shù)據(jù)L(j)出現(xiàn)位置的集合記為看作(離散)隨機(jī)變量中到達(dá)第q個(gè)位置的概率作為進(jìn)入q節(jié)點(diǎn)的權(quán)值,表示第j個(gè)用戶(hù)軌跡數(shù)據(jù)所有位置到達(dá)次數(shù)之和;中離開(kāi)第q個(gè)位置的概率作為離開(kāi)該位置的權(quán)值,表示第j個(gè)用戶(hù)軌跡數(shù)據(jù)所有位置離開(kāi)次數(shù)之和。
(2)、進(jìn)入和離開(kāi)節(jié)點(diǎn)(位置)的時(shí)間分布,如圖2中所示,節(jié)點(diǎn)地點(diǎn)1的時(shí)間分布,分為兩部分:一是進(jìn)入該節(jié)點(diǎn)的時(shí)間分布,二是離開(kāi)該節(jié)點(diǎn)的時(shí)間分布。
第j個(gè)用戶(hù)的軌跡網(wǎng)絡(luò)N(j)中的第q個(gè)節(jié)點(diǎn)的到達(dá)時(shí)間也可以看作隨機(jī)變量,用表示,簡(jiǎn)記為離開(kāi)時(shí)間用表示,簡(jiǎn)記為將所有節(jié)點(diǎn)的時(shí)間和離散化后,劃分為H個(gè)位置時(shí)間段,出現(xiàn)在第h位置時(shí)間段內(nèi)的次數(shù)為則出現(xiàn)在第h位置時(shí)間段內(nèi)的概率其中,出現(xiàn)在各個(gè)即H個(gè)時(shí)間段內(nèi)的次數(shù)為次數(shù)之和,也就是到達(dá)第q個(gè)節(jié)點(diǎn)的次數(shù)。
同理,出現(xiàn)在第h位置時(shí)間段內(nèi)的次數(shù)為則現(xiàn)在第h位置時(shí)間段內(nèi)的概率
在本實(shí)施例中,如圖3所示,在到達(dá)位置即地點(diǎn)1時(shí)間分布主要集中在8:00-10:00位置時(shí)間段,為18次,其概率0.529,而離開(kāi)的位置即地點(diǎn)1時(shí)間分布主要集中在10:00-12:00位置時(shí)間段,為16次,其概率為0.471。
兩個(gè)用戶(hù)軌跡網(wǎng)絡(luò)相似度度量方法如下1、度量?jī)蓚€(gè)網(wǎng)絡(luò)到達(dá)對(duì)應(yīng)節(jié)點(diǎn)的時(shí)空分布,2度量?jī)蓚€(gè)網(wǎng)絡(luò)離開(kāi)對(duì)應(yīng)節(jié)點(diǎn)的時(shí)空分布,將兩者相加為兩個(gè)軌跡相似度的度量結(jié)果。
到達(dá)對(duì)應(yīng)節(jié)點(diǎn)的時(shí)空分布度量方法與離開(kāi)對(duì)應(yīng)節(jié)點(diǎn)的時(shí)空分布度量方法相同,在此僅以到達(dá)對(duì)應(yīng)時(shí)間節(jié)點(diǎn)的時(shí)空分布度量方法為例,具體度量方法如下。
1、預(yù)測(cè)用戶(hù)的用戶(hù)軌跡數(shù)據(jù)為第m條,表示為L(zhǎng)(m),其他與之進(jìn)行相似度度量的用戶(hù)軌跡數(shù)據(jù)為第n條,表示為L(zhǎng)(n),兩個(gè)用戶(hù)(預(yù)測(cè)用戶(hù)和與之進(jìn)行相似度度量的用戶(hù))軌跡網(wǎng)絡(luò)到達(dá)節(jié)點(diǎn)的空間距離Diss(m,n)in為:
其中為預(yù)測(cè)用戶(hù)的用戶(hù)軌跡數(shù)據(jù)中到達(dá)第q個(gè)位置的概率,為到達(dá)第q個(gè)位置的次數(shù),表示預(yù)測(cè)用戶(hù)的用戶(hù)軌跡數(shù)據(jù)中所有位置到達(dá)次數(shù)之和;為與預(yù)測(cè)用戶(hù)進(jìn)行相似度度量的用戶(hù)軌跡數(shù)據(jù)中到達(dá)第q個(gè)位置的概率,為到達(dá)第q個(gè)位置的次數(shù),表示與預(yù)測(cè)用戶(hù)進(jìn)行相似度度量的用戶(hù)軌跡數(shù)據(jù)中所有位置到達(dá)次數(shù)之和;表示位置q屬于預(yù)測(cè)用戶(hù)的用戶(hù)軌跡數(shù)據(jù)或其他與之進(jìn)行相似度度量用戶(hù)的用戶(hù)軌跡數(shù)據(jù)中的一個(gè)位置,并且其中的
表示所有屬于兩個(gè)用戶(hù)軌跡數(shù)據(jù)中位置上到達(dá)概率乘積的平方根之和,其中,預(yù)測(cè)用戶(hù)的用戶(hù)軌跡數(shù)據(jù)中出現(xiàn)的位置集合,與預(yù)測(cè)用戶(hù)進(jìn)行相似度度量的用戶(hù)的用戶(hù)軌跡數(shù)據(jù)中出現(xiàn)的位置集合;
同理,可以得到兩個(gè)用戶(hù)(預(yù)測(cè)用戶(hù)與之進(jìn)行相似度度量的用戶(hù))軌跡網(wǎng)絡(luò)離開(kāi)節(jié)點(diǎn)的空間距離Diss(m,n)out。
2、兩個(gè)用戶(hù)(預(yù)測(cè)用戶(hù)與之進(jìn)行相似度度量的用戶(hù))軌跡網(wǎng)絡(luò)到達(dá)節(jié)點(diǎn)的時(shí)間距離Dist(m,n)in可表示為:
其中,N為兩個(gè)用戶(hù)(預(yù)測(cè)用戶(hù)與之進(jìn)行相似度度量的用戶(hù))軌跡網(wǎng)絡(luò)的節(jié)點(diǎn)數(shù)量,為預(yù)測(cè)用戶(hù)的用戶(hù)軌跡數(shù)據(jù)中到達(dá)第q個(gè)位置的時(shí)間出現(xiàn)在第h位置時(shí)間段內(nèi)的概率,為與預(yù)測(cè)用戶(hù)進(jìn)行相似度度量用戶(hù)的用戶(hù)軌跡數(shù)據(jù)中到達(dá)第q個(gè)位置的時(shí)間出現(xiàn)在第h位置時(shí)間段內(nèi)的概率;
并且其中的
表示兩個(gè)用戶(hù)軌跡數(shù)據(jù)中所有H個(gè)位置時(shí)間段到達(dá)第q個(gè)位置的出現(xiàn)在各個(gè)位置時(shí)間段內(nèi)的概率乘積的平方根之和;
同理,可以得到得到兩個(gè)用戶(hù)(預(yù)測(cè)用戶(hù)與之進(jìn)行相似度度量的用戶(hù))軌跡網(wǎng)絡(luò)離開(kāi)節(jié)點(diǎn)的的時(shí)間距離Dist(m,n)out可表示為:
其中為預(yù)測(cè)用戶(hù)的用戶(hù)軌跡數(shù)據(jù)中離開(kāi)第q個(gè)位置的時(shí)間出現(xiàn)在第h位置時(shí)間段內(nèi)的概率,為與預(yù)測(cè)用戶(hù)進(jìn)行相似度度量用戶(hù)的用戶(hù)軌跡數(shù)據(jù)中離開(kāi)第q個(gè)位置的時(shí)間出現(xiàn)在第h位置時(shí)間段內(nèi)的概率;
并且其中的
表示兩個(gè)用戶(hù)軌跡數(shù)據(jù)中所有H個(gè)位置時(shí)間段離開(kāi)第q個(gè)位置出現(xiàn)在各個(gè)位置時(shí)間段內(nèi)的概率乘積的平方根之和;
則到達(dá)節(jié)點(diǎn)的時(shí)空分布度量為Diss(m,n)in與Dist(m,n)in的積:
Dis(m,n)in=Diss(m,n)in×Dist(m,n)in
離開(kāi)節(jié)點(diǎn)的時(shí)空分布度量方法與到達(dá)對(duì)應(yīng)節(jié)點(diǎn)的時(shí)空分布度量方法相同,為Dis(m,n)out=Diss(m,n)out×Dist(m,n)out。
3、兩個(gè)用戶(hù)(預(yù)測(cè)用戶(hù)與之進(jìn)行相似度度量的用戶(hù))軌跡網(wǎng)絡(luò)的距離Dis(m,n)最終由上述兩部分距離共同決定,即:
Dis(m,n)=Dis(m,n)in+Dis(m,n)out
兩個(gè)用戶(hù)(預(yù)測(cè)用戶(hù)與之進(jìn)行相似度度量的用戶(hù))軌跡網(wǎng)絡(luò)的相似度S(m,n)可以簡(jiǎn)單地由Dis(m,n)得到:
S(m,n)=e-Dis(m,n)。
K近鄰規(guī)律是本發(fā)明中重要的一步,根據(jù)前述方法,將用戶(hù)軌跡網(wǎng)絡(luò)與其他用戶(hù)軌跡網(wǎng)絡(luò)進(jìn)行相似度度量,在K近鄰發(fā)現(xiàn)中采用遍歷的方法搜索K個(gè)相似度最高的用戶(hù),找到相似度最大的K個(gè)用戶(hù),這K個(gè)用戶(hù)為預(yù)測(cè)用戶(hù)的K個(gè)近鄰。
K個(gè)近鄰與預(yù)測(cè)用戶(hù)的相似性度量作為與用戶(hù)融合的權(quán)重值進(jìn)行融合,在對(duì)位置進(jìn)行預(yù)測(cè)時(shí),將K近鄰中的相似性影響權(quán)重歸一化至[0-1],且總和為1。
對(duì)K個(gè)近鄰的相似度進(jìn)行歸一化處理,并作為K個(gè)近鄰對(duì)預(yù)測(cè)用戶(hù)的影響權(quán)值:
其中,Sk為K個(gè)近鄰中第k個(gè)的相似度,wk為對(duì)應(yīng)的影響權(quán)值。
通過(guò)此種歸一化方法,考慮了K近鄰中每個(gè)用戶(hù)與預(yù)測(cè)用戶(hù)之間的關(guān)系,且更好的反映了近鄰用戶(hù)對(duì)預(yù)測(cè)用戶(hù)的加權(quán)影響。在本實(shí)施例例中,如圖4所示,預(yù)測(cè)用戶(hù)有K=4個(gè)近鄰用戶(hù),其歸一化后的權(quán)值分別為:用戶(hù)1,w1=0.3;用戶(hù)2,w2=0.1;用戶(hù)3,w3=0.2;用戶(hù)4,w4=0.4。
S3:位置移動(dòng)模式確定
對(duì)于預(yù)測(cè)用戶(hù),在時(shí)間段T內(nèi),從位置A到位置B后所有可能到達(dá)的位置為Ci,則三個(gè)連續(xù)位置即位置A、位置B以及Ci構(gòu)成一個(gè)位置移動(dòng)模式<A-B-Ci,T>;其中,i為可能到達(dá)的位置序號(hào),i=1,2,…,I,I為所有可能到達(dá)位置的數(shù)量。在本實(shí)施例中,如圖5所示,給出了一個(gè)8:00-9:00時(shí)間段,宿舍-食堂-實(shí)驗(yàn)室的位置移動(dòng)模式。
S4:用戶(hù)位置預(yù)測(cè)
本發(fā)明的核心內(nèi)容之一是對(duì)用戶(hù)位置預(yù)測(cè),本發(fā)明考慮了預(yù)測(cè)用戶(hù)自身的移動(dòng)規(guī)律和身邊最相似的K個(gè)用戶(hù)(近鄰)的活動(dòng)規(guī)律,然后將兩種規(guī)律進(jìn)行融合最終匯聚成為帶有K近鄰特征的移動(dòng)規(guī)律。在用戶(hù)移動(dòng)規(guī)律的模式中,著重發(fā)現(xiàn)具有三個(gè)連續(xù)地點(diǎn)的移動(dòng)模式,這種模式符合實(shí)際的時(shí)間和空間約束。帶有地點(diǎn)相關(guān)特征的預(yù)測(cè)主要表現(xiàn)為通過(guò)分析前一地點(diǎn)所具有的空間約束和時(shí)間約束分析未來(lái)可能到達(dá)地點(diǎn)約束的最大可能,如圖6所示,具體用戶(hù)位置預(yù)測(cè)為:
S401、首先找到位置集合Z,集合Z為所有預(yù)測(cè)用戶(hù)可能到達(dá)位置Ci的集合,i為可能到達(dá)位置的序號(hào),i=1,2,…,I,I為所有可能到達(dá)位置的數(shù)量;
S402、在預(yù)測(cè)用戶(hù)的K個(gè)近鄰中,對(duì)于每個(gè)近鄰,在其歷史用戶(hù)軌跡數(shù)據(jù)找到位置移動(dòng)模式<A-B-Ci,T>,并計(jì)算該位置移動(dòng)模式發(fā)生的可能性NPrk<A-B-Ci,T>,所有近鄰模式即所有近鄰的影響為:
S403、個(gè)體模式下,計(jì)算預(yù)測(cè)用戶(hù)歷史用戶(hù)軌跡數(shù)據(jù)中位置移動(dòng)模式<A-B-Ci,T>發(fā)生的可能性UPr(<A-B-Ci,T>);
S404、計(jì)算預(yù)測(cè)用戶(hù)到達(dá)第i個(gè)位置的可能性為:
其中,Pr(<A-B-Ci,T>)為預(yù)測(cè)用戶(hù)在時(shí)間段T內(nèi),從位置A到位置B后到達(dá)的位置Ci的可能性。
S405、找到可能性最大的位置Cmax。
S5:群體分布規(guī)律預(yù)測(cè)
本發(fā)明中,群體位置分布預(yù)測(cè)的基礎(chǔ)是群體內(nèi)個(gè)體的移動(dòng)模式。將群體內(nèi)個(gè)體即各個(gè)用戶(hù)位置預(yù)測(cè)結(jié)果相加后既為群體位置分布預(yù)測(cè)結(jié)果。在一定區(qū)域范圍內(nèi)共有R個(gè)預(yù)測(cè)用戶(hù),則群體位置分布預(yù)測(cè)如下:
其中,Prr(<A-B-Ci,T>)為第r個(gè)預(yù)測(cè)用戶(hù)在時(shí)間段T內(nèi),從位置A到位置B后到達(dá)的位置Ci的可能性。
本發(fā)明首先提取軌跡數(shù)據(jù)中的重要地點(diǎn),然后通過(guò)一種時(shí)空分布相關(guān)的距離度量函數(shù),找出圍繞用戶(hù)且具有相似位置分布的K個(gè)用戶(hù)。然后本發(fā)明通過(guò)挖掘用戶(hù)歷史信息中形如<A-B-C,T>(其中A,B,C代表提取出的位置,且A,B,C具有先后順序性,T代表該A-B-C位置模式所具備的時(shí)間特征)的移動(dòng)模式。在近鄰模式中,搜索具有相同模式的近鄰并且將與近鄰的距離作為權(quán)重,與個(gè)體模式進(jìn)行融合。對(duì)未來(lái)位置C進(jìn)行預(yù)測(cè)時(shí)要注意先前到達(dá)的位置的移動(dòng)模式。未來(lái)的群體位置分布針對(duì)群體是由每個(gè)小團(tuán)體構(gòu)建而成的社會(huì)特點(diǎn),將K近鄰中的所有模式視為位置分布,將群體中的所有K近鄰的位置分布相加即為群體的位置分布。
本發(fā)明中,針對(duì)傳統(tǒng)位置預(yù)測(cè)方法的不足提出了基于個(gè)體移動(dòng)規(guī)律和K近鄰規(guī)律的位置預(yù)測(cè)技術(shù)。本發(fā)明中提出了在用戶(hù)相似性度量、用戶(hù)移動(dòng)模式發(fā)現(xiàn)、用戶(hù)K近鄰發(fā)現(xiàn)、用戶(hù)位置預(yù)測(cè)和群體位置分布預(yù)測(cè)等關(guān)鍵技術(shù)上做出了創(chuàng)新。
盡管上面對(duì)本發(fā)明說(shuō)明性的具體實(shí)施方式進(jìn)行了描述,以便于本技術(shù)領(lǐng)域的技術(shù)人員理解本發(fā)明,但應(yīng)該清楚,本發(fā)明不限于具體實(shí)施方式的范圍,對(duì)本技術(shù)領(lǐng)域的普通技術(shù)人員來(lái)講,只要各種變化在所附的權(quán)利要求限定和確定的本發(fā)明的精神和范圍內(nèi),這些變化是顯而易見(jiàn)的,一切利用本發(fā)明構(gòu)思的發(fā)明創(chuàng)造均在保護(hù)之列。