亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種應(yīng)用模糊軌跡序列的軌跡預(yù)測方法與流程

文檔序號:11323791閱讀:636來源:國知局
一種應(yīng)用模糊軌跡序列的軌跡預(yù)測方法與流程

本發(fā)明涉及用戶軌跡序列預(yù)測問題,特別涉及一種引入了模糊軌跡序列模型的軌跡預(yù)測方法。



背景技術(shù):

1、軌跡預(yù)測

隨著定位技術(shù)的發(fā)展及廣泛應(yīng)用,基于位置的服務(wù)(location-basedservice,lbs)逐漸成為生活中不可獲缺的部分。通過分析用戶的軌跡信息,挖掘其中隱含的用戶信息來完善用戶的服務(wù)體驗(yàn),成為數(shù)據(jù)挖掘的一個(gè)重要領(lǐng)域。通過用戶的軌跡信息對用戶的軌跡進(jìn)行預(yù)測,對導(dǎo)航服務(wù)、交通管理以及基于位置的廣告投放等應(yīng)用至關(guān)重要,成為了軌跡挖掘的一個(gè)研究熱點(diǎn)。

2、軌跡預(yù)測的常見方法

軌跡預(yù)測問題主要分為長期預(yù)測以及短期預(yù)測:長期預(yù)測適用于時(shí)間跨度長、采樣間隔大的軌跡樣本預(yù)測問題,用戶的移動目標(biāo)對用戶軌跡起主要決定作用,主要通過歷史用戶軌跡的挖掘,發(fā)掘用戶相似軌跡或規(guī)律用于樣本的預(yù)測;短期預(yù)測則適用于時(shí)間跨度短、采樣間隔小的軌跡樣本預(yù)測問題,用戶的移動習(xí)慣對用戶軌跡起主要決定作用,主要通過對短期用戶行為模式進(jìn)行分析建模完成預(yù)測。

軌跡預(yù)測的方法可以分為兩類,分別是統(tǒng)計(jì)類方法以及機(jī)器學(xué)習(xí)類方法。統(tǒng)計(jì)類方法主要通過數(shù)學(xué)領(lǐng)域的統(tǒng)計(jì)模型以及概率模型對用戶軌跡進(jìn)行建模,建立的模型簡單,算法運(yùn)行效率高,但因此難以有效的處理現(xiàn)實(shí)中復(fù)雜的數(shù)據(jù)集;機(jī)器學(xué)習(xí)類方法通過應(yīng)用機(jī)器學(xué)習(xí)領(lǐng)域的預(yù)測技術(shù),挖掘軌跡信息建立用戶軌跡模型進(jìn)行預(yù)測,能夠建立起復(fù)雜的用戶軌跡模型,但算法效率低,算法運(yùn)行時(shí)間長。

現(xiàn)有的軌跡預(yù)測方法都立足于所得到的用戶軌跡是大致精確的這一前提,不論是統(tǒng)計(jì)學(xué)的預(yù)測方法還是機(jī)器學(xué)習(xí)的方法,均對樣本的數(shù)據(jù)不做過多的預(yù)處理而直接使用,而在實(shí)際生活中通過定位服務(wù)所得到的軌跡序列均包含誤差,這種誤差影響了現(xiàn)有方法的預(yù)測精度。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的在于針對不精確、存在偏移的用戶軌跡序列的預(yù)測問題,提出一種應(yīng)用模糊軌跡序列的軌跡預(yù)測方法,該方法通過引入模糊軌跡序列對用戶的軌跡進(jìn)行預(yù)測,使得預(yù)測方法能夠處理不精確的、存在坐標(biāo)偏移的軌跡序列,能夠更廣泛的應(yīng)用于現(xiàn)實(shí)生活中的軌跡預(yù)測。

為了達(dá)到上述目的,本發(fā)明采用了以下技術(shù)方案:

1)針對任意一待預(yù)測用戶,確定用戶軌跡訓(xùn)練樣本集的論域,所述用戶軌跡訓(xùn)練樣本為所述論域范圍內(nèi)若干個(gè)用戶的軌跡序列,將用戶軌跡訓(xùn)練樣本集中的用戶軌跡序列以截取的方式重構(gòu)為若干個(gè)包含k個(gè)時(shí)刻用戶位置坐標(biāo)的高維軌跡序列,根據(jù)論域的網(wǎng)格化劃分方案將所述高維軌跡序列模糊化為高維模糊軌跡序列,且滿足使相同或相似的高維軌跡序列在模糊化后仍為相同或相似的高維模糊軌跡序列,得到用于高維模糊軌跡序列模型訓(xùn)練的集合;

2)在每一個(gè)高維模糊軌跡序列后加入下一刻對應(yīng)用戶的位置坐標(biāo),得到高維模糊軌跡序列模型的訓(xùn)練集,對高維模糊軌跡序列模型的訓(xùn)練集應(yīng)用聚類方法獲得簇,并由簇中心構(gòu)建相應(yīng)的模糊邏輯規(guī)則,依據(jù)模糊邏輯規(guī)則對由用戶軌跡訓(xùn)練樣本集中的用戶軌跡序列重構(gòu)得到的高維軌跡序列進(jìn)行劃分,對于任意一個(gè)高維軌跡序列:若該高維軌跡序列不滿足模糊邏輯規(guī)則,則將該高維軌跡序列加入離群點(diǎn)樣本訓(xùn)練集合,利用離群點(diǎn)樣本訓(xùn)練得到離群點(diǎn)預(yù)測模型;

3)在所述論域范圍內(nèi),將某一個(gè)待預(yù)測用戶截止當(dāng)前時(shí)刻的順序采集的k個(gè)位置坐標(biāo)轉(zhuǎn)變?yōu)橄鄳?yīng)的高維軌跡序列,得到待預(yù)測樣本,對待預(yù)測樣本根據(jù)所述模糊邏輯規(guī)則進(jìn)行劃分,若待預(yù)測樣本為滿足模糊邏輯規(guī)則的一般樣本,通過對簇中心最后s維分別求加權(quán)平均數(shù)獲得用戶軌跡預(yù)測結(jié)果,所述s的取值與用戶位置坐標(biāo)維數(shù)相同;若待預(yù)測樣本為不滿足模糊邏輯規(guī)則的離群點(diǎn)樣本,則利用離群點(diǎn)預(yù)測模型進(jìn)行軌跡預(yù)測。

所述步驟1)具體包括以下步驟:

1.1)計(jì)算所述軌跡訓(xùn)練樣本集中用戶坐標(biāo)經(jīng)、緯度的最值,則用戶活動范圍定義為經(jīng)、緯度的最值所圍成的矩形區(qū)域,根據(jù)該矩形區(qū)域確定用戶軌跡訓(xùn)練樣本集中用戶軌跡序列的論域;

1.2)將所述論域劃分為網(wǎng)格狀區(qū)域,每個(gè)網(wǎng)格狀區(qū)域?qū)?yīng)不同的模糊集;將所述軌跡訓(xùn)練樣本集中全部用戶軌跡序列轉(zhuǎn)化為高維軌跡序列;將所有高維軌跡序列中坐標(biāo)模糊化為對應(yīng)的模糊集,形成高維模糊軌跡序列集合;

1.3)對具有某一相同形式的高維模糊軌跡序列,計(jì)算這些高維模糊軌跡序列對應(yīng)的模糊化前的高維軌跡序列中下一刻用戶坐標(biāo)的方差;將計(jì)算得到的所有不同形式的高維模糊軌跡序列對應(yīng)的方差求和,作為對論域劃分方案的評價(jià)指標(biāo);

1.4)以最小化所述評價(jià)指標(biāo)為目標(biāo),利用啟發(fā)式優(yōu)化算法找出盡可能好的論域劃分方案,作為最終的論域劃分方案;

1.5)利用最終的論域劃分方案,按照步驟1.2)生成用于高維模糊軌跡序列模型訓(xùn)練的集合。

所述步驟1.2)中,對論域進(jìn)行網(wǎng)格狀劃分過程中,分別在經(jīng)、緯度方向上選取劃分點(diǎn),并根據(jù)劃分點(diǎn)對論域進(jìn)行劃分,在選擇劃分點(diǎn)時(shí),對劃分點(diǎn)的數(shù)目通過設(shè)置上限和下限進(jìn)行限制。

選擇等分方式對論域進(jìn)行劃分,在經(jīng)、緯度方向上的劃分點(diǎn)的數(shù)目均以指數(shù)形式增加,對由此形成的每個(gè)劃分方案進(jìn)行評價(jià),選擇使得評價(jià)指標(biāo)最小的劃分方案作為參考方案,計(jì)算上述每個(gè)劃分方案的評價(jià)指標(biāo)與參考方案評價(jià)指標(biāo)之間差的絕對值作為對應(yīng)劃分方案的相對評價(jià)指標(biāo);在上述所有劃分方案中,選擇相對評價(jià)指標(biāo)大于設(shè)定閾值且劃分點(diǎn)比參考方案劃分點(diǎn)數(shù)目少的方案中,劃分點(diǎn)數(shù)目最多的方案的劃分點(diǎn)數(shù)目作為劃分點(diǎn)數(shù)目的下限,選擇相對評價(jià)指標(biāo)大于設(shè)定閾值且劃分點(diǎn)比參考方案劃分點(diǎn)數(shù)目多的方案中,劃分點(diǎn)數(shù)目最少的方案的劃分點(diǎn)數(shù)目作為劃分點(diǎn)數(shù)目的上限。

所述步驟2)中,模糊邏輯規(guī)則的構(gòu)建具體包括以下步驟:

2.1)對步驟1)中生成的用于高維模糊軌跡序列模型訓(xùn)練的集合中每個(gè)高維模糊軌跡序列,在序列后新增一維,值為該序列對應(yīng)的用戶軌跡序列中下一刻用戶的2維平面位置坐標(biāo),生成用于聚類的高維模糊軌跡序列訓(xùn)練集;

2.2)對步驟2.1)中生成的用于聚類的高維模糊軌跡序列訓(xùn)練集,應(yīng)用自適應(yīng)高斯核的模糊c均值聚類算法生成高維軌跡序列簇,并計(jì)算簇中心作為基于一般樣本的軌跡預(yù)測模型的模糊邏輯規(guī)則。

所述步驟2.2)中,自適應(yīng)高斯核的模糊c均值聚類算法在完成聚類算法的每一次迭代后,依據(jù)現(xiàn)有樣本相對于簇中心的分布情況,重新計(jì)算簇的核寬度并更新。

所述模糊邏輯規(guī)則定義為:假設(shè)x(t)是由f(t-k),f(t-k+1),…,f(t-1)決定的,且f(t)代表t時(shí)刻用戶坐標(biāo)對應(yīng)的模糊集,x(t)為t時(shí)刻的用戶坐標(biāo),那么就存在模糊邏輯規(guī)則f(t-k),f(t-k+1),...,f(t-1)→x(t)。

計(jì)算高維軌跡序列與所有簇間的隸屬度,若所有隸屬度均小于設(shè)定閾值η,則該樣本不滿足模糊邏輯規(guī)則;若存在大于等于設(shè)定閾值η的隸屬度,則樣本滿足模糊邏輯規(guī)則。

所述離群點(diǎn)預(yù)測模型的建立方法包括以下步驟:將離群點(diǎn)樣本對應(yīng)的用戶軌跡序列轉(zhuǎn)化為間隔時(shí)間的位移序列以及位移方向的序列,然后采用levenberg-marquardt算法分別構(gòu)建關(guān)于下一個(gè)間隔時(shí)間的位移以及位移方向的預(yù)測模型;levenberg-marquardt算法需要通過多次迭代來避免陷入局部極小,每次迭代均在設(shè)定范圍內(nèi)隨機(jī)生成初始權(quán)向量,并選擇最優(yōu)的結(jié)果;levenberg-marquardt算法的初始權(quán)向量設(shè)定時(shí),每一維度的值大于前一維度。

所述步驟3)中,對簇中心最后s維求加權(quán)平均數(shù)時(shí),若待預(yù)測樣本與簇間隸屬度大于等于閾值η,則權(quán)值為該隸屬度;否則,權(quán)值為0。

本發(fā)明具有以下有益效果:

本發(fā)明通過引入模糊軌跡序列模型,并通過模糊時(shí)間序列的預(yù)測方法,對用戶的運(yùn)動軌跡進(jìn)行預(yù)測。方法中對用戶的移動軌跡進(jìn)行了模糊化處理,設(shè)計(jì)了網(wǎng)格化的模糊化方法,由此實(shí)現(xiàn)了模糊軌跡序列模型。通過引入離群點(diǎn)處理的機(jī)制,本方法可以處理歷史信息不足時(shí)的軌跡預(yù)測問題,并引入離群點(diǎn)檢測機(jī)制以及離群點(diǎn)預(yù)測模型,以降低離群點(diǎn)對算法整體性能的影響。本發(fā)明中通過引入模糊軌跡序列模型對用戶軌跡序列進(jìn)行建模,使得模型可以處理不精確的、存在坐標(biāo)偏移的軌跡序列,為處理現(xiàn)實(shí)生活中定位服務(wù)存在的偏差的問題提供了新的解決思路。

進(jìn)一步的,本發(fā)明采用離群點(diǎn)判定機(jī)制及離群點(diǎn)預(yù)測模型,可以識別訓(xùn)練樣本不足導(dǎo)致的離群點(diǎn)這一特殊情況,同時(shí)通過對預(yù)測模型的調(diào)整,改善對離群點(diǎn)樣本的預(yù)測精度,提升算法的魯棒性以及預(yù)測的平均精度。

進(jìn)一步的,本發(fā)明中采用的聚類方法區(qū)別于傳統(tǒng)的核版本的模糊c均值聚類,采用動態(tài)調(diào)整的核寬度策略,同時(shí)引入核寬度估算機(jī)制,使得聚類方法能自適應(yīng)于不同尺寸的簇,提升了預(yù)測算法的魯棒性。

附圖說明

圖1為應(yīng)用模糊軌跡序列的軌跡預(yù)測方法流程圖;

圖2為對用戶軌跡論域的劃分方案及模糊集示意圖;

圖3為論域劃分方案搜索流程圖;

圖4為應(yīng)用模糊軌跡序列的軌跡預(yù)測方法中模糊邏輯規(guī)則構(gòu)建流程圖;

圖5為應(yīng)用離群點(diǎn)預(yù)測模型的軌跡序列表征方式轉(zhuǎn)換示意圖;

圖6為應(yīng)用模糊軌跡序列的軌跡預(yù)測方法對南加州展會數(shù)據(jù)集的仿真結(jié)果。

具體實(shí)施方式

為了使本發(fā)明的內(nèi)容、效果以及優(yōu)點(diǎn)更加清楚明白,下面結(jié)合附圖和實(shí)施例對本發(fā)明進(jìn)行詳細(xì)描述。

本發(fā)明是基于模糊邏輯的預(yù)測方法,通過對軌跡數(shù)據(jù)進(jìn)行模糊化預(yù)處理,使得預(yù)測方法可以處理獲得的不準(zhǔn)確的、有偏差的軌跡預(yù)測問題。本發(fā)明設(shè)計(jì)了一種自適應(yīng)的高斯核模糊c均值聚類方法,通過引入核寬度的調(diào)整算法,使聚類方法能夠更適用于更為廣泛的各種情況。同時(shí)本發(fā)明采用離群點(diǎn)模型應(yīng)對訓(xùn)練樣本稀疏引發(fā)的問題。圖1中展示了本發(fā)明的策略流程,通過計(jì)算待預(yù)測樣本與每個(gè)提取到的模糊邏輯規(guī)則對應(yīng)的簇間隸屬度,判定樣本是否為離群點(diǎn),對一般性樣本采用加權(quán)平均數(shù)進(jìn)行預(yù)測,而對離群點(diǎn)樣本采用線性模型預(yù)測。該方法優(yōu)勢在于能夠應(yīng)對現(xiàn)實(shí)生活中軌跡預(yù)測問題,可以容忍數(shù)據(jù)采集中出現(xiàn)的偏差,同時(shí)也適用于訓(xùn)練樣本數(shù)量不足、覆蓋不全面的情況。

(一)定義用戶軌跡論域劃分方案及軌跡序列的模糊化處理

用戶軌跡的論域定義了用戶的活動范圍以及用戶可能到達(dá)的區(qū)域,為了使得定義的論域能夠覆蓋用戶所有的軌跡,計(jì)算用戶經(jīng)度坐標(biāo)的最值xmin、xmax以及緯度坐標(biāo)的最值ymin、ymax,參見圖2,用戶的活動范圍可以用計(jì)算得到的經(jīng)緯度坐標(biāo)最值圍成的矩形區(qū)域[(xmin,ymin),(xmin,ymax),(xmax,ymin),(xmax,ymax)]來表示,考慮到用戶可能到達(dá)的區(qū)域,將用戶的活動范圍擴(kuò)大為[(x'min,y'min),(x'min,y'max),(x'max,y'min),(x'max,y'max)],其中:

δx=0.1·(xmax-xmin)

δy=0.1·(ymax-ymin)

x'min=xmin-δx

x'max=xmax+δx

y'min=y(tǒng)min-δy

y'max=y(tǒng)max+δy

該區(qū)域[(x'min,y'min),(x'min,y'max),(x'max,y'min),(x'max,y'max)]定義為用戶軌跡的論域。

參見圖3,對用戶軌跡的論域進(jìn)行劃分包括以下步驟:

1)采用等時(shí)間間隔方式獲取用戶的位置坐標(biāo),構(gòu)成用戶軌跡序列。設(shè)定時(shí)間間隔t,對于用戶的一次軌跡采樣,每隔時(shí)間t收集一次位置坐標(biāo),并將坐標(biāo)序列存儲作為用戶的一條軌跡。對于記錄的用戶的一條含有n個(gè)采樣點(diǎn)的軌跡,第i個(gè)樣本點(diǎn)對應(yīng)的用戶坐標(biāo)為(xi,yi),其中,xi為經(jīng)度坐標(biāo),yi為緯度坐標(biāo),則可得到:

xmin=min(x1,x2,...,xn)

xmax=max(x1,x2,...,xn)

ymin=min(y1,y2,...,yn)

ymax=max(y1,y2,...,yn)

由此可確定用戶軌跡的論域[(x'min,y'min),(x'min,y'max),(x'max,y'min),(x'max,y'max)]。

2)參見圖3,對于用戶軌跡的論域[(x'min,y'min),(x'min,y'max),(x'max,y'min),(x'max,y'max)],分別在經(jīng)度和緯度范圍內(nèi)選取各自的劃分點(diǎn)由這些劃分點(diǎn)確定論域劃分的網(wǎng)格。每個(gè)網(wǎng)格對應(yīng)一個(gè)模糊集si(i=1,2,...,(u+1)·(v+1)),這些模糊集構(gòu)成一種用戶軌跡論域劃分方案。

3)對用戶的一條軌跡序列t=[(x1,y1),(x2,y2),...,(xn,yn)],對每個(gè)時(shí)刻,將該時(shí)刻用戶位置坐標(biāo)與前k-1個(gè)連續(xù)時(shí)刻的位置坐標(biāo)合成一個(gè)k維軌跡序列,將一條軌跡序列轉(zhuǎn)化為n-k+1條k維軌跡序列:

t1=[(x1,y1),(x2,y2),...,(xk,yk)]

t2=[(x2,y2),(x3,y3),...,(xk+1,yk+1)]

...

tn-k+1=[(xn-k+1,yn-k+1),(xn-k+2,yn-k+2),...,(xn,yn)]

4)對得到的每條k維軌跡序列ti=[(xi,yi),(xi+1,yi+1),...,(xi+k-1,yi+k-1)],將每個(gè)軌跡中每個(gè)坐標(biāo)點(diǎn)替換為所在網(wǎng)格區(qū)域?qū)?yīng)的模糊集,得到k維模糊軌跡序列:

其中,f(t)代表t時(shí)刻用戶坐標(biāo)所在的模糊集下標(biāo),t=i,i+1,…,i+k-1。

5)對所得到的劃分方案進(jìn)行評估,并通過利用啟發(fā)式優(yōu)化算法尋找到一個(gè)可行劃分方案。

6)根據(jù)得到的可行的論域劃分方案,執(zhí)行步驟3)和步驟4)生成k維模糊軌跡序列,這些序列構(gòu)成了用于高維模糊軌跡序列模型訓(xùn)練的集合。

在步驟2)中,劃分點(diǎn)的數(shù)目需要滿足設(shè)置的上、下限,劃分點(diǎn)數(shù)目上、下限的確定方法為:利用等分的方法,依次在論域的經(jīng)度和緯度范圍內(nèi)選擇1、10、…、10b個(gè)等分劃分點(diǎn);并分別根據(jù)步驟2)中描述生成等分用戶軌跡論域劃分方案,其中b取值為使得等分后的每個(gè)區(qū)間長度小于數(shù)據(jù)集的分辨率的最小值;針對每個(gè)等分用戶軌跡論域劃分方案,執(zhí)行步驟3)和步驟4),并對這些等分用戶軌跡論域劃分方案進(jìn)行評價(jià),并給出評價(jià)指標(biāo)值;假設(shè)包含10l個(gè)等份劃分點(diǎn)的論域劃分方案的評價(jià)指標(biāo)值為el,l=0,1,2,…,b,且所有方案中評價(jià)指標(biāo)的最小值為ek:則對于l<k,若滿足且對于任意整數(shù)p(l<p≤k),則10l為劃分點(diǎn)數(shù)目的下限;而對于l>k,若滿足且對于任意整數(shù)p(k≤p<l),則10l為劃分點(diǎn)數(shù)目的上限;的取值范圍為(0,1],優(yōu)選為0.2。

(二)用戶軌跡論域劃分方案的評價(jià)標(biāo)準(zhǔn)及可行方案的搜索方法

良好的用戶論域劃分方案,應(yīng)滿足使相同或相似的k維用戶軌跡序列,模糊化后仍為相同或相似的模糊軌跡序列。因而對一種用戶軌跡論域的劃分方案評價(jià)過程包括以下步驟:

1)針對(一)中步驟6)得到的用于高維模糊軌跡序列模型訓(xùn)練的集合,將其中形式相同的k維模糊軌跡序列歸入同一個(gè)集合;

2)對其中所有具有和相同形式的k維模糊軌跡序列所構(gòu)成的集合計(jì)算集合中所有序列對應(yīng)的模糊化前的高維(k維)軌跡序列的下一刻用戶位置的方差,即計(jì)算集合的方差,作為形式對應(yīng)的方差;

3)針對用于高維模糊軌跡序列模型訓(xùn)練的集合中所有不同的k維模糊軌跡序列形式,利用步驟2)計(jì)算該形式對應(yīng)的方差,并求得所有的方差之和;當(dāng)?shù)玫降姆讲钪驮叫?,則證明劃分方案性能越好。

參見圖3,采用啟發(fā)式優(yōu)化算法搜索得到最佳劃分方案,為了建立問題的解空間,將用戶軌跡的經(jīng)緯度范圍分別等分為由u'、v'個(gè)劃分點(diǎn)隔開的小區(qū)域,其中,u'>>u且v'>>v。則問題轉(zhuǎn)化為分別在u'個(gè)經(jīng)度劃分點(diǎn)和v'個(gè)緯度劃分點(diǎn)中分別選取u、v個(gè)劃分點(diǎn)的問題,通過啟發(fā)式算法搜索該問題的最優(yōu)解,并作為最終采用的劃分方案。

(三)應(yīng)用用戶k維模糊軌跡序列構(gòu)建k維模糊邏輯規(guī)則

k維模糊邏輯規(guī)則定義為:假設(shè)x(t)是由f(t-k),f(t-k+1),…,f(t-1)決定的,且f(t)代表t時(shí)刻用戶坐標(biāo)對應(yīng)的模糊集,x(t)為t時(shí)刻的用戶坐標(biāo),那么就存在模糊邏輯規(guī)則f(t-k),f(t-k+1),...,f(t-1)→x(t)。

k維模糊邏輯規(guī)則構(gòu)建方法包括以下步驟:

1)對所有的k維用戶軌跡序列{ti|i=1,2,...,n-k+1},應(yīng)用所選的論域劃分方式,進(jìn)行模糊化處理,得到k維模糊軌跡序列集

2)對任意一條k維模糊軌跡序列將該k維模糊軌跡序列后加入下一刻用戶位置(xj+k,yj+k),構(gòu)成k+2維模糊軌跡序列:

t'j=[sf(j),sf(j+1),...,sf(j+k-1),xj+k,yj+k]

將所有k維模糊軌跡序列轉(zhuǎn)化為這樣的k+2維模糊軌跡序列并構(gòu)成集合。

3)對所有的k+2維模糊軌跡序列,應(yīng)用自適應(yīng)高斯核的模糊c均值聚類算法,獲得聚類結(jié)果,得到的每個(gè)簇中心即為一條k+2維模糊邏輯規(guī)則。

由于模糊c均值聚類算法容易陷入局部極小,所以最終得到的結(jié)果受初始給定的簇中心影響,為了消除這種影響而得到性能較好的k+2維模糊邏輯規(guī)則,需要迭代該過程,每次均隨機(jī)給予初始聚類中心,并最終選擇性能最好的結(jié)果,并由此最終構(gòu)建得到k+2維模糊邏輯規(guī)則;對得到的聚類結(jié)果進(jìn)行性能評價(jià)的方法為,利用聚類結(jié)果構(gòu)建的k+2維模糊邏輯規(guī)則對訓(xùn)練集中的樣本進(jìn)行預(yù)測,并依據(jù)預(yù)測結(jié)果的均方根誤差來判定性能,均方根誤差越小,代表所得到的模型性能越好。

(四)自適應(yīng)高斯核模糊c均值聚類算法流程

參見圖4,自適應(yīng)高斯核模糊c均值聚類算法通過引入高斯核函數(shù)作為隸屬度函數(shù),一方面減小了離群點(diǎn)樣本對簇本身的影響,另一方面提升了簇的魯棒性;通過自適應(yīng)的核寬度設(shè)置,使得到的簇能夠更好的適應(yīng)不同的樣本分布。算法包括以下步驟:

1)迭代k+2次,第h(0<h≤k)次迭代中,在用戶軌跡論域范圍內(nèi)隨機(jī)生成rh個(gè)值,后兩次迭代中,分別在用戶軌跡論域的經(jīng)度和緯度范圍內(nèi)生成rk+1和rk+2個(gè)值,并組合成個(gè)簇中心;對第i個(gè)簇中心,為其核寬度賦一個(gè)初始值

2)通過模糊c均值聚類方法迭代過程迭代一次,迭代過程中,采用簇對應(yīng)核寬度下的高斯核函數(shù)作為該簇的隸屬度函數(shù);在第h次迭代過程中,k+2維模糊軌跡序列t'j對簇中心ci對應(yīng)的簇的隸屬度可由下式計(jì)算:

其中||t'j-ci||表示t'j與ci間的歐式距離;

3)利用parzen窗估計(jì)法,對每個(gè)得到的簇,根據(jù)樣本關(guān)于簇中心的分布情況,計(jì)算新的核寬度并更新;

4)迭代直至聚類結(jié)果收斂,并給出包含k+2維模糊軌跡序列的簇中心的聚類結(jié)果。

由于模糊軌跡序列中包含模糊集,在計(jì)算模糊化后的樣本對簇的隸屬度以及樣本間距離時(shí),定義在計(jì)算含有模糊軌跡序列的歐式距離時(shí),將模糊集用模糊集對應(yīng)的矩形區(qū)域的中心坐標(biāo)值來代替。

(五)離群點(diǎn)樣本判定及離群點(diǎn)預(yù)測模型構(gòu)建

k維模糊邏輯規(guī)則構(gòu)建完成后,對訓(xùn)練集中樣本ti,計(jì)算樣本對得到的簇中心cj對應(yīng)的簇的隸屬度,隸屬度函數(shù)采用高斯核函數(shù)memk(ti,cj),核寬度為聚類結(jié)果給出的簇中心cj的核寬度,由于ti為k維向量,因而memk(ti,cj)的計(jì)算過程中僅考慮cj的前k維數(shù)據(jù);對任意樣本ti,若存在簇中心cj,使得memk(ti,cj)≥η,則表明樣本可以被所構(gòu)建的k維模糊邏輯規(guī)則所表征;若對于任意簇中心cj,memk(ti,cj)<η,則樣本不被所構(gòu)建的k維模糊邏輯規(guī)則所表征,樣本不適合于一般樣本預(yù)測模型,將樣本加入離群點(diǎn)樣本集合。

對由訓(xùn)練集中得到的離群點(diǎn)樣本集合,囿于樣本數(shù)目不足,因此采用簡單的線性模型進(jìn)行學(xué)習(xí)訓(xùn)練,使用levenberg-marquardt算法得到離群點(diǎn)的預(yù)測模型;利用levenberg-marquardt算法構(gòu)建模型時(shí),包括以下步驟:

1)參見圖5,將用戶軌跡序列t=[(x1,y1),(x2,y2),...,(xn,yn)]轉(zhuǎn)化為位移與位移方向表征的序列:

tp=[(ρ2,θ2),(ρ3,θ3),...,(ρn,θn)]

其中,(ρi,θi)為(xi,yi)關(guān)于以(xi-1,yi-1)為極點(diǎn)以x軸正方向?yàn)闃O軸的極坐標(biāo)系表示,i=2,3,…,n;

2)對離群點(diǎn)樣本集合中任意樣本t'i,生成離群點(diǎn)位移預(yù)測模型訓(xùn)練樣本[ρi+1,ρi+2,...,ρi+k]以及位移方向預(yù)測模型訓(xùn)練樣本[θi+1,θi+2,...,θi+k],并分別構(gòu)成位移預(yù)測模型訓(xùn)練集和位移方向預(yù)測模型訓(xùn)練集;

3)采用levenberg-marquardt算法構(gòu)建預(yù)測模型,即分別在離群點(diǎn)位移預(yù)測模型訓(xùn)練集以及位移方向預(yù)測模型訓(xùn)練集上進(jìn)行訓(xùn)練,得到移預(yù)測模型和位移方向預(yù)測模型;兩個(gè)預(yù)測模型得到的預(yù)測結(jié)果可以運(yùn)算出下一刻用戶位置的預(yù)測值。

由于levenberg-marquardt算法會陷入局部極小,因而需要隨機(jī)給出符合條件的多個(gè)初始參數(shù),隨機(jī)生成的初始參數(shù)需要符合的條件為:對于生成的初始參數(shù),變量的每一維度的值必須大于前一維度的值。迭代找到使得levenberg-marquardt算法自身目標(biāo)函數(shù)取得最小值的初始參數(shù),用來構(gòu)建離群點(diǎn)預(yù)測模型。

(六)利用模糊軌跡序列模型預(yù)測用戶下一刻位置

對用戶軌跡序列進(jìn)行預(yù)測,即是根據(jù)用戶前k時(shí)刻用戶位置坐標(biāo),預(yù)測下一刻用戶的位置。則可得到待預(yù)測k維用戶軌跡序列對得到的k維模糊邏輯規(guī)則對應(yīng)的簇中心ci,計(jì)算待預(yù)測樣本得到的k維軌跡序列與每個(gè)簇間隸屬度memk(tp,ci),若存在i,使得memk(tp,ci)≥η,則為一般樣本,則對各個(gè)簇中心最后2維分別求加權(quán)平均數(shù),得到用戶下一刻位置,其中,若待預(yù)測樣本與簇間隸屬度大于等于閾值η,則權(quán)值為該隸屬度;否則,權(quán)值為0:

其中,r表示簇中心的個(gè)數(shù),ci(k+1)、ci(k+2)表示簇中心ci的第k+1、k+2維值;若不存在i,使得memk(tp,ci)≥η,待預(yù)測樣本視為離群點(diǎn)樣本,tp轉(zhuǎn)化為k-1維的用戶位移序列以及位移角度序列,根據(jù)levenberg-marquardt算法得到的參數(shù)分別求得用戶下一刻的位移ρp以及位移角度θp,用戶下一刻位置計(jì)算為:

為第k時(shí)刻用戶位置坐標(biāo);

(七)仿真實(shí)驗(yàn)

參見圖6,對于用戶的軌跡數(shù)據(jù),采用奧蘭多迪士尼、紐約以及南加州展會上采集到的用戶軌跡數(shù)據(jù)集,數(shù)據(jù)采樣時(shí)間間隔為30秒一次,3個(gè)數(shù)據(jù)集分別包含41條、39條、19條用戶軌跡,分別包含44386個(gè)、39554個(gè)、5861個(gè)用戶坐標(biāo),用戶坐標(biāo)以某固定點(diǎn)為原點(diǎn)的直角坐標(biāo)系表示,單位為英尺。

算法分別在奧蘭多、紐約以及南加州展會上的3個(gè)用戶軌跡數(shù)據(jù)集上運(yùn)行,對于每個(gè)數(shù)據(jù)集上,選取其中每條軌跡前90%的用戶軌跡序列作為學(xué)習(xí)算法的訓(xùn)練集,選取剩余的10%的用戶軌跡作為算法驗(yàn)證的測試集,算法在每個(gè)數(shù)據(jù)集間獨(dú)立運(yùn)行。

仿真參數(shù)設(shè)計(jì)如表1所示:

表1.仿真參數(shù)

本發(fā)明應(yīng)用模糊軌跡序列模型的軌跡預(yù)測方法,例如,在奧蘭多用戶數(shù)據(jù)集上,對測試集樣本的預(yù)測均方根誤差為13.2746英尺、13.4603英尺、13.9036英尺。

經(jīng)過多次仿真實(shí)驗(yàn),用戶軌跡序列維度k的取值范圍為3≤k≤10,k<3時(shí),預(yù)測誤差較大,當(dāng)k>10時(shí),運(yùn)算復(fù)雜度較高,且會引起過擬合問題;離群點(diǎn)判定閾值η的取值范圍為0.1≤η≤0.6,閾值過小則會無法有效識別離群點(diǎn),閾值過大會降低模型的適用范圍。

本發(fā)明通過模糊時(shí)間序列的預(yù)測方法,對用戶的運(yùn)動軌跡進(jìn)行預(yù)測,方法中對用戶的軌跡進(jìn)行了模糊化處理,設(shè)計(jì)了網(wǎng)格化的模糊化方法,由此實(shí)現(xiàn)了模糊軌跡序列模型,使得預(yù)測方法能夠處理現(xiàn)實(shí)中獲取的不精確的、有偏差的用戶軌跡信息。通過引入離群點(diǎn)處理的機(jī)制,本方法可以處理歷史信息不足時(shí)的軌跡預(yù)測問題,并引入離群點(diǎn)檢測機(jī)制以及離群點(diǎn)預(yù)測模型,以降低離群點(diǎn)對算法整體性能的影響,提升了算法的總體性能,改善了算法的魯棒性。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1