本發(fā)明屬于數(shù)據(jù)處理技術(shù)領(lǐng)域,具體涉及到采用熵值法預(yù)測旅游的方法。
背景技術(shù):
旅游行業(yè)中旅游預(yù)測是旅游研究的熱點問題,也是旅游學(xué)界的難點課題?!盎ヂ?lián)網(wǎng)+”時代,旅游預(yù)測研究呈現(xiàn)出一些新的趨勢。隨著人們生活水平的提高和消費觀念的變化,旅游成為越來越多中國人在小長假、黃金周的首選。然而火爆的旅游市場也使景區(qū)人滿為患、一房難求等現(xiàn)象層出不窮。要大力發(fā)展旅游業(yè),提高旅游業(yè)的管理水平,旅游預(yù)測工作必不可少,而旅游預(yù)測中旅游需求預(yù)測、旅游客流量預(yù)測一向是旅游行業(yè)的重大課題和旅游研究的熱點問題,對旅游管理機(jī)構(gòu)以及目的地企業(yè)而言,對未來做到“心中有數(shù)”,無論對旅游行業(yè)宏觀把握和調(diào)控,還是對目的地營銷活動的引導(dǎo),以及對旅游客流流向和流量的調(diào)整,都具有很大的現(xiàn)實意義。
傳統(tǒng)的灰色模型針對小樣本數(shù)據(jù),短期預(yù)測,客流量數(shù)據(jù)有較大的隨機(jī)性和波動性,本方法考慮灰色預(yù)測模型的背景,將等維遞增的動態(tài)模型和最優(yōu)子集法應(yīng)用到灰色模型中,在進(jìn)行動態(tài)預(yù)測時,增加約束條件,確定預(yù)測長度,提高預(yù)測擬合度;模糊時間序列模型預(yù)測的缺點是受區(qū)間長度的影響,難以進(jìn)行有效的區(qū)間劃分,本方法利用模糊C均值聚類算法分割區(qū)間,根據(jù)樣本數(shù)據(jù)分布情況進(jìn)一步優(yōu)化區(qū)間劃分。
目前在還沒有基于灰色理論與模糊時間序列模型,在旅游技術(shù)領(lǐng)域,當(dāng)前需解決的一個技術(shù)問題是對旅游客流量提供一種預(yù)測客流量的方法。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題在于克服上述兩種預(yù)測模型的缺點,提供一種合理、經(jīng)濟(jì)、實用的基于熵值法組合優(yōu)化的旅游需求的預(yù)測方法。
解決上述技術(shù)問題所采用的技術(shù)方案由以下步驟組成:
(1)從旅游局官網(wǎng)旅游景點收集景區(qū)接待人數(shù)情況,按照年、月、日分類收集。
(2)采用動態(tài)優(yōu)化子集灰色模型方法,按照不同的時間尺度年、月、日分別對景區(qū)接待人數(shù)進(jìn)行預(yù)測,旅游景區(qū)歷史接待人數(shù)原始序列為:
x(0)=(x(0)(1),x(0)(2),x(0)(3)…x(0)(n))
式中x(0)(n)為第n時刻的景區(qū)接待人數(shù)的觀測值,其中n是至少為4、不為0的有限正整數(shù);采用灰色模型從多時間尺度年、月、日進(jìn)行預(yù)測,得到景區(qū)接待人數(shù)的預(yù)測值、平均絕對誤差百分比,采用最優(yōu)子集法優(yōu)化預(yù)測值,確定最優(yōu)輸入子集的個數(shù),得到平均絕對誤差百分比的最小值對應(yīng)的輸入子集的個數(shù),截取連續(xù)的數(shù)據(jù)段序列作為輸入子集序列來替換原有的歷史接待人數(shù)序列。
構(gòu)建動態(tài)的優(yōu)化子集灰色模型:第一次,去除旅游景區(qū)歷史接待人數(shù)原始序列中的x(0)(1),遞補x(0)(n+1),構(gòu)成一組新的動態(tài)序列(x(0)(2),x(0)(3),…x(0)(n+1))依次類推,保持序列長度不變,構(gòu)建成動態(tài)的優(yōu)化子集灰色模型。
(3)采用模糊時間序列模型按年、月、日分別對旅游景區(qū)接待人數(shù)進(jìn)行預(yù)測
在模糊時間序列模型的基礎(chǔ)上,采用模糊C均值聚類算法分割區(qū)間獲得聚類中心,對聚類中心按照升序進(jìn)行排序,計算序列中相鄰兩個值的中值,分別插入旅游景區(qū)接待人數(shù)的最小值和最大值組成區(qū)間范圍;根據(jù)落在區(qū)間范圍內(nèi)接待人數(shù)值的分布情況,采用統(tǒng)計學(xué)方法得到每個區(qū)間范圍內(nèi)落入的旅游景區(qū)接待人數(shù),構(gòu)建模糊邏輯關(guān)系,建立模糊預(yù)測。
(4)采用熵值法組合優(yōu)化的旅游需求預(yù)測模型
采用熵值法按下式:
確定動態(tài)優(yōu)化子集灰色模型與模糊時間序列模型兩種單一模型相對誤差的熵值;式中k>0為有限的正整數(shù),h(i)∈[0,1],n為景區(qū)接待人數(shù)原始序列的長度值,n是至少為4的有限正整數(shù),h(i)為第i個相對誤差的熵值,f(i)為第i個誤差占誤差總和的權(quán)重,e(i)為動態(tài)優(yōu)化子集灰色模型與模糊時間序列模型兩種單一模型相對誤差;獲取兩種單一的預(yù)測模型的權(quán)重系數(shù)值w1和w2,得到動態(tài)優(yōu)化子集灰色模型和模糊時間序列模型組合模型的預(yù)測值式中w1為動態(tài)優(yōu)化子集灰色模型的權(quán)重系數(shù)值,w2為模糊時間序列模型的權(quán)重系數(shù)值,F(xiàn)為動態(tài)優(yōu)化子集灰色模型的預(yù)測值,為模糊時間序列模型的預(yù)測值,為動態(tài)優(yōu)化子集灰色模型和模糊時間序列模型組合模型預(yù)測值。
(5)采用馬爾科夫模型修正熵值法組合優(yōu)化模型
將步驟(4)的組合模型預(yù)測值與旅游景區(qū)接待人數(shù)實際值的相對誤差按下式確定馬爾科夫狀態(tài)個數(shù):
式中n為景區(qū)接待人數(shù)原始序列的長度值,n是至少為4的有限正整數(shù),S為馬爾科夫狀態(tài)個數(shù)。
采用初始狀態(tài)概率公式
得到初始狀態(tài)概率矩陣
式中Pij為經(jīng)過k步轉(zhuǎn)移的概率,r是選取的最優(yōu)輸入預(yù)測個數(shù),距離要預(yù)測狀態(tài)最近的r個值,k是轉(zhuǎn)移的步數(shù),采用初始狀態(tài)概率,經(jīng)過k步轉(zhuǎn)移之后狀態(tài)轉(zhuǎn)移概率列向量之和的最大值所屬狀態(tài),作為預(yù)測下一步將要轉(zhuǎn)移狀態(tài)的概率以及未來狀態(tài)的趨勢,獲得馬爾科夫模型修正預(yù)測值。
選取狀態(tài)轉(zhuǎn)移概率列向量之和的最大值所屬的狀態(tài)為預(yù)測值的狀態(tài),預(yù)測值為:
式中Li是劃分狀態(tài)區(qū)間后的左端點值,Uj是劃分狀態(tài)區(qū)間后的右端點值,是兩種單一模型組合以后的預(yù)測值,是馬爾科夫模型修正以后的預(yù)測值。
在本發(fā)明的步驟(2)中最優(yōu)子集法優(yōu)化預(yù)測值的方法為:
1)設(shè)定原有的歷史接待人數(shù)序列x(0)=(x(0)(1),x(0)(2),x(0)(3)…x(0)(n)),式中i=1,2…n,其中,n是序列的長度,為有限的正整數(shù),x(0)(i)是序列中第i個指標(biāo)年、月、日的接待人數(shù)值。
2)對序列x(0)做一次累加得x(1)序列為(x(1)(1),x(1)(2),x(1)(3)…x(1)(n))。
3)確定x(1)序列的近鄰均值序列z(1)(k)為0.5x(1)(k)+0.5(1)(k-1),式中k是不為1的有限正整數(shù)。
4)建立微分方程d(k)+az(1)(k)=b即x(0)(k)+az(1)(k)=b
式中x(0)(k)為灰導(dǎo)數(shù),z(1)(k)為白化背景值,a為發(fā)展系數(shù),b為灰作用量。
5)獲取客流量的預(yù)測值
采用下式獲取客流量的預(yù)測值:
式中a為發(fā)展系數(shù),b為灰作用量,意義同4),x(0)原有的歷史接待人數(shù)序列的初值。
6)預(yù)測客流量的精度
用平均絕對誤差百分比度量預(yù)測客流量的精度為:
式中l(wèi)為最優(yōu)輸入子集的個數(shù),MAPE(l)為平均絕對誤差百分比,n是旅游景區(qū)接待人數(shù)原始序列的長度值,為有限正整數(shù)。
7)確定最優(yōu)輸入子集的個數(shù)
截取連續(xù)的數(shù)據(jù)段(x(0)(n-l),…x(0)(n-1),x(0)(n)),l∈(4,5…n-1)作為輸入子集序列來替換原有的歷史接待人數(shù)序列(x(0)(1),x(0)(2),x(0)(3)…x(0)(n)),根據(jù)式(2)獲得平均絕對誤差百分比MAPE(l)的最小值,確定最優(yōu)輸入子集的個數(shù)l。
在本發(fā)明的步驟(3)中,基于模糊C均值聚類算法分割區(qū)間的方法為:
1)將收集的景區(qū)客流量數(shù)據(jù)序列定義為d序列,進(jìn)行升序排序為:d1、d2,、d3、…、dn,d1為客流量最小接待值,dn為客流量最大接待值,得到客流量所屬的范圍區(qū)間u為[d1,dn],用公式
d1=ab×10z
對范圍區(qū)間u進(jìn)行縮放處理,式中a、b、z為0到9之間的任意正整數(shù),縮放處理方法如下:
Spec=a×10z-1+(b-1)×10(z-2)
式中Spec為調(diào)整總趨勢,范圍區(qū)間U根據(jù)Spec合理調(diào)整得到新的范圍區(qū)間如下:
U=[d1-Spec/10,dn-Spec/10]
2)使用Matlab工具調(diào)用模糊C均值聚類算法,輸出K個聚類中心值,對聚類中心進(jìn)行排序,分別計算K個聚類中心的兩兩相鄰的中值,總計K-1個中心值,將K-1個中心值,分別插到范圍區(qū)間U中,得到K個小區(qū)間,記為u1,u2,u3,…,un。
在本發(fā)明的步驟(4)中,獲取兩種單一的預(yù)測模型的權(quán)重系數(shù)值w1和w2的方法為:
1)采用公式(3)得到其相對誤差,若相對誤差e(i)大于1,相對誤差e(i)值等于1,
式中x真實值為景區(qū)接待人數(shù)的觀測值,x預(yù)測值為景區(qū)接待人數(shù)的預(yù)測值。
2)用式(4)對相對誤差進(jìn)行單位化變換,第i個相對誤差占相對誤差總和的權(quán)重,即相對誤差的單位化變換;
3)用式(5)獲取信息熵的冗余度即第i個相對誤差的熵值和信息熵的冗余度:
d(i)=1-h(i) (5)
式中k>0為常數(shù),h(i)∈[0,1],h(i)為第i個相對誤差的熵值,d(i)記為信息熵的冗余度,i∈n,n為旅游景區(qū)接待人數(shù)原始序列的長度值,屬于有限正整數(shù),i是年、月、日中的一個數(shù)。
4)獲取兩種單一的預(yù)測模型的權(quán)重系數(shù)值w1和w2權(quán)重系數(shù),按式(6)
得到兩種單一的預(yù)測模型的權(quán)重系數(shù)值w1和w2,式中n為2,加權(quán)系數(shù)總和為1。
本發(fā)明采用在兩種現(xiàn)有的灰色模型和模糊時間序列模型的基礎(chǔ)上,采用熵值法結(jié)合兩種模型的預(yù)測結(jié)果,并采用馬爾科夫模型修正預(yù)測值,對旅游業(yè)提出了一種預(yù)測方法。本發(fā)明與現(xiàn)有的灰色模型與模糊時間序列模型相比,本發(fā)明具有以下優(yōu)點:
1、分析旅游景區(qū)的日??土髁孔兓?guī)律,根據(jù)國內(nèi)旅游的周期性特點,對多時間段、多時間尺度的客流量進(jìn)行預(yù)測。從宏觀上調(diào)控景區(qū)發(fā)展,微觀上揭示景區(qū)客流量的內(nèi)在規(guī)律,提升旅游行業(yè)的管理水平。
2、在兩種現(xiàn)有灰色模型與模糊時間序列模型的基礎(chǔ)上,增加最優(yōu)子集法確定灰色模型輸入子集的個數(shù);模糊C均值聚類和統(tǒng)計法確定劃分區(qū)間的長度。
3、采用熵值法來加權(quán)優(yōu)化灰色模型與模糊時間序列模型,與單一的兩種模型相比,本發(fā)明的信息更廣泛、更多,并能夠考慮到單一模型在不同時間段內(nèi)預(yù)測精度的變化。
4、根據(jù)熵值法組合優(yōu)化模型預(yù)測的結(jié)果,采用馬爾科夫模型劃分狀態(tài),求概率轉(zhuǎn)移矩陣,預(yù)測未來的趨勢,提高了預(yù)測性能。
附圖說明
圖1是本發(fā)明實施例1的流程圖。
圖2是實施例1中改進(jìn)的灰色模型預(yù)測方法的流程圖。
圖3是實施例1中改進(jìn)的模糊時間序列模型預(yù)測方法的流程圖。
具體實施方法
下面結(jié)合附圖和實施例對本發(fā)明進(jìn)一步詳細(xì)說明,但本發(fā)明不限于這些實施例。
實施例1
以西安博物院2011~2015年旅游客流量為例,基于熵值法組合優(yōu)化的旅游需求預(yù)測方法步驟如下:
如圖1所示,結(jié)合實施例國內(nèi)旅游需求預(yù)測的實際應(yīng)用——以西安博物院為例的基于熵值法組合優(yōu)化的旅游需求預(yù)測方法具體由以下步驟實現(xiàn):
(1)從旅游局官網(wǎng)旅游景點收集景區(qū)接待人數(shù)情況,按照年、月、日分類收集
收集西安博物院統(tǒng)計的2011—2015年來西安博物院旅游的持票入園人數(shù),如表1所示:
表1西安博物院旅游客流量
(2)采用動態(tài)優(yōu)化子集灰色模型方法,按照不同的時間尺度年、月、日分別對景區(qū)接待人數(shù)進(jìn)行預(yù)測
1)設(shè)定原有的歷史接待人數(shù)序列x(0)=(x(0)(1),x(0)(2),x(0)(3)…x(0)(n)),i=1,2…n,其中,n是序列的長度為48,x(0)(1)是序列中第1個數(shù),為2011年1月份接待人數(shù),……,x(0)(48)是序列中的第48個數(shù),為2014年12月份接待人數(shù)。
2)對序列x(0)做一次累加得x(1)序列為(x(1)(1),x(1)(2),x(1)(3)…x(1)(n))。
3)確定x(1)序列的近鄰均值序列z(1)(k)為0.5x(1)(k)+0.5(1)(k-1),式中k為2,3,…49。
4)建立微分方程d(k)+az(1)(k)=b即x(0)(k)+az(1)(k)=b式中x(0)(k)為灰導(dǎo)數(shù),z(1)(k)為白化背景值,a為發(fā)展系數(shù),b為灰作用量;
5)獲取客流量的預(yù)測值,采用下式獲取客流量的預(yù)測值:
式中a為發(fā)展系數(shù),b為灰作用量,意義同4),x(0)原有的歷史接待人數(shù)序列的初值,客流量預(yù)測結(jié)果見表2。
表2灰色模型預(yù)測西安博物院旅游客流量
6)預(yù)測客流量的精度
用平均絕對誤差百分比度量預(yù)測客流量的精度為
式中l(wèi)為最優(yōu)輸入子集的個數(shù),取l為5-43連續(xù)的正整數(shù),MAPE(l)為平均絕對誤差百分比,見表3,n為旅游景區(qū)接待人數(shù)原始序列的長度值,n為48。
表3最佳輸入子集長度和MAPE值
7)確定最優(yōu)輸入子集的個數(shù)
截取連續(xù)的數(shù)據(jù)段(x(0)(n-l),…x(0)(n-1),x(0)(n)),l∈(4,5…n-1)作為輸入子集序列來替換原有的歷史接待人數(shù)序列(x(0)(1),x(0)(2),x(0)(3)…x(0)(n)),根據(jù)式(2)獲得平均絕對誤差百分比MAPE(l)的最小值為MAPE=0.1794,l=10時,性能最好,因此,確定最優(yōu)輸入子集的個數(shù)為10來預(yù)測。
(3)采用模糊時間序列模型按年、月、日分別對旅游景區(qū)接待人數(shù)進(jìn)行預(yù)測
在模糊時間序列模型的基礎(chǔ)上,采用模糊C均值聚類算法分割區(qū)間獲得聚類中心,對聚類中心按照升序進(jìn)行排序,計算序列中相鄰兩個值的中值,分別插入旅游景區(qū)接待人數(shù)的最小值和最大值組成區(qū)間范圍;根據(jù)落在區(qū)間范圍內(nèi)接待人數(shù)值的分布情況,采用統(tǒng)計學(xué)方法得到每個區(qū)間范圍內(nèi)落入的旅游景區(qū)接待人數(shù),構(gòu)建模糊邏輯關(guān)系,建立模糊預(yù)測。
上述的基于模糊C均值聚類算法分割區(qū)間的方法為:
1)將收集的旅游景區(qū)客流量數(shù)據(jù)序列定義為d序列,進(jìn)行升序排序為:d1、d2,、d3、…、dn,d1為客流量最小接待值,dn為客流量最大接待值,得到客流量所屬的范圍區(qū)間u為[d1,dn],用公式
d1=ab×10z
式中a為1,b為2,z為4,d1為12×104,對范圍區(qū)間u進(jìn)行縮放處理,u為12401~136561,縮放處理如下:
Spec=a×10z-1+(b-1)×10(z-2)
式中Spec為調(diào)整總趨勢為1100,范圍區(qū)間U根據(jù)Spec合理調(diào)整得到新的范圍區(qū)間為12291~136671
U=[d1-Spec/10,dn-Spec/10]
2)使用Matlab工具調(diào)用模糊C均值聚類算法,輸出K個聚類中心值,本實施例的K為6,對聚類中心進(jìn)行排序,分別計算K個聚類中心的兩兩相鄰的中值,總計K-1個中心值,將K-1個中心值分別插到U中,本實施例的U為12291~136671,得到K個小區(qū)間,記為u1,u2,u3,…,u27,本實施例的u1為12.291~14.881,u2為14.881~17.471,u3為17.471~20.061,…,u27為135.09335~136.671。
(4)采用熵值法組合優(yōu)化的旅游需求預(yù)測模型
采用熵值法按下式
確定動態(tài)優(yōu)化子集灰色模型與模糊時間序列模型兩種單一模型相對誤差的熵值;式中k>0為常數(shù),本實施例的k為0.2543,h(i)∈[0,1],n為景區(qū)接待人數(shù)原始序列的長度值,本實施例的n為48,h(i)為第i個相對誤差的熵值,本實施例的h(1)為0.0912,h(2)為0.0819,獲取兩種單一的預(yù)測模型的權(quán)重系數(shù)值w1和w2,本實施例的w1為0.5025,w2為0.4975,得到動態(tài)優(yōu)化子集灰色模型和模糊時間序列模型組合模型的預(yù)測值式中w1為動態(tài)優(yōu)化子集灰色模型的權(quán)重系數(shù)值,w2為模糊時間序列模型的權(quán)重系數(shù)值,F(xiàn)為動態(tài)優(yōu)化子集灰色模型的預(yù)測值,為模糊時間序列模型的預(yù)測值,為動態(tài)優(yōu)化子集灰色模型和模糊時間序列模型組合模型預(yù)測值,預(yù)測結(jié)果見表4。
表4基于熵值法的組合方法預(yù)測結(jié)果
(5)采用馬爾科夫模型修正熵值法組合優(yōu)化模型
將步驟(4)得到的組合模型預(yù)測值與旅景區(qū)接待人數(shù)實際值的相對誤差按下式確定馬爾科夫狀態(tài)個數(shù)
式中n為景區(qū)接待人數(shù)原始序列的長度值,n為有限正整數(shù)。S為馬爾科夫狀態(tài)個數(shù),本實施例的n為48,S為6;
采用初始狀態(tài)概率公式
得到初始狀態(tài)概率矩陣
式中Pij為經(jīng)過k步轉(zhuǎn)移的概率,r是選取的最優(yōu)輸入預(yù)測個數(shù),r距離要預(yù)測狀態(tài)最近的r個值,k是轉(zhuǎn)移的步數(shù),本實施例的k為3,r為10,采用初始狀態(tài)概率,經(jīng)過k步轉(zhuǎn)移之后狀態(tài)轉(zhuǎn)移概率列向量之和的最大值所屬狀態(tài),作為預(yù)測下一步將要轉(zhuǎn)移狀態(tài)的概率以及未來狀態(tài)的趨勢,獲得馬爾科夫模型修正預(yù)測值;
選取狀態(tài)轉(zhuǎn)移概率列向量之和的最大值所屬的狀態(tài)為預(yù)測值的狀態(tài),預(yù)測值為:
這里L(fēng)i是劃分狀態(tài)區(qū)間后的左端點值,Uj是劃分狀態(tài)區(qū)間后的右端點值,是兩種單一模型組合以后的預(yù)測值,是馬爾科夫模型修正以后的預(yù)測值見表5。
表5基于熵值法的組合馬爾科夫優(yōu)化的方法預(yù)測結(jié)果
由表5可見,預(yù)測結(jié)果結(jié)合平均相對誤差MRE、平均絕對相對誤差MARE、均方根相對誤差RMSE、平均絕對百分比誤差MAPE來進(jìn)行評價如表6所示,通過對比4種模型,基于熵值法的組合優(yōu)化的方法有更好的預(yù)測性能。
表6 4種模型下不同評價指標(biāo)的比較