一種數(shù)據(jù)預(yù)測(cè)方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及計(jì)算機(jī)技術(shù)領(lǐng)域,尤其涉及一種數(shù)據(jù)預(yù)測(cè)方法和裝置。
【背景技術(shù)】
[0002]隨著計(jì)算機(jī)技術(shù)的發(fā)展和普及,通過(guò)歷史數(shù)據(jù)來(lái)預(yù)測(cè)這種數(shù)據(jù)未來(lái)的發(fā)展趨勢(shì)的需求也日益增加。例如,隨著人們生活水平的提高和旅游業(yè)的飛速發(fā)展,各景區(qū)的游客數(shù)量大幅增加,尤其在法定節(jié)假日,各景區(qū)的游客數(shù)量激增,景區(qū)現(xiàn)有的衣食住行難以滿(mǎn)足過(guò)多的游客數(shù)量,導(dǎo)致不良影響甚至暴力事件。而如何有效地分析各個(gè)景區(qū)的歷史旅游數(shù)據(jù),例如,景區(qū)天氣參數(shù)、游客人數(shù)、旅游日期等,并基于這些歷史數(shù)據(jù)進(jìn)行發(fā)展趨勢(shì)預(yù)測(cè),對(duì)于游客合理安排出行、緩解交通壓力、有效分散游客數(shù)量、使景區(qū)能夠預(yù)先儲(chǔ)備足夠的食物、提高服務(wù)效率等,是非常重要的。
[0003]目前,一些模型被建立來(lái)預(yù)測(cè)這種大批量的數(shù)據(jù)的發(fā)展趨勢(shì),然而這些模型的計(jì)算需要較長(zhǎng)的時(shí)間、且準(zhǔn)確率低。
【發(fā)明內(nèi)容】
[0004]鑒于上述問(wèn)題,提出了本發(fā)明,以便提供一種克服上述問(wèn)題或者至少部分地解決上述問(wèn)題的應(yīng)用的特征參數(shù)的估算方法和裝置。
[0005]依據(jù)本發(fā)明的第一方面,提供了一種數(shù)據(jù)預(yù)測(cè)方法,包括:從服務(wù)器獲取時(shí)間序列數(shù)據(jù),所述時(shí)間序列數(shù)據(jù)包括已發(fā)生的N個(gè)時(shí)間點(diǎn)的數(shù)據(jù);分析所述時(shí)間序列數(shù)據(jù)的平穩(wěn)性,以獲得平穩(wěn)性分析結(jié)果;根據(jù)所述平穩(wěn)性分析結(jié)果,選擇第一預(yù)測(cè)模型;以及根據(jù)所選擇的第一預(yù)測(cè)模型,預(yù)測(cè)未來(lái)K個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。
[0006]可選地,其中分析所述時(shí)間序列數(shù)據(jù)的平穩(wěn)性包括:利用單位根檢驗(yàn)分析時(shí)間序列數(shù)據(jù)的平穩(wěn)性。
[0007]可選地,其中根據(jù)所述平穩(wěn)性分析結(jié)果,選擇第一預(yù)測(cè)模型包括:當(dāng)所述平穩(wěn)性分析結(jié)果為所述時(shí)間序列數(shù)據(jù)是平穩(wěn)的,選擇ARIMA模型作為第一預(yù)測(cè)模型。
[0008]可選地,其中根據(jù)所述平穩(wěn)性分析結(jié)果,選擇第一預(yù)測(cè)模型包括:當(dāng)所述平穩(wěn)性分析結(jié)果為所述時(shí)間序列數(shù)據(jù)是不平穩(wěn)的,對(duì)所述時(shí)間序列數(shù)據(jù)進(jìn)行逐級(jí)差分;分析差分后的時(shí)間序列數(shù)據(jù)的平穩(wěn)性;以及當(dāng)所述差分后的時(shí)間序列數(shù)據(jù)是平穩(wěn)的,選擇ARIMA模型作為第一預(yù)測(cè)模型。
[0009]可選地,其中根據(jù)所述平穩(wěn)性分析結(jié)果,選擇第一預(yù)測(cè)模型包括:當(dāng)所述平穩(wěn)性分析結(jié)果為所述時(shí)間序列數(shù)據(jù)是不平穩(wěn)的,對(duì)所述時(shí)間序列數(shù)據(jù)進(jìn)行逐級(jí)差分;以及當(dāng)所述差分后的時(shí)間序列數(shù)據(jù)的方差大于差分前的所述時(shí)間序列數(shù)據(jù),選擇Lasso算法建立所述第一預(yù)測(cè)模型。
[0010]可選地,其中根據(jù)所述平穩(wěn)性分析結(jié)果,選擇第一預(yù)測(cè)模型包括:根據(jù)所述平穩(wěn)性分析結(jié)果,確定所述ARIMA模型的第一參數(shù),所述第一參數(shù)是當(dāng)差分后的時(shí)間序列數(shù)據(jù)是平穩(wěn)時(shí),所述時(shí)間序列數(shù)據(jù)被差分的次數(shù);計(jì)算所述差分后的時(shí)間序列數(shù)據(jù)的自相關(guān)函數(shù)和偏自相關(guān)函數(shù);根據(jù)所述第一參數(shù)、所述自相關(guān)函數(shù)和所述偏自相關(guān)函數(shù),訓(xùn)練所述ARIMA模型,并選擇最優(yōu)的ARIMA模型作為所述第一預(yù)測(cè)模型。
[0011 ] 可選地,其中選擇最優(yōu)的ARIMA模型作為所述第一預(yù)測(cè)模型包括:當(dāng)所述自相關(guān)函數(shù)和所述偏自相關(guān)函數(shù)為拖尾時(shí),根據(jù)所述ARIMA模型的評(píng)價(jià)指標(biāo)參數(shù)和ARIMA模型的測(cè)試集上的性能參數(shù),選擇最優(yōu)的ARIMA模型作為所述第一預(yù)測(cè)模型。
[0012]可選地,其中根據(jù)所選擇的第一預(yù)測(cè)模型,預(yù)測(cè)未來(lái)K個(gè)時(shí)間點(diǎn)的數(shù)據(jù)包括:根據(jù)所選擇的第一預(yù)測(cè)模型,直接預(yù)測(cè)未來(lái)K個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。
[0013]可選地,其中根據(jù)所述平穩(wěn)性分析結(jié)果,選擇第一預(yù)測(cè)模型還包括:判斷所選擇的第一預(yù)測(cè)模型的殘差是否具有異方差性,當(dāng)所選擇的第一預(yù)測(cè)模型的殘差具有異方差性,對(duì)所述時(shí)間序列數(shù)據(jù)進(jìn)行變換處理;分析變換處理后的時(shí)間序列數(shù)據(jù)的平穩(wěn)性;根據(jù)變換處理后的時(shí)間序列數(shù)據(jù)的平穩(wěn)性,選擇第二預(yù)測(cè)模型;判斷所選擇的第二預(yù)測(cè)模型的殘差是否具有異方差性,當(dāng)所選擇的第二預(yù)測(cè)模型的殘差具有異方差性,選擇Lasso算法建立所述第一預(yù)測(cè)模型。
[0014]可選地,其中判斷所選擇的預(yù)測(cè)模型的殘差是否具有異方差性包括:基于ARCH檢驗(yàn)、White檢驗(yàn)或Goldfed-Quanadt檢驗(yàn),判斷所選擇的預(yù)測(cè)模型的殘差是否具有異方差性。
[0015]可選地,其中根據(jù)所選擇的第一預(yù)測(cè)模型,預(yù)測(cè)未來(lái)K個(gè)時(shí)間點(diǎn)的數(shù)據(jù)包括:針對(duì)所述K個(gè)時(shí)間點(diǎn)中的每一個(gè)時(shí)間點(diǎn),根據(jù)所述時(shí)間序列數(shù)據(jù)的自回歸參數(shù)和預(yù)先設(shè)定的特征參數(shù),分別預(yù)測(cè)每一個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。
[0016]根據(jù)本發(fā)明的第二方面,提供了一種數(shù)據(jù)預(yù)測(cè)裝置,包括:數(shù)據(jù)獲取模塊,適于從服務(wù)器獲取時(shí)間序列數(shù)據(jù),所述時(shí)間序列數(shù)據(jù)包括已發(fā)生的N個(gè)時(shí)間點(diǎn)的數(shù)據(jù);平穩(wěn)性分析模塊,適于分析所述時(shí)間序列數(shù)據(jù)的平穩(wěn)性,以獲得平穩(wěn)性分析結(jié)果;模型選擇模塊,適于根據(jù)所述平穩(wěn)性分析結(jié)果,選擇第一預(yù)測(cè)模型;以及數(shù)據(jù)預(yù)測(cè)模塊,適于根據(jù)所選擇的第一預(yù)測(cè)模型,預(yù)測(cè)未來(lái)K個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。
[0017]可選地,其中所述平穩(wěn)性分析模塊適于:利用單位根檢驗(yàn)分析時(shí)間序列數(shù)據(jù)的平穩(wěn)性。
[0018]可選地,其中所述模型選擇模塊適于:當(dāng)所述平穩(wěn)性分析結(jié)果為所述時(shí)間序列數(shù)據(jù)是平穩(wěn)的,選擇ARIMA模型作為第一預(yù)測(cè)模型。
[0019]可選地,其中所述模型選擇模塊適于:當(dāng)所述平穩(wěn)性分析結(jié)果為所述時(shí)間序列數(shù)據(jù)是不平穩(wěn)的,對(duì)所述時(shí)間序列數(shù)據(jù)進(jìn)行逐級(jí)差分;分析差分后的時(shí)間序列數(shù)據(jù)的平穩(wěn)性;以及當(dāng)所述差分后的時(shí)間序列數(shù)據(jù)是平穩(wěn)的,選擇ARIMA模型作為第一預(yù)測(cè)模型。
[0020]可選地,其中所述模型選擇模塊適于:當(dāng)所述平穩(wěn)性分析結(jié)果為所述時(shí)間序列數(shù)據(jù)是不平穩(wěn)的,對(duì)所述時(shí)間序列數(shù)據(jù)進(jìn)行逐級(jí)差分;以及當(dāng)所述差分后的時(shí)間序列數(shù)據(jù)的方差大于差分前的所述時(shí)間序列數(shù)據(jù),選擇Lasso算法建立所述第一預(yù)測(cè)模型。
[0021]可選地,其中所述模型選擇模塊適于:根據(jù)所述平穩(wěn)性分析結(jié)果,確定所述ARIMA模型的第一參數(shù),所述第一參數(shù)是當(dāng)差分后的時(shí)間序列數(shù)據(jù)是平穩(wěn)時(shí),所述時(shí)間序列數(shù)據(jù)被差分的次數(shù);計(jì)算所述差分后的時(shí)間序列數(shù)據(jù)的自相關(guān)函數(shù)和偏自相關(guān)函數(shù);根據(jù)所述第一參數(shù)、所述自相關(guān)函數(shù)和所述偏自相關(guān)函數(shù),訓(xùn)練所述ARIMA模型,并選擇最優(yōu)的ARIMA模型作為所述第一預(yù)測(cè)模型。
[0022]可選地,其中所述模型選擇模塊還適于:當(dāng)所述自相關(guān)函數(shù)和所述偏自相關(guān)函數(shù)為拖尾時(shí),根據(jù)所述ARIMA模型的評(píng)價(jià)指標(biāo)參數(shù)和ARIMA模型的測(cè)試集上的性能參數(shù),選擇最優(yōu)的ARIMA模型作為所述第一預(yù)測(cè)模型。
[0023]可選地,其中所述數(shù)據(jù)預(yù)測(cè)模塊適于:根據(jù)所選擇的第一預(yù)測(cè)模型,直接預(yù)測(cè)未來(lái)K個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。
[0024]可選地,其中所述模型選擇模塊還適于:判斷所選擇的第一預(yù)測(cè)模型的殘差是否具有異方差性,當(dāng)所選擇的第一預(yù)測(cè)模型的殘差具有異方差性,對(duì)所述時(shí)間序列數(shù)據(jù)進(jìn)行變換處理;分析變換處理后的時(shí)間序列數(shù)據(jù)的平穩(wěn)性;根據(jù)變換處理后的時(shí)間序列數(shù)據(jù)的平穩(wěn)性,選擇第二預(yù)測(cè)模型;判斷所選擇的第二預(yù)測(cè)模型的殘差是否具有異方差性,當(dāng)所選擇的第二預(yù)測(cè)模型的殘差具有異方差性,選擇Lasso算法建立所述第一預(yù)測(cè)模型。
[0025]可選地,其中所述模型選擇模塊還適于:基于ARCH檢驗(yàn)、White檢驗(yàn)或Goldfed-Quanadt檢驗(yàn),判斷所選擇的預(yù)測(cè)模型的殘差是否具有異方差性。
[0026]可選地,其中所述數(shù)據(jù)預(yù)測(cè)模塊適于:針對(duì)所述K個(gè)時(shí)間點(diǎn)中的每一個(gè)時(shí)間點(diǎn),根據(jù)所述時(shí)間序列數(shù)據(jù)的自回歸參數(shù)和預(yù)先設(shè)定的特征參數(shù),分別預(yù)測(cè)每一個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。
[0027]本發(fā)明提供了上述根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)預(yù)測(cè)方法和裝置,通過(guò)分析所述時(shí)間序列數(shù)據(jù)的平穩(wěn)性選擇預(yù)測(cè)模型,并根據(jù)預(yù)測(cè)模型來(lái)預(yù)測(cè)未來(lái)時(shí)間點(diǎn)的數(shù)據(jù),構(gòu)建了改進(jìn)的數(shù)據(jù)預(yù)測(cè)體系,能夠自適應(yīng)地判斷該用何種模型建模,具有顯著提高的靈活性,兼顧了預(yù)測(cè)效果和時(shí)間成本;同時(shí)還能自動(dòng)進(jìn)行參數(shù)選擇和模型訓(xùn)練,提高了數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確性和效率,對(duì)于處理大批量的時(shí)間序列數(shù)據(jù)的趨勢(shì)預(yù)測(cè)任務(wù)尤其有優(yōu)勢(shì)。
[0028]上述說(shuō)明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說(shuō)明書(shū)的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的【具體實(shí)施方式】。
【附圖說(shuō)明】
[0029]通過(guò)閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
[0030]圖1是根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)預(yù)測(cè)方法的流程圖;以及
[0031]圖2是根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)預(yù)測(cè)裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0032]下面將參照附圖更詳細(xì)地描述本公開(kāi)的示例性實(shí)施例。雖然附圖中顯示了本公開(kāi)的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開(kāi)而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開(kāi),并且能夠?qū)⒈竟_(kāi)的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
[0033]根據(jù)本發(fā)明的第一方面,提供了一種根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)預(yù)測(cè)方法100。
[0034]圖1示出了根據(jù)本發(fā)明的實(shí)施例的數(shù)據(jù)預(yù)測(cè)方法100的流程圖。
[0035]如圖1所示,數(shù)據(jù)預(yù)測(cè)方法100始于步驟SlOl:從服務(wù)器獲取時(shí)間序列數(shù)據(jù),所述時(shí)間序列數(shù)據(jù)包括已發(fā)生的N個(gè)時(shí)間點(diǎn)的數(shù)據(jù)。
[0036]在本發(fā)明的實(shí)施例中,服務(wù)器可以是一個(gè)或多個(gè)服務(wù)器計(jì)算機(jī),可設(shè)置為提供某種服務(wù)器功能,例如數(shù)據(jù)庫(kù)管理和搜索引擎。服務(wù)器可以包括至少一個(gè)處理器,其與存儲(chǔ)器以及多個(gè)其它模塊協(xié)同操作。所述處理器可以包括多個(gè)核心,以用于多線(xiàn)程或并行處理。所述存儲(chǔ)器可以包括一個(gè)或多個(gè)存儲(chǔ)設(shè)備,存儲(chǔ)器或者其中的存儲(chǔ)設(shè)備包括非易失性計(jì)算機(jī)可讀記錄/存儲(chǔ)介質(zhì)。
[0037]在本發(fā)明的實(shí)施例中,時(shí)間序列數(shù)據(jù)可以是與時(shí)間的變化相關(guān)的數(shù)據(jù),所述時(shí)間序列數(shù)據(jù)包括已發(fā)生的N個(gè)時(shí)間點(diǎn)的數(shù)據(jù),如Ix1, X2, X3,.., xN}。例如,以旅游為例,時(shí)間序列數(shù)據(jù)可以是某城市在一段時(shí)間內(nèi)每天的旅游數(shù)據(jù),例如,北京過(guò)去7天之內(nèi)每天的到達(dá)航班、火車(chē)的數(shù)量或乘客數(shù)量,各景點(diǎn)接待的游客數(shù)量,各景點(diǎn)附件餐館、旅店接待的游客數(shù)量,各景點(diǎn)溫度等數(shù)據(jù)。
[0038]需說(shuō)明,以旅游為例說(shuō)明本發(fā)明,其僅僅是示例性的,本發(fā)明并不僅限于此,還包括其他方面的應(yīng)用,例如,對(duì)就業(yè)、入學(xué)等其他大批量時(shí)間序列數(shù)據(jù)的分析和發(fā)展趨勢(shì)預(yù)測(cè)。
[0039]如圖1所示,方法100還包括步驟S103:分析所述時(shí)間序列數(shù)據(jù)的平穩(wěn)性,以獲得平穩(wěn)性分析結(jié)果。
[0040]根據(jù)本發(fā)明的示例性實(shí)施例,分析所述時(shí)間序列數(shù)據(jù)的平穩(wěn)性包括:利用單位根檢驗(yàn)分析時(shí)間序列數(shù)據(jù)的平穩(wěn)性。例如,對(duì)