本申請(qǐng)涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及數(shù)據(jù)預(yù)測(cè)方法及裝置。
背景技術(shù):
時(shí)間序列(或稱(chēng)動(dòng)態(tài)數(shù)列)是指將同一統(tǒng)計(jì)指標(biāo)的數(shù)值按其發(fā)生的時(shí)間先后順序排列而成的數(shù)列。并且,時(shí)間序列分析的主要目的是根據(jù)已有的歷史數(shù)據(jù)對(duì)時(shí)間序列的未來(lái)值進(jìn)行預(yù)測(cè)。
現(xiàn)有技術(shù)中,可以采用回歸模型、自回歸積分滑動(dòng)平均模型(autoregressiveintegratedmovingaveragemodel,arima)模型、以及帶有干預(yù)序列的arima模型等不同的模型來(lái)預(yù)測(cè)某一時(shí)間序列的未來(lái)值。
但是,上述預(yù)測(cè)模型中的抽樣、參數(shù)估計(jì)、變量選擇以及最終模型選擇均需要人工參與,提高了時(shí)間序列分析的難度,并降低了時(shí)間序列分析的效率以及靈活性。
技術(shù)實(shí)現(xiàn)要素:
本申請(qǐng)?zhí)峁?shù)據(jù)預(yù)測(cè)方法及裝置,以解決現(xiàn)有技術(shù)中預(yù)測(cè)模型中的抽樣、參數(shù)估計(jì)、變量選擇以及最終模型選擇均需要人工參與,提高了時(shí)間序列分析的難度,并降低了時(shí)間序列分析的效率以及靈活性問(wèn)題。
根據(jù)本申請(qǐng)實(shí)施例的第一方面,提供一種數(shù)據(jù)預(yù)測(cè)方法,所述方法包括:
獲取用于數(shù)據(jù)預(yù)測(cè)的樣本集,所述樣本集至少包括兩個(gè)樣本;
對(duì)各個(gè)樣本均進(jìn)行建模,得到每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型;
根據(jù)各個(gè)所述樣本最優(yōu)模型確定所述樣本集對(duì)應(yīng)的整體最優(yōu)模型;
根據(jù)所述每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和所述整體最優(yōu)模型確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用各個(gè)所述預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè)。
根據(jù)本申請(qǐng)實(shí)施例的第二方面,提供一種數(shù)據(jù)預(yù)測(cè)裝置,所述裝置包括:
獲取單元,用于獲取用于數(shù)據(jù)預(yù)測(cè)的樣本集,所述樣本集至少包括兩個(gè)樣本;
建模單元,用于對(duì)各個(gè)樣本均進(jìn)行建模,得到每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型;
確定單元,用于根據(jù)各個(gè)所述樣本最優(yōu)模型確定所述樣本集對(duì)應(yīng)的整體最優(yōu)模型;
預(yù)測(cè)單元,用于根據(jù)所述每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和所述整體最優(yōu)模型確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用各個(gè)所述預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè)。
根據(jù)本申請(qǐng)實(shí)施例的第三方面,提供一種數(shù)據(jù)預(yù)測(cè)裝置,所述裝置包括:
處理器;
用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;
其中,所述處理器被配置為:
獲取用于數(shù)據(jù)預(yù)測(cè)的樣本集,所述樣本集至少包括兩個(gè)樣本;
對(duì)各個(gè)樣本均進(jìn)行建模,得到每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型;
根據(jù)各個(gè)所述樣本最優(yōu)模型確定所述樣本集對(duì)應(yīng)的整體最優(yōu)模型;
根據(jù)所述每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和所述整體最優(yōu)模型確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用各個(gè)所述預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè)。
應(yīng)用本申請(qǐng)實(shí)施例,在數(shù)據(jù)預(yù)測(cè)時(shí),可以獲取至少包括兩個(gè)樣本的樣本集,對(duì)各個(gè)樣本均進(jìn)行建模,得到每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型,根據(jù)各個(gè)樣本最優(yōu)模型確定樣本集對(duì)應(yīng)的整體最優(yōu)模型,根據(jù)每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和樣本集對(duì)應(yīng)的整體最優(yōu)模型確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用各個(gè)預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè),從而實(shí)現(xiàn)了數(shù)據(jù)預(yù)測(cè)的自動(dòng)化和批量化,還提高了數(shù)據(jù)預(yù)測(cè)的效率和準(zhǔn)確度。
附圖說(shuō)明
圖1為本申請(qǐng)實(shí)施例的數(shù)據(jù)預(yù)測(cè)場(chǎng)景示意圖;
圖2為本申請(qǐng)數(shù)據(jù)預(yù)測(cè)方法的一個(gè)實(shí)施例流程圖;
圖3為本申請(qǐng)數(shù)據(jù)預(yù)測(cè)方法的另一個(gè)實(shí)施例的流程圖;
圖4本申請(qǐng)數(shù)據(jù)預(yù)測(cè)裝置所在設(shè)備的一種硬件結(jié)構(gòu)圖;
圖5為本申請(qǐng)數(shù)據(jù)預(yù)測(cè)裝置的一個(gè)實(shí)施例框圖。
具體實(shí)施方式
這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說(shuō)明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本申請(qǐng)相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書(shū)中所詳述的、本申請(qǐng)的一些方面相一致的裝置和方法的例子。
在本申請(qǐng)使用的術(shù)語(yǔ)是僅僅出于描述特定實(shí)施例的目的,而非旨在限制本申請(qǐng)。在本申請(qǐng)和所附權(quán)利要求書(shū)中所使用的單數(shù)形式的“一種”、“所述”和“該”也旨在包括多數(shù)形式,除非上下文清楚地表示其他含義。還應(yīng)當(dāng)理解,本文中使用的術(shù)語(yǔ)“和/或”是指并包含一個(gè)或多個(gè)相關(guān)聯(lián)的列出項(xiàng)目的任何或所有可能組合。
應(yīng)當(dāng)理解,盡管在本申請(qǐng)可能采用術(shù)語(yǔ)第一、第二、第三等來(lái)描述各種信息,但這些信息不應(yīng)限于這些術(shù)語(yǔ)。這些術(shù)語(yǔ)僅用來(lái)將同一類(lèi)型的信息彼此區(qū)分開(kāi)。例如,在不脫離本申請(qǐng)范圍的情況下,第一信息也可以被稱(chēng)為第二信息,類(lèi)似地,第二信息也可以被稱(chēng)為第一信息。取決于語(yǔ)境,如在此所使用的詞語(yǔ)“如果”可以被解釋成為“在……時(shí)”或“當(dāng)……時(shí)”或“響應(yīng)于確定”。
參見(jiàn)圖1,為本申請(qǐng)實(shí)施例的數(shù)據(jù)預(yù)測(cè)場(chǎng)景示意圖:
圖1場(chǎng)景中包括:用戶(hù)和數(shù)據(jù)預(yù)測(cè)設(shè)備。其中,用戶(hù)可以為企業(yè)a,并 且該企業(yè)a需要數(shù)據(jù)預(yù)測(cè)設(shè)備為其預(yù)測(cè)未來(lái)銷(xiāo)售額。
數(shù)據(jù)預(yù)測(cè)設(shè)備首先可以自動(dòng)獲取用于預(yù)測(cè)企業(yè)a未來(lái)銷(xiāo)售額的樣本集,該樣本集不僅包括企業(yè)a的銷(xiāo)售樣本,還包括其他可比企業(yè)的銷(xiāo)售樣本。其中,可比企業(yè)是與企業(yè)a為同一行業(yè)的企業(yè)。這里,該數(shù)據(jù)預(yù)測(cè)設(shè)備不僅需要企業(yè)a的銷(xiāo)售樣本,還需要其他可比企業(yè)的銷(xiāo)售樣本,其目的不僅可以提高預(yù)測(cè)企業(yè)a未來(lái)銷(xiāo)售額的準(zhǔn)確性,還可以同時(shí)預(yù)測(cè)其他可比企業(yè)未來(lái)銷(xiāo)售額。另外,企業(yè)a的銷(xiāo)售樣本和其他可比企業(yè)的銷(xiāo)售樣本可以是一組時(shí)間序列。比如:各個(gè)企業(yè)連續(xù)30個(gè)月的銷(xiāo)售額。
然后,對(duì)各個(gè)銷(xiāo)售樣本均進(jìn)行建模,得到每個(gè)銷(xiāo)售樣本對(duì)應(yīng)的樣本最優(yōu)模型,該樣本最優(yōu)模型是針對(duì)同一樣本的預(yù)測(cè)誤差的最小值對(duì)應(yīng)的模型。
再次,根據(jù)各個(gè)銷(xiāo)售樣本最優(yōu)模型確定樣本集對(duì)應(yīng)的整體最優(yōu)模型,該整體最優(yōu)模型是相同樣本最優(yōu)模型對(duì)應(yīng)的樣本個(gè)數(shù)的最大值對(duì)應(yīng)的模型。
最后,可以將企業(yè)a的銷(xiāo)售樣本對(duì)應(yīng)的樣本最優(yōu)模型和樣本集對(duì)應(yīng)的整體最優(yōu)模型進(jìn)行比較:
(1)若企業(yè)a的銷(xiāo)售樣本對(duì)應(yīng)的樣本最優(yōu)模型與樣本集對(duì)應(yīng)的整體最優(yōu)模型相同,則選擇企業(yè)a的銷(xiāo)售樣本對(duì)應(yīng)的樣本最優(yōu)模型作為企業(yè)a對(duì)應(yīng)的預(yù)測(cè)模型,并利用企業(yè)a的銷(xiāo)售樣本對(duì)應(yīng)的樣本最優(yōu)模型對(duì)企業(yè)a未來(lái)的銷(xiāo)售額進(jìn)行預(yù)測(cè)。
(2)若企業(yè)a的銷(xiāo)售樣本對(duì)應(yīng)的樣本最優(yōu)模型與樣本集對(duì)應(yīng)的整體最優(yōu)模型不同,則計(jì)算樣本最優(yōu)模型對(duì)企業(yè)a的銷(xiāo)售樣本的預(yù)測(cè)誤差、以及整體最優(yōu)模型對(duì)企業(yè)a的銷(xiāo)售樣本的預(yù)測(cè)誤差,然后計(jì)算兩個(gè)誤差之間的差值:
若差值小于設(shè)定差值閾值,則將整體最優(yōu)模型確定企業(yè)a的銷(xiāo)售樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用整體最優(yōu)模型對(duì)企業(yè)a未來(lái)的銷(xiāo)售額進(jìn)行預(yù)測(cè)。
若差值不小于設(shè)定差值閾值,則將樣本最優(yōu)模型確定企業(yè)a的銷(xiāo)售樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用樣本最優(yōu)模型對(duì)企業(yè)a未來(lái)的銷(xiāo)售額進(jìn)行預(yù)測(cè)。
因此,數(shù)據(jù)預(yù)測(cè)設(shè)備可以自動(dòng)根據(jù)企業(yè)a的銷(xiāo)售樣本、以及其他可比企業(yè)的銷(xiāo)售樣本預(yù)測(cè)企業(yè)a未來(lái)的銷(xiāo)售額,這樣可以提高預(yù)測(cè)銷(xiāo)售額的準(zhǔn)確性。
下面對(duì)本申請(qǐng)實(shí)施例進(jìn)行詳細(xì)說(shuō)明。
參見(jiàn)圖2,為本申請(qǐng)數(shù)據(jù)預(yù)測(cè)方法的一個(gè)實(shí)施例的流程圖,該方法可以應(yīng)用于數(shù)據(jù)預(yù)測(cè)設(shè)備上,該數(shù)據(jù)預(yù)測(cè)設(shè)備可以為終端設(shè)備、也可以為服務(wù)器等,包括以下步驟:
步驟210:獲取用于數(shù)據(jù)預(yù)測(cè)的樣本集,該樣本集至少包括兩個(gè)樣本。
本申請(qǐng)實(shí)施例中,樣本集中的各個(gè)樣本可以是一組時(shí)間序列。并且,樣本中的數(shù)據(jù)可以是全量數(shù)據(jù),不用采樣。
比如:若需要預(yù)測(cè)企業(yè)1未來(lái)銷(xiāo)售額,其對(duì)應(yīng)的樣本集可以包括:樣本1、樣本2、…、樣本n等。其中,樣本1為企業(yè)1連續(xù)30個(gè)月的銷(xiāo)售額,樣本2為企業(yè)2連續(xù)30個(gè)月的銷(xiāo)售額、…、樣本n為企業(yè)n連續(xù)30個(gè)月的銷(xiāo)售額。其中,企業(yè)2、…、企業(yè)n皆為企業(yè)1的可比企業(yè)。
步驟220:對(duì)各個(gè)樣本均進(jìn)行建模,得到每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型。
本申請(qǐng)實(shí)施例中,可以同時(shí)對(duì)多個(gè)樣本建模,且每個(gè)樣本可以有不同的參數(shù),或者選擇多種建模模型,從這些建模模型中確定每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型。并且,樣本最優(yōu)模型是針對(duì)單個(gè)樣本來(lái)說(shuō),是最優(yōu)的建模模型。
步驟230:根據(jù)各個(gè)樣本最優(yōu)模型確定樣本集對(duì)應(yīng)的整體最優(yōu)模型。
本申請(qǐng)實(shí)施例中,不僅需要確定每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型,還需要確定樣本集對(duì)應(yīng)的整體最優(yōu)模型,該整體最優(yōu)模型是針對(duì)樣本集中大多數(shù)樣本來(lái)說(shuō),是最優(yōu)的建模模型。
步驟240:根據(jù)每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和樣本集對(duì)應(yīng)的整體最優(yōu)模型確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用各個(gè)預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè)。
本申請(qǐng)實(shí)施例中,確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型時(shí),不僅考慮該樣本自身對(duì)應(yīng)的樣本最優(yōu)模型,還要考慮整體最優(yōu)模型,若樣本最優(yōu)模型與整體最優(yōu)模型相同,則可以直接用整體最優(yōu)模型進(jìn)行數(shù)據(jù)預(yù)測(cè);若樣本最優(yōu)模型與整體最優(yōu)模型不同,則將樣本最優(yōu)模型與整體最優(yōu)模型進(jìn)行比較,選取最適合該樣本的一個(gè)模型作為預(yù)測(cè)模型,并用以進(jìn)行數(shù)據(jù)預(yù)測(cè)。
利用該預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè)時(shí),可以利用該預(yù)測(cè)模型對(duì)對(duì)應(yīng)樣本的未 來(lái)值進(jìn)行預(yù)測(cè)。
由上述實(shí)施例可見(jiàn),在數(shù)據(jù)預(yù)測(cè)時(shí),可以獲取至少包括兩個(gè)樣本的樣本集,對(duì)各個(gè)樣本均進(jìn)行建模,得到每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型,根據(jù)各個(gè)樣本最優(yōu)模型確定樣本集對(duì)應(yīng)的整體最優(yōu)模型,根據(jù)每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和樣本集對(duì)應(yīng)的整體最優(yōu)模型確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用各個(gè)預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè),從而實(shí)現(xiàn)了數(shù)據(jù)預(yù)測(cè)的自動(dòng)化和批量化,還提高了數(shù)據(jù)預(yù)測(cè)的效率和準(zhǔn)確度。
參見(jiàn)圖3,為本申請(qǐng)數(shù)據(jù)預(yù)測(cè)方法的另一個(gè)實(shí)施例的流程圖,該方法可以應(yīng)用于數(shù)據(jù)預(yù)測(cè)設(shè)備上,包括以下步驟:
步驟310:獲取用于數(shù)據(jù)預(yù)測(cè)的樣本集,該樣本集至少包括兩個(gè)樣本。該步驟與步驟210相同,在這里不再贅述。
步驟320:選擇至少兩個(gè)建模模型。
本申請(qǐng)實(shí)施例中,可以選擇多種建模模型,并從這些建模模型中確定每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型。并且,樣本集中各個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型可以是相同的,也可以是不同的。
步驟330:計(jì)算各個(gè)建模模型對(duì)第一樣本的預(yù)測(cè)誤差,該第一樣本是樣本集中的任一個(gè)樣本。
本申請(qǐng)實(shí)施例中,各個(gè)建模模型可以均屬于指數(shù)平滑(exponentialsmoothing,es)模型。該es模型是生產(chǎn)預(yù)測(cè)中常用的一種模型,也用于中短期經(jīng)濟(jì)發(fā)展趨勢(shì)預(yù)測(cè)。
常用的指數(shù)平滑模型包括:一次指數(shù)平滑模型(simpleexponentialsmoothing,ses)、二次指數(shù)平滑模型(linearexponentialsmoothing,les)等。
在計(jì)算各個(gè)建模模型對(duì)第一樣本的預(yù)測(cè)誤差時(shí),包括但不限于以下計(jì)算方法:
(1)對(duì)第一樣本進(jìn)行切分,并且切分后的第一樣本包括訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集。
本申請(qǐng)實(shí)施例中,對(duì)第一樣本進(jìn)行切分時(shí),可以按照預(yù)設(shè)的切分參數(shù)對(duì)第一樣本進(jìn)行切分。其中,預(yù)設(shè)的切分參數(shù)用于指明訓(xùn)練數(shù)據(jù)集在第一樣本中的百分比(例如70%)和驗(yàn)證數(shù)據(jù)集在第一樣本中的百分比(例如30%)。
比如:第一樣本為企業(yè)a連續(xù)30個(gè)月的銷(xiāo)售額(a1、a2、…、a30),并訓(xùn)練數(shù)據(jù)集對(duì)應(yīng)的切分參數(shù)為70%,驗(yàn)證數(shù)據(jù)集對(duì)應(yīng)的切分參數(shù)為30%,則可以將連續(xù)30個(gè)月的銷(xiāo)售額中前21個(gè)月的銷(xiāo)售額(a1、a2、…、a21)作為訓(xùn)練數(shù)據(jù)集,以及后9個(gè)月的銷(xiāo)售額(a22、a2、…、a30)作為驗(yàn)證數(shù)據(jù)集。
(2)根據(jù)各個(gè)指數(shù)平滑模型對(duì)第一樣本在訓(xùn)練數(shù)據(jù)集上進(jìn)行指數(shù)平滑訓(xùn)練,得到各個(gè)指數(shù)平滑模型對(duì)驗(yàn)證數(shù)據(jù)集的預(yù)測(cè)結(jié)果。
本申請(qǐng)實(shí)施例中,可以將第一樣本作為一時(shí)間序列,通過(guò)訓(xùn)練數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)來(lái)預(yù)測(cè)驗(yàn)證數(shù)據(jù)集中的驗(yàn)證數(shù)據(jù)。
在根據(jù)各個(gè)指數(shù)平滑模型對(duì)第一樣本在訓(xùn)練數(shù)據(jù)集上進(jìn)行指數(shù)平滑訓(xùn)練時(shí),可以先對(duì)第一樣本的訓(xùn)練數(shù)據(jù)集進(jìn)行移動(dòng)平均,得到第一樣本的移動(dòng)平均指標(biāo)集;然后,根據(jù)各個(gè)指數(shù)平滑模型對(duì)第一樣本在訓(xùn)練數(shù)據(jù)集和移動(dòng)平均指標(biāo)集上進(jìn)行指數(shù)平滑訓(xùn)練,得到預(yù)測(cè)結(jié)果。
比如:第一樣本為企業(yè)a連續(xù)30個(gè)月的銷(xiāo)售額(a1、a2、…、a30),前21個(gè)月的銷(xiāo)售額(a1、a2、…、a21)作為訓(xùn)練數(shù)據(jù)集,以及后9個(gè)月的銷(xiāo)售額(a22、a2、…、a30)作為驗(yàn)證數(shù)據(jù)集。
用2個(gè)月做移動(dòng)平均,生成企業(yè)a的前21個(gè)月的移動(dòng)平均指標(biāo)集(b1、b2、…、b21)。
其中,b1=a1;
b2=(a1+a2)/2;
b3=(a2+a3)/2;
…
b21=(a20+a21)/2。
首先,利用ses模型對(duì)訓(xùn)練數(shù)據(jù)集(a1、a2、…、a21)進(jìn)行建模,得 到后9個(gè)月的預(yù)測(cè)值,然后利用les對(duì)訓(xùn)練數(shù)據(jù)集(a1、a2、…、a21)進(jìn)行建模,也得到后9個(gè)月的預(yù)測(cè)值,一直到利用完所有的指數(shù)平滑模型。
然后,利用ses模型對(duì)移動(dòng)平均指標(biāo)集(b1、b2、…、b21)進(jìn)行建模,得到后9個(gè)月的預(yù)測(cè)值,然后利用les對(duì)移動(dòng)平均指標(biāo)集(b1、b2、…、b21)進(jìn)行建模,也得到后9個(gè)月的預(yù)測(cè)值,一直到利用完所有的指數(shù)平滑模型。
(3)根據(jù)驗(yàn)證數(shù)據(jù)集和預(yù)測(cè)結(jié)果計(jì)算各個(gè)指數(shù)平滑模型的預(yù)測(cè)誤差。
本申請(qǐng)實(shí)施例中,可以計(jì)算預(yù)測(cè)結(jié)果中的各個(gè)預(yù)測(cè)數(shù)據(jù)與驗(yàn)證數(shù)據(jù)集中對(duì)應(yīng)的驗(yàn)證數(shù)據(jù)之間的差值,然后對(duì)各個(gè)差值進(jìn)行統(tǒng)計(jì)分析,得到各個(gè)指數(shù)平滑模型的預(yù)測(cè)誤差。
另外,用于本申請(qǐng)中計(jì)算預(yù)測(cè)誤差的方法還有很多,在這里不再贅述。
步驟340:將預(yù)測(cè)誤差的最小值對(duì)應(yīng)的建模模型確定為第一樣本對(duì)應(yīng)的樣本最優(yōu)模型。
上述步驟320至步驟340完成了對(duì)各個(gè)樣本均進(jìn)行建模,得到每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型的功能。
步驟350:根據(jù)每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型,計(jì)算相同樣本最優(yōu)模型對(duì)應(yīng)的樣本個(gè)數(shù)。
比如:樣本集包括樣本1、樣本2、樣本3和樣本4。其中,樣本1對(duì)應(yīng)的樣本最優(yōu)模型為指數(shù)平滑模型1;樣本2對(duì)應(yīng)的樣本最優(yōu)模型為指數(shù)平滑模型2;樣本3對(duì)應(yīng)的樣本最優(yōu)模型為指數(shù)平滑模型3;樣本4對(duì)應(yīng)的樣本最優(yōu)模型為指數(shù)平滑模型2。
上述各個(gè)指數(shù)平滑模型對(duì)應(yīng)的樣本個(gè)數(shù)分別是:指數(shù)平滑模型1對(duì)應(yīng)的樣本個(gè)數(shù)為1;指數(shù)平滑模型2對(duì)應(yīng)的樣本個(gè)數(shù)為2;指數(shù)平滑模型3對(duì)應(yīng)的樣本個(gè)數(shù)為1。其中,指數(shù)平滑模型2對(duì)應(yīng)的樣本個(gè)數(shù)大于指數(shù)平滑模型1對(duì)應(yīng)的樣本個(gè)數(shù)、以及大于指數(shù)平滑模型3對(duì)應(yīng)的樣本個(gè)數(shù)。故此,可以選擇指數(shù)平滑模型2為整體最優(yōu)模型。
步驟360:將樣本個(gè)數(shù)最大值對(duì)應(yīng)的樣本最優(yōu)模型確定為整體最優(yōu)模型。
本申請(qǐng)實(shí)施例中,確定整體最優(yōu)模型后,還可以計(jì)算該整體最優(yōu)模型的 樣本占比值,并且樣本占比值為整體最優(yōu)模型對(duì)應(yīng)的樣本個(gè)數(shù)與所有樣本個(gè)數(shù)的商值。
比如:樣本集包括1000個(gè)樣本,9個(gè)建模模型,其中建模模型a為整體最優(yōu)模型,其對(duì)應(yīng)的樣本個(gè)數(shù)為300,也就是有300個(gè)樣本選擇建模模型a為樣本最優(yōu)模型,則建模模型a的樣本占比值為0.3。該樣本占比值取值為0至1之間,表征了樣本集的一致性,樣本占比值越大,表明該樣本集的一致性越高。
上述步驟350至步驟360完成了根據(jù)各個(gè)樣本最優(yōu)模型確定樣本集對(duì)應(yīng)的整體最優(yōu)模型的功能。
步驟370:根據(jù)每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和樣本集對(duì)應(yīng)的整體最優(yōu)模型確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用各個(gè)預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè)。
本申請(qǐng)實(shí)施例中,根據(jù)每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和樣本集對(duì)應(yīng)的整體最優(yōu)模型確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,可以包括但不限于以下方法:
(1)判斷第一樣本對(duì)應(yīng)的樣本最優(yōu)模型與整體最優(yōu)模型是否相同,若不同,則執(zhí)行(2)至(4);若相同,則執(zhí)行(5)。
(2)獲取樣本最優(yōu)模型對(duì)第一樣本的第一預(yù)測(cè)誤差、以及整體最優(yōu)模型對(duì)第一樣本的第二預(yù)測(cè)誤差。
(3)計(jì)算第一預(yù)測(cè)誤差與第二預(yù)測(cè)誤差之間的差值。
本申請(qǐng)實(shí)施例中,第一預(yù)測(cè)誤差與第二預(yù)測(cè)誤差之間的差值是衡量利用樣本最優(yōu)模型進(jìn)行預(yù)測(cè)和利用整體最優(yōu)模型進(jìn)行預(yù)測(cè)之間的一個(gè)差異度。
(4)若第一預(yù)測(cè)誤差與第二預(yù)測(cè)誤差之間的差值小于設(shè)定差值閾值,則將整體最優(yōu)模型確定第一樣本對(duì)應(yīng)的預(yù)測(cè)模型;若第一預(yù)測(cè)誤差與第二預(yù)測(cè)誤差之間的差值不小于設(shè)定差值閾值,則將樣本最優(yōu)模型確定第一樣本對(duì)應(yīng)的預(yù)測(cè)模型。
本申請(qǐng)實(shí)施例中,設(shè)定差值閾值的設(shè)置與整體最優(yōu)模型的樣本占比值有關(guān),即根據(jù)樣本占比值的大小來(lái)設(shè)置設(shè)定差值閾值的大小,樣本占比值越大,設(shè)定差值閾值也可以越大。其中,樣本占比值越大,設(shè)定差值閾值也可以越 大的原因是樣本占比值越大,其表明樣本集中所有樣本的一致性越高,此時(shí)可以允許的設(shè)定差值閾值可以越高。
若第一預(yù)測(cè)誤差與第二預(yù)測(cè)誤差之間的差值小于設(shè)定差值閾值,表明利用樣本最優(yōu)模型進(jìn)行預(yù)測(cè)和利用整體最優(yōu)模型進(jìn)行預(yù)測(cè)之間的差異不大,可以直接用整體最優(yōu)模型作為預(yù)測(cè)模型即可。
若第一預(yù)測(cè)誤差與第二預(yù)測(cè)誤差之間的差值不小于設(shè)定差值閾值,表明利用樣本最優(yōu)模型進(jìn)行預(yù)測(cè)遠(yuǎn)遠(yuǎn)好于利用整體最優(yōu)模型進(jìn)行預(yù)測(cè),故此仍然選用樣本最優(yōu)模型作為預(yù)測(cè)模型。
(5)將整體最優(yōu)模型確定第一樣本對(duì)應(yīng)的預(yù)測(cè)模型。
本申請(qǐng)實(shí)施例中,若樣本最優(yōu)模型與整體最優(yōu)模型相同,則可以直接將整體最優(yōu)模型確定第一樣本對(duì)應(yīng)的預(yù)測(cè)模型。
由上述實(shí)施例可見(jiàn),在數(shù)據(jù)預(yù)測(cè)時(shí),可以選擇多個(gè)建模模型,并從這些建模模型中選取各個(gè)樣本自身的樣本最優(yōu)模型,以及選取所有樣本對(duì)應(yīng)的整體最優(yōu)模型,并根據(jù)每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和所有樣本對(duì)應(yīng)的整體最優(yōu)模型來(lái)確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用各個(gè)預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè),從而進(jìn)一步提高了數(shù)據(jù)預(yù)測(cè)的準(zhǔn)確度。
在一個(gè)例子中,該數(shù)據(jù)預(yù)測(cè)方法還可以包括:
在檢測(cè)到樣本更新時(shí),根據(jù)更新后的樣本更新對(duì)應(yīng)的樣本最優(yōu)模型、整體最優(yōu)模型、以及預(yù)測(cè)模型。
本申請(qǐng)實(shí)施例中,若樣本集中的任一樣本的數(shù)據(jù)出現(xiàn)更新后,該樣本對(duì)應(yīng)的樣本最優(yōu)模型、整體最優(yōu)模型、整體最優(yōu)模型的樣本占比值、樣本最優(yōu)模型和整體最優(yōu)模型之間的預(yù)測(cè)差值以及設(shè)定差值閾值都會(huì)自動(dòng)改變,并且數(shù)據(jù)預(yù)測(cè)裝置會(huì)自動(dòng)計(jì)算出該樣本對(duì)應(yīng)的預(yù)測(cè)模型,以及得到預(yù)測(cè)結(jié)果。
由上述實(shí)施例可見(jiàn),在樣本數(shù)據(jù)更新時(shí),數(shù)據(jù)預(yù)測(cè)用到的預(yù)測(cè)參數(shù)和預(yù)測(cè)模型都會(huì)自動(dòng)改變,從而增強(qiáng)了數(shù)據(jù)預(yù)測(cè)的實(shí)時(shí)性,還提高了數(shù)據(jù)預(yù)測(cè)的靈活性。
與本申請(qǐng)數(shù)據(jù)預(yù)測(cè)方法的實(shí)施例相對(duì)應(yīng),本申請(qǐng)還提供了數(shù)據(jù)預(yù)測(cè)裝置 的實(shí)施例。
本申請(qǐng)數(shù)據(jù)預(yù)測(cè)裝置的實(shí)施例可以分別應(yīng)用在數(shù)據(jù)預(yù)測(cè)設(shè)備上,比如:終端設(shè)備或服務(wù)器。裝置實(shí)施例可以通過(guò)軟件實(shí)現(xiàn),也可以通過(guò)硬件或者軟硬件結(jié)合的方式實(shí)現(xiàn)。以軟件實(shí)現(xiàn)為例,作為一個(gè)邏輯意義上的裝置,是通過(guò)其所在設(shè)備的處理器將非易失性存儲(chǔ)器中對(duì)應(yīng)的計(jì)算機(jī)程序指令讀取到內(nèi)存中運(yùn)行形成的。從硬件層面而言,如圖4所示,為本申請(qǐng)數(shù)據(jù)預(yù)測(cè)裝置所在設(shè)備的一種硬件結(jié)構(gòu)圖,除了圖4所示的處理器、內(nèi)存、網(wǎng)絡(luò)接口、以及非易失性存儲(chǔ)器之外,實(shí)施例中裝置所在的設(shè)備通常根據(jù)該設(shè)備的實(shí)際功能,還可以包括其他硬件,如對(duì)于終端來(lái)說(shuō),可能包括攝像頭、觸摸屏子、通信組件等,對(duì)于服務(wù)器來(lái)說(shuō),可能包括負(fù)責(zé)處理報(bào)文的轉(zhuǎn)發(fā)芯片等等。
參見(jiàn)圖5,為本申請(qǐng)數(shù)據(jù)預(yù)測(cè)裝置的一個(gè)實(shí)施例框圖,該數(shù)據(jù)預(yù)測(cè)裝置可以應(yīng)用在數(shù)據(jù)預(yù)測(cè)設(shè)備上,并可以用于執(zhí)行圖2所示的數(shù)據(jù)預(yù)測(cè)方法,該裝置可以包括:獲取單元51、建模單元52、確定單元53和預(yù)測(cè)單元54。
其中,獲取單元51用于獲取用于數(shù)據(jù)預(yù)測(cè)的樣本集,所述樣本集至少包括兩個(gè)樣本;
建模單元52用于對(duì)各個(gè)樣本均進(jìn)行建模,得到每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型;
確定單元53用于根據(jù)各個(gè)所述樣本最優(yōu)模型確定所述樣本集對(duì)應(yīng)的整體最優(yōu)模型;
預(yù)測(cè)單元54用于根據(jù)所述每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和所述整體最優(yōu)模型確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用各個(gè)所述預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè)。
在一個(gè)可選的實(shí)現(xiàn)方式中:所述建模單元52可以包括:選擇子單元、第一計(jì)算子單元、第一確定子單元(圖5中未示出)。
其中,選擇子單元用于選擇至少兩個(gè)建模模型;
第一計(jì)算子單元用于計(jì)算各個(gè)建模模型對(duì)第一樣本的預(yù)測(cè)誤差,所述第一樣本是所述樣本集中的任一個(gè)樣本;
第一確定子單元用于將所述預(yù)測(cè)誤差的最小值對(duì)應(yīng)的建模模型確定為所述第一樣本對(duì)應(yīng)的樣本最優(yōu)模型。
在另一個(gè)可選的實(shí)現(xiàn)方式中:所述建模模型屬于指數(shù)平滑模型;所述第一計(jì)算子單元可以包括:切分模塊、指數(shù)平滑訓(xùn)練模塊和計(jì)算模塊(圖5中未示出)。
其中,切分模塊用于對(duì)所述第一樣本進(jìn)行切分,所述切分后的第一樣本包括訓(xùn)練數(shù)據(jù)集和驗(yàn)證數(shù)據(jù)集;
指數(shù)平滑訓(xùn)練模塊用于根據(jù)各個(gè)指數(shù)平滑模型對(duì)第一樣本在所述訓(xùn)練數(shù)據(jù)集上進(jìn)行指數(shù)平滑訓(xùn)練,得到各個(gè)指數(shù)平滑模型對(duì)所述驗(yàn)證數(shù)據(jù)集的預(yù)測(cè)結(jié)果;
計(jì)算模塊用于根據(jù)所述驗(yàn)證數(shù)據(jù)集和所述預(yù)測(cè)結(jié)果計(jì)算各個(gè)指數(shù)平滑模型的預(yù)測(cè)誤差。
在另一個(gè)可選的實(shí)現(xiàn)方式中:所述指數(shù)平滑訓(xùn)練模塊可以包括:移動(dòng)平均子模塊和指數(shù)平滑訓(xùn)練子模塊(圖5中未示出)。
其中,移動(dòng)平均子模塊用于對(duì)第一樣本的訓(xùn)練數(shù)據(jù)集進(jìn)行移動(dòng)平均,得到第一樣本的移動(dòng)平均指標(biāo)集;
指數(shù)平滑訓(xùn)練子模塊用于根據(jù)各個(gè)指數(shù)平滑模型對(duì)第一樣本在所述訓(xùn)練數(shù)據(jù)集和所述移動(dòng)平均指標(biāo)集上進(jìn)行指數(shù)平滑訓(xùn)練,得到所述預(yù)測(cè)結(jié)果。
在另一個(gè)可選的實(shí)現(xiàn)方式中:所述計(jì)算模塊可以包括:計(jì)算子模塊和統(tǒng)計(jì)分析子模塊(圖5中未示出)。
其中,計(jì)算子模塊用于計(jì)算所述預(yù)測(cè)結(jié)果中的各個(gè)預(yù)測(cè)數(shù)據(jù)與所述驗(yàn)證數(shù)據(jù)集中對(duì)應(yīng)的驗(yàn)證數(shù)據(jù)之間的差值;
統(tǒng)計(jì)分析子模塊用于對(duì)各個(gè)所述差值進(jìn)行統(tǒng)計(jì)分析,得到所述預(yù)測(cè)誤差。
在另一個(gè)可選的實(shí)現(xiàn)方式中:所述確定單元53可以包括:第二計(jì)算子單元和第二確定子單元(圖5中未示出)。
其中,第二計(jì)算子單元用于根據(jù)每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型,計(jì)算相同樣本最優(yōu)模型對(duì)應(yīng)的樣本個(gè)數(shù);
第二確定子單元用于將所述樣本個(gè)數(shù)最大值對(duì)應(yīng)的樣本最優(yōu)模型確定為所述整體最優(yōu)模型。
在另一個(gè)可選的實(shí)現(xiàn)方式中:所述裝置還可以包括:計(jì)算單元(圖5中未示出)。
其中,計(jì)算單元,用于計(jì)算所述整體最優(yōu)模型的樣本占比值,所述樣本占比值為所述整體最優(yōu)模型對(duì)應(yīng)的樣本個(gè)數(shù)與所有樣本個(gè)數(shù)的商值。
在另一個(gè)可選的實(shí)現(xiàn)方式中:所述預(yù)測(cè)單元54可以包括:判斷子單元、獲取子單元、第三計(jì)算子單元、第三確定子單元和第四確定子單元(圖5中未示出)。
其中,判斷子單元用于判斷所述第一樣本對(duì)應(yīng)的樣本最優(yōu)模型與所述整體最優(yōu)模型是否相同;
獲取子單元用于若所述第一樣本的樣本最優(yōu)模型與所述整體最優(yōu)模型不同,獲取所述樣本最優(yōu)模型對(duì)所述第一樣本的第一預(yù)測(cè)誤差、以及所述整體最優(yōu)模型對(duì)所述第一樣本的第二預(yù)測(cè)誤差;
第三計(jì)算子單元用于計(jì)算所述第一預(yù)測(cè)誤差與所述第二預(yù)測(cè)誤差之間的差值;
第三確定子單元用于若所述差值小于設(shè)定差值閾值,則將所述整體最優(yōu)模型確定所述第一樣本對(duì)應(yīng)的預(yù)測(cè)模型;
第四確定子單元用于若所述差值不小于所述設(shè)定差值閾值,則將所述樣本最優(yōu)模型確定所述第一樣本對(duì)應(yīng)的預(yù)測(cè)模型。
在另一個(gè)可選的實(shí)現(xiàn)方式中:所述預(yù)測(cè)單元54還可以包括:第五確定子單元(圖5中未示出)。
其中,第五確定子單元用于若所述第一樣本的樣本最優(yōu)模型與所述整體最優(yōu)模型相同,則將所述整體最優(yōu)模型確定所述第一樣本對(duì)應(yīng)的預(yù)測(cè)模型。
在另一個(gè)可選的實(shí)現(xiàn)方式中:所述裝置還可以包括:更新單元(圖5中未示出)。
其中,更新單元用于在檢測(cè)到樣本更新時(shí),根據(jù)更新后的樣本更新對(duì)應(yīng) 的樣本最優(yōu)模型、整體最優(yōu)模型、以及預(yù)測(cè)模型。
上述裝置中各個(gè)單元的功能和作用的實(shí)現(xiàn)過(guò)程具體詳見(jiàn)上述方法中對(duì)應(yīng)步驟的實(shí)現(xiàn)過(guò)程,在此不再贅述。
對(duì)于裝置實(shí)施例而言,由于其基本對(duì)應(yīng)于方法實(shí)施例,所以相關(guān)之處參見(jiàn)方法實(shí)施例的部分說(shuō)明即可。以上所描述的裝置實(shí)施例僅僅是示意性的,其中所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部模塊來(lái)實(shí)現(xiàn)本請(qǐng)求方案的目的。本領(lǐng)域普通技術(shù)人員在不付出創(chuàng)造性勞動(dòng)的情況下,即可以理解并實(shí)施。
與圖5相對(duì)應(yīng),本申請(qǐng)實(shí)施例還提供了一種數(shù)據(jù)預(yù)測(cè)裝置,所述裝置可以應(yīng)用于數(shù)據(jù)預(yù)測(cè)設(shè)備上,包括:
處理器;
用于存儲(chǔ)所述處理器可執(zhí)行指令的存儲(chǔ)器;
其中,所述處理器被配置為:
獲取用于數(shù)據(jù)預(yù)測(cè)的樣本集,所述樣本集至少包括兩個(gè)樣本;
對(duì)各個(gè)樣本均進(jìn)行建模,得到每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型;
根據(jù)各個(gè)所述樣本最優(yōu)模型確定所述樣本集對(duì)應(yīng)的整體最優(yōu)模型;
根據(jù)所述每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和所述整體最優(yōu)模型確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用各個(gè)所述預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè)。
由上述實(shí)施例可見(jiàn),在數(shù)據(jù)預(yù)測(cè)時(shí),可以獲取至少包括兩個(gè)樣本的樣本集,對(duì)各個(gè)樣本均進(jìn)行建模,得到每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型,根據(jù)各個(gè)樣本最優(yōu)模型確定樣本集對(duì)應(yīng)的整體最優(yōu)模型,根據(jù)每個(gè)樣本對(duì)應(yīng)的樣本最優(yōu)模型和樣本集對(duì)應(yīng)的整體最優(yōu)模型確定每個(gè)樣本對(duì)應(yīng)的預(yù)測(cè)模型,并利用各個(gè)預(yù)測(cè)模型進(jìn)行數(shù)據(jù)預(yù)測(cè),從而實(shí)現(xiàn)了數(shù)據(jù)預(yù)測(cè)的自動(dòng)化和批量化,還提高了數(shù)據(jù)預(yù)測(cè)的效率和準(zhǔn)確度
本領(lǐng)域技術(shù)人員在考慮說(shuō)明書(shū)及實(shí)踐這里公開(kāi)的發(fā)明后,將容易想到本 申請(qǐng)的其它實(shí)施方案。本申請(qǐng)旨在涵蓋本申請(qǐng)的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本申請(qǐng)的一般性原理并包括本申請(qǐng)未公開(kāi)的本技術(shù)領(lǐng)域中的公知常識(shí)或慣用技術(shù)手段。說(shuō)明書(shū)和實(shí)施例僅被視為示例性的,本申請(qǐng)的真正范圍和精神由下面的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本申請(qǐng)并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本申請(qǐng)的范圍僅由所附的權(quán)利要求來(lái)限制。