本發(fā)明涉及網(wǎng)絡(luò)信息熱點的預(yù)測方法,具體涉及一種基于elm的網(wǎng)絡(luò)信息熱點預(yù)測系統(tǒng)和方法。
背景技術(shù):
當(dāng)前網(wǎng)絡(luò)信息熱點的預(yù)測主要采用:傳統(tǒng)統(tǒng)計模型和現(xiàn)代統(tǒng)計學(xué)模型,傳統(tǒng)統(tǒng)計模型無法跟蹤網(wǎng)絡(luò)信息熱點的變化態(tài)勢,預(yù)測結(jié)果極不可靠?,F(xiàn)代統(tǒng)計學(xué)模型以獲得更高精度的網(wǎng)絡(luò)信息熱點預(yù)測結(jié)果,但無法滿足大規(guī)模網(wǎng)絡(luò)信息熱點的數(shù)據(jù)預(yù)測要求。因此,為了提高網(wǎng)絡(luò)信息熱點預(yù)測的準(zhǔn)確性,更好地描述網(wǎng)絡(luò)信息熱點的變化趨勢,亟需一種預(yù)測實時性良好、且結(jié)果理想的網(wǎng)絡(luò)信息熱點預(yù)測系統(tǒng)和方法。
技術(shù)實現(xiàn)要素:
本發(fā)明克服現(xiàn)有技術(shù)存在的不足,所要解決的技術(shù)問題為:提供一種預(yù)測實時性良好、且結(jié)果理想的基于elm的網(wǎng)絡(luò)信息熱點預(yù)測系統(tǒng)和方法。
為了解決上述技術(shù)問題,本發(fā)明采用的技術(shù)方案為:基于elm的網(wǎng)絡(luò)信息熱點預(yù)測系統(tǒng),包括:采集單元:用于采集待測網(wǎng)絡(luò)信息熱點的歷史點擊率數(shù)據(jù),構(gòu)成網(wǎng)絡(luò)信息熱點的學(xué)習(xí)樣本;估計單元:用于對網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ和嵌入維m進行估計,并對網(wǎng)絡(luò)信息熱點數(shù)據(jù)進行變換,得到訓(xùn)練樣本和測試樣本;訓(xùn)練單元:用于采用極限學(xué)習(xí)機器訓(xùn)練網(wǎng)絡(luò)信息熱點樣本,訓(xùn)練過程中,采用cholesky分解方法對極限學(xué)習(xí)機器的權(quán)值βl進行最優(yōu)求解;模型建立單元:用于利用極限學(xué)習(xí)機器的權(quán)值βl,建立網(wǎng)絡(luò)信息熱點的預(yù)測模型;預(yù)測單元:用于利用預(yù)測模型,對網(wǎng)絡(luò)信息熱點的測試樣本進行預(yù)測。
優(yōu)選地,所述估計單元對網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ和嵌入維m進行估計時,具體是采用關(guān)聯(lián)積分算法來確定最優(yōu)的延遲時間τ和嵌入維m。
相應(yīng)地,基于elm的網(wǎng)絡(luò)信息熱點預(yù)測方法,包括以下步驟:采集待測網(wǎng)絡(luò)信息熱點的歷史點擊率數(shù)據(jù),構(gòu)成網(wǎng)絡(luò)信息熱點的學(xué)習(xí)樣本;對網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ和嵌入維m進行估計,并對網(wǎng)絡(luò)信息熱點數(shù)據(jù)進行變換,得到訓(xùn)練樣本和測試樣本;采用極限學(xué)習(xí)機器訓(xùn)練網(wǎng)絡(luò)信息熱點樣本,訓(xùn)練過程中,采用cholesky分解方法對極限學(xué)習(xí)機器的權(quán)值βl進行最優(yōu)求解;利用極限學(xué)習(xí)機器的權(quán)值βl,建立網(wǎng)絡(luò)信息熱點的預(yù)測模型;利用預(yù)測模型,對網(wǎng)絡(luò)信息熱點的測試樣本進行預(yù)測。
優(yōu)選地,所述對網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ和嵌入維m進行估計時,具體是采用關(guān)聯(lián)積分算法來確定最優(yōu)的延遲時間τ和嵌入維m。
本發(fā)明與現(xiàn)有技術(shù)相比具有以下有益效果:本發(fā)明在對網(wǎng)絡(luò)信息熱點進行預(yù)測時,先采集待測網(wǎng)絡(luò)信息熱點的歷史點擊率數(shù)據(jù),構(gòu)成網(wǎng)絡(luò)信息熱點的學(xué)習(xí)樣本,然后對網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ和嵌入維m進行估計,并對網(wǎng)絡(luò)信息熱點數(shù)據(jù)進行變換,得到訓(xùn)練樣本和測試樣本,接著采用極限學(xué)習(xí)機器訓(xùn)練網(wǎng)絡(luò)信息熱點樣本,再利用極限學(xué)習(xí)機器的權(quán)值βl,建立網(wǎng)絡(luò)信息熱點的預(yù)測模型,最后利用預(yù)測模型,對網(wǎng)絡(luò)信息熱點的測試樣本進行預(yù)測;在極限學(xué)習(xí)機器的訓(xùn)練過程中,關(guān)鍵要找到權(quán)值βl的最優(yōu)值,而對于現(xiàn)有的極限學(xué)習(xí)機器,在βl的求解過程中,有大量的矩陣求逆運算,導(dǎo)致計算復(fù)雜度高,對網(wǎng)絡(luò)信息熱點預(yù)測模型的訓(xùn)練過程產(chǎn)生不利影響;因此,本發(fā)明對現(xiàn)有的極限學(xué)習(xí)機器進行相應(yīng)的改進,引入cholesky分解方法對極限學(xué)習(xí)機器的權(quán)值βl進行最優(yōu)求解,使得βl的求解僅通過四則運算就可以實現(xiàn),沒有矩陣求逆運算,計算更加簡單,大幅度減少了求解的時間,使得對網(wǎng)絡(luò)信息熱點的預(yù)測實時性良好,結(jié)果也較理想。
附圖說明
下面結(jié)合附圖對本發(fā)明做進一步詳細的說明;
圖1為本發(fā)明提供的基于elm的網(wǎng)絡(luò)信息熱點預(yù)測系統(tǒng)的實施例的結(jié)構(gòu)示意圖;
圖2為本發(fā)明提供的基于elm的網(wǎng)絡(luò)信息熱點預(yù)測方法的流程示意圖;
圖3為采用本發(fā)明的實施例對某一網(wǎng)絡(luò)信息熱點進行預(yù)測時采集數(shù)據(jù)的樣本示意圖;
圖4為對圖3中的網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ進行估計后取得的最優(yōu)值的示意圖;
圖5為對圖3中的網(wǎng)絡(luò)信息熱點數(shù)據(jù)的嵌入維m進行估計后取得的最優(yōu)值的示意圖;
圖6采用本發(fā)明對圖3中的網(wǎng)絡(luò)信息熱點進行預(yù)測后的結(jié)果示意圖;
圖中:101為采集單元,102為估計單元,103為訓(xùn)練單元,104為模型建立單元,105為預(yù)測單元。
具體實施方式
為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明的一部分實施例,而不是全部的實施例;基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
圖1為本發(fā)明提供的基于elm的網(wǎng)絡(luò)信息熱點預(yù)測系統(tǒng)的實施例的結(jié)構(gòu)示意圖,如圖1所示,基于elm的網(wǎng)絡(luò)信息熱點預(yù)測系統(tǒng),包括:
采集單元101:用于采集待測網(wǎng)絡(luò)信息熱點的歷史點擊率數(shù)據(jù),構(gòu)成網(wǎng)絡(luò)信息熱點的學(xué)習(xí)樣本。
估計單元102:用于對網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ和嵌入維m進行估計,并對網(wǎng)絡(luò)信息熱點數(shù)據(jù)進行變換,得到訓(xùn)練樣本和測試樣本。
訓(xùn)練單元103:用于采用極限學(xué)習(xí)機器訓(xùn)練網(wǎng)絡(luò)信息熱點樣本,訓(xùn)練過程中,采用cholesky分解方法對極限學(xué)習(xí)機器的權(quán)值βl進行最優(yōu)求解。
模型建立單元104:用于利用極限學(xué)習(xí)機器的權(quán)值βl,建立網(wǎng)絡(luò)信息熱點的預(yù)測模型。
預(yù)測單元105:用于利用預(yù)測模型,對網(wǎng)絡(luò)信息熱點的測試樣本進行預(yù)測。
對一個具體的預(yù)測問題,首先要采集歷史數(shù)據(jù),設(shè)歷史數(shù)據(jù)組成的樣本集為:
式中:l表示隱含層節(jié)點的數(shù),ci表示第i個隱含層節(jié)點的誤差,f表示隱含層節(jié)點的非線映射函數(shù),αi和βi分別表示隱含層節(jié)點和輸入節(jié)點的權(quán)值。
對式(1)進行求解,效率相當(dāng)?shù)投译y以獲得全局最優(yōu)解,為此引入拉格朗日乘子建立如下優(yōu)化函數(shù):
式中:hl表示節(jié)點矩陣,w表示權(quán)值,t表示輸出結(jié)果。
對變量的偏導(dǎo)進行計算,得到如下公式:
對式(3)求解,極限學(xué)習(xí)機的權(quán)值計算公式為
利用權(quán)值βl構(gòu)建相應(yīng)問題的預(yù)測模型,得到輸出結(jié)果的表達式為
在標(biāo)準(zhǔn)極限機器學(xué)習(xí)過程中,關(guān)鍵要找到βl的最優(yōu)值,在βl求解過程,有大量的矩陣求逆運算,導(dǎo)致計算復(fù)雜度高,對網(wǎng)絡(luò)信息熱點預(yù)測模型的訓(xùn)練過程產(chǎn)生不利影響,因此本實施例對標(biāo)準(zhǔn)的極限機器進行相應(yīng)的改進,引入cholesky分解方法,再加上極限學(xué)習(xí)機器的訓(xùn)練過程,快速找到βl的最優(yōu)求解。
下面對采用cholesky分解方法對極限學(xué)習(xí)機器的權(quán)值βl進行最優(yōu)求解,來進行詳細的說明:
根據(jù)式(3)能夠得到:
利用式(6)對βl進行求解,可以得到相應(yīng)的線性方程形式為:
alβl=bl(7)
同時滿足如下約束條件:
綜合式(6)和式(8)可以得到
對于v、al的二次型可以描述為:
對式(10)進行詳細分析可以發(fā)現(xiàn),al是一個對稱正定矩陣,那么采用cholesky對其進行分解,就可以得到:
式中,sl是一個三角矩陣。
sij表示三角矩陣sl中的非零元素,那么根據(jù)al的元素αij可以得到
式中,i=1,2,…,l,j=1,2,…,l。
結(jié)合式(11)和式(7),同時乘上
式中,i=1,2,…,l。
根據(jù)sl和fl可以得到βl的計算公式為:
對比標(biāo)準(zhǔn)elm和本發(fā)明中改進的elm的建模過程,本發(fā)明中改進的elm中βl的求解僅通過四則運算就可以實現(xiàn),沒有矩陣求逆運算,計算更加簡單,大幅度減少了求解的時間。
尤其當(dāng)隱含層的節(jié)點增多條件下,速度更加加快,可以得到:
那么,al+1與al之間的關(guān)系可以表示為:
式中,
根據(jù)cholesky分解過程可以知道,通過計算sl+1,1與sl+1,l中不為零的元素就可以得到sn+1,此時可以得到:
那么,根據(jù)fl可以得到
因此根據(jù)fl+1可以得到fl+1,不要重新計算f1,f2,…,fl,加快了學(xué)習(xí)效率,而且可以實現(xiàn)elm的在線學(xué)習(xí)。
本實施例在對網(wǎng)絡(luò)信息熱點進行預(yù)測時,先采集待測網(wǎng)絡(luò)信息熱點的歷史點擊率數(shù)據(jù),構(gòu)成網(wǎng)絡(luò)信息熱點的學(xué)習(xí)樣本,然后對網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ和嵌入維m進行估計,并對網(wǎng)絡(luò)信息熱點數(shù)據(jù)進行變換,得到訓(xùn)練樣本和測試樣本,接著采用極限學(xué)習(xí)機器訓(xùn)練網(wǎng)絡(luò)信息熱點樣本,再利用極限學(xué)習(xí)機器的權(quán)值βl,建立網(wǎng)絡(luò)信息熱點的預(yù)測模型,最后利用預(yù)測模型,對網(wǎng)絡(luò)信息熱點的測試樣本進行預(yù)測;在極限學(xué)習(xí)機器的訓(xùn)練過程中,關(guān)鍵要找到權(quán)值βl的最優(yōu)值,而對于現(xiàn)有的極限學(xué)習(xí)機器,在βl的求解過程中,有大量的矩陣求逆運算,導(dǎo)致計算復(fù)雜度高,對網(wǎng)絡(luò)信息熱點預(yù)測模型的訓(xùn)練過程產(chǎn)生不利影響;因此,本發(fā)明對現(xiàn)有的極限學(xué)習(xí)機器進行相應(yīng)的改進,引入cholesky分解方法對極限學(xué)習(xí)機器的權(quán)值βl進行最優(yōu)求解,使得βl的求解僅通過四則運算就可以實現(xiàn),沒有矩陣求逆運算,計算更加簡單,大幅度減少了求解的時間,使得對網(wǎng)絡(luò)信息熱點的預(yù)測實時性良好,結(jié)果也較理想。
具體地,所述估計單元102對網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ和嵌入維m進行估計時,具體是采用關(guān)聯(lián)積分算法來確定最優(yōu)的延遲時間τ和嵌入維m。
網(wǎng)絡(luò)信息熱點通常是一個一維的數(shù)據(jù):{x(i),i=1,2,…n},根據(jù)其混沌性得到延遲時間(τ)和嵌入維(m),然后把它變化一個多維數(shù)據(jù):x(t)={x(t),x(i+τ),…,x(i+(m-1)τ),從而將表面上看起來沒有規(guī)律的數(shù)據(jù)變?yōu)閷嶋H有規(guī)律的數(shù)據(jù),從而發(fā)現(xiàn)其中包含的變化特點。采用關(guān)聯(lián)積分算法確定最優(yōu)的τ和m。設(shè)兩個樣本點為:x(i)和x(j),它們的距離rij(m)為:
rij(m)=||x(i)-x(j)||(19)
那么可以得到關(guān)聯(lián)積分為:
式中,r為距離的閾值。
全部樣本劃分為t個序列,cl為第l個序列的相關(guān)積分,那么可以得到:
可以得到極小值點為:
當(dāng)
變換后第i個向量為:xi(m+1),最近鄰為xn(i,m)(m+1),則有
設(shè)
相應(yīng)地,圖2為本發(fā)明提供的基于elm的網(wǎng)絡(luò)信息熱點預(yù)測方法的流程示意圖,如圖2所示,基于elm的網(wǎng)絡(luò)信息熱點預(yù)測方法,包括以下步驟:
采集待測網(wǎng)絡(luò)信息熱點的歷史點擊率數(shù)據(jù),構(gòu)成網(wǎng)絡(luò)信息熱點的學(xué)習(xí)樣本。
對網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ和嵌入維m進行估計,并對網(wǎng)絡(luò)信息熱點數(shù)據(jù)進行變換,得到訓(xùn)練樣本和測試樣本。
采用極限學(xué)習(xí)機器訓(xùn)練網(wǎng)絡(luò)信息熱點樣本,訓(xùn)練過程中,采用cholesky分解方法對極限學(xué)習(xí)機器的權(quán)值βl進行最優(yōu)求解。
利用極限學(xué)習(xí)機器的權(quán)值βl,建立網(wǎng)絡(luò)信息熱點的預(yù)測模型。
利用預(yù)測模型,對網(wǎng)絡(luò)信息熱點的測試樣本進行預(yù)測。
具體地,所述對網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ和嵌入維m進行估計時,具體是采用關(guān)聯(lián)積分算法來確定最優(yōu)的延遲時間τ和嵌入維m。
下面選擇“天津化工廠爆炸”這個網(wǎng)絡(luò)信息熱點作為研究對象,圖3為采用本發(fā)明的實施例對該網(wǎng)絡(luò)信息熱點進行預(yù)測時采集數(shù)據(jù)的樣本示意圖,圖4為對圖3中的網(wǎng)絡(luò)信息熱點數(shù)據(jù)的延遲時間τ進行估計后取得的最優(yōu)值的示意圖,圖5為對圖3中的網(wǎng)絡(luò)信息熱點數(shù)據(jù)的嵌入維m進行估計后取得的最優(yōu)值的示意圖。
對圖3進行分析,可以發(fā)現(xiàn)該網(wǎng)絡(luò)信息熱點變化很復(fù)雜,不僅具有一定的增長趨勢,同時具有強烈的波動性。采用關(guān)聯(lián)積分算法估計τ和m,結(jié)果如圖4和圖5所示,從圖4和圖5可知,最優(yōu)的τ和m分別為:7和8,根據(jù)τ=7和m=8得到網(wǎng)絡(luò)信息熱點的多維數(shù)據(jù),選擇前200個數(shù)據(jù)作為訓(xùn)練樣本,其余用于測試其預(yù)測效果。
采用本發(fā)明中改進的elm對“天津化工廠爆炸”這個網(wǎng)絡(luò)信息熱點話題進行預(yù)測,結(jié)果如圖6所示。對圖6進行分析可以發(fā)現(xiàn),本發(fā)明中改進的elm的網(wǎng)絡(luò)信息熱點測精度高,而且預(yù)測結(jié)果十分穩(wěn)定,表明本發(fā)明中改進的elm可以用于網(wǎng)絡(luò)信息熱點話題預(yù)測中,而且預(yù)測結(jié)果十分理想。
選擇當(dāng)前經(jīng)典模型:多元線性回歸(mlr)、bp神經(jīng)網(wǎng)絡(luò)(bpnn)、支持向量機(svm)對2016年的10個網(wǎng)絡(luò)信息熱點進行預(yù)測,它們預(yù)測結(jié)果如表1所示。
表1預(yù)測精度(%)統(tǒng)計
對比表1中所有的網(wǎng)絡(luò)信息熱點的預(yù)測精度可以發(fā)現(xiàn),相對于當(dāng)前經(jīng)典模型,本發(fā)明中改進的elm的網(wǎng)絡(luò)信息熱點預(yù)測精度有了一定的提高,而且預(yù)測結(jié)果更優(yōu),這表明,本發(fā)明中改進的elm可以很好對網(wǎng)絡(luò)信息熱點進行建模,把握其變化態(tài)趨,是一種通用性強的網(wǎng)絡(luò)信息熱點預(yù)測模型。
統(tǒng)計所有模型的平均建模時間,結(jié)果如表2所示。
表2平均建模時間(秒)統(tǒng)計
從表2中可以發(fā)現(xiàn),本發(fā)明中改進的elm的平均建模時間最少,加快了網(wǎng)絡(luò)信息熱點的建模效率,可以實現(xiàn)網(wǎng)絡(luò)信息熱點在線預(yù)測。
網(wǎng)絡(luò)信息熱點受到人的思想、政治、經(jīng)濟以及其它因素的影響,變化十分復(fù)雜,不僅具有強烈的時變性,而且具有一定的混沌變化特點。本發(fā)明中改進的elm的網(wǎng)絡(luò)信息熱點預(yù)測模型的預(yù)測結(jié)果穩(wěn)定、可信,建模預(yù)測效率更高,可以應(yīng)用于實際網(wǎng)絡(luò)輿情數(shù)據(jù)分析,預(yù)測結(jié)果可以幫助預(yù)控一些負面網(wǎng)絡(luò)信息熱點擴散,具有較高的實際應(yīng)用價值。
最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分或者全部技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍。