本發(fā)明涉及多模型融合評價系統(tǒng)。
背景技術(shù):
隨著能源問題與環(huán)境問題的日益突出,能源效率評價方法也日益受到重視。國際上許多學(xué)者都從不同角度研究了能源利用效率的改進(jìn)和節(jié)能潛力。以中國為例,近些年經(jīng)濟(jì)保持了高速強(qiáng)勁的發(fā)展,但經(jīng)濟(jì)增長方式仍然十分粗放,資源和能源消耗高、利用率低、環(huán)境污染嚴(yán)重的現(xiàn)狀仍然是不爭的事實,能源利用效率在國際上仍然處于落后階段。目前,中國以煤炭為主的不合理能源消費(fèi)結(jié)構(gòu),嚴(yán)重影響了整個能源體系中的能源利用效率,對社會可持續(xù)發(fā)展構(gòu)成挑戰(zhàn)。因此,需要理清能源效率的關(guān)鍵影響因素,并定量分析各因素的影響程度。目前對能源利用效率的定量研究,大多基于數(shù)據(jù)包絡(luò)分析方法(dea)對能源效率值進(jìn)行評價研究。有的學(xué)者還在測算出全要素能源效率基礎(chǔ)上研究了產(chǎn)業(yè)結(jié)構(gòu)、技術(shù)進(jìn)步、對外開放程度等因素對能源效率的影響。然而,由于中國地區(qū)復(fù)雜性和空間發(fā)展不均衡性,有很多學(xué)者利用地區(qū)間、省份之間的能源面板數(shù)據(jù),分析不同區(qū)域或省份間能源效率大小,并取得了行之有效的計算方法和評價方法。因此,采用不同能源指標(biāo)計算能源效率,無法真實反映影響能源效率的實際因素。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是為了解決現(xiàn)有能源效率計算特征難以選擇,以及模型評價結(jié)果不準(zhǔn)的問題,提出一種多模型融合評價系統(tǒng)。
一種多模型融合評價系統(tǒng)包括以下步驟:
本發(fā)明分類建模的主體策略如下:對數(shù)據(jù)進(jìn)行特征值的標(biāo)準(zhǔn)化預(yù)處理,以便于正確進(jìn)行特征選擇。在此基礎(chǔ)上,對數(shù)據(jù)集合進(jìn)行類別標(biāo)注,給出類標(biāo)簽以供分類算法學(xué)習(xí)得到訓(xùn)練集。然后,通過比較分析得到本發(fā)明可以使用的多分類器融合的分類模型,并能夠在預(yù)測中使用。
步驟一:將數(shù)據(jù)進(jìn)行歸一化處理,得到歸一化訓(xùn)練集;
步驟二:對步驟一得到的歸一化訓(xùn)練集進(jìn)行特征選擇;
步驟三:根據(jù)步驟一和步驟二建立多分類器融合的評價模型,得到能源效率評價的分類結(jié)果;
步驟四:對步驟三得到的分類結(jié)果進(jìn)行聚類分析,得到最終的聚類結(jié)果。
本發(fā)明的有益效果為:
本發(fā)明提出了一種基于多模型融合策略的能源績效評價方法,不僅建立了基于多分類器融合策略的的分類模型,并用于能源效率值的高低預(yù)測;而且還建立了多聚類分析方法的融合模型,可將能源效率高的省份與效率低的省份區(qū)分開來。然后以中國能源利用效率評價為例進(jìn)行算例研究:首先,收集24省份9年的相關(guān)能源效率數(shù)據(jù),并使用2種特征識別方法確定了能源效率的關(guān)鍵影響因素;進(jìn)一步,對所建立的分類融合模型的擬合度進(jìn)行對比分析,并用于對能源效率高低的預(yù)測;然后,基于多模型融合聚類策略,進(jìn)一步將能源效率高的省份與效率低的省份精確區(qū)分開來。最后,針對所總結(jié)出的中國整體能源效率發(fā)展問題,給出了相應(yīng)的改進(jìn)策略建議。實驗結(jié)果表明:多模型融合策略相對單一模型方法具有更好的分類預(yù)測及聚類分析效果。因此,本發(fā)明具有較好的實際應(yīng)工程應(yīng)用價值。
1)能夠?qū)τ嬎隳茉葱实膫溥x特征進(jìn)行有效篩選,找出其中影響能源效率的相對主要因素。
2)對我國各省之間能源效率建立三種單一分類器模型和多分類器融合模型,分類及預(yù)測的算例結(jié)果顯示:多分類器融合模型的能源效率分類預(yù)測效果要比單一模型的分類預(yù)測效果要好,能夠?qū)δ茉葱手档母叩瓦M(jìn)行更準(zhǔn)確的分類。
3)基于多模型融合聚類分析方法,發(fā)現(xiàn)了我國各地區(qū)的能源效率的差異性及變化規(guī)律,能夠相適應(yīng)地給出原因分析和發(fā)展建議。
附圖說明
圖1為基于三種分類器并行融合策略流程圖。
圖2為多模型融合聚類分析策略流程圖。
具體實施方式
具體實施方式一:一種多模型融合評價系統(tǒng)的具體步驟為:
步驟一:將數(shù)據(jù)進(jìn)行歸一化處理,得到歸一化訓(xùn)練集;
步驟二:對步驟一得到的歸一化訓(xùn)練集進(jìn)行特征選擇;
步驟三:根據(jù)步驟一和步驟二建立多分類器融合的評價模型,得到能源效率評價的分類結(jié)果;
步驟四:對步驟三得到的分類結(jié)果進(jìn)行聚類分析,得到最終的聚類結(jié)果。
具體實施方式二:本實施方式與具體實施方式一不同的是:所述步驟一中的數(shù)據(jù)具體包括:一次能源生產(chǎn)量、能源消耗總量、能源消費(fèi)彈性系數(shù)、gdp、能源工業(yè)投資額、單位生產(chǎn)總值能耗、資本存量、和二氧化硫排放系數(shù)。
其它步驟及參數(shù)與具體實施方式一相同。
具體實施方式三:本實施方式與具體實施方式一或二不同的是:所述步驟一中將數(shù)據(jù)進(jìn)行歸一化處理,得到歸一化訓(xùn)練集的具體過程為:
收集全國多個省市自治區(qū)的面板數(shù)據(jù),將數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的預(yù)處理。數(shù)據(jù)的標(biāo)準(zhǔn)化是將數(shù)據(jù)按比例縮放,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于進(jìn)行比較和加權(quán)。0-1標(biāo)準(zhǔn)化(也叫歸一化)是數(shù)據(jù)標(biāo)準(zhǔn)化最典型的方法,通過對原始數(shù)據(jù)的線性變換使結(jié)果落到[0,1]區(qū)間??紤]到本發(fā)明使用的數(shù)據(jù)集中的特征值均為正值,所以使用簡化后的轉(zhuǎn)換函數(shù)來對每個分量進(jìn)行歸一化。若有n個樣本,對每個樣本第m個特征進(jìn)行處理,其表達(dá)形式如公式(1)所示:
預(yù)處理后的特征值分布在[0,1]區(qū)間,其中所述xim*為第i個樣本的第m個特征歸一化后的值,xim為第i個樣本的第m個特征原始值。
其它步驟及參數(shù)與具體實施方式一或二相同。
具體實施方式四:本實施方式與具體實施方式一至三之一不同的是:所述步驟二中對步驟一得到的歸一化訓(xùn)練集進(jìn)行特征選擇的具體過程為:
考慮影響能源效率的各種因素,建立特征空間,收集相應(yīng)數(shù)據(jù),樣本數(shù)據(jù)進(jìn)行無量綱化處理,進(jìn)行特征選擇。為了使特征選擇的結(jié)果更加準(zhǔn)確,本發(fā)明采用將信息增益和核主成份分析相結(jié)合的融合策略選取最終的特征。首先,利用信息增益計算得到特征排序,然后利用主成份分析方法做校核計算。
采用將信息增益和核主成份分析相結(jié)合的融合方法選取特征;即利用信息增益得到不同特征對應(yīng)的信息增益,由大到小進(jìn)行排序,得到特征相對重要性排序,利用主成份分析方法做校核計算。
核主成分分析kpca是主成分分析pca的非線性擴(kuò)展,kpca是在通過映射函數(shù)φ把原始向量映射到高維空間f,在f上進(jìn)行pca分析,可以最大限度地抽取指標(biāo)的信息。假設(shè)x1,x2,……xm為訓(xùn)練樣本,用{xi}表示輸入空間。kpca方法的基本思想是通過某種隱式方式將輸入空間映射到某個高維空間(常稱為特征空間),并且在特征空間中實現(xiàn)主成分分析pca。
假設(shè)相應(yīng)的映射為φ,核函數(shù)k通過映射φ將隱式的實現(xiàn)從點x到f的映射,并且由此映射而得的特征空間中數(shù)據(jù)滿足中心化的條件[15],即
則特征空間中的協(xié)方差矩陣為:
其中,v=1,2,...,m。定義m×m維矩陣k,能得到特征值和特征向量,對于測試樣本在特征向量空間vk的投影為
將內(nèi)積用核函數(shù)替換則有
并且,可以進(jìn)一步將核矩陣修正為
其它步驟及參數(shù)與具體實施方式一至三之一相同。
具體實施方式五:本實施方式與具體實施方式一至四之一不同的是:所述利用信息增益計算得到特征排序的具體過程為:
特征選擇就是通過搜索數(shù)據(jù)集中的所有可能的特征集合,按照某種規(guī)則選取一組有效的特征以降低特征空間的維數(shù)。同時,通過去除特征空間的一些冗余信息來避免這些信息對分類預(yù)測的影響,從而提高分類算法的預(yù)測準(zhǔn)確率和計算效率。信息增益(ig)是進(jìn)行特征選擇的最常用方法。
其中,在信息增益中,衡量標(biāo)準(zhǔn)是看特征能夠為分類系統(tǒng)帶來多少信息,帶來的信息越多,該特征越重要。對一個特征而言,系統(tǒng)有它和沒它時信息量將發(fā)生變化,而前后信息量的差值就是這個特征給系統(tǒng)帶來的信息量。所謂信息量,就是熵。
設(shè)特征空間為x,樣本第m個特征xm,其信息增益ig(xm)為:
ig(xm)=h(c)-h(c|xm)
其中c代表所需分類類別,h(c)代表c類所對應(yīng)的信息熵,h(c|xm)代表在特征xm條件下,類所屬為c時的信息熵;
假如類別c的取值為n種,每一種取到的概率為p(cj),j=1,2,...,n,h(c)為:
其它步驟及參數(shù)與具體實施方式一至四之一相同。
具體實施方式六:本實施方式與具體實施方式一至五之一不同的是:所述步驟三中根據(jù)步驟一和步驟二建立多分類器融合的評價模型(即為訓(xùn)練后的決策樹算法中的j48模型、基于規(guī)則的分類算法中的logitboost模型、基于元學(xué)習(xí)策略的jrip型學(xué)習(xí)器三者之間的并序融
合),得到能源效率評價的分類結(jié)果的具體過程為:
本發(fā)明選擇三種在很多領(lǐng)域都有良好分類效果的算法,包括決策樹算法、基于規(guī)則的分類算法和基于元學(xué)習(xí)策略的元學(xué)習(xí)器。
決策樹又稱判定樹,是以實例為基礎(chǔ)的歸納學(xué)習(xí)算法,從一組無次序、無規(guī)則的元組中推理出決策樹表示形式的分類規(guī)則。它采用自頂向下的遞歸方式,在決策樹的內(nèi)部節(jié)點進(jìn)行屬性值的比較,并根據(jù)不同的屬性值從該節(jié)點向下分支。樹中的每個非葉節(jié)點(包括根節(jié)點)對應(yīng)訓(xùn)練樣本集中一個非類別屬性的測試,非葉節(jié)點的每個分支對應(yīng)屬性的一個測試結(jié)果,每個葉子節(jié)點則代表一個類或類分布。從根到葉節(jié)點的一條路徑對應(yīng)一條分類規(guī)則,整個決策樹就對應(yīng)著一組析取表達(dá)式規(guī)則。本發(fā)明使用廣泛的c4.5算法。c4.5算法是針對早先的id3算法進(jìn)行改進(jìn)而提出的,它采用基于信息增益率的方法選擇測試屬性,信息增益率等于信息增益對分割信息量的比值。本發(fā)明中,c4.5用j48決策樹實現(xiàn)。
基于規(guī)則的分類是使用一組if…then規(guī)則來進(jìn)行分類的方法。本發(fā)明使用jrip分類器建立規(guī)則,通過ripper算法來實現(xiàn)。ripper算法采用基于類的排序方案,屬于同一類的規(guī)則在規(guī)則集合中一起出現(xiàn),然后這些規(guī)則根據(jù)它們所屬的類信息一起排序。同一類的規(guī)則間的相對順序并不重要,因為它們屬于同一類。該算法直接從數(shù)據(jù)中提取規(guī)則,在提取規(guī)則時,類y的所有訓(xùn)練記錄被看作是正例,其他類的訓(xùn)練記錄被看作反例。
元學(xué)習(xí)是在學(xué)習(xí)結(jié)果的基礎(chǔ)上進(jìn)行再學(xué)習(xí)或多次學(xué)習(xí)而得到最終結(jié)果。后經(jīng)freud和schapire改進(jìn)的一種機(jī)器學(xué)習(xí)方法adboost算法則在實際中廣泛應(yīng)用。其基本思想是:基于現(xiàn)有樣本數(shù)據(jù)集構(gòu)建一個基礎(chǔ)的“弱分類器”,反復(fù)調(diào)用該“弱分類器”,通過對每輪錯判的樣本賦予更大的權(quán)重,使其更關(guān)注那些難判的樣本,經(jīng)過多輪循環(huán),最終采用加權(quán)的方法將各輪的“弱分類器”合成“強(qiáng)分類器”。
多分類器融合策略總體上可以歸納為串序融合與并序融合。由于并行融合分類方式可以避免串序融合順序不同而造成的分類結(jié)果不一致問題,各種分類器之間不存在相互影響的問題。因此,本發(fā)明選擇并序融合的方式對期刊影響因子的各種屬性進(jìn)行分類,在并序融合分類器設(shè)計中,不同分類器的結(jié)果可能差生偏差,這就需要投票給出最終結(jié)果。簡單投票方式是一種非常直觀和高效的策略,不同分類器之間的權(quán)重是一致的,使得分類結(jié)果可解釋較強(qiáng)。為了使得數(shù)據(jù)分類平均效果更好,需要對數(shù)據(jù)選擇更加隨機(jī),因而本發(fā)明采用了十字交叉運(yùn)算的形式選取數(shù)據(jù)。分類結(jié)果是10次分類的平均值,而且不同基分類器之間互不影響的?;谏鲜鋈N常用基分類器的多模型融合策略,如下圖1所示。
對能源效率的分析歸結(jié)為兩類問題,即將數(shù)據(jù)集中的實例分為高能源效率和低能源效率兩類,將分類數(shù)設(shè)為2,列標(biāo)簽值取0和1,0代表高能源效率,1代表低能源效率。
分類算法很多,本發(fā)明選擇三種在很多領(lǐng)域都有良好分類效果的算法,包括決策樹算法、基于規(guī)則的分類算法和基于元學(xué)習(xí)策略的元學(xué)習(xí)器,將三者進(jìn)行有效融合,從而獲得更加優(yōu)化的基于多分類器融合的評價模型。
采用10折交叉驗證的方法對獲得的對步驟一和步驟二中所獲的訓(xùn)練集分別進(jìn)行j48、logitboost、jrip三種方法的分類模型訓(xùn)練,以保證模型泛化性能。
之后采取并序融合的方式,因為不同分類器的結(jié)果可能產(chǎn)生偏差,采取投票的方式給出最終結(jié)果。簡單投票方式是一種非常直觀和高效的策略,不同分類器之間的權(quán)重是一致的,使得分類結(jié)果可解釋較強(qiáng),分類結(jié)果為10次測試所得分類結(jié)果的平均值。
對步驟一中所得的歸一化訓(xùn)練集分別進(jìn)行決策樹算法中的j48模型、基于規(guī)則的分類算法中的logitboost模型、基于元學(xué)習(xí)策略的jrip型學(xué)習(xí)器訓(xùn)練得到3種模型(得到的3中模型即為訓(xùn)練后的決策樹算法中的j48模型、基于規(guī)則的分類算法中的logitboost模型、基于元學(xué)習(xí)策略的jrip型學(xué)習(xí)器);
以步驟二中所選擇的特征作為模型輸入變量,模型輸出為0,1分類(其中,每種模型的訓(xùn)練均以步驟二中所選擇的特征作為模型輸入變量,0,1分類作為輸出,0代表高能源效率,1代表低能源效率;采用的訓(xùn)練策略為10折交叉驗證方法),0代表高能源效率,1代表低能源效率;采用的訓(xùn)練策略為10折交叉驗證方法;
每當(dāng)測試一個新樣本,分別輸入至所獲得的3種模型中,得到3個結(jié)果,通過均權(quán)投票(少數(shù)服從多數(shù)的投票方式)的方式得到分類結(jié)果。
其它步驟及參數(shù)與具體實施方式一至五之一相同。
具體實施方式七:本實施方式與具體實施方式一至六之一不同的是:所述步驟四中對步驟三得到的分類結(jié)果進(jìn)行聚類分析,得到最終的聚類結(jié)果的具體過程為:
本發(fā)明選用simplek-means、em以及fcm三類算法作為融合基礎(chǔ)。
simplek-means即k均值聚類算法:首先要指定聚類的分類個數(shù)k,隨機(jī)取k個樣本作為初始類的中心,計算各樣本與類中心的距離并進(jìn)行歸類,所有樣本劃分完成后重新計算類中心,重復(fù)這個過程直到類中心不再變化,所得的k類即最終聚類結(jié)果。
em算法:最大期望(em)算法是在概率模型中尋找參數(shù)最大似然估計或者最大后驗估計的算法。可被看作為一個逐次逼近算法:事先并不知道模型的參數(shù),可以隨機(jī)的選擇一套參數(shù)或者事先粗略地給定某個初始參數(shù)λ0,確定出對應(yīng)于這組參數(shù)的最可能的狀態(tài),計算每個訓(xùn)練樣本的可能結(jié)果的概率,在當(dāng)前的狀態(tài)下再由樣本對參數(shù)修正,重新估計參數(shù)λ,并在新的參數(shù)下重新確定模型的狀態(tài),這樣,通過多次的迭代,循環(huán)直至某個收斂條件滿足為止,就可以使得模型的參數(shù)逐漸逼近真實參數(shù)。
fcm聚類方法:美國加州大學(xué)柏克萊分校的扎德教授第一次提出了“集合”的概念,經(jīng)過十多年的發(fā)展,模糊集合理論漸漸被應(yīng)用到各個實際應(yīng)用方面。為克服非此即彼的分類缺點,出現(xiàn)了以模糊集合論為數(shù)學(xué)基礎(chǔ)的聚類分析。用模糊數(shù)學(xué)的方法進(jìn)行聚類分析,就是模糊聚類分析。fcm算法是一種以隸屬度來確定每個數(shù)據(jù)點屬于某個聚類程度的算法,是傳統(tǒng)硬聚類算法的一種改進(jìn)。
為了使聚類結(jié)果更加可信,本發(fā)明采用的多模型融合聚類分析方法如下:由于simplek-means和em兩類算法是采用基于劃分方法進(jìn)行聚類的,因此選為基礎(chǔ)聚類方法。并且,使用makedensitybasedclusterer對兩種算法進(jìn)行包裝,使之能夠為每個聚類擬合一個離散分布或一個對稱的正態(tài)分布。實現(xiàn)從整體到局部逐漸聚類,局部搜索能力強(qiáng),收斂速度快。將兩者相同的聚類結(jié)果挑選出來作為初步融合聚類結(jié)果,然后利用fcm聚類方法進(jìn)行校核計算,給出最終的融合聚類結(jié)果。具體如圖2所示。
對于步驟三中分類結(jié)果中的能源高效類樣本進(jìn)行再分析,進(jìn)行2聚類過程,進(jìn)一步將高效類中的樣本進(jìn)行細(xì)分,篩選出其中能源效率較低者,再歸至低效類,作為對步驟三的修正,以獲得更加準(zhǔn)確的結(jié)果。
選用simplek-means、em以及fcm三類算法作為融合基礎(chǔ)。采用的多模型融合聚類分析方法如下:由于simplek-means和em兩類算法是采用基于劃分方法進(jìn)行聚類的,因此選為基礎(chǔ)聚類方法。并且,使用makedensitybasedclusterer對兩種算法進(jìn)行包裝,使之能夠為每個聚類擬合一個離散分布或一個對稱的正態(tài)分布。將兩者相同的聚類結(jié)果挑選出來作為初步融合聚類結(jié)果,然后利用fcm聚類方法進(jìn)行校核計算,給出最終的融合聚類結(jié)果。
其它步驟及參數(shù)與具體實施方式一至六之一相同。
實施例一:
算例數(shù)據(jù)樣本獲取及特征空間建立
本發(fā)明收集中國2005至2013年全國24個省市自治區(qū)(不含西藏、港澳臺、吉林、黑龍江、貴州、云南、甘肅、青海)的面板數(shù)據(jù)。根據(jù)文獻(xiàn)的研究成果,本發(fā)明所選取的特征空間包含一次能源生產(chǎn)量(f1)、能源消耗總量(f2)、能源消費(fèi)彈性系數(shù)(f3)、gdp(f4)、能源工業(yè)投資額(f5)、單位生產(chǎn)總值能耗(f6)、資本存量(f7)、和二氧化硫排放系數(shù)(f8)這8個因子:
f1:生產(chǎn)一次能源的企業(yè)(單位)在報告期內(nèi)將自然界現(xiàn)存的能源經(jīng)過開采而產(chǎn)出的合格產(chǎn)品,如煤礦采掘的原煤,油田開采的原油,氣田開采出的天然氣、水電廠發(fā)的電等等。
f2:用能單位在統(tǒng)計報告期內(nèi)實際消耗的各種能源實物量,取按規(guī)定的計算方法求和并與所需衡量單位折算后的數(shù)值。
f3:能源消費(fèi)增長速度與國民經(jīng)濟(jì)增長速度之間比值。
f4:一個國家(國界范圍內(nèi))所有常住單位在一定時期內(nèi)生產(chǎn)的所有最終產(chǎn)品和服務(wù)的市場價格。gdp是國民經(jīng)濟(jì)核算的核心指標(biāo),也是衡量一個國家或地區(qū)總體經(jīng)濟(jì)狀況重要指標(biāo)。
f5:投入能源工業(yè)的資金總額。
f6:一定時期內(nèi),一個國家或地區(qū)每生產(chǎn)一個單位的國內(nèi)生產(chǎn)總值所消耗的能源,即能源消耗總量與國內(nèi)生產(chǎn)總值的比值。
f7:企業(yè)現(xiàn)存的全部資本資源,是已投入企業(yè)的各類資本的總和。它以資產(chǎn)形式存在又叫資產(chǎn)存量。根據(jù)它在生產(chǎn)過程中所處的狀態(tài)可以劃分為兩類:即正在參與再生產(chǎn)的資產(chǎn)存量和處于閑置狀態(tài)的資產(chǎn)存量包括閑置的廠房、機(jī)器設(shè)備等。
f8:每一種能源燃燒或使用過程中單位能源所產(chǎn)生的二氧化硫排放數(shù)量。
特征選擇結(jié)果及分析
首先,對所取得樣本數(shù)據(jù)進(jìn)行無量綱化處理。然后,再進(jìn)行特征選擇計算分析。由于能源效率的高低受到諸多因素影響,因此對能源效率的衡量要綜合考慮多個指標(biāo),在此基礎(chǔ)上,識別出關(guān)鍵影響因素,并據(jù)此對各地區(qū)未來能源效率的高低水平作出預(yù)測。
根據(jù)現(xiàn)有信息增益值選擇和設(shè)置的研究結(jié)論,選擇了信息增益值大于0.0025的6個特征將其排序。利用主成份分析方法進(jìn)一步驗證,得到的最終結(jié)果如表1所示:
表1不同特征對分類的信息增益排序
從特征選擇結(jié)果可以看出:篩選出的表1中6個特征與類別屬性的相關(guān)性較強(qiáng),為能源效率的關(guān)鍵影響因素。其中,f6的影響程度最大,其次為f8,f7、f4、f1、f3這5個特征對能源效率的影響程度相近。而數(shù)據(jù)集中的f5、f2這兩個特征被過濾,對能源效率幾乎無影響。
分類結(jié)果及分析
本發(fā)明對能源效率的分析同樣可以歸結(jié)為兩類問題,即將數(shù)據(jù)集中的實例分為高能源效率和低能源效率兩類,所以此處將分類數(shù)設(shè)為2,列標(biāo)簽值取0和1,0代表高能源效率,1代表低能源效率。然后,選擇f6、f8、f7、f4、f1、f3為能源效率的關(guān)鍵影響因素,去除數(shù)據(jù)集中f5和f2這兩個屬性。
選擇通用衡量指標(biāo):正確率precision-rate(pr)、召回率recall-rate(rr)和f-measure來評估實驗中使用的三種分類器的性能。在計算正確率和召回率時,用到在roc曲線分析中的四個指標(biāo):真陽性(tp)、假陽性(fp)、假陰性(fn)和真陰性(tn)。然后,取f-measure(fm)為正確率和召回率的調(diào)和平均值作為衡量分類器性能的關(guān)鍵指標(biāo)。如表2所示,為能源效率影響因素數(shù)據(jù)集分別融合分類器及單一分類器的分類結(jié)果。其中,ovsm和mcf分別代表單一模型結(jié)果最優(yōu)值和多模型融合結(jié)果。
表2數(shù)據(jù)集分別使用三種分類器的分類結(jié)果
從表2中可以發(fā)現(xiàn),融合模型比比單一分類器性能更優(yōu)越,也就意味著根據(jù)前文中選擇的關(guān)鍵影響因素對能源效率進(jìn)行分類處理的最好的分類器,該分類模型可用來對數(shù)據(jù)集中未包含的其他省市或其他年份的數(shù)據(jù)進(jìn)行能源效率高低的預(yù)測。
預(yù)測結(jié)果及分析
收集了吉林、黑龍江、貴州、云南、甘肅、青海這六個省份2013年能源效率影響因素的數(shù)據(jù),將6個特征值標(biāo)準(zhǔn)化后,應(yīng)用上述分類模型進(jìn)行預(yù)測,結(jié)果如下表3所示。
表3測試集分別使用三種分類器的預(yù)測結(jié)果
從表3中可以看出:每個省份分別使用融合分類器模型和單一分類器模型進(jìn)行預(yù)測得到的結(jié)果是一致的。吉林、黑龍江、云南和甘肅均被預(yù)測為0類,屬于高能源效率;而貴州、青海的預(yù)測結(jié)果為1類,即屬于低能源效率。并且,融合分類模型的預(yù)測置信度要高于單一模型預(yù)測最優(yōu)值,因此,此預(yù)測結(jié)果相比于單一模型更容易被采納。
多模型融合策略及聚類結(jié)果分析
首先,使用單一的simplek-means和em兩種算法的聚類結(jié)果如下:
1)k-means將216個實例劃分為2類。cluster0實例計140個,占全部實例數(shù)百分比為65%;cluster1實例計76個,占全部實例數(shù)百分比為35%。對數(shù)據(jù)集中數(shù)據(jù)按年份進(jìn)行比較,整體情況為:cluster0類f6比cluster1低,即每生產(chǎn)一個單位的國內(nèi)生產(chǎn)總值的能源消耗低;f3較cluster1低,國民經(jīng)濟(jì)增長速度相同的時,cluster0類實例能源消費(fèi)量增長速度低;f8較cluster1相對偏低,即cluster0單位能源燃燒所產(chǎn)生的二氧化硫排放數(shù)量較低,可見其對環(huán)境產(chǎn)生的污染因素相對低??梢源_定,cluster0實例為能源高效類,cluster1實例為能源低效類。
2)利用em聚類也將216例實例劃分為2類,其中cluster0實例計118個,占實例數(shù)百分比為55%;cluster1實例計98個,占實例數(shù)百分比為45%。對數(shù)據(jù)集中同年份數(shù)據(jù)進(jìn)行比較,cluster0類f6和f8總體低于cluster1,即能源消耗在經(jīng)濟(jì)增長上得到高效的使用的同時,對環(huán)境污染程度也相對低。由此確定cluster0實例為能源低效類,cluster1實例為能源高效類。
基于圖2所示的初始融合策略,得到了初步的精度較高的聚類結(jié)果如表4所示:
表4我國各省能源效率的em聚類結(jié)果
利用fcm對em與k-means融合后的聚類結(jié)果進(jìn)一步驗證分析,聚類結(jié)果與表4相符。從表中可以看出:能源低效類實例數(shù)量隨時間遞增,從高效轉(zhuǎn)變?yōu)榈托У氖》菥佣啵邕|寧、上海、浙江、湖北、湖南、四川和陜西等。長期處于能源高效狀態(tài)的有北京、福建、海南、江西等省份,而山西、山東、廣東的能源利用長期處于低效狀態(tài)。究其原因,各地區(qū)之間的橫向差異可歸因于經(jīng)濟(jì)結(jié)構(gòu)差異,以技術(shù)密集型產(chǎn)業(yè)為支柱產(chǎn)業(yè)的地區(qū)能源效率普遍高,以傳統(tǒng)制造業(yè)和加工業(yè)等為支柱產(chǎn)業(yè)的能源效率普遍低。并且,雖然全國數(shù)據(jù)顯示單位gdp能耗有所減少,但能源消費(fèi)彈性系數(shù)一直處于波動狀態(tài),環(huán)境污染治理成本在增加,能源損失量逐年增長。究其根本,我國長期以來能源結(jié)構(gòu)不合理,多以煤炭為主要能源;經(jīng)濟(jì)發(fā)展方式主要依靠資源消耗,而不是依靠技術(shù)進(jìn)步、管理創(chuàng)新的方式。因此,需要優(yōu)化能源結(jié)構(gòu)、轉(zhuǎn)變經(jīng)濟(jì)增長方式、依靠科學(xué)技術(shù),以較低的能源消費(fèi)彈性系數(shù)維持較高的經(jīng)濟(jì)增長,才是大幅度地提高能源效率的關(guān)鍵。
本實施例以中國各省份9年能源效率相關(guān)數(shù)據(jù)為算例,研究了基于多模型融合策略的能源效率分析評價方法,得出了以下結(jié)論:
1)基于所收集多種文獻(xiàn)中提到的多種影響因素,將信息增益和主成份分析方法相結(jié)合實現(xiàn)特征選擇,找到了影響能源效率的決定因素,從八種因素中識別出六種決定因素。
2)對我國各省之間能源效率建立三種單一分類器模型和多分類器融合模型,分類及預(yù)測的算例結(jié)果顯示:多分類器融合模型的能源效率分類預(yù)測效果要比單一模型的分類預(yù)測效果要好。
3)基于多模型融合聚類分析方法,發(fā)現(xiàn)了我國各地區(qū)的能源效率的差異性及變化規(guī)律,并給出了相應(yīng)的原因分析和發(fā)展建議。
因此,中國能源效率改進(jìn)的努力方向在于:著眼于能源效率關(guān)鍵影響因素,科學(xué)、有針對性地優(yōu)化能源結(jié)構(gòu)、轉(zhuǎn)變經(jīng)濟(jì)增長方式。鼓勵和支持技術(shù)發(fā)明創(chuàng)造(特別是能源技術(shù)領(lǐng)域),推動能源利用各個環(huán)節(jié)的技術(shù)創(chuàng)新,從而實現(xiàn)以較低的能源消費(fèi)彈性系數(shù)維持較高的經(jīng)濟(jì)增長。另外,在綜合考慮能源供需形勢和能源利用技術(shù)的基礎(chǔ)上,需要按照兼顧傳統(tǒng)能源和新能源的原則進(jìn)行能源消費(fèi)結(jié)構(gòu)優(yōu)化和調(diào)整。
本發(fā)明還可有其它多種實施例,在不背離本發(fā)明精神及其實質(zhì)的情況下,本領(lǐng)域技術(shù)人員當(dāng)可根據(jù)本發(fā)明作出各種相應(yīng)的改變和變形,但這些相應(yīng)的改變和變形都應(yīng)屬于本發(fā)明所附的權(quán)利要求的保護(hù)范圍。