本發(fā)明屬于電力數(shù)據(jù)檢測領(lǐng)域,具體涉及密度聚類和k-means聚類算法。
背景技術(shù):
1、隨著人工智能技術(shù)的發(fā)展和電網(wǎng)智能化改革的深入進行,用戶側(cè)數(shù)據(jù)不斷積累,現(xiàn)代電力系統(tǒng)迎來了大數(shù)據(jù)時代。利用數(shù)據(jù)挖掘技術(shù)對海量的電力用戶曲線進行有效劃分,在大量無序的負荷中挖掘典型行為模式,有助于電網(wǎng)人員深入分析用戶模式,建立用戶畫像,為不同用戶提供精細化管理和個性化服務(wù)。
2、負荷曲線聚類是研究臺區(qū)用戶行為的重要方法,運用較廣的聚類算法主要有均值聚類(k-means?clustering,k-means)、含噪聲密度聚類(density-based?spatialclustering?of?applications?with?noise,dbscn)、模糊c均值聚類(fuzzy-c?means,fcm)、高斯混合模型聚類(gaussian?mixture?models?clustering,gmm)等。其中k-means聚類是一種無監(jiān)督學習算法,且原理簡單、復雜度低,可以有效用于臺區(qū)用戶負荷曲線聚類的研究中。但也存在聚類初值選取效率較低、相似性判斷誤差較大的固有問題。針對已有問題可以進行優(yōu)化初值和相似性特征選取并結(jié)合二次聚類的方法對用戶負荷數(shù)據(jù)集進行處理,加上負荷數(shù)據(jù)預處理手段,以求達到較好的水平。
技術(shù)實現(xiàn)思路
1、發(fā)明目的:本發(fā)明提出一種改進dwdc-k-means二次聚類的臺區(qū)用戶行為分析算法。
2、技術(shù)方案:本發(fā)明提出的一種改進dwdc-k-means二次聚類的臺區(qū)用戶行為分析算法,包括以下步驟:
3、(1)對數(shù)據(jù)集進行預處理,提出并計算初值回報指標確認初始k值。
4、(2)進行基于動態(tài)加權(quán)密度聚類dwdc的一次聚類選取最佳初始中心。
5、(3)融和加權(quán)歐氏距離和差分皮爾遜相關(guān)距離優(yōu)化相似性特征距離進行k-means二次聚類。
6、所述步驟(1)包括以下步驟:
7、(11)對缺值超過10%的用戶做剔除,其余使用拉格朗日差值法進行補全,并更新數(shù)據(jù)集,公式如下:
8、
9、
10、式中:x、xi分別為丟失數(shù)據(jù)點和正常點的序號,對應(yīng)的值為yi。lm(x)為插值后的結(jié)果,li(x)為拉格朗日基函數(shù)。此處取缺值處前后各4個點進行計算。
11、(12)基于用戶聚合程度和誤差平方和計算初值回報指標rk,公式如下:
12、rk=rsse(k)-rd(k)
13、式中:rsse(k)、rd(k)分別是聚類初值選k時刻的誤差平方和下降率和簇內(nèi)簇間距離的比值,公式分別如下:
14、
15、
16、式中:sse(k)是不同k時的誤差平方和,rd1(k)、rd2(k)分別是不同k值下的簇內(nèi)、簇間距離平方和,rd(k)描繪數(shù)據(jù)集的聚合程度,值越小,分類效果越好。
17、步驟(2)所述的基于動態(tài)加權(quán)密度聚類dwdc的一次聚類的具體內(nèi)容如下:
18、(21)計算所有點的密度參數(shù)并取最大點為第一個聚類中心,公式如下:
19、
20、式中:是歐氏距離,dmean是數(shù)據(jù)集平均距離,公式如下:
21、
22、
23、式中:為數(shù)據(jù)集中負荷曲線兩兩結(jié)合數(shù),knn(xi)為序列最鄰近的k個序列的集合。
24、(22)確認第一個中心所在簇并基于未成簇數(shù)據(jù)動態(tài)更新數(shù)據(jù)集,計算當前數(shù)據(jù)集中每個點加權(quán)密度參數(shù)公式和步驟如下:
25、
26、式中:是以xp為中心的簇內(nèi)平均距離,ω是加權(quán)密度參數(shù)權(quán)重,公式分別如下:
27、
28、
29、式中:是以xp,xq為中心的所在簇的簇間平均距離,公式如下:
30、
31、(23)取加權(quán)密度參數(shù)最大處為下一個聚類中心,基于中心確認下一個聚類簇并動態(tài)更新數(shù)據(jù)集,依次選取聚類中心直到等于步驟(1)中確認的k值。
32、步驟(3)所述的融和加權(quán)歐氏距離和差分皮爾遜相關(guān)距離優(yōu)化相似性特征距離進行k-means二次聚類包括以下步驟:
33、(31)從負荷序列xp,xq中提取一階差分向量并基于此計算差分皮爾遜相關(guān)距離公式如下:
34、
35、式中:zp,zq是負荷序列xp,xq的一階差分向量,是zp,zq的皮爾遜系數(shù),公式分別如下:
36、zpi=xp(i+1)-xp(i)
37、zqi=xq(i+1)-xq(i)
38、
39、式中:其中zpi,zqi分別為xp,xq差分序列的第i個維度的值,分別為序列xp,xq數(shù)據(jù)點平均值。
40、(32)融合歐式距離構(gòu)造新的相似性距離,公式如下:
41、
42、式中:α,β是距離加權(quán)權(quán)重,ω是約束數(shù)量級的權(quán)重系數(shù),公式如下:
43、
44、(33)基于融合相似性距離,進行k-means二次聚類,到達聚類終止條件時輸出聚類結(jié)果。
45、有益效果:與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果為:1、提出初值回報指標計算聚類初始k值,相比肘部法則計算sse等可以更直觀、準確的選去聚類k值;2、進行基于dwdc的一次聚類提高選取聚類初始中心的效率進而提高整體聚類模型有效性;3、融合加權(quán)歐氏距離和差分皮爾遜相關(guān)距離的融合多尺度特征距離優(yōu)化二次聚類k-means以提升聚類精度,提升負荷聚類的效果和效率,更準確的提取用戶行為模式,在給定聚類指標性能上優(yōu)于對比算法。
1.一種改進dwdc-k-means二次聚類的臺區(qū)用戶行為分析算法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種改進dwdc-k-means二次聚類的臺區(qū)用戶行為分析算法,其特征在于,步驟(1)所述的數(shù)據(jù)集預處理,計算初值回報指標確認初始k值方法和步驟如下:
3.根據(jù)權(quán)利要求1所述的一種改進dwdc-k-means二次聚類的臺區(qū)用戶行為分析算法,其特征在于,步驟(1)所述的基于動態(tài)加權(quán)密度聚類dwdc的一次聚類的方法和步驟如下:
4.根據(jù)權(quán)利要求1所述的一種改進dwdc-k-means二次聚類的臺區(qū)用戶行為分析算法,其特征在于,所述步驟(1)所述的融和加權(quán)歐氏距離和差分皮爾遜相關(guān)距離優(yōu)化相似性特征距離進行k-means二次聚類步驟如下: