本發(fā)明屬于電力信息,尤其是涉及一種結(jié)構(gòu)特征保持的電力數(shù)據(jù)靜態(tài)圖數(shù)據(jù)生成方法。
背景技術(shù):
1、電力數(shù)據(jù)涉及大量安全信息,不宜直接使用,需要使用圖生成技術(shù)對(duì)電力數(shù)據(jù)進(jìn)行脫敏處理,生成與原始數(shù)據(jù)具有相似拓?fù)浣Y(jié)構(gòu)的模擬數(shù)據(jù),再根據(jù)脫敏后的模擬數(shù)據(jù)進(jìn)行電力系統(tǒng)分析和研究。因此,如何在生成高質(zhì)量的圖數(shù)據(jù),盡可能保持原始數(shù)據(jù)的結(jié)構(gòu)特征,成為電力信息技術(shù)領(lǐng)域中的一個(gè)重要研究方向。
2、靜態(tài)圖數(shù)據(jù)具有計(jì)算效率高、可移植性強(qiáng)等優(yōu)點(diǎn),現(xiàn)有的靜態(tài)圖數(shù)據(jù)生成技術(shù)雖然取得了一定的進(jìn)展,但在訓(xùn)練效率、圖結(jié)構(gòu)特征保持等方面仍然面臨一些挑戰(zhàn)?,F(xiàn)有的靜態(tài)圖生成方法主要包含以下幾類:
3、(1)基于結(jié)構(gòu)假設(shè)的靜態(tài)圖生成方法
4、傳統(tǒng)的圖生成方法使用特定的結(jié)構(gòu)假設(shè)來(lái)建模特定的圖集,常見(jiàn)的結(jié)構(gòu)假設(shè)包括重尾度分布、小直徑、局部聚類等,傳統(tǒng)的圖生成器有e-r、b-a、w-s、bter、kronecker等。這類方法盡管在理論上有著堅(jiān)實(shí)的基礎(chǔ),但受結(jié)構(gòu)的局限性,在處理復(fù)雜多變的電力數(shù)據(jù)時(shí),往往難以準(zhǔn)確生成與原始數(shù)據(jù)具有相似拓?fù)浣Y(jié)構(gòu)的圖數(shù)據(jù)。此外,這類方法依賴于預(yù)設(shè)的結(jié)構(gòu)假設(shè),當(dāng)遇到不符合假設(shè)的新圖集時(shí),性能往往會(huì)顯著下降。
5、(2)基于自回歸的靜態(tài)圖生成方法
6、基于自回歸的圖生成方法將圖生成過(guò)程分解為一系列順序決策,每個(gè)決策依賴于前面的決策,通過(guò)逐步生成節(jié)點(diǎn)和邊構(gòu)建完整的圖結(jié)構(gòu)。graphrnn一種典型的自回歸圖生成模型,graphrnn由圖級(jí)rnn和邊級(jí)rnn兩部分組成,圖級(jí)rnn用于存儲(chǔ)已經(jīng)生成的節(jié)點(diǎn)并生成新節(jié)點(diǎn),邊級(jí)rnn用于存儲(chǔ)新節(jié)點(diǎn)的信息并根據(jù)節(jié)點(diǎn)之間的關(guān)系推斷是否生成新的邊。但是由于生成過(guò)程依賴于節(jié)點(diǎn)和邊的順序,模型不是排列不變的;此外,由于graphrnn的生成過(guò)程是逐步進(jìn)行的,每一步都依賴于前一步的生成結(jié)果,圖的生成過(guò)程無(wú)法并行處理,導(dǎo)致生成效率較低。
7、(3)基于變分自編碼器(variational?autoencoder,vae)的靜態(tài)圖生成方法
8、基于變分自編碼器是一種基于無(wú)監(jiān)督學(xué)習(xí)的生成模型,由編碼器和解碼器兩部分構(gòu)成,其中,編碼器將輸入數(shù)據(jù)映射到潛在空間中,將圖的結(jié)構(gòu)和節(jié)點(diǎn)信息編碼為潛變量,解碼器從潛在空間采樣得到潛變量,對(duì)潛變量進(jìn)行解碼生成新的圖。模型假設(shè)潛變量服從某種已知的先驗(yàn)分布,使用變分推理技術(shù)學(xué)習(xí)潛變量的分布,通過(guò)最大化變分下界來(lái)逼近真實(shí)的后驗(yàn)分布。graphvae是一種基于vae的圖生成模型,其編碼器使用gcn將輸入圖嵌入到連續(xù)的特征空間,解碼器使用多層感知機(jī)(mlp)一次性地輸出最大節(jié)點(diǎn)數(shù)的概率全連接圖。由于生成圖和真實(shí)圖沒(méi)有規(guī)定節(jié)點(diǎn)順序,為了計(jì)算重構(gòu)損失,graphvae使用一種近似的圖匹配算法來(lái)對(duì)齊生成圖和真實(shí)圖的節(jié)點(diǎn),從而計(jì)算生成圖與真實(shí)圖之間的差異。然而,這種圖匹配算法具有較高的時(shí)間復(fù)雜度,導(dǎo)致模型無(wú)法學(xué)習(xí)和生成大規(guī)模圖。
9、(4)基于生成對(duì)抗網(wǎng)絡(luò)的靜態(tài)圖生成方法
10、生成對(duì)抗網(wǎng)絡(luò)(gan)通過(guò)生成器和判別器的對(duì)抗訓(xùn)練生成圖數(shù)據(jù)。netgan是一種經(jīng)典的基于生成對(duì)抗網(wǎng)絡(luò)的靜態(tài)圖生成模型,其使用有偏二階策略采樣得到隨機(jī)游走序列,這種策略既能保持節(jié)點(diǎn)的排列不變性,又能有效地利用真實(shí)世界網(wǎng)絡(luò)的稀疏性。netgan的生成器使用長(zhǎng)短期記憶網(wǎng)絡(luò)(lstm),逐節(jié)點(diǎn)學(xué)習(xí)并生成下一個(gè)節(jié)點(diǎn),通過(guò)迭代過(guò)程生成完整的隨機(jī)游走序列,判別器使用另一個(gè)lstm來(lái)處理這些節(jié)點(diǎn)序列,通過(guò)學(xué)習(xí)真實(shí)隨機(jī)游走序列的特征,判斷隨機(jī)游走序列的真實(shí)性,訓(xùn)練結(jié)束后,生成器多次生成隨機(jī)游走序列,這些序列再通過(guò)圖重構(gòu)算法轉(zhuǎn)化為完整的圖結(jié)。盡管netgan在生成圖質(zhì)量上具有出色的表現(xiàn),但是模型使用lstm進(jìn)行序列生成和判別,計(jì)算復(fù)雜性較高。在處理大規(guī)模圖和長(zhǎng)序列時(shí),lstm的計(jì)算效率和內(nèi)存需求可能成為瓶頸,限制了模型的可擴(kuò)展性。
11、綜上,需要設(shè)計(jì)一種靜態(tài)圖數(shù)據(jù)生成方法,進(jìn)一步提高電力數(shù)據(jù)靜態(tài)圖數(shù)據(jù)的生成效率和質(zhì)量。
技術(shù)實(shí)現(xiàn)思路
1、本發(fā)明的目的就是為了克服上述現(xiàn)有技術(shù)存在的缺陷而提供一種結(jié)構(gòu)特征保持的電力數(shù)據(jù)靜態(tài)圖數(shù)據(jù)生成方法,盡可能保留原始電力數(shù)據(jù)的結(jié)構(gòu)特征,同時(shí)提高靜態(tài)圖數(shù)據(jù)生成效率。
2、本發(fā)明的目的可以通過(guò)以下技術(shù)方案來(lái)實(shí)現(xiàn):
3、本發(fā)明提供一種結(jié)構(gòu)特征保持的電力數(shù)據(jù)靜態(tài)圖數(shù)據(jù)生成方法,包括以下步驟:
4、獲取電力數(shù)據(jù),輸入靜態(tài)圖數(shù)據(jù)生成模型,生成相應(yīng)的靜態(tài)圖數(shù)據(jù);
5、所述靜態(tài)圖數(shù)據(jù)生成模型包括依次連接的采樣模塊、生成對(duì)抗網(wǎng)絡(luò)和重構(gòu)模塊;其中,所述采樣模塊用于使用中心圖采樣方法對(duì)電力數(shù)據(jù)進(jìn)行采樣,生成中心圖;
6、所述生成對(duì)抗網(wǎng)絡(luò)包括生成器和判別器,所述生成器包括解碼器和編碼器,所述編碼器用于通過(guò)基于多頭自注意力機(jī)制構(gòu)建的圖自注意力網(wǎng)絡(luò)對(duì)所述中心圖進(jìn)行編碼,獲得中心圖的隱變量;所述解碼器用于解碼中心圖的隱變量,獲得中心圖得分矩陣;所述判別器用于區(qū)分真實(shí)數(shù)據(jù)和生成數(shù)據(jù);
7、所述重構(gòu)模塊用于根據(jù)所述中心圖得分矩陣生成每條邊的分類分布概率,進(jìn)而生成靜態(tài)圖數(shù)據(jù)。
8、進(jìn)一步地,所述中心圖的生成過(guò)程具體如下:
9、s101、根據(jù)輸入的電力數(shù)據(jù)確定初始節(jié)點(diǎn);
10、s102、以所述初始節(jié)點(diǎn)為中心,對(duì)其鄰居節(jié)點(diǎn)進(jìn)行遞歸采樣,采樣深度為k;
11、s103、獲得半徑為k的中心圖,所述中心圖包括任意節(jié)點(diǎn)u以及與任意節(jié)點(diǎn)u之間最短路徑長(zhǎng)度小于等于k的所有鄰居節(jié)點(diǎn)。
12、進(jìn)一步地,步驟s101中,根據(jù)節(jié)點(diǎn)度計(jì)算電力數(shù)據(jù)中任意節(jié)點(diǎn)的采樣概率,進(jìn)而確定所述初始節(jié)點(diǎn)。
13、進(jìn)一步地,任意節(jié)點(diǎn)u的采樣概率的計(jì)算公式具體如下:
14、
15、其中,p(u)表示表示節(jié)點(diǎn)u的采樣概率,deg(·)表示節(jié)點(diǎn)度,v表示全部節(jié)點(diǎn)集合,v表示節(jié)點(diǎn)。
16、進(jìn)一步地,所述編碼器包括多個(gè)并行的圖自注意力網(wǎng)絡(luò),每個(gè)圖自注意力網(wǎng)絡(luò)通過(guò)多頭自注意力機(jī)制計(jì)算所述中心圖的聚合特征,然后通過(guò)門(mén)控機(jī)制輸出為中心圖的隱變量。
17、進(jìn)一步地,中心圖隱變量的生成過(guò)程具體如下:
18、s201、將所述中心圖的每個(gè)節(jié)點(diǎn)的特征向量映射到隱藏層空間rd′×n,獲得映射特征向量,其中d′為目標(biāo)維度,n為注意力頭的數(shù)量;
19、s202、計(jì)算每個(gè)節(jié)點(diǎn)與其鄰居節(jié)點(diǎn)之間的注意力系數(shù),并進(jìn)行歸一化:
20、euv=leakyrelu(at[hu||hv])
21、
22、其中,euv為節(jié)點(diǎn)u和節(jié)點(diǎn)v的注意力系數(shù),αuv為歸一化的注意力系數(shù),hu和hv分別為節(jié)點(diǎn)u和節(jié)點(diǎn)v的映射特征向量,a為多頭自注意力機(jī)制中各自注意力頭的注意力權(quán)重,[·||·]表示向量拼接,leakyrelu為非線性激活函數(shù);
23、s203、基于歸一化的注意力系數(shù)αuv加權(quán)聚合各節(jié)點(diǎn)的鄰居節(jié)點(diǎn)的映射特征向量,獲得各節(jié)點(diǎn)的聚合特征,作為每個(gè)注意力頭的輸出;
24、
25、其中,σ為非線性激活函數(shù);
26、s204、將所有注意力頭的輸出進(jìn)行拼接,獲得各節(jié)點(diǎn)的當(dāng)前特征:
27、h′u=concat(head1,...,headn)wo
28、其中,concat表示向量拼接,headi表示圖自注意力網(wǎng)絡(luò)中第i個(gè)頭的輸出,wo表示輸出投影矩陣;
29、s205、使用門(mén)控機(jī)制綜合各節(jié)點(diǎn)的當(dāng)前特征與原始特征,獲得中心圖的隱變量yu:
30、yu=σ(wg[h′u||xu||(h′u-xu)])⊙h′u+(1-σ(wg[h′u||xu||(h′u-xu)]))⊙xu
31、其中,wg為權(quán)重矩陣,⊙表示元素乘法。
32、進(jìn)一步地,所述解碼器通過(guò)門(mén)控循環(huán)單元解碼中心圖的隱變量,獲得中心圖的得分矩陣,得分矩陣的表達(dá)式如下:
33、s=wo(gru(yu,h0))+bo
34、其中,s為得分矩陣,wo為權(quán)重矩陣,yu為編碼器輸出的中心圖隱變量,h0為門(mén)控循環(huán)單元的初始隱藏狀態(tài),bo為偏置項(xiàng)。
35、進(jìn)一步地,所述判別器通過(guò)多層感知機(jī)區(qū)分真實(shí)數(shù)據(jù)和生成數(shù)據(jù)。
36、進(jìn)一步地,所述生成對(duì)抗網(wǎng)絡(luò)通過(guò)最小化損失函數(shù)進(jìn)行優(yōu)化,所述損失函數(shù)包括生成器損失函數(shù)和判別器損失函數(shù),所述生成器損失函數(shù)的表達(dá)式具體如下:
37、
38、其中,vs表示中心圖的初始節(jié)點(diǎn)集合,ns表示中心圖數(shù)量,au表示中心圖的鄰接矩陣,pu表示生成圖邊的概率,g表示生成器,d表示判別器,g(z)表示生成器生成的數(shù)據(jù);
39、所述判別器損失函數(shù)的表達(dá)式具體如下:
40、
41、其中,x表示真實(shí)數(shù)據(jù)。
42、進(jìn)一步地,所述重構(gòu)模塊生成智能電網(wǎng)動(dòng)態(tài)數(shù)據(jù)圖的具體過(guò)程如下:
43、s301、根據(jù)中心圖得分矩陣生成每條邊的分類分布概率:
44、
45、其中,p(u,v)為邊(u,v)的分類分布概率,su,v為最終得分矩陣,所述最終得分矩陣通過(guò)將所有中心圖得分矩陣進(jìn)行匯總,然后將每條邊生成的概率取平均值獲得;
46、s302、利用分類分布的概率生成相應(yīng)的邊,當(dāng)生成邊的數(shù)量與原始的電力數(shù)據(jù)中邊的數(shù)量一致時(shí),完成靜態(tài)圖數(shù)據(jù)的生成。
47、與現(xiàn)有技術(shù)相比,本發(fā)明具有以下有益效果:
48、1、本發(fā)明設(shè)計(jì)了一個(gè)靜態(tài)圖數(shù)據(jù)生成模型,可以根據(jù)電力數(shù)據(jù)生成相應(yīng)的靜態(tài)圖數(shù)據(jù),靜態(tài)圖數(shù)據(jù)生成模型包括依次連接的采樣模塊、生成對(duì)抗網(wǎng)絡(luò)和重構(gòu)模塊,其中,采樣模塊用于使用中心圖采樣方法對(duì)電力數(shù)據(jù)進(jìn)行采樣,生成若干中心圖,中心圖采樣方法可以根據(jù)數(shù)據(jù)分布,動(dòng)態(tài)調(diào)整采樣策略,有效捕捉圖中關(guān)鍵節(jié)點(diǎn)及其鄰居節(jié)點(diǎn)的結(jié)構(gòu)特征,有利于提高生成的智能電網(wǎng)動(dòng)態(tài)數(shù)據(jù)圖的可靠性;編碼器用于通過(guò)基于多頭自注意力機(jī)制構(gòu)建的圖自注意力網(wǎng)絡(luò)對(duì)中心圖進(jìn)行編碼,獲得中心圖的隱變量,解碼器用于解碼中心圖的隱變量,獲得中心圖得分矩陣,多頭自注意力機(jī)制一方面可以實(shí)現(xiàn)并行運(yùn)算,提升模型訓(xùn)練和生成靜態(tài)圖數(shù)據(jù)的速度,能夠很好適應(yīng)信息量較大的電力數(shù)據(jù)處理場(chǎng)景,另一方面能夠根據(jù)鄰居節(jié)點(diǎn)的重要性動(dòng)態(tài)分配不同的注意力權(quán)重,重點(diǎn)關(guān)注在靜態(tài)圖數(shù)據(jù)中起關(guān)鍵作用的節(jié)點(diǎn),從而能夠有效聚合鄰居節(jié)點(diǎn)的信息,盡可能保留原始電力數(shù)據(jù)的結(jié)構(gòu)特征。
49、2、本發(fā)明在每個(gè)圖自注意力網(wǎng)絡(luò)之后增加門(mén)控機(jī)制,可以進(jìn)一步增強(qiáng)編碼器的學(xué)習(xí)能力,通過(guò)門(mén)控機(jī)制綜合各節(jié)點(diǎn)的當(dāng)前特征與原始特征,可以選擇性地保留或丟棄信息,從而減輕梯度消失問(wèn)題,加速模型收斂,門(mén)控機(jī)制的引入使得模型在處理長(zhǎng)時(shí)間跨度的圖數(shù)據(jù)時(shí),能夠保持較高的學(xué)習(xí)效果,避免重要的歷史信息在長(zhǎng)時(shí)間傳遞過(guò)程中丟失,提升了模型處理復(fù)雜數(shù)據(jù)的能力,通過(guò)結(jié)合多頭自注意力機(jī)制和門(mén)控機(jī)制,模型既能靈活高效地處理大規(guī)模復(fù)雜數(shù)據(jù),又能有效保留原始電力數(shù)據(jù)的結(jié)構(gòu)特征。
50、3、本發(fā)明通過(guò)重構(gòu)模塊將所有中心圖得分矩陣進(jìn)行匯總,然后將每條邊生成的概率取平均值獲得最終得分矩陣,生成每條邊的分類分布,一方面可以實(shí)現(xiàn)多源信息的融合,另一方面可以減少極端值或噪聲對(duì)結(jié)果的影響,提高得分矩陣的可靠性;利用分類分布的概率生成相應(yīng)的邊,可以使生成的靜態(tài)圖數(shù)據(jù)更加接近實(shí)際情況;上述過(guò)程不依賴于特定的電網(wǎng)結(jié)構(gòu)或數(shù)據(jù)格式,可以靈活應(yīng)用于不同類型的電力數(shù)據(jù)靜態(tài)圖數(shù)據(jù)生成場(chǎng)景,具有較強(qiáng)的可解釋性和可擴(kuò)展性。