本發(fā)明屬于大數(shù)據(jù),尤其涉及一種電力系統(tǒng)數(shù)據(jù)庫異常缺失數(shù)據(jù)補全方法、系統(tǒng)及產(chǎn)品。
背景技術(shù):
1、本部分的陳述僅僅是提供了與本發(fā)明相關(guān)的背景技術(shù)信息,不必然構(gòu)成在先技術(shù)。
2、傳統(tǒng)電力系統(tǒng)面臨供需平衡和能源浪費等難題,智能電網(wǎng)技術(shù)的應(yīng)用推動了行業(yè)向綠色轉(zhuǎn)型。為了實現(xiàn)典型耗能行業(yè)在能效、能耗、產(chǎn)耗、節(jié)能和普查方面的數(shù)據(jù)支撐服務(wù)需求,需要構(gòu)建一個數(shù)據(jù)庫來存儲企業(yè)的用電量等信息。但是在數(shù)據(jù)的獲取過程中會因為各種因素如智能電表故障或數(shù)據(jù)傳輸信道阻塞可能導(dǎo)致電力數(shù)據(jù)出現(xiàn)不規(guī)則的缺失。這種缺失不僅在數(shù)量上不確定,而且在出現(xiàn)的時間點上也不固定。特別是當缺失數(shù)據(jù)量較大時,簡單地刪除缺失數(shù)據(jù)會導(dǎo)致大量的信息損失,從而影響數(shù)據(jù)的完整性和準確性。
3、現(xiàn)有的缺失數(shù)據(jù)處理方法中,主要有刪除、插補或不做處理等方式。刪除法是最簡單的處理方式,但當缺失數(shù)據(jù)量較大時,效果十分不理想。插補方法主要分為基于統(tǒng)計學(xué)的方法和基于機器學(xué)習(xí)的方法兩類?;诮y(tǒng)計學(xué)的方法包括回歸分析法和多重插補等方法,但這些方法大多未考慮單個數(shù)據(jù)對象的類別屬性,填充結(jié)果可能受整個數(shù)據(jù)集中不同類別對象的影響,導(dǎo)致準確度相對有限。因此,為了更好地補全缺失數(shù)據(jù),需要采用更精細的方法,以捕獲數(shù)據(jù)的時空分布特征,從而提高補全效果。
4、隨著計算能力的顯著增強,基于機器學(xué)習(xí)的填充方法得到了大規(guī)模應(yīng)用。在許多情境下,時間序列數(shù)據(jù)的缺失值處理已經(jīng)開始采用機器學(xué)習(xí)技術(shù)。這些方法包括最近鄰方法(knn)、循環(huán)神經(jīng)網(wǎng)絡(luò)(rnn)、隨機森林和矩陣分解等多種算法,廣泛應(yīng)用于填補缺失值的任務(wù)中。在現(xiàn)有技術(shù)中,有一種方法是在樸素k-最近鄰方法基礎(chǔ)上設(shè)置閾值篩選最近鄰點,然后結(jié)合灰色關(guān)聯(lián)系數(shù)計算近鄰點的權(quán)重系數(shù),最終依次補全缺失數(shù)據(jù)。然而,該方法在處理大規(guī)模數(shù)據(jù)集時,可能在計算時間和存儲需求方面表現(xiàn)不佳。還有一種基于rnn的名為gru-d的新型深度學(xué)習(xí)模型,通過引入兩種缺失值模式表示,有效地將其整合到深度模型架構(gòu)中,使模型不僅能夠捕獲時間序列中的長期時間依賴性,而且能夠利用缺失值模式以獲得更好的預(yù)測結(jié)果。然而目前主流的數(shù)據(jù)預(yù)測方法,普遍采用了時間衰減機制,這主要是為了處理缺失數(shù)據(jù)的時間衰減效應(yīng),同時對于長時間序列數(shù)據(jù),容易發(fā)生梯度消失或梯度爆炸問題,因此,這些模型在處理長距離依賴方面存在著很大的局限性。
技術(shù)實現(xiàn)思路
1、為了解決上述背景技術(shù)中存在的至少一項技術(shù)問題,本發(fā)明提供一種電力系統(tǒng)數(shù)據(jù)庫異常缺失數(shù)據(jù)補全方法、系統(tǒng)及產(chǎn)品,其通過基于歷史和基于特征的雙重模型,從前后兩個方向?qū)θ笔?shù)據(jù)進行預(yù)測,利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合雙向注意力機制捕捉數(shù)據(jù)之間的長距離依賴,提高預(yù)測的準確性。
2、為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:
3、本發(fā)明的第一方面提供一種電力系統(tǒng)數(shù)據(jù)庫異常缺失數(shù)據(jù)補全方法,包括如下步驟:
4、獲取電力系統(tǒng)的多源數(shù)據(jù),處理得到多元時間序列數(shù)據(jù);
5、基于多元時間序列數(shù)據(jù)和缺失數(shù)據(jù)預(yù)測模型進行預(yù)測,得到缺失數(shù)據(jù)的預(yù)測值;其中,所述缺失數(shù)據(jù)預(yù)測模型的構(gòu)建過程包括:
6、對于每個時間步,基于提取的當前時間步的掩碼和時間間隔,計算時間衰減因子,根據(jù)時間衰減因子更新隱藏狀態(tài),根據(jù)隱藏狀態(tài)計算歷史預(yù)測缺失值,填補缺失值,得到初步補全后的時間序列數(shù)據(jù);基于初步補全后的時間序列數(shù)據(jù),結(jié)合注意力機制進行特征估計,計算得到特征估計值;計算歷史預(yù)測缺失值和特征估計值的組合權(quán)重,根據(jù)組合權(quán)重結(jié)合歷史預(yù)測缺失值和特征估計值,得到組合估計值,基于組合估計值更新lstm單元的隱狀態(tài)和細胞狀態(tài);
7、時間步循環(huán)結(jié)束后,對所有時間步的隱藏狀態(tài)進行處理,得到上下文向量,使用線性層對上下文向量進行處理,得到最缺失數(shù)據(jù)的預(yù)測值;將預(yù)測得到的缺失數(shù)據(jù)的預(yù)測值插補到缺失值的位置,將補全缺失值后的數(shù)據(jù)存儲至電力系統(tǒng)數(shù)據(jù)庫中。
8、進一步地,時間衰減因子的計算公式為;
9、
10、其中,γh和γx表示時間衰減因子,wx、bx、wh、bh表示模型參數(shù),表示當前時刻t與上一次檢測到數(shù)據(jù)時刻的時間間隔,st為當前步時間序列數(shù)據(jù)xt對應(yīng)的時刻,st-1為上一步時間序列數(shù)據(jù)xt-1對應(yīng)的時刻,表示當前時刻t與上一次檢測到數(shù)據(jù)的時刻的時間間隔,表示觀測到的時間序列數(shù)據(jù)xt的第d個特征,為對應(yīng)的掩碼向量。
11、進一步地,所述基于初步補全后的時間序列數(shù)據(jù),結(jié)合注意力機制進行特征估計,計算得到特征估計值的公式為:
12、
13、其中,是基于歷史數(shù)據(jù)初步補全后的時間序列數(shù)據(jù),q、k、v為通過基于初步補全后的時間序列數(shù)據(jù)經(jīng)過線性變換參數(shù)矩wq、wk、wv陣線性變換后的向量矩陣,dmodel為輸入向量的維度,zt為特征估計值。
14、進一步地,對所有時間步的隱藏狀態(tài)進行處理時,采用多頭注意力機制處理,多頭注意力機制首先使用參數(shù)矩陣對所有時間步的隱藏狀態(tài)進行線性變換,將線型變換后的向量矩陣分成h個頭部,基于第i個頭部的查詢、鍵、值向量計算得到每個頭部來計算注意力權(quán)重,將每個頭的輸出拼接起來并進行平均池化操作,再將平均池化后得到的上下文向量送入一個線性變換層得到最終的缺失數(shù)據(jù)的預(yù)測值。
15、進一步地,在得到多元時間序列數(shù)據(jù)后,對獲取的數(shù)據(jù)進行預(yù)處理,包括清洗、降噪和標準化處理。
16、進一步地,對獲取的數(shù)據(jù)進行預(yù)處理后,對多元時間序列數(shù)據(jù)進行完整性檢測,若數(shù)據(jù)中存在缺失值,確定缺失值的具體位置和時間點。
17、本發(fā)明的第二方面提供一種電力系統(tǒng)數(shù)據(jù)庫異常數(shù)據(jù)缺失的補全系統(tǒng),包括:
18、數(shù)據(jù)獲取模塊,其用于獲取電力系統(tǒng)的多源數(shù)據(jù),處理得到多元時間序列數(shù)據(jù);
19、缺失值預(yù)測模塊,其用于基于多元時間序列數(shù)據(jù)和缺失數(shù)據(jù)預(yù)測模型進行預(yù)測,得到缺失數(shù)據(jù)的預(yù)測值;其中,所述缺失數(shù)據(jù)預(yù)測模型的構(gòu)建過程包括:
20、對于每個時間步,基于提取的當前時間步的掩碼和時間間隔,計算時間衰減因子,根據(jù)時間衰減因子更新隱藏狀態(tài),根據(jù)隱藏狀態(tài)計算歷史預(yù)測缺失值,填補缺失值,得到初步補全后的時間序列數(shù)據(jù);基于初步補全后的時間序列數(shù)據(jù),結(jié)合注意力機制進行特征估計,計算得到特征估計值;計算歷史預(yù)測缺失值和特征估計值的組合權(quán)重,根據(jù)組合權(quán)重結(jié)合歷史預(yù)測缺失值和特征估計值,得到組合估計值,基于組合估計值更新lstm單元的隱狀態(tài)和細胞狀態(tài);
21、時間步循環(huán)結(jié)束后,對所有時間步的隱藏狀態(tài)進行處理,得到上下文向量,使用線性層對上下文向量進行處理,得到最缺失數(shù)據(jù)的預(yù)測值;
22、缺失值補全模塊,其用于將預(yù)測得到的缺失數(shù)據(jù)的預(yù)測值插補到缺失值的位置,將補全缺失值后的數(shù)據(jù)存儲至電力系統(tǒng)數(shù)據(jù)庫中。
23、進一步地,所述系統(tǒng)還包括缺失值檢測模塊,其用于對獲取的數(shù)據(jù)進行預(yù)處理后,對多元時間序列數(shù)據(jù)進行完整性檢測,若數(shù)據(jù)中存在缺失值,確定缺失值的具體位置和時間點。
24、進一步地,缺失值預(yù)測模塊中,對所有時間步的隱藏狀態(tài)進行處理時,采用多頭注意力機制處理,多頭注意力機制首先使用參數(shù)矩陣對所有時間步的隱藏狀態(tài)進行線性變換,將線型變換后的向量矩陣分成h個頭部,基于第i個頭部的查詢、鍵、值向量計算得到每個頭部來計算注意力權(quán)重,將每個頭的輸出拼接起來并進行平均池化操作,再將平均池化后得到的上下文向量送入一個線性變換層得到最終的缺失數(shù)據(jù)的預(yù)測值。
25、本發(fā)明的第三方面提供一種程序產(chǎn)品。
26、一種程序產(chǎn)品,所述程序產(chǎn)品為計算機程序產(chǎn)品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如第一方面上述所述的一種電力系統(tǒng)數(shù)據(jù)庫異常缺失數(shù)據(jù)補全方法中的步驟。
27、與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:
28、本發(fā)明對多元時間序列數(shù)據(jù)進行完整性檢測,若數(shù)據(jù)中存在缺失值,確定缺失值的具體位置和時間點;基于多元時間序列數(shù)據(jù)和缺失數(shù)據(jù)預(yù)測模型進行預(yù)測,得到缺失數(shù)據(jù)的預(yù)測值;缺失數(shù)據(jù)預(yù)測時,通過基于歷史和基于特征的雙重模型,從前后兩個方向?qū)θ笔?shù)據(jù)進行預(yù)測,利用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)合雙向注意力機制捕捉數(shù)據(jù)之間的長距離依賴,提高了預(yù)測的準確性。
29、本發(fā)明附加方面的優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。