本發(fā)明屬于電力系統(tǒng)線損管理領(lǐng)域。
背景技術(shù):
線損率是反映電網(wǎng)規(guī)劃設(shè)計和運(yùn)行管理的一項(xiàng)綜合性技術(shù)經(jīng)濟(jì)指標(biāo),對于網(wǎng)架優(yōu)化和節(jié)能降損具有重要的指導(dǎo)作用。10kv中壓配電網(wǎng)(即配電饋線)損耗占電網(wǎng)總損耗的24.7%,在各電壓等級中占比最高,是一個重?fù)p層。因此,研究配電饋線統(tǒng)計線損的數(shù)據(jù)情況對于電力系統(tǒng)線損管理具有重要的意義。
通過對某地提供的ami數(shù)據(jù)中的配電饋線統(tǒng)計線損進(jìn)行分析發(fā)現(xiàn),在44172個數(shù)據(jù)樣本中,含有缺失值的樣本數(shù)為15283個,占34.6%;存在異常值的樣本數(shù)為35378,占80.1%。由此可知,配電饋線統(tǒng)計線損的數(shù)據(jù)質(zhì)量非常差,數(shù)據(jù)缺失和數(shù)據(jù)異?,F(xiàn)象嚴(yán)重,為此,本發(fā)明基于ami數(shù)據(jù),并且計及理論線損率的影響,應(yīng)用xgboost算法實(shí)現(xiàn)對配電饋線統(tǒng)計線損數(shù)據(jù)的清洗。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明針對智能配用電大數(shù)據(jù)具有的數(shù)據(jù)體量大、數(shù)據(jù)類型多和多源數(shù)據(jù)間關(guān)系復(fù)雜的特點(diǎn),提供一種基于ami數(shù)據(jù)和計及理論線損率影響的配電饋線統(tǒng)計線損數(shù)據(jù)的清洗方法。技術(shù)方案如下:
一種基于ami數(shù)據(jù)的配電饋線統(tǒng)計線損率數(shù)據(jù)清洗方法,包括下列步驟:
步驟一:從ami數(shù)據(jù)中提取與配電饋線線損相關(guān)的線路特征參數(shù)、變壓器特征參數(shù)和理論線損率及統(tǒng)計線損率,構(gòu)建配電饋線線損特征數(shù)據(jù)庫;
步驟二:對配電饋線統(tǒng)計線損數(shù)據(jù)進(jìn)行缺失值和異常值檢測,將所有數(shù)據(jù)分為待清洗數(shù)據(jù)和正常數(shù)據(jù)即訓(xùn)練數(shù)據(jù);
步驟三:建立基于xgboost的配電饋線統(tǒng)計線損估計模型,并利用訓(xùn)練數(shù)據(jù)確定模型參數(shù),步驟如下:
1)設(shè)定配電饋線統(tǒng)計線損率的初始估計值和迭代次數(shù),每次迭代重復(fù)下述2)至4)的步驟;
2)計算損失函數(shù)的一階和二階導(dǎo)數(shù)gi和hi,即
其中yi和
3)利用貪婪算法,遍歷每一種樹結(jié)構(gòu),尋找使下述目標(biāo)函數(shù)obj最小的樹結(jié)構(gòu)ft(xi),并計算每個葉子節(jié)點(diǎn)的最優(yōu)權(quán)重
其中,
4)將上一步中的ft(xi)添加到模型中,即
5)將每一次迭代建立的決策樹進(jìn)行疊加,得到對配電饋線統(tǒng)計線損率的估計模型,即
步驟四:利用上述估計模型對待清洗數(shù)據(jù)進(jìn)行修正。
與配電饋線線損相關(guān)的線路特征參數(shù),包括線路類型、線路總長度、線路供電量及線路投運(yùn)時間;與配電饋線線損相關(guān)的變壓器參數(shù),包括配電變壓器額定容量、短路損耗、空載損耗和投運(yùn)時間;配電饋線理論線損率通常采用等值電阻法進(jìn)行計算。
xgboost算法易于實(shí)現(xiàn)分布式和并行計算,適用于數(shù)據(jù)種類多樣和數(shù)據(jù)間關(guān)系復(fù)雜的大規(guī)模數(shù)據(jù)集。將xgboost算法應(yīng)用到基于ami數(shù)據(jù)的配電饋線統(tǒng)計線損率數(shù)據(jù)清洗中,可以提高數(shù)據(jù)清洗的準(zhǔn)確度,有效改善數(shù)據(jù)質(zhì)量。
附圖說明
圖1為配電饋線線損特征數(shù)據(jù)庫構(gòu)建流程圖。
圖2為基于xgboost的配電饋線統(tǒng)計線損估計流程圖。
圖3為基于ami數(shù)據(jù)和計及理論線損率影響,并應(yīng)用xgboost算法的配電饋線統(tǒng)計線損數(shù)據(jù)清洗流程圖。
圖4為本發(fā)明的一種具體實(shí)施方式的基于xgboost的配電饋線統(tǒng)計線損估計模型中構(gòu)建的決策樹示例。
圖5為本發(fā)明的一種具體實(shí)施方式的基于xgboost算法的配電饋線統(tǒng)計線損估計模型在訓(xùn)練集上的估計結(jié)果。
具體實(shí)施方式
本發(fā)明的配電饋線統(tǒng)計線損數(shù)據(jù)清洗方法,包含如下步驟:
步驟一:從ami數(shù)據(jù)中提取與配電饋線線損相關(guān)的線路特征參數(shù)、變壓器特征參數(shù)和理論線損率及統(tǒng)計線損率,構(gòu)建配電饋線線損特征數(shù)據(jù)庫。具體步驟如下:
1)提取數(shù)據(jù)。從線路統(tǒng)計線損數(shù)據(jù)庫中提取出配電饋線(10kv線路)線路設(shè)備id、線路設(shè)備名稱、日期、線路供電量、線損率和理論線損率;通過線路設(shè)備名稱,從設(shè)備臺賬數(shù)據(jù)庫中的線路參數(shù)表中提取線路類型、線路總長度和線路投運(yùn)時間;通過線路設(shè)備id確定配電饋線所轄配電變壓器的id,進(jìn)而從設(shè)備臺賬數(shù)據(jù)庫中的配電變壓器參數(shù)表中提取配電變壓器的額定容量、短路損耗、空載損耗和投運(yùn)時間。
2)構(gòu)建配電饋線線損特征數(shù)據(jù)庫。通過線路設(shè)備id關(guān)聯(lián)線路統(tǒng)計線損數(shù)據(jù)、線路參數(shù)數(shù)據(jù)和變壓器參數(shù)數(shù)據(jù),并將投運(yùn)時間轉(zhuǎn)化為距線損統(tǒng)計時的月份差,同時剔除無關(guān)變量,構(gòu)建僅包含線路類型、線路總長度、線路投運(yùn)時間、線路供電量及配變額定容量、配變短路損耗、配變空載損耗、配變投運(yùn)時間和統(tǒng)計線損率、理論線損率十個變量的配電饋線線損特征數(shù)據(jù)庫。
步驟二:對配電饋線統(tǒng)計線損數(shù)據(jù)進(jìn)行缺失值和異常值檢測,將所有數(shù)據(jù)分為待清洗數(shù)據(jù)和正常數(shù)據(jù)(即訓(xùn)練數(shù)據(jù))。
步驟三:建立基于xgboost的配電饋線統(tǒng)計線損估計模型,并利用訓(xùn)練數(shù)據(jù)確定模型參數(shù)。具體步驟如下:
1)模型參數(shù)優(yōu)化選擇。利用所有訓(xùn)練數(shù)據(jù)作為xgboost模型的輸入對其參數(shù)進(jìn)行優(yōu)化。第一步,根據(jù)初始參數(shù),通過交叉驗(yàn)證的方式確定學(xué)習(xí)率和最佳的決策樹數(shù)量,nrounds與eta是相對應(yīng)的,通常較小的eta可以提高模型的魯棒性,但也會使nrounds增大而影響模型的計算速度;第二步,對于給定的eta和nrounds,依次確定max_depth和min_child_weight、gamma以及subsample和colsample_bytree的取值,這些參數(shù)的合理取值可以增加模型的魯棒性,防止過擬合和欠擬合;第三步,對正則化參數(shù)調(diào)優(yōu),lambda參數(shù)表征模型的復(fù)雜度,可以有效防止過擬合。xgboost模型的主要參數(shù)如表1所示。
表1
2)模型訓(xùn)練及驗(yàn)證。將所有訓(xùn)練數(shù)據(jù)隨機(jī)分為訓(xùn)練集(占80%)和測試集(占20%),在優(yōu)化后的模型參數(shù)下,利用訓(xùn)練集對模型進(jìn)行訓(xùn)練,進(jìn)而確定所有決策樹(此實(shí)例為126個)的結(jié)構(gòu),并在測試集中對模型進(jìn)行驗(yàn)證。本發(fā)明采用均方根誤差(rootmeansquareerror,rmse)衡量模型的準(zhǔn)確度,即
圖4所示為模型中決策樹的示例,其中方框代表非葉子節(jié)點(diǎn),且每個非葉子節(jié)點(diǎn)都可以根據(jù)某個特征參數(shù)進(jìn)行劃分,所有特征參數(shù)及其簡化表示如表2所示。每個節(jié)點(diǎn)還包含gain和cover信息,gain值是對節(jié)點(diǎn)進(jìn)行劃分的依據(jù),與傳統(tǒng)決策樹模型中的信息增益類似;cover表示節(jié)點(diǎn)包含的樣本數(shù)量。
表2
圖5為基于xgboost算法的配電饋線統(tǒng)計線損估計模型在訓(xùn)練集上的估計結(jié)果,為了便于觀察模型的擬合效果,按照統(tǒng)計線損率實(shí)際值遞增的順序?qū)颖具M(jìn)行重新編號,并展示實(shí)際值和估計值的關(guān)系。從圖中可以看出,該算法可以有效的擬合統(tǒng)計線損的實(shí)際值,同時模型的rmse為0.508,估計的準(zhǔn)確度較高。
步驟四:利用上述估計模型對待清洗數(shù)據(jù)進(jìn)行修正。從配電饋線線損特征數(shù)據(jù)庫中提取與待清洗數(shù)據(jù)相關(guān)的特征參數(shù),以此作為基于xgboost的配電饋線統(tǒng)計線損估計模型的輸入,對待清洗數(shù)據(jù)進(jìn)行修正。表3所示為部分待清洗數(shù)據(jù)的原始統(tǒng)計線損值和修正后的值。
表3