本發(fā)明涉及電力技術(shù)領(lǐng)域,特別是指一種基于用戶用電數(shù)據(jù)的情境感知系統(tǒng)。
背景技術(shù):
國內(nèi)外學(xué)者、企業(yè)在情景感知方面做了不少研究,但在電力行業(yè)方面的應(yīng)用仍相對空白。國內(nèi)電網(wǎng)公司客戶分類也進(jìn)行了大量研究,主要通過新設(shè)備的應(yīng)用及算法的優(yōu)化來實(shí)現(xiàn)新的客戶分類。但相關(guān)研究均只是提出單一的新客戶分類維度,并未基于用戶行為模式建立多維分類體系,而且新設(shè)備的應(yīng)用無法及時獲取用戶用電信息,更無法幫助電網(wǎng)公司更為準(zhǔn)確地掌握用電客戶差異化服務(wù)的業(yè)務(wù)需求,更不能為電網(wǎng)企業(yè)為客戶提供個性化及增值業(yè)務(wù)提供支撐。
因此,有必要設(shè)計(jì)一種新的基于用戶用電數(shù)據(jù)的情境感知系統(tǒng),以解決上述技術(shù)問題。
技術(shù)實(shí)現(xiàn)要素:
針對背景技術(shù)中存在的問題,本發(fā)明的目的是構(gòu)建一個大數(shù)據(jù)分析平臺,在此平臺上建立一套用戶用電情境感知系統(tǒng),根據(jù)業(yè)務(wù)需求,具有針對性的設(shè)計(jì)不同客戶分類差異化服務(wù)方案。
本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:一種基于用戶用電數(shù)據(jù)的情境感知系統(tǒng),包括數(shù)據(jù)獲取單元、建立情境感知模型與推理引擎單元、數(shù)據(jù)存儲單元,其中,所述數(shù)據(jù)獲取單元設(shè)有數(shù)據(jù)采集模塊、數(shù)據(jù)清理模塊、數(shù)據(jù)預(yù)處理模塊和用電行為數(shù)據(jù)聚類模塊以及聚類評價反饋模塊;所述建立情境感知模型與推理引擎單元設(shè)有數(shù)據(jù)處理模塊和模型建立模塊;所述數(shù)據(jù)采集模塊設(shè)有傳感器,傳感器采用非入侵式方法獲取用戶用電數(shù)據(jù);數(shù)據(jù)清理模塊用于檢查用戶用電數(shù)據(jù)是否正常,修改或刪除錯誤數(shù)據(jù);所述建立情境感知模型與推理引擎單元包括情境信息模型、推理引擎、調(diào)用控制輸出;所述數(shù)據(jù)存儲單元用于保存系統(tǒng)所有數(shù)據(jù)。
在上述技術(shù)方案中,所述用戶用電數(shù)據(jù)的采集間隔時間為15min、30min或1h。
在上述技術(shù)方案中,所述用戶用電數(shù)據(jù)包括客戶信息數(shù)據(jù)、計(jì)費(fèi)數(shù)據(jù)和支付數(shù)據(jù)。
在上述技術(shù)方案中,所述用戶用電數(shù)據(jù)可按時間、地理區(qū)域和電壓等級進(jìn)行不同的獲取。
在上述技術(shù)方案中,所述用戶用電數(shù)據(jù)聚類模塊可采用基于劃分的聚類算法、層次聚類算法、基于密度的聚類算法、基于模型的聚類算法、模糊聚類算法、螞蟻聚類算法、譜聚類算法、高斯聚類算法。
在上述技術(shù)方案中,所述聚類評價反饋模塊設(shè)有均方誤差、均值適宜度、聚類離散度、相似度矩陣、戴維-Bouldin指數(shù)、簇內(nèi)平方和與簇間差異之比。
在上述技術(shù)方案中,所述數(shù)據(jù)處理模塊包括數(shù)據(jù)初步整理、數(shù)據(jù)缺失值的處理和數(shù)據(jù)屬性歸約。
在上述技術(shù)方案中,所述數(shù)據(jù)缺失值的處理包括忽略缺失值的字段、刪除有缺失值的記錄以及使用均值。
本發(fā)明基于用戶用電數(shù)據(jù)的情境感知系統(tǒng),包括數(shù)據(jù)獲取單元、建立情境感知模型與推理引擎單元以及數(shù)據(jù)存儲單元,數(shù)據(jù)獲取單元設(shè)有數(shù)據(jù)采集模塊、數(shù)據(jù)清理模塊、數(shù)據(jù)預(yù)處理模塊和用電行為數(shù)據(jù)聚類模塊以及聚類評價反饋模塊;建立情景感知模型與推理引擎單元設(shè)有數(shù)據(jù)處理模塊和模型建立模塊;數(shù)據(jù)采集模塊設(shè)有傳感器獲取用戶用電數(shù)據(jù),再通過數(shù)據(jù)清理模塊、數(shù)據(jù)預(yù)處理模塊和用電行為數(shù)據(jù)聚類模塊以及聚類評價反饋模塊進(jìn)行數(shù)據(jù)處理和對應(yīng)的聚類,然后進(jìn)行情境感知的模型數(shù)據(jù)化建立,理解用戶用電行為,提取用戶電力模式,從而形成多維的用戶客戶分類體系,為供電局人員工作提供有效參考數(shù)據(jù)。
附圖說明
圖1為本發(fā)明基于用戶用電數(shù)據(jù)的情境感知系統(tǒng)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
如圖1所示,本發(fā)明所述的一種基于用戶用電數(shù)據(jù)的情境感知系統(tǒng),包括數(shù)據(jù)獲取單元1、建立情境感知模型與推理引擎單元2以及數(shù)據(jù)存儲單元3。
其中,數(shù)據(jù)獲取單元1設(shè)有數(shù)據(jù)采集模塊11、數(shù)據(jù)清理模塊12、數(shù)據(jù)預(yù)處理模塊13和數(shù)據(jù)聚類模塊14以及聚類評價反饋模塊15;所述建立情景感知模型與推理引擎單元2設(shè)有數(shù)據(jù)處理模塊21和模型建立模塊22,其包括情境信息模型、推理引擎、調(diào)用控制輸出;所述數(shù)據(jù)存儲單元3用于保存系統(tǒng)所有數(shù)據(jù)信息。
所述數(shù)據(jù)采集模塊11設(shè)有傳感器4,傳感器4采用非入侵式方法獲取頻譜數(shù)據(jù),分析獲取出用戶用電數(shù)據(jù)。在此,用戶用電數(shù)據(jù)包括客戶信息數(shù)據(jù)、計(jì)費(fèi)數(shù)據(jù)和支付數(shù)據(jù),而用戶用電數(shù)據(jù)的采集間隔時間為15min、30min或1h。且用戶用電行為數(shù)據(jù)的初步選擇可以按時間(月,季,年)、地理區(qū)域和電壓等級(高,中,低)等條件進(jìn)行。此外,數(shù)據(jù)選擇還與應(yīng)用目的有關(guān)。數(shù)據(jù)清理模塊12用于檢查每個用戶的用戶用電行為曲線數(shù)據(jù)是否正常,修改或刪除有明顯錯誤(不完整、有噪聲或不一致)的數(shù)據(jù)。
數(shù)據(jù)預(yù)處理模塊13對數(shù)據(jù)進(jìn)行初步的處理,具體的,由于用戶的行業(yè)性質(zhì)及用電行為大小不同,用戶用電行為數(shù)據(jù)值之間可能會存在巨大差異,有時甚至相差多個數(shù)量級,不經(jīng)處理聚類會影響聚類質(zhì)量,使得聚類結(jié)果不可靠。因此在對數(shù)據(jù)進(jìn)行聚類前必須對數(shù)據(jù)集進(jìn)行規(guī)范化,把樣本數(shù)據(jù)限制到一定范圍內(nèi)。這樣不僅便于數(shù)據(jù)的后續(xù)處理,還可以提高收斂速度以縮短聚類的運(yùn)行時間。
數(shù)據(jù)聚類模塊14,用聚類算法對規(guī)范化后的用戶用電行為曲線在給定聚類數(shù)下進(jìn)行聚類。聚類分析結(jié)果易受到多種因素的影響,如規(guī)范化方式、聚類結(jié)果對數(shù)據(jù)集的依賴性、算法的穩(wěn)定性、算法對數(shù)據(jù)輸入順序的敏感性等。用戶用電行為曲線聚類首先要確定用戶用電行為特性指標(biāo)、可選擇合適的聚類算法和確定其相應(yīng)的參數(shù)。
通常用聚類技術(shù)實(shí)現(xiàn)的主要方法可分為如下幾類:
1)基于劃分的算法?;趧澐值木垲愃惴ǖ幕舅枷霝椋航o定一個含有m個對象的數(shù)據(jù)集,劃分方法將構(gòu)建k個分組,每個分組就代表一個聚類簇。而且每個簇至少包括1個對象,每個對象必須且僅屬于1個簇。對于給定的數(shù)據(jù)集,算法首先根據(jù)給定的要構(gòu)建劃分的數(shù)目創(chuàng)建一個初始的分組,然后采用一種迭代重定位的方法改變初始分組,使得每一次改進(jìn)以后的分組方案都較前一個好。系統(tǒng)結(jié)合了k-means、k-medoids等算法構(gòu)建了電力用戶典型用電行為模型的聚類分析模型,提出了聚類評價新方法?;谙伻簝?yōu)化的k-medoids綜合聚類算法克服了k-medoids算法易陷入局部最優(yōu)的缺點(diǎn),提高了聚類的準(zhǔn)確率。通過實(shí)例驗(yàn)證了該算法的可行性和有效性。利用k-means聚類提高用電行為預(yù)測和電力系統(tǒng)狀態(tài)估計(jì)結(jié)果的準(zhǔn)確性。
2)層次聚類算法。層次方法根據(jù)層次的分解方式不同可以分為凝聚的或分裂的。凝聚的方法為自底向上分解,首先將每個對象作為單獨(dú)的一個組,然后合并相似的組,直到所有的組合并成一個(或滿足某個終止條件)。分裂的方法為自頂向下分解,首先將所有的對象置于一個組中,在迭代的每一步中,一個組被分裂為更小的組,直到最終每個對象在單獨(dú)的一個組中(或滿足某個終止條件)。層次聚類與模糊模型相結(jié)合的方法來確定典型用電行為分布和用戶類別。結(jié)果表明該模型具有克服在過程控制和操作中遇到的困難的能力。采用層次聚類方法來確定電力用戶的用電行為分類,并驗(yàn)證了所提方法的有效性。
3)基于密度的算法?;诿芏鹊姆椒ㄅc大部分劃分方法不同,它不是基于各種各樣的距離,而是基于密度。其主要思想是:只要臨近區(qū)域的密度(對象或數(shù)據(jù)點(diǎn)的數(shù)目)超過某個閾值,就繼續(xù)聚類。該方法既可以過濾噪聲數(shù)據(jù),也可以發(fā)現(xiàn)任意形狀的簇。組合分析方法,該方法以密度聚類算法剔除單一用戶異常用電數(shù)據(jù),提取其典型用電行為模型,并通過實(shí)驗(yàn)驗(yàn)證了該方法在進(jìn)行用電行為模型提取時的有效性和可行性。利用密度聚類對居民用戶進(jìn)行初步分類,最終確定居民階梯分段電量和電價分檔結(jié)構(gòu)。
4)基于模型的算法?;谀P偷姆椒ㄍㄟ^優(yōu)化給定的數(shù)據(jù)和某些數(shù)學(xué)模型之間的擬合。主要包括統(tǒng)計(jì)學(xué)方法COBWEB、神經(jīng)網(wǎng)絡(luò)方法SOM(self-organization mapping net)。改進(jìn)的模糊自組織神經(jīng)網(wǎng)絡(luò)算法,該算法在峰谷時段采用加窗測量待測用電行為曲線和典型用電行為曲線的偏差,并通過實(shí)驗(yàn)證明了該方法過濾異常和聚類的能力。
5)模糊聚類算法。傳統(tǒng)聚類算法是一種硬劃分,把每個待識別對象嚴(yán)格劃分到每個類中,劃分界限是分明的。然而大多數(shù)對象實(shí)際上并沒有嚴(yán)格的屬性劃分,其在形態(tài)和類屬方面存在著中間性。利用模糊理論來處理聚類問題的方法稱為模糊聚類分析。模糊聚類分析是對傳統(tǒng)硬劃分方法的一種改進(jìn),樣本屬于各個類別的隸屬度表達(dá)了樣本屬性的中間性。通過使用FCM和概率神經(jīng)網(wǎng)絡(luò)的分類方法得到典型用電行為曲線,為消費(fèi)者和供應(yīng)商提供了有用的信息。
6)其他聚類算法。
近幾年相關(guān)文獻(xiàn)提出將螞蟻聚類、譜聚類、高斯聚類等新方法應(yīng)用到電力用電行為模型的提取中,并取得了一定的成效。螞蟻聚類算法,與其他常用算法(包括凝聚層次聚類算法,k-means和遺傳聚類算法)進(jìn)行比較,結(jié)果顯示螞蟻算法明顯優(yōu)于其他,同時當(dāng)規(guī)模或聚類數(shù)目變大時表現(xiàn)更為穩(wěn)定。高斯功能回歸模型,該模型利用了高斯和混合模型的優(yōu)勢,提高了預(yù)測的準(zhǔn)確性。但需要解決響應(yīng)曲線與協(xié)方差之間的聚類功能關(guān)系問題。
在實(shí)際應(yīng)用方面,以k-means和FCM方法最為常用,它們原理簡單,易實(shí)現(xiàn),運(yùn)行時間較短且聚類準(zhǔn)確度較高。需要注意的是每種聚類方法都具有不同的特點(diǎn),在用來進(jìn)行用電行為模型提取或其他方面應(yīng)用時沒有一種聚類算法總是優(yōu)于其他算法。其中有些算法被頻繁采用往往是因?yàn)槠湟撞僮骰蚓垲愋Ч^好。在實(shí)際應(yīng)用中還需要根據(jù)數(shù)據(jù)類型的不同選擇合適的聚類算法以獲得最佳聚類效果。此外,聚類結(jié)果受到提取過程中多環(huán)節(jié)多因素的影響,在應(yīng)用時應(yīng)加以考慮,以確定適合問題解決的具體聚類算法。
聚類評價反饋模塊15,對前述步驟中獲得的聚類結(jié)果進(jìn)行分析和評價。對于聚類數(shù)目,可以依據(jù)用戶涉及的電價類別或國民經(jīng)濟(jì)活動行業(yè)分類給定,這樣便于分析找到電價類別和行業(yè)類別與用戶用電行為模式的對應(yīng)關(guān)系以及用電行為曲線的用電行為模型分布,也可確定每個客戶的典型用戶用電行為模式。
由于聚類是一種無監(jiān)督的過程,數(shù)據(jù)集中的用電行為數(shù)據(jù)對象是未標(biāo)記的,不能直接獲取有用的結(jié)構(gòu)化知識信息。因此,評價聚類結(jié)果的質(zhì)量和確定最佳聚類數(shù)是個困難的任務(wù)。確定聚類個數(shù)最常用的方法是在給定不同的聚類數(shù)下分別執(zhí)行聚類算法數(shù)次,然后根據(jù)預(yù)定的準(zhǔn)則函數(shù)選擇最佳聚類數(shù)。預(yù)定的準(zhǔn)則函數(shù)稱為聚類有效性評價指標(biāo)。當(dāng)聚類數(shù)和聚類算法的參數(shù)固定后,可以用聚類有效性評價指標(biāo)來評估和驗(yàn)證用電行為聚類結(jié)果。沒有一個單一的聚類有效性評價指標(biāo)可以處理任何數(shù)據(jù)集或比其他的處理結(jié)果更好。
目前主要有6個適宜性測度:均方誤差(mean square error,MSE)、均值適宜度(mean index adequacy,MIA)、聚類離散度(clustering dispersion indicator,CDI)、相似度矩陣(similarity matrix indicator,SMI)、戴維-Bouldin指數(shù)(Davies-Bouldin indicator,DBI)、簇內(nèi)平方和與簇間差異之比(ratio of within cluster sum of squares to between cluster variation,WCBCR),但僅靠這些指標(biāo)仍然無法完全確定聚類算法的好壞和聚類數(shù)量是否合適。穩(wěn)定性指標(biāo)和優(yōu)先性指標(biāo)評價算法和選擇聚類數(shù),可以與其他指標(biāo)結(jié)合使用。采用CDI、SI(scatter index)、MIA等指標(biāo)與聚類數(shù)曲線關(guān)系的“膝點(diǎn)”來確定最佳聚類數(shù),但這個“膝點(diǎn)”的確定有一定模糊性。聚類穩(wěn)定性指標(biāo)更容易為具體應(yīng)用目的確定最佳聚類數(shù)提供參考。
通過聚類結(jié)果評價和反饋后可確定合適的聚類數(shù),實(shí)現(xiàn)依據(jù)用戶用電行為模式的用戶分類并獲得用戶典型用電行為模型的對應(yīng)分布。用戶分類和用戶用電行為模式提取的最終目標(biāo)是為了支持電力系統(tǒng)運(yùn)營決策,優(yōu)化運(yùn)行,降低損耗,提高經(jīng)濟(jì)效益。
建立情景感知模型與推理引擎單元2的數(shù)據(jù)處理模塊21和模型建立模塊22對上述聚類的數(shù)據(jù)進(jìn)行處理后建模,其中,數(shù)據(jù)處理模塊21包括數(shù)據(jù)初步整理、數(shù)據(jù)缺失值的處理和數(shù)據(jù)屬性歸約,分別詳細(xì)如下:
(1)數(shù)據(jù)初步整理
在數(shù)據(jù)探索之前需要獲取用戶的基本屬性信息,從賬單資料、繳費(fèi)資料和呼叫1000號資料中匯總生成用戶行為數(shù)據(jù),也就是說在數(shù)據(jù)準(zhǔn)備的數(shù)據(jù)聚類、數(shù)據(jù)選擇完成后再進(jìn)行數(shù)據(jù)探索,因此,這里的數(shù)據(jù)探索是在生成用戶基本屬性信息和行為信息,即數(shù)據(jù)準(zhǔn)備工作之后得到的樣本數(shù)據(jù)上進(jìn)行的。樣本數(shù)據(jù)中包含經(jīng)過對原始數(shù)據(jù)進(jìn)行匯總統(tǒng)計(jì)后得到的一些新變量。在對數(shù)據(jù)進(jìn)行探索之前,我們還需要把連續(xù)型的數(shù)據(jù)離散化,從已有的多個變量派生出有用的單個變量。
(2)數(shù)據(jù)缺失值的處理
數(shù)據(jù)缺失值是指數(shù)據(jù)集中無法知道、沒有搜集或者錯誤錄入的值。一般來說,對于它們所屬的字段,這些值是無效的。對于此類問題需要觀察缺失值情況,考慮舍去后對預(yù)測的結(jié)果是否有較大的影響。這里涉及到缺失值的處理問題,缺失值的處理方法有以下幾種:
①忽略缺失值的字段,使該字段不用于建模,這主要適用于含有大量缺失值,并且不是重要的字段。
②刪除帶有缺失值的記錄,這主要適用于含有少量缺失值。
③用均值。
默認(rèn)值代替缺失值或根據(jù)現(xiàn)有正確數(shù)據(jù)的分布比例導(dǎo)出缺失值,這對于含有較多缺失值且重要的字段較有效果。
(3)數(shù)據(jù)屬性歸約
數(shù)據(jù)庫中的數(shù)據(jù)往往都對應(yīng)著大量的屬性,但并不是每一個屬性都是可用的,如果將不相關(guān)的屬性或關(guān)聯(lián)性很小的屬性用于建模之中,就可能降低知識發(fā)現(xiàn)過程的性能,使得計(jì)算代價呈幾何級的信數(shù)增加,或使之陷入混亂,為此需要進(jìn)行屬性規(guī)約。
進(jìn)行數(shù)據(jù)屬性規(guī)約后再通過模型建立模塊22和建立情境感知模型與推理引擎。在預(yù)測建模過程中,需要尋找客戶消費(fèi)行為的相關(guān)屬性。在數(shù)據(jù)庫中,需獲取和采用的數(shù)據(jù)有:客戶信息數(shù)據(jù)、計(jì)費(fèi)和支付數(shù)據(jù)及其它數(shù)據(jù)。
圖形化的建模工具,可使用建模工具進(jìn)行圖形化建模,然后再由建模工具自動生成標(biāo)準(zhǔn)化的情景模型,簡化建模工程。實(shí)現(xiàn)一種與關(guān)系數(shù)據(jù)庫相關(guān)聯(lián)的推理引擎。從推理效率改進(jìn)和沖突解決兩個方面對推理引擎進(jìn)行近一步改進(jìn)。
采用數(shù)據(jù)庫相關(guān)的索引技術(shù)提高情景推理的速度,通過檢測并解決情景沖突提高推理結(jié)果的準(zhǔn)確性。采用理論和實(shí)例相結(jié)合的方法來說明情景建模和推理方法。采用建模工具進(jìn)行實(shí)例建模,并對建模工具的可用性進(jìn)行分析;采用對比實(shí)驗(yàn)的方式,從情景數(shù)據(jù)量和情景模型復(fù)雜度兩個方面對推理引擎進(jìn)行評估。
本發(fā)明基于用戶用電數(shù)據(jù)的情境感知系統(tǒng),包括數(shù)據(jù)獲取單元1、建立情境感知模型與推理引擎單元2以及數(shù)據(jù)存儲單元3,數(shù)據(jù)獲取單元1設(shè)有數(shù)據(jù)采集模塊11、數(shù)據(jù)清理模塊12、數(shù)據(jù)預(yù)處理模塊13和用電行為數(shù)據(jù)聚類模塊14以及聚類評價反饋模塊15;建立情景感知模型與推理引擎單元2設(shè)有數(shù)據(jù)處理模塊21和模型建立模塊22;數(shù)據(jù)采集模塊11設(shè)有傳感器4獲取用戶用電數(shù)據(jù),再通過數(shù)據(jù)清理模塊12、數(shù)據(jù)預(yù)處理模塊13和用電行為數(shù)據(jù)聚類模塊14以及聚類評價反饋模塊15進(jìn)行數(shù)據(jù)處理和對應(yīng)的聚類,然后進(jìn)行情境感知的模型數(shù)據(jù)化建立,理解用戶用電行為,提取用戶電力模式,從而形成多維的用戶客戶分類體系,為供電局人員工作提供有效參考數(shù)據(jù)。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。