本發(fā)明實施例涉及概率預測方法,尤其涉及基于信賴域算法的用戶竊電概率預測方法、裝置及設備。
背景技術(shù):
用戶用電異常是困擾電力正常供應和供電企業(yè)健康發(fā)展的一個突出問題,許多引發(fā)電量異常的外部行為尤其是竊電行為給國家財產(chǎn)和企業(yè)收入帶來了極大的負面影響,擾亂了正常的供用電秩序。以廣東為例,2014年,廣東全省共查處竊電案件3964起,累計損失達5223.12萬元。
由于供電線路的經(jīng)常性調(diào)荷、用戶辦理用電變更業(yè)務、負控終端未安裝等多種因素的客觀存在,傳統(tǒng)的用戶竊電分析存在人工干預較多,分析周期長、及時性較差、誤差較高等問題。隨著電網(wǎng)信息化建設的推進,電網(wǎng)在經(jīng)營管理過程中產(chǎn)生了海量數(shù)據(jù),包括用戶的實時用電量數(shù)據(jù)、用戶用電的其他信息等,這些數(shù)據(jù)蘊藏著許多與用戶用電等領(lǐng)域密切相關(guān)的規(guī)律和特征,利用技術(shù)手段對這些數(shù)據(jù)進行分析挖掘可以輔助企業(yè)把握用電戶的分析電力消耗曲線、用戶用能習慣、用戶能量消耗結(jié)構(gòu)等用電特征,進而對用電戶的竊電概率進行預測,輔助制訂用電檢查計劃。從而提升企業(yè)的管理精益化水平,推進企業(yè)管理方式由粗放型向集約型、精細化轉(zhuǎn)變。然而,用戶用電特征數(shù)據(jù)涉及數(shù)據(jù)較多、數(shù)據(jù)類型多、體量大、增量快,在數(shù)據(jù)挖掘過程對于算法的效率具有較高的要求。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種基于信賴域算法的用戶竊電概率預測方法、裝置及設備,以提高用戶竊電概率預測的效率及準確度。
一方面,本發(fā)明實施例提供了一種基于信賴域算法的用戶竊電概率預測方法,包括:
S101、獲取歷史用戶的特征因子以及歷史用戶的竊電信息;
S102、依據(jù)邏輯斯蒂回歸模型和所述歷史用戶的特征因子,構(gòu)建竊電概率預測函數(shù),其中所述竊電概率預測函數(shù)包括待確定的系數(shù)向量;
S103、依據(jù)所述歷史用戶的特征因子以及所述歷史用戶的竊電信息,對所述預測擬合函數(shù)進行轉(zhuǎn)化得到代價函數(shù);
S104、基于信賴域算法求解所述代價函數(shù)得到所述系數(shù)向量的取值;
S105、依據(jù)所述系數(shù)向量的取值,得到竊電概率預測函數(shù);
S106、依據(jù)當前用戶的特征因子和所述竊電概率預測函數(shù),確定當前用戶的竊電概率。
另一方面,本發(fā)明實施例還提供了一種基于信賴域算法的用戶竊電概率預測裝置,包括:
樣本獲取模塊,用于獲取歷史用戶的特征因子以及歷史用戶的竊電信息;
竊電預測函數(shù)構(gòu)建模塊,用于依據(jù)邏輯斯蒂回歸模型和所述歷史用戶的特征因子,構(gòu)建竊電概率預測函數(shù),其中所述竊電概率預測函數(shù)包括待確定的系數(shù)向量;
竊電預測函數(shù)轉(zhuǎn)化模塊,用于依據(jù)所述歷史用戶的特征因子以及所述歷史用戶的竊電信息,對所述預測擬合函數(shù)進行轉(zhuǎn)化得到代價函數(shù);
信賴域求解模塊,用于基于信賴域算法求解所述代價函數(shù)得到所述系數(shù)向量的取值;
竊電預測函數(shù)輸出模塊,用于依據(jù)所述系數(shù)向量的取值,得到竊電概率預測函數(shù);
竊電概率預測模塊,用于依據(jù)當前用戶的特征因子和所述竊電概率預測函數(shù),確定當前用戶的竊電概率。
另一方面,本發(fā)明實施例還提供了一種設備,包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)本發(fā)明實施例所述的方法。
本發(fā)明實施例提供的技術(shù)方案,基于邏輯斯蒂回歸模型和歷史用戶的特征因子構(gòu)建包含待確定的系數(shù)向量的竊電概率預測函數(shù),利用信賴域的方法來對邏輯回歸分析過程中抽象而出的代價函數(shù)進行數(shù)值求解,改良傳統(tǒng)梯度下降法帶來的收斂速度慢等問題,而對于信賴域子問題,我們使用雙割線折線法進行求解,提高了竊電概率預測函數(shù)的生成效率和準確度,從而提高了用戶竊電概率預測的效率及準確度。
附圖說明
圖1為本發(fā)明實施例中提供的一種基于信賴域算法的用戶竊電概率預測方法的流程圖;
圖2為本發(fā)明實施例中提供的一種基于信賴域算法的用戶竊電概率預測裝置的結(jié)構(gòu)圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖牵颂幩枋龅木唧w實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
圖1為本發(fā)明實施例中提供的一種基于信賴域算法的用戶竊電概率預測方法的流程圖。本實施例的方法可以由基于信賴域算法的用戶竊電概率預測裝置來執(zhí)行,該裝置可以通過軟件的方式來實現(xiàn),且可以加載于終端設備中。參考圖1,本實施例提供的基于信賴域算法的用戶竊電概率預測方法可以包括如下步驟:
S101、獲取歷史用戶的特征因子以及歷史用戶的竊電信息。
其中,用戶的特征因子指的是確定用戶是否竊電的影響因子,如用戶的特征因子可以是合同容量、用電電壓等級、用戶行業(yè)類別和用電類別等。具體的,獲取M個歷史用戶的特征因子以及歷史用戶的竊電信息x=(x(1),x(2),…,x(n))T,其中歷史用戶j的特征因子為n維的特征向量,即n個和竊電相關(guān)的特征因子數(shù)據(jù),yj為分類標簽,取值1或0,分別表征歷史用戶j竊電和沒竊電。
S102、依據(jù)邏輯斯蒂回歸模型和所述歷史用戶的特征因子,構(gòu)建竊電概率預測函數(shù),其中所述竊電概率預測函數(shù)包括待確定的系數(shù)向量。
具體的,線性回歸的擬合函數(shù)為邏輯斯蒂回歸(Logistic)函數(shù)因而預測擬合函數(shù)為
依據(jù)預測擬合函數(shù)得到y(tǒng)j取1的概率是:其中θ=(θ(1),θ(2),…,θ(n))T為待確定的系數(shù)向量,也就是邏輯斯蒂回歸問題中需要求解的模型參數(shù)。
S103、依據(jù)所述歷史用戶的特征因子以及所述歷史用戶的竊電信息,對所述預測擬合函數(shù)進行轉(zhuǎn)化得到代價函數(shù)。
具體的,將yj取1和yj取0的概率相乘得邏輯斯蒂回歸模型:
故邏輯斯蒂回歸模型的最大似然函數(shù)估計為:
對最大似然函數(shù)估計求對數(shù)得:
因而,最大似然就是求使得l(θ)取最大值時的θ,即隨后,取則變?yōu)镴(θ)取最小值時的θ,即
S104、基于信賴域算法求解所述代價函數(shù)得到所述系數(shù)向量的取值。
具體的,基于信賴域算法求解代價函數(shù)的最小值,并得到代價函數(shù)為最小值時系數(shù)向量的取值。
示例性的,S104可以包括:
S104-1、給出系數(shù)向量的初始值θ0=(0,0,…,0)T,選定初始參數(shù)0≤ε<<1,0≤η1<η2<1,0<τ1<1<τ2,取定信賴域半徑的上界初始信賴域半徑令k:=0。
具體的,選定初始參數(shù)ε=10-6,η1=0.01,η2=0.75,τ1=0.5,τ2=2,取定信賴域半徑的上界初始信賴域半徑令k:=0。
S104-2、計算并確定是否滿足:||gk||≤ε,若滿足則停止迭代,并得到所述系數(shù)向量的取值;否則繼續(xù)執(zhí)行S104-3。
在滿足停止迭代條件時,求得θ=θk為的最優(yōu)數(shù)值解。
S104-3、在θk的Δk鄰域內(nèi),對J(θ)泰勒展開得到近似函數(shù)從而得出信賴域方法的子問題:
并求解信賴域方法的子問題的解δk,其中δ=θ-θk,Jk=J(θk),Gk是Hessian矩陣或其近似,Δk>0為信賴域半徑。
S104-4、計算
S104-5、依據(jù)rk校正信賴域半徑得到Δk+1:
S104-6、確定是否滿足rk>η1,若否則繼續(xù)執(zhí)行S104-7;若是則跳轉(zhuǎn)執(zhí)行S104-8。
S104-7、令θk+1:=θk,k:=k+1,并返回執(zhí)行S104-4;
S104-8、令θk+1:=θk+δk,更新Gk+1,且令k:=k+1,并返回執(zhí)行S104-2。本發(fā)明實施例通過使用信賴域方法求解邏輯回歸分析,有如下優(yōu)點:既具有牛頓法的快速局部收斂性,又具有理想的總體收斂性;不要求目標函數(shù)的Hesse矩陣是正定的;利用了二次模型來求修正量,使得目標函數(shù)的下降比線性搜索方法更有效;步長受到信賴域半徑的限制,避免發(fā)生由于步長過大而導致算法失敗的現(xiàn)象。因此本發(fā)明實施例提高了提高了代價函數(shù)的收斂效率,即提高了邏輯斯蒂回歸模型的訓練效率。
示例性的,S104-3中求解信賴域方法的子問題的解δk可以包括:
S104-3-1、給定梯度g,正定矩陣B,信賴域半徑Δ。
具體的,給定梯度g=gk,正定矩陣B=Gk,信賴域半徑Δ=Δk。
S104-3-2、取計算
其中λi是B的特征值,并計算牛頓步δnp:δnp=-B-1g。
S104-3-3、計算投影矩陣A=[δap,δnp],P=A(ATA)-1AT。
S104-3-4、確定δsp:d=-δnp,s=P(δap-δnp),確定k,使得則
S104-3-5、形成雙割線Γ=[0,δsp,δnp]。
S104-3-6、確定是否滿足Δ≤||δsp||2,若是,則若否,則繼續(xù)執(zhí)行S104-2-3-7;
S104-3-7、確定是否滿足Δ≥||δnp||2,若是,則δk=δnp;否則,δk=δsp+η(δnp-δsp),其中η使得||δk||2=Δ。
因此,在信賴域算法中第k步求子問題的最優(yōu)解為δk時,ΔJk:=Jk-J(θk+δk)為J在第k步中的實際下降量,對應的預測下降量為Δqk:=qk(0)-qk(δk)。定義比值為一般地,我們有Δqk>0。因此:
若rk<0,表明qk(δ)與目標函數(shù)J(θ)的一致性程度不好,需要縮小信賴域半徑重新求解子問題;
rk越接近1,表明qk(δ)與J(θ)的一致性程度越好,此時θk+1:=θk+δk作為新的迭代點,同時增大Δk進行下一次迭代;
對于其他情況,Δk可以保持不變。
通過使用雙割線折線法對信賴域子問題進行求解,相比于使用單折線法,雙割線折線法的折線路徑更靠近牛頓方向,即更靠近最優(yōu)點的方向,有利于減少迭代次數(shù),進一步優(yōu)化了信賴域子問題的求解效率,從而提升了用戶竊電概率預測過程中的計算效率。
S105、依據(jù)所述系數(shù)向量的取值,得到竊電概率預測函數(shù)。
將系數(shù)向量的取值θ=θk代入步驟S102中包括待確定的系數(shù)向量的竊電概率預測函數(shù)得到竊電概率預測函數(shù)。
S106、依據(jù)當前用戶的特征因子和所述竊電概率預測函數(shù),確定當前用戶的竊電概率。
將測試集中待預測的當前用戶數(shù)據(jù)x=(x(1),x(2),…,x(n))T代入S105中竊電概率預測函數(shù)中,即可預測當前用戶的竊電概率。
本發(fā)明實施例提出用信賴域方法求解邏輯回歸分析,相對于常用的經(jīng)典的梯度下降法,具有更快速的局部收斂性、更理想的總體收斂性,且由于利用了二次模型來求修正量,使得目標函數(shù)的下降比線性搜索方法更有效。過程中使用了比較高效的雙割線折線法對信賴域子問題進行求解,更使得整個計算過程得到了進一步優(yōu)化,最終可以提升用戶竊電概率預測過程中的計算效率。
本發(fā)明實施例還提供了一種基于信賴域算法的用戶竊電概率預測裝置。圖2為本發(fā)明實施例中提供的一種基于信賴域算法的用戶竊電概率預測裝置的結(jié)構(gòu)圖,如圖2所示,該裝置可以包括:
樣本獲取模塊21,用于獲取歷史用戶的特征因子以及歷史用戶的竊電信息;
竊電預測函數(shù)構(gòu)建模塊22,用于依據(jù)邏輯斯蒂回歸模型和所述歷史用戶的特征因子,構(gòu)建竊電概率預測函數(shù),其中所述竊電概率預測函數(shù)包括待確定的系數(shù)向量;
竊電預測函數(shù)轉(zhuǎn)化模塊23,用于依據(jù)所述歷史用戶的特征因子以及所述歷史用戶的竊電信息,對所述預測擬合函數(shù)進行轉(zhuǎn)化得到代價函數(shù);
信賴域求解模塊24,用于基于信賴域算法求解所述代價函數(shù)得到所述系數(shù)向量的取值;
竊電預測函數(shù)輸出模塊25,用于依據(jù)所述系數(shù)向量的取值,得到竊電概率預測函數(shù);
竊電概率預測模塊26,用于依據(jù)當前用戶的特征因子和所述竊電概率預測函數(shù),確定當前用戶的竊電概率。
示例性的,所述竊電概率預測函數(shù)為:
其中,x=(x(1),x(2),…,x(n))T為所述歷史用戶的特征因子,θ=(θ(1),θ(2),…,θ(n))T為待確定的系數(shù)向量。
示例性的,所述代價函數(shù)為:
其中xi為歷史用戶i的特征因子數(shù)據(jù),yi為歷史用戶i的分類標簽,M為歷史用戶的總數(shù),求解目標為
示例性的,信賴域求解模塊24具體可以用于:
給出系數(shù)向量的初始值θ0,選定初始參數(shù)0≤ε<<1,0≤η1<η2<1,0<τ1<1<τ2,取定信賴域半徑的上界初始信賴域半徑令k:=0;
計算確定是否滿足:||gk||≤ε,若滿足則停止迭代,并得到所述系數(shù)向量的取值;否則繼續(xù)求解信賴域方法的子問題的解δk;
在θk的Δk鄰域內(nèi),對J(θ)泰勒展開得到近似函數(shù)從而得出信賴域方法的子問題:
并求解信賴域方法的子問題的解δk,其中δ=θ-θk,Jk=J(θk),Gk是Hessian矩陣Δk>0為信賴域半徑;
計算
依據(jù)rk校正信賴域半徑得到Δk+1:
確定是否滿足rk>η1,若否,則令θk+1:=θk,k:=k+1,并重新計算rk;若是,則令θk+1:=θk+δk,更新Gk+1,且令k:=k+1,并重新計算且判斷是否滿足停止迭代條件。
示例性的,在求解信賴域方法的子問題的解δk時,信賴域求解模塊24具體可以用于:
給定梯度g,正定矩陣B,信賴域半徑Δ;
取計算其中λi是B的特征值,并計算牛頓步δnp:δnp=-B-1g;
計算投影矩陣A=[δap,δnp],P=A(ATA)-1AT;
確定δsp:d=-δnp,s=P(δap-δnp),確定k,使得則
形成雙割線Γ=[0,δsp,δnp];
確定是否滿足Δ≤||δsp||2,若是,則若否,則確定是否滿足Δ≥||δnp||2,若是,則δk=δnp;若均不滿足則δk=δsp+η(δnp-δsp),其中η使得||δk||2=Δ。
本實施例提供的用戶竊電概率預測裝置,與本發(fā)明任意實施例所提供的用戶竊電概率預測方法屬于同一發(fā)明構(gòu)思,可執(zhí)行本發(fā)明任意實施例所提供的用戶竊電概率預測方法,具備執(zhí)行用戶竊電概率預測方法相應的功能模塊和有益效果。未在本實施例中詳盡描述的技術(shù)細節(jié),可參見本發(fā)明任意實施例提供的用戶竊電概率預測方法。
本發(fā)明實施例還提供了一種設備,該設備可以包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)本發(fā)明任意實施例提供的用戶竊電概率預測方法。
注意,上述僅為本發(fā)明的較佳實施例及所運用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領(lǐng)域技術(shù)人員來說能夠進行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。