本發(fā)明實(shí)施例涉及特征因子選擇方法,尤其涉及一種違約用電風(fēng)險(xiǎn)模型特征選擇方法、裝置及設(shè)備。
背景技術(shù):
:電力企業(yè)客戶信息涉及計(jì)量自動(dòng)化系統(tǒng)實(shí)時(shí)電量數(shù)據(jù)、GIS(GeographicInformationSystem,地理信息系統(tǒng))數(shù)據(jù)、電網(wǎng)潮流信息、95598客服錄音等海量數(shù)據(jù)。這些數(shù)據(jù)來(lái)源廣,包括內(nèi)部數(shù)據(jù)和外部數(shù)據(jù),數(shù)據(jù)類型多,且隨著電網(wǎng)企業(yè)信息化程度的提高,移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)技術(shù)等的深入發(fā)展,與客戶相關(guān)的數(shù)據(jù)呈現(xiàn)爆炸式增長(zhǎng)。隨著科技的進(jìn)步。電力大數(shù)據(jù)的應(yīng)用一方面是與宏觀經(jīng)濟(jì)、人民生活、社會(huì)保障、道路交通等信息融合,促進(jìn)經(jīng)濟(jì)社會(huì)發(fā)展;另一方面,是電力行業(yè)或企業(yè)內(nèi)部,跨專業(yè)、跨單位、跨部門(mén)的數(shù)據(jù)融合,提升行業(yè)、企業(yè)管理水平和經(jīng)濟(jì)效益。因此如何有效地從電力大數(shù)據(jù)中挖掘出有用的信息也越來(lái)越受到人們的關(guān)注。目前最有效的處理手段之一就是數(shù)學(xué)建模,而建模之初,通常會(huì)盡可能多地選擇自變量來(lái)減少因缺少自變量而出現(xiàn)的模型偏差,但在實(shí)際建模過(guò)程中需要尋找對(duì)因變量最具有解釋性的自變量子集,這個(gè)過(guò)程稱為特征選擇,是建模過(guò)程中很重要的一個(gè)問(wèn)題。用戶違約用電行為是指用戶私自改變用電類別、用電容量;私自變動(dòng)供電設(shè)施、計(jì)量裝置;私自引入、供電或自備電源并網(wǎng)等情況。這不僅會(huì)影響供電企業(yè)的利益,還可能引發(fā)事故。目前對(duì)于用戶違約用電的查處主要通過(guò)用電檢查工作進(jìn)行。所以建立準(zhǔn)確的違約用電風(fēng)險(xiǎn)模型,輔助業(yè)務(wù)人員進(jìn)行有針對(duì)性的違約用電檢查,對(duì)于提高用電檢查的工作效率具有重要作用。在建立違約用電風(fēng)險(xiǎn)模型的時(shí)候,通常是由相關(guān)專家根據(jù)專業(yè)理論和經(jīng)驗(yàn),對(duì)可能與違約用電(即因變量)相關(guān)的自變量進(jìn)行人工篩選。這可能引發(fā)對(duì)因變量影響小甚至沒(méi)影響的自變量被選中,自變量共線性等問(wèn)題,從而導(dǎo)致建模過(guò)程計(jì)算量增大。另一方面,目前系統(tǒng)抽取到的歷史發(fā)生過(guò)違約用電的用戶數(shù)量太少,以此作為樣本,建立的預(yù)測(cè)模型準(zhǔn)確度不高,也導(dǎo)致了最終估算和預(yù)測(cè)的精度下降。技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供一種違約用電風(fēng)險(xiǎn)模型特征選擇方法、裝置及設(shè)備,以提高特征因子的選擇效率及有效性。一方面,本發(fā)明實(shí)施例提供了一種違約用電風(fēng)險(xiǎn)模型特征選擇方法,包括:S101、獲取用戶的違約用電標(biāo)簽以及用戶的特征因子;S102、依據(jù)所述違約用電標(biāo)簽和所述特征因子,構(gòu)建LASSO懲罰函數(shù);S103、通過(guò)修正的LARS求解所述LASSO懲罰函數(shù),得到所述LASSO懲罰函數(shù)的自變量的有效集;S104、依據(jù)設(shè)定的篩選規(guī)則和所述有效集對(duì)所述自變量進(jìn)行篩選,得到選擇的特征因子。另一方面,本發(fā)明實(shí)施例提供了一種違約用電風(fēng)險(xiǎn)模型特征選擇裝置,包括:數(shù)據(jù)獲取模塊,用于獲取用戶的違約用電標(biāo)簽以及用戶的特征因子;LASSO構(gòu)建模塊,用于依據(jù)所述違約用電標(biāo)簽和所述特征因子,構(gòu)建LASSO懲罰函數(shù);有效集確定模塊,用于通過(guò)修正的LARS求解所述LASSO懲罰函數(shù),得到所述LASSO懲罰函數(shù)的自變量的有效集;因子篩選模塊,用于依據(jù)設(shè)定的篩選規(guī)則和所述有效集對(duì)所述自變量進(jìn)行篩選,得到選擇的特征因子。另一方面,本發(fā)明實(shí)施例還提供了一種設(shè)備,包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)本發(fā)明實(shí)施例所述的方法。本發(fā)明實(shí)施例提供的技術(shù)方案,通過(guò)使用LASSO方法來(lái)解決特征選擇問(wèn)題。具體的,通過(guò)構(gòu)造一個(gè)懲罰函數(shù)得到一個(gè)較為精煉的模型,使得它壓縮一些系數(shù),同時(shí)設(shè)定一些系數(shù)為零,進(jìn)而達(dá)到降維的目的,保留了子集收縮的優(yōu)點(diǎn),是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計(jì)。這樣在違約用電風(fēng)險(xiǎn)建模中就可以有效地降低獲取自變量觀測(cè)數(shù)據(jù)的代價(jià),減少建模過(guò)程的計(jì)算量,并充分提升最終的預(yù)測(cè)和估計(jì)精度。附圖說(shuō)明圖1為本發(fā)明實(shí)施例中提供的一種違約用電風(fēng)險(xiǎn)模型特征選擇方法的流程圖;圖2為本發(fā)明實(shí)施例中提供的一種求解LASSO懲罰函數(shù)的示意圖;圖3為本發(fā)明實(shí)施例中提供的一種違約用電風(fēng)險(xiǎn)模型特征選擇裝置的結(jié)構(gòu)圖。具體實(shí)施方式下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋本發(fā)明,而非對(duì)本發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。圖1為本發(fā)明實(shí)施例中提供的一種違約用電風(fēng)險(xiǎn)模型特征選擇方法的流程圖。本實(shí)施例的方法可以由違約用電風(fēng)險(xiǎn)模型特征選擇裝置來(lái)執(zhí)行,該裝置可以通過(guò)軟件的方式來(lái)實(shí)現(xiàn),且可以加載于終端設(shè)備中。參考圖1,本實(shí)施例提供的違約用電風(fēng)險(xiǎn)模型特征選擇方法可以包括如下步驟:S101、獲取用戶的違約用電標(biāo)簽以及用戶的特征因子。數(shù)據(jù)來(lái)源于某區(qū)域電網(wǎng)公司。其中,用戶的違約用電標(biāo)簽可以包括違約用電和按約用電。用戶的特征因子指的是確定用戶是否違約用電的影響因子,如用戶的特征因子可以是用電類別、電壓等級(jí)、行業(yè)分類、計(jì)量方式、用戶類別、合同容量、負(fù)荷性質(zhì)、客戶身份、客戶分群和查表周期等。S102、依據(jù)所述違約用電標(biāo)簽和所述特征因子,構(gòu)建LASSO懲罰函數(shù)。其中,特征因子(自變量)與用電標(biāo)簽(因變量)成線性關(guān)系,LASSO懲罰函數(shù)用于確定自變量與因變量的相關(guān)系數(shù)。示例性的,構(gòu)建的LASSO懲罰函數(shù)為:其中,p為特征因子的總數(shù),M為用戶的總數(shù),t≥0是約束參數(shù),yi為第i個(gè)用戶的違約用電標(biāo)簽對(duì)應(yīng)的因變量,xi=(xi(1),…,xi(j),…,xi(p))T為第i個(gè)用戶的特征因子對(duì)應(yīng)的自變量,β=(β0,β1,…,βj,…,βp)T為待求解的回歸系數(shù)。S103、通過(guò)修正的LARS(LeastAngleRegression,最小角回歸算法)求解所述LASSO懲罰函數(shù),得到所述LASSO懲罰函數(shù)的自變量的有效集。LARS的運(yùn)行模式為:一開(kāi)始由于各個(gè)自變量的系數(shù)β1,…,βj,…,βp均為零,故回歸預(yù)測(cè)的擬合結(jié)果為每個(gè)自變量對(duì)應(yīng)的當(dāng)前殘差為找出與當(dāng)前殘差相關(guān)性最大的自變量x(j)=(x1(j),x2(j),…,xM(j))T,然后沿著這個(gè)變量前進(jìn),逐點(diǎn)增大該自變量對(duì)應(yīng)的系數(shù)βj,以減小該自變量與殘差的相關(guān)性。此時(shí)回歸預(yù)測(cè)的擬合結(jié)果為殘差為繼續(xù)計(jì)算新的殘差與各自變量之間的相關(guān)系數(shù),隨著系數(shù)βj的逐點(diǎn)增大,該自變量x(j)與新的殘差的相關(guān)性會(huì)逐漸減小,直到出現(xiàn)一個(gè)新的自變量x(k)滿足內(nèi)積此時(shí)沿著x(j)和x(k)的角平分線方向前進(jìn),對(duì)應(yīng)地逐點(diǎn)增大βj和βk。相應(yīng)地,回歸預(yù)測(cè)的預(yù)測(cè)結(jié)果為殘差為如此重復(fù),找到第三個(gè)自變量,確定這三個(gè)自變量中第一自變量與第二自變量夾角的第一角平分線,以及第二自變量與第三自變量夾角的第二角平分線,再沿著第一角平分線和第二角平分線所在夾角的角平分線方向逐點(diǎn)移動(dòng),調(diào)整這三個(gè)自變量的系數(shù),使得在移動(dòng)過(guò)程中這個(gè)三個(gè)自變量與當(dāng)前殘差的相關(guān)性均減小且一直相等……直到特征因子的所有自變量均屬于有效集為止,即直到所有自變量加入回歸預(yù)測(cè)為止,此時(shí)即為無(wú)約束的線性回歸。示例性的,結(jié)合圖2(圖2以p取10為例),S103可以包括:S103-1、中心標(biāo)準(zhǔn)化自變量,從殘差開(kāi)始,令β1,…βp均為0,初始有效集為空。具體的,使實(shí)現(xiàn)中心標(biāo)準(zhǔn)化自變量,從殘差開(kāi)始,令β1,…βp均為0,初始有效集為空。S103-2、確定和殘差r相關(guān)性最強(qiáng)的自變量x(j)加入有效集。由于自變量和殘差的相關(guān)性,與自變量與殘差的內(nèi)積值正相關(guān)。具體的,分別計(jì)算每個(gè)自變量與殘差r的內(nèi)積值,將內(nèi)積值最大的自變量確定為和殘差r相關(guān)性最強(qiáng)的自變量x(j)=(x1(j),x2(j),…,xM(j))T(其中j=1,…,p),并將自變量x(j)加入有效集。S103-3、調(diào)整有效集中自變量對(duì)應(yīng)的系數(shù),使有效集中各自變量與當(dāng)前殘差的相關(guān)性均減小且一直相等,當(dāng)前殘差為具體的,通過(guò)逐點(diǎn)調(diào)整有效集中自變量對(duì)應(yīng)的系數(shù),來(lái)降低有效集中自變量與當(dāng)前殘差的相關(guān)性。需要說(shuō)明的是,在有效集中只有一個(gè)自變量x(j)時(shí),從0到最小二乘系數(shù)<x(j),逐點(diǎn)移動(dòng)βj使得自變量x(j)與當(dāng)前殘差的相關(guān)性減小,以便于后續(xù)S103-5中在出現(xiàn)另一個(gè)自變量x(k)和x(j)擁有與當(dāng)前殘差一樣的相關(guān)性,把自變量x(k)加入有效集。在有效集中有自變量x(j)和自變量x(k)時(shí),沿著x(j)和x(k)之間夾角的角平分線方向逐點(diǎn)移動(dòng),調(diào)整βj和βk,使得在逐點(diǎn)移動(dòng)過(guò)程中x(j)和x(k)與當(dāng)前殘差的相關(guān)性減小且一直相等,以便于后續(xù)S103-5中在出現(xiàn)另一個(gè)與當(dāng)前殘差的相關(guān)性相等的自變量x(l),即自變量x(j),x(k)和x(l)與當(dāng)前殘差的相關(guān)性均相等,把自變量x(l)加入有效集。S103-4、確定有效集中自變量的非零系數(shù)是否變?yōu)?,若是,則將系數(shù)變?yōu)?的自變量從有效集中剔除,并繼續(xù)執(zhí)行S103-5;若否,繼續(xù)執(zhí)行S103-5。具體的,在逐點(diǎn)調(diào)整有效集中自變量的系數(shù)過(guò)程中,若任一自變量非零系數(shù)變?yōu)?,則將該自變量從有效集中剔除。S103-5、確定是否存在非有效集自變量和有效集自變量與當(dāng)前殘差的相關(guān)性相等;若是,則繼續(xù)執(zhí)行S103-6;否則,返回執(zhí)行S103-3。S103-6、將該非有效集自變量加入到有效集。S103-7、確定是否存在非有效集自變量,若是,則返回執(zhí)行S103-3;否則,結(jié)束操作。以p取10為例,得到所述LASSO懲罰函數(shù)的自變量的有效集可以是{2,9,8,5,1,4,10,3,6,7}。S104、依據(jù)設(shè)定的篩選規(guī)則和所述有效集對(duì)所述自變量進(jìn)行篩選,得到選擇的特征因子。示例性的,所述篩選規(guī)則可以為MallowsCp準(zhǔn)則。MallowsCp準(zhǔn)則,是一種變量選擇準(zhǔn)則,其中是p個(gè)自變量的擬合誤差平方和,Ypi是p個(gè)自變量擬合得出的回歸預(yù)測(cè)Y中的第i個(gè)值;S2是包含所有自變量作回歸之后得到的均方誤差,M是樣本總量。具體的,依據(jù)MallowsCp準(zhǔn)則在Cp最小附近找到Cp最接近p,且Cp大于p的步數(shù),將該步數(shù)對(duì)應(yīng)的有效集中包含的自變量作為選擇的自變量。例如,參考下表,依據(jù)MallowsCp準(zhǔn)則首先確定在第8步時(shí)Cp最小,隨后結(jié)合Cp最接近p且Cp大于p的步數(shù)的原則選出最合適的Cp=17.29,即第6步對(duì)應(yīng)的有效集中包含的自變量作為選擇的自變量,因而得到選擇的特征因子。p12345678910Cp180.91158.6787.1386.5148.2744.9317.297.488.3710上述方法通過(guò)使用LASSO方法來(lái)解決特征選擇問(wèn)題。具體的,通過(guò)構(gòu)造一個(gè)懲罰函數(shù)得到一個(gè)較為精煉的模型,使得它壓縮一些系數(shù),同時(shí)設(shè)定一些系數(shù)為零,進(jìn)而達(dá)到降維的目的,保留了子集收縮的優(yōu)點(diǎn),是一種處理具有復(fù)共線性數(shù)據(jù)的有偏估計(jì)。這樣在違約用電風(fēng)險(xiǎn)建模中就可以有效地降低獲取自變量觀測(cè)數(shù)據(jù)的代價(jià),減少建模過(guò)程的計(jì)算量,并充分提升最終的預(yù)測(cè)和估計(jì)精度。本發(fā)明實(shí)施例還提供了一種違約用電風(fēng)險(xiǎn)模型特征選擇裝置。圖3為本發(fā)明實(shí)施例中提供的一種違約用電風(fēng)險(xiǎn)模型特征選擇裝置的結(jié)構(gòu)圖,如圖3所示,該裝置可以包括:數(shù)據(jù)獲取模塊21,用于獲取用戶的違約用電標(biāo)簽以及用戶的特征因子;LASSO構(gòu)建模塊22,用于依據(jù)所述違約用電標(biāo)簽和所述特征因子,構(gòu)建LASSO懲罰函數(shù);有效集確定模塊23,用于通過(guò)修正的LARS求解所述LASSO懲罰函數(shù),得到所述LASSO懲罰函數(shù)的自變量的有效集;因子篩選模塊24,用于依據(jù)設(shè)定的篩選規(guī)則和所述有效集對(duì)所述自變量進(jìn)行篩選,得到選擇的特征因子。示例性的,所述LASSO懲罰函數(shù)可以為:其中,p為特征因子的總數(shù),M為用戶的總數(shù),t≥0是約束參數(shù),yi為第i個(gè)用戶的違約用電標(biāo)簽對(duì)應(yīng)的因變量,xi=(xi(1),…,xi(j),…,xi(p))T為第i個(gè)用戶的特征因子對(duì)應(yīng)的自變量,β=(β0,β1,…,βj,…,βp)T為待求解的回歸系數(shù)。示例性的,所述有效集確定模塊23具體可以用于:中心標(biāo)準(zhǔn)化自變量,從殘差開(kāi)始,令β1,…βp均為0,初始有效集為空;確定和殘差r相關(guān)性最強(qiáng)的自變量x(j)加入有效集;調(diào)整有效集中自變量對(duì)應(yīng)的系數(shù),使有效集中各自變量與當(dāng)前殘差的相關(guān)性均減小且一直相等,當(dāng)前殘差為確定有效集中自變量的非零系數(shù)是否變?yōu)?,若是,則將系數(shù)變?yōu)?的自變量從有效集中剔除,并繼續(xù)執(zhí)行自變量相關(guān)性確定操作;若否,直接繼續(xù)執(zhí)行自變量相關(guān)性確定操作;確定是否存在非有效集自變量和有效集自變量與當(dāng)前殘差的相關(guān)性相等;若是,則將該非有效集自變量加入到有效集;否則,返回執(zhí)行系數(shù)調(diào)整操作以更新有效集;確定是否存在非有效集自變量,若是,則返回執(zhí)行系數(shù)調(diào)整操作,以更新有效集;否則,結(jié)束操作。示例性的,所述篩選規(guī)則可以為MallowsCp準(zhǔn)則。本實(shí)施例提供的違約用電風(fēng)險(xiǎn)模型特征選擇裝置,與本發(fā)明任意實(shí)施例所提供的違約用電風(fēng)險(xiǎn)模型特征選擇方法屬于同一發(fā)明構(gòu)思,可執(zhí)行本發(fā)明任意實(shí)施例所提供的違約用電風(fēng)險(xiǎn)模型特征選擇方法,具備執(zhí)行違約用電風(fēng)險(xiǎn)模型特征選擇方法相應(yīng)的功能模塊和有益效果。未在本實(shí)施例中詳盡描述的技術(shù)細(xì)節(jié),可參見(jiàn)本發(fā)明任意實(shí)施例提供的違約用電風(fēng)險(xiǎn)模型特征選擇方法。本發(fā)明實(shí)施例還提供了一種設(shè)備,該設(shè)備可以包括:一個(gè)或多個(gè)處理器;存儲(chǔ)裝置,用于存儲(chǔ)一個(gè)或多個(gè)程序,當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行,使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)本發(fā)明任意實(shí)施例提供的違約用電風(fēng)險(xiǎn)模型特征選擇方法。注意,上述僅為本發(fā)明的較佳實(shí)施例及所運(yùn)用技術(shù)原理。本領(lǐng)域技術(shù)人員會(huì)理解,本發(fā)明不限于這里所述的特定實(shí)施例,對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō)能夠進(jìn)行各種明顯的變化、重新調(diào)整和替代而不會(huì)脫離本發(fā)明的保護(hù)范圍。因此,雖然通過(guò)以上實(shí)施例對(duì)本發(fā)明進(jìn)行了較為詳細(xì)的說(shuō)明,但是本發(fā)明不僅僅限于以上實(shí)施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實(shí)施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。當(dāng)前第1頁(yè)1 2 3