本發(fā)明涉及電力信息領(lǐng)域,特別涉及一種基于大數(shù)據(jù)的數(shù)據(jù)集成與線損分析計(jì)算的方法。
背景技術(shù):堅(jiān)強(qiáng)智能電網(wǎng)、三集五大兩中心的迅速發(fā)展使信息通信技術(shù)正以前所未有的廣度、深度與電網(wǎng)生產(chǎn)、企業(yè)管理快速融合。目前,國家電網(wǎng)公司已初步建成了國內(nèi)領(lǐng)先、國際一流的信息集成平臺(tái)。隨著三地集中式數(shù)據(jù)中心的陸續(xù)投運(yùn),一級(jí)部署業(yè)務(wù)應(yīng)用范圍的拓展,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)平臺(tái)的上線運(yùn)行,電網(wǎng)業(yè)務(wù)數(shù)據(jù)從總量和種類上都已初具規(guī)模,隨著智能電表的逐步普及,電網(wǎng)業(yè)務(wù)數(shù)據(jù)從時(shí)效性層面進(jìn)一步豐富和拓展,大數(shù)據(jù)的“量類時(shí)”特性,已在海量、實(shí)時(shí)的電網(wǎng)業(yè)務(wù)數(shù)據(jù)中進(jìn)一步凸顯,電力大數(shù)據(jù)分析迫在眉睫。大數(shù)據(jù)將給各行各業(yè)帶來變革性機(jī)會(huì),在醫(yī)療行業(yè)、能源行業(yè)、通信行業(yè)、零售業(yè)都有成功的應(yīng)用案例。當(dāng)前,國家電網(wǎng)公司涉及數(shù)據(jù)大致分為三類:一是電網(wǎng)生產(chǎn)數(shù)據(jù),如發(fā)電量、電壓穩(wěn)定性等方面的數(shù)據(jù);二是電網(wǎng)運(yùn)營數(shù)據(jù),如交易電價(jià)、售電量、用電客戶等方面的數(shù)據(jù);三是企業(yè)管理數(shù)據(jù),如ERP、一體化平臺(tái)、協(xié)同辦公等方面的數(shù)據(jù)。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明為解決上述問題,提供了一種基于大數(shù)據(jù)的數(shù)據(jù)集成與線損分析計(jì)算的方法,其特征在于,包括以下步驟:步驟0000,獲取電力數(shù)據(jù);步驟1000,對所述電力數(shù)據(jù)進(jìn)行集成;步驟2000,根據(jù)步驟1000的電力數(shù)據(jù)計(jì)算電力線損;步驟3000,對步驟2000獲取的電力線損進(jìn)行異常分析。特別的,所述步驟1000中使用正則表達(dá)式對電力數(shù)據(jù)進(jìn)行集成。特別的,所述驟2000進(jìn)一步包括:步驟2200,將數(shù)據(jù)存儲(chǔ)到分布式文件系統(tǒng)中;步驟2400,讀取所述分布式文件系統(tǒng)文件進(jìn)行電量計(jì)算,將計(jì)算結(jié)果及電量數(shù)據(jù)存儲(chǔ)到非結(jié)構(gòu)化數(shù)據(jù)庫中;步驟2600,省公司層級(jí)完成電量計(jì)算后,通過數(shù)據(jù)中心將非結(jié)構(gòu)化數(shù)據(jù)上傳到總部非結(jié)構(gòu)化數(shù)據(jù)庫中,實(shí)時(shí)監(jiān)聽計(jì)算任務(wù)列表;步驟2800,獲取所述電量數(shù)據(jù)及線損計(jì)算模型,進(jìn)行線損計(jì)算。特別的,所述步驟3000進(jìn)一步包括:步驟3200,獲取電量及線損等數(shù)據(jù)信息;步驟3400,計(jì)算供售的同期系數(shù);步驟3600,篩選異常數(shù)據(jù);步驟3700,利用貝葉斯法則計(jì)算異常概率值;步驟3800,計(jì)算電量與線損的相關(guān)系數(shù);步驟3900,判斷線損是否異常。本發(fā)明可以充分利用電力數(shù)據(jù),對其進(jìn)行深入分析,提供大量的高附加值服務(wù),實(shí)現(xiàn)電量源頭采集、線損自動(dòng)生成、指標(biāo)全過程監(jiān)控、業(yè)務(wù)全方位貫通協(xié)同,實(shí)現(xiàn)電量與線損管理標(biāo)準(zhǔn)化、智能化、精益化和自動(dòng)化,有力支撐公司堅(jiān)強(qiáng)智能電網(wǎng)、現(xiàn)代配電網(wǎng)建設(shè)。附圖說明圖1業(yè)務(wù)系統(tǒng)命名規(guī)則示例圖圖2分區(qū)域線損計(jì)算流程圖圖3分壓線損計(jì)算流程圖圖4分元件線損計(jì)算流程圖圖5分臺(tái)區(qū)線損計(jì)算流程圖具體實(shí)施方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本發(fā)明涉及的基本概念:線損:線損是電能從發(fā)電廠傳輸?shù)接脩暨^程中,在輸電、變電、配電和用電各環(huán)節(jié)中所產(chǎn)生的電能損耗,主要由技術(shù)線損與管理線損兩部分構(gòu)成。技術(shù)線損:技術(shù)線損是指經(jīng)由輸變配售設(shè)施所產(chǎn)生的損耗,技術(shù)線損可通過理論計(jì)算來獲得;管理線損:管理線損是指在輸變配售過程中由于計(jì)量、抄表、竊電及其他管理不善造成的電能損失。線損率:線損率是在一定時(shí)期內(nèi)電能損耗占供電量的比率。線損率是衡量電網(wǎng)技術(shù)經(jīng)濟(jì)性的重要指標(biāo),它綜合反映了電力系統(tǒng)規(guī)劃設(shè)計(jì)、生產(chǎn)運(yùn)行和經(jīng)營管理的技術(shù)經(jīng)濟(jì)水平。線損管理:線損管理是指為確定和達(dá)到電網(wǎng)降損節(jié)能目標(biāo),所開展的各項(xiàng)管理活動(dòng)的總稱。線損管理作為電網(wǎng)經(jīng)營企業(yè)一項(xiàng)重要的經(jīng)營管理內(nèi)容,應(yīng)以“技術(shù)線損最優(yōu),管理線損最小”為宗旨,以深化線損“四分”(分區(qū)、分壓、分元件、分臺(tái)區(qū))管理為重點(diǎn),實(shí)現(xiàn)從結(jié)果管理向過程管理的轉(zhuǎn)變,切實(shí)規(guī)范管理流程,提高線損管理水平。本發(fā)明實(shí)施例一公開了一種基于大數(shù)據(jù)的數(shù)據(jù)集成與線損分析計(jì)算的方法,其特征在于,包括以下步驟:步驟0000,獲取電力數(shù)據(jù);步驟1000,對所述電力數(shù)據(jù)進(jìn)行集成;步驟2000,根據(jù)步驟1000的電力數(shù)據(jù)計(jì)算電力線損;步驟3000,對步驟2000獲取的電力線損進(jìn)行異常分析。本發(fā)明實(shí)施例二公開了一種基于大數(shù)據(jù)的數(shù)據(jù)集成與線損分析計(jì)算的方法,其特征在于,包括以下步驟:步驟0000,獲取電力數(shù)據(jù),具體方法為:通過ETL與設(shè)備(資產(chǎn))運(yùn)維精益化管理集成,獲取設(shè)備臺(tái)賬數(shù)據(jù)、設(shè)備狀態(tài)數(shù)據(jù);通過ETL與調(diào)度應(yīng)用管理系統(tǒng)集成,獲取省級(jí)公司的電網(wǎng)結(jié)構(gòu)數(shù)據(jù)和拓?fù)鋽?shù)據(jù);通過UAPI與電能量采集系統(tǒng)集成,獲取關(guān)口表計(jì)檔案、關(guān)口表底數(shù)據(jù);通過UAPI與調(diào)度管理系統(tǒng)集成,獲取遙信數(shù)據(jù)、遙測數(shù)據(jù);通過UAPI與用電信息采集系統(tǒng)集成獲取用戶表計(jì)數(shù)據(jù)、表計(jì)表底數(shù)據(jù);通過ETL與營銷應(yīng)用系統(tǒng)集成,獲取臺(tái)區(qū)、用戶檔案數(shù)據(jù)、表計(jì)數(shù)據(jù)、發(fā)行電量數(shù)據(jù);通過WebService與電網(wǎng)GIS平臺(tái)集成,獲取營配貫通數(shù)據(jù)、GIS組件服務(wù)。步驟1000,對所述電力數(shù)據(jù)進(jìn)行集成,具體方法為:采用正則表達(dá)式模式庫實(shí)現(xiàn)跨專業(yè)、多態(tài)的數(shù)據(jù)橫向集成。在橫向集成各專業(yè)系統(tǒng)的電網(wǎng)設(shè)備檔案信息中,各專業(yè)系統(tǒng)以文本類型為主但名稱不一致,直接影響線損系統(tǒng)數(shù)據(jù)集成。由于正則表達(dá)式具有較強(qiáng)的表達(dá)能力,能夠描述更為廣泛的關(guān)聯(lián)特征,因此正則表達(dá)式匹配替代精確字符串匹配成為各專業(yè)系統(tǒng)橫向集成的主要手段。本發(fā)明采用正則表達(dá)式進(jìn)行匹配,JAVA內(nèi)置的正則表達(dá)式基本滿足要求,也可將匹配規(guī)則寫成PERL腳本,其對文本的處理更加全面。通過數(shù)據(jù)治理工具定義正則表達(dá)式模式庫,其中的關(guān)鍵詞可以成組進(jìn)行,關(guān)聯(lián)關(guān)系實(shí)現(xiàn)正則表達(dá)式匹配從而將各個(gè)業(yè)務(wù)系統(tǒng)抽取上來數(shù)據(jù)進(jìn)行集成。前期通過與各專業(yè)系統(tǒng)命名規(guī)則梳理形成對應(yīng)匹配關(guān)系,但是前期梳理的匹配表達(dá)式中的關(guān)鍵詞需要進(jìn)行動(dòng)態(tài)修改后存放在數(shù)據(jù)治理工具的正則表達(dá)式模式庫中。命名規(guī)則示例可見附圖1。使用這種集成方法的優(yōu)點(diǎn)在于:能夠解決一體化電量與線損管理系統(tǒng)接入六大業(yè)務(wù)系統(tǒng)四大數(shù)據(jù)平臺(tái),各專業(yè)系統(tǒng)的部署方式與一體化電量與線損管理系統(tǒng)不一樣,且各單位不同程度上存在源頭數(shù)據(jù)標(biāo)準(zhǔn)和格式不一致問題。考慮源頭數(shù)據(jù)的多態(tài)性,采用正則表達(dá)式模式庫匹配關(guān)聯(lián)數(shù)據(jù)設(shè)計(jì)思想,攻克了源頭數(shù)據(jù)差異大,跨專業(yè)壁壘多等難題,實(shí)現(xiàn)了業(yè)務(wù)數(shù)據(jù)的橫向融合,實(shí)現(xiàn)與發(fā)展部、營銷部、運(yùn)檢部、調(diào)控中心、信通部相關(guān)專業(yè)信息系統(tǒng)業(yè)務(wù)數(shù)據(jù)的集成。步驟2000,根據(jù)步驟1000的電力數(shù)據(jù)計(jì)算電力線損,所述驟2000進(jìn)一步包括:步驟2200,將數(shù)據(jù)存儲(chǔ)到分布式文件系統(tǒng)中,優(yōu)選為將海量數(shù)據(jù)及檔案數(shù)據(jù)存儲(chǔ)到Hadoop的分布式文件系統(tǒng)(HDFS)中;步驟2400,讀取所述分布式文件系統(tǒng)文件進(jìn)行電量計(jì)算,將計(jì)算結(jié)果及電量數(shù)據(jù)存儲(chǔ)到非結(jié)構(gòu)化數(shù)據(jù)庫中,優(yōu)選為利用Spark內(nèi)存計(jì)算的優(yōu)勢,結(jié)合Hadoop組件讀取HDFS文件進(jìn)行電量計(jì)算,將計(jì)算的表底及電量數(shù)據(jù)存儲(chǔ)到非結(jié)構(gòu)化數(shù)據(jù)庫(Nosql)中;步驟2600,省公司層級(jí)完成電量計(jì)算后,通過數(shù)據(jù)中心將非結(jié)構(gòu)化數(shù)據(jù)上傳到總部非結(jié)構(gòu)化數(shù)據(jù)庫中,實(shí)時(shí)監(jiān)聽計(jì)算任務(wù)列表,優(yōu)選為省公司層級(jí)將電量計(jì)算完成后,通過數(shù)據(jù)中心將非結(jié)構(gòu)化數(shù)據(jù)上傳到總部Nosql中,使用Kettle自動(dòng)創(chuàng)建KettleJob,實(shí)時(shí)監(jiān)聽計(jì)算任務(wù)列表;步驟2800,獲取所述電量數(shù)據(jù)及線損計(jì)算模型,進(jìn)行線損計(jì)算,優(yōu)選為利用Kettle轉(zhuǎn)換組件,讀取Nosql電量數(shù)據(jù)及線損計(jì)算模型存儲(chǔ)到HDFS中,調(diào)用SparkJob使用MapReduce進(jìn)行線損計(jì)算;特別的,所述線損計(jì)算包括但不僅限于第一線損,第二線損,第三線損和第四線損,其中第一線損為分區(qū)域線損,包括月統(tǒng)計(jì)分區(qū)線損率、月同期分區(qū)線損率、日同期分區(qū)線損率;月統(tǒng)計(jì)分區(qū)線損率計(jì)算方法為:其中為月統(tǒng)計(jì)分區(qū)線損率,為地區(qū)月統(tǒng)計(jì)供電量,為地區(qū)營銷發(fā)行電量,SPLzn為地區(qū)供電量;月同期分區(qū)線損率計(jì)算方法為:其中為月同期分區(qū)線損率,為地區(qū)月同期供電量,為地區(qū)營銷分段電量合計(jì);日同期分區(qū)線損率計(jì)算方法為:其中為日同期分區(qū)線損率,為地區(qū)日同期供電量,為地區(qū)同期日售電量合計(jì);其中地區(qū)供電量計(jì)算方法為:其中為地區(qū)電廠上網(wǎng)電量,為上級(jí)供入電量,為同級(jí)供入電量;需要特別說明的是,月度統(tǒng)計(jì)線損和同期線損的供電量抄表例日默認(rèn)為1日,如果不一致時(shí)需要在關(guān)口計(jì)量點(diǎn)上調(diào)整;第二線損為分壓線損,包括月統(tǒng)計(jì)分壓線損率、月同期分壓線損率、日分壓同期線損率;月統(tǒng)計(jì)分壓線損率計(jì)算方法為:其中為月統(tǒng)計(jì)分壓線損率,為地區(qū)轉(zhuǎn)入電量,為地區(qū)轉(zhuǎn)出電量,為地區(qū)分壓售電量;月同期分壓線損率計(jì)算方法為:其中為月同期分壓線損率,為地區(qū)營銷分段售電量合計(jì);日同期分壓線損率計(jì)算方法為:其中為日同期分壓線損率,為地區(qū)分壓日售電量合計(jì);其中地區(qū)轉(zhuǎn)入電量計(jì)算方法為:其中INPother為其他單位轉(zhuǎn)入電量,INPself為本單位其他電壓等級(jí)轉(zhuǎn)入電量,為其他電壓等級(jí)反送電量,為下級(jí)單位同電壓等級(jí)反送電量;其中地區(qū)轉(zhuǎn)出電量計(jì)算方法為:其中OUTPother為轉(zhuǎn)出其他單位電量,OUTPself為轉(zhuǎn)出本單位其他電壓等級(jí)電量,為轉(zhuǎn)出其他電壓等級(jí)反送電量,為轉(zhuǎn)出下級(jí)單位同電壓等級(jí)反送電量;需要特別說明的是,月度統(tǒng)計(jì)線損和同期線損的供電量抄表和區(qū)域線損計(jì)算一致,分壓供電量、售電量之和與區(qū)域線損應(yīng)一致。第三線損為分元件線損,包括站損率、主變損耗率、母線損耗率和輸電線路損耗率;站損率計(jì)算方法為:其中為站損率,為站輸入電量,為站輸出電量;主變損耗率計(jì)算方法為:其中為主變損耗率,為主變輸入電量,為主變輸出電量;母線損耗率計(jì)算方法為:其中為母線損耗率,為母線輸入電量,為母線輸出電量;輸電線路損耗率計(jì)算方法為:其中為輸電線路損耗率,為線路輸入電量,為線路輸出電量;第四線損為分臺(tái)區(qū)線損,包括臺(tái)區(qū)月統(tǒng)計(jì)線損率、臺(tái)區(qū)月同期線損率和臺(tái)區(qū)日同期線損率;臺(tái)區(qū)月統(tǒng)計(jì)線損率計(jì)算方法為:其中為臺(tái)區(qū)月統(tǒng)計(jì)線損率,為臺(tái)區(qū)月統(tǒng)計(jì)供電量,為臺(tái)區(qū)用戶發(fā)行電量,表示對所有臺(tái)區(qū)用戶發(fā)行電量求和;臺(tái)區(qū)月同期線損率計(jì)算方法為:其中為臺(tái)區(qū)月同期線損率,為臺(tái)區(qū)月同期供電量,為臺(tái)區(qū)月同期售電量,表示對所有臺(tái)區(qū)月同期售電量求和;臺(tái)區(qū)日同期線損率計(jì)算方法為:其中為臺(tái)區(qū)日同期線損率,為臺(tái)區(qū)日同期供電量,為臺(tái)區(qū)日同期售電量,表示對所有臺(tái)區(qū)日同期售電量求和。步驟3000,對步驟2000獲取的電力線損進(jìn)行異常分析,所述步驟3000進(jìn)一步包括:步驟3200,獲取電量及線損等數(shù)據(jù)信息;步驟3400,計(jì)算供售的同期系數(shù),線損率指標(biāo)具有敏感性,特別是同期線損率能夠動(dòng)態(tài)實(shí)時(shí)反映電網(wǎng)運(yùn)行盈虧狀態(tài)。線損率計(jì)算涉及發(fā)、購、輸、配、用多個(gè)環(huán)節(jié),通過多種計(jì)算模型匯總數(shù)千萬的計(jì)量點(diǎn)電量生成,線損率反映問題相對直觀,但發(fā)現(xiàn)問題及定位問題十分困難。采用大數(shù)據(jù)技術(shù)和數(shù)學(xué)模型相結(jié)合是定位線損異常的有效措施,大數(shù)據(jù)解決線損異常定位的效率瓶頸問題,數(shù)學(xué)模型解決線損異常定位的算法優(yōu)化問題,全面提高線損異常定位的實(shí)用性和可靠性。同期系數(shù)分析方法判定原理統(tǒng)計(jì)線損供售數(shù)據(jù)不同期,造成線損結(jié)果數(shù)據(jù)失真,無法真實(shí)反映線損情況。同期線損結(jié)果受抄表手段影響,很難做到電量計(jì)算完全準(zhǔn)確。同期系數(shù)利用同期線損結(jié)果和統(tǒng)計(jì)線損結(jié)果相比對,能夠反映供售數(shù)據(jù)的同期程度,同期程度越大線損率的精確度就越高,反映線損管理規(guī)范化和標(biāo)準(zhǔn)化水平就越高,如果同期系數(shù)較低,可能在管理線損上存在問題。計(jì)算方法當(dāng)供、售電量抄表不同期時(shí),供、售電當(dāng)月上下表底之間日期并集之間的天數(shù)為同期天數(shù),當(dāng)月天數(shù)為。當(dāng)供、售電量抄表不同期時(shí),供、售電當(dāng)月上下表底之間日期并集之間的電量為同期電量為,上表底為,下表底為,=()*倍率;當(dāng)月電量為,上表底為,下表底為,=()*倍率。系數(shù)T=注:=1結(jié)果應(yīng)用這里的系數(shù)T就是同期系數(shù),同期系數(shù)越大,越接近于1,則供、售電抄表的同期程度越高,線損的的精準(zhǔn)程度則越高。反之,同期系數(shù)越低,可能配網(wǎng)管理線損上有隱患和漏洞,特別需要核對發(fā)行電量是否有誤抄表現(xiàn)象。步驟3600,篩選異常數(shù)據(jù),具體方法為:利用四分位模型計(jì)算出四分位差,四分位差越小,說明中間部分的數(shù)據(jù)越集中;四分位數(shù)越大,則意味著中間部分的數(shù)據(jù)越分散。我們運(yùn)用四分位數(shù)模型檢測關(guān)口計(jì)量點(diǎn)日電量突變情況,把超出規(guī)定范圍內(nèi)的數(shù)據(jù)確定為異常數(shù)據(jù)。四分位差計(jì)算算法選取n天日電量作為一組數(shù)據(jù),將n項(xiàng)數(shù)據(jù)從小到大排列:Q2為n個(gè)數(shù)組成的數(shù)列的中數(shù);當(dāng)n為奇數(shù)時(shí),中數(shù)Q2將該數(shù)列分為數(shù)量相等的兩組數(shù),每組有(n-1)/2個(gè)數(shù),Q1為第一組(n-1)/2個(gè)數(shù)的中數(shù),Q3為為第二組(n+1)/2個(gè)數(shù)的中數(shù);當(dāng)n為偶數(shù)時(shí),中數(shù)Q2將該數(shù)列分為數(shù)量相等的兩組數(shù),每組有n/2數(shù),Q1為第一組n/2個(gè)數(shù)的中數(shù),Q3為為第二組n/2個(gè)數(shù)的中數(shù)。結(jié)果應(yīng)用把Q1作為正確數(shù)據(jù)的最小值,Q3作為正確數(shù)據(jù)最大值,當(dāng)選取的這組數(shù)據(jù)中存在小于最小值的50%或大于最大值50%的數(shù)據(jù),則這組數(shù)據(jù)就定為異常數(shù)據(jù)。另一種篩選異常數(shù)據(jù)的方法:假設(shè)數(shù)據(jù)集合為{DTf|f∈[1,g]},其中DTf為數(shù)據(jù)集合中第f個(gè)數(shù)據(jù),為g數(shù)據(jù)集合中數(shù)據(jù)數(shù)量,如果數(shù)據(jù)小于第一閾值或者大于第二閾值,那么此數(shù)據(jù)為異常數(shù)據(jù)。第一閾值第二閾值步驟3700,利用貝葉斯法則計(jì)算異常概率值,具體方法為:貝葉斯法則原理事件A在事件B(發(fā)生)的條件下的概率,與事件B在事件A的條件下的概率是不一樣的;然而,這兩者是有確定的關(guān)系,貝葉斯法則就是這種關(guān)系的陳述。運(yùn)用貝葉斯法則計(jì)算當(dāng)知道異?,F(xiàn)象A發(fā)生在多種異常事件B發(fā)生的條件下的概率,來計(jì)算多種異常事件B在異?,F(xiàn)象A發(fā)生的條件下的概率。配網(wǎng)異常概率計(jì)算假設(shè)A事件為90%-100%的高損臺(tái)區(qū),共有M臺(tái)區(qū)線損率為90%-100%,B事件為造成高損的事件組成{B1、B2、B3、…、Bn},這些事件分別包含的臺(tái)區(qū)數(shù)為{m_1、m_2、m_3…m_n};P(A/B1)=(B1事件造成高損的概率)P(B1)=(B1事件概率)根據(jù)貝葉斯公式,得出出現(xiàn)A事件時(shí)B1事件發(fā)生概率P(B1/A)=樸素貝葉斯分類器樸素貝葉斯分類器的工作流程如下:1:設(shè)D為樣本訓(xùn)練集;每一個(gè)樣本X是由n個(gè)屬性值組成的,X=(x1,x2,…xn);對應(yīng)的屬性集為A1,A2,A3…An;2:假設(shè)有m個(gè)類標(biāo)簽:C1,C2,…Cm.對于某待分類元X,樸素分類器會(huì)把P(Ci|X)(i=1,2,…m)值最大的那個(gè)類標(biāo)簽Ci認(rèn)為是X的類別,即樸素貝葉斯分類器預(yù)測出X屬于類Ci,當(dāng)且僅當(dāng)P(Ci|X)>P(Cj|X)(1≤j≤m,j≠i).因此我們的目標(biāo)就是找出P(Ci|X)中的最大值。P(Ci|X)=P(X|Ci)P(Ci)/P(X)對于給定的樣本集,P(X)是常數(shù),跟某個(gè)具體的類標(biāo)簽沒有關(guān)聯(lián),所以要想找出P(Ci|X)的最大值也就是找出P(X|Ci)P(Ci)的最大值:如果我們不知道P(Ci)的值,我們可以假設(shè)P(C1)=P(C2)=…=P(Cm),當(dāng)然P(Ci)可以通過估計(jì)值來代替,P(Ci)=|Ci,D|/|D|其中|D|為樣本總數(shù),|Ci,D|為D中屬于類Ci的樣本數(shù)。3:如果n的值特別大,也就是說樣本元有很多屬性,那么對于P(X|Ci)的計(jì)算會(huì)相當(dāng)復(fù)雜。所以在樸素貝葉斯中進(jìn)行了一個(gè)假設(shè):即對于樣本元中的每個(gè)屬性,它們都互相條件獨(dú)立。所以有:對于P(xi|Ci)我們可以從訓(xùn)練集中算出來,其中xi代表在某個(gè)具體樣本中對應(yīng)屬性Ai的值。P(xi|Ci)的計(jì)算分為兩種情況:1):如果屬性Ai的值是分類變量(離散變量),那么P(xi|Ci)等于訓(xùn)練樣本空間|D|中,屬于類Ci并且對應(yīng)屬性Ai的值等于xi的數(shù)目除以樣本空間中屬于類Ci的樣本數(shù)目。2):如果Ai的值是連續(xù)型的變量,則P(xi|Ci)的計(jì)算會(huì)根據(jù)高斯分布來計(jì)算,設(shè)其中均值為μ,標(biāo)準(zhǔn)方差為σ:4:為了預(yù)測X所屬的類標(biāo)簽,我們根據(jù)前面的步驟可以算出每一個(gè)類標(biāo)簽Ci對應(yīng)的P(X|Ci)P(Ci)值,當(dāng)某一個(gè)類標(biāo)簽Ci有:P(X|Ci)P(Ci)>P(X|Cj)P(Cj)對于任意j:1≤j≤m,j≠i則我們認(rèn)為X屬于類標(biāo)簽Ci.結(jié)果應(yīng)用經(jīng)以上計(jì)算出的P(B1/A)就是在異常事件B1在異?,F(xiàn)象A發(fā)生的條件下的概率值,同理可以求出B2、B3等異常事件的概率,則概率值最大的異常事件就是異?,F(xiàn)象A出現(xiàn)的情況下發(fā)生異常情況可能性最大的。步驟3800,計(jì)算電量與線損的相關(guān)系數(shù);相關(guān)系數(shù)模型相關(guān)系數(shù)是用以反映變量之間相關(guān)關(guān)系密切程度及其相關(guān)方向的統(tǒng)計(jì)指標(biāo),利用相關(guān)系數(shù)的性質(zhì),可以找出線損波動(dòng)與那個(gè)臺(tái)區(qū)電量波動(dòng)呈相關(guān)程度及其相關(guān)方向,從而提高了降損效率。相關(guān)系數(shù)計(jì)算給定兩組向量x1和x2(替換之前x的為x1,y為x2),x1維度為p1,x2維度為p2,默認(rèn)p1≤p2。形式化表示如下:是x的協(xié)方差矩陣;左上角是x1自己的協(xié)方差矩陣;右上角是Cov(x1,x2);左下角是Cov(x2,x1),也是Σ12的轉(zhuǎn)置;右下角是x2的協(xié)方差矩陣。從x1和x2的整體入手,定義u=aTx1v=bTx2可以算出u和v的方差和協(xié)方差:Var(u)=aT∑11aVar(v)bT∑22bCov(u,v)=aT∑12b最后,相關(guān)系數(shù)Corr(u,v)可以用以下公式計(jì)算得到:線損與電量相關(guān)系數(shù)應(yīng)用假設(shè)線損率為X,電量為Y,計(jì)算X與Y的相關(guān)系數(shù)ρ_XY,選取一組線損率與電量,用四分位法剔除異常數(shù)據(jù)(高損、負(fù)損),剔除電量為0的數(shù)據(jù),計(jì)算線損率與臺(tái)區(qū)電量的相關(guān)系數(shù)ρ_XY,在滿足相關(guān)性的條件下,ρ_XY為正數(shù)時(shí),成正相關(guān),ρ_XY為負(fù)數(shù)時(shí),成負(fù)相關(guān)。步驟3900,判斷線損是否異常,具體方法為:計(jì)算異常指數(shù)ψ=ln(eη*COR*e(1-η)*Corr)*P,其中COR為同期系數(shù),Corr為相關(guān)系數(shù),P為異常發(fā)生概率,η為預(yù)設(shè)實(shí)數(shù)常量,且η∈[0,1];如果異常指數(shù)ψ∈[0.78,1],則判斷線損異常。其他與方法相同之處在此不贅述,詳情請參照方法說明部分。本發(fā)明實(shí)施例可以充分利用電力數(shù)據(jù),對其進(jìn)行深入分析,提供大量的高附加值服務(wù),實(shí)現(xiàn)電量源頭采集、線損自動(dòng)生成、指標(biāo)全過程監(jiān)控、業(yè)務(wù)全方位貫通協(xié)同,實(shí)現(xiàn)電量與線損管理標(biāo)準(zhǔn)化、智能化、精益化和自動(dòng)化,有力支撐公司堅(jiān)強(qiáng)智能電網(wǎng)、現(xiàn)代配電網(wǎng)建設(shè)。最后應(yīng)說明的是:以上實(shí)施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實(shí)施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。