本發(fā)明涉及一種監(jiān)測(cè)設(shè)備數(shù)據(jù)流評(píng)估和噪聲消除方法
背景技術(shù):
隨著信息通信技術(shù)的不斷進(jìn)步,物聯(lián)網(wǎng)、云計(jì)算等技術(shù)的飛速發(fā)展,生產(chǎn)生活的數(shù)字化、信息化的程度越來(lái)越高,全球的數(shù)據(jù)量大約每?jī)赡昃鸵环?,不僅每天產(chǎn)生的數(shù)據(jù)量高速增長(zhǎng),數(shù)據(jù)結(jié)構(gòu)也變得越來(lái)越復(fù)雜,包括各種非結(jié)構(gòu)化的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)處理方式已經(jīng)顯得力不從心,“大數(shù)據(jù)時(shí)代”已經(jīng)到來(lái),成為了信息技術(shù)產(chǎn)業(yè)討論的焦點(diǎn)。在這個(gè)背景下,流式數(shù)據(jù)的處理就顯得越來(lái)越重要。數(shù)據(jù)流是一種實(shí)時(shí)的時(shí)間序列,其中的數(shù)據(jù)表達(dá)的是當(dāng)前時(shí)間對(duì)象的狀態(tài),具有時(shí)效性,而隨著時(shí)間的不斷變化,數(shù)據(jù)的變化又具有高速型和非確定性,所以需要對(duì)數(shù)據(jù)流中到達(dá)的有限數(shù)據(jù)及時(shí)進(jìn)行分析處理,預(yù)測(cè)數(shù)據(jù)流將來(lái)的變化和趨勢(shì),便于掌握對(duì)象的狀態(tài),及時(shí)采取措施。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的在于提供一種監(jiān)測(cè)設(shè)備數(shù)據(jù)流評(píng)估和噪聲消除方法,實(shí)現(xiàn)了對(duì)監(jiān)測(cè)設(shè)備數(shù)據(jù)流評(píng)估和噪聲消除,便于掌握監(jiān)測(cè)設(shè)備的狀態(tài),及時(shí)采取應(yīng)對(duì)措施。
為實(shí)現(xiàn)上述目的,本發(fā)明的技術(shù)方案是:一種監(jiān)測(cè)設(shè)備數(shù)據(jù)流評(píng)估和噪聲消除方法,包括如下步驟,
S1:輸入數(shù)據(jù),根據(jù)關(guān)聯(lián)分析方法,得到所要分析的參量之間的關(guān)聯(lián)性;根據(jù)不同的數(shù)據(jù)流形式和類型,采用不同的應(yīng)對(duì)措施;
S2:相關(guān)性較強(qiáng)的兩個(gè)序列:若兩個(gè)序列同時(shí)產(chǎn)生突變,根據(jù)關(guān)聯(lián)規(guī)則的原理認(rèn)為突變量并不是錯(cuò)誤數(shù)據(jù),不對(duì)檢測(cè)點(diǎn)進(jìn)行處理;若其中一個(gè)序列產(chǎn)生突變,則認(rèn)為是錯(cuò)誤數(shù)據(jù),對(duì)檢測(cè)點(diǎn)進(jìn)行修正;
S3:與其他序列相關(guān)性不強(qiáng)的序列:將突變量或者分離的數(shù)據(jù)認(rèn)為是錯(cuò)誤數(shù)據(jù),對(duì)檢測(cè)點(diǎn)進(jìn)行修正。
在本發(fā)明一實(shí)施例中,步驟S2中的修正方法為:當(dāng)檢測(cè)出檢測(cè)點(diǎn)需要修正時(shí),先將該點(diǎn)的數(shù)據(jù)值計(jì)為零,然后使用后向插值法和前向插值法計(jì)算出該點(diǎn)的修正值,具體的:設(shè)需要清洗的序列為X,序列中的一段數(shù)據(jù)為{xi-5,xi-4,xi-3,xi-2,xi-1,xi,xi+1,xi+2,xi+3,xi+4,xi+5},其中需要修正的檢測(cè)點(diǎn)為xi;
(1)首先使用前向插值法求得該點(diǎn)的修正值:
構(gòu)造前置多項(xiàng)式其中Ij={1,2,...,5};
構(gòu)造前置差值函數(shù)j=1,2,...,5;
因此得到檢測(cè)點(diǎn)的前向修正值為
(2)然后使用后向插值法求得該點(diǎn)的修正值:
構(gòu)造后置多項(xiàng)式其中Ij={1,2,...,5};
構(gòu)造后置差值函數(shù)j=1,2,...,5;
因此得到檢測(cè)點(diǎn)的后向修正值為
(3)求得檢測(cè)點(diǎn)的最終修正值為
在本發(fā)明一實(shí)施例中,步驟S3中的修正方法為:當(dāng)檢測(cè)出檢測(cè)點(diǎn)需要修正時(shí),先將該點(diǎn)的數(shù)據(jù)值計(jì)為零,然后使用后向插值法和前向插值法計(jì)算出該點(diǎn)的修正值,具體的:設(shè)需要清洗的序列為X,序列中的一段數(shù)據(jù)為{xi-5,xi-4,xi-3,xi-2,xi-1,xi,xi+1,xi+2,xi+3,xi+4,xi+5},其中需要修正的檢測(cè)點(diǎn)為xi;
(1)首先使用前向插值法求得該點(diǎn)的修正值:
構(gòu)造前置多項(xiàng)式其中Ij={1,2,...,5};
構(gòu)造前置差值函數(shù)j=1,2,...,5;
因此得到檢測(cè)點(diǎn)的前向修正值為
(2)然后使用后向插值法求得該點(diǎn)的修正值:
構(gòu)造后置多項(xiàng)式其中Ij={1,2,...,5};
構(gòu)造后置差值函數(shù)j=1,2,...,5;
因此得到檢測(cè)點(diǎn)的后向修正值為
(3)求得檢測(cè)點(diǎn)的最終修正值為
在本發(fā)明一實(shí)施例中,步驟S1中采用的關(guān)聯(lián)分析方法為DBSCAN聚類算法。
在本發(fā)明一實(shí)施例中,步驟S1中,在采用關(guān)聯(lián)分析方法前,還需對(duì)輸入數(shù)據(jù)進(jìn)行缺失值檢測(cè),若檢測(cè)到缺失值,則采用平均值代替。
相較于現(xiàn)有技術(shù),本發(fā)明具有以下有益效果:本發(fā)明實(shí)現(xiàn)了對(duì)監(jiān)測(cè)設(shè)備數(shù)據(jù)流評(píng)估和噪聲消除,便于掌握監(jiān)測(cè)設(shè)備的狀態(tài),及時(shí)采取應(yīng)對(duì)措施。
附圖說(shuō)明
圖1為本發(fā)明方法流程圖。
圖2為DBSCAN實(shí)例。
圖3為本發(fā)明一實(shí)施例三相總有功和三相總電流清洗結(jié)果(強(qiáng)相關(guān)性)圖。
圖4為本發(fā)明一實(shí)施例三相總有功和三相總電流清洗結(jié)果(強(qiáng)相關(guān)性、有噪聲)圖。
具體實(shí)施方式
下面結(jié)合附圖,對(duì)本發(fā)明的技術(shù)方案進(jìn)行具體說(shuō)明。
如圖1所示,本發(fā)明的一種監(jiān)測(cè)設(shè)備數(shù)據(jù)流評(píng)估和噪聲消除方法,包括如下步驟,
S1:輸入數(shù)據(jù),根據(jù)關(guān)聯(lián)分析方法,得到所要分析的參量之間的關(guān)聯(lián)性;根據(jù)不同的數(shù)據(jù)流形式和類型,采用不同的應(yīng)對(duì)措施;
S2:相關(guān)性較強(qiáng)的兩個(gè)序列:若兩個(gè)序列同時(shí)產(chǎn)生突變,根據(jù)關(guān)聯(lián)規(guī)則的原理認(rèn)為突變量并不是錯(cuò)誤數(shù)據(jù),不對(duì)檢測(cè)點(diǎn)進(jìn)行處理;若其中一個(gè)序列產(chǎn)生突變,則認(rèn)為是錯(cuò)誤數(shù)據(jù),對(duì)檢測(cè)點(diǎn)進(jìn)行修正;
S3:與其他序列相關(guān)性不強(qiáng)的序列:將突變量或者分離的數(shù)據(jù)認(rèn)為是錯(cuò)誤數(shù)據(jù),對(duì)檢測(cè)點(diǎn)進(jìn)行修正。
步驟S2、S3中的修正方法為:當(dāng)檢測(cè)出檢測(cè)點(diǎn)需要修正時(shí),先將該點(diǎn)的數(shù)據(jù)值計(jì)為零,然后使用后向插值法和前向插值法計(jì)算出該點(diǎn)的修正值,具體的:設(shè)需要清洗的序列為X,序列中的一段數(shù)據(jù)為{xi-5,xi-4,xi-3,xi-2,xi-1,xi,xi+1,xi+2,xi+3,xi+4,xi+5},其中需要修正的檢測(cè)點(diǎn)為xi;
(1)首先使用前向插值法求得該點(diǎn)的修正值:
構(gòu)造前置多項(xiàng)式其中Ij={1,2,...,5};
構(gòu)造前置差值函數(shù)j=1,2,...,5;
因此得到檢測(cè)點(diǎn)的前向修正值為
(2)然后使用后向插值法求得該點(diǎn)的修正值:
構(gòu)造后置多項(xiàng)式其中Ij={1,2,...,5};
構(gòu)造后置差值函數(shù)j=1,2,...,5;
因此得到檢測(cè)點(diǎn)的后向修正值為
(3)求得檢測(cè)點(diǎn)的最終修正值為
步驟S1中采用的關(guān)聯(lián)分析方法為DBSCAN聚類算法。步驟S1中,在采用關(guān)聯(lián)分析方法前,還需對(duì)輸入數(shù)據(jù)進(jìn)行缺失值檢測(cè),若檢測(cè)到缺失值,則采用平均值代替。
以下為本發(fā)明的具體實(shí)施過(guò)程。
DBSCAN(Density-based Spatial Clustering of Application with Noise)算法是屬于一種基于密度模式的空間數(shù)據(jù)聚類方法,最開始是由Ester Martin等人所提出一種算法。該算法可以將原先具有高密度的區(qū)域劃分成不同的簇,并且可以針對(duì)具有“噪聲的”空間數(shù)據(jù)中也能發(fā)現(xiàn)任意形狀的聚類模式和相似簇群。DBSCAN算法的最為核心的思想是:對(duì)于每一種聚類中的每個(gè)分析對(duì)象,在給定的半徑(常用Eps表示)的鄰域(neighborhood)內(nèi)數(shù)據(jù)對(duì)象個(gè)數(shù)必須要大于初始設(shè)定的給定值。即鄰域密度必須要大于一定的閾值(常用MinPts表示)。DBSCAN算法通過(guò)檢索相鄰點(diǎn),對(duì)所有的數(shù)據(jù)只用查詢搜索一次就可以得到最后的結(jié)果,所以其運(yùn)行速度很快。并且DBSCAN還有一個(gè)很大的有點(diǎn)在于它能夠處理任意形狀的聚類性質(zhì),并不受噪聲的干擾,并且還能夠根據(jù)閾值MinPts來(lái)去除含有的噪聲。
下面給出DBSCAN算法所涉及到的定義:
定義1點(diǎn)的Eps-鄰域:空間中任意一點(diǎn)p的Eps鄰域是指以p為圓心,以Eps為半徑的區(qū)域內(nèi)所包含的點(diǎn)的集合。
定義2密度:空間中任意一點(diǎn)p的密度是以該點(diǎn)p為圓心,以Eps為半徑的圓區(qū)域內(nèi)包含點(diǎn)的數(shù)目。
定義3核心點(diǎn)和邊界點(diǎn):空間中某一點(diǎn)的密度如果大于某一給定閾值MinPts,則稱該點(diǎn)為核心點(diǎn)。否則稱該點(diǎn)為邊界點(diǎn)。
定義4直接密度可達(dá):點(diǎn)p從點(diǎn)q直接密度可達(dá),若它們滿足以下兩個(gè)條件:p處于鄰域中;q是核心點(diǎn)。
定義5密度可達(dá):點(diǎn)p從點(diǎn)q密度可達(dá),若(p1,p2,…,pn,其中p1=p,pn=q)且有pi從pi+1直接密度可達(dá)。
定義6密度連接:點(diǎn)p和電q是密度連接的,若對(duì)任意的o,是p和q都從o密度可達(dá)。
定義7聚類:數(shù)據(jù)庫(kù)D的非空集合A是一個(gè)類,當(dāng)且僅當(dāng)A滿足以下條件“
(1)對(duì)于p和q,若p∈A,且從p密度可達(dá)到q,則q∈A;
(2)對(duì)于p和q,若p∈A和q∈A,則p和q是密度連接的。
定義8噪聲:數(shù)據(jù)庫(kù)D中不屬于任何類的點(diǎn)為噪聲。
DBSCAN有別于其他的一些聚類算法,DBSCAN算法可以發(fā)現(xiàn)不滿足聚類的一些異常點(diǎn)。如圖2所示,在圖2中表示的是以半徑鄰域Eps為輸入的聚類方法得到的簇群。DBSCAN算法同時(shí)依賴于另一個(gè)參數(shù)最小數(shù)目Minpts,如果設(shè)置最小數(shù)目Minpts等于4時(shí),簇群3和簇群5可以被認(rèn)為是孤立的異常點(diǎn)。
DBSCAN算法可以歸為聚類方法中的一個(gè)最具有代表性的算法。它能將要分析的類定義為密度相連的點(diǎn)的最大集合體,與此同時(shí)還具有很高的抗噪聲能力。所以在對(duì)數(shù)據(jù)挖掘?qū)ふ夜铝Ⅻc(diǎn)的過(guò)程中常常會(huì)使用DBSCAN的算法。但是DBSCAN自身也有一定的局限性。首先DBSCAN依賴于輸入的兩個(gè)參數(shù),即需要事先確定參數(shù)半徑鄰域Eps以及最小數(shù)目Minpts,對(duì)于不同參數(shù)的選取,會(huì)導(dǎo)致最終數(shù)據(jù)的聚類結(jié)果不同。其次在DBSCAN算法中,由于變量半徑鄰域Eps以及最小數(shù)目Minpts是設(shè)置為全局變量的,并且具有唯一性,所以當(dāng)數(shù)據(jù)分布不均勻時(shí)聚類效果一般。但是由于是將DBSCAN算法應(yīng)用在電力系統(tǒng)輸變電設(shè)備監(jiān)測(cè)數(shù)據(jù)中,考慮到其監(jiān)測(cè)和采集到的數(shù)據(jù)特點(diǎn),所以后一個(gè)存在的問(wèn)題可以不需要考慮。
根據(jù)上述DBSCAN算法的優(yōu)點(diǎn),如圖1所示,本發(fā)明的一種監(jiān)測(cè)設(shè)備數(shù)據(jù)流評(píng)估和噪聲消除方法,包括如下步驟,
S1:輸入數(shù)據(jù),根據(jù)關(guān)聯(lián)分析方法,得到所要分析的參量之間的關(guān)聯(lián)性;根據(jù)不同的數(shù)據(jù)流形式和類型,采用不同的應(yīng)對(duì)措施;其中,采用的關(guān)聯(lián)分析方法為DBSCAN聚類算法,另,在采用關(guān)聯(lián)分析方法前,還需對(duì)輸入數(shù)據(jù)進(jìn)行缺失值檢測(cè),若檢測(cè)到缺失值,則采用平均值代替。
S2:相關(guān)性較強(qiáng)的兩個(gè)序列:若兩個(gè)序列同時(shí)產(chǎn)生突變,根據(jù)關(guān)聯(lián)規(guī)則的原理認(rèn)為突變量并不是錯(cuò)誤數(shù)據(jù),不對(duì)檢測(cè)點(diǎn)進(jìn)行處理;若其中一個(gè)序列產(chǎn)生突變,則認(rèn)為是錯(cuò)誤數(shù)據(jù),對(duì)檢測(cè)點(diǎn)進(jìn)行修正;
S3:與其他序列相關(guān)性不強(qiáng)的序列:將突變量或者分離的數(shù)據(jù)認(rèn)為是錯(cuò)誤數(shù)據(jù),對(duì)檢測(cè)點(diǎn)進(jìn)行修正。
上述修正方法為:當(dāng)檢測(cè)出檢測(cè)點(diǎn)需要修正時(shí),先將該點(diǎn)的數(shù)據(jù)值計(jì)為零,然后使用后向插值法和前向插值法計(jì)算出該點(diǎn)的修正值,具體的:設(shè)需要清洗的序列為X,序列中的一段數(shù)據(jù)為{xi-5,xi-4,xi-3,xi-2,xi-1,xi,xi+1,xi+2,xi+3,xi+4,xi+5},其中需要修正的檢測(cè)點(diǎn)為xi;
(1)首先使用前向插值法求得該點(diǎn)的修正值:
構(gòu)造前置多項(xiàng)式其中Ij={1,2,...,5};
構(gòu)造前置差值函數(shù)j=1,2,...,5;
因此得到檢測(cè)點(diǎn)的前向修正值為
(2)然后使用后向插值法求得該點(diǎn)的修正值:
構(gòu)造后置多項(xiàng)式其中Ij={1,2,...,5};
構(gòu)造后置差值函數(shù)j=1,2,...,5;
因此得到檢測(cè)點(diǎn)的后向修正值為
(3)求得檢測(cè)點(diǎn)的最終修正值為
以下為本發(fā)明的具體實(shí)施例。
以電網(wǎng)環(huán)境溫度數(shù)據(jù)為例。其中原始數(shù)據(jù)總長(zhǎng)為480,F(xiàn)CM分析中的序列數(shù)n=10,q=48。
如圖3所示,第一個(gè)子圖是輸入原始數(shù)據(jù),其中藍(lán)色線表示的是三相電路總有功功率,綠色線表示的是三相電路的總電流。第二張子圖是修正后的圖像,其中黑色的表示三相電路的總電流,粉色的表示是三相電路總有功功率。藍(lán)色圓圈標(biāo)記的是通過(guò)DBSCAN算法得出的總有功功率的孤立點(diǎn),對(duì)應(yīng)的時(shí)間為t=28和t=84。紅色圓圈標(biāo)記的是總電流的孤立點(diǎn),對(duì)應(yīng)的時(shí)間為t=28和t=205??梢钥闯鰞烧咴诘谝粋€(gè)孤立點(diǎn)發(fā)生的位置是相同的。又因?yàn)榭傆泄β屎涂傠娏髦g具有強(qiáng)相關(guān)性,所以對(duì)這一時(shí)間點(diǎn)的數(shù)據(jù)不做處理。而對(duì)于三相功率發(fā)生在t=84時(shí)刻的孤立點(diǎn),三相電流并沒(méi)有發(fā)生異常,所以可以認(rèn)為這點(diǎn)為異常點(diǎn),需要進(jìn)行修正,通過(guò)數(shù)據(jù)清洗對(duì)該點(diǎn)的數(shù)據(jù)做以替換。同理,對(duì)已三相電流發(fā)生在t=205時(shí)刻的點(diǎn)同樣需要被清洗和修正。兩者修正后的圖像如第二張子圖所示,可以看出第一個(gè)點(diǎn)被保留了下來(lái),供后續(xù)的進(jìn)一部分分析和處理,而其余的點(diǎn)已經(jīng)被處理。
如圖4所示,第一個(gè)子圖是輸入原始數(shù)據(jù),其中藍(lán)色線表示的是三相電路總有功功率,綠色線表示的是三相電路的總電流。第二張子圖是修正后的圖像,其中黑色的表示三相電路的總電流,粉色的表示是三相電路總有功功率。其中對(duì)三相的總有功功率t=300附近疊加了一個(gè)噪聲。通過(guò)DBSCAN算法發(fā)現(xiàn)這一部分存在大量的異常點(diǎn),然后通過(guò)清洗算法進(jìn)行了初步的清洗,降低了噪聲的影響。但是還是存在一定的噪聲干擾,需要后續(xù)進(jìn)一步的處理和分析。
以上是本發(fā)明的較佳實(shí)施例,凡依本發(fā)明技術(shù)方案所作的改變,所產(chǎn)生的功能作用未超出本發(fā)明技術(shù)方案的范圍時(shí),均屬于本發(fā)明的保護(hù)范圍。