本發(fā)明屬于設(shè)備狀態(tài)診斷領(lǐng)域。
背景技術(shù):
:在線監(jiān)測(cè)數(shù)據(jù)反映了設(shè)備運(yùn)行狀態(tài),常被用來診斷設(shè)備故障情況,但由于監(jiān)測(cè)設(shè)備在受到外界干擾或設(shè)備損壞時(shí),會(huì)不可避免地出現(xiàn)數(shù)據(jù)缺失問題。數(shù)據(jù)缺失破壞了原數(shù)據(jù)的完整性和真實(shí)性,很多的統(tǒng)計(jì)工具直接將缺失數(shù)據(jù)缺省,這種處理方法雖然效率高,但當(dāng)使用處理過的數(shù)據(jù)集進(jìn)行數(shù)據(jù)挖掘時(shí),將會(huì)使聚類模型產(chǎn)生傾斜,從而使挖掘結(jié)果產(chǎn)生偏差。目前比較好的缺失值處理方法是對(duì)不完整的數(shù)據(jù)記錄進(jìn)行填充。數(shù)據(jù)填充常見算法有KNN、貝葉斯網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)等。KNN算法計(jì)算量較大;貝葉斯網(wǎng)絡(luò)需要的數(shù)據(jù)多,分析計(jì)算比較復(fù)雜,特別在解決復(fù)雜問題時(shí),這個(gè)矛盾就更為突出;神經(jīng)網(wǎng)絡(luò)算法常常會(huì)出現(xiàn)局部最優(yōu)的問題,而且無法用神經(jīng)網(wǎng)絡(luò)直觀地解釋推理過程和推理依據(jù)。技術(shù)實(shí)現(xiàn)要素:本發(fā)明的目的是為解決利用數(shù)據(jù)對(duì)設(shè)備進(jìn)行故障診斷時(shí)出現(xiàn)數(shù)據(jù)缺失的問題。為實(shí)現(xiàn)本發(fā)明目的而采用的技術(shù)方案是這樣的,一種基于相鄰數(shù)據(jù)特征的數(shù)據(jù)缺失填充方法,其特征在于:讀取一段按照時(shí)間順序排列的數(shù)據(jù)序列;所述數(shù)據(jù)序列中,存在n個(gè)數(shù)據(jù),所述數(shù)據(jù)序列為data(x1)、data(x2)……data(xn)表示,x1、x2……xn為時(shí)間序列Q,n為自然數(shù);所述數(shù)據(jù)序列中,缺失了編號(hào)為i的數(shù)據(jù),即data(i),i為等差數(shù)列Q中的一個(gè)值;填充編號(hào)為i的數(shù)據(jù),包括以下步驟:1)讀取與編號(hào)為i的數(shù)據(jù)相鄰的數(shù)據(jù)data(i-1);在所述數(shù)據(jù)序列中,從頭開始尋找與data(i-1)之差的絕對(duì)值小于0.02的數(shù)據(jù);如果沒有找到這樣的數(shù)據(jù),則下一步直接進(jìn)入步驟5);如果找到這樣的一個(gè)或多個(gè)數(shù)據(jù),令其中一個(gè)數(shù)據(jù)的序列號(hào)為k-1,即該數(shù)據(jù)記為data(k-1),并進(jìn)入下一步,k為時(shí)間序列Q中的一個(gè)值;如果1<i<4,即缺失值處于數(shù)據(jù)序列左邊界位置,則下一步直接進(jìn)入步驟3)。2)讀取data(k)和data(i)左邊的三個(gè)數(shù)據(jù),將data(k-3)、data(k-2)和data(k-1)進(jìn)行一次擬合,data(i-3)、data(i-2)和data(i-1)進(jìn)行一次擬合;如果data(k-3)、data(k-2)和data(k-1)的變化趨勢(shì)與data(i-3)、data(i-2)和data(i-1)的變化趨勢(shì)相同,則進(jìn)入下一步;否則,回到步驟1),重新選取data(k-1),但無法通過步驟1)選取data(k-1)時(shí),則進(jìn)入步驟5);如果i>n-3,即缺失值處于數(shù)據(jù)序列右邊界位置,則下一步直接進(jìn)入步驟4)。3)讀取data(k)和data(i)右邊的三個(gè)數(shù)據(jù),將data(k+3)、data(k+2)和data(k+1)進(jìn)行一次擬合,data(i+3)、data(i+2)和data(i+1)進(jìn)行一次擬合;如果data(k+3)、data(k+2)和data(k+1)的變化趨勢(shì)與data(i+3)、data(i+2)和data(i+1)的變化趨勢(shì)相同,則進(jìn)入下一步;否則,回到步驟1),重新選取data(k-1),但無法通過步驟1)選取data(k-1)時(shí),則進(jìn)入步驟5);4)將data(k)保存到數(shù)據(jù)集K中,回到步驟1),重新選取data(k-1),直到無法通過步驟1)選取data(k-1)時(shí),進(jìn)入下一步;5)若被保存數(shù)據(jù)只有1個(gè)數(shù)據(jù)data(k),則若沒有數(shù)據(jù)被保存下來,則取缺失值data(i)左右兩側(cè)數(shù)據(jù)的平均值。由于這兩種情況出現(xiàn)概率較小,在流程圖中舍去對(duì)這兩種情況的介紹。如果數(shù)據(jù)集K存在j-1(j>2)個(gè)數(shù)據(jù),則將數(shù)據(jù)集K里面的數(shù)據(jù)擬合為f(x),令M=f(j)。6)將數(shù)值M填充到data(i)的位置上。進(jìn)一步,步驟1)開始前,對(duì)data(x1)、data(x2)……data(xn)歸一化處理。本發(fā)明的技術(shù)效果是毋庸置疑的,利用此方法,不必知道數(shù)據(jù)的具體周期,不僅有效得到非邊界缺失值的填充值,也有效得到其他方法不易得到的邊界缺失值的填充值。附圖說明圖1為本發(fā)明的流程圖,部分流程省略。圖2實(shí)施例中的某地區(qū)變壓器A相油溫歸一化數(shù)據(jù)。圖3實(shí)施例中的有缺失值的某地區(qū)變壓器A相油溫?cái)?shù)據(jù)。圖4實(shí)施例中的填充缺失值后的油溫曲線與原始油溫曲線對(duì)比圖。具體實(shí)施方式下面結(jié)合實(shí)施例對(duì)本發(fā)明作進(jìn)一步說明,但不應(yīng)該理解為本發(fā)明上述主題范圍僅限于下述實(shí)施例。在不脫離本發(fā)明上述技術(shù)思想的情況下,根據(jù)本領(lǐng)域普通技術(shù)知識(shí)和慣用手段,做出各種替換和變更,均應(yīng)包括在本發(fā)明的保護(hù)范圍內(nèi)。下面將結(jié)合本發(fā)明實(shí)例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诎l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。本說明書以某地區(qū)變壓器A相溫度油溫120個(gè)數(shù)據(jù)為例,現(xiàn)將數(shù)據(jù)歸一化,如圖2所示。分別剔除了第3、53、61、85、117位數(shù)據(jù),模擬缺失值問題,如圖3所示。在本實(shí)施例中,采用了上述基于相鄰數(shù)據(jù)特征的缺失值填充方法,具體計(jì)算過程如下:1、讀取數(shù)據(jù),檢測(cè)出第3、53、61、85、117位數(shù)據(jù)缺失,最大值為50.21。2、將數(shù)據(jù)都除以50.21,進(jìn)行歸一化。3、以處于第3位的缺失值為例,第17、18、30、35、36、38、51、52、54、69、72、86、90、100、108位數(shù)據(jù)與之近似相等,但符合要求的是第36、69、90位數(shù)據(jù),目標(biāo)數(shù)據(jù)為第37、70、91位數(shù)據(jù),分別是0.90565624、0.90517825、0.86108345,橫坐標(biāo)數(shù)量級(jí)太小就會(huì)致使擬合效果很差,所以,橫坐標(biāo)第一個(gè)數(shù)據(jù)為1,第二個(gè)數(shù)據(jù)為400,第j個(gè)數(shù)據(jù)為398+j的形式。用最小二乘法擬合得到f(x)=-5.659×10-5x+0.9058,可預(yù)測(cè)出歸一化后的第四個(gè)數(shù)據(jù)為f(402)=0.88305082,還原得44.33798。4、得到上述缺失值對(duì)應(yīng)填充值分別為(44.32205,43.13566,50.2100,43.34584,43.22929)。5、將填充值放回對(duì)應(yīng)缺失位置上,如圖4所示,紅色為原數(shù)據(jù),綠色為填充值數(shù)據(jù)。利用此方法計(jì)算的填充值與原數(shù)據(jù)對(duì)比,求出的誤差如表1所示。由表1可以看出,本方法計(jì)算誤差普遍較小,驗(yàn)證了算法的可行性。表1缺失值計(jì)算值及其誤差原數(shù)據(jù)位置序號(hào)缺失值計(jì)算值絕對(duì)誤差相對(duì)誤差44.8470344.33798-0.50902-0.0113543.03205343.135661.305980.0024150.12106150.2100-5.78302-0.0017744.32098543.345840.017080.0113142.381011743.229291.956980.020016當(dāng)前第1頁1 2 3