本發(fā)明涉及污水處理廠進(jìn)水的污水負(fù)荷預(yù)測的
技術(shù)領(lǐng)域:
,具體涉及一種基于向量時間序列模型的污水COD負(fù)荷預(yù)測的方法。
背景技術(shù):
:隨著工業(yè)化程度的不斷提高和人口的增長,城市污水排放量迅速增長,對環(huán)境的影響非常巨大,世界各國都投入大量的資金用于城市污水處理技術(shù)的研究,開發(fā)出了許多新技術(shù)和新工藝,對改善水環(huán)境狀況起了巨大的作用。目前,建造污水處理廠是公認(rèn)的解決水污染現(xiàn)狀的一條有效途徑,各國都在大力興建。但污水處理是一項能量密集型的綜合技術(shù),隨著污水廠的大規(guī)模興建,污染物的排放得到一定程度的控制,但是隨之問題也浮現(xiàn)出來——污水處理設(shè)施的高投資、高運行成本在一定程度上阻礙了污水處理事業(yè)的發(fā)展,許多中小型城市由于資金問題沒有修建污水處理廠,已建成的一些污水廠也因運行成本過高處于停產(chǎn)和半停產(chǎn)狀態(tài)??v觀影響城市污水處理廠建設(shè)發(fā)展的因素,能耗問題是最主要的影響因素,如果不能及時有效的解決,污水處理的發(fā)展會受到很大的阻礙。我國相比于國外同種工藝類型的城市污水處理廠,能耗普遍偏高而且出水水質(zhì)和污泥處理均達(dá)不到發(fā)達(dá)國家的處理水平。清華大學(xué)的錢易教授曾指出傳統(tǒng)活性污泥法流程復(fù)雜、基建費用高、運行中需要很大的能源消耗、運行費用很可觀,我國經(jīng)濟實力和發(fā)達(dá)國家相比較弱,不應(yīng)該直接照搬發(fā)達(dá)國家的經(jīng)驗和技術(shù)來解決自己城市污水處理問題。針對這種現(xiàn)象,通過對處理工藝的深入研究,找出制約因素并提出相應(yīng)的改造方案,節(jié)能的空間是非常大的,這是我國污水處理行業(yè)急需攻克的技術(shù)難題。有效降低污水處理系統(tǒng)的能耗、合理分配能源成為決定污水廠正常運行的關(guān)鍵因素。因此,研究和探索污水處理工藝的節(jié)能技術(shù)和途徑具有非常重要的現(xiàn)實意義。同時,污水的實際處理量與能耗的關(guān)系非常密切,隨著污水處理量的增加,能耗也隨之增加,但是能耗增幅的大小和該污水處理廠的設(shè)備的實際運行狀況有著非常大的關(guān)系。隨著污水處理量的不斷增長以及出水排放標(biāo)準(zhǔn)的日趨嚴(yán)格,如何充分應(yīng)對污水處理廠進(jìn)水負(fù)荷和運行環(huán)境的變化,實現(xiàn)污染物的穩(wěn)定達(dá)標(biāo)并降低運行成本,成為污水處理運行管理所要面對的關(guān)鍵問題。自上世紀(jì)70年代以來,依賴于監(jiān)測設(shè)備(硬件)及控制算法(軟件)的發(fā)展,污水處理儀表、控制和自動化技術(shù)(InstrumentationControlandAutomation,ICA)在污水處理廠日常運行中發(fā)揮著越來越重要的作用。研究及實踐表明,根據(jù)工藝的運行原理及特點,提高污水處理系統(tǒng)ICA技術(shù)的應(yīng)用程度是加強污水處理廠脫氮除磷效果,實現(xiàn)節(jié)能降耗目標(biāo)的有效手段。對污水處理廠而言,進(jìn)水流量及污染物濃度的變化是控制系統(tǒng)所要應(yīng)對的擾動的主要來源。不同于其他工業(yè)生產(chǎn)過程,污水處理廠進(jìn)水負(fù)荷一般不可調(diào)控,其突變性強,波動范圍大,尤其在降雨的影響下,對生化處理系統(tǒng)具有較強的沖擊性。國內(nèi)現(xiàn)有的污水處理中的相關(guān)模型技術(shù),主要集中在污水處理后的水質(zhì)COD、BOD等的預(yù)測和軟測量中,而忽略了進(jìn)水的重要性。實際上,對于污水處理的控制系統(tǒng)而言,出水的污染物濃度達(dá)到國家許可的排放標(biāo)準(zhǔn)是基本目標(biāo),進(jìn)水的污染物負(fù)荷對于控制系統(tǒng)而言則是主要考慮的輸入影響因素。技術(shù)實現(xiàn)要素:本發(fā)明的目的是為了解決現(xiàn)有技術(shù)中的上述缺陷,提供一種基于向量時間序列模型的污水COD負(fù)荷預(yù)測的方法,該方法考慮污水進(jìn)水的水量、水質(zhì)COD等關(guān)聯(lián)變量。本發(fā)明的目的可以通過采取如下技術(shù)方案達(dá)到:一種基于向量時間序列模型的污水COD負(fù)荷預(yù)測的方法,包括下列步驟:S1、基于數(shù)據(jù)建模目標(biāo)的變量選取:利用控制系統(tǒng)采集得到的污水處理廠進(jìn)水的變量進(jìn)行分析,所述變量包括進(jìn)水量、污水COD、NH4N、PH和進(jìn)水溫度T,通過定性分析采集變量與污水COD負(fù)荷的關(guān)聯(lián)和影響程度,選取出對污染物負(fù)荷有影響的變量;S2、對選取變量進(jìn)行數(shù)據(jù)探索:對于步驟S1中選取的對污水COD負(fù)荷相關(guān)的變量進(jìn)行數(shù)據(jù)結(jié)構(gòu)的分析,包括:數(shù)據(jù)質(zhì)量分析和數(shù)據(jù)特征分析;S3、對探索后的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,達(dá)到向量自回歸建模的要求:通過對步驟S2分析的數(shù)據(jù)進(jìn)行數(shù)據(jù)序列的清洗、濾波數(shù)據(jù)的集成、數(shù)據(jù)的變換和新屬性的構(gòu)造、數(shù)據(jù)屬性的規(guī)約、數(shù)據(jù)序列的平穩(wěn)化和零均值化的處理,通過對建模變量的篩選進(jìn)行數(shù)據(jù)的規(guī)約,進(jìn)行規(guī)約篩選確定選取進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷為模型的變量;S4、針對滿足建模要求的數(shù)據(jù)建立污水COD負(fù)荷的預(yù)測模型并進(jìn)行模型的檢驗:利用經(jīng)過數(shù)據(jù)預(yù)處理達(dá)到建模要求的數(shù)據(jù)采用向量時間序列建立污水COD負(fù)荷的VAR預(yù)測模型,并通過采用AIC信息準(zhǔn)則對模型定階,進(jìn)而建立污水COD負(fù)荷的VAR預(yù)測模型,然后利用多元混成統(tǒng)計進(jìn)行模型的有效性檢驗;S5、對建立的污水COD負(fù)荷的預(yù)測模型簡化并優(yōu)化模型的參數(shù):通過目標(biāo)參數(shù)簡化得到簡化模型,同樣采用最大似然估計得到模型的參數(shù)得到優(yōu)化模型;S6、利用準(zhǔn)備的數(shù)據(jù)測試優(yōu)化模型,通過分析預(yù)測結(jié)果進(jìn)行模型的評價:將規(guī)約好的進(jìn)水?dāng)?shù)據(jù)作為污水COD負(fù)荷的預(yù)測模型的輸入,得到進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷的預(yù)測結(jié)果,進(jìn)行結(jié)果的分析并給出模型的相關(guān)評價。進(jìn)一步地,所述數(shù)據(jù)質(zhì)量分析用于檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù)以及無法進(jìn)行直接分析的數(shù)據(jù),所述臟數(shù)據(jù)包括缺失值、異常值以及含有特殊字符的數(shù)據(jù);所述數(shù)據(jù)特征分析通過繪制圖表、計算指定特征量進(jìn)行變量的分布分析來發(fā)現(xiàn)數(shù)據(jù)的分布特征和分布類型,通過統(tǒng)計量分析進(jìn)行數(shù)據(jù)的統(tǒng)計描述,以及周期性分析。進(jìn)一步地,利用單變量的散點圖和箱形圖初步進(jìn)行所述異常值的判斷,同時也利用統(tǒng)計學(xué)的3σ法原則進(jìn)行所述異常值的排查。進(jìn)一步地,所述數(shù)據(jù)序列的清洗具體為:針對所述臟數(shù)據(jù)的處理中少量數(shù)據(jù)的缺失采用單序列的局部回歸擬合插值,針對所述臟數(shù)據(jù)的處理中時間段數(shù)據(jù)的缺失采用所采集的數(shù)據(jù)當(dāng)前時間點的均值填補,針對所述臟數(shù)據(jù)的處理中含有特殊字符的數(shù)據(jù)變換為常數(shù)值,針對所述臟數(shù)據(jù)的處理中異常值采用全局均值進(jìn)行替換;所述濾波數(shù)據(jù)的集成具體為:選取卡爾曼濾波對數(shù)據(jù)序列進(jìn)行濾波處理,接著將所述步驟S1中選取出對污染物負(fù)荷有影響的變量集成為一張數(shù)據(jù)變量表;所述數(shù)據(jù)的變換和新屬性的構(gòu)造具體為:采用濾波后的進(jìn)水量和污水COD的乘積得到污水COD負(fù)荷這個新屬性,新屬性的構(gòu)造計算如下:污水COD負(fù)荷=單位時間進(jìn)水量x進(jìn)水COD(1);所述數(shù)據(jù)屬性的規(guī)約具體為:通過對集成的數(shù)據(jù)進(jìn)行變量的相關(guān)性分析,選取對污水COD負(fù)荷影響明顯的變量進(jìn)行屬性的規(guī)約,剔除對污水COD負(fù)荷影響不顯著的屬性,最后確定模型采用的數(shù)據(jù)是進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷,其中,相關(guān)性分析中采用皮爾遜相關(guān)系數(shù):式中,cov(X,Y)表示兩個邊路間的互協(xié)方差,σX,σY則分別代表自協(xié)方差,E代表的是各個變量的期望;所述數(shù)據(jù)序列的平穩(wěn)化和零均值化處理具體為:首先,采用單位根檢驗法判斷序列的平穩(wěn)性:考慮k維VAR(p)模型,假定表達(dá)式為:式中,是一個p次矩陣多項式,其中,φ0是一個k維常數(shù)向量,并且對于i>0,φi是kxk維矩陣且φi≠0,Ιk是kxk維的單位矩陣,Βi是i階次的后移算子,at是獨立同分布隨機向量序列,其均值為0,協(xié)方差矩陣∑a為正定矩陣,假定序列是平穩(wěn)的,求期望有:(Ιk-φ1-…-φp)μ=[φ(1)]μ=φ0(4)其中,μ=Ε(zt),因此有μ=[φ(1)]-1φ0,則有|Ιk-φΒ|=|φ(Β)|,因此序列VAR(p)弱平穩(wěn)的充分和必要條件是:行列式方程|Ιk-φΒ|=0的所有解的絕對值都大于1,也可以說解的模大于1或者所有的解在單位圓外,如果序列經(jīng)判斷不符合平穩(wěn)性,則需要進(jìn)行差分、取對數(shù)的數(shù)據(jù)變換方法來達(dá)到平穩(wěn)性的要求,然后求取序列的均值,得到零均值的平穩(wěn)序列。進(jìn)一步地,所述步驟S4具體包括:S41、模型參數(shù)估計方法的選用:采用ML估計方法估計VAR(p)模型的參數(shù),對于給定的數(shù)據(jù)集{z1,…,zT},VAR(p)模型的極大似然函數(shù)為式中,是關(guān)于φi的估計值,T是時間序列的樣本數(shù),p是階次,k是模型的維數(shù);S42、模型階次的選擇:利用不同的信息準(zhǔn)則來判定適合的模型階次,所述信息準(zhǔn)包括AIC準(zhǔn)則、BIC準(zhǔn)則和HQ準(zhǔn)則,在正態(tài)分布假設(shè)下,VAR(p)模型的AIC準(zhǔn)則、BIC準(zhǔn)則和HQ準(zhǔn)則分別如下:其中,則是上式討論的Σa的ML估計;S43、模型的多元混成統(tǒng)計檢驗:進(jìn)行模型檢驗,對模型的準(zhǔn)確性進(jìn)行判斷,其中,模型的準(zhǔn)確性判斷準(zhǔn)則包括:<1>、所有擬合參數(shù)都是統(tǒng)計顯著的,即在給定的顯著水平α下;<2>、殘差沒有顯著序列或橫截面積相關(guān);<3>、不存在結(jié)構(gòu)變化或反常值;<4>、殘差沒有破壞數(shù)據(jù)序列的原始分布假設(shè)。本發(fā)明相對于現(xiàn)有技術(shù)具有如下的優(yōu)點及效果:1、本發(fā)明采取的數(shù)據(jù)處理和建模的一系列步驟是一種常用且重要的數(shù)據(jù)挖掘建模的步驟,而向量自回歸模型(VAR)又是多元時間序列模型中最常用的模型,結(jié)合數(shù)據(jù)挖掘建立時間序列的模型對擁有大量數(shù)據(jù)的污水處理廠來說,是非常適合采用的方法。2、采用的向量自回歸模型(VAR),模型相對容易估計,可以用最小二乘(LS)方法、極大似然(ML)方法或者貝葉斯方法;同時VAR模型與廣泛應(yīng)用在多元統(tǒng)計分析中的多因變量多元線性回歸模型相似,易于理解和采用。3、不同于單序列的時間序列模型(ARMA等),向量自回歸模型不僅考慮了自身的影響,同時考慮了對其具有影響的變量,在當(dāng)前具有大量數(shù)據(jù)的影響下對于建立更加精確的模型是相當(dāng)有助益的。4、本發(fā)明利用向量自回歸模型(VAR)建立的污水COD負(fù)荷模型,在對進(jìn)水COD負(fù)荷預(yù)測的同時,也同時預(yù)測了進(jìn)水量和進(jìn)水COD,不僅即時反映了污水進(jìn)水的相關(guān)情況,也對于污水處理廠的控制系統(tǒng)的實施提供了便利,同時為污水處理廠進(jìn)一步節(jié)能降耗提供了前提。附圖說明圖1是本發(fā)明公開的基于向量自回歸模型VAR(p)的污水COD負(fù)荷預(yù)測的模型建立的流程圖;圖2是經(jīng)過初步數(shù)據(jù)預(yù)處理達(dá)到建模要求的進(jìn)水COD負(fù)荷的一階差分的時間序列趨勢圖;圖3是經(jīng)過初步數(shù)據(jù)預(yù)處理達(dá)到建模要求的進(jìn)水量的一階差分的時間序列趨勢圖;圖4是經(jīng)過初步數(shù)據(jù)預(yù)處理達(dá)到建模要求的進(jìn)水COD的一階差分的時間序列趨勢圖;圖5是建模序列VAR模型不同階次的三種信息準(zhǔn)則隨階次增大的變化趨勢圖;圖6是建模序列初始VAR(5)的Qk(m)統(tǒng)計量的p值和m的散點圖;圖7是建模序列簡化VAR(5)的Qk(m)統(tǒng)計量的p值和m的散點圖;圖8是圖1所述方法的進(jìn)水COD負(fù)荷的一階差分序列的預(yù)測殘差的結(jié)果圖;圖9是圖1所述方法的進(jìn)水量一階差分序列的預(yù)測殘差的結(jié)果圖;圖10是圖1所述方法的進(jìn)水COD的一階差分序列的預(yù)測殘差的結(jié)果圖。具體實施方式為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護(hù)的范圍。實施例一本實施例公開了一種基于向量自回歸模型(VAR)的多元時間序列的預(yù)測方法,該方法是一種采用相互關(guān)聯(lián)變量過去的趨勢對當(dāng)前和未來影響的判斷方法,包含以下步驟:S1、基于數(shù)據(jù)建模目標(biāo)的變量選?。豪每刂葡到y(tǒng)采集得到的污水處理廠進(jìn)水的變量進(jìn)行分析,所述變量包括進(jìn)水量、污水COD、NH4N、PH和進(jìn)水溫度T,通過定性分析采集變量與污染物負(fù)荷的關(guān)聯(lián)和影響程度,選取出對污染物負(fù)荷有影響的變量;該步驟基于“污水COD負(fù)荷預(yù)測”這一數(shù)據(jù)建模目標(biāo)進(jìn)行變量選取,利用控制系統(tǒng)采集得到的污水處理廠進(jìn)水的變量進(jìn)行初步分析,結(jié)合污水處理廠實際情況采集進(jìn)水量、污水COD、NH4N、PH和進(jìn)水溫度T等變量,通過定性分析采集變量與污水COD負(fù)荷的關(guān)聯(lián)和影響程度,選取出上述對污水COD負(fù)荷有影響的變量。通過從工藝的角度和案例選取的污水廠實際情況選取了關(guān)于污水的進(jìn)水量、進(jìn)水COD、NH4N、PH和進(jìn)水溫度T等變量作為初步選取的對污水COD負(fù)荷影響的輸入變量。S2、對選取與污水COD負(fù)荷相關(guān)變量進(jìn)行數(shù)據(jù)探索:對于步驟S1中選取的對污水COD(化學(xué)需氧量,ChemicalOxygenDemand)負(fù)荷相關(guān)的變量進(jìn)一步進(jìn)行數(shù)據(jù)結(jié)構(gòu)的分析,主要包括:數(shù)據(jù)質(zhì)量分析和數(shù)據(jù)特征分析;其中,數(shù)據(jù)質(zhì)量分析用于檢查原始數(shù)據(jù)中是否存在臟數(shù)據(jù)(臟數(shù)據(jù)主要指的是缺失值、異常值以及含有特殊字符的數(shù)據(jù)等),以及無法進(jìn)行直接的相應(yīng)分析的數(shù)據(jù);數(shù)據(jù)特征分析通過繪制圖表、計算某些特征量等手段進(jìn)一步進(jìn)行變量的分布分析來發(fā)現(xiàn)數(shù)據(jù)的分布特征和分布類型,統(tǒng)計量分析進(jìn)行數(shù)據(jù)的統(tǒng)計描述,以及周期性分析等。具體應(yīng)用中,步驟S2對進(jìn)水?dāng)?shù)據(jù)的探索包含以下的幾個詳細(xì)的步驟:步驟S21、數(shù)據(jù)質(zhì)量的分析,主要是查找序列中的臟數(shù)據(jù):由于控制系統(tǒng)傳感器的敏感性等各種干擾原因?qū)е碌纳倭繑?shù)據(jù)的缺失,傳感器的損壞或者信號中斷等原因?qū)е碌臅r間段數(shù)據(jù)的缺失,部分含有單位等特殊字符的變量數(shù)據(jù);步驟S22、主要根據(jù)數(shù)據(jù)的圖形進(jìn)行初步的數(shù)據(jù)特征分析:利用單變量的散點圖和箱形圖初步進(jìn)行異常值的判斷,同時也利用統(tǒng)計學(xué)的3σ法原則進(jìn)行異常值的排查。S3、對探索后的數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理,達(dá)到向量自回歸建模的要求:數(shù)據(jù)預(yù)處理一方面是要提高數(shù)據(jù)的質(zhì)量,另一方面是可以更加貼切地適應(yīng)所采用的挖掘模型。通過對步驟S2分析的數(shù)據(jù)進(jìn)行數(shù)據(jù)序列的清洗、濾波數(shù)據(jù)的集成以及數(shù)據(jù)的變換和新屬性的構(gòu)造、數(shù)據(jù)屬性的規(guī)約來得到需要的數(shù)據(jù),主要針對臟數(shù)據(jù)進(jìn)行缺失值的填補、異常值的替換,同時為了排除干擾進(jìn)行濾波處理,為了滿足采用模型的要求需要進(jìn)行的數(shù)據(jù)序列的平穩(wěn)化和零均值化的處理,以及通過對建模變量的篩選進(jìn)行數(shù)據(jù)的規(guī)約,進(jìn)行規(guī)約篩選確定選取進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷為模型的變量;該步驟具體包括:步驟S31、數(shù)據(jù)序列的清洗:通過步驟S2對數(shù)據(jù)質(zhì)量和數(shù)據(jù)特征的分析,針對性地進(jìn)行數(shù)據(jù)的清洗。步驟S21中臟數(shù)據(jù)的處理——少量數(shù)據(jù)的缺失,這里采用單序列的局部回歸擬合插值;時間段數(shù)據(jù)的缺失則采用所采集的數(shù)據(jù)當(dāng)前時間點的均值填補;含有特殊字符的數(shù)據(jù)變換為常數(shù)值。步驟S22的異常值采用全局均值進(jìn)行替換;步驟S32、濾波數(shù)據(jù)的集成:為了排除測量的干擾需要對數(shù)據(jù)序列進(jìn)行濾波處理,這里提供采用均值濾波、中值濾波或卡爾曼濾波等不同的濾波方法的效果對比,結(jié)合實際案例的工藝情況選取卡爾曼濾波為案例濾波方法,接著將步驟S1選取的變量集成為一張數(shù)據(jù)變量表;S33、數(shù)據(jù)的變換和新屬性的構(gòu)造:考慮污水COD負(fù)荷這一變量無法進(jìn)行數(shù)據(jù)的采集,需要進(jìn)行屬性的構(gòu)造——采用濾波后的進(jìn)水量和污水COD這2個屬性的乘積得到污水COD負(fù)荷這個新的屬性,新屬性的構(gòu)造計算:污水COD負(fù)荷=單位時間進(jìn)水量x進(jìn)水COD(1)S34、數(shù)據(jù)屬性的規(guī)約:通過對集成的數(shù)據(jù)進(jìn)行變量的關(guān)聯(lián)性分析——相關(guān)性分析,選取對污水COD負(fù)荷影響比較明顯的變量進(jìn)行屬性的規(guī)約,剔除對污水COD負(fù)荷影響不夠顯著的屬性,最后確定模型采用的數(shù)據(jù)是進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷這三個屬性。采用的是熟知的皮爾遜相關(guān)系數(shù):式中,cov(X,Y)表示兩個邊路間的互協(xié)方差,σX,σY則分別代表自協(xié)方差,E代表的是各個變量的期望。S35、數(shù)據(jù)序列的平穩(wěn)化和零均值化處理:平穩(wěn)序列一般滿足下列兩個條件——(a)、序列的均值是與時間無關(guān)的常數(shù);(b)、序列的協(xié)方差矩陣是常數(shù)正定矩陣,即一個弱平穩(wěn)序列的均值和協(xié)方差不依賴于時間T,從而構(gòu)成弱平穩(wěn)時間序列。這里采用常用的單位根檢驗法判斷序列的平穩(wěn)性:考慮k維VAR(p)模型,假定表達(dá)式為:式中,是一個p次矩陣多項式。其中,φ0是一個k維常數(shù)向量,并且對于i>0,φi是kxk維矩陣且φi≠0,Ιk是kxk維的單位矩陣,Βi是i階次的后移算子,at是獨立同分布隨機向量序列,其均值為0,協(xié)方差矩陣∑a為正定矩陣。假定序列是平穩(wěn)的,求期望有:(Ιk-φ1-…-φp)μ=[φ(1)]μ=φ0(4)其中,與式(1)中同樣的表達(dá)式代表一樣的含義,而μ=Ε(zt),因此有μ=[φ(1)]-1φ0則有|Ιk-φΒ|=|φ(Β)|,因此序列VAR(p)弱平穩(wěn)的充分和必要條件是行列式方程|Ιk-φΒ|=0的所有解的絕對值都大于1,也可以說解的模大于1或者它們所有的解在單位圓外。如果序列經(jīng)判斷不符合平穩(wěn)性,則需要進(jìn)行差分(通常是一階差分或者二階差分就滿足平穩(wěn)性)、取對數(shù)等數(shù)據(jù)變換來達(dá)到平穩(wěn)性的要求,然后求取序列的均值,得到零均值的平穩(wěn)序列。S4、針對滿足建模要求的數(shù)據(jù)建立污水COD負(fù)荷的預(yù)測模型并進(jìn)行模型的檢驗:利用經(jīng)過數(shù)據(jù)預(yù)處理達(dá)到建模要求的數(shù)據(jù)采用向量時間序列建立污水COD負(fù)荷的VAR預(yù)測模型,并通過采用AIC等信息準(zhǔn)則對模型定階,進(jìn)而建立污水COD負(fù)荷的VAR預(yù)測模型,然后利用多元混成統(tǒng)計進(jìn)行模型的檢驗;該步驟具體包括:S41、模型參數(shù)估計選用的方法:一個VAR(p)模型可通過最小二乘(LS)、極大似然(ML)或者貝葉斯估計方法來估計模型的參數(shù)。在多元正態(tài)假設(shè)下,zt服從k維正態(tài)分布,VAR(p)模型的ML估計和LS估計近似相等,這里采用ML估計方法。對于給定的數(shù)據(jù)集{z1,…,zT},VAR(p)模型的極大似然函數(shù)為式中,是關(guān)于φi的估計值,T是時間序列的樣本數(shù),p是階次,k是模型的維數(shù)。S42、模型階次的選擇:設(shè)定VAR模型并選擇了模型參數(shù)的估計方法后,需要參考不同的方法來確定模型的階次p。通常模型階次是不斷試探出來的,在不斷試探的過程中取確定比較適合的模型階次。通常采用的方法就是利用不同的信息準(zhǔn)則來判定適合的模型階次,信息準(zhǔn)則在選擇一個統(tǒng)計模型中是非常有效的,所有的信息準(zhǔn)則都包含兩部分(第一部分是關(guān)于數(shù)據(jù)模型的擬合優(yōu)度,而第二部分是懲罰更復(fù)雜模型)。最著名的信息準(zhǔn)則有3個(AIC準(zhǔn)則、BIC準(zhǔn)則和HQ準(zhǔn)則),在正態(tài)分布假設(shè)下,VAR(p)模型的3個準(zhǔn)則:其中的參數(shù)同以上各式的含義一樣,則是上式討論的Σa的ML估計。AIC是Akaike(1973)提出來的赤池信息準(zhǔn)則,BIC代表Schwarz(1978)的貝葉斯信息準(zhǔn)則,HQ是由Han和Quinn(1979)以及Quinn(1980)提出的。AIC用因子2來懲罰每個參數(shù),而BIC和HQ采用的懲罰因子依賴于樣本數(shù)——T越大,BIC和HQ更加嚴(yán)重地懲罰復(fù)雜模型。S43、模型的多元混成統(tǒng)計檢驗:初步確定模型的階次之后,需要進(jìn)行模型檢驗,也就是眾所周知的診斷檢驗或者說殘差分析,這在模型建立中發(fā)揮著重要的作用。模型檢驗主要包括:(a)、確保擬合模型的準(zhǔn)確性;(b)、如果有實際需要,通過分析給出模型進(jìn)一步改進(jìn)的方向——根據(jù)選擇的信息準(zhǔn)則來判斷模型的準(zhǔn)確性,會依賴分析結(jié)果,模型的準(zhǔn)確性主要從以下幾點來說明:<1>、所有擬合參數(shù)都是統(tǒng)計顯著的(在給定的顯著水平α下);<2>、殘差沒有顯著序列或橫截面積相關(guān);<3>、不存在結(jié)構(gòu)變化或反常值;<4>、殘差沒有破壞數(shù)據(jù)序列的原始分布假設(shè)(諸如多元正態(tài)分布)等。準(zhǔn)確模型的殘差應(yīng)該是白噪聲序列,因而檢驗殘差連續(xù)性以及交叉相關(guān)性就成為模型檢驗的重要組成部分。令Rp是at的理論之后p的交叉相關(guān)矩陣,模型檢驗的相關(guān)假設(shè)為:H0:R1=…=Rm與Ha:Rj≠0,對于某些1≤j≤m(9)其中,m是預(yù)先設(shè)定的正整數(shù),進(jìn)而得到殘差序列的混成統(tǒng)計量:它是服從自由度為(m-p)k2的卡方分布。S5、對建立的模型簡化并優(yōu)化模型的參數(shù):通過步驟S4的多元混成統(tǒng)計檢驗?zāi)P偷挠行?,然后通過目標(biāo)參數(shù)簡化得到的模型,同樣采用最大似然估計得到模型的參數(shù),從而進(jìn)一步得到優(yōu)化模型;對模型的簡化:事實上,經(jīng)常觀測到的有些參數(shù)在給定的顯著水平下統(tǒng)計不顯著,而剔除不顯著參數(shù)有利于簡化模型,尤其是當(dāng)沒有先驗知識用于支持這些參數(shù)時,就需要剔除這些參數(shù)。給定特定的顯著水平,例如α=0.05,可以識別要剔除的目標(biāo)參數(shù)。所謂目標(biāo)參數(shù),是指這些參數(shù)各自的T比率小于可允許的α的正態(tài)分布的臨界值。S6、利用準(zhǔn)備的數(shù)據(jù)測試優(yōu)化模型,通過分析預(yù)測結(jié)果進(jìn)行模型的評價:將規(guī)約好的進(jìn)水?dāng)?shù)據(jù)作為污水COD負(fù)荷的預(yù)測模型的輸入,得到進(jìn)水量、進(jìn)水COD和污水COD負(fù)荷的預(yù)測結(jié)果,進(jìn)行結(jié)果的分析并給出模型的相關(guān)評價。該步驟中通過利用測試樣本進(jìn)行數(shù)據(jù)預(yù)測,給出預(yù)測結(jié)果的展示和分析,來判斷模型的適用性。得到較為準(zhǔn)確的模型并進(jìn)行模型檢驗之后,接著進(jìn)行步驟S6用測試樣本數(shù)據(jù)來進(jìn)行模型測預(yù)測效果檢測,并給出預(yù)測結(jié)果的展示和分析,最終得到確定模型適用性的結(jié)論。上述方法中,主要考慮的是步驟S3中的數(shù)據(jù)預(yù)處理和步驟S4中的模型定階兩個方面:(a)、數(shù)據(jù)預(yù)處理不夠好,影響模型的探索和模型的準(zhǔn)確性;(b)、模型階次判斷的不夠準(zhǔn)確,則直接影響模型的穩(wěn)定性和預(yù)測的效果。實施例二如圖1,一種基于向量時間序列的污水COD負(fù)荷的預(yù)測方法,包含以下的建模和模型評價步驟:1、通過從某污水處理廠的控制系統(tǒng)獲取的污水進(jìn)水量的數(shù)據(jù)庫,里面包含2016年第二季度5月和6月的所有數(shù)據(jù),結(jié)合污水處理的A2O工藝和數(shù)據(jù)庫采集的數(shù)據(jù)變量,選取了與污水污染物負(fù)荷相關(guān)聯(lián)的諸如進(jìn)水量、進(jìn)水COD、進(jìn)水NH4N、進(jìn)水PH和進(jìn)水水溫T等變量;2、接著進(jìn)行數(shù)據(jù)探索的過程,首先查看數(shù)據(jù)的質(zhì)量:A、對于選取的5個變量,最先開始也是易于查看的就是數(shù)據(jù)的缺失值,通過對5月和6月數(shù)據(jù)的初步查看,發(fā)現(xiàn)5月的數(shù)據(jù)缺失嚴(yán)重,從而選擇6月比較全的部分(2016年6月4日到2016年6月23日)數(shù)據(jù)作進(jìn)一步的分析。同時,短期COD測量的值比較穩(wěn)定,從而考慮采集頻率1h的數(shù)據(jù),獲得的原始數(shù)據(jù)經(jīng)過初步的整理,特殊字符的加工后的結(jié)果由附表1可以查看;B、附表1中的進(jìn)水量代表的是安裝測量表以來總的進(jìn)水處理量,為了得到單位1h內(nèi)的進(jìn)水量,我們需要進(jìn)行一階差分獲取單位時間的進(jìn)水量這一屬性;同時,對于各變量序列中局部少量缺失值進(jìn)行局部線性擬合插補,局部缺失值連續(xù)量過多的部分,則采用單位時間點的數(shù)據(jù)的均值插補;由于無法直接采集污水COD負(fù)荷這一屬性,因而我們需要采用式(1)來構(gòu)造和獲取單位時間污水COD負(fù)荷這一屬性,從而獲取了如附表2的集成的初步樣本數(shù)據(jù)。C、對于集成的樣本數(shù)據(jù)zt={lt,ft,ct,nt,pt,tt}(其中zt表示向量時間序列,括號內(nèi)則分別代表是污水COD負(fù)荷、進(jìn)水量、COD、NH4N、PH和溫度T的單時間序列),利用式(2)的皮爾遜相關(guān)系數(shù)進(jìn)行變量間的相關(guān)性分析,變量間的相關(guān)性如表1所示。表1.污水COD負(fù)荷變量間的相關(guān)系數(shù)相關(guān)系數(shù)COD負(fù)荷進(jìn)水量進(jìn)水COD進(jìn)水NH4N進(jìn)水PH進(jìn)水水溫TCOD負(fù)荷10.6630.6390.1260.2150.167進(jìn)水量0.6631-0.1510.2750.2340.039進(jìn)水COD0.639-0.1511-0.1130.0520.185進(jìn)水NH4N0.1260.275-0.11310.450-0.015進(jìn)水PH0.2150.2340.0520.4501-0.193進(jìn)水水溫T0.1670.0390.185-0.015-0.1931D、由相關(guān)系數(shù)表進(jìn)行屬性規(guī)約,從而確定模型采用污水COD負(fù)荷、進(jìn)水量、進(jìn)水COD三個屬性為模型的輸入zt={lt,ft,ct}(t=1,…,n)。E、接著進(jìn)行模型的平穩(wěn)性檢驗,根據(jù)式(3)和式(4)利用單位根ADF檢驗法檢驗,向量時間序列不滿足平穩(wěn)性,而一階差分zt0'=zt-zt-1(t=2,…,n)的向量時間序列則滿足向量時間序列的平穩(wěn)性,進(jìn)一步對平穩(wěn)化的向量時間序列進(jìn)行零均值化處理zt'=zt0'-φ0,從而得到符合建模要求的向量時間序列(按照3:1的比例,數(shù)據(jù)分為建模數(shù)據(jù)和測試數(shù)據(jù)),滿足建模要求的污水COD負(fù)荷向量時間序列的趨勢圖見附圖2至圖4。3、設(shè)定向量時間序列的模型為VAR(p)模型,接著需要確定的是模型的階次,對于向量時間序列,考慮公式(3)展開的VAR(p)模型:zt=φ0+φ1zt-1+…+φpzt-p+at,t=p+1,…,T(11)設(shè)定不同的階次p,然后利用公式(5)的ML估計計算模型的參數(shù),求取不同階次下的信息準(zhǔn)則的大小,得到不同階次下的信息準(zhǔn)則如表2所示。表2.不同階次p對應(yīng)的模型的信息準(zhǔn)則表pAICBICHQP值0-0.739-0.739-0.73901-1.770-1.6911.73902-1.809-1.653-1.7480.00013-1.870-1.635-1.77804-2.180-1.867-2.05705-2.300-1.908-2.14606-2.305-1.835-2.1210.02337-2.304-1.755-2.0880.06518-2.734-1.747-2.12709-2.385-1.680-2.1080.010410-2.429-1.645-2.1210.000111-2.432-1.570-2.090.041012-2.489-1.548-2.119013-2.538-1.519-2.1380應(yīng)用三種不同的信息準(zhǔn)則,允許選取的最大階為13:AIC準(zhǔn)則最優(yōu)的階次p=13,而BIC和HQ準(zhǔn)則選取的最優(yōu)階次p=5,表2總結(jié)了這些統(tǒng)計量。這表明,對于多元時間序列,不同的準(zhǔn)則將選取不同的階次,然而這些統(tǒng)計量是估計的,所以某種程度上的取值就不是太嚴(yán)格。附圖5給出了3個信息準(zhǔn)則的時序圖,對于p∈{1,2,3,4,5},AIC一直在減小,而BIC和HQ的趨勢相同,在p=5顯示最小,之后的階次BIC和HQ的p值不斷增大。而觀察后續(xù)的階次,發(fā)現(xiàn)AIC隨著階次的增大不斷較小,但是并沒有很明顯的優(yōu)勢,同時考慮到階次p越高,待估計的參數(shù)越多,參數(shù)估計的難度也隨之增大,不確定增加,從而VAR(5)將作為三維時間序列的開始模型。利用ML對參數(shù)進(jìn)行估計,得到VAR(5)模型的參數(shù)矩陣:從而可以得到初始VAR(5)模型的表達(dá)式:zt=φ0+φ1zt-1+φ2zt-2+φ3zt-3+φ4zt-4+φ5zt-5+at(12)其中,殘差協(xié)方差矩陣為初步模型的AIC=-2.146,BIC=-1.754,HQ=-1.991。同時,得到初步的模型之后,需要進(jìn)行模型檢驗:利用多元混成統(tǒng)計量來檢驗殘差交叉相關(guān)性,附圖6詳細(xì)給出了統(tǒng)計量的Q5(m)的p值。因為有48個參數(shù),所以Qk(m)卡方分布的自由度為9m-48。因此,如果m≥5,近似卡方分布成立。但是根據(jù)附圖4,Q5(m)統(tǒng)計量并非如此,反而在m≥6顯示殘差沒有強序列和交叉相關(guān)性。說明殘差檢驗并不合格,需要進(jìn)一步進(jìn)行模型的參數(shù)優(yōu)化,也表明求取的模型確實存在某些參數(shù)在給定的α=0.05的顯著水平上是統(tǒng)計不顯著的的。根據(jù)卡方統(tǒng)計量,用α=0.05來識別目標(biāo)參數(shù),得到簡化模型的參數(shù)矩陣:此時的殘差協(xié)方差矩陣為查看簡化后的模型,發(fā)現(xiàn)簡化后的模型參數(shù)由原來的48個減少到37,大大降低了模型估計的難度。同時簡化后的模型中AIC=-1.187,BIC=-0.865,HQ=-1.060。對于本案例,簡化模型的所有3個信息準(zhǔn)則反而有所增加的值。而此時污水COD負(fù)荷的簡化模型VAR(5)為再次利用多元混成統(tǒng)計來檢驗殘差交叉相關(guān)性。如附圖7詳細(xì)給出了統(tǒng)計量Q5(m)的p值,觀察此時的圖形發(fā)現(xiàn),Qk(m)統(tǒng)計量表明VAR(5)模型已經(jīng)不存在強序列或交叉相關(guān)性了。從而,上述污水COD負(fù)荷簡化模型VAR(5)對于負(fù)荷的預(yù)測是合適的。4.利用得到的模型對測試的數(shù)據(jù)進(jìn)行預(yù)測,同時檢驗?zāi)P偷念A(yù)測能力,從而進(jìn)一步對模型進(jìn)行評價。利用測試數(shù)據(jù)得到預(yù)測結(jié)果。利用簡化后的VAR(5)模型得到的預(yù)測殘差很小,殘差效果如附圖8至圖10所示,模型預(yù)測的精度比較高,而且同時也達(dá)到了預(yù)測多個變量的便利和要求。從整體上來看,建立的模型能夠使用污水COD負(fù)荷的要去,而且依賴項的進(jìn)水量和進(jìn)水COD通過在線傳感器的測量也比較方便,可以說模型是很適用的。上述實施例為本發(fā)明較佳的實施方式,但本發(fā)明的實施方式并不受上述實施例的限制,其他的任何未背離本發(fā)明的精神實質(zhì)與原理下所作的改變、修飾、替代、組合、簡化,均應(yīng)為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。當(dāng)前第1頁1 2 3