專利名稱:一種復(fù)雜水位過(guò)程的擬合方法
技術(shù)領(lǐng)域:
本發(fā)明涉及水文學(xué)及水資源領(lǐng)域,具體是一種復(fù)雜水位過(guò)程的擬合方法。
背景技術(shù):
水情預(yù)報(bào)中需要根據(jù)歷史數(shù)據(jù),建立有效的關(guān)系模型,特別是對(duì)于水情復(fù)雜的河流, 建立關(guān)系模型的難度是很大的。
以黃河為例,黃河下游汛期水沙觀測(cè)數(shù)據(jù)中的內(nèi)在關(guān)系,有很強(qiáng)的復(fù)雜性。其一, 相對(duì)水少沙多。黃河中游的三門峽水文站多年年平均含沙量35kg/m3、輸沙量約16億噸, 同時(shí)黃河泥沙顆粒很細(xì),有時(shí)河水甚至呈泥漿狀態(tài);其二,水、沙時(shí)空分布不均。全年 60%的水量和80%的泥沙集中來(lái)自汛期,汛期又主要來(lái)自幾場(chǎng)暴雨洪水。
這些特殊性使其汛期水位表現(xiàn)出很強(qiáng)的不同特征。第一,同期同斷面相同流量(不 同時(shí)刻)的水位能相差0.6m以上;第二,在上游斷面相同水位的兩個(gè)洪峰演進(jìn)到下游 時(shí),表現(xiàn)出來(lái)的水位能相差0.2m以上;第三,斷面水位陡升陡降。由于問(wèn)題本身的復(fù) 雜性,世界上在黃河水沙過(guò)程有效擬合方面的研究較少。
在黃河下游復(fù)雜水位過(guò)程的擬合方面, 一些文獻(xiàn)采用了水文學(xué)、水力學(xué)的模型,申 請(qǐng)人在研究中也使用過(guò)半?yún)?shù)、非線性高維回歸等模型和方法,擬合效果均不理想。改 進(jìn)了多元統(tǒng)計(jì)中的方差分析后,擬合效果較為明顯,但計(jì)算過(guò)于復(fù)雜,且需取得影響因 素值分別相同條件下(不同時(shí)刻),相應(yīng)響應(yīng)變量的(不同)值。
工程問(wèn)題中常常出現(xiàn)這樣的情況, 一些影響因素的耦合,對(duì)響應(yīng)變量產(chǎn)生了顯著更 強(qiáng)的影響(如耦合共振)。
統(tǒng)計(jì)學(xué)的理論和方法,都是有針對(duì)性地分析數(shù)據(jù)中的某類規(guī)律。多項(xiàng)式回歸提供了 模型結(jié)構(gòu)的選擇之一,但應(yīng)用中模型普適性往往較差;逐步回歸能剔除回歸不顯著的項(xiàng) 得到最優(yōu)回歸模型,但未考慮影響因素的強(qiáng)耦合作用;非線性回歸給出了模型中已存在 的非線性關(guān)系項(xiàng)的處理方式,不能給出非線性項(xiàng)的形式;當(dāng)模型構(gòu)成項(xiàng)間存在多重相關(guān) 性時(shí),嶺估計(jì)可以比最小二乘估計(jì)提供模型參數(shù)的更穩(wěn)定的方差也更小的估計(jì),但也不 能給出非線性項(xiàng)的形式等。
許多工程問(wèn)題的內(nèi)在規(guī)律很復(fù)雜,在分析這些規(guī)律時(shí),僅使用一兩種理論或方法往 往難以取得好的效果。這時(shí)需要針對(duì)具體問(wèn)題特點(diǎn),將幾個(gè)同類理論和方法的長(zhǎng)處有機(jī) 集成,引進(jìn)必要的新的處理,并從理論上使處理過(guò)程完善,形成能有效分析該類問(wèn)題內(nèi) 在規(guī)律的新方法。
發(fā)明內(nèi)容
本發(fā)明所要解決的技術(shù)問(wèn)題是提供一種復(fù)雜水位過(guò)程的擬合方法一分層變換篩選 擬合法,該方法能有效分離出顯著非線性耦合擾動(dòng),提高模型精度。 本發(fā)明所述的復(fù)雜水位過(guò)程的擬合方法,包括以下步驟
1) 針對(duì)水位過(guò)程7的擬合,確定y的所有可能影響因素A,…,A,并按影響因素 與相應(yīng)水位對(duì)應(yīng)的原則整理相應(yīng)的原始數(shù)據(jù);由整理出的數(shù)據(jù),依A,…,A兩兩間散 點(diǎn)圖或線性相關(guān)系數(shù),剔除A,…,A間的共線性關(guān)系,設(shè)剔除共線性關(guān)系后,剩余的 影響因素為 0z ^");
2) 依y分別與&,, A兩兩間散點(diǎn)圖體現(xiàn)的關(guān)系,對(duì)Z", A中與y間是非線 性關(guān)系的因素作線性化變換,并以變換后的形式取代原影響因素,與不需變換的原影響 因素一起作為基本參量,組成多元回歸多項(xiàng)式;
3) 依各基本參量與各復(fù)合非線性項(xiàng)兩兩之間的散點(diǎn)圖或線性相關(guān)系數(shù),剔除回歸 多項(xiàng)式中各階項(xiàng)之間的共線性關(guān)系;
4) 依剩余各復(fù)合非線性項(xiàng)與y兩兩間散點(diǎn)圖體現(xiàn)的關(guān)系,對(duì)與y間是非線性關(guān)系 的復(fù)合非線性項(xiàng)作線性化變換,并以變換后形式完全取代回歸多項(xiàng)式中的相應(yīng)復(fù)合非線 性項(xiàng);
5) 依剩余各階項(xiàng)與y兩兩間散點(diǎn)圖或線性相關(guān)系數(shù),剔除所有對(duì)y影響不顯著的 項(xiàng),得擬合模型;
6) 以嶺估計(jì)法計(jì)算擬合模型參數(shù),并檢驗(yàn)擬合效果。
本發(fā)明考慮了工程問(wèn)題中常見(jiàn)的弱影響因素間的耦合對(duì)響應(yīng)變量的強(qiáng)作用,其最大 限度地綜合使用剔除共線性、線性化變換、剔除弱影響項(xiàng)等,有效降低了模型誤差。該 方法有機(jī)集成了多個(gè)理論和方法的長(zhǎng)處,且使用方便。本方法的每一步都有充分的理論 保證其合理性、必要性,有著同類擬合問(wèn)題下的普遍適用性。
圖l是y與《關(guān)系散點(diǎn)圖2是y與^關(guān)系散點(diǎn)圖3是/與1/ A關(guān)系散點(diǎn)圖4是7與義4關(guān)系散點(diǎn)圖; 圖5是y與xlx4關(guān)系散點(diǎn)圖; 圖6是y與x2/x3關(guān)系散點(diǎn)圖。
41、本發(fā)明的具體步驟如下
步驟l針對(duì)水位過(guò)程y的擬合,確定y的所有可能影響因素A,…,A,并按影 響因素與相應(yīng)水位對(duì)應(yīng)的原則整理相應(yīng)的原始數(shù)據(jù)。由整理出的數(shù)據(jù),依A,…,^兩 兩間散點(diǎn)圖或線性相關(guān)系數(shù),剔除A, , A間的共線性關(guān)系。
這里不要剔除任何有相應(yīng)觀測(cè)數(shù)據(jù)的可能影響因素,因?yàn)榭紤]到這些因素狀態(tài)的不 同搭配,可能產(chǎn)生對(duì)/的聯(lián)合強(qiáng)作用。
影響因素間共線性關(guān)系,表明這些因素間有幾乎完全相同的物理意義,只保留其中 有樣本觀察值,且形式相對(duì)簡(jiǎn)單的因素。
設(shè)剔除共線性關(guān)系后,剩余的影響因素為A,…,^G^")。
步驟2依y分別與A,, ^兩兩間散點(diǎn)圖體現(xiàn)的關(guān)系,對(duì)A,, ^中與y間 是非線性關(guān)系的因素作線性化變換[18'19]。并以變換后的形式取代原影響因素,與不需變 換的原影響因素一起作為基本參量,組成多元回歸多項(xiàng)式。
工程問(wèn)題的有解性,使回歸多項(xiàng)式一般能成立。三階及以上高階項(xiàng)在工程問(wèn)題中一 般難以找到對(duì)應(yīng)的物理解釋, 一般略去三階及以上項(xiàng)。為敘述方便,二階及二階以上項(xiàng) 稱為復(fù)合非線性項(xiàng)。
步驟3依各基本參量與各復(fù)合非線性項(xiàng)兩兩之間的散點(diǎn)圖或線性相關(guān)系數(shù),剔除 回歸多項(xiàng)式中各階項(xiàng)之間的共線性關(guān)系。
這時(shí)的共線性關(guān)系中剔除復(fù)合非線性項(xiàng)。
步驟4依剩余各復(fù)合非線性項(xiàng)與y兩兩間散點(diǎn)圖體現(xiàn)的關(guān)系,對(duì)與y間是非線性
關(guān)系的復(fù)合非線性項(xiàng)作線性化變換。并以變換后形式完全取代回歸多項(xiàng)式中的相應(yīng)復(fù)合 非線性項(xiàng)。
由于組成這里復(fù)合非線性項(xiàng)的基本參量,有的是已作過(guò)線性化變換的,所以對(duì)這里 復(fù)合非線性項(xiàng)所作的變換稱為累進(jìn)變換。
對(duì)于與/間是線性關(guān)系的復(fù)合非線性項(xiàng),也可作適當(dāng)變換,使之與y間線性關(guān)系更 強(qiáng),這樣可以更進(jìn)一步提高最終模型精度。
步驟5依剩余各階項(xiàng)與y兩兩間散點(diǎn)圖或線性相關(guān)系數(shù),剔除所有對(duì)y影響不顯 著的項(xiàng),得擬合模型。這時(shí)應(yīng)剔除模型構(gòu)成項(xiàng)中所有影響不顯著的項(xiàng)。 步驟6以嶺估計(jì)法計(jì)算擬合模型參數(shù),并檢驗(yàn)擬合效果。
這里模型構(gòu)成項(xiàng)間很可能有較強(qiáng)的相關(guān)性。因此選用嶺估計(jì)將能給出使模型精度更高的參數(shù)估計(jì),且?guī)X估計(jì)往往比最小二乘估計(jì)更穩(wěn)定,盡管嶺估計(jì)的期望與真實(shí)參數(shù)值 間有微小偏差。
擬合模型中復(fù)合非線性項(xiàng)的樣本值,由相應(yīng)原始影響因素的樣本值按數(shù)學(xué)關(guān)系確定。
先保留弱影響因素,累次剔除共線性項(xiàng),累進(jìn)線性化變換,變換后形式取代相應(yīng)項(xiàng) 構(gòu)成模型等等,這些非常用方法的有機(jī)綜合采用,使得本文所提方法顯著區(qū)別于現(xiàn)有同 類方法。
考慮到工程問(wèn)題中大量存在的耦合作用,注意步驟5不可在前面執(zhí)行。方法中步驟 1 5都能適當(dāng)消除最終模型的隨機(jī)誤差,特別是2、 4步。
為敘述方便,上述六步體現(xiàn)的完整方法稱為分層變換篩選擬合法。概括起來(lái)說(shuō)即, 引進(jìn)變量并僅剔除影響因素間共線性,線性化與/是非線性關(guān)系的因素并引進(jìn)多元回歸 多項(xiàng)式,剔除回歸多項(xiàng)式中共線性,線性化與y是非線性關(guān)系的復(fù)合非線性項(xiàng),剔除回 歸多項(xiàng)式中所有線性趨勢(shì)不顯著的項(xiàng),以嶺估計(jì)計(jì)算模型參數(shù)。這六步的次序不能顛倒。 2、以下是采用本發(fā)明對(duì)黃河下游復(fù)雜水位過(guò)程的擬合,據(jù)以說(shuō)明本方法的有效性。 黃河中下游河床沖刷和淤積都很劇烈,其水文過(guò)程中隱含的水文規(guī)律很復(fù)雜。 2.1確定待擬合水位過(guò)程和相應(yīng)影響因素,按相應(yīng)原則整理對(duì)應(yīng)數(shù)據(jù) 依水文和泥沙學(xué)科相關(guān)理論,黃河下游上監(jiān)測(cè)斷面出現(xiàn)某水體時(shí),該水體的相應(yīng)下 游水位/的影響因素有該水體在上斷面出現(xiàn)時(shí)的水位《、含沙量A、水沙系數(shù)^和下 游同時(shí)水位義4。這里義3與a以及a與義2關(guān)聯(lián)較強(qiáng),a與^有一定關(guān)聯(lián)。^在泥沙學(xué)科 中稱為水沙系數(shù),體現(xiàn)單位流量水流的挾沙量。
由于擬合模型需進(jìn)一步用于預(yù)報(bào),這里考慮相應(yīng)下游水位y的擬合。借助上下游相 應(yīng)水位過(guò)程線,按各影響因素與相應(yīng)水位_K的對(duì)應(yīng),精確摘錄到黃河花園口-夾河灘間 某年7與《、A、 A、 A的對(duì)應(yīng)值見(jiàn)表l。該年汛期最大含沙量在150 kg/m3以上,屬于 典型復(fù)雜的年份。
經(jīng)相應(yīng)散點(diǎn)圖分析,A、 A、 A、 A兩兩間均沒(méi)有共線性關(guān)系。
表l黃河下游某年y與A、 X2、 A、 X4的實(shí)測(cè)數(shù)據(jù)及擬合結(jié)果
上監(jiān)測(cè)斷面下監(jiān)澳lj斷面
序Date時(shí)刻義2x4Date時(shí)刻-y/m絕對(duì)誤差
號(hào)/m/(kg/m3)/m實(shí)測(cè)值擬合值/m
1711180091.925.320扁173.34712120073.3573.2816-0.0684
271260092.7222.40.009573.3171380074.0374.0021-0.0279
3714200092.6911.20.004973.84715200074.0574.08080.0308
4715180092.098.350.009874.05716160073.6473.6274-0.0126
5716120092.3810.005973.6771740073.7173.79450.0845671880092.026.10.008273.4171950073.3873.45260.0726
772020092.7926.530.008473.89720180074.3574.2426-0.1074
87211600921858.170.056574.0772280073.7873.7244-0.0556
9722120092.43153.190081173857232007473.98■0.0200
10723120092.451310.066273.8772440073.9274.00580.0858
118212009318270.005374.37821172074.5874.5661-00139
12822200093.1241.520細(xì)974.5382380074.5174.54220.0322
絕對(duì)誤差絕對(duì)侑最大值 0.1074 絕對(duì)誤差絕對(duì)值平均值 0.0509 絕對(duì)誤差方差_O.,
注表中日期711即7月11日,時(shí)刻1800、 1720分別為18時(shí)0分和17時(shí)20分,余類推。
2. 2線性化與/間是非線性關(guān)系的影響因素,并引進(jìn)多元多項(xiàng)式 y分別與A、 A、 1/&、 A兩兩間散點(diǎn)關(guān)系見(jiàn)圖l 4,圖1 4中縱坐標(biāo)均為y值。圖 l有比較明確的線性趨勢(shì),圖2主體部分有一定的線性趨勢(shì),圖3是帶寬較大的線性趨 勢(shì)(因?yàn)?與A間有一些弱的雙曲線趨勢(shì)),圖4也是帶寬偏大的線性趨勢(shì)。根據(jù)分層 變換篩選擬合法要求,以1/^取代X3作進(jìn)一步分析。圖廣4可見(jiàn)y與《、a、 a、 Ai間 均無(wú)共線性關(guān)系,且均取兩個(gè)以上的不同值。依分層變換篩選擬合法步驟2,取《、a、 lAr3、 A作為基本參量構(gòu)成y的四元回歸多項(xiàng)式(1)。
少=00十a(chǎn)^+a2x2+fl3(l/jc3) + cr4;c4+fl6x2 +"7(1"3)2+"8x4 + <39;^2 +0^。:^ /x3十a(chǎn)uJCj;x:4 +a12;c2 /;r3 +a13x2;c4 +a14x4 /x3 +f (1)
式中a,, /=0, 1,…,14為待定參數(shù),f為隨機(jī)誤差。
2. 3剔除基本參量與復(fù)合非線性項(xiàng)間的所有共線性關(guān)系
力與^、義4與義/間各是拋物線關(guān)系,但每年汛期a、 a的值均分別只在離零點(diǎn)較遠(yuǎn),
且相對(duì)較小的范圍內(nèi)變動(dòng)(參見(jiàn)表l),這一拋物線在這一小定義區(qū)間上幾乎是直線段。 A、 X4變化的特點(diǎn),也使xa、義2義4相當(dāng)于在義2上分別乘上兩個(gè)不同的常數(shù)。事實(shí)上,& 與V、 A與;t42、義2與;^2(或義274)、 1/義3與;^/力(或&/義3)之間的線性相關(guān)系數(shù)均在 0.9999以上,也就是說(shuō),他們之間各是共線性關(guān)系,故剔除相對(duì)復(fù)雜的六個(gè)復(fù)合非線性 項(xiàng)。經(jīng)檢驗(yàn),式(1)中等號(hào)右側(cè),四個(gè)基本參量和四個(gè)剩余復(fù)合非線性項(xiàng)《a、 a/x3、 W、 1/義/兩兩間無(wú)共線性關(guān)系。
2. 4對(duì)與/間是非線性關(guān)系的剩余復(fù)合非線性項(xiàng)累進(jìn)變換
/與義a散點(diǎn)分布參見(jiàn)圖5,有較強(qiáng)線性趨勢(shì)。/與義2/73散點(diǎn)分布參見(jiàn)圖6,總體上 有明顯非線性對(duì)數(shù)關(guān)系。故變換;t2/;r3為ln""),并以lnU/W取代義2/& 。
/與W散點(diǎn)關(guān)系總體特征類似圖2, 7與1/義32散點(diǎn)關(guān)系總體特征類似圖3,均顯示 關(guān)系較弱。
2.5選擇線性趨勢(shì)顯著的各項(xiàng),并給出擬合模型
7綜上及表2中7與各項(xiàng)間線性相關(guān)系數(shù),取a、 ^4、 ln0r2/;f3)三項(xiàng)構(gòu)成/的擬合 模型
y = Z>0 +6,;^ +6 4 +63 ln(jc2 /x3) + e (2) 其中A,…,/%為待定參數(shù),都有相應(yīng)量綱。e為模型誤差。
表2 :v與四個(gè)基本參量及四個(gè)剩余復(fù)合非線性項(xiàng)兩兩間線性相關(guān)系數(shù)
乂ll/x3X4早4jc2/x3ln(jc2/x3)X22 1/X32
0.97250.18540.23070.70360.92410.95530.97920.0632 — 0.0266
2.6確定擬合模型參數(shù)
將復(fù)合非線性項(xiàng)看成新變量,依嶺估計(jì)計(jì)算擬合模型參數(shù),計(jì)算中嶺參數(shù)的確定采 用方差膨脹因子法。得7的擬合模型見(jiàn)式(3),擬合效果參見(jiàn)表1中擬合值和絕對(duì)誤差。 7=66. 3997—0. 091198 ^ +0. 00183257 ^^+0. 46400697 ln0r2/;r3) (3)
取黃河下游花園口-夾河灘、夾河灘-高村兩對(duì)斷面,較長(zhǎng)系列(連續(xù)20余年)各 年汛期的水沙觀測(cè)數(shù)據(jù),分別用黃河下游水位預(yù)報(bào)模型及其應(yīng)用(芮孝芳,陳潔云,常 星源,等.黃河下游水位預(yù)報(bào)模型及其應(yīng)用.水科學(xué)進(jìn)展,1998, 9(3) :245-250);水 位演算模型及其在水位預(yù)報(bào)中的應(yīng)用(黃國(guó)如,朱慶平,馬俊,等.水位演算模型及其 在水位預(yù)報(bào)中的應(yīng)用.水文,2(1999): 1-6. ); I模型方程與數(shù)值方法(張紅武,黃遠(yuǎn) 東,趙連軍,等.黃河下游非恒定輸沙數(shù)學(xué)模型——I模型方程與數(shù)值方法.水科學(xué)進(jìn) 展,2002, (3): 265-271.)等中的模型和方法擬合,所得模型精度都比本發(fā)明明顯要 低。數(shù)據(jù)中隱含的水文規(guī)律很復(fù)雜,模擬效果顯著也說(shuō)明了本文所提方法的科學(xué)性。
2. 7擬合模型中復(fù)合非線性項(xiàng)物理意義解釋
a義4是上游水位與下游同時(shí)水位的耦合項(xiàng)。^/X3實(shí)質(zhì)上是上游流量,上游流量與相 應(yīng)下游水位是對(duì)數(shù)關(guān)系符合物理背景。
工程問(wèn)題中有這樣一類研究指標(biāo),其特點(diǎn)是,多個(gè)影響因素中有一些是顯著的,另 一些的單獨(dú)作用不一定顯著,但當(dāng)它們達(dá)到某種耦合時(shí),對(duì)研究指標(biāo)的耦合作用會(huì)很顯 著,同時(shí)研究指標(biāo)與其影響因素的實(shí)測(cè)不同值都在兩個(gè)以上。在擬合這類研究指標(biāo)時(shí), 本文給出的分層變換篩選擬合法更適宜。本方法與同類方法的核心區(qū)別,在于考慮了工 程問(wèn)題中常見(jiàn)的弱影響因素間的耦合,對(duì)響應(yīng)變量的強(qiáng)作用;最大限度地綜合使用剔除 共線性、線性化變換、剔除弱影響項(xiàng)等,有效降低模型誤差;并進(jìn)行必要的累進(jìn)變換。 該方法有機(jī)集成了多個(gè)理論和方法的長(zhǎng)處,且使用方便。方法的每一步都有充分的理論 保證其合理性、必要性,有著同類擬合問(wèn)題下的普遍適用性。
權(quán)利要求
1、一種復(fù)雜水位過(guò)程的擬合方法,其特征在于包括以下步驟1)針對(duì)水位過(guò)程y的擬合,確定y的所有可能影響因素x1,…,xn,并按影響因素與相應(yīng)水位對(duì)應(yīng)的原則整理相應(yīng)的原始數(shù)據(jù);由整理出的數(shù)據(jù),依x1,…,xn兩兩間散點(diǎn)圖或線性相關(guān)系數(shù),剔除x1,…,xn間的共線性關(guān)系,設(shè)剔除共線性關(guān)系后,剩余的影響因素為z1,…,zm(m≤n);2)依y分別與z1,…,zm兩兩間散點(diǎn)圖體現(xiàn)的關(guān)系,對(duì)z1,…,zm中與y間是非線性關(guān)系的因素作線性化變換,并以變換后的形式取代原影響因素,與不需變換的原影響因素一起作為基本參量,組成多元回歸多項(xiàng)式;3)依各基本參量與各復(fù)合非線性項(xiàng)兩兩之間的散點(diǎn)圖或線性相關(guān)系數(shù),剔除回歸多項(xiàng)式中各階項(xiàng)之間的共線性關(guān)系;4)依剩余各復(fù)合非線性項(xiàng)與y兩兩間散點(diǎn)圖體現(xiàn)的關(guān)系,對(duì)與y間是非線性關(guān)系的復(fù)合非線性項(xiàng)作線性化變換,并以變換后形式完全取代回歸多項(xiàng)式中的相應(yīng)復(fù)合非線性項(xiàng);5)依剩余各階項(xiàng)與y兩兩間散點(diǎn)圖或線性相關(guān)系數(shù),剔除所有對(duì)y影響不顯著的項(xiàng),得擬合模型;6)以嶺估計(jì)法計(jì)算擬合模型參數(shù),并檢驗(yàn)擬合效果。
全文摘要
本發(fā)明公開(kāi)了一種復(fù)雜水位過(guò)程的擬合方法——分層變換篩選擬合法,其將多項(xiàng)式回歸、逐步回歸、參數(shù)的嶺估計(jì)等有機(jī)集成,并引進(jìn)累進(jìn)變換,系統(tǒng)形成了一個(gè)新方法。本方法與同類方法的核心區(qū)別,在于考慮了復(fù)雜水位過(guò)程中常見(jiàn)的弱影響因素間的強(qiáng)耦合作用;綜合采用了多種方法最大限度地降低擬合模型誤差;并引進(jìn)了必要的累進(jìn)變換。本方法有機(jī)集成了多個(gè)理論和方法的長(zhǎng)處,且使用方便,有著同類復(fù)雜擬合問(wèn)題下的普遍適用性。
文檔編號(hào)G01F23/00GK101644595SQ20091003411
公開(kāi)日2010年2月10日 申請(qǐng)日期2009年9月1日 優(yōu)先權(quán)日2009年9月1日
發(fā)明者吳吉春, 袁永生 申請(qǐng)人:南京大學(xué)