本發(fā)明涉及自動氣象站實(shí)時采集數(shù)據(jù)的質(zhì)量控制領(lǐng)域,特別發(fā)明了一種對自動氣象站實(shí)時采集氣溫數(shù)據(jù)的質(zhì)量控制方法。
背景技術(shù):
近年來,地面氣象觀測站的數(shù)量不斷增加,地面自動氣象站具有站點(diǎn)分布密集、地形差異大、測站環(huán)境惡劣等分布特點(diǎn),決定了觀測數(shù)據(jù)存在系統(tǒng)誤差、隨機(jī)誤差、粗大誤差和微氣象誤差,這會影響自動氣象站觀測數(shù)據(jù)的質(zhì)量,從而對氣候變化、氣候模式的研究及短期數(shù)值天氣預(yù)報的精度產(chǎn)生影響。所以,需要對采集的數(shù)據(jù)進(jìn)行質(zhì)量控制。我國現(xiàn)有的三級質(zhì)量控制業(yè)務(wù)從臺站級的基本控制到數(shù)據(jù)中心的綜合控制,從內(nèi)部一致性到時空一致性的控制,可以有效地提高數(shù)據(jù)的質(zhì)量,但是這其中的隨機(jī)誤差和微氣象誤差較難甄別,而這會影響自動氣象站觀測數(shù)據(jù)的質(zhì)量。
傳統(tǒng)的基于機(jī)器學(xué)習(xí)構(gòu)建“鄰站-被檢站”預(yù)測模型時,一般是按照固定的半徑選擇鄰站的個數(shù),一些相關(guān)性不大的鄰站帶來冗余信息,帶來一些不必要的誤差,不僅增加模型的訓(xùn)練時間,還降低了模型的精度。所以,本發(fā)明設(shè)計(jì)引入主成分分析,選擇具有貢獻(xiàn)率較大的鄰站作為模型的輸入;同時,為進(jìn)一步提高模型的精度,考慮粒子群算法的全局優(yōu)化能力,運(yùn)用粒子群對極限學(xué)習(xí)機(jī)的輸入權(quán)值和隱層偏置進(jìn)行優(yōu)化,提高預(yù)測模型的精度。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于主成分分析和改進(jìn)極限學(xué)習(xí)機(jī)的地面氣溫觀測資料質(zhì)量控制方法,解決了目前質(zhì)量控制方法不能消除隨機(jī)誤差、系統(tǒng)誤差、微氣象誤差的問題,提高了自動氣象站實(shí)時觀測氣溫的質(zhì)量。
本發(fā)明采用的技術(shù)方案為:一種基于主成分分析(PCA)和改進(jìn)極限學(xué)習(xí)機(jī)(PSO-ELM)的自動氣象站實(shí)時數(shù)據(jù)質(zhì)量控制方法,該方法包括以下步驟:
步驟1:采集被檢站及90KM范圍內(nèi)m個鄰站在被檢t時刻氣溫x(t),及t時刻前某一長度的小時數(shù)據(jù)構(gòu)成氣溫時間序列{xi(t′)|t′=1,2,…,n;i=1,2,…,m},其中t為實(shí)時采樣時間,t′為歷史采樣時間,兩者滿足關(guān)系t′=t-n+1,n為歷史采樣時間的長度。
步驟2:對步驟1中采集的m個鄰站歷史氣溫{xi(t′)|t′=1,2,…,n;i=1,2,…,m}進(jìn)行主成分分析,得到去冗余的、特征分量提取的目的。首先,對{xi(t′)|t′=1,2,…,n;i=1,2,…,m}進(jìn)行標(biāo)準(zhǔn)化處理,得到消除量綱和數(shù)值差異的影響;然后,建立相關(guān)矩陣R,及其特征值{λi|i=1,2,…,m}和特征向量{vi|i=1,2,…,m};接著,計(jì)算方差貢獻(xiàn)率{μi|i=1,2,…,m}和累積方差貢獻(xiàn)率{μ∑(i)|i=1,2,…,m},按照累積貢獻(xiàn)方差大于75%~95%的前p作為主成分個數(shù);最后,得到p個主成分分量
步驟3:根據(jù)步驟2得到的主成分分量與步驟1歷史采樣信號x(t′),按照對應(yīng)原則,構(gòu)建映射樣本集,即其中,訓(xùn)練集、測試集為前(n-1)個。經(jīng)過訓(xùn)練、測試得到在被檢時刻、在歷史高維信號下的PSO-ELM氣溫重建模型,即
步驟4:在步驟3中得到的PSO-ELM氣溫重建模型中輸入得到被檢時刻氣溫的重建值xest(t),即完成去冗余后氣溫的重建。
步驟5:將t時刻去冗余重建氣溫值xest(t)與采樣值x(t)進(jìn)行比較,若兩者滿足條件修正公式|x(t)-xest(t)|≤δ,δ為條件修正閾值,則通過質(zhì)量檢測;否則,認(rèn)為該觀測數(shù)據(jù)存疑,用去噪重構(gòu)值修正實(shí)際觀測值,即x(t)=xest(t)。
步驟6:令t=t+1,重復(fù)步驟1到步驟5,完成對歷史觀測氣溫主分量提取、實(shí)時氣溫重建及疑誤修正的質(zhì)量控制過程。
作為優(yōu)選,所述步驟2中,鄰站歷史氣溫{xi(t′)|t′=1,2,…,n;i=1,2,…,m}標(biāo)準(zhǔn)化處理依公其中i=1,2,…,n;j=1,2,…,m;sj為{xi(t′)|t′=1,2,…,n;i=1,2,…,m}的均值和方差。相關(guān)矩陣R按照公式R=(xi)Txi/(n-1)計(jì)算。方差貢獻(xiàn)率和累積方差貢獻(xiàn)率分別按照公式和計(jì)算。主成分分析得到的p個主分量按照公式計(jì)算,其中
作為優(yōu)選,所述步驟3中,在PSO-ELM氣溫重建模型中,按照3:1比例隨機(jī)分配訓(xùn)練和測試樣本。
作為優(yōu)選,所述步驟5中,條件修正閾值δ按照公式δ=f*S計(jì)算,其中f為質(zhì)控參數(shù),與實(shí)際質(zhì)控效果相關(guān);S=rmse(x(t′)為t時刻歷史采樣信號{x(t′)|t′=1,2,…,n}的均方根誤差。
與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:
通過主成分分析對固定鄰站范圍內(nèi)的氣溫資料進(jìn)行分析,使得在重構(gòu)氣溫預(yù)測模型的輸入成分減少,提高了質(zhì)量控制的速度;通過粒子群算法對極限學(xué)習(xí)機(jī)輸入權(quán)值和隱層偏置的優(yōu)化選擇,提高了重建模型的泛化性能和精度。這些都進(jìn)而提高了數(shù)據(jù)質(zhì)量,為資料同化系統(tǒng)提供一個無偏的初始化觀測場,便于氣候和氣象的研究及短期數(shù)值天氣預(yù)報精度的提高。
附圖說明
圖1為本發(fā)明方法的流程框圖。
圖2為某被檢站90KM內(nèi)的鄰站某被檢時刻對應(yīng)歷史資料序列。
圖3為主成分分析中各個鄰站的累積方差貢獻(xiàn)率。
圖4為主成分分析得到的主成分鄰站資料序列。
圖5為粒子群改進(jìn)極限學(xué)習(xí)機(jī)的流程圖。
圖6為南京58238站2008年某月采樣氣溫觀測數(shù)據(jù)與本發(fā)明方法質(zhì)量控制后的對比圖。
圖7a-7c為本發(fā)明方法與主成分分析-極限學(xué)習(xí)機(jī)重建質(zhì)量控制、極限學(xué)習(xí)機(jī)重建質(zhì)量控制方法在平均絕對誤差、均方根誤差和納什效率系數(shù)上的比較結(jié)果圖。
具體實(shí)施方式
下面結(jié)合附圖和具體實(shí)施方式對本發(fā)明做進(jìn)一步說明。
按照本發(fā)明方法的流程框圖,如圖1所示,首先采集被檢站被檢時刻氣溫值和歷史參考資料,及對應(yīng)90KM范圍內(nèi)的鄰站氣溫及歷史參考資料;然后,對鄰站歷史氣溫數(shù)據(jù)進(jìn)行主成分分析,得到組成分鄰站;接著,運(yùn)用粒子群改進(jìn)的極限學(xué)習(xí)機(jī)構(gòu)建“鄰站-被檢站”預(yù)測模型,輸入當(dāng)前時刻鄰站的觀測氣溫,得到被檢站被檢時刻的氣溫估計(jì)值;最后,比較采集值與估計(jì)值,進(jìn)行條件修正,完成質(zhì)量控制。
以下將對南京編號為58238站2008年1月份地面氣溫觀測資料進(jìn)行實(shí)施例分析,進(jìn)一步說明本發(fā)明:
步驟1:采集被檢站及90KM范圍內(nèi)9個鄰站(58235、58237、58340、58339、58242、58341、58344、58342、58345)在被檢t時刻氣溫x(t),及t時刻前某一長度的小時數(shù)據(jù)構(gòu)成氣溫時間序列{xi(t′)|t′=1,2,…,480;i=1,2,…,9},如圖2所示,其中t為實(shí)時采樣時間,t′為歷史采樣時間,兩者滿足關(guān)系t′=t-n+1,n為歷史采樣時間的長度,本例取歷史資料20天,即n=480。
步驟2:對步驟1中采集的9個鄰站歷史氣溫{xi(t′)|t′=1,2,…,480;i=1,2,…,9}進(jìn)行組成分分析,得到去冗余的、特征分量提取的目的。首先,對{xi(t′)|t′=1,2,…,480;i=1,2,…,9}進(jìn)行標(biāo)準(zhǔn)化處理,得到消除量綱和數(shù)值差異的影響;然后,建立相關(guān)矩陣R,及其特征值{λi|i=1,2,…,9}和特征向量{vi|i=1,2,…,9};接著,計(jì)算方差貢獻(xiàn)率{μi|i=1,2,…,9}和累積方差貢獻(xiàn)率{μ∑(i)|i=1,2,…,9},按照累積貢獻(xiàn)方差大于85%~95%的前6作為主成分個數(shù),如圖3所示;最后,得到6個主成分分量如圖4所示。
步驟3:根據(jù)步驟2得到的主成分分量與步驟1歷史采樣信號x(t′),按照對應(yīng)原則,構(gòu)建映射樣本集,即其中,訓(xùn)練集、測試集為前479個。經(jīng)過訓(xùn)練、測試得到在被檢時刻、在歷史高維信號下的PSO-ELM氣溫重建模型,PSO-ELM氣溫重建模流程圖如圖5所示,即
步驟4:在步驟3中得到的PSO-ELM氣溫重建模型中輸入得到被檢時刻氣溫的重建值xest(t),即完成去冗余后氣溫的重建。
步驟5:將t時刻去冗余重建氣溫值xest(t)與采樣值x(t)進(jìn)行比較,若兩者滿足條件修正公式|x(t)-xest(t)|≤δ,δ為條件修正閾值,則通過質(zhì)量檢測;否則,認(rèn)為該觀測數(shù)據(jù)存疑,用去噪重構(gòu)值修正實(shí)際觀測值,即x(t)=xest(t)。
步驟6:令t=t+1,重復(fù)步驟1到步驟5,完成對歷史觀測氣溫主分量提取、實(shí)時氣溫重建及疑誤修正的質(zhì)量控制過程,圖6為58238站2008年一月份檢錯數(shù)據(jù)和采集數(shù)據(jù)對比。
其中,步驟2中,鄰站氣溫歷史數(shù)據(jù){xi(t′)|t′=1,2,…,480;i=1,2,…,9}標(biāo)準(zhǔn)化處理按照公式計(jì)算,其中i=1,2,…,480;j=1,2,…,9;sj為{xi(t′)|t′=1,2,…,480;i=1,2,…,9}的均值和方差。相關(guān)矩陣R按照公式R=(xi)Txi/(n-1)計(jì)算。方差貢獻(xiàn)率和累積方差貢獻(xiàn)率分別按照公式和計(jì)算。主成分分析得到的p個主分量按照公式計(jì)算,其中
步驟3中,在PSO-ELM氣溫重建模型中,按照3:1比例隨機(jī)分配訓(xùn)練和測試樣本。
步驟5中,條件修正閾值δ按照公式δ=f*S計(jì)算,其中f為質(zhì)控參數(shù),與實(shí)際質(zhì)控效果相關(guān),經(jīng)過多次試驗(yàn)選擇4;S=rmse(x(t′)為t時刻歷史采樣信號{x(t′)|t′=1,2,…,480}的均方根誤差,本實(shí)施為1.34。
上述實(shí)施例分析表明本發(fā)明方法具有實(shí)際可行性,為了進(jìn)一步比較本發(fā)明方法具有的優(yōu)越性,運(yùn)用美國NOAA國家氣候數(shù)據(jù)中心同時段再分析氣溫數(shù)據(jù)作為分析數(shù)據(jù),分別計(jì)算本發(fā)明方法(方法一)與主成分分析-極限學(xué)習(xí)機(jī)重建質(zhì)控法(方法二)和極限學(xué)習(xí)機(jī)重建質(zhì)量控制法(方法三)在平均絕對誤差、均方根誤差和納什效率系數(shù)上差異,如圖7a-c所示。從圖7a-c中可以明顯看出,本發(fā)明方法的三種指標(biāo)均好于其他兩種方法。
綜述,可以得到這樣的結(jié)論:本發(fā)明方法質(zhì)量控制效果明顯,可以提高自動氣象站實(shí)時采集數(shù)據(jù)的質(zhì)量。
應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。本實(shí)施例中未明確的各組成部分均可用現(xiàn)有技術(shù)加以實(shí)現(xiàn)。