本發(fā)明涉及大氣重污染預(yù)報(bào)技術(shù)領(lǐng)域,具體涉及一種基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)方法及裝置。
背景技術(shù):
近年來隨著社會(huì)經(jīng)濟(jì)的快速發(fā)展和工業(yè)化、城市化進(jìn)程的加速,復(fù)合型大氣污染問題日益突出,嚴(yán)重威脅人民群眾的身體健康和生態(tài)安全,已成為社會(huì)各界高度關(guān)注和亟待解決的重大環(huán)境問題。我國城市空氣污染嚴(yán)重,全國約五分之一的城市空氣污染嚴(yán)重。2014年在第一批實(shí)施新標(biāo)準(zhǔn)的74個(gè)城市中,空氣質(zhì)量達(dá)標(biāo)的城市數(shù)量僅為8個(gè)。城市空氣污染開始由煤煙型向煤煙型和機(jī)動(dòng)車尾氣型污染相復(fù)合轉(zhuǎn)變。此外,灰霾等區(qū)域性大氣污染頻發(fā),在夏秋季節(jié)頻繁發(fā)生光化學(xué)煙霧污染,大氣臭氧濃度以全球最快速度增長,遠(yuǎn)遠(yuǎn)超過國家環(huán)境空氣質(zhì)量標(biāo)準(zhǔn),超過歐盟警報(bào)值的事件也時(shí)有發(fā)生。
在空氣質(zhì)量預(yù)報(bào)方面,自2013年新空氣質(zhì)量標(biāo)準(zhǔn)(aqi)實(shí)施以來,全國環(huán)保形勢發(fā)生了日新月異的變化,公眾對于空氣質(zhì)量信息的訴求日益提升,我國環(huán)保監(jiān)測系統(tǒng)、氣象局、部分科研院所均陸續(xù)開展了空氣質(zhì)量預(yù)報(bào)研究。在已經(jīng)開展空氣質(zhì)量業(yè)務(wù)預(yù)報(bào)的業(yè)務(wù)中,采用的技術(shù)架構(gòu)普遍有數(shù)值預(yù)報(bào)、統(tǒng)計(jì)預(yù)報(bào)和專家預(yù)報(bào)三種方法,數(shù)值預(yù)報(bào)則主要以wrf或mm5驅(qū)動(dòng)的美國cmaq、camx、wrf-chem以及中科院大氣所的naqpms等模式為主,很多地方集成了不止一個(gè)數(shù)值模式??諝赓|(zhì)量波動(dòng)較小的地區(qū),模式預(yù)報(bào)的可采納程度較高;空氣質(zhì)量短期大幅變化的地區(qū),如華北平原,對污染過程的趨勢性和程度預(yù)測是預(yù)報(bào)難點(diǎn)之一。而各機(jī)構(gòu)數(shù)值模型采用的物理化學(xué)機(jī)制各異,在華北區(qū)域不同重污染過程預(yù)報(bào)中互有所長,但預(yù)報(bào)結(jié)果波動(dòng)較大,難以實(shí)現(xiàn)優(yōu)勢互補(bǔ)。統(tǒng)計(jì)預(yù)報(bào)方法采用時(shí)間序列分析(如arma、arima、svm、ann等模型)訓(xùn)練出歷史上污染與天氣條件的演化規(guī)律,預(yù)報(bào)未來空氣質(zhì)量,其應(yīng)用廣泛,準(zhǔn)確率和計(jì)算效率較高,但對歷史資料的依賴性較大,并且無法整體考慮區(qū)域性的重污染過程,缺乏一定的物理意義。專家預(yù)報(bào)主要是預(yù)報(bào)專家綜合污染和氣象的條件,進(jìn)行人工識別,但是這種方法過分依賴專家的個(gè)人判斷,大部分情況下專家僅僅能夠提供粗略的干黏性的判斷依據(jù),并不是非常準(zhǔn)確。
為進(jìn)一步對區(qū)域典型重污染過程時(shí)期的各類大氣污染物濃度、天氣形勢類型、氣象要素等因子進(jìn)行綜合分析研判,全面評估區(qū)域重污染過程的影響范圍、持續(xù)時(shí)間、輸送擴(kuò)散以及可能原因,急需建立區(qū)域典型重污染的案例庫,建立重污染與上述各因子之間的相關(guān)關(guān)系與概念模型,對未來可能發(fā)生的區(qū)域性重污染過程進(jìn)行研判,以支持大氣重污染應(yīng)急管理決策。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明要解決的技術(shù)問題是提供一種基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)方法及裝置,其能夠提高預(yù)報(bào)目標(biāo)區(qū)域未來選定時(shí)段是否有重污染且準(zhǔn)確率高。
為解決上述技術(shù)問題,本發(fā)明提供技術(shù)方案如下:
一種基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)方法,包括:
步驟1:根據(jù)收集的目標(biāo)區(qū)域各監(jiān)測站點(diǎn)監(jiān)測到的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù),建立目標(biāo)區(qū)域的歷史重污染序列案例庫,該案例庫中的序列由氣象要素?cái)?shù)據(jù)組成;
步驟2:根據(jù)預(yù)報(bào)的目標(biāo)區(qū)域未來某時(shí)段內(nèi)的氣象要素?cái)?shù)據(jù),獲取未來該時(shí)段的序列;
步驟3:將獲取的未來該時(shí)段的序列與所述歷史重污染序列案例庫中的序列進(jìn)行相似度對比,判別目標(biāo)區(qū)域未來該時(shí)段的重污染情況。
進(jìn)一步的,所述步驟1包括:
步驟11:收集目標(biāo)區(qū)域各監(jiān)測站點(diǎn)監(jiān)測到的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù);
步驟12:根據(jù)所述污染指標(biāo)數(shù)據(jù),選取污染條件下的氣象要素?cái)?shù)據(jù);
步驟13:對選取的氣象要素?cái)?shù)據(jù)進(jìn)行歸一化處理,建立目標(biāo)區(qū)域所有的歷史污染序列;
步驟14:計(jì)算任意兩個(gè)歷史污染序列之間的相似度并得出所有歷史污染序列中兩兩歷史污染序列之間的相似度組成的相似度矩陣;
步驟15:根據(jù)所述相似度矩陣計(jì)算得出任一歷史污染序列相對于其他所有歷史污染序列的相似性值;
步驟16:選取前k個(gè)最大的相似性值所對應(yīng)的歷史污染序列為聚類序列,作為表征重污染程度的核序列,并且把這k個(gè)相似性值中最小的相似性值設(shè)為閾值τ,從而完成建立所述歷史重污染序列案例庫。
進(jìn)一步的,所述步驟14包括:
步驟141:首先取兩個(gè)歷史污染序列,設(shè)為p=(p1,p2,…,pn)和q=(q1,q2,…,qm),長度分別為n和m,利用動(dòng)態(tài)規(guī)劃與遞歸的方式計(jì)算得到序列p與序列q之間的距離dist(n,m);
步驟142:計(jì)算序列p與序列q之間的相似度s:
其中,α為歸一化系數(shù),|p|和|q|分別為序列p和q的長度;
由此得到所有歷史污染序列中兩兩歷史污染序列之間的相似度組成的相似度矩陣a,
其中,sij為歷史污染序列i與歷史污染序列j之間的相似度,h為歷史污染序列的數(shù)量,1≤i≤h,1≤j≤h。
進(jìn)一步的,所述步驟3進(jìn)一步為:計(jì)算未來該時(shí)段的序列與所述歷史重污染序列案例庫中的每個(gè)序列之間的相似度并判斷該相似度與所述閾值τ之間的大小關(guān)系,若其中只要有一個(gè)相似度大于所述閾值τ,則判別未來該時(shí)段會(huì)有重污染,否則判別沒有。
進(jìn)一步的,所述步驟1中,污染指標(biāo)包括pm2.5和pm10,氣象要素包括溫度、濕度、風(fēng)速、氣壓、邊界層高度和逆溫。
進(jìn)一步的,所述步驟13包括:
采用歸一化處理建立目標(biāo)區(qū)域所有的歷史污染序列時(shí),首先所有歷史污染序列中的氣象要素的順序保持一致,之后各個(gè)監(jiān)測站點(diǎn)的順序按空間上從北往南,從西向東的經(jīng)緯度坐標(biāo)排序,最后按時(shí)間順序排序。
進(jìn)一步的,所述步驟3之后還包括:
步驟4:一段時(shí)間后,當(dāng)所述歷史重污染序列案例庫新增的重污染序列的數(shù)目大于所述歷史重污染序列案例庫中的序列的五分之一時(shí),則按照所述步驟1的方法更新歷史重污染序列案例庫。
進(jìn)一步的,所述步驟3中,將獲取的未來該時(shí)段的序列與所述歷史重污染序列案例庫中的序列進(jìn)行相似度對比時(shí),對各氣象要素均賦予權(quán)重系數(shù);
所述步驟2之后步驟3之前還包括:
步驟21:獲取用戶對各氣象要素的關(guān)注程度;
步驟22:采用sigmoid函數(shù)變形根據(jù)用戶對各氣象要素的關(guān)注程度調(diào)整各氣象要素的權(quán)重系數(shù)。
進(jìn)一步的,所述步驟21進(jìn)一步為:獲取用戶對未來某時(shí)段與歷史重污染過程相匹配的各氣象要素及其次數(shù)的選擇、用戶對相匹配的各氣象要素的對比及對比次數(shù)的選擇。
一種基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)裝置,包括:
歷史重污染序列案例庫建立模塊:用于根據(jù)收集的目標(biāo)區(qū)域各監(jiān)測站點(diǎn)監(jiān)測到的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù),建立目標(biāo)區(qū)域的歷史重污染序列案例庫,所述案例庫中的序列由氣象要素?cái)?shù)據(jù)組成;
獲取模塊:用于根據(jù)預(yù)報(bào)的目標(biāo)區(qū)域未來某時(shí)段內(nèi)的氣象要素?cái)?shù)據(jù)獲取未來該時(shí)段的序列;
判別模塊:用于將獲取的未來該時(shí)段的序列與所述歷史重污染序列案例庫中的序列進(jìn)行相似度對比,判別目標(biāo)區(qū)域未來該時(shí)段的重污染情況。
本發(fā)明具有以下有益效果:
與現(xiàn)有技術(shù)相比,本發(fā)明的基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)方法及裝置根據(jù)收集的目標(biāo)區(qū)域各監(jiān)測點(diǎn)監(jiān)測到的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù)建立該區(qū)域的歷史重污染序列案例庫,然后根據(jù)預(yù)報(bào)的該區(qū)域未來某時(shí)段內(nèi)的氣象要素獲取未來該時(shí)段的序列并將其與歷史重污染序列案例庫中的序列進(jìn)行相似度的比較,由此判別該區(qū)域未來該時(shí)段是否具有重污染情況。由于區(qū)域重污染過程的空間尺度相對較大,局地?cái)_動(dòng)氣象預(yù)測的不準(zhǔn)確性影響較小,并且隨著觀測手段的不斷進(jìn)步以及數(shù)據(jù)共享的程度進(jìn)一步深入,本發(fā)明充分利用好已有的監(jiān)測站點(diǎn)檢測的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù)建立目標(biāo)區(qū)域的歷史重污染序列案例庫,可形成判別準(zhǔn)確率較高的新型的基于歷史重污染案例的重污染預(yù)判技術(shù),與數(shù)值預(yù)報(bào)、統(tǒng)計(jì)預(yù)報(bào)和專家預(yù)報(bào)技術(shù)相比,本發(fā)明是對現(xiàn)行重污染預(yù)報(bào)技術(shù)體系的一個(gè)很有利的補(bǔ)充。
本發(fā)明基于多來源數(shù)據(jù)的目標(biāo)區(qū)域的歷史重污染過程建立重污染序列案例庫,集成各類與重污染過程相關(guān)的氣象數(shù)據(jù)和污染數(shù)據(jù),可以準(zhǔn)確的預(yù)報(bào)未來某時(shí)段是否有重污染,從而可以方便決策部門提前指定應(yīng)對措施。通過輔助識別區(qū)域重污染的發(fā)生概率,快速分析重污染發(fā)生原因及各類預(yù)案效果評估,支撐重污染期間的快速?zèng)Q策,可以為北京及近周邊地區(qū)各地大氣污染的預(yù)報(bào)預(yù)警工作提供有利的技術(shù)支撐,為公眾和社會(huì)提供重要的環(huán)境質(zhì)量預(yù)報(bào)信息服務(wù)。
附圖說明
圖1為本發(fā)明的基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)方法的流程示意圖;
圖2為本發(fā)明的基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
為使本發(fā)明要解決的技術(shù)問題、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖及具體實(shí)施例進(jìn)行詳細(xì)描述。
一方面,本發(fā)明提供一種基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)方法,如圖1所示,包括:
步驟s1:根據(jù)收集的目標(biāo)區(qū)域各監(jiān)測站點(diǎn)監(jiān)測到的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù),建立目標(biāo)區(qū)域的歷史重污染序列案例庫,該案例庫中的序列由氣象要素?cái)?shù)據(jù)組成;
本步驟中,設(shè)目標(biāo)區(qū)域的監(jiān)測站點(diǎn)有j個(gè),氣象要素有m個(gè),對于一個(gè)重污染過程,總共持續(xù)了t個(gè)小時(shí),通過把這t個(gè)小時(shí)內(nèi)j個(gè)監(jiān)測站點(diǎn)監(jiān)測的m個(gè)氣象要素的數(shù)據(jù)拼接起來,即可形成該歷史重污染過程的序列。設(shè)目標(biāo)區(qū)域歷史上總共有h個(gè)重污染序列,在h個(gè)重污染序列中找出最具有代表特征的k個(gè)重污染序列形成目標(biāo)區(qū)域的歷史重污染序列案例庫。
步驟s2:根據(jù)預(yù)報(bào)的目標(biāo)區(qū)域未來某時(shí)段內(nèi)的氣象要素?cái)?shù)據(jù),獲取未來該時(shí)段的序列;
本步驟中,目標(biāo)區(qū)域未來某時(shí)段內(nèi)的氣象要素?cái)?shù)據(jù)根據(jù)現(xiàn)有的預(yù)報(bào)技術(shù)即可得到,此處不再贅述;根據(jù)預(yù)報(bào)的氣象要素?cái)?shù)據(jù)獲取未來某時(shí)段的序列與步驟1中獲取歷史重污然序列的原理相同。
步驟s3:將獲取的未來該時(shí)段的序列與歷史重污染序列案例庫中的序列進(jìn)行相似度對比,判別目標(biāo)區(qū)域未來該時(shí)段的重污染情況。
本步驟中,可以預(yù)先設(shè)定一個(gè)閾值,當(dāng)未來該時(shí)段的序列與歷史重污染序列案例庫中的序列之間的相似度值大于該閾值時(shí),則判定目標(biāo)區(qū)域未來該時(shí)段具有重污染,否則判別沒有重污染。
本發(fā)明的基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)方法根據(jù)收集的目標(biāo)區(qū)域各監(jiān)測點(diǎn)監(jiān)測到的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù)建立該區(qū)域的歷史重污染序列案例庫,然后根據(jù)預(yù)報(bào)的該區(qū)域未來某時(shí)段內(nèi)的氣象要素獲取未來該時(shí)段的序列并將其與歷史重污染序列案例庫中的序列進(jìn)行相似度的比較,由此判別該區(qū)域未來該時(shí)段是否具有重污染情況。由于區(qū)域重污染過程的空間尺度相對較大,局地?cái)_動(dòng)氣象預(yù)測的不準(zhǔn)確性影響較小,并且隨著觀測手段的不斷進(jìn)步以及數(shù)據(jù)共享的程度進(jìn)一步深入,本發(fā)明充分利用好已有的監(jiān)測站點(diǎn)檢測的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù)建立目標(biāo)區(qū)域的歷史重污染序列案例庫,可形成判別準(zhǔn)確率較高的新型的基于歷史重污染案例的重污染預(yù)判技術(shù),提供的預(yù)報(bào)結(jié)果也將拓展到除地面觀測以外的其他要素方面,與數(shù)值預(yù)報(bào)、統(tǒng)計(jì)預(yù)報(bào)和專家預(yù)報(bào)技術(shù)相比,本發(fā)明是對現(xiàn)行重污染預(yù)報(bào)技術(shù)體系的一個(gè)很有利的補(bǔ)充。
本發(fā)明基于多來源數(shù)據(jù)的目標(biāo)區(qū)域的歷史重污染過程建立重污染序列案例庫,集成各類與重污染過程相關(guān)的氣象數(shù)據(jù)和污染數(shù)據(jù),可以準(zhǔn)確的預(yù)報(bào)未來某時(shí)段是否有重污染,從而可以方便決策部門提前指定應(yīng)對措施。通過輔助識別區(qū)域重污染的發(fā)生概率,快速分析重污染發(fā)生原因及各類預(yù)案效果評估,支撐重污染期間的快速?zèng)Q策,可以為北京及近周邊地區(qū)各地大氣污染的預(yù)報(bào)預(yù)警工作提供有利的技術(shù)支撐,為公眾和社會(huì)提供重要的環(huán)境質(zhì)量預(yù)報(bào)信息服務(wù)。
作為本發(fā)明的一種改進(jìn),步驟s1優(yōu)選包括:
步驟s11:收集目標(biāo)區(qū)域各監(jiān)測站點(diǎn)監(jiān)測到的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù);
步驟s12:根據(jù)污染指標(biāo)數(shù)據(jù),選取污染條件下的氣象要素?cái)?shù)據(jù);
步驟s13:對選取的氣象要素?cái)?shù)據(jù)進(jìn)行歸一化處理,建立目標(biāo)區(qū)域所有的歷史污染序列;
本步驟中,對于選取的每個(gè)氣象要素?cái)?shù)據(jù)都可以歸一化到0~1的值,即用公式y(tǒng)=(x-minvalue)/(maxvalue-minvalue)進(jìn)行歸一化處理;
其中,y為對選取的氣象要素歸一化處理后的值,x為選取的氣象要素?cái)?shù)據(jù)的原始值,minvalue為各個(gè)監(jiān)測站點(diǎn)監(jiān)測到的同一個(gè)選取的氣象要素?cái)?shù)據(jù)中的最小值,maxvalue為各個(gè)監(jiān)測站點(diǎn)監(jiān)測到同一個(gè)選取的氣象要素?cái)?shù)據(jù)中的最大值。
步驟s14:計(jì)算任意兩個(gè)歷史污染序列之間的相似度并得出所有歷史污染序列中兩兩歷史污染序列之間的相似度組成的相似度矩陣;
本步驟中,設(shè)相似度矩陣a為:
其中,sij為歷史污染序列i與歷史污染序列j之間的相似度,h為歷史污染序列的總個(gè)數(shù)。
步驟s15:根據(jù)相似度矩陣計(jì)算得出任一歷史污染序列相對于其他所有歷史污染序列的相似性值;
本步驟中,歷史污染序列i相對于其他所有歷史污染序列的相似性值為γ:
其中,i≠j。
步驟s16:選取前k個(gè)最大的相似性值所對應(yīng)的歷史污染序列為聚類序列,作為表征重污染程度的核序列,并且把這k個(gè)相似性值中最小的相似性值設(shè)為閾值τ,從而完成建立歷史重污染序列案例庫。
優(yōu)選的,步驟s14可以包括:
步驟s141:首先取兩個(gè)歷史污染序列,設(shè)為p=(p1,p2,…,pn)和q=(q1,q2,…,qm),長度分別為n和m,利用動(dòng)態(tài)規(guī)劃與遞歸的方式計(jì)算得到序列p與序列q之間的距離dist(n,m);
本步驟中,首先構(gòu)建序列p內(nèi)任一點(diǎn)pi與序列q內(nèi)任一點(diǎn)qj之間的距離矩陣d:
其中,d(pi,qj)為序列p中的點(diǎn)pi與序列q中的點(diǎn)qj之間的距離,1≤i≤n,1≤j≤m,d(pi,qj)=|pi-qj|。
然后設(shè)相似度序列w=(w1,w2,…,wr),其中wr=d(pi,qj),對于任意兩個(gè)相鄰元素wr=d(pi,qj)和wr’‘=d(pi’,qj’),滿足條件i≤i’≤i+1,j≤j’≤j+1且(i+j)<(i’+j’)。
w的長度即序列p和序列q之間的距離dist(n,m)計(jì)算公式為:
dist(n,m)=∑1≤r≤rwr
而w的長度可以采用動(dòng)態(tài)規(guī)劃與遞歸的方式進(jìn)行求解,其中遞歸公式如下:
其中,dist(i,j)表示從d1,1到di,j的定義長度。
步驟s142:計(jì)算序列p與序列q之間的相似度s:
其中,α為歸一化系數(shù),|p|和|q|分別為序列p和q的長度;
由此得到所有歷史污染序列中兩兩歷史污染序列之間的相似度組成的相似度矩陣a,
其中,sij為歷史污染序列i與歷史污染序列j之間的相似度,h為歷史污染序列的數(shù)量,1≤i≤h,1≤j≤h。
進(jìn)一步的,步驟s3進(jìn)一步優(yōu)選為:計(jì)算未來該時(shí)段的序列與歷史重污染序列案例庫中的每個(gè)序列之間的相似度并判斷該相似度與所述閾值τ之間的大小關(guān)系,若其中只要有一個(gè)相似度大于所述閾值τ,則判別未來該時(shí)段會(huì)有重污染,否則判別沒有。
本步驟中,歷史重污染案例庫中的序列由k個(gè),則根據(jù)步驟1中計(jì)算兩兩序列之間的相似度的方法分別計(jì)算這k個(gè)歷史重污染序列與未來該時(shí)段的序列之間的相似度,并將計(jì)算得到的k個(gè)相似度均與閾值τ進(jìn)行對比,若其中只要有一個(gè)相似度大于該閾值τ,則判別未來該時(shí)段會(huì)有重污染,否則判別沒有重污染。
優(yōu)選的,本發(fā)明中提到的污染指標(biāo)可以包括pm2.5和pm10,氣象要素可以包括溫度、濕度、風(fēng)速、氣壓、邊界層高度和逆溫等。
進(jìn)一步的,步驟s13還可以包括:
采用歸一化處理建立目標(biāo)區(qū)域所有的歷史污染序列時(shí),首先所有歷史污染序列中的氣象要素的順序保持一致,之后各個(gè)監(jiān)測站點(diǎn)的順序按空間上從北往南,從西向東的經(jīng)緯度坐標(biāo)排序,最后按時(shí)間順序排序。這種排序方式考慮了時(shí)間連續(xù)屬性,沒有簡單的通過求平均值來忽略時(shí)間內(nèi)部特征名同時(shí)按特定空間順序排序目標(biāo)區(qū)域的各監(jiān)測站點(diǎn),也考慮了監(jiān)測站點(diǎn)的空間特征,沒有簡單的通過求所有監(jiān)測站點(diǎn)的平均值來簡化問題,使得后續(xù)計(jì)算更加準(zhǔn)確。
由于歷史重污染序列案例庫建立完成后在使用期間,若判別未來某時(shí)段為重污染時(shí),則未來該時(shí)段的序列將被保存在歷史重污染序列案例庫中。因此,隨著時(shí)間的推移,歷史重污染序列案例庫中的序列是不斷增加的。為了使歷史重污染序列案例庫一直保持在較新的狀態(tài),步驟s3之后還可以包括:
步驟s4:歷史重污染序列案例庫在經(jīng)過一段時(shí)間的使用后,當(dāng)歷史重污染序列案例庫中新增的重污染序列的數(shù)目大于歷史重污染序列案例庫中的序列的五分之一時(shí),則可以按照上述步驟s1的方法更新該歷史重污染序列案例庫。
本發(fā)明以北京地區(qū)為例,采用北京的包括國控站和市控站在內(nèi)的35個(gè)空氣質(zhì)量常規(guī)監(jiān)測站點(diǎn)收集2015年-2016年過去兩年的污染指標(biāo)和氣象要素?cái)?shù)據(jù)建立歷史重污染案例庫,其中考慮的氣象要素有溫度、濕度、風(fēng)速、氣壓、邊界層高度和逆溫參數(shù)共6個(gè)。通過收集2015-2016年兩年的污染指標(biāo)pm2.5和pm10的數(shù)據(jù)以及氣象要素?cái)?shù)據(jù),判斷北京總共發(fā)生了45次重污染,其中重污染過程持續(xù)時(shí)間最短的是2016年12月2日開始的重污染,總共持續(xù)了11小時(shí);重污染過程持續(xù)時(shí)間最長的是2015年12月19日開始的重污染,總共持續(xù)了192小時(shí)。根據(jù)這45次重污染過程中的污染指標(biāo)pm2.5和pm10的數(shù)據(jù)選取污染條件下的氣象要素?cái)?shù)據(jù)。
現(xiàn)采用本發(fā)明的建立歷史重污染案例庫的方法基于這45次重污染過程建立北京地區(qū)2015年-2016年的歷史重污染案例庫,具體步驟如下:
第一步,對于上述45次歷史重污染過程,對每次歷史重污染過程中35個(gè)空氣質(zhì)量常規(guī)監(jiān)測站點(diǎn)收集的氣象要素?cái)?shù)據(jù)進(jìn)行歸一化處理,并將歸一化處理后的氣象要素?cái)?shù)據(jù)拼接起來,形成該歷史重污染過程的序列。對于這45次重污染過程的序列,所有序列中的氣象要素的順序保持一致,35個(gè)空氣質(zhì)量常規(guī)監(jiān)測站點(diǎn)的順序按空間上從北往南,從西向東的經(jīng)緯度坐標(biāo)排序,最后按時(shí)間順序排序。
第二步,計(jì)算這45個(gè)歷史重污染序列中兩兩之間的相似度:
首先選取其中兩個(gè)歷史重污染序列,設(shè)為p和q,其中p=(0.8,0.7,0.6,…,0.9),長度為100,q=(0.6,0.5,0.4,…,0.7),長度為80;并構(gòu)建序列p內(nèi)任一點(diǎn)與序列q內(nèi)任一點(diǎn)之間的距離矩陣d:
然后設(shè)相似度序列w=(w1,w2,…,wr),其中wr=d(pi,qj),從距離矩陣d的左下角d(p1,q1)=0.2開始,用動(dòng)態(tài)規(guī)劃與遞歸的方法計(jì)算相似序列w,這里w1=0.2,從d(p1,q1)的位置分別向上、向斜上和向右尋找,w2=min{0.3,0.2,0.1},0.1最小,則w2=0.1。此時(shí)的位置在d(p2,q1)=0.1處,則w3=min{0.2,0.1,0},則w3=0。依次按上面的步驟遞歸,最后可計(jì)算出:
dist(100,80)=∑1≤r≤rwr=70
由此可計(jì)算出序列p和q之間的相似度為s:
進(jìn)而可計(jì)算出45個(gè)重污染序列中兩兩歷史污染序列之間的相似度組成的相似度矩陣a,
并根據(jù)公式
計(jì)算出序列i相對其他44個(gè)重污染序列的相似性值;
最后,選取前10個(gè)最大的相似性值所對應(yīng)的歷史污染序列為聚類序列,作為表征重污染程度的核序列,并將最小的相似性值設(shè)為閾值τ,從而完成建立歷史重污染序列案例庫,本實(shí)施例中,τ=0.80。
本實(shí)施例中選取需要判別和預(yù)報(bào)的未來時(shí)段為2017年1月2日至2017年1月4日,采用上述相同的方法計(jì)算得到該時(shí)段的序列與歷史重污染序列案例庫中的10個(gè)序列的相似度值為0.88,該值大于閾值τ,則判別2017年1月2日至2017年1月4日為重污染。而實(shí)際情況是2017年1月2日至2017年1月4日發(fā)生了重污染,共持續(xù)了54小時(shí),與判別結(jié)果一致,由此說明本發(fā)明的基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)方法切實(shí)有效。
作為本發(fā)明的另一種改進(jìn),為了集成專家經(jīng)驗(yàn)以提高目標(biāo)區(qū)域未來某時(shí)段與相似的歷史重污染案例匹配結(jié)果的準(zhǔn)確率和實(shí)用性,本發(fā)明可以通過獲取專家的使用行為偏好特征等交互方式結(jié)合專家認(rèn)知,自適應(yīng)學(xué)習(xí)來提升本發(fā)明對未來某時(shí)段與相似的歷史重污染案例匹配的準(zhǔn)確度,以及未來某時(shí)段污染過程精確識別的準(zhǔn)確度。在步驟s3中,將獲取的未來該時(shí)段的序列與歷史重污染序列案例庫中的序列進(jìn)行相似度對比時(shí),優(yōu)選對各氣象要素均賦予權(quán)重系數(shù);
而各氣象要素的權(quán)重系數(shù)根據(jù)以下方式獲取,即步驟s2之后步驟s3之前還可以包括:
步驟s21:獲取用戶對各氣象要素的關(guān)注程度;
本步驟中,用戶對各氣象要素的關(guān)注程度通過用戶對未來某時(shí)段與歷史重污染過程相匹配的氣象要素及其次數(shù)的選擇、用戶對相匹配的氣象要素的對比及對比次數(shù)的選擇來體現(xiàn)。
在用戶對未來某時(shí)段與相似的歷史重污染案例進(jìn)行對比時(shí),用戶先選擇要匹配的氣象要素如地面風(fēng)速、地面風(fēng)向、地面溫度等進(jìn)行匹配,若用戶瀏覽氣象要素對比后瀏覽相似歷史過程,則匹配效果標(biāo)注為準(zhǔn)確;若用戶瀏覽氣象要素對比后沒有瀏覽相似歷史過程,則匹配效果標(biāo)注為不準(zhǔn)確;若用戶沒有瀏覽氣象要素對比,則匹配效果標(biāo)注為不確定。通過上述匹配效果即可獲取用戶對各氣象要素的關(guān)注程度。
步驟s22:采用sigmoid函數(shù)變形根據(jù)用戶對各氣象要素的關(guān)注程度調(diào)整各氣象要素的權(quán)重系數(shù)。
由于每個(gè)季節(jié)的氣壓場、溫度場、濕度場等差異較大,對環(huán)境污染濃度的影響及相關(guān)性差別也較大。而本步驟中,根據(jù)不同季節(jié)的特點(diǎn)和專家經(jīng)驗(yàn)判斷后,對不同的氣象要素賦予不同的權(quán)重系數(shù),有利于減少誤差和提高預(yù)報(bào)的準(zhǔn)確度,同時(shí)還能夠提高重污染判別和預(yù)報(bào)的效率。
另一方面,本發(fā)明還提供一種基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)裝置,如圖2所示,包括:
歷史重污染序列案例庫建立模塊11:用于根據(jù)收集的目標(biāo)區(qū)域各監(jiān)測站點(diǎn)監(jiān)測到的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù),建立目標(biāo)區(qū)域的歷史重污染序列案例庫,案例庫中的序列由氣象要素?cái)?shù)據(jù)組成;
第一獲取模塊12:用于根據(jù)預(yù)報(bào)的目標(biāo)區(qū)域未來某時(shí)段內(nèi)的氣象要素?cái)?shù)據(jù)獲取未來該時(shí)段的序列;
判別模塊13:用于將獲取的未來該時(shí)段的序列與歷史重污染序列案例庫中的序列進(jìn)行相似度對比,判別目標(biāo)區(qū)域未來該時(shí)段的重污染情況。
本發(fā)明的基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)裝置根據(jù)收集的目標(biāo)區(qū)域各監(jiān)測點(diǎn)監(jiān)測到的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù)建立該區(qū)域的歷史重污染序列案例庫,然后根據(jù)預(yù)報(bào)的該區(qū)域未來某時(shí)段內(nèi)的氣象要素獲取未來該時(shí)段的序列并將其與歷史重污染序列案例庫中的序列進(jìn)行相似度的比較,由此判別該區(qū)域未來該時(shí)段是否具有重污染情況。由于區(qū)域重污染過程的空間尺度相對較大,局地?cái)_動(dòng)氣象預(yù)測的不準(zhǔn)確性影響較小,并且隨著觀測手段的不斷進(jìn)步以及數(shù)據(jù)共享的程度進(jìn)一步深入,本發(fā)明充分利用好已有的監(jiān)測站點(diǎn)檢測的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù)建立目標(biāo)區(qū)域的歷史重污染序列案例庫,可形成判別準(zhǔn)確率較高的新型的基于歷史重污染案例的重污染預(yù)判技術(shù),提供的預(yù)報(bào)結(jié)果也將拓展到除地面觀測以外的其他要素方面,與數(shù)值預(yù)報(bào)、統(tǒng)計(jì)預(yù)報(bào)和專家預(yù)報(bào)技術(shù)相比,本發(fā)明是對現(xiàn)行重污染預(yù)報(bào)技術(shù)體系的一個(gè)很有利的補(bǔ)充。
作為本發(fā)明的一種改進(jìn),歷史重污染序列案例庫建立模塊101優(yōu)選包括:
收集模塊11-1:用于收集目標(biāo)區(qū)域各監(jiān)測站點(diǎn)監(jiān)測到的污染指標(biāo)數(shù)據(jù)和氣象要素?cái)?shù)據(jù);
氣象要素選取模塊11-2:用于根據(jù)污染指標(biāo)數(shù)據(jù),選取污染條件下的氣象要素?cái)?shù)據(jù);
歷史污染序列建立模塊11-3:用于對選取的氣象要素?cái)?shù)據(jù)進(jìn)行歸一化處理,建立目標(biāo)區(qū)域所有的歷史污染序列;
在歷史污染序列建立模塊11-3中,對于選取的每個(gè)氣象要素?cái)?shù)據(jù)都可以歸一化到0~1的值,即用公式y(tǒng)=(x-minvalue)/(maxvalue-minvalue)進(jìn)行歸一化處理,
其中,y為對選取的氣象要素歸一化處理后的值,x為選取的氣象要素?cái)?shù)據(jù)的原始值,minvalue為各個(gè)監(jiān)測站點(diǎn)監(jiān)測到的同一個(gè)選取的氣象要素?cái)?shù)據(jù)中的最小值,maxvalue為各個(gè)監(jiān)測站點(diǎn)監(jiān)測到同一個(gè)選取的氣象要素?cái)?shù)據(jù)中的最大值。
相似度矩陣計(jì)算模塊11-4:用于計(jì)算任意兩個(gè)歷史污染序列之間的相似度并得出所有歷史污染序列中兩兩歷史污染序列之間的相似度組成的相似度矩陣;
在相似度矩陣計(jì)算模塊11-4中,相似度矩陣a為:
其中,sij為歷史污染序列i與歷史污染序列j之間的相似度,h為歷史污染序列的總個(gè)數(shù)。
相似性值計(jì)算模塊11-5:用于根據(jù)相似度矩陣計(jì)算得出任一歷史污染序列相對于其他所有歷史污染序列的相似性值;
在相似性值計(jì)算模塊11-5中,歷史污染序列i相對于其他所有歷史污染序列的相似性值為γ:
其中,i≠j。
核序列選取模塊11-6:用于選取前k個(gè)最大的相似性值所對應(yīng)的歷史污染序列為聚類序列,作為表征重污染程度的核序列,并且把這k個(gè)相似性值中最小的相似性值設(shè)為閾值τ,從而完成建立歷史重污染序列案例庫。
優(yōu)選的,相似度矩陣計(jì)算模塊11-4可以包括:
距離計(jì)算模塊11-41:用于首先取兩個(gè)歷史污染序列,設(shè)為p=(p1,p2,…,pn)和q=(q1,q2,…,qm),長度分別為n和m,利用動(dòng)態(tài)規(guī)劃與遞歸的方式計(jì)算得到序列p與序列q之間的距離dist(n,m);
在距離計(jì)算模塊11-41中,首先構(gòu)建序列p內(nèi)任一點(diǎn)pi與序列q內(nèi)任一點(diǎn)qj之間的距離矩陣d:
其中,d(pi,qj)為序列p中的點(diǎn)pi與序列q中的點(diǎn)qj之間的距離,1≤i≤n,1≤j≤m,d(pi,qj)=|pi-qj|。
然后設(shè)相似度序列w=(w1,w2,…,wr),其中wr=d(pi,qj),對于任意兩個(gè)相鄰元素wr=d(pi,qj)和wr’‘=d(pi’,qj’),滿足條件i≤i’≤i+1,j≤j’≤j+1且(i+j)<(i’+j’)。
w的長度即序列p和序列q之間的距離dist(n,m)計(jì)算公式為:
dist(n,m)=∑1≤r≤rwr
而w的長度可以采用動(dòng)態(tài)規(guī)劃與遞歸的方式進(jìn)行求解,其中遞歸公式如下:
其中,dist(i,j)表示從d(p1,q1)到d(pi,qj)的定義長度。
相似度計(jì)算模塊11-42:用于計(jì)算序列p與序列q之間的相似度s:
其中,α為歸一化系數(shù),|p|和|q|分別為序列p和q的長度;
由此得到所有歷史污染序列中兩兩歷史污染序列之間的相似度組成的相似度矩陣a,
其中,sij為歷史污染序列i與歷史污染序列j之間的相似度,h為歷史污染序列的數(shù)量,1≤i≤h,1≤j≤h。
進(jìn)一步的,判別模塊13進(jìn)一步優(yōu)選為:用于計(jì)算未來該時(shí)段的序列與歷史重污染序列案例庫中的每個(gè)序列之間的相似度并判斷該相似度與所述閾值τ之間的大小關(guān)系,若其中只要有一個(gè)相似度大于所述閾值τ,則判別未來該時(shí)段會(huì)有重污染,否則判別沒有。
在判別模塊13中,歷史重污染案例庫中的序列由k個(gè),則根據(jù)步驟1中計(jì)算兩兩序列之間的相似度的方法分別計(jì)算這k個(gè)歷史重污染序列與未來該時(shí)段的序列之間的相似度,并將計(jì)算得到的k個(gè)相似度均與閾值τ進(jìn)行對比,若其中只要有一個(gè)相似度大于該閾值τ,則判別未來該時(shí)段會(huì)有重污染,否則判別沒有重污染。
優(yōu)選的,本發(fā)明中提到的污染指標(biāo)可以包括pm2.5和pm10,氣象要素可以包括溫度、濕度、風(fēng)速和氣壓等。
進(jìn)一步的,歷史污染序列建立模塊11-3還可以包括:
用于采用歸一化處理建立目標(biāo)區(qū)域所有的歷史污染序列時(shí),首先所有歷史污染序列中的氣象要素的順序保持一致,之后各個(gè)監(jiān)測站點(diǎn)的順序按空間上從北往南,從西向東的經(jīng)緯度坐標(biāo)排序,最后按時(shí)間順序排序。這種排序方式考慮了時(shí)間連續(xù)屬性,沒有簡單的通過求平均值來忽略時(shí)間內(nèi)部特征名同時(shí)按特定空間順序排序目標(biāo)區(qū)域的各監(jiān)測站點(diǎn),也考慮了監(jiān)測站點(diǎn)的空間特征,沒有簡單的通過求所有監(jiān)測站點(diǎn)的平均值來簡化問題,使得后續(xù)計(jì)算更加準(zhǔn)確。
由于歷史重污染序列案例庫建立完成后在使用期間,若判別未來某時(shí)段為重污染時(shí),則未來該時(shí)段的序列將被保存在歷史重污染序列案例庫中,因此,隨著時(shí)間的推移,歷史重污染序列案例庫中的序列是不斷增加的。為了使歷史重污染序列案例庫一直保持在較新的狀態(tài),判別模塊13之后還優(yōu)選包括:
更新模塊14:用于歷史重污染序列案例庫在經(jīng)過一段時(shí)間的使用后,當(dāng)歷史重污染序列案例庫中新增的重污染序列的數(shù)目大于歷史重污染序列案例庫中的序列的五分之一時(shí),則可以在歷史重污染序列案例庫建立模塊11中更新該歷史重污染序列案例庫。
本發(fā)明以北京地區(qū)為例,采用北京的包括國控站和市控站在內(nèi)的35個(gè)空氣質(zhì)量常規(guī)監(jiān)測站點(diǎn)收集2015年-2016年過去兩年的污染指標(biāo)和氣象要素?cái)?shù)據(jù)建立歷史重污染案例庫,其中考慮的氣象要素有溫度、濕度、風(fēng)速、氣壓、邊界層高度和逆溫參數(shù)共6個(gè)。通過收集2015-2016年兩年的污染指標(biāo)pm2.5和pm10的數(shù)據(jù)以及氣象要素?cái)?shù)據(jù),判斷北京總共發(fā)生了45次重污染,其中重污染過程持續(xù)時(shí)間最短的是2016年12月2日開始的重污染,總共持續(xù)了11小時(shí);重污染過程持續(xù)時(shí)間最長的是2015年12月19日開始的重污染,總共持續(xù)了192小時(shí)。根據(jù)這45次重污染過程中的污染指標(biāo)pm2.5和pm10的數(shù)據(jù)選取污染條件下的氣象要素?cái)?shù)據(jù)。
現(xiàn)采用本發(fā)明的建立歷史重污染案例庫的裝置基于這45次重污染過程建立北京地區(qū)2015年-2016年的歷史重污染案例庫,具體步驟如下:
第一步,對于上述45次歷史重污染過程,歷史污染序列建立模塊11-3對每次歷史重污染過程中35個(gè)空氣質(zhì)量常規(guī)監(jiān)測站點(diǎn)收集的氣象要素?cái)?shù)據(jù)進(jìn)行歸一化處理,并將歸一化處理后的氣象要素?cái)?shù)據(jù)拼接起來,形成該歷史重污染過程的序列。對于這45次重污染過程的序列,所有序列中的氣象要素的順序保持一致,35個(gè)空氣質(zhì)量常規(guī)監(jiān)測站點(diǎn)的順序按空間上從北往南,從西向東的經(jīng)緯度坐標(biāo)排序,最后按時(shí)間順序排序。
第二步,相似度計(jì)算模塊11-4計(jì)算這45個(gè)歷史重污染序列中兩兩之間的相似度:
首先距離計(jì)算模塊11-41選取其中兩個(gè)歷史重污染序列,設(shè)為p和q,其中p=(0.8,0.7,0.6,…,0.9),長度為100,q=(0.6,0.5,0.4,…,0.7),長度為80;并構(gòu)建序列p內(nèi)任一點(diǎn)與序列q內(nèi)任一點(diǎn)之間的距離矩陣d:
然后設(shè)相似度序列w=(w1,w2,…,wr),其中wr=d(pi,qj),從距離矩陣d的左下角d(p1,q1)=0.2開始,用動(dòng)態(tài)規(guī)劃與遞歸的方法計(jì)算相似序列w,這里w1=0.2,從d(p1,q1)的位置分別向上、向斜上和向右尋找,w2=min{0.3,0.2,0.1},0.1最小,則w2=0.1。此時(shí)的位置在d(p2,q1)=0.1處,則w3=min{0.2,0.1,0},則w3=0。依次按上面的步驟遞歸,最后可計(jì)算出:
dist(100,80)=∑1≤r≤rwr=70
由此相似度計(jì)算模塊11-42可計(jì)算出序列p和q之間的相似度為s:
進(jìn)而可計(jì)算出45個(gè)重污染序列中兩兩歷史污染序列之間的相似度組成的相似度矩陣a,
第三步,相似性值計(jì)算模塊11-5根據(jù)公式
計(jì)算出序列i相對其他44個(gè)重污染序列的相似性值;
最后,核序列選取模塊11-6選取前10個(gè)最大的相似性值所對應(yīng)的歷史污染序列為聚類序列,作為表征重污染程度的核序列,并將最小的相似性值設(shè)為閾值τ,本實(shí)施例中,τ=0.80,從而完成建立歷史重污染序列案例庫。
本實(shí)施例中選取需要判別和預(yù)報(bào)的未來時(shí)段為2017年1月2日至2017年1月4日,采用上述相同的方法計(jì)算得到該時(shí)段的序列與歷史重污染序列案例庫中的10個(gè)序列的相似度值為0.88,該值大于閾值τ,則判別2017年1月2日至2017年1月4日為重污染。而實(shí)際情況是2017年1月2日至2017年1月4日發(fā)生了重污染,共持續(xù)了54小時(shí),與判別結(jié)果一致,由此說明本發(fā)明的基于重污染序列案例庫的區(qū)域重污染判別預(yù)報(bào)裝置切實(shí)有效。
作為本發(fā)明的另一種改進(jìn),為了集成專家經(jīng)驗(yàn)以提高目標(biāo)區(qū)域未來某時(shí)段與相似的歷史重污染案例匹配結(jié)果的準(zhǔn)確率和實(shí)用性,本發(fā)明可以通過獲取專家的使用行為偏好特征等交互方式結(jié)合專家認(rèn)知,自適應(yīng)學(xué)習(xí)來提升本發(fā)明對未來某時(shí)段與相似的歷史重污染案例匹配的準(zhǔn)確度,以及未來某時(shí)段污染過程精確識別的準(zhǔn)確度。在判別模塊13中,用于將獲取的未來該時(shí)段的序列與歷史重污染序列案例庫中的序列進(jìn)行相似度對比時(shí),優(yōu)選對各氣象要素均賦予權(quán)重系數(shù);
而各氣象要素的權(quán)重系數(shù)在以下模塊中獲取,即第一獲取模塊12之后判別模塊13之前還可以包括:
第二獲取模塊121:用于獲取用戶對各氣象要素的關(guān)注程度;
在第二獲取模塊121中,用戶對各氣象要素的關(guān)注程度通過用戶對未來某時(shí)段與歷史重污染過程相匹配的氣象要素及其次數(shù)的選擇、用戶對相匹配的氣象要素的對比及對比次數(shù)的選擇來體現(xiàn)。
在用戶對未來某時(shí)段與相似的歷史重污染案例進(jìn)行對比時(shí),用戶先選擇要匹配的氣象要素如地面風(fēng)速、地面風(fēng)向、地面溫度等進(jìn)行匹配,若用戶瀏覽氣象要素對比后瀏覽相似歷史過程,則匹配效果標(biāo)注為準(zhǔn)確;若用戶瀏覽氣象要素對比后沒有瀏覽相似歷史過程,則匹配效果標(biāo)注為不準(zhǔn)確;若用戶沒有瀏覽氣象要素對比,則匹配效果標(biāo)注為不確定。通過上述匹配效果即可獲取用戶對各氣象要素的關(guān)注程度。
調(diào)整模塊122:用于采用sigmoid函數(shù)變形根據(jù)用戶對各氣象要素的關(guān)注程度調(diào)整各氣象要素的權(quán)重系數(shù)。
由于每個(gè)季節(jié)的氣壓場、溫度場、濕度場等差異較大,對環(huán)境污染濃度的影響及相關(guān)性差別也較大。而調(diào)整模塊122,根據(jù)不同季節(jié)的特點(diǎn)和專家經(jīng)驗(yàn)判斷后,對不同的氣象要素賦予不同的權(quán)重系數(shù),有利于減少誤差和提高預(yù)報(bào)的準(zhǔn)確度,同時(shí)還能夠提高重污染判別和預(yù)報(bào)的效率。
以上所述是本發(fā)明的優(yōu)選實(shí)施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人員來說,在不脫離本發(fā)明所述原理的前提下,還可以作出若干改進(jìn)和潤飾,這些改進(jìn)和潤飾也應(yīng)視為本發(fā)明的保護(hù)范圍。