一種基于特征向量和最小二乘支持向量機(jī)的pm25濃度預(yù)測(cè)方法
【專利摘要】本發(fā)明涉及一種基于特征向量和最小二乘支持向量機(jī)的PM2.5濃度預(yù)測(cè)方法,屬于環(huán)境污染預(yù)測(cè)領(lǐng)域。本發(fā)明首先收集與PM2.5濃度相關(guān)的污染物濃度數(shù)據(jù)進(jìn)行預(yù)處理;然后計(jì)算綜合氣象指數(shù);再對(duì)與PM2.5濃度相關(guān)的污染物濃度數(shù)據(jù)、綜合氣象指數(shù)進(jìn)行相關(guān)性分析,得到包含綜合氣象指數(shù)的特征向量構(gòu)成特征向量A和得到去除綜合氣象指數(shù)的特征向量構(gòu)成特征向量B;最后通過特征向量A、特征向量B構(gòu)成訓(xùn)練樣本訓(xùn)練LS-SVM模型并對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。本發(fā)明結(jié)合環(huán)境監(jiān)測(cè)數(shù)據(jù)和實(shí)際情況,將空氣濕度、風(fēng)力、溫度三個(gè)因素與PM2.5的形成機(jī)理相結(jié)合,提出綜合氣象指數(shù)公式這一新的概念;預(yù)測(cè)精度較高。
【專利說明】一種基于特征向量和最小二乘支持向量機(jī)的PM2.5濃度預(yù)測(cè)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于特征向量和最小二乘支持向量機(jī)的PM2.5濃度預(yù)測(cè)方法,屬于環(huán)境污染預(yù)測(cè)領(lǐng)域。
【背景技術(shù)】
[0002]PM2.5是指環(huán)境空氣中空氣動(dòng)力學(xué)當(dāng)量直徑小于等于2.5 μ m (微米)的顆粒物,其數(shù)值越高,代表顆粒物濃度越高,意味著空氣污染越嚴(yán)重。雖然PM2.5只是地球大氣成分中含量很少的組成部分,但是它對(duì)空氣質(zhì)量和能見度等指標(biāo)有重要影響。近期,我國多地出現(xiàn)霧霾天氣,嚴(yán)重影響了人們的生活。二氧化硫、氮氧化物和PM2.5是霧霾的主要構(gòu)成物質(zhì),PM2.5是其中加重霧霾污染天氣的罪魁禍?zhǔn)?,成為了影響人們正常生活的重要指?biāo),準(zhǔn)確預(yù)測(cè)PM2.5的濃度(濃度量綱為收./〃/,后文中提及的濃度均以此單位計(jì))變得越來越重要。
[0003]影響PM2.5數(shù)值的因素包括空氣中二氧化硫(S02)、二氧化氮(N02)、一氧化碳(CO),PMlO含量和氣象因素等。預(yù)測(cè)PM2.5濃度值變化規(guī)律對(duì)未來空氣質(zhì)量監(jiān)測(cè)有重要意義。預(yù)測(cè)PM2.5的濃度,最重要的是分析各個(gè)影響因素與PM2.5之間復(fù)雜關(guān)系。近年來,專家學(xué)者開展了一些相關(guān)的研究工作,得到了一些常用的方法如人工神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等等。這些方法是通過研究個(gè)別因素對(duì)大氣污染物濃度的影響提出的。但是實(shí)質(zhì)上氣象因素對(duì)于PM2.5濃度的影響是十分復(fù)雜的,實(shí)際情況中往往是不同氣象因素交互影響的結(jié)果,如果分別考慮各個(gè)因素,則不能很好地體現(xiàn)多個(gè)因素相互作用對(duì)PM2.5濃度產(chǎn)生的耦合效應(yīng),也就不能準(zhǔn)確建立預(yù)測(cè)PM2.5濃度的方法。
[0004]本發(fā)明旨在引入綜合氣象指數(shù)這一概念并用與PM2.5濃度相關(guān)性較強(qiáng)的工業(yè)污染物因素組成特征向量對(duì)LS-SVM模型進(jìn)行訓(xùn)練,得到準(zhǔn)確度較高的預(yù)測(cè)PM2.5濃度模型。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供了一種基于特征向量和最小二乘支持向量機(jī)的PM2.5濃度預(yù)測(cè)方法,以用于解決PM2.5濃度預(yù)測(cè)及PM2.5濃度預(yù)測(cè)精度問題。
[0006]本發(fā)明的技術(shù)方案是:一種基于特征向量和最小二乘支持向量機(jī)的PM2.5濃度預(yù)測(cè)方法,首先收集與PM2.5濃度相關(guān)的污染物濃度數(shù)據(jù)進(jìn)行預(yù)處理;然后計(jì)算綜合氣象指數(shù);再對(duì)與PM2.5濃度相關(guān)的污染物濃度數(shù)據(jù)、綜合氣象指數(shù)進(jìn)行相關(guān)性分析,得到包含綜合氣象指數(shù)的特征向量構(gòu)成特征向量A和得到去除綜合氣象指數(shù)的特征向量構(gòu)成特征向量B ;最后通過特征向量A、特征向量B構(gòu)成訓(xùn)練樣本訓(xùn)練LS-SVM模型并對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。
[0007]所述方法的具體步驟如下:
Stepl、收集與PM2.5濃度相關(guān)的污染物濃度數(shù)據(jù)進(jìn)行預(yù)處理:選取與PM2.5濃度相關(guān)的污染物濃度數(shù)據(jù)進(jìn)行匯總;其中對(duì)于有缺失的數(shù)據(jù),則采用平均值法將其補(bǔ)全;
Step2、計(jì)算綜合氣象指數(shù):將空氣濕度、風(fēng)力、溫度三個(gè)因素與PM2.5的形成機(jī)理相結(jié)合,提出綜合氣象指數(shù):
D=1.8 X r+0.55 (χ-Η) +3.2爐/2+27
式中,^為綜合氣象指數(shù),無量綱為平均氣溫,量綱為。c ;//為平均相對(duì)濕度,量綱為% #為平均風(fēng)速,量綱為m/s ;
Step3、相關(guān)性分析:采用皮爾遜相關(guān)系數(shù)方法確定相關(guān)的污染物濃度數(shù)據(jù)、綜合氣象指數(shù)與PM2.5濃度相關(guān)性的大小,得出與PM2.5濃度呈正相關(guān)、呈負(fù)相關(guān)的數(shù)據(jù),選擇相關(guān)系數(shù)絕對(duì)值大于0.6的因素構(gòu)成特征向量;其中,包含綜合氣象指數(shù)的特征向量構(gòu)成特征向量A,去除綜合氣象指數(shù)的特征向量構(gòu)成特征向量B ;
Step4、預(yù)測(cè)模型的預(yù)測(cè)結(jié)果評(píng)價(jià):將收集的PM2.5濃度值Λ.、特征向量A數(shù)據(jù)Xil, xi2, xi2, Xn, Xiti,…,JTifl、特征向量 B 數(shù)據(jù) JTil, JTi2, JTi2, JTi3, JTi4,…,Xim 分為兩組,一組數(shù)據(jù)為訓(xùn)練組,另一組數(shù)據(jù)為測(cè)試組:通過訓(xùn)練組的ΡΜ2.5的濃度真實(shí)值分別與訓(xùn)練組的特征向量Α、訓(xùn)練組的特征向量B構(gòu)成訓(xùn)練樣本A和訓(xùn)練樣本B訓(xùn)練LS-SVM模型,得到ΡΜ2.5預(yù)測(cè)模型A、ΡΜ2.5預(yù)測(cè)模型B ;使用ΡΜ2.5預(yù)測(cè)模型Α、測(cè)試組的特征向量A和ΡΜ2.5預(yù)測(cè)模型B、測(cè)試組的特征向量B分別對(duì)測(cè)試組的ΡΜ2.5的濃度值進(jìn)行預(yù)測(cè);再通過測(cè)試組的ΡΜ2.5的濃度預(yù)測(cè)值與測(cè)試組的ΡΜ2.5濃度真實(shí)值分別選用均方誤差MSE和絕對(duì)誤差A(yù)BS分別對(duì)ΡΜ2.5預(yù)測(cè)模型A、ΡΜ2.5預(yù)測(cè)模型B預(yù)測(cè)的ΡΜ2.5的濃度預(yù)測(cè)值進(jìn)行評(píng)價(jià);
其中,i表示收集數(shù)據(jù)的天數(shù),/?表示特征向量A的樣本容量表示特征向量B的樣本容量。 [0008]所述平均值法為采用缺失數(shù)據(jù)前K個(gè)與后K個(gè)數(shù)據(jù)取平均值的方法填補(bǔ)缺失數(shù)據(jù)。
[0009]所述正相關(guān)為相關(guān)系數(shù)為正。
[0010]所述負(fù)相關(guān)為相關(guān)系數(shù)為負(fù)。
[0011]所述LS-SVM模型為以徑向基函數(shù)為核函數(shù)的最小二乘支持向量機(jī)模型。
[0012]本發(fā)明的工作原理是:
收集并整理環(huán)境監(jiān)測(cè)數(shù)據(jù)中與PM2.5濃度相關(guān)的污染物濃度數(shù)據(jù),采用平均值法對(duì)缺失數(shù)據(jù)進(jìn)行補(bǔ)全。本發(fā)明通過結(jié)合PM2.5形成機(jī)理提出了綜合氣象指數(shù)公式D=L 8X7+0.55(1-^7)+3.2W1/2+27 ;式中,D為綜合氣象指數(shù),無量綱為平均氣溫,量綱為。C炎為平均相對(duì)濕度,量綱為% #為平均風(fēng)速,量綱為m/s。
[0013]通過上述公式,計(jì)算出綜合氣象指數(shù)。本發(fā)明通過計(jì)算各氣象指標(biāo)(如濕度、風(fēng)力、溫度)與PM2.5濃度的皮爾遜相關(guān)系數(shù),驗(yàn)證本發(fā)明提出綜合氣象指數(shù)的有效性,其結(jié)果見表1。各因素與PM2.5濃度的相關(guān)性用相關(guān)系數(shù)表示,絕對(duì)值大的因素相關(guān)性大??梢钥闯霰景l(fā)明提出的綜合氣象指數(shù)與PM2.5濃度的相關(guān)性最強(qiáng),證明了綜合氣象指數(shù)的有效性。
【權(quán)利要求】
1.一種基于特征向量和最小二乘支持向量機(jī)的PM2.5濃度預(yù)測(cè)方法,其特征在于:首先收集與PM2.5濃度相關(guān)的污染物濃度數(shù)據(jù)進(jìn)行預(yù)處理;然后計(jì)算綜合氣象指數(shù);再對(duì)與PM2.5濃度相關(guān)的污染物濃度數(shù)據(jù)、綜合氣象指數(shù)進(jìn)行相關(guān)性分析,得到包含綜合氣象指數(shù)的特征向量構(gòu)成特征向量A和得到去除綜合氣象指數(shù)的特征向量構(gòu)成特征向量B;最后通過特征向量A、特征向量B構(gòu)成訓(xùn)練樣本訓(xùn)練LS-SVM模型并對(duì)預(yù)測(cè)結(jié)果進(jìn)行評(píng)價(jià)。
2.根據(jù)權(quán)利要求1所述的基于特征向量和最小二乘支持向量機(jī)的PM2.5濃度預(yù)測(cè)方法,其特征在于:所述方法的具體步驟如下: Stepl、收集與PM2.5濃度相關(guān)的污染物濃度數(shù)據(jù)進(jìn)行預(yù)處理:選取與PM2.5濃度相關(guān)的污染物濃度數(shù)據(jù)進(jìn)行匯總;其中對(duì)于有缺失的數(shù)據(jù),則采用平均值法將其補(bǔ)全; Step2、計(jì)算綜合氣象指數(shù):將空氣濕度、風(fēng)力、溫度三個(gè)因素與PM2.5的形成機(jī)理相結(jié)合,提出綜合氣象指數(shù):
D=1.8 X r+0.55 (χ-Η) +3.2爐/2+27 式中,^為綜合氣象指數(shù),無量綱為平均氣溫,量綱為。c 為平均相對(duì)濕度,量綱為% #為平均風(fēng)速,量綱為m/s ; Step3、相關(guān)性分析:采用皮爾遜相關(guān)系數(shù)方法確定相關(guān)的污染物濃度數(shù)據(jù)、綜合氣象指數(shù)與PM2.5濃度相關(guān)性的大小,得出與PM2.5濃度呈正相關(guān)、呈負(fù)相關(guān)的數(shù)據(jù),選擇相關(guān)系數(shù)絕對(duì)值大于0.6的因素構(gòu)成特征向量;其中,包含綜合氣象指數(shù)的特征向量構(gòu)成特征向量A,去除綜合氣象指數(shù)的特征向量構(gòu)成特征向量B ; Step4、預(yù)測(cè)模型的預(yù)測(cè)結(jié)果評(píng)價(jià):將收集的PM2.5濃度值Λ.、特征向量A數(shù)據(jù)Xil, xi2, xi2, Xn, Xiti,…,JTifl、特征向量 B 數(shù)據(jù) JTil, JTi2, JTi2, JTi3, JTi4,…,Xim 分為兩組,一組數(shù)據(jù)為訓(xùn)練組,另一組數(shù)據(jù)為測(cè)試組:通過訓(xùn)練組的ΡΜ2.5的濃度真實(shí)值分別與訓(xùn)練組的特征向量Α、訓(xùn)練組的特征向量B構(gòu)成訓(xùn)練樣本A和訓(xùn)練樣本B訓(xùn)練LS-SVM模型,得到ΡΜ2.5預(yù)測(cè)模型A、ΡΜ2.5預(yù)測(cè)模型B ;使用ΡΜ2.5預(yù)測(cè)模型Α、測(cè)試組的特征向量A和ΡΜ2.5預(yù)測(cè)模型B、測(cè)試組的特征向量B分別對(duì)測(cè)試組的ΡΜ2.5的濃度值進(jìn)行預(yù)測(cè);再通過測(cè)試組的ΡΜ2.5的濃度預(yù)測(cè)值與測(cè)試組的ΡΜ2.5濃度真實(shí)值分別選用均方誤差MSE和絕對(duì)誤差A(yù)BS分別對(duì)ΡΜ2.5預(yù)測(cè)模型A、ΡΜ2.5預(yù)測(cè)模型B預(yù)測(cè)的ΡΜ2.5的濃度預(yù)測(cè)值進(jìn)行評(píng)價(jià); 其中,i表示收集數(shù)據(jù)的天數(shù),/?表示特征向量A的樣本容量表示特征向量B的樣本容量。
3.根據(jù)權(quán)利要求2所述的基于特征向量和最小二乘支持向量機(jī)的PM2.5濃度預(yù)測(cè)方法,其特征在于:所述平均值法為采用缺失數(shù)據(jù)前r個(gè)與后r個(gè)數(shù)據(jù)取平均值的方法填補(bǔ)缺失數(shù)據(jù)。
4.根據(jù)權(quán)利要求2所述的基于特征向量和最小二乘支持向量機(jī)的PM2.5濃度預(yù)測(cè)方法,其特征在于 :所述正相關(guān)為相關(guān)系數(shù)為正。
5.根據(jù)權(quán)利要求2所述的基于特征向量和最小二乘支持向量機(jī)的PM2.5濃度預(yù)測(cè)方法,其特征在于:所述負(fù)相關(guān)為相關(guān)系數(shù)為負(fù)。
6.根據(jù)權(quán)利要求2所述的基于特征向量和最小二乘支持向量機(jī)的PM2.5濃度預(yù)測(cè)方法,其特征在于:所述LS-SVM模型為以徑向基函數(shù)為核函數(shù)的最小二乘支持向量機(jī)模型。
【文檔編號(hào)】G06F19/00GK104008278SQ201410201739
【公開日】2014年8月27日 申請(qǐng)日期:2014年5月14日 優(yōu)先權(quán)日:2014年5月14日
【發(fā)明者】賀建峰, 李龍, 馬磊, 邵黨國, 易三莉, 相艷, 劉立芳 申請(qǐng)人:昆明理工大學(xué)