本發(fā)明涉及一種低成本PM2.5監(jiān)測節(jié)點(diǎn)的校準(zhǔn)方法,特別是獲取可靠的時(shí)空一致性數(shù)據(jù)樣本、對(duì)于室內(nèi)環(huán)境和室外環(huán)境的數(shù)據(jù)樣本分別選用合適的機(jī)器學(xué)習(xí)模型。
背景技術(shù):
空氣質(zhì)量指數(shù)(AQI)主要成分包括,細(xì)顆粒物(PM2.5)、可吸入顆粒物(PM10)、二氧化硫(SO2)、二氧化氮(NO2)、臭氧(O3)、一氧化碳(CO)等各項(xiàng)污染物的實(shí)測濃度值。其中細(xì)顆粒物(PM2.5),是指直徑小于等于2.5微米的顆粒物。細(xì)顆粒物面積大,活性強(qiáng),易附帶有毒、有害物質(zhì),且在大氣中的停留時(shí)間長、輸送距離遠(yuǎn),因?yàn)橹睆皆叫。M(jìn)入呼吸道的部分越深。2微米以下的可深入到細(xì)支氣管和肺泡,細(xì)顆粒物進(jìn)入人體到肺泡后,直接影響肺的通氣功能,使機(jī)體容易處于缺氧狀態(tài)。在中國,PM2.5是空氣污染物的主要來源,因此PM2.5監(jiān)測是關(guān)系的全國人民健康的重要因素。
現(xiàn)有的PM2.5監(jiān)測檢測節(jié)點(diǎn)主要包括下面二類:1)PM2.5監(jiān)測站,監(jiān)測站采用脫水稱重的方式,得到最精確的PM2.5濃度。然而,由于監(jiān)測站的部署成本和維護(hù)成本較高,在一個(gè)城市監(jiān)測站的數(shù)量是有限的,因此難以的得到覆蓋城市范圍內(nèi)細(xì)粒度的PM2.5濃度。2)PM2.5監(jiān)測節(jié)點(diǎn),主要是一些基于光散射原理廉價(jià)的傳感器,精度低于監(jiān)測站的PM2.5濃度,由于成本較低PM2.5監(jiān)測節(jié)點(diǎn)可以在城市范圍大量部署,從而得到細(xì)粒度的PM2.5濃度。
針對(duì)1)中的缺陷,U-Air提出利用城市大數(shù)據(jù)訓(xùn)練區(qū)間估計(jì)模型,對(duì)無監(jiān)測站的區(qū)間內(nèi)的PM2.5濃度進(jìn)行預(yù)測。然而,這種基于歷史數(shù)據(jù)估計(jì)的方法,存在一個(gè)重要的缺陷:無法對(duì)區(qū)間內(nèi)PM2.5濃度的變化做出及時(shí)的相應(yīng)。通過大量部署2)中的PM2.5監(jiān)測節(jié)點(diǎn)可以解決1)中的缺陷,然而節(jié)點(diǎn)讀數(shù)的精度較低成為一個(gè)不容忽視的問題。
技術(shù)實(shí)現(xiàn)要素:
本文要克服現(xiàn)有技術(shù)的上述缺點(diǎn),提供了一種低成本PM2.5監(jiān)測節(jié)點(diǎn)的校準(zhǔn)方法。
為實(shí)現(xiàn)以上目的,本發(fā)明所采取的技術(shù)方案是:一種低成本PM2.5監(jiān)測節(jié)點(diǎn)的校準(zhǔn)方法,包括以下步驟:
步驟1,獲取時(shí)間和空間上一致的數(shù)據(jù)樣本,包括:
(1.1)節(jié)點(diǎn)硬件集成,主要集成PM2.5監(jiān)測節(jié)點(diǎn),敏感性特征傳感器,無線傳輸模塊和供電模塊。
(1.2)節(jié)點(diǎn)軟件功能設(shè)計(jì),主要剖分為定時(shí)采集,數(shù)據(jù)校準(zhǔn),定時(shí)傳輸,低能耗等功能。
(1.3)節(jié)點(diǎn)部署,在空氣檢測站附近的室內(nèi)環(huán)境和室外環(huán)境分別部署節(jié)點(diǎn)。
(1.4)在本地搭建數(shù)據(jù)庫,設(shè)置程序:定時(shí)接受節(jié)點(diǎn)傳輸?shù)臄?shù)據(jù)和定時(shí)獲取空氣質(zhì)量監(jiān)測站數(shù)據(jù),并存入數(shù)據(jù)庫。
步驟2,對(duì)于室內(nèi)環(huán)境和室外環(huán)境選取不同校準(zhǔn)模型,包括:
(2.1)將數(shù)據(jù)樣本按照室內(nèi)環(huán)境節(jié)點(diǎn)和室外環(huán)境節(jié)點(diǎn)分為兩組,并進(jìn)行數(shù)據(jù)清洗。
(2.2)用最小二乘法對(duì)兩組樣本分別擬合,分別計(jì)算校準(zhǔn)過的PM2.5節(jié)點(diǎn)數(shù)據(jù)和真實(shí)值之間的偏差。
(2.3)對(duì)于室內(nèi)的數(shù)據(jù)樣本,線性擬合后的偏差較小,結(jié)合敏感性特征,采用不變線性參數(shù)假設(shè),建立多元線性參數(shù)回歸模型。
(2.4)對(duì)于室外的數(shù)據(jù)樣本,線性擬合后的偏差較大,結(jié)合敏感性特征,采用可變線性參數(shù)假設(shè),建立線性參數(shù)學(xué)習(xí)模型。
步驟3,數(shù)據(jù)預(yù)處理,模型訓(xùn)練和測試,包括:
(3.1)數(shù)據(jù)預(yù)處理,對(duì)兩組數(shù)據(jù)樣本進(jìn)行清洗,主要包括異常數(shù)據(jù)去除,數(shù)據(jù)缺失值補(bǔ)充。
(3.2)對(duì)于每組數(shù)據(jù)樣本,按時(shí)間進(jìn)行排序,選取前一半數(shù)據(jù)樣本作為訓(xùn)練樣本,選取后一半數(shù)據(jù)作為測試樣本。
(3.3)對(duì)于室內(nèi)環(huán)境的訓(xùn)練樣本,采用多元線性回歸模型進(jìn)行訓(xùn)練,將訓(xùn)練好的模型用測試樣本進(jìn)行驗(yàn)證。
(3.4)對(duì)于室外環(huán)境的訓(xùn)練樣本,采用線性參數(shù)學(xué)習(xí)模型進(jìn)行訓(xùn)練,將訓(xùn)練好的模型用測試樣本進(jìn)行驗(yàn)證。
(3.5)對(duì)于室內(nèi)環(huán)境的節(jié)點(diǎn)將驗(yàn)證過的離線模型參數(shù)寫入校準(zhǔn)程序。
(3.6)對(duì)于室外環(huán)境的節(jié)點(diǎn)將驗(yàn)證過的離線模型寫入校準(zhǔn)程序。
步驟4,將驗(yàn)證過的神經(jīng)網(wǎng)絡(luò)和回歸樹離線模型分別寫入室內(nèi)節(jié)點(diǎn)和室外節(jié)點(diǎn)的校準(zhǔn)程序。
本發(fā)明的有益效果是:本方法針對(duì)室內(nèi)環(huán)境和室外環(huán)境,分別建立合適的校準(zhǔn)模型。校準(zhǔn)模型是經(jīng)離線訓(xùn)練的再寫入節(jié)點(diǎn)程序的,無需對(duì)之后節(jié)點(diǎn)程序進(jìn)行任何的變動(dòng)。校準(zhǔn)過的數(shù)據(jù)能得到較大的精度提升。
附圖說明
圖1是本發(fā)明方法的工作流程圖。
具體實(shí)施方式
下面結(jié)合附圖對(duì)本發(fā)明作進(jìn)一步描述。本發(fā)明的具體實(shí)施方式如下:
步驟1,獲取時(shí)間和空間上一致的數(shù)據(jù)樣本,包括:
(1.1)集成節(jié)點(diǎn),敏感性特征傳感器和無線傳輸模塊。敏感性特征為濕度,溫度,氣壓強(qiáng)度。
(1.2)在節(jié)點(diǎn)設(shè)置程序,數(shù)據(jù)定時(shí)傳輸回本地。節(jié)點(diǎn)數(shù)據(jù)采樣周期和傳輸周期為30分鐘。節(jié)點(diǎn)傳輸數(shù)據(jù)的方式是基于GPRS的HTTP-POST協(xié)議。
(1.3)部署節(jié)點(diǎn)在空氣質(zhì)量監(jiān)測站附近。
(1.4)在本地設(shè)置程序,定時(shí)獲取空氣質(zhì)量監(jiān)測站數(shù)據(jù)。本地通過爬蟲程序從官網(wǎng)上獲取官方PM2.5數(shù)據(jù),周期為30分鐘。數(shù)據(jù)樣本收集時(shí)間長達(dá)一年。
步驟2,對(duì)于室內(nèi)環(huán)境和室外環(huán)境選取不同校準(zhǔn)模型,包括:
(2.1)選擇實(shí)驗(yàn)環(huán)境,室內(nèi)環(huán)境和室外環(huán)境,在不同環(huán)境下分別采集一定量的數(shù)據(jù)樣本。
(2.2)對(duì)室內(nèi)和室外環(huán)境的數(shù)據(jù)樣本采用線性擬合,分析擬合值和真實(shí)值的偏差。采用二次均方差法和皮爾森系數(shù)。
(2.3)對(duì)于室內(nèi)環(huán)境,線性擬合偏差小,認(rèn)為線性參數(shù)恒定,結(jié)合敏感性特征,采用多元線性回歸模型。
(2.4)對(duì)于室外環(huán)境,線性擬合偏差大,認(rèn)為線性參數(shù)是敏感變化的,結(jié)合敏感特征,采用線性參數(shù)學(xué)習(xí)模型。
(2.5)室內(nèi)環(huán)境校準(zhǔn)模型假設(shè):
y=w*x+b+ep+eu 公式(1)
其中X是未校準(zhǔn)過的PM2.5濃度和敏感性特征,y是校準(zhǔn)過的PM2.5濃度,w和b是校準(zhǔn)線性參數(shù),ep是未加入敏感性特征所帶來的誤差,eu是系統(tǒng)噪聲所帶來的誤差。隨著新的敏感特征數(shù)量的增加,ep會(huì)不斷減小。對(duì)w,b采取基于人工神經(jīng)網(wǎng)絡(luò)的多元線性回歸模型進(jìn)行擬合。
(2.6)室外環(huán)境校準(zhǔn)假設(shè):
y=w(f)*x+b(f)+eu 公式(2)
不同于上面的假設(shè),認(rèn)為校準(zhǔn)線性參數(shù)是對(duì)特征敏感的,x是未校準(zhǔn)的pm2.5的濃度值,f是敏感性特征,y是校準(zhǔn)過的PM2.5的值。W,b是特征敏感的線性參數(shù),eu是系統(tǒng)噪聲帶來的誤差。采用基于CART回歸樹模型學(xué)習(xí)w和b。
步驟3,數(shù)據(jù)預(yù)處理,模型訓(xùn)練和測試,包括:
(3.1)數(shù)據(jù)預(yù)處理,濕度,溫度,氣壓強(qiáng)度需經(jīng)過正太標(biāo)準(zhǔn)化,異常數(shù)據(jù)檢測采用基于距離的方法,異常數(shù)據(jù)和缺失數(shù)據(jù)用均值補(bǔ)充。
(3.2)人工神經(jīng)網(wǎng)絡(luò)模型,層數(shù)為三層:輸入層,隱藏層,輸出層。輸入特征為未校準(zhǔn)的PM2.5濃度,溫度,濕度,氣壓強(qiáng)度。輸出為校準(zhǔn)過的PM2.5濃度。層與層之間的傳遞函數(shù)采取簡單的線性函數(shù):
f(x)=wx+b 公式(3)
(3.3)CART回歸樹模型,輸入特征為未校準(zhǔn)過的PM2.5濃度,溫度,濕度,氣壓強(qiáng)度,和時(shí)間。輸出為w和b的值。樹的剪枝采取后剪枝策略。
(3.4)對(duì)于未校準(zhǔn)過的PM2.5濃度添加其二次項(xiàng)的值作為新的特征。
步驟4,將驗(yàn)證過的神經(jīng)網(wǎng)絡(luò)和回歸樹離線模型分別寫入室內(nèi)節(jié)點(diǎn)和室外節(jié)點(diǎn)的校準(zhǔn)程序。