專利名稱:一種基于貝葉斯分類的傳統(tǒng)氣象數(shù)據(jù)與感知數(shù)據(jù)融合的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及氣象觀測(cè)和預(yù)警技術(shù)領(lǐng)域,尤其是涉及一種傳統(tǒng)氣象數(shù)據(jù)與用戶參與感知數(shù)據(jù)融合的方法。
背景技術(shù):
氣象觀測(cè)是研究測(cè)量和觀察地球大氣的物理和化學(xué)特性以及大氣現(xiàn)象的方法和手段的一門學(xué)科。觀測(cè)的對(duì)象主要有大氣氣體成分濃度、氣溶膠、溫度、濕度、壓力、風(fēng)、大氣湍流、蒸發(fā)、云、降水、輻射、大氣能見度、大氣電場(chǎng)、大氣電導(dǎo)率以及雷電、虹、暈等現(xiàn)象和參數(shù)。大氣探測(cè)技術(shù)的發(fā)展為減輕或避免自然災(zāi)害造成的損失提供了條件。氣象觀測(cè)記錄和依據(jù)它編發(fā)的氣象情報(bào),除了為天氣預(yù)報(bào)提供日常資料外,還通過長(zhǎng)期積累和統(tǒng)計(jì),加工成氣候資料,為農(nóng)業(yè)、林業(yè)、工業(yè)、交通、軍事、水文、醫(yī)療衛(wèi)生和環(huán)境保護(hù)等部門進(jìn)行規(guī)劃、設(shè)計(jì)和研究,提供重要的數(shù)據(jù)。采用大氣遙感探測(cè)和高速通信傳輸技術(shù)組成的災(zāi)害性天氣監(jiān)測(cè)網(wǎng),已經(jīng)能夠十分及時(shí)地直接向用戶發(fā)布龍卷風(fēng)、強(qiáng)降雨和冰雹等災(zāi)害性天氣警報(bào)。由于傳統(tǒng)氣象數(shù)據(jù)(如雷達(dá)回波圖)提供的信息對(duì)應(yīng)區(qū)域較廣,不能最全面地為氣象預(yù)警決策服務(wù),若加之當(dāng)?shù)貙?shí)時(shí)采集到的數(shù)據(jù)(如移動(dòng)終端外接傳感器采集裝置),把兩者進(jìn)行融合,則能夠得知精確位置的天氣信息,使得氣象預(yù)報(bào)更準(zhǔn)確。為獲得準(zhǔn)確的氣象數(shù)據(jù)需要采集多個(gè)信息源傳遞的觀測(cè)數(shù)據(jù),由單個(gè)傳感器所獲得的信息通常是不完整、不連續(xù)或不精確的,此時(shí)其他的信息源如果可以提供補(bǔ)充數(shù)據(jù),融合多種信息源的數(shù)據(jù),就能夠產(chǎn)生一個(gè)有關(guān)場(chǎng)景的更一致的解釋,而使不確定性大大降低。我們把雷達(dá)回波圖解析到的數(shù)據(jù)視為傳統(tǒng)數(shù)據(jù),多類多源和多平臺(tái)傳感器獲取的數(shù)據(jù)視為感知數(shù)據(jù),將這兩種數(shù)據(jù)進(jìn)行判別處理綜合分析,充分利用雷達(dá)數(shù)據(jù)的實(shí)時(shí)性、宏觀性與傳感器數(shù)據(jù)之間的互補(bǔ)關(guān)系,考慮傳感網(wǎng)條件下的多維、多尺度、高動(dòng)態(tài)、多耦合等復(fù)雜的數(shù)據(jù)與信息關(guān)系,對(duì)數(shù)據(jù)處理采用新的策略,實(shí)現(xiàn)對(duì)多源觀測(cè)數(shù)據(jù)的協(xié)同處理。通過對(duì)參與感知數(shù)據(jù)提取,統(tǒng)計(jì)、分析形成分類的災(zāi)害預(yù)警規(guī)則和預(yù)警閾值體系。對(duì)于傳統(tǒng)氣象數(shù)據(jù)與參與感知數(shù)據(jù)的處理,即是將兩者進(jìn)行融合。所謂數(shù)據(jù)融合技術(shù),是指利用計(jì)算機(jī)對(duì)按時(shí)序獲得的若干觀測(cè)信息,在一定準(zhǔn)則下加以自動(dòng)分析、綜合,以完成所需的決策和評(píng)估任務(wù)而進(jìn)行的信息處理技術(shù)。數(shù)據(jù)融合在多信息源、多平臺(tái)和多用戶系統(tǒng)內(nèi)起著重要的處理和協(xié)調(diào)作用,保證了數(shù)據(jù)處理系統(tǒng)各單元與匯集中心間的連通性與及時(shí)通信。通過信息融合將多個(gè)氣象信息傳感器檢測(cè)到的信息與雷達(dá)觀測(cè)事實(shí)進(jìn)行科學(xué)、合理的綜合處理,可以提高狀態(tài)監(jiān)測(cè)和災(zāi)害智能化程度。而這種數(shù)據(jù)融合從本質(zhì)上說是一個(gè)參數(shù)估計(jì)問題,或者說是一個(gè)算法問題。貝葉斯分類是統(tǒng)計(jì)學(xué)分類方法,它是一類利用概率統(tǒng)計(jì)知識(shí)進(jìn)行分類的算法。在許多場(chǎng)合,樸素貝葉斯(Naive Bayes, NB)分類算法可以與決策樹和神經(jīng)網(wǎng)絡(luò)分類算法相媲美,該算法能運(yùn)用到大型數(shù)據(jù)庫(kù)中,且方法簡(jiǎn)單、分類準(zhǔn)確率高、速度快。由于貝葉斯定理假設(shè)一個(gè)屬性值對(duì)給定類的影響?yīng)毩⒂谄渌鼘傩缘闹?,而此假設(shè)在實(shí)際情況中通常是不成立的,因此其分類準(zhǔn)確率可能會(huì)下降。為此,就出現(xiàn)了許多降低獨(dú)立性假設(shè)的貝葉斯分類算法,如 TAN(Tree Augmented Bayes Network)算法和 LB (Large Bayes)算法。但 TAN 算法也存在缺陷,所需要的數(shù)據(jù)存儲(chǔ)容量過大,計(jì)算速度相對(duì)而言就會(huì)減慢,導(dǎo)致算法效率降低。而LB算法利用了類似Apriori的頻繁項(xiàng)集挖掘算法找出訓(xùn)練集中的頻繁項(xiàng)集。由于LB僅使用有限項(xiàng)乘積來(lái)估計(jì)概率,因此必須優(yōu)先選擇那些能為分類提供新信息的項(xiàng)集。為此,LB為每個(gè)項(xiàng)集定義了興趣度。興趣度用項(xiàng)集所有低一階的子集來(lái)近似估計(jì)該項(xiàng)集的偏差來(lái)定義,偏差越大代表該項(xiàng)集包含的信息越多。在頻繁項(xiàng)集挖掘過程中,加入了興趣度約束來(lái)保證得到的項(xiàng)集包含對(duì)分類有用的信息;在分類階段,同樣也優(yōu)先選擇興趣度高的項(xiàng)集參與分類。但是它僅使用一個(gè)分類器,只使用了有限的部分頻繁項(xiàng)集,而且引入了興趣度度量,還有一系列的規(guī)則從眾多頻繁項(xiàng)集中選擇一部分來(lái)對(duì)測(cè)試樣本進(jìn)行分類。這種模型選擇加大了計(jì)算開銷,同時(shí)浪費(fèi)了許多對(duì)于分類有用的頻繁項(xiàng)集。
發(fā)明內(nèi)容
為解決上述問題,本發(fā)明在樸素貝葉斯分類器的基礎(chǔ)上,公開了一種I-依賴分類器與屬性加權(quán)相結(jié)合的貝葉斯分類改進(jìn)算法一ODAWNB(One-dependence AttributeWeighted Naive Bayes)方法,改進(jìn)現(xiàn)有的樸素貝葉斯算法,適當(dāng)放松屬性間必須相互獨(dú)立這一限制,在效率和分類精度之間找到一個(gè)折中點(diǎn),最好地完成雷達(dá)數(shù)據(jù)與用戶感知數(shù)據(jù)之間的融合。由于對(duì)于每個(gè)屬性選擇它所依賴的屬性會(huì)帶來(lái)額外的計(jì)算開銷,也會(huì)增加分類器的易變性,因此為了避免模型選擇,我們選擇那些被其他所有屬性依賴的屬性,然后用這些屬性構(gòu)造若干I-依賴分類器,并將這些分類器對(duì)每個(gè)類別的預(yù)測(cè)集成起來(lái)。同時(shí),為了避免由于樣本少而導(dǎo)致概率估值不準(zhǔn)確,只選擇那些屬性取值在訓(xùn)練樣本中出現(xiàn)次數(shù)大于某個(gè)閾值的I-依賴分類器。另外,不同屬性對(duì)分類結(jié)果的影響程度不同,利用屬性權(quán)值參數(shù)的學(xué)習(xí)來(lái)提高分類性能,得到最終的分類器表達(dá)式
權(quán)利要求
1 .一種基于貝葉斯分類的傳統(tǒng)氣象數(shù)據(jù)與感知數(shù)據(jù)融合的方法,其特征在于,包括以下步驟 步驟1,首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理針對(duì)訓(xùn)練樣本和待分類樣本,對(duì)各樣本缺失的屬性進(jìn)行補(bǔ)齊和離散化,使各數(shù)據(jù)項(xiàng)標(biāo)準(zhǔn)化,以便繼續(xù)其后的運(yùn)算步驟; 步驟2,根據(jù)訓(xùn)練樣本數(shù)據(jù)構(gòu)造分類器 步驟2. 1,掃描所有訓(xùn)練樣本,設(shè)每個(gè)訓(xùn)練樣本具有屬性組 ,…,訓(xùn)練樣本被分為c個(gè)類別;每個(gè)訓(xùn)練樣本都具有類別,統(tǒng)計(jì)訓(xùn)練樣本中,類標(biāo)簽力
2.根據(jù)權(quán)利要求I所述的基于貝葉斯分類的傳統(tǒng)氣象數(shù)據(jù)與感知數(shù)據(jù)融合的方法,其特征在于在步驟2. 4中設(shè)定m是一個(gè)閾值,F(xiàn)(Xi)是屬性取值為%的訓(xùn)練樣本的數(shù)目,如果存在i滿足K i,則提供分類計(jì)算公式 ;如果不存在i滿足IS i < nhF{x) > /h,則使用樸素貝葉斯分類器。
3.根據(jù)權(quán)利要求I或2所述的基于貝葉斯分類的傳統(tǒng)氣象數(shù)據(jù)與感知數(shù)據(jù)融合的方法,其特征在于在步驟I中對(duì)數(shù)據(jù)進(jìn)行預(yù)處理時(shí),對(duì)各屬性值采用四舍五入取整的方法進(jìn)行處理。
全文摘要
本發(fā)明提供了一種基于貝葉斯分類的傳統(tǒng)氣象數(shù)據(jù)與感知數(shù)據(jù)融合的方法,在樸素貝葉斯分類器的基礎(chǔ)上,公開了一種1-依賴分類器與屬性加權(quán)相結(jié)合的貝葉斯分類改進(jìn)算法—ODAWNB(One-dependence Attribute Weighted Naive Bayes)方法,改進(jìn)現(xiàn)有的樸素貝葉斯算法,適當(dāng)放松屬性間必須相互獨(dú)立這一限制,在效率和分類精度之間找到一個(gè)折中點(diǎn),最好地完成雷達(dá)數(shù)據(jù)與用戶感知數(shù)據(jù)之間的融合。本發(fā)明包括如下步驟數(shù)據(jù)預(yù)處理,根據(jù)訓(xùn)練樣本數(shù)據(jù)構(gòu)造分類器,利用構(gòu)造的分類器對(duì)待分類的樣本進(jìn)行分類。
文檔編號(hào)G06F17/30GK102956023SQ201210312430
公開日2013年3月6日 申請(qǐng)日期2012年8月30日 優(yōu)先權(quán)日2012年8月30日
發(fā)明者杜景林, 孫曉燕, 周杰 申請(qǐng)人:南京信息工程大學(xué)