基于k-近鄰的水利普查行業(yè)能力數(shù)據(jù)融合方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及信息處理技術(shù),具體涉及一種基于k-近鄰的水利普查行業(yè)能力數(shù)據(jù) 融合方法。
【背景技術(shù)】
[0002] 第一次全國(guó)水利普查主要查清了中華人民共和國(guó)境內(nèi)(未含香港、澳門特別行政 區(qū)和臺(tái)灣地區(qū))的河流湖泊、水利工程、經(jīng)濟(jì)社會(huì)用水、河流湖泊治理保護(hù)、水土保持、水利 行業(yè)能力建設(shè)、灌區(qū)及地下水等8大項(xiàng)基礎(chǔ)信息,為加強(qiáng)水利基礎(chǔ)設(shè)施建設(shè)與管理、實(shí)行最 嚴(yán)格的水資源管理制度等提供了科學(xué)權(quán)威的數(shù)據(jù)支撐。
[0003] 水利單位是結(jié)合水利工程設(shè)施特性與行業(yè)發(fā)展規(guī)模等各類管理信息,分析水利單 位與水利工程設(shè)施、資產(chǎn)、從業(yè)人員等發(fā)展?fàn)顩r的關(guān)鍵節(jié)點(diǎn)。因此,厘清水利單位,通過(guò)建立 水利工程對(duì)象的工程管理單位與行業(yè)能力的水利單位之間的匹配關(guān)系,實(shí)現(xiàn)普查水利工程 數(shù)據(jù)與行業(yè)能力數(shù)據(jù)融合,對(duì)科學(xué)研判水利管理能力和水平具有重要的意義。
[0004] 由于不同專業(yè)普查的填報(bào)范圍規(guī)定不同、規(guī)范性要求存在差異,因此部分水利單 位普查數(shù)據(jù)存在組織機(jī)構(gòu)代碼不完整、重復(fù),以及不同專業(yè)填報(bào)的水利單位名稱不能完全 一致等問(wèn)題,同時(shí)由于水利普查數(shù)據(jù)量大,直接完全通過(guò)人工方式建立匹配關(guān)系費(fèi)時(shí)費(fèi) 力。
【發(fā)明內(nèi)容】
[0005] 發(fā)明目的:本發(fā)明的目的在于解決現(xiàn)有技術(shù)中存在的不足,提供一種基于k-近鄰 的水利普查行業(yè)能力數(shù)據(jù)融合方法。實(shí)現(xiàn)水利普查中行業(yè)能力單位與水利工程管理單位信 息的一致匹配,實(shí)現(xiàn)水利工程和行業(yè)能力普查數(shù)據(jù)的有效銜接,為分析水利發(fā)展現(xiàn)狀,制定 水利及經(jīng)濟(jì)社會(huì)發(fā)展規(guī)劃等提供支撐。所謂數(shù)據(jù)融合就是利用計(jì)算機(jī)技術(shù)將來(lái)自多個(gè)傳感 器或多源的觀測(cè)信息進(jìn)行分析、綜合處理,從而得出決策和估計(jì)任務(wù)所需的信息的處理過(guò) 程。
[0006] 其中,數(shù)據(jù)融合包含三個(gè)層次,即,數(shù)據(jù)層融合、特征層融合以及決策層融合。數(shù)據(jù) 層融合是低層次的融合,直接在采集到的原始數(shù)據(jù)層上進(jìn)行的融合,在各種傳感器的原始 測(cè)報(bào)未經(jīng)預(yù)處理之前就進(jìn)行數(shù)據(jù)的綜合與分析。特征層融合屬于中間層次的融合,它先對(duì) 來(lái)自傳感器的原始信息進(jìn)行特征提?。ㄌ卣骺梢允悄繕?biāo)的邊緣、方向、速度等),然后對(duì)特 征信息進(jìn)行綜合分析和處理;特征層融合的優(yōu)點(diǎn)在于實(shí)現(xiàn)了可觀的信息壓縮,有利于實(shí)時(shí) 處理,并且由于所提取的特征直接與決策分析有關(guān),因而融合結(jié)果能最大限度的給出決策 分析所需要的特征信息。決策層融合通過(guò)不同類型的傳感器觀測(cè)同一個(gè)目標(biāo),每個(gè)傳感器 在本地完成基本的處理,其中包括預(yù)處理、特征抽取、識(shí)別或判決,以建立對(duì)所觀察目標(biāo)的 初步結(jié)論。然后通過(guò)關(guān)聯(lián)處理進(jìn)行決策層融合判決,最終獲得聯(lián)合推斷結(jié)果。
[0007] 本發(fā)明基于數(shù)據(jù)挖掘中的k_近鄰搜索完成數(shù)據(jù)融合。所謂k_近鄰搜索是指在對(duì) 象數(shù)據(jù)集S中查詢與指定查詢對(duì)象q最相似的k個(gè)對(duì)象。k_近鄰是相似性搜索的一種,相 似性搜索就是在對(duì)象數(shù)據(jù)集S中查詢與指定查詢對(duì)象q相似的對(duì)象。相似性搜索一般包括 兩類任務(wù):一是k_近鄰查詢(k Nearest Neighbor Query, kNN);另一種是范圍查詢(Range Query),即在對(duì)象數(shù)據(jù)集S中查詢與指定查詢對(duì)象q相似距離小于等于ε的所有對(duì)象。在 相似性查詢中,通常使用相似距離度量D來(lái)計(jì)算兩個(gè)對(duì)象的距離,即對(duì)象s與查詢對(duì)象q的 距離被描述為D(s,q)。對(duì)于范圍查詢即是查詢所有滿足D(s,q)< ε的對(duì)象s。在k-近 鄰查詢過(guò)程中,對(duì)對(duì)象s按照D (s,q)排序,前k個(gè)即為q的k_近鄰。目前常見(jiàn)的相似距離 度量有歐式距離,最長(zhǎng)公共子串,編輯距離等。
[0008] 技術(shù)方案:本發(fā)明的一種基于k_近鄰的水利普查行業(yè)能力數(shù)據(jù)融合方法,包括以 下步驟:
[0009] (1)對(duì)水利普查行業(yè)能力數(shù)據(jù)以及水利工程數(shù)據(jù)中的單位名稱進(jìn)行逐級(jí)分解;
[0010] ⑵選擇水利普查中行業(yè)能力數(shù)據(jù)和水利工程數(shù)據(jù)樣本,并建立樣本中水利工程 管理單位和行業(yè)能力單位的匹配;
[0011] (3)基于步驟⑵中的樣本訓(xùn)練編緝距離權(quán)重;
[0012] (4)對(duì)步驟⑴中分解出的單位名稱信息以帶權(quán)重的編緝距離作為相似性度量距 離,以行業(yè)能力單位名稱為數(shù)據(jù)集,以水利工程管理單位名稱為查詢集,進(jìn)行k_近鄰相似 搜索,并結(jié)合人工對(duì)數(shù)據(jù)進(jìn)行匹配。
[0013] 進(jìn)一步的,所述步驟(1)中的行業(yè)能力數(shù)據(jù)以及水利工程數(shù)據(jù)中的單位名稱被逐 級(jí)分解成行政地名信息和精簡(jiǎn)的單位名稱;且對(duì)不包含行政區(qū)劃名的單位名稱直接分解成 非精簡(jiǎn)單位名。
[0014] 進(jìn)一步的,所述步驟(2)中選擇水利普查中行業(yè)能力數(shù)據(jù)和水利工程數(shù)據(jù)樣本 (例如可以選擇10%的水利普查數(shù)據(jù)作為樣本),并通過(guò)組織機(jī)構(gòu)代碼、普通的編輯距離以 及人工匹配等方式,建立樣本中水利工程管理單位名稱和行業(yè)能力單位名稱之間的匹配, 作為編輯距離權(quán)重學(xué)習(xí)的數(shù)據(jù)集。
[0015] 而在上述樣本選擇的過(guò)程中,以縣級(jí)數(shù)據(jù)為基本單位來(lái)選擇用于訓(xùn)練最優(yōu)權(quán)重向 量的樣本數(shù)據(jù),即從總體數(shù)據(jù)涉及的所有縣中,首先選擇樣本縣,然后每個(gè)樣本縣的所有行 業(yè)能力和水利工程數(shù)據(jù)作為樣本數(shù)據(jù),且選擇樣本縣時(shí)需要考慮水利發(fā)展現(xiàn)狀上的代表 性。
[0016] 進(jìn)一步的,所述步驟(3)中采用1-近鄰方法訓(xùn)練最優(yōu)的編緝距離權(quán)重,進(jìn)而獲得 最優(yōu)編緝距離中的刪除、插入和替換操作的最優(yōu)權(quán)重。
[0017] 進(jìn)一步的,所述步驟(4)中對(duì)單位名稱進(jìn)行k_近鄰相似搜索時(shí),對(duì)精確單位名 稱按照水利普查的"在地原則",在分解出的單位所在級(jí)別的縣或市或省或全國(guó)匹配;對(duì)非 精簡(jiǎn)單位名稱按照縣、市、省以及國(guó)家逐級(jí)匹配即對(duì)一個(gè)非精簡(jiǎn)的水利工程管理單位查詢 k_近鄰時(shí),優(yōu)先在其所在縣級(jí)的行業(yè)能力單位數(shù)據(jù)中匹配,然后到市、省以及全國(guó)范圍的行 業(yè)能力單位數(shù)據(jù)中匹配。
[0018] 有益效果:本發(fā)明通過(guò)相似性搜索建立行業(yè)能力普查單位與水利工程管理單位的 一致匹配,實(shí)現(xiàn)水利工程和行業(yè)能力普查數(shù)據(jù)的有效銜接,為分析水利發(fā)展現(xiàn)狀,制定水利 及經(jīng)濟(jì)社會(huì)發(fā)展規(guī)劃等提供支撐。
【附圖說(shuō)明】
[0019] 圖1為本發(fā)明實(shí)施例中能夠行業(yè)能力單位名稱匹配框架圖;
[0020] 圖2為實(shí)施例中省1的樣本數(shù)據(jù)的匹配準(zhǔn)確率對(duì)比圖;
[0021] 圖3為實(shí)施例中省2的樣本數(shù)據(jù)的匹配準(zhǔn)確率對(duì)比圖。
【具體實(shí)施方式】
[0022] 下面結(jié)合具體實(shí)施例,進(jìn)