亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法

文檔序號:6606284閱讀:205來源:國知局
專利名稱:一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法
技術領域
本發(fā)明屬于數(shù)據(jù)處理領域,特別涉及一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法。
背景技術
目前在數(shù)字城市建設過程中,各個業(yè)務系統(tǒng)通常需要集成地理信息和業(yè)務數(shù)據(jù)信 息,但業(yè)務系統(tǒng)數(shù)據(jù)庫中的地理位置相關數(shù)據(jù)通常不存在經(jīng)緯度坐標信息,只有地理位置 的名稱或近似名稱,所以不能用GIS技術圖形化來管理和展示業(yè)務信息。因此需要以地名 空間數(shù)據(jù)為紐帶,將業(yè)務管理數(shù)據(jù)中的地名地址匹配到空間數(shù)據(jù)庫的地名地址,實現(xiàn)各個 業(yè)務數(shù)據(jù)快速匹配落圖定位,支持業(yè)務管理與空間數(shù)據(jù)快速集成。因此基于地名數(shù)據(jù)庫的 地名配準是一項重要的基礎性工作。目前進行地址數(shù)據(jù)配準大都通過人工方式,造成效率低下,且需要多個軟件相互 配合才能完成。后來,有人研制出一種半自動方式的軟件配準系統(tǒng),但是其不夠智能化,效率不夠 高,沒有把軟件能夠自動完成的高精度配準數(shù)據(jù)提取出來,造成工作量的增加。此外,目前所進行的數(shù)據(jù)匹配,都是采用模糊匹配,例1 漢字模糊音化,再將業(yè)務 數(shù)據(jù)中的地理位置模糊音化,兩者匹配,例2 基于中文字符串模糊匹配算法BPM-BM的基本 原理匹配,這些模糊匹配的方法都不能找到最匹配的結果,造成配準結果的精度降低?;谝陨戏治觯景l(fā)明人針對現(xiàn)有的地名數(shù)據(jù)庫配準方法進行研究改進,本案由 此產生。

發(fā)明內容
本發(fā)明的主要目的,在于提供一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法,可 同時提高配準的質量和效率。為了達成上述目的,本發(fā)明的解決方案是一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法,包括全自動配準子系統(tǒng)和人工快 速檢查子系統(tǒng),步驟為(1)全自動配準子系統(tǒng)讀取基礎數(shù)據(jù)及詞庫,并對其進行預處理;(2)全自動配準子系統(tǒng)讀取待配準數(shù)據(jù)和配準參考數(shù)據(jù),并依據(jù)先點匹配、再區(qū)域 匹配的配準原則進行匹配,然后輸出初步的配準結果;(3)人工快速檢查子系統(tǒng)讀取基礎數(shù)據(jù)及詞庫,并對其進行預處理;(4)人工快速檢查子系統(tǒng)對前述初步的配準結果進行數(shù)據(jù)篩選,并應用不同的檢 查策略;(5)進行人工匹配,核查結果。上述步驟⑵中,點匹配的內容為名稱、區(qū)劃代碼完全相同;若無,去除地名要素 前綴之后的單位名稱、區(qū)劃代碼完全相同;若無,單位的名稱要素、區(qū)劃代碼相同,或單位地址、區(qū)劃代碼相同,大廈名稱相同。上述步驟(2)中區(qū)域匹配的內容為單位地址鄰近,小區(qū)名稱相同或者包含;若 無,按所在的社區(qū)/村的行政中心匹配若無,按所在的道路匹配;若無,按所在的街道/鎮(zhèn)/ 鄉(xiāng)的行政中心匹配。上述步驟(4)中,對初步的配準結果按匹配方法進行篩選,對于點匹配進行抽查 或快速瀏覽檢查,對于區(qū)域匹配進行重點檢查。采用上述方案后,本發(fā)明具有以下特點(1)本發(fā)明采用精度分級的配準原則,能夠按照匹配方法對匹配結果的精度予以 描述,在檢查時,可以按照精度進行重點檢查或者抽查,與傳統(tǒng)的不分主次精度不分等級, 統(tǒng)一檢查相比,可以有效提高檢查效率;(2)采用自動配準與人工檢查相結合的配準流程,既能通過自動化的程序在極短 時間內完成初步配準作業(yè),又能通過檢查程序保證配準的整體質量;(3)通過詞庫的方法來識別地名中的關鍵字,一則可以解決地名本地化搜索的問 題,二則解析過程簡單且更精準,可以有效提升匹配的質量;(5)全自動配準子系統(tǒng)是一個可不斷優(yōu)化的系統(tǒng),通過對詞庫的干預,即可影響匹 配結果,經(jīng)過多次詞庫的優(yōu)化,盡可能地提升自動配準結果的質量,減少人工檢查作業(yè)的工作量。


圖1是本發(fā)明的流程圖;圖2是本發(fā)明的整體架構圖。
具體實施例方式以下將結合附圖及具體實施例,對本發(fā)明進行詳細說明。首先參考圖2所示,是本發(fā)明一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法所使 用的系統(tǒng)架構圖,主要包括基礎數(shù)據(jù)及詞庫、全自動配準子系統(tǒng)、人工快速檢查子系統(tǒng)三個 部分,其中,基礎數(shù)據(jù)及詞庫主要包括以下詞庫文件1)地名分類代碼需要三類村社區(qū),鄉(xiāng)鎮(zhèn)街道,大廈小區(qū);內容為每個分類所包 括的分類代碼;2)道路坐標表用于道路匹配時,配準到道路的中心坐標;3)區(qū)劃代碼表用于當無行政區(qū)劃代碼時,從名稱和地址中分析行政區(qū)劃代碼;4)市/區(qū)/鎮(zhèn)/村詞庫文件整理一份全稱的,放置于根目錄下指定目錄;一份簡 稱的,放置于配置文件;5)道路名稱用于識別地址中的道路名稱,去掉一些過于簡單,會產生歧義的道 路名;6)大廈小區(qū)用于識別地址中的大廈小區(qū)名稱。去掉一些過于簡單,會產生歧義 的名稱;7)包含數(shù)字的詞庫表用于處理地址中的數(shù)字轉換。由市/區(qū)/鎮(zhèn)/村/道路/ 大廈詞庫而來;
8)附加控制表(可選)用于按條件過濾名稱的多余部分。規(guī)則為,如果名稱中包 含某字符串,則過濾掉某字符串;9)簡稱/錯別字對照表(可選)用于處理地址及名稱中的簡稱以及錯別字。參考圖1所示,本發(fā)明提供一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法,包括 如下步驟步驟一,基礎數(shù)據(jù)及詞庫的讀取和預處理首先讀取原始數(shù)據(jù)及準備好的詞庫文件,所述的原始數(shù)據(jù)包括待配準數(shù)據(jù)和配準 參考數(shù)據(jù),其中待配準數(shù)據(jù)包含有名稱、地址、區(qū)劃代碼等字段,但無空間坐標信息,實際舉 例可參考表1所示。表 1 而配準參考數(shù)據(jù)包含有名稱、地址、分類、區(qū)劃代碼、空間坐標信息等字段,本實施 例中所使用的配準參考數(shù)據(jù)由MID和MIF兩個文件組成,兩個文件結合起來組成的數(shù)據(jù)如 表2所示。表2 本發(fā)明的目的就在于從表2中找出與表1中的每項內容相匹配的記錄,然后把經(jīng) 緯度坐標信息賦予表1中各項。該步驟的內容為(1)讀取基礎數(shù)據(jù)及詞庫,并放置于內存哈希表中;其中包括讀取道路名稱詞庫、 大廈詞庫、小區(qū)詞庫、村社詞庫、鄉(xiāng)鎮(zhèn)街道辦詞庫、數(shù)字地名詞庫、簡稱對照表、錯別字對照 表、區(qū)劃代碼對照表、道路坐標數(shù)據(jù)等。其中道路名稱詞庫用于從地址中分析出道路名稱; 大廈小區(qū)詞庫用于從地址中分析出大廈小區(qū);村社區(qū)、鄉(xiāng)鎮(zhèn)街道辦詞庫用于從地址中分析 村社鄉(xiāng)鎮(zhèn)街道辦;數(shù)字地名防止對這些地名進行中文數(shù)字轉換;簡稱錯別字對照表用于對 配準雙方進行替換然后配準;區(qū)劃代碼表用于當待配準數(shù)據(jù)無區(qū)劃代碼時,計算其行政區(qū) 劃代碼;道路坐標數(shù)據(jù)用于道路匹配;(2)讀取待配準數(shù)據(jù)表,對地址進行預處理,包括全半角轉換、簡稱/錯別字處理 等;(3)讀取配準參考數(shù)據(jù)表,并對名稱進行分詞處理,對地址進行預處理,同樣包括 全半角轉換、簡稱/錯別字處理等;(4)哈希表搜索緩存;該緩存主要針對配準參考數(shù)據(jù)表,包括把名稱去掉市級、區(qū) 縣級、鄉(xiāng)鎮(zhèn)級的前綴和后綴、對地址進行預處理。步驟二,全自動配準配準就是比較待配準數(shù)據(jù)項與配準參考數(shù)據(jù)項是否相匹配,比較的字段有名稱、 地址和區(qū)劃代碼,其中區(qū)劃代碼是必要因素,名稱和地址是兩個單獨的因素,也就是說相匹 配的兩條記錄,必須是區(qū)劃代碼相同的,而名稱和地址只要有一個相匹配即可。以下是本方法所使用的配準原則(按照從優(yōu)到劣順序)①點匹配(精確匹配)完全匹配名稱、區(qū)劃代碼完全相同。區(qū)劃代碼只采用有效位,下同。準確匹配去除地名要素前綴之后的單位名稱、區(qū)劃代碼完全相同。名址匹配單位的名稱要素(去除地名要素前綴、后綴)、區(qū)劃代碼相同,或單位 地址(含門牌號碼)、區(qū)劃代碼相同,大廈名稱相同。②區(qū)域匹配(模糊匹配)地址鄰近匹配單位地址(含門牌號碼)鄰近,小區(qū)名稱相同或者包含。社村級匹配按所在的社區(qū)/村的行政中心匹配。道路匹配當找不到鄰近地址的情況下,按所在的道路匹配(道路上的隨機特征 點,或者道路某段的中心點)。街鎮(zhèn)級匹配按所在的街道/鎮(zhèn)/鄉(xiāng)的行政中心匹配。③未匹配在無法使用以上任何原則匹配的前提下,不予配準。全自動配準子系統(tǒng)在進行配準時,以下述的順序進行匹配,若匹配成功,則不再進 行下面的匹配,直接跳出,開始下一項的配準,以下將說明具體的匹配順序(為方便表示, 當前待配準數(shù)據(jù)項各字段命名為DName,DAddress, DCode,分別表示名稱、地址、區(qū)劃代碼;配準參考數(shù)據(jù)項的各字段命名為PName,PAddress, PCode, PClass,分別表示名稱、地址、區(qū) 劃代碼、分類)(1)地址完全匹配。判斷DAddress和PAddress是否有地址完全相同項。依據(jù)為 完全匹配原則。(2)地址基本匹配。DAddress提取道路名稱和門牌號,PAddress亦提取道路名稱 和門牌號,然后判斷是否有完全相同項。依據(jù)為名址匹配原則。(3)名稱完全匹配。判斷DName和PName是否有名稱完全相同項。依據(jù)為完全匹 配原則。(4)名稱準確匹配。該步分為6步,第一步為DName和PName分別去掉市級前綴, 判斷是否有完全相同項,該步依據(jù)為準確匹配原則;第二步到第六步分別為DName和PName 去掉前綴及后綴、去掉區(qū)縣級前綴、去掉區(qū)縣級前綴及后綴,去掉鄉(xiāng)鎮(zhèn)級前綴,去掉鄉(xiāng)鎮(zhèn)級 前綴及后綴,而后判斷是否有完全相同項。該五步依據(jù)為名址配準原則。(5)地名分詞匹配。對PName進行分詞,然后檢查DName是否完全包含各詞組,并 且無多余。依據(jù)為名址匹配原則。(6)大廈相等匹配。識別DName和DAddress中的大廈,檢查配準參考數(shù)據(jù)中是否 有完全相同項。依據(jù)為名址匹配原則。若識別時DName或者DAddress中有多個大廈名稱, 則以后者優(yōu)先。下同,小區(qū)名詞識別亦同此規(guī)則。(7)大廈包含匹配。識別DName和DAddress中的大廈,檢查配準參考數(shù)據(jù)中是否 有項包含此大廈名稱,若有,則認為匹配。依據(jù)為名址匹配原則。(8)地址鄰近匹配。門牌號相差50以內。識別DAddress中的門牌號碼,并找到 PAddress中門牌號碼最接近的一項,若差距大于50,則認為不能匹配。依據(jù)為地址臨近匹 配原則。(9)小區(qū)匹配。識別DName和DAddress中的小區(qū)名稱,檢查完全和包含匹配。依 據(jù)為地址臨近匹配原則。(10)村/社級行政區(qū)中心匹配。識別DName和DAddress中的村、社區(qū)名稱(全 稱),然后檢查配準參考數(shù)據(jù)中是否有匹配項。依據(jù)為村社級匹配。若識別時DName或者 DAddress中有多個村/社區(qū)名稱,則以后者優(yōu)先。(11)道路匹配。識別DName和DAddress中的道路名稱,采用該道路在當前區(qū)劃內 的部分道路的中心點表示/或者地址包含該道路的任意特征點。依據(jù)為道路匹配。(12)村/社級行政中心匹配(簡稱匹配)。識別DName和DAddress中的村、社區(qū) 名稱(簡稱),然后檢查配準參考數(shù)據(jù)中是否有匹配項。依據(jù)為村社級匹配。(13)街道/鎮(zhèn)/鄉(xiāng)級別的行政中心匹配。識別DName和DAddress中街道辦、鎮(zhèn)、 鄉(xiāng)名稱,先全稱后簡稱,檢查完全匹配。依據(jù)為街鎮(zhèn)級匹配。其中(1)-(7)為精確匹配,(8)-(13)為模糊匹配。前述配準完成后,全自動配準子系統(tǒng)輸出初步的配準結果,參照表3所示。表 3
7
其中虛線框中表示自動匹配后添加的內容字段。需要說明的是,當全自動配準子系統(tǒng)配準完成后,可以對初步的配準結果進行大 致的審查,可能會發(fā)現(xiàn)某些項誤匹配或者未匹配的原因,然后適當?shù)匦薷脑~庫,再次運行本 子系統(tǒng),運行完畢,再進行審查,再修改,再運行。通過這樣幾次循環(huán),一則提升了匹配質量, 二則得到了一份本地詞庫,在以后該地區(qū)的配準作業(yè)中,可以直接使用,或者在此基礎上進 行豐富即可,具有不斷優(yōu)化的特點;此外,其還具有穩(wěn)定性,體現(xiàn)在,如果詞庫不修改,每次 運行的結果都是一樣的,如果修改個別詞庫,僅與該詞相關的項會發(fā)生改變,該特性在判斷 詞庫修改后產生的影響上有重要意義。步驟三,人工檢查單純地通過修改詞庫并不能解決所有問題,因此還需進行人工審核,具體的步驟 為(1)基礎數(shù)據(jù)及詞庫的讀取和預處理同步驟一中的內容,在此不再贅述。(2)數(shù)據(jù)篩選對前述配準結果按照已配準/未配準、匹配方法等進行篩選,從而方便對由不同 匹配方法產生的配準結果進行不同的檢查策略,如對于點匹配進行抽查或快速瀏覽檢查, 而對于區(qū)域匹配則進行重點檢查;(3)人工匹配搜索在配準參考數(shù)據(jù)中按照原始地名信息進行搜索,并列出所有備選項,還可以修改 搜索關鍵字,并執(zhí)行興趣點搜索和道路搜索。(4)地圖定位選擇某一匹配備選項,并在地圖上予以標識,此處可通過鷹眼圖和詳細圖兩種圖 示進行顯示,從而可方便在不同備選項之間切換時,迅速確定各備選項之間的距離和相對 位置關系。
以上實施例僅為說明本發(fā)明的技術思想,不能以此限定本發(fā)明的保護范圍,凡是 按照本發(fā)明提出的技術思想,在技術方案基礎上所做的任何改動,均落入本發(fā)明保護范圍 之內。
權利要求
一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法,其特征在于包括全自動配準子系統(tǒng)和人工快速檢查子系統(tǒng),步驟為(1)全自動配準子系統(tǒng)讀取基礎數(shù)據(jù)及詞庫,并對其進行預處理;(2)全自動配準子系統(tǒng)讀取待配準數(shù)據(jù)和配準參考數(shù)據(jù),并依據(jù)先點匹配、再區(qū)域匹配的配準原則進行匹配,然后輸出初步的配準結果;(3)人工快速檢查子系統(tǒng)讀取基礎數(shù)據(jù)及詞庫,并對其進行預處理;(4)人工快速檢查子系統(tǒng)對前述初步的配準結果進行數(shù)據(jù)篩選,并應用不同的檢查策略;(5)進行人工匹配,核查結果。
2.如權利要求1所述的一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法,其特征在于 所述步驟(2)中,點匹配的內容為名稱、區(qū)劃代碼完全相同;若無,去除地名要素前綴之后 的單位名稱、區(qū)劃代碼完全相同;若無,單位的名稱要素、區(qū)劃代碼相同,或單位地址、區(qū)劃 代碼相同,大廈名稱相同。
3.如權利要求1所述的一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法,其特征在于 所述步驟(2)中區(qū)域匹配的內容為單位地址鄰近,小區(qū)名稱相同或者包含;若無,按所在 的社區(qū)/村的行政中心匹配若無,按所在的道路匹配;若無,按所在的街道/鎮(zhèn)/鄉(xiāng)的行政 中心匹配。
4.如權利要求1所述的一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法,其特征在于 所述步驟(4)中,對初步的配準結果按匹配方法進行篩選,對于點匹配進行抽查或快速瀏 覽檢查,對于區(qū)域匹配進行重點檢查。
全文摘要
本發(fā)明公開一種可持續(xù)優(yōu)化地名數(shù)據(jù)庫快速分級配準方法,包括全自動配準子系統(tǒng)和人工快速檢查子系統(tǒng),步驟為(1)全自動配準子系統(tǒng)讀取基礎數(shù)據(jù)及詞庫,并對其進行預處理;(2)全自動配準子系統(tǒng)讀取待配準數(shù)據(jù)和配準參考數(shù)據(jù),并依據(jù)先點匹配、再區(qū)域匹配的配準原則進行匹配,然后輸出初步的配準結果;(3)人工快速檢查子系統(tǒng)讀取基礎數(shù)據(jù)及詞庫,并對其進行預處理;(4)人工快速檢查子系統(tǒng)對前述初步的配準結果進行數(shù)據(jù)篩選,并應用不同的檢查策略;(5)進行人工匹配,核查結果。此種配準方法可同時提高配準的質量及效率。
文檔編號G06F17/30GK101887462SQ20101023193
公開日2010年11月17日 申請日期2010年7月14日 優(yōu)先權日2010年7月14日
發(fā)明者周輝騰, 徐敬仙, 楊槐 申請人:廈門精圖信息技術有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1