地理編碼實現(xiàn)方法和裝置制造方法
【專利摘要】本發(fā)明實施例提供一種地理編碼實現(xiàn)方法和裝置。該地理編碼實現(xiàn)方法包括:對地址信息進行拆分和語義解析,以獲取至少兩個子地址對應的信息點數(shù)據(jù);根據(jù)獲取的至少兩個信息點數(shù)據(jù),對所述地址信息對應的地理目標進行地理編碼。本發(fā)明實施例的技術方案,通過將地址信息拆分獲得至少兩個子地址,能夠實現(xiàn)對復雜地址信息的拆分和解析,進而實現(xiàn)對復雜地址信息描述地理目標的精確定位,優(yōu)化了地理編碼的準確性。
【專利說明】地理編碼實現(xiàn)方法和裝置
【技術領域】
[0001]本發(fā)明實施例涉及計算機數(shù)據(jù)處理技術,尤其涉及一種地理編碼實現(xiàn)方法和裝置。
【背景技術】
[0002]地理編碼(Geocoding),又稱地址匹配(address-matching),是建立地理位置坐標與給定地址信息之間關聯(lián)的過程,也是指在地圖上找到并標明每條地址信息所對應的位置坐標,而位置坐標一般會以點、線、面形式的坐標矢量表達一個地理目標。地理編碼是理信息系統(tǒng)(GeographicInformationSystem,簡稱GIS)中比較重要的功能。如何將地址信息準確地與位置坐標進行匹配,是地理編碼技術的重要關注點之一。
[0003]現(xiàn)有的地理編碼技術通常是首先對用戶提供的地址信息進行語義解析,而后將地址信息對應的語義信息與數(shù)據(jù)庫中已存儲的位置坐標的描述信息進行匹配,從而識別該地址信息所對應的地理目標。當無法精確定位時,則確定與該地址信息匹配的一定范圍的地理目標。
[0004]但是,現(xiàn)有技術僅限于對簡單的規(guī)范化地址信息進行含義解析,而對于用戶多角度表述的復雜地址信息則無法進行語義解析,更無法借此提高定位地理目標的精度。
【發(fā)明內容】
[0005]本發(fā)明實施例提供一種地理編碼實現(xiàn)方法和裝置,以提高基于復雜地址信息進行地理編碼的定位精度。
[0006]第一方面,本發(fā)明實施例提供了一種地理編碼實現(xiàn)方法,包括:
[0007]對地址信息進行拆分和語義解析,以獲取至少兩個子地址對應的信息點數(shù)據(jù);
[0008]根據(jù)獲取的至少兩個信息點數(shù)據(jù),對所述地址信息對應的地理目標進行地理編碼。
[0009]第二方面,本發(fā)明實施例還提供了一種地理編碼實現(xiàn)裝置,包括:
[0010]地址信息處理模塊,用于對地址信息進行拆分和語義解析,以獲取至少兩個子地址對應的信息點數(shù)據(jù);
[0011]地理編碼模塊,用于根據(jù)獲取的至少兩個信息點數(shù)據(jù),對所述地址信息對應的地理目標進行地理編碼。
[0012]本發(fā)明實施例的技術方案,通過將地址信息拆分獲得至少兩個子地址,能夠實現(xiàn)對復雜地址信息的拆分和解析,進而實現(xiàn)對復雜地址信息描述地理目標的精確定位,優(yōu)化了地理編碼的準確性。
【專利附圖】
【附圖說明】
[0013]圖1為本發(fā)明實施例一提供的一種地理編碼實現(xiàn)方法的流程圖;
[0014]圖2為本發(fā)明實施例二提供的一種地理編碼實現(xiàn)方法的流程圖;[0015]圖3為本發(fā)明實施例三提供的一種地理編碼實現(xiàn)方法的流程圖;
[0016]圖4為本發(fā)明實施例四提供的地理編碼實現(xiàn)裝置的結構示意圖。
【具體實施方式】
[0017]下面結合附圖和實施例對本發(fā)明作進一步的詳細說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關的部分而非全部結構。
[0018]實施例一
[0019]圖1為本發(fā)明實施例一提供的一種地理編碼實現(xiàn)方法的流程圖,本實施例可適用于對諸如用戶輸入的地址信息進行語義解析,從而建立地址信息與地理位置坐標之間關聯(lián)的地理編碼過程。該方法可以由地理編碼實現(xiàn)裝置來執(zhí)行,該裝置可以采用硬件和/或軟件的方式實現(xiàn)。本實施例提供的地理編碼實現(xiàn)方法具體包括如下:
[0020]110、對地址信息進行拆分和語義解析,以獲取至少兩個子地址對應的信息點數(shù)據(jù);
[0021]120、根據(jù)獲取的至少兩個信息點數(shù)據(jù),對所述地址信息對應的地理目標進行地理編碼。
[0022]本實施例中,地址信息即用于描述某個地理位置信息,通常是用戶檢索地理位置時采用的描述語言。用戶的描述語言既可以是規(guī)范的地理位置表達,例如“北京市海淀區(qū)上地信息路甲9號奎科大廈”,也可以是語義模糊的復雜地址信息,例如“北京市奎科大廈,上地5街與信息路交叉口北50米,方正大廈旁”。本發(fā)明實施例尤為適用于對復雜地址信息進行解析,從中拆分獲取對同一地理位置坐標進行描述的至少兩個子地址,進而根據(jù)多個子地址結合對該地址信息的地理目標進行定位,即實現(xiàn)該地址信息的地理編碼。
[0023]采用本實施例的技術方案,能夠實現(xiàn)對復雜地址信息的拆分和解析,進而實現(xiàn)對復雜地址信息描述地理目標的精確定位,優(yōu)化了地理編碼的準確性。
[0024]在上述方案的基礎上,對地址信息進行拆分和語義解析,以獲取至少兩個子地址對應的信息點數(shù)據(jù)的操作優(yōu)選為根據(jù)設定關鍵詞將地址信息進行拆分和信息點識別,以獲得至少兩個子地址對應的信息點數(shù)據(jù)。
[0025]上述操作,基于信息點(Point of Interest,簡稱P0I)對地址信息進行語義解析和子地址拆分。POI是地理編碼技術中記錄地理目標的手段,通??梢悦枋龅乩砟繕说拿Q、屬性和矢量坐標等。通常建立有存儲一定地理范圍內POI的POI數(shù)據(jù)庫,例如某個城市內的所有P0I。數(shù)據(jù)庫中的POI也在隨著地理目標的實際變化而不斷的更新、增加和刪除。
[0026]實施例二
[0027]圖2為本發(fā)明實施例二提供的地理編碼實現(xiàn)方法中進行地址信息拆分和解析的流程圖。本實施例以上述實施例為基礎,進一步詳細介紹如何基于POI對子地址進行拆分和語義解析。
[0028]具體的,上述實施例中,根據(jù)設定關鍵詞將地址信息進行拆分和信息點識別,以獲得至少兩個子地址對應的信息點數(shù)據(jù)的操作可以包括:
[0029]210、對所述地址信息進行語義解析,以獲得具有獨立地址語義的短語;
[0030]獨立地址語義的短語是能夠獨立表達某一地址的詞語,一般可根據(jù)地址短語數(shù)據(jù)庫或地址信息表達規(guī)則來確定。進行短語拆分可方便進行后續(xù)的POI識別。
[0031]上述獲得短語的操作優(yōu)選具體為:基于分詞數(shù)據(jù)庫將地址信息進行分詞處理,獲得具有獨立語義的詞語;將詞語進行合并處理,獲得具有獨立地址語義的短語。
[0032]220、基于信息點數(shù)據(jù)庫中的地理編碼規(guī)范關鍵詞和關聯(lián)區(qū)域關鍵詞,對短語進行信息點識別,與信息點匹配的短語作為基礎單元,與信息點不匹配的短語作為附加單元;
[0033]對于復雜地址信息,其中的描述語言通常不是規(guī)范表達地理目標的短語,例如“上地5街與信息路交叉口北50米”等,其中含有不能精確匹配信息點的內容,如“北50米”,將這部分內容作為附加單元。
[0034]230、將基礎單元,或所述基礎單元和后續(xù)的附加單元,合并為一個子地址信息;
[0035]一個或多個附加單元與其前面跟隨的一個基礎單元合并為一個子地址信息。或者,如果基礎單元后面跟隨的是另一個基礎單元,在前面的基礎單元本身可以作為一個子地址信息。
[0036]240、采用偏移量關鍵詞對所述子地址信息的附加單元進行識別,以確定所述子地址信息為精確子地址、模糊子地址或偏移子地址的信息點數(shù)據(jù)。
[0037]已有的規(guī)范表達的地址信息中,一般僅能識別到精確子地址,而本實施例中,通過各子地址信息的附加單元所包含的不同內容,將地址進一步區(qū)分為精確子地址、模糊子地址或偏移子地址,既實現(xiàn)了復雜地址信息的識別,又實現(xiàn)了結合不同類別的子地址對地理目標進行精確定位。
[0038]在上述實施例的方案中,采用偏移量關鍵詞對所述子地址信息的附加單元進行識另IJ,以確定所述子地址信息為精確子地址、模糊子地址或偏移子地址的信息點數(shù)據(jù)的操作優(yōu)選包括:
[0039]241、采用偏移量關鍵詞對所述子地址信息的附加單元進行識別;
[0040]242、如果所述子地址信息不包括附加單元,則確定所述子地址信息對應于精確子地址的信息點數(shù)據(jù);
[0041]243、如果所述子地址信息包括附加單元,且所述附加單元中包括偏移量,則根據(jù)所述子地址信息的基礎單元,以及所述附加單元中識別到的偏移量關鍵詞和偏移量,確定所述子地址信息為偏移子地址的信息點數(shù)據(jù);
[0042]244、如果所述子地址信息包括附加單元,且所述附加單元中不包括偏移量,則根據(jù)所述子地址信息的基礎單元,以及所述附加單元中識別到的偏移量關鍵詞,確定所述子地址信息為模糊子地址的信息點數(shù)據(jù)。
[0043]上述方案中,區(qū)分了子地址信息是否包括附加單元,以及附加單元中是否包括偏移量的三種情況,分別可用于確定精確子地址、模糊子地址和偏移子地址。模糊子地址中一般僅以附加單元表達出地址的相對參考位置,例如“方正大廈旁”,而包括偏移量的偏移子地址,則以附加單元表達出地址的精確偏移量,例如“方正大廈北50米”。上述模糊子地址和偏移子地址均可用于對精確子地址的輔助定位。
[0044]另一方面,在精確子地址中,又可以進行分類。例如分為指向獨立地理目標的獨立實體信息點,以及指向多個地理目標關聯(lián)區(qū)域的信息點。并且,關聯(lián)區(qū)域信息點的識別優(yōu)選是基于至少兩個獨立實體信息點進行定位的,則基于信息點數(shù)據(jù)庫中的地理編碼規(guī)范關鍵詞和關聯(lián)區(qū)域關鍵詞,對短語進行信息點識別的操作優(yōu)選包括:[0045]221、如果識別到與信息點數(shù)據(jù)庫中的關聯(lián)區(qū)域關鍵詞匹配的短語時,根據(jù)所述關聯(lián)區(qū)域關鍵詞,基于信息點數(shù)據(jù)庫中的地理編碼規(guī)范關鍵詞對當前短語的前序短語進行識另U,以獲取至少兩個關聯(lián)信息點;
[0046]222、根據(jù)至少兩個關聯(lián)信息點和關聯(lián)區(qū)域關鍵詞獲取關聯(lián)區(qū)域信息點。
[0047]在地址信息的各短語中識別到匹配的關聯(lián)區(qū)域關鍵詞時,例如“交叉口”,可以按照預設規(guī)則查找“交叉口 ”的前序短語,從中識別至少兩個信息點,例如“上地5街與信息路交叉口 ”中,“上地5街”和“信息路”均為信息點,基于這兩個信息點的地理坐標確定其相交位置的地理坐標,作為“上地5街與信息路交叉口 ”這個關聯(lián)區(qū)域信息點的地理坐標。
[0048]本實施例的技術方案給出了基于不同關鍵詞識別精確子地址、模糊子地址和偏移子地址的具體方式,實現(xiàn)了對復雜地址信息的語義解析和準確識別。
[0049]實施例三
[0050]圖3為本發(fā)明實施例三提供的地理編碼實現(xiàn)方法的流程圖,本實施例以上述實施例為基礎,提供了一個優(yōu)選實例,具體如下:
[0051]301、獲取地址信息;
[0052]例如為“北京市海淀區(qū)上地信息路甲9號奎科大廈(上地5街與信息路交叉口北50米,方正大廈旁)”;
[0053]302、對該地址信息進行分詞處理,獲得分詞結果。
[0054]上述分詞可以基于分詞數(shù)據(jù)庫來實現(xiàn),將語句拆分為具有獨立語義的詞語。以分隔符“I”相間隔,分詞結果為“北京市I海淀區(qū)I上地I信息路I甲|9|號I奎科大廈I (上地5街I與I信息路I交叉口 I北|50|米|,I方正大廈I旁I)”。
[0055]303、將詞語進行合并處理,獲得具有獨立地址語義的短語。
[0056]各詞語未必能表達地址信息,例如“9”、“50”等,所以將詞語進一步合并為具有獨立地址語義的短語。則短語合并結果為“[北京市][海淀區(qū)][上地][信息路I甲9號][奎科大廈]([上地5街與信息路交叉口 I北50米],[方正大廈I旁]”。
[0057]304、采用關聯(lián)區(qū)域關鍵詞對各短語逐一進行信息點識別,如果當前短語與關聯(lián)區(qū)域關鍵詞匹配,則執(zhí)行操作305,否則重復執(zhí)行操作304,直至所有短語匹配完后,執(zhí)行操作306 ;
[0058]305、采用地理編碼規(guī)范關鍵詞對當前短語的前序短語進行識別,以獲取至少兩個信息點,將前序短語和當前短語標注為關聯(lián)區(qū)域信息點,而后執(zhí)行操作307 ;
[0059]關聯(lián)區(qū)域關鍵詞例如為“交叉口”、“中間”、“十字路口”等表達區(qū)域間關聯(lián)的設定詞匯。據(jù)此,可在上述實例中識別到“交叉口 ”這一短語,進而在“交叉口 ”的前序短語采用地理編碼規(guī)范關鍵詞進行識別。地理編碼規(guī)范關鍵詞例如是規(guī)范性行政地址詞匯,如“市”、“區(qū)”、“路”、“大廈”、“門牌號”等,據(jù)此,可在“交叉口 ”前識別到“上地5街”與“信息路”兩個信息點,這些短語標注為一個關聯(lián)區(qū)域信息點“上地5街與信息路交叉口”。該關聯(lián)區(qū)域信息點可以是在信息點數(shù)據(jù)庫已存儲有位置坐標,也可以是根據(jù)“上地5街”與“信息路”的位置坐標按照預設規(guī)則計算而得。
[0060]306、對除去關聯(lián)區(qū)域信息點之外的地址信息采用地理編碼規(guī)范關鍵詞進行逐一識別,以確定各匹配的信息點。
[0061]則上述實例的信息點標注結果為“[北京(市)][海淀區(qū)(區(qū))][上地(區(qū)域)][信息路(道路)I甲9號][奎科大廈(POI)]([上地5街與信息路交叉口(POI) I北50米],[方正大廈(POI) I旁]”。
[0062]307、將與信息點匹配的短語作為基礎單元,與信息點不匹配的短語作為附加單元;
[0063]則基礎單元為“[北京(市)][海淀區(qū)(區(qū))][上地(區(qū)域)][信息路(道路)
甲9號][奎科大廈(POI)] ”、“上地5街與信息路交叉口(POI) ”、“方正大廈(POI) ”。附加單元為“北50米”、“旁”,分別跟隨一個基礎單元。
[0064]308、將基礎單元,或所述基礎單元和后續(xù)的附加單元,合并為一個子地址信息;
[0065]則本實例中獲得三個子地址信息,“[北京(市)][海淀區(qū)(區(qū))][上地(區(qū)域)][信息路(道路)I甲9號][奎科大廈(POI)] ”、“([上地5街與信息路交叉口(POI) I北50米]”、“[方正大廈(POI) I旁]”。
[0066]309、識別每個子地址信息是否包括附加單元,若否,則執(zhí)行操作310,若是,執(zhí)行操作 311 ;
[0067]310、如果所述子地址信息不包括附加單元,則確定所述子地址信息對應于精確子地址的信息點數(shù)據(jù),執(zhí)行操作314 ;
[0068]即“[北京(市)][海淀區(qū)(區(qū))][上地(區(qū)域)][信息路(道路)|甲9號][奎科大廈(POI)]”為精確子地址的信息點數(shù)據(jù);
[0069]311、判斷所述子地址信息的附加單元是否包括偏移量,若是,則執(zhí)行操作312,若否,執(zhí)行操作313;
[0070]312、采用偏移量關鍵詞對所述子地址信息的附加單元進行識別,根據(jù)所述子地址信息的基礎單元,以及所述附加單元中識別到的偏移量關鍵詞和偏移量,確定所述子地址信息為偏移子地址的信息點數(shù)據(jù),執(zhí)行操作314 ;
[0071]S卩“([上地5街與信息路交叉口(POI) I北50米]”為偏移子地址的信息點數(shù)據(jù),其中“50米”為偏移量,“北”為偏移量關鍵詞。
[0072]313、采用偏移量關鍵詞對所述子地址信息的附加單元進行識別,根據(jù)所述子地址信息的基礎單元,以及所述附加單元中識別到的偏移量關鍵詞,確定所述子地址信息為模糊子地址的信息點數(shù)據(jù)。
[0073]即“[方正大廈(POI) I旁]”為模糊子地址的信息點數(shù)據(jù),其中,“旁”為偏移量關鍵詞。
[0074]314、根據(jù)獲取的至少兩個信息點數(shù)據(jù),對所述地址信息對應的地理目標進行地理編碼。
[0075]上述操作314的實際執(zhí)行方式可以有多種,例如執(zhí)行下述的一種或多種:
[0076]將精確子地址、模糊子地址和/或偏移子地址的信息點數(shù)據(jù)按照預設層級存儲為地址樹;該方式實現(xiàn)了對地理目標的地址信息的多方面表述。預設層級可以按照行政區(qū)劃來設置,例如按照省、市、區(qū)、路、號等層級來存儲各子地址的信息。
[0077]根據(jù)精確子地址的信息點數(shù)據(jù)進行地理編碼,且根據(jù)所述模糊子地址和/或偏移子地址的信息點數(shù)據(jù)對地理編碼進行修正或校驗。
[0078]如果根據(jù)精確子地址的信息點數(shù)據(jù)在數(shù)據(jù)庫中匹配至少兩個信息點時,根據(jù)所述模糊子地址和/或偏移子地址的信息點數(shù)據(jù)在所述至少兩個信息點中進行選擇。[0079]本發(fā)明實施例的技術方案,能有效提高復雜地址信息地理編碼的準確率。
[0080]實施例四
[0081]圖4為本發(fā)明實施例四提供的地理編碼實現(xiàn)裝置的結構示意圖,該裝置包括:地址信息處理模塊410和地理編碼模塊420。其中,地址信息處理模塊410用于對地址信息進行拆分和語義解析,以獲取至少兩個子地址對應的信息點數(shù)據(jù);地理編碼模塊420用于根據(jù)獲取的至少兩個信息點數(shù)據(jù),對所述地址信息對應的地理目標進行地理編碼。
[0082]進一步地,該地址信息處理模塊410具體可用于:根據(jù)設定關鍵詞將地址信息進行拆分和信息點識別,以獲得至少兩個子地址對應的信息點數(shù)據(jù)。
[0083]優(yōu)選地,地址信息處理模塊410包括:短語獲取單元411、短語匹配單元412、子地址合并單元413和子地址識別單元414。其中,短語獲取單元411,用于對所述地址信息進行語義解析,以獲得具有獨立地址語義的短語;短語匹配單元412,用于基于信息點數(shù)據(jù)庫中的地理編碼規(guī)范關鍵詞和關聯(lián)區(qū)域關鍵詞,對短語進行信息點識別,與信息點匹配的短語作為基礎單元,與信息點不匹配的短語作為附加單元;子地址合并單元413,用于將基礎單元,或所述基礎單元和后續(xù)的附加單元,合并為一個子地址信息;子地址識別單元414,用于采用偏移量關鍵詞對所述子地址信息的附加單元進行識別,以確定所述子地址信息為精確子地址、模糊子地址或偏移子地址的信息點數(shù)據(jù)。
[0084]其中,短語獲取單元411的一種優(yōu)選實現(xiàn)方式,是具體用于基于分詞數(shù)據(jù)庫將地址信息進行分詞處理,獲得具有獨立語義的詞語;將詞語進行合并處理,獲得具有獨立地址語義的短語。
[0085]上述方案中,子地址識別單元414具體可用于:
[0086]采用偏移量關鍵詞對所述子地址信息的附加單元進行識別;
[0087]如果所述子地址信息不包括附加單元,則確定所述子地址信息對應于精確子地址的信息點數(shù)據(jù);
[0088]如果所述子地址信息包括附加單元,且所述附加單元中包括偏移量,則根據(jù)所述子地址信息的基礎單元,以及所述附加單元中識別到的偏移量關鍵詞和偏移量,確定所述子地址信息為偏移子地址的信息點數(shù)據(jù);
[0089]如果所述子地址信息包括附加單元,且所述附加單元中不包括偏移量,則根據(jù)所述子地址信息的基礎單元,以及所述附加單元中識別到的偏移量關鍵詞,確定所述子地址信息為模糊子地址的信息點數(shù)據(jù)。
[0090]短語匹配單元412具體可用于:
[0091]如果識別到與信息點數(shù)據(jù)庫中的關聯(lián)區(qū)域關鍵詞匹配的短語時,根據(jù)所述關聯(lián)區(qū)域關鍵詞,基于信息點數(shù)據(jù)庫中的地理編碼規(guī)范關鍵詞對當前短語的前序短語進行識別,以獲取至少兩個關聯(lián)信息點;
[0092]根據(jù)至少兩個關聯(lián)信息點和關聯(lián)區(qū)域關鍵詞獲取關聯(lián)區(qū)域信息點。
[0093]基于上述功能模塊識別的子地址,進一步的,地理編碼模塊420包括:地址樹存儲單元421、地址修正校驗單元422和/或地址選擇單元423。
[0094]地址樹存儲單元421,用于將精確子地址、模糊子地址和/或偏移子地址的信息點數(shù)據(jù)按照預設層級存儲為地址樹;
[0095]地址修正校驗單元422,用于根據(jù)精確子地址的信息點數(shù)據(jù)進行地理編碼,且根據(jù)所述模糊子地址和/或偏移子地址的信息點數(shù)據(jù)對地理編碼進行修正或校驗;
[0096]地址選擇單元423,用于如果根據(jù)精確子地址的信息點數(shù)據(jù)在數(shù)據(jù)庫中匹配至少兩個信息點時,根據(jù)所述模糊子地址和/或偏移子地址的信息點數(shù)據(jù)在所述至少兩個信息點中進行選擇。
[0097]上述地理編碼實現(xiàn)裝置可執(zhí)行本發(fā)明任意實施例所提供的地理編碼實現(xiàn)方法,具備執(zhí)行方法相應的功能模塊和有益效果。
[0098]注意,上述僅為本發(fā)明的較佳實施例及所運用技術原理。本領域技術人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領域技術人員來說能夠進行各種明顯的變化、重新調整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權利要求范圍決定。
【權利要求】
1.一種地理編碼實現(xiàn)方法,其特征在于,包括: 對地址信息進行拆分和語義解析,以獲取至少兩個子地址對應的信息點數(shù)據(jù); 根據(jù)獲取的至少兩個信息點數(shù)據(jù),對所述地址信息對應的地理目標進行地理編碼。
2.根據(jù)權利要求1所述的方法,其特征在于,對地址信息進行拆分和語義解析,以獲取至少兩個子地址對應的信息點數(shù)據(jù)包括: 根據(jù)設定關鍵詞將地址信息進行拆分和信息點識別,以獲得至少兩個子地址對應的信息點數(shù)據(jù)。
3.根據(jù)權利要求2所述的方法,其特征在于,根據(jù)設定關鍵詞將地址信息進行拆分和信息點識別,以獲得至少兩個子地址對應的信息點數(shù)據(jù)包括: 對所述地址信息進行語義解析,以獲得具有獨立地址語義的短語; 基于信息點數(shù)據(jù)庫中的地理編碼規(guī)范關鍵詞和關聯(lián)區(qū)域關鍵詞,對短語進行信息點識另O,與信息點匹配的短語作為基礎單元,與信息點不匹配的短語作為附加單元; 將基礎單元,或所述基礎單元和后續(xù)的附加單元,合并為一個子地址信息; 采用偏移量關鍵詞對所述子地址信息的附加單元進行識別,以確定所述子地址信息為精確子地址、模糊子地址或偏移子地址的信息點數(shù)據(jù)。
4.根據(jù)權利要求3所述的方法,其特征在于,對所述地址信息進行語義解析,以獲得具有獨立地址語義的短語包括: 基于分詞數(shù)據(jù)庫將地址信息進行分詞處理,獲得具有獨立語義的詞語; 將詞語進行合并處理,獲得具有獨立地址語義的短語。
5.根據(jù)權利要求3所述的方法,其特征在于,采用偏移量關鍵詞對所述子地址信息的附加單元進行識別,以確定所述子地址信息為精確子地址、模糊子地址或偏移子地址的信息點數(shù)據(jù)包括: 采用偏移量關鍵詞對所述子地址信息的附加單元進行識別; 如果所述子地址信息不包括附加單元,則確定所述子地址信息對應于精確子地址的信息點數(shù)據(jù); 如果所述子地址信息包括附加單元,且所述附加單元中包括偏移量,則根據(jù)所述子地址信息的基礎單元,以及所述附加單元中識別到的偏移量關鍵詞和偏移量,確定所述子地址信息為偏移子地址的信息點數(shù)據(jù); 如果所述子地址信息包括附加單元,且所述附加單元中不包括偏移量,則根據(jù)所述子地址信息的基礎單元,以及所述附加單元中識別到的偏移量關鍵詞,確定所述子地址信息為模糊子地址的信息點數(shù)據(jù)。
6.根據(jù)權利要求3所述的方法,其特征在于,基于信息點數(shù)據(jù)庫中的地理編碼規(guī)范關鍵詞和關聯(lián)區(qū)域關鍵詞,對短語進行信息點識別包括: 如果識別到與信息點數(shù)據(jù)庫中的關聯(lián)區(qū)域關鍵詞匹配的短語時,根據(jù)所述關聯(lián)區(qū)域關鍵詞,基于信息點數(shù)據(jù)庫中的地理編碼規(guī)范關鍵詞對當前短語的前序短語進行識別,以獲取至少兩個關聯(lián)信息點; 根據(jù)至少兩個關聯(lián)信息點和關聯(lián)區(qū)域關鍵詞獲取關聯(lián)區(qū)域信息點。
7.根據(jù)權利要求3所述的方法,其特征在于,根據(jù)獲取的至少兩個信息點數(shù)據(jù),對所述地址信息對應的地理目標進行地理編碼包括:將精確子地址、模糊子地址和/或偏移子地址的信息點數(shù)據(jù)按照預設層級存儲為地址樹;和/或 根據(jù)精確子地址的信息點數(shù)據(jù)進行地理編碼,且根據(jù)所述模糊子地址和/或偏移子地址的信息點數(shù)據(jù)對地理編碼進行修正或校驗;和/或 如果根據(jù)精確子地址的信息點數(shù)據(jù)在數(shù)據(jù)庫中匹配至少兩個信息點時,根據(jù)所述模糊子地址和/或偏移子地址的信息點數(shù)據(jù)在所述至少兩個信息點中進行選擇。
8.一種地理編碼實現(xiàn)裝置,其特征在于,包括: 地址信息處理模塊,用于對地址信息進行拆分和語義解析,以獲取至少兩個子地址對應的信息點數(shù)據(jù); 地理編碼模塊,用于根據(jù)獲取的至少兩個信息點數(shù)據(jù),對所述地址信息對應的地理目標進行地理編碼。
9.根據(jù)權利要求8所述的裝置,其特征在于,地址信息處理模塊具體用于: 根據(jù)設定關鍵詞將地址信息進行拆分和信息點識別,以獲得至少兩個子地址對應的信息點數(shù)據(jù)。
10.根據(jù)權利要求9所述的裝置,其特征在于,地址信息處理模塊包括: 短語獲取單元,用于對所述地址信息進行語義解析,以獲得具有獨立地址語義的短語; 短語匹配單元,用于基于信息點數(shù)據(jù)庫中的地理編碼規(guī)范關鍵詞和關聯(lián)區(qū)域關鍵詞,對短語進行信息點識別,與信息點匹配的短語作為基礎單元,與信息點不匹配的短語作為附加單元; 子地址合并單元,用于將基礎單元,或所述基礎單元和后續(xù)的附加單元,合并為一個子地址信息; 子地址識別單元,用于采用偏移量關鍵詞對所述子地址信息的附加單元進行識別,以確定所述子地址信息為精確子地址、模糊子地址或偏移子地址的信息點數(shù)據(jù)。
11.根據(jù)權利要求10所述的裝置,其特征在于,短語獲取單元具體用于: 基于分詞數(shù)據(jù)庫將地址信息進行分詞處理,獲得具有獨立語義的詞語; 將詞語進行合并處理,獲得具有獨立地址語義的短語。
12.根據(jù)權利要求10所述的裝置,其特征在于,子地址識別單元具體用于: 采用偏移量關鍵詞對所述子地址信息的附加單元進行識別; 如果所述子地址信息不包括附加單元,則確定所述子地址信息對應于精確子地址的信息點數(shù)據(jù); 如果所述子地址信息包括附加單元,且所述附加單元中包括偏移量,則根據(jù)所述子地址信息的基礎單元,以及所述附加單元中識別到的偏移量關鍵詞和偏移量,確定所述子地址信息為偏移子地址的信息點數(shù)據(jù); 如果所述子地址信息包括附加單元,且所述附加單元中不包括偏移量,則根據(jù)所述子地址信息的基礎單元,以及所述附加單元中識別到的偏移量關鍵詞,確定所述子地址信息為模糊子地址的信息點數(shù)據(jù)。
13.根據(jù)權利要求10所述的裝置,其特征在于,短語匹配單元具體用于: 如果識別到與信息點數(shù)據(jù)庫中的關聯(lián)區(qū)域關鍵詞匹配的短語時,根據(jù)所述關聯(lián)區(qū)域關鍵詞,基于信息點數(shù)據(jù)庫中的地理編碼規(guī)范關鍵詞對當前短語的前序短語進行識別,以獲取至少兩個關聯(lián)信息點; 根據(jù)至少兩個關聯(lián)信息點和關聯(lián)區(qū)域關鍵詞獲取關聯(lián)區(qū)域信息點。
14.根據(jù)權利要求10所述的裝置,其特征在于,地理編碼模塊包括: 地址樹存儲單元,用于將精確子地址、模糊子地址和/或偏移子地址的信息點數(shù)據(jù)按照預設層級存儲為地址樹;和/或 地址修正校驗單元,用于根據(jù)精確子地址的信息點數(shù)據(jù)進行地理編碼,且根據(jù)所述模糊子地址和/或偏移子地址的信息點數(shù)據(jù)對地理編碼進行修正或校驗;和/或 地址選擇單元,用于如果根據(jù)精確子地址的信息點數(shù)據(jù)在數(shù)據(jù)庫中匹配至少兩個信息點時,根據(jù)所述模糊子 地址和/或偏移子地址的信息點數(shù)據(jù)在所述至少兩個信息點中進行選擇。
【文檔編號】G06F17/30GK103699623SQ201310706024
【公開日】2014年4月2日 申請日期:2013年12月19日 優(yōu)先權日:2013年12月19日
【發(fā)明者】余曉龍 申請人:百度在線網(wǎng)絡技術(北京)有限公司