地址信息處理方法及裝置的制造方法
【專利摘要】本發(fā)明提供了一種地址信息處理方法及裝置。本發(fā)明的地址信息處理方法包括:獲取多個地址的文本信息;對每個文本信息進行切分得到多個分詞;為每個分詞添加標注,所述標注用于區(qū)分地址的行政區(qū)域級別;根據分詞的標注構建每個文本信息對應的地址片段;按照預定的融合規(guī)則,融合多個地址片段構建地址庫。本發(fā)明的地址信息處理方法,將文本格式的地址信息以圖數據的形式存儲,以便實現(xiàn)精確地地址識別。
【專利說明】
地址信息處理方法及裝置
技術領域
[0001 ]本發(fā)明涉及一種地址信息處理方法及裝置。
【背景技術】
[0002]同一個地點的郵政地址,不同用戶可能給出不同的描述。
[0003]以“廣東省深圳市南山區(qū)中區(qū)高新中一道9號軟件大廈”這一地址為例,用戶輸入的地址可能是“深圳市南山區(qū)高新中一道軟件大廈”,可能是“深圳市南山區(qū)高新中一道與科技中三道交叉口的軟件大廈”,甚至可能是“深圳市軟件大廈”。后臺需要根據接收到的郵政地址信息,進行精確的地址識別。
[0004]現(xiàn)有技術,例如高德地圖、百度地圖等,是利用搜索引擎技術進行地址識別,搜索引擎技術對應的數據庫存儲的是文本信息,這種文本信息的存儲方式不利于精確地查找地址。
【發(fā)明內容】
[0005]針對現(xiàn)有技術中的缺陷,本發(fā)明提供的地址信息處理方法及裝置,將文本格式的地址以圖數據的形式存儲,以便實現(xiàn)精確地地址識別。
[0006]本發(fā)明提供的一種地址信息處理方法包括:獲取多個地址的文本信息;對每個文本信息進行切分得到多個分詞;為每個分詞添加標注,所述標注用于區(qū)分地址的行政區(qū)域級別;根據分詞的標注構建每個文本信息對應的地址片段;按照預定的融合規(guī)則,融合多個地址片段構建地址庫。
[0007]本發(fā)明提供的地址信息處理方法,結合分詞、標注、融合等技術,將文本格式的地址以圖數據的形式存儲,以便實現(xiàn)精確地地址識別。
[0008]可選地,所述根據分詞的標注構建每個文本信息對應的地址片段,包括:將每個文本信息的每個分詞定義為一個節(jié)點,并按照標注對應的行政區(qū)域級別順序定義有向邊,構成地址片段;所述節(jié)點的信息包括所述節(jié)點的標注和所述節(jié)點的描述信息,所述描述信息包括所述節(jié)點的名稱和所述節(jié)點的父節(jié)點的描述信息,所述節(jié)點的名稱為所述節(jié)點對應的分詞。
[0009]可選地,所述融合規(guī)則包括:將名稱相同且有相同上級節(jié)點的多個節(jié)點合并為一個節(jié)點;參考知識庫中的先驗信息進行合并。
[0010]可選地,所述節(jié)點的信息還包括該節(jié)點的名稱的別名信息。
[0011]可選地,所述為每個分詞添加標注包括:根據知識庫中預先保存的信息,為每個分詞添加標注;若無法根據知識庫中的信息為分詞添加標注,則通過特征詞猜測的方式添加標注。
[0012]可選地,若構建地址庫的過程中出現(xiàn)異常,還包括:提取異常信息,生成工單,由人工處理;或,提取異常信息,在知識庫中匹配處理規(guī)則,按照匹配的處理規(guī)則處理。
[0013]本發(fā)明提供的一種地址信息處理裝置,包括:信息獲取模塊,用于獲取多個地址的文本信息;信息切分模塊,用于對每個文本信息進行切分得到多個分詞;標注添加模塊,用于為每個分詞添加標注,所述標注用于區(qū)分地址的行政區(qū)域級別;地址片段構建模塊,用于根據分詞的標注構建每個文本信息對應的地址片段;地址片段融合模塊,用于按照預定的融合規(guī)則,融合多個地址片段構建地址庫。
[0014]本發(fā)明提供的地址信息處理裝置,結合分詞、標注、融合等技術,將文本格式的地址以圖數據的形式存儲,以便實現(xiàn)精確地地址識別。
[0015]可選地,所述地址片段構建模塊具體用于:將每個文本信息的每個分詞定義為一個節(jié)點,并按照標注對應的行政區(qū)域級別順序定義有向邊,構成地址片段;所述節(jié)點的信息包括所述節(jié)點的標注和所述節(jié)點的描述信息,所述描述信息包括所述節(jié)點的名稱和所述節(jié)點的父節(jié)點的描述信息,所述節(jié)點的名稱為所述節(jié)點對應的分詞。
[0016]可選地,所述地址片段融合模塊中的所述融合規(guī)則包括:將名稱相同且有相同上級節(jié)點的多個節(jié)點合并為一個節(jié)點;參考知識庫中的先驗信息進行合并。
[0017]可選地,所述標注添加模塊具體用于:根據知識庫中預先保存的信息,為每個分詞添加標注;若無法根據知識庫中的信息為分詞添加標注,則通過特征詞猜測的方式添加標注。
【附圖說明】
[0018]圖1為本發(fā)明實施例所提供的一種地址信息處理方法的流程圖;
[0019]圖2為本發(fā)明實施例所提供的一種地址信息處理裝置的結構框圖;
[0020]圖3為通過本發(fā)明實施例的方法得到的地址片段;
[0021]圖4為通過本發(fā)明實施例的方法得到的融合后的地址片段。
【具體實施方式】
[0022]下面將結合附圖對本發(fā)明技術方案的實施例進行詳細的描述。以下實施例僅用于更加清楚地說明本發(fā)明的技術方案,因此只是作為示例,而不能以此來限制本發(fā)明的保護范圍。
[0023]需要注意的是,除非另有說明,本申請使用的技術術語或者科學術語應當為本發(fā)明所屬領域技術人員所理解的通常意義。
[0024]本發(fā)明提供的地址信息處理方法及裝置適用場景廣泛,可用于報警、接警系統(tǒng)和電子地圖系統(tǒng)等等需要建立地址庫的系統(tǒng)中。
[0025]如圖1所示,本發(fā)明實施例提供了一種地址信息處理方法包括:
[0026]步驟SlOl,獲取多個地址的文本信息。
[0027]步驟S102,對每個文本信息進行切分得到多個分詞。
[0028]對文本信息切分,主要是根據地名的行政區(qū)域級別進行切分,例如,“深圳市南山區(qū)高新中一道軟件大廈”經切分后,獲取如下分詞:深圳市,南山區(qū),高新中一道,軟件大廈。步驟S102可以采用現(xiàn)有任何分詞技術實現(xiàn)切分。
[0029]步驟S103,為每個分詞添加標注,標注用于區(qū)分地址的行政區(qū)域級別。
[0030]其中,標注主要用于區(qū)分地址的行政區(qū)域級別,例如,深圳市的標注為“市”,南山區(qū)的標注為“區(qū)”,高新中一道的標注為“街道”,軟件大廈的標注為“寫字樓”。當然,還可以進行其他標注,本發(fā)明不做限定。步驟S103可以采用現(xiàn)有技術進行分詞標注。
[0031 ]步驟S104,根據分詞的標注構建每個文本信息對應的地址片段。
[0032]步驟S105,按照預定的融合規(guī)則,融合多個地址片段構建地址庫。
[0033]本發(fā)明提供的地址信息處理方法,將文本格式的地址以圖數據的形式存儲,以便實現(xiàn)精確地地址識別。
[0034]本發(fā)明實施例提供了步驟S103的一種優(yōu)選方式,包括:根據知識庫中預先保存的信息,為每個分詞添加標注;若無法根據知識庫中的信息為分詞添加標注,則通過特征詞猜測的方式添加標注。通過特征詞猜測的方式進行標注,可采用現(xiàn)有技術實現(xiàn)。特征詞可以是“大廈” “樓” “小區(qū)” “工廠”等等。
[0035]本發(fā)明實施例提供了步驟S104的一種優(yōu)選方式,包括:將每個文本信息的每個分詞定義為一個節(jié)點,并按照標注對應的行政區(qū)域級別順序定義有向邊,構成地址片段。
[0036]如圖3所示,地址片段一中的深圳市、南山區(qū)、軟件大廈都是節(jié)點,深圳市與南山區(qū)之間的連線為一個有向邊,南山區(qū)與軟件大廈之間的連線為一個有向邊。預定順序可以是按行政區(qū)的級別由高到低進行排序,如圖3中,深圳市與南山區(qū)之間的連線為深圳市指向南山區(qū)的一個有向邊。
[0037]其中,節(jié)點的信息包括:該節(jié)點的標注和該節(jié)點的描述信息。描述信息是一個詞集合,該詞集合包含了節(jié)點的名稱和父節(jié)點的描述信息,節(jié)點的名稱為該節(jié)點對應的分詞。以圖4中的地址庫為例,“軟件大廈”的描述信息為{軟件大廈、高新中一道、南山區(qū)、深圳市}“南山區(qū)”的描述信息為{南山區(qū)、深圳市}。
[0038]實際生活中,一個地點可能會存在多個不同的名稱,為了避免同一地點對應多個節(jié)點的問題,節(jié)點的信息還包括該節(jié)點名稱的別名信息,這樣不管一個地點有多少個不同的名稱,它在地址庫中都只對應一個節(jié)點,這樣可以有效減少節(jié)點數量,從而減小最終建立的地址庫的體積。
[0039]步驟S105中的融合規(guī)則包括:將名稱相同且有相同上級節(jié)點的多個節(jié)點合并為一個節(jié)點;參考知識庫中的先驗信息進行合并。具體表述為以下3種規(guī)則:
[0040]融合規(guī)則1:當幾個節(jié)點的名稱相同,且這些節(jié)點都有相同的父節(jié)點時,即可確定是這些節(jié)點是同一個點。
[0041]融合規(guī)則2:當幾個節(jié)點的名稱相同,且不具有相同的父節(jié)點,但這幾個節(jié)點具有相同的上級節(jié)點,則認為這幾個節(jié)點是同一個節(jié)點。但此規(guī)則僅限于,在相同上級節(jié)點下,實際只存在唯一的一個地址,比如,深圳市有兩個軟件大廈,一個在南山區(qū),一個在福田區(qū),在地址片段中,這兩個軟件大廈都具有相同的上級節(jié)點“深圳市”,這就情況就不能將兩個“軟件大廈”合并為一個節(jié)點。
[0042]融合規(guī)則3:參考知識庫中的先驗信息進行合并。知識庫中會預先存儲有一些信息,根據這些信息對節(jié)點進行合并,比如在“天安門”在北京市是天然唯一的一個地址,那么不管你的地址片段是什么樣的形式,這些名稱為“天安門”的節(jié)點都可以合并為一個點。
[0043]上級節(jié)點為某個節(jié)點之前的所有節(jié)點,父節(jié)點為與某節(jié)點相鄰的上級節(jié)點,如“深圳市”為“南Li]區(qū),,的父節(jié)點,“南Li]區(qū),,為“軟件大廈”的父節(jié)點,而“深圳市”和“南Li]區(qū),,都是“軟件大廈”的上級節(jié)點。
[0044]下面結合圖3和圖4對融合規(guī)則的具體應用作出說明。
[0045]地址片段一:深圳市一一南山區(qū)一一軟件大廈
[0046]地址片段二:深圳市一一南山區(qū)一一高新中一道一一軟件大廈
[0047]地址片段一中的“南山區(qū)”和地址片段二中的“南山區(qū)”具有相同的名稱,且其父節(jié)點都為“深圳市”,這種情況就滿足融合規(guī)則I,則這兩個地址片段中的“南山區(qū)”就可以做合并。
[0048]地址片段一中的“軟件大廈”和地址片段二中的“軟件大廈”具有相同的名稱,但是它們的父節(jié)點不同,地址片段二中的“軟件大廈”的父節(jié)點以上的節(jié)點有“南山區(qū)”,地址片段一中的“軟件大廈”的上級節(jié)點也有“南山區(qū)”,且南山區(qū)只有一個軟件大廈,那么地址片段一和地址片段二中的節(jié)點“軟件大廈”就可以采用融合規(guī)則2合并為一個點。
[0049]通過上述的融合規(guī)則即可得到如圖4所示的融合后的地址片段。
[0050]實際在建立地址庫的過程中,需要處理的地址片段的數量是巨大的,具體的融合規(guī)則需要根據實際情況設置,不限于上述的3條融合規(guī)則,任何現(xiàn)有的融合方法都可以采用,在此不再贅述。
[0051]為了降低地址庫的出錯概率,本發(fā)明實施例還提供了地址庫糾正方法,包括人工糾正和自動糾正兩種方式。人工糾正方式為:若構建地址庫的過程中出現(xiàn)異常,將異常信息生成工單,交由人工處理。自動糾正方式為:提取異常信息,在知識庫中找到匹配的處理規(guī)貝IJ,按照匹配的處理規(guī)則處理。
[0052]如圖2所示,基于與上述地址信息處理方法相同的發(fā)明構思,本發(fā)明實施例還提供了一種地址信息處理裝置,包括:信息獲取模塊101,用于獲取多個地址的文本信息;信息切分模塊102,用于對每個文本信息進行切分得到多個分詞;標注添加模塊103,用于為每個分詞添加標注,標注用于區(qū)分地址的行政區(qū)域級別;地址片段構建模塊104,用于根據分詞的標注構建每個文本信息對應的地址片段;地址片段融合模塊105,用于按照預定的融合規(guī)貝IJ,融合多個地址片段構建地址庫。
[0053]本發(fā)明實施例提供的地址信息處理裝置,將文本格式的地址以圖數據的形式存儲,以便實現(xiàn)精確地地址識別。
[0054]其中,地址片段構建模塊具體用于:將每個文本信息的每個分詞定義為一個節(jié)點,并按照標注對應的行政區(qū)域級別順序定義有向邊,構成地址片段;節(jié)點的信息包括節(jié)點的標注和節(jié)點的描述信息,描述信息包括節(jié)點的名稱和節(jié)點的父節(jié)點的描述信息,節(jié)點的名稱為節(jié)點對應的分詞。
[0055]其中,地址片段融合模塊中的融合規(guī)則包括:將名稱相同且有相同上級節(jié)點的多個節(jié)點合并為一個節(jié)點;參考知識庫中的先驗信息進行合并。
[0056]其中,標注添加模塊具體用于:根據知識庫中預先保存的信息,為每個分詞添加標注;若無法根據知識庫中的信息為分詞添加標注,則通過特征詞猜測的方式添加標注。
[0057]最后應說明的是:以上各實施例僅用以說明本發(fā)明的技術方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發(fā)明各實施例技術方案的范圍,其均應涵蓋在本發(fā)明的權利要求和說明書的范圍當中。
【主權項】
1.一種地址信息處理方法,其特征在于,包括: 獲取多個地址的文本信息; 對每個文本信息進行切分得到多個分詞; 為每個分詞添加標注,所述標注用于區(qū)分地址的行政區(qū)域級別; 根據分詞的標注構建每個文本信息對應的地址片段; 按照預定的融合規(guī)則,融合多個地址片段構建地址庫。2.根據權利要求1所述的方法,其特征在于,所述根據分詞的標注構建每個文本信息對應的地址片段,包括: 將每個文本信息的每個分詞定義為一個節(jié)點,并按照標注對應的行政區(qū)域級別順序定義有向邊,構成地址片段; 所述節(jié)點的信息包括所述節(jié)點的標注和所述節(jié)點的描述信息,所述描述信息包括所述節(jié)點的名稱和所述節(jié)點的父節(jié)點的描述信息,所述節(jié)點的名稱為所述節(jié)點對應的分詞。3.根據權利要求2所述的方法,其特征在于,所述融合規(guī)則包括: 將名稱相同且有相同上級節(jié)點的多個節(jié)點合并為一個節(jié)點; 參考知識庫中的先驗信息進行合并。4.根據權利要求2或3所述的方法,其特征在于,所述節(jié)點的信息還包括該節(jié)點的名稱的別名信息。5.根據權利要求1所述的方法,其特征在于,所述為每個分詞添加標注包括: 根據知識庫中預先保存的信息,為每個分詞添加標注; 若無法根據知識庫中的信息為分詞添加標注,則通過特征詞猜測的方式添加標注。6.根據權利要求1所述的方法,其特征在于,若構建地址庫的過程中出現(xiàn)異常,還包括: 提取異常信息,生成工單,由人工處理;或 提取異常信息,在知識庫中匹配處理規(guī)則,按照匹配的處理規(guī)則處理。7.一種地址信息處理裝置,其特征在于,包括: 信息獲取模塊,用于獲取多個地址的文本信息; 信息切分模塊,用于對每個文本信息進行切分得到多個分詞; 標注添加模塊,用于為每個分詞添加標注,所述標注用于區(qū)分地址的行政區(qū)域級別; 地址片段構建模塊,用于根據分詞的標注構建每個文本信息對應的地址片段; 地址片段融合模塊,用于按照預定的融合規(guī)則,融合多個地址片段構建地址庫。8.根據權利要求7所述的裝置,其特征在于,所述地址片段構建模塊具體用于: 將每個文本信息的每個分詞定義為一個節(jié)點,并按照按照標注對應的行政區(qū)域級別順序定義有向邊,構成地址片段; 所述節(jié)點的信息包括所述節(jié)點的標注和所述節(jié)點的描述信息,所述描述信息包括所述節(jié)點的名稱和所述節(jié)點的父節(jié)點的描述信息,所述節(jié)點的名稱為所述節(jié)點對應的分詞。9.根據權利要求8所述的裝置,其特征在于,所述地址片段融合模塊中的所述融合規(guī)則包括: 將名稱相同且有相同上級節(jié)點的多個節(jié)點合并為一個節(jié)點; 參考知識庫中的先驗信息進行合并。10.根據權利要求7所述的裝置,其特征在于,所述標注添加模塊具體用于:根據知識庫中預先保存的信息,為每個分詞添加標注;若無法根據知識庫中的信息為分詞添加標注,則通過特征詞猜測的方式添加標注。
【文檔編號】G06F17/30GK106021556SQ201610370136
【公開日】2016年10月12日
【申請日】2016年5月30日
【發(fā)明人】邊旭, 賈西貝
【申請人】深圳市華傲數據技術有限公司