一種地址匹配的方法和裝置制造方法
【專利摘要】本發(fā)明提供了一種地址匹配的方法和裝置,所述方法包括:獲取用戶輸入的查詢詞;將所述查詢詞拆分成至少一個索引關鍵詞;根據(jù)預先建立的索引關鍵詞與地址信息的對應關系,獲取各個所述索引關鍵詞各自對應的地址信息;顯示所述地址信息中的至少一個。本發(fā)明能夠提高檢索速度。
【專利說明】一種地址匹配的方法和裝置
【技術領域】
[0001] 本發(fā)明涉及檢索領域,特別是指一種地址匹配的方法和裝置。
【背景技術】
[0002] 隨著固網(wǎng)業(yè)務的快速發(fā)展,對系統(tǒng)支撐能力提出了更高的要求。面對海量的地址 數(shù)據(jù),前臺業(yè)務辦理時如何實現(xiàn)高效、快速定位,是需要面對的新課題。傳統(tǒng)的移動類業(yè)務 (如手機)通過無線技術進行通信,終端的使用位置并不固定,因此辦理時無需關心終端的 位置屬性。而固網(wǎng)類業(yè)務由于其"有線性",受有線性的約束,用戶必須在移動已經(jīng)覆蓋的區(qū) 域內(nèi)才能辦理相應的業(yè)務。因此前臺業(yè)務辦理時,用戶安裝地址是否已經(jīng)覆蓋的確認就至 關重要。
[0003] 這種重要性主要表現(xiàn)在:
[0004] a)移動作為固網(wǎng)業(yè)務的后進入者,網(wǎng)絡覆蓋能力難以一蹴而就,相當長時間內(nèi)會 存在部分區(qū)域覆蓋的情況。在這種情況下,準確的區(qū)分哪些地址可以發(fā)放業(yè)務、哪些地址不 具備條件發(fā)放業(yè)務,不但有利于市場部門進行精確的業(yè)務營銷,也有利于避免受理之后發(fā) 現(xiàn)無法安裝導致客戶感知下降。
[0005] b)安裝地址與后續(xù)分配給用戶的設備端口、上門安裝施工布線、用戶報障之后的 障礙處理等都有直接的聯(lián)系,因此準確、高效的定位用戶地址對于固網(wǎng)業(yè)務的運維也非常 重要。
[0006] 綜上所述,固網(wǎng)安裝地址數(shù)據(jù)是固網(wǎng)業(yè)務辦理的基礎,地址資源數(shù)據(jù)的高效、準確 檢索對于固網(wǎng)業(yè)務的辦理與運營有著重要的意義。
[0007] 目前固網(wǎng)覆蓋地址的增加通常由分公司的網(wǎng)絡或者工程建設人員先進行新區(qū)域 設備及傳輸線路的安裝,安裝之后網(wǎng)絡人員采集安裝設備的覆蓋地址,然后將覆蓋地址批 量錄入至系統(tǒng)中。通常,批量錄入至系統(tǒng)中的覆蓋地址資源會以字符串記錄的形式依次存 放在數(shù)據(jù)庫表中,如圖1所示。之后前臺營業(yè)人員或客服人員在辦理業(yè)務時會根據(jù)客戶所 報的地址信息碎片化的輸入一些地址信息(如:XX路或XX小區(qū))進行模糊查詢。在Oracle 中的字符串模糊查詢通常采用like "%關鍵詞%"的方式進行檢索,由于此種方式無法利用 索引,每次模糊匹配都會全表掃描,不但檢索的速度慢,而且也非常消耗系統(tǒng)的CPU,并進而 影響應用中的其它模塊的正常使用。而且,這種方式中,當出現(xiàn)多關鍵詞的組合搜索時,效 率更低。隨著移動固網(wǎng)業(yè)務的發(fā)展,固網(wǎng)的覆蓋范圍迅速更加,這種檢索模式面對日益龐大 的地址資源數(shù)據(jù)將更加力不從心,因此解決這個問題迫在眉睫。
【發(fā)明內(nèi)容】
[0008] 本發(fā)明提供一種地址匹配的方法和裝置,能夠提高檢索速度。
[0009] 一種地址匹配的方法,包括:
[0010] 獲取用戶輸入的查詢詞;
[0011] 將所述查詢詞拆分成至少一個索引關鍵詞;
[0012] 根據(jù)預先建立的索引關鍵詞與地址信息的對應關系,獲取各個所述索引關鍵詞各 自對應的地址信息;
[0013] 顯示所述地址信息中的至少一個。
[0014] 所述將所述查詢詞拆分成至少一個索引關鍵詞的步驟包括:
[0015] 根據(jù)地理區(qū)劃信息,將所述查詢詞拆分成至少一個索引關鍵詞。
[0016] 所述根據(jù)地理區(qū)劃信息,將所述查詢詞拆分成至少一個索引關鍵詞的步驟包括:
[0017] 獲取第一級別地理區(qū)劃關鍵詞,在所述查詢詞中匹配;
[0018] 如果匹配成功,提取所述查詢詞中匹配的所述查詢詞左邊的字符串以及匹配的所 述查詢詞,組成索引關鍵詞;
[0019] 對所述查詢詞中的剩余字符串使用第二級別地理區(qū)劃關鍵詞進行拆分。
[0020] 所述將所述查詢詞拆分成至少一個索引關鍵詞的步驟包括:
[0021] 分詞步驟,根據(jù)地理區(qū)劃信息,將所述查詢詞拆分成至少一個當前待查詢字符 串;
[0022] 判斷步驟,判斷所述當前待查詢字符串是否包含在關鍵詞數(shù)據(jù)庫中;
[0023] 第一輸出步驟,當所述當前待查詢字符串包含在所述關鍵詞數(shù)據(jù)庫時,將所述待 查詢字符串作為一個索引關鍵詞輸出;
[0024] 第二輸出步驟,當所述當前待查詢字符串沒有包含在所述關鍵詞數(shù)據(jù)庫時,且所 述當前待查詢字符串是單字符串時,將所述待查詢字符串作為一個索引關鍵詞輸出;
[0025] 更新步驟,當所述當前待查詢字符串沒有包含在所述關鍵詞數(shù)據(jù)庫時,且所述當 前待查詢字符串不是單字符串時,對所述當前待查詢字符串進行分詞,生成為新的當前待 查詢字符串,返回所述判斷步驟。
[0026] 所述對所述當前待查詢字符串進行分詞,生成為新的當前待查詢字符串的步驟包 括:
[0027] 提取所述當前待查詢字符串中位于右邊或者左邊的預定數(shù)量的字符;
[0028] 將所述預定數(shù)量的字符和所述當前待查詢字符串中的剩余字符串分別作為新的 當前待查詢字符串。
[0029] 所述對所述當前待查詢字符串進行分詞,生成為新的當前待查詢字符串的步驟包 括:
[0030] 將所述當前待查詢字符串中位于右邊的第一個字符作為一索引關鍵詞輸出;
[0031] 將所述當前待查詢字符串中的剩余字符串作為新的當前待查詢字符串。
[0032] 所述根據(jù)預先建立的索引關鍵詞與地址信息的對應關系,獲取各個所述索引關鍵 詞各自對應的地址信息的步驟包括:
[0033] 預先根據(jù)關鍵詞數(shù)據(jù)庫中的各個索引關鍵詞生成跳躍表;
[0034] 將拆分生成的所述索引關鍵詞與所述跳躍表中的索引關鍵詞匹配;
[0035] 當匹配成功時,獲取匹配成功的所述索引關鍵詞對應的地址信息。
[0036] 所述顯示所述地址信息中的至少一個的步驟包括:
[0037] 根據(jù)所述地址信息的顯示權重,順序顯示地址信息。
[0038] 所述地址信息的顯示權重由以下一個或多個的任意組合確定:所述地址信息對應 的索引關鍵詞的顯示權重、所述地址信息的優(yōu)先級、所述地址信息的地址詳細度、所述地址 信息的準確率、所述地址信息的被搜索頻率、所述地址信息的地址資源歸屬或者所述地址 信息對應的地理位置所在的接入模式。
[0039] 所述索引關鍵詞和地址信息之間的對應關系的建立步驟包括:
[0040] 獲取至少一個地址信息;
[0041] 對所述至少一個地址信息進行分詞,生成至少一個子地址信息;
[0042] 將所述子地址信息作為索引關鍵詞,生成索引關鍵詞與所述地址信息之間的對應 關系。
[0043] 所述將所述子地址信息作為索引關鍵詞,生成索引關鍵詞與所述地址信息之間的 對應關系的步驟包括:
[0044] 獲取所述子地址信息對應的別名字符串;
[0045] 將所述別名字符串作為索引關鍵詞,生成索引關鍵詞與所述地址信息之間的對應 關系。
[0046] 所述別名字符串為所述子地址信息的同音字、所述子地址信息的近音字、所述別 名字符串為所述子地址信息的中的各個字符的拼音的組合、所述子地址信息中的各個字符 的拼音首字母的組合、或者所述子地址信息的外文翻譯。
[0047] 當所述子地址信息為興趣點的地址時,所述別名字符串為所述興趣點的名稱;
[0048] 當所述子地址信息為興趣點的名稱時,所述別名字符串為所述興趣點的地址。
[0049] 一種地址匹配的裝置,包括:
[0050] 第一獲取單元,獲取用戶輸入的查詢詞;
[0051] 拆分單元,將所述查詢詞拆分成至少一個索引關鍵詞;
[0052] 第二獲取單元,根據(jù)預先建立的索引關鍵詞與地址信息的對應關系,獲取各個所 述索引關鍵詞各自對應的地址信息;
[0053] 顯示單元,顯示顯示所述地址信息中的至少一個。
[0054] 所述拆分單元具體為:根據(jù)地理區(qū)劃信息,將所述查詢詞拆分成至少一個索引關 鍵詞。
[0055] 所述拆分單元包括:
[0056] 分詞子單元,根據(jù)地理區(qū)劃信息,將所述查詢詞拆分成至少一個當前待查詢字符 串;
[0057] 判斷子單元,判斷所述當前待查詢字符串是否包含在關鍵詞數(shù)據(jù)庫中;
[0058] 第一輸出子單元,當所述當前待查詢字符串包含在所述關鍵詞數(shù)據(jù)庫時,將所述 待查詢字符串作為一個索引關鍵詞輸出;
[0059] 第二輸出子單元,當所述當前待查詢字符串沒有包含在所述關鍵詞數(shù)據(jù)庫時,且 所述當前待查詢字符串是單字符串時,將所述待查詢字符串作為一個索引關鍵詞輸出;
[0060] 更新子單元,當所述當前待查詢字符串沒有包含在所述關鍵詞數(shù)據(jù)庫時,且所述 當前待查詢字符串不是單字符串時,對所述當前待查詢字符串進行分詞,生成為新的當前 待查詢字符串,返回所述判斷步驟。
[0061] 所述第二獲取單元包括:
[0062] 建立子單元,預先根據(jù)關鍵詞數(shù)據(jù)庫中的各個索引關鍵詞生成跳躍表;
[0063] 匹配單元,將拆分生成的所述索引關鍵詞與所述跳躍表中的索引關鍵詞匹配;
[0064] 獲取子單元,當匹配成功時,獲取匹配成功的所述索引關鍵詞對應的地址信息。
[0065] 本發(fā)明的上述技術方案的有益效果如下:本發(fā)明將所述查詢詞拆分成至少一個索 引關鍵詞;根據(jù)預先建立的索引關鍵詞與地址信息的對應關系,獲取各個所述索引關鍵詞 各自對應的地址信息;通過這種倒排方式,能夠減少檢索需要的時間,加快檢索速度。
【專利附圖】
【附圖說明】
[0066] 圖1現(xiàn)有技術中地址字符串數(shù)據(jù)庫表中的存儲方式;
[0067] 圖2為本發(fā)明一種地址匹配的方法的流程示意圖;
[0068] 圖3為本發(fā)明所述的一種地址匹配的裝置的結構示意圖;
[0069] 圖4為本發(fā)明中正向最大匹配分詞算法的流程示意圖;
[0070] 圖5為本發(fā)明中具體的跳躍表(層次2,間隔2)例子的示意圖;
[0071] 圖6為現(xiàn)有技術中地址檢索模式改造之前CPU的使用情況示意圖;
[0072] 圖7本發(fā)明中地址檢索模式改造之后的CPU使用情況示意圖。 圖8為本發(fā)明中具體的跳躍表例子的示意圖。
【具體實施方式】
[0073] 為使本發(fā)明要解決的技術問題、技術方案和優(yōu)點更加清楚,下面將結合附圖及具 體實施例進行詳細描述。
[0074] 如圖2所述,為本發(fā)明一種地址匹配的方法,包括:
[0075] 步驟11,獲取用戶輸入的查詢詞;例如用戶輸入:"杭州市親親家園"。
[0076] 步驟12,將所述查詢詞拆分成至少一個索引關鍵詞;例如將用戶輸入的"杭州市 親親家園"拆分成"杭州市"、"親親家園"。
[0077] 步驟13,根據(jù)預先建立的索引關鍵詞與地址信息的對應關系,獲取各個所述索引 關鍵詞各自對應的地址信息;假設,有以下三個地址信息;
[0078]
【權利要求】
1. 一種地址匹配的方法,其特征在于,包括: 獲取用戶輸入的查詢詞; 將所述查詢詞拆分成至少一個索引關鍵詞; 根據(jù)預先建立的索引關鍵詞與地址信息的對應關系,獲取各個所述索引關鍵詞各自對 應的地址信息; 顯示所述地址信息中的至少一個。
2. 根據(jù)權利要求1所述的地址匹配的方法,其特征在于,所述將所述查詢詞拆分成至 少一個索引關鍵詞的步驟包括: 根據(jù)地理區(qū)劃信息,將所述查詢詞拆分成至少一個索引關鍵詞。
3. 根據(jù)權利要求2所述的地址匹配的方法,其特征在于,所述根據(jù)地理區(qū)劃信息,將所 述查詢詞拆分成至少一個索引關鍵詞的步驟包括 : 獲取第一級別地理區(qū)劃關鍵詞,在所述查詢詞中匹配; 如果匹配成功,提取所述查詢詞中匹配的所述查詢詞左邊的字符串以及匹配的所述查 詢詞,組成索引關鍵詞; 對所述查詢詞中的剩余字符串使用第二級別地理區(qū)劃關鍵詞進行拆分。
4. 根據(jù)權利要求1所述的地址匹配的方法,其特征在于,所述將所述查詢詞拆分成至 少一個索引關鍵詞的步驟包括: 分詞步驟,根據(jù)地理區(qū)劃信息,將所述查詢詞拆分成至少一個當前待查詢字符串; 判斷步驟,判斷所述當前待查詢字符串是否包含在關鍵詞數(shù)據(jù)庫中; 第一輸出步驟,當所述當前待查詢字符串包含在所述關鍵詞數(shù)據(jù)庫時,將所述待查詢 字符串作為一個索引關鍵詞輸出; 第二輸出步驟,當所述當前待查詢字符串沒有包含在所述關鍵詞數(shù)據(jù)庫時,且所述當 前待查詢字符串是單字符串時,將所述待查詢字符串作為一個索引關鍵詞輸出; 更新步驟,當所述當前待查詢字符串沒有包含在所述關鍵詞數(shù)據(jù)庫時,且所述當前待 查詢字符串不是單字符串時,對所述當前待查詢字符串進行分詞,生成為新的當前待查詢 字符串,返回所述判斷步驟。
5. 根據(jù)權利要求4所述的地址匹配的方法,其特征在于,所述對所述當前待查詢字符 串進行分詞,生成為新的當前待查詢字符串的步驟包括: 提取所述當前待查詢字符串中位于右邊或者左邊的預定數(shù)量的字符; 將所述預定數(shù)量的字符和所述當前待查詢字符串中的剩余字符串分別作為新的當前 待查詢字符串。
6. 根據(jù)權利要求4所述的地址匹配的方法,其特征在于,所述對所述當前待查詢字符 串進行分詞,生成為新的當前待查詢字符串的步驟包括: 將所述當前待查詢字符串中位于右邊的第一個字符作為一索引關鍵詞輸出; 將所述當前待查詢字符串中的剩余字符串作為新的當前待查詢字符串。
7. 根據(jù)權利要求1所述的地址匹配的方法,其特征在于,所述根據(jù)預先建立的索引關 鍵詞與地址信息的對應關系,獲取各個所述索引關鍵詞各自對應的地址信息的步驟包括: 預先根據(jù)關鍵詞數(shù)據(jù)庫中的各個索引關鍵詞生成跳躍表; 將拆分生成的所述索引關鍵詞與所述跳躍表中的索引關鍵詞匹配; 當匹配成功時,獲取匹配成功的所述索引關鍵詞對應的地址信息。
8. 根據(jù)權利要求1所述的地址匹配的方法,其特征在于,所述顯示所述地址信息中的 至少一個的步驟包括: 根據(jù)所述地址信息的顯示權重,順序顯示地址信息。
9. 根據(jù)權利要求8所述的地址匹配的方法,其特征在于, 所述地址信息的顯示權重由以下一個或多個的任意組合確定:所述地址信息對應的索 引關鍵詞的顯示權重、所述地址信息的優(yōu)先級、所述地址信息的地址詳細度、所述地址信息 的準確率、所述地址信息的被搜索頻率、所述地址信息的地址資源歸屬或者所述地址信息 對應的地理位置所在的接入模式。
10. 根據(jù)權利要求1所述的地址匹配的方法,其特征在于,所述索引關鍵詞和地址信息 之間的對應關系的建立步驟包括: 獲取至少一個地址信息; 對所述至少一個地址信息進行分詞,生成至少一個子地址信息; 將所述子地址信息作為索引關鍵詞,生成索引關鍵詞與所述地址信息之間的對應關 系。
11. 根據(jù)權利要求10所述的地址匹配的方法,其特征在于,所述將所述子地址信息作 為索引關鍵詞,生成索引關鍵詞與所述地址信息之間的對應關系的步驟包括: 獲取所述子地址信息對應的別名字符串; 將所述別名字符串作為索引關鍵詞,生成索引關鍵詞與所述地址信息之間的對應關 系。
12. 根據(jù)權利要求11所述的地址匹配的方法,其特征在于, 所述別名字符串為所述子地址信息的同音字、所述子地址信息的近音字、所述別名字 符串為所述子地址信息的中的各個字符的拼音的組合、所述子地址信息中的各個字符的拼 音首字母的組合、或者所述子地址信息的外文翻譯。
13. 根據(jù)權利要求11所述的地址匹配的方法,其特征在于, 當所述子地址信息為興趣點的地址時,所述別名字符串為所述興趣點的名稱; 當所述子地址信息為興趣點的名稱時,所述別名字符串為所述興趣點的地址。
14. 一種地址匹配的裝置,其特征在于,包括: 第一獲取單元,獲取用戶輸入的查詢詞; 拆分單元,將所述查詢詞拆分成至少一個索引關鍵詞; 第二獲取單元,根據(jù)預先建立的索引關鍵詞與地址信息的對應關系,獲取各個所述索 引關鍵詞各自對應的地址信息; 顯示單元,顯示顯示所述地址信息中的至少一個。
15. 根據(jù)權利要求14所述的裝置,其特征在于,所述拆分單元具體為:根據(jù)地理區(qū)劃信 息,將所述查詢詞拆分成至少一個索引關鍵詞。
16. 根據(jù)權利要求14所述的裝置,其特征在于,所述拆分單元包括: 分詞子單元,根據(jù)地理區(qū)劃信息,將所述查詢詞拆分成至少一個當前待查詢字符串; 判斷子單元,判斷所述當前待查詢字符串是否包含在關鍵詞數(shù)據(jù)庫中; 第一輸出子單元,當所述當前待查詢字符串包含在所述關鍵詞數(shù)據(jù)庫時,將所述待查 詢字符串作為一個索引關鍵詞輸出; 第二輸出子單元,當所述當前待查詢字符串沒有包含在所述關鍵詞數(shù)據(jù)庫時,且所述 當前待查詢字符串是單字符串時,將所述待查詢字符串作為一個索引關鍵詞輸出; 更新子單元,當所述當前待查詢字符串沒有包含在所述關鍵詞數(shù)據(jù)庫時,且所述當前 待查詢字符串不是單字符串時,對所述當前待查詢字符串進行分詞,生成為新的當前待查 詢字符串,返回所述判斷步驟。
17.根據(jù)權利要求14所述的裝置,其特征在于,所述第二獲取單元包括: 建立子單元,預先根據(jù)關鍵詞數(shù)據(jù)庫中的各個索引關鍵詞生成跳躍表; 匹配單元,將拆分生成的所述索引關鍵詞與所述跳躍表中的索引關鍵詞匹配; 獲取子單元,當匹配成功時,獲取匹配成功的所述索引關鍵詞對應的地址信息。
【文檔編號】G06F17/30GK104375992SQ201310348963
【公開日】2015年2月25日 申請日期:2013年8月12日 優(yōu)先權日:2013年8月12日
【發(fā)明者】王繼春, 方煒, 項建晨, 余建利, 張莉 申請人:中國移動通信集團浙江有限公司