電話號(hào)碼的識(shí)別方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,特別是一種電話號(hào)碼的識(shí)別方法及裝置。
【背景技術(shù)】
[0002] POI (Point of Interest),即興趣點(diǎn),是整個(gè)地圖導(dǎo)航產(chǎn)業(yè)的基石,尤其在當(dāng)前移 動(dòng)互聯(lián)網(wǎng)時(shí)代,地圖信息數(shù)據(jù)就變得更加不可或缺了。海量網(wǎng)頁中包含大量的Ρ0Ι信息,每 個(gè)Ρ0Ι信息包含名稱、地址、經(jīng)煒度、電話號(hào)碼等信息,不同網(wǎng)頁的Ρ0Ι數(shù)據(jù)質(zhì)量層次不齊, 而電話作為聯(lián)系興趣點(diǎn)的重要方式,其準(zhǔn)確性是衡量一個(gè)Ρ0Ι數(shù)據(jù)質(zhì)量的重要指標(biāo)。
[0003] 海量網(wǎng)頁中包含了數(shù)以億計(jì)的Ρ0Ι信息,電話號(hào)碼的呈現(xiàn)方式也復(fù)雜多樣,同一 個(gè)Ρ0Ι信息可能會(huì)包含多個(gè)固定電話或者移動(dòng)電話,并且交錯(cuò)合并到一起。此外,從互聯(lián)網(wǎng) 中提取的Ρ0Ι信息可能存在大量的錯(cuò)誤的數(shù)據(jù),P0I的電話號(hào)碼也是如此,而錯(cuò)誤的電話號(hào) 碼在應(yīng)用時(shí)會(huì)給用戶帶來體驗(yàn)上的傷害,所以如何準(zhǔn)確地識(shí)別出網(wǎng)頁Ρ0Ι信息中的電話號(hào) 碼成為目前亟待解決的技術(shù)問題。
【發(fā)明內(nèi)容】
[0004] 鑒于上述問題,提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上 述問題的電話號(hào)碼的識(shí)別方法及相應(yīng)的裝置。
[0005] 依據(jù)本發(fā)明的一方面,提供了一種電話號(hào)碼的識(shí)別方法,包括:
[0006] 從初始位置起,根據(jù)符合電話號(hào)碼格式的劃分規(guī)則對目標(biāo)待識(shí)別電話號(hào)碼串進(jìn)行 劃分,得到第一指定位數(shù)的號(hào)碼串;
[0007] 判斷所述第一指定位數(shù)的號(hào)碼串是否符合第一類別電話號(hào)碼的屬性特征;
[0008] 若是,則根據(jù)所述第一類別電話號(hào)碼的屬性特征,確定至少兩個(gè)探測位數(shù);
[0009] 分別采用各個(gè)探測位數(shù)對所述目標(biāo)待識(shí)別電話號(hào)碼串進(jìn)行切分,得到切分結(jié)果;
[0010] 根據(jù)所述切分結(jié)果,從所述至少兩個(gè)探測位數(shù)中選取最優(yōu)探測位數(shù)對所述第一指 定位數(shù)的號(hào)碼串進(jìn)行補(bǔ)全。
[0011] 可選地,所述分別采用各個(gè)探測位數(shù)對所述目標(biāo)待識(shí)別電話號(hào)碼串進(jìn)行切分,得 到切分結(jié)果,包括:
[0012] 對于各個(gè)探測位數(shù),利用該探測位數(shù)對所述目標(biāo)待識(shí)別電話號(hào)碼串的、所述第一 指定位數(shù)的號(hào)碼串之后的電話號(hào)碼串進(jìn)行切分,得到第一切分號(hào)碼和第二切分號(hào)碼;
[0013] 比較所述第一切分號(hào)碼和所述第二切分號(hào)碼,確定兩者對應(yīng)位置上號(hào)碼相同的位 數(shù),作為該探測位數(shù)對應(yīng)的切分結(jié)果。
[0014] 可選地,根據(jù)所述切分結(jié)果,從所述至少兩個(gè)探測位數(shù)中選取最優(yōu)探測位數(shù)對所 述第一指定位數(shù)的號(hào)碼串進(jìn)行補(bǔ)全,包括:
[0015] 比較所述各個(gè)探測位數(shù)對應(yīng)的號(hào)碼相同的位數(shù);
[0016] 從所述各個(gè)探測位數(shù)中,選取對應(yīng)號(hào)碼相同的位數(shù)最大的作為最優(yōu)探測位數(shù);
[0017] 對所述第一指定位數(shù)的號(hào)碼串補(bǔ)全所述最優(yōu)探測位數(shù)。
[0018] 可選地,在判斷所述第一指定位數(shù)的號(hào)碼串是否符合第一類別電話號(hào)碼的屬性特 征之后,還包括:
[0019] 若所述第一指定位數(shù)的號(hào)碼串不符合第一類別電話號(hào)碼的屬性特征,則選取新的 符合電話號(hào)碼格式的劃分規(guī)則對所述目標(biāo)待識(shí)別電話號(hào)碼串重新進(jìn)行劃分,得到第二指定 位數(shù)的號(hào)碼串;
[0020] 判斷所述第二指定位數(shù)的號(hào)碼串是否符合第二類別電話號(hào)碼的屬性特征;
[0021] 若是,則根據(jù)所述第二類別電話號(hào)碼的屬性特征,對所述第二指定位數(shù)的號(hào)碼串 進(jìn)行補(bǔ)全。
[0022] 可選地,從初始位置起,根據(jù)符合電話號(hào)碼格式的劃分規(guī)則對目標(biāo)待識(shí)別電話號(hào) 碼串進(jìn)行劃分,包括:
[0023] 對所述目標(biāo)待識(shí)別電話號(hào)碼串進(jìn)行與電話號(hào)碼格式相關(guān)的預(yù)處理操作,得到處理 后的目標(biāo)待識(shí)別電話號(hào)碼串;
[0024] 從初始位置起,根據(jù)符合電話號(hào)碼格式的劃分規(guī)則對所述處理后的目標(biāo)待識(shí)別電 話號(hào)碼串進(jìn)行劃分。
[0025] 可選地,對所述目標(biāo)待識(shí)別電話號(hào)碼串進(jìn)行與電話號(hào)碼格式相關(guān)的預(yù)處理操作, 得到處理后的目標(biāo)待識(shí)別電話號(hào)碼串,包括:
[0026] 確定所述目標(biāo)待識(shí)別電話號(hào)碼串中是否包含指定的分隔符;
[0027] 若所述目標(biāo)待識(shí)別電話號(hào)碼串中包含指定的分隔符,則按照該分隔符切分所述目 標(biāo)待識(shí)別電話號(hào)碼串,得到切分后的至少兩個(gè)目標(biāo)待識(shí)別電話號(hào)碼串。
[0028] 可選地,所述指定的分隔符包括下列至少之一:頓號(hào)、逗號(hào)、分號(hào)、斜杠、反斜杠、豎 桿。
[0029] 可選地,在得到切分后的至少兩個(gè)目標(biāo)待識(shí)別電話號(hào)碼串之后,還包括:
[0030] 對于各個(gè)目標(biāo)待識(shí)別電話號(hào)碼串,確定該目標(biāo)待識(shí)別電話號(hào)碼串的頭部是否具有 國家區(qū)號(hào);
[0031 ] 若是,則去除該目標(biāo)待識(shí)別電話號(hào)碼串頭部的國家區(qū)號(hào)。
[0032] 可選地,在去除該目標(biāo)待識(shí)別電話號(hào)碼串頭部的國家區(qū)號(hào)之后,還包括:
[0033] 分析去除了國家區(qū)號(hào)之后的所述目標(biāo)待識(shí)別電話號(hào)碼串;
[0034] 若所述目標(biāo)待識(shí)別電話號(hào)碼串的頭部具有地區(qū)區(qū)號(hào)且該地區(qū)區(qū)號(hào)不完整,則補(bǔ)充 該地區(qū)區(qū)號(hào)使其完整;
[0035] 若所述目標(biāo)待識(shí)別電話號(hào)碼串的頭部具有地區(qū)區(qū)號(hào)且該地區(qū)區(qū)號(hào)重復(fù),則對該地 區(qū)區(qū)號(hào)進(jìn)行去重處理。
[0036] 可選地,通過以下步驟獲取所述目標(biāo)待識(shí)別電話號(hào)碼串:
[0037] 從網(wǎng)頁中獲取興趣點(diǎn)Ρ0Ι信息;
[0038] 從所述Ρ0Ι信息中提取所述目標(biāo)待識(shí)別電話號(hào)碼串。
[0039] 可選地,在對所述第一指定位數(shù)或所述第二指定位數(shù)的號(hào)碼串進(jìn)行補(bǔ)全之后,還 包括:
[0040] 若存在剩余的待識(shí)別電話號(hào)碼串,則再次執(zhí)行預(yù)處理操作、劃分操作、判斷操作、 確定操作、切分操作以及補(bǔ)全操作,直至剩余的待識(shí)別電話號(hào)碼串被全部識(shí)別完。
[0041] 依據(jù)本發(fā)明的另一方面,還提供了一種電話號(hào)碼的識(shí)別裝置,包括:
[0042] 劃分模塊,適于從初始位置起,根據(jù)符合電話號(hào)碼格式的劃分規(guī)則對目標(biāo)待識(shí)別 電話號(hào)碼串進(jìn)行劃分,得到第一指定位數(shù)的號(hào)碼串;
[0043] 判斷模塊,適于判斷所述第一指定位數(shù)的號(hào)碼串是否符合第一類別電話號(hào)碼的屬 性特征;
[0044] 確定模塊,適于若所述判斷模塊判斷所述第一指定位數(shù)的號(hào)碼串符合第一類別電 話號(hào)碼的屬性特征,則根據(jù)所述第一類別電話號(hào)碼的屬性特征,確定至少兩個(gè)探測位數(shù);
[0045] 切分模塊,適于分別采用各個(gè)探測位數(shù)對所述目標(biāo)待識(shí)別電話號(hào)碼串進(jìn)行切分, 得到切分結(jié)果;
[0046] 補(bǔ)全模塊,適于根據(jù)所述切分結(jié)果,從所述至少兩個(gè)探測位數(shù)中選取最優(yōu)探測位 數(shù)對所述第一指定位數(shù)的號(hào)碼串進(jìn)行補(bǔ)全。
[0047] 可選地,所述切分模塊還適于:
[0048] 對于各個(gè)探測位數(shù),利用該探測位數(shù)對所述目標(biāo)待識(shí)別電話號(hào)碼串的、所述第一 指定位數(shù)的號(hào)碼串之后的電話號(hào)碼串進(jìn)行切分,得到第一切分號(hào)碼和第二切分號(hào)碼;
[0049] 比較所述第一切分號(hào)碼和所述第二切分號(hào)碼,確定兩者對應(yīng)位置上號(hào)碼相同的位 數(shù),作為該探測位數(shù)對應(yīng)的切分結(jié)果。
[0050] 可選地,所述補(bǔ)全模塊還適于:
[0051 ] 比較所述各個(gè)探測位數(shù)對應(yīng)的號(hào)碼相同的位數(shù);
[0052] 從所述各個(gè)探測位數(shù)中,選取對應(yīng)號(hào)碼相同的位數(shù)最大的作為最優(yōu)探測位數(shù);
[0053] 對所述第一指定位數(shù)的號(hào)碼串補(bǔ)全所述最優(yōu)探測位數(shù)。
[0054] 可選地,所述劃分模塊,還適于若所述判斷模塊判斷第一指定位數(shù)的號(hào)碼串不符 合第一類別電話號(hào)碼的屬性特征,則選取新的符合電話號(hào)碼格式的劃分規(guī)則對所述目標(biāo)待 識(shí)別電話號(hào)碼串重新進(jìn)行劃分,得到第二指定位數(shù)的號(hào)碼串;
[0055] 所述判斷模塊,還適于判斷所述第二指定位數(shù)的號(hào)碼串是否符合第二類別電話號(hào) 碼的屬性特征;
[0056] 所述補(bǔ)全模塊,還適于若所述判斷模塊判斷所述第二指定位數(shù)的號(hào)碼串符合第二 類別電話號(hào)碼的屬性特征,則根據(jù)所述第二類別電話號(hào)碼的屬性特征,對所述第二指定位 數(shù)的號(hào)碼串進(jìn)行補(bǔ)全。
[0057] 可選地,所述劃分模塊包括:
[0058] 預(yù)處理單元,適于對所述目標(biāo)待識(shí)別電話號(hào)碼串進(jìn)行與電話號(hào)碼格式相關(guān)的預(yù)處 理操作,得到處理后的目標(biāo)待識(shí)別電話號(hào)碼串;
[0059] 劃分單元,適于從初始位置起,根據(jù)符合電話號(hào)碼格式的劃分規(guī)則對所述處理后 的目標(biāo)待識(shí)別電話號(hào)碼串進(jìn)行劃分。
[0060] 可選地,所述預(yù)處理單元還適于:
[0061] 確定所述目標(biāo)待識(shí)別電話號(hào)碼串中是否包含指定的分隔符;
[0062] 若所述目標(biāo)待識(shí)別電話號(hào)碼串中包含指定的分隔符,則按照該分隔符切分所述原 始待識(shí)別電話號(hào)碼串,得到切分后的至少兩個(gè)目標(biāo)待識(shí)別電話號(hào)碼串。
[0063] 可選地,所述指定的分隔符包括下列至少之一:頓號(hào)、逗號(hào)、分號(hào)、斜杠、反斜杠、豎 桿。
[0064] 可選地,所述預(yù)處理單元還適于:
[0065] 在得到切分后的至少兩個(gè)目標(biāo)待識(shí)別電話號(hào)碼串之后,對于各個(gè)目標(biāo)待識(shí)別電話 號(hào)碼串,確定該目標(biāo)待識(shí)別電話號(hào)碼串的頭部是否具有國家區(qū)號(hào);
[0066] 若是,則去除該目標(biāo)待識(shí)別電話號(hào)碼串頭部的國家區(qū)號(hào)。
[0067] 可選地,所述預(yù)處理單元還適于:
[0068] 在去除該目標(biāo)待識(shí)別電話號(hào)碼串頭部的國家區(qū)號(hào)之后,分析去除了國家區(qū)號(hào)之后 的所述目標(biāo)待識(shí)別電話號(hào)碼串;
[0069] 若所述目標(biāo)待識(shí)別電話號(hào)碼串的頭部具有地區(qū)區(qū)號(hào)且該地區(qū)區(qū)號(hào)不完整,則補(bǔ)充 該地區(qū)區(qū)號(hào)使其完整;
[0070] 若所述目標(biāo)待識(shí)別電話號(hào)碼串的頭部具有地區(qū)區(qū)號(hào)且該地區(qū)區(qū)號(hào)重復(fù),則對該地 區(qū)區(qū)號(hào)進(jìn)行去重處理。
[0071] 可選地,所述裝置還包括獲取模塊,適于通過以下步驟獲取所述目標(biāo)待識(shí)別電話 號(hào)碼串:
[0072] 從網(wǎng)頁中獲取興趣點(diǎn)Ρ0Ι信息;
[0073] 從所述Ρ0Ι信息中提取所述目標(biāo)待識(shí)別電話號(hào)碼串。
[0074] 可選地,所述裝置還包括:
[0075] 遞歸模塊,適于若存在剩余的待識(shí)別電話號(hào)碼串,則觸發(fā)所述預(yù)處理單元再次執(zhí) 行預(yù)處理操作、所述劃分模塊再次執(zhí)行劃分操作、所述判斷模塊再次執(zhí)行判斷操作、所述確 定模塊再次執(zhí)行確定操作、所述切分模塊再次執(zhí)行切分操作以及所述補(bǔ)全模塊再次執(zhí)行補(bǔ) 全操作,直至剩余的待識(shí)別電話號(hào)碼串被全部識(shí)別完。
[0076] 在本發(fā)明實(shí)施例中,從初始位置起,根據(jù)符合電話號(hào)碼格式的劃分規(guī)則對目標(biāo)待 識(shí)別電話號(hào)碼串進(jìn)行劃分,即結(jié)合不同類別的電話號(hào)碼(如固定電話或移動(dòng)電話等)具有 的特征,采用不同類別的電話號(hào)碼對應(yīng)的電話號(hào)碼格式的劃分規(guī)則對目標(biāo)待識(shí)別電話號(hào)碼 串進(jìn)行劃分,根據(jù)劃分得到的第一指定位數(shù)的號(hào)碼串識(shí)別出其對應(yīng)的電話號(hào)碼的類別,實(shí) 現(xiàn)對不同類別的電話號(hào)碼的有效識(shí)別。進(jìn)一步,本發(fā)明實(shí)施例結(jié)合同一個(gè)電話單元中的兩 個(gè)固定電話或移動(dòng)電話有很大的相似性的特點(diǎn),根據(jù)第一類別電話號(hào)碼的屬性特征,確定 至少兩個(gè)探測位數(shù),隨