重處理。
[0238] A10、根據(jù)A1-A9任一項(xiàng)所述的方法,其中,通過以下步驟獲取所述目標(biāo)待識別電 話號碼串:
[0239] 從網(wǎng)頁中獲取興趣點(diǎn)Ρ0Ι信息;
[0240] 從所述Ρ0Ι信息中提取所述目標(biāo)待識別電話號碼串。
[0241] All、根據(jù)A1-A10任一項(xiàng)所述的方法,其中,在對所述第一指定位數(shù)或所述第二指 定位數(shù)的號碼串進(jìn)行補(bǔ)全之后,還包括:
[0242] 若存在剩余的待識別電話號碼串,則再次執(zhí)行預(yù)處理操作、劃分操作、判斷操作、 確定操作、切分操作以及補(bǔ)全操作,直至剩余的待識別電話號碼串被全部識別完。
[0243] B12、一種電話號碼的識別裝置,包括:
[0244] 劃分模塊,適于從初始位置起,根據(jù)符合電話號碼格式的劃分規(guī)則對目標(biāo)待識別 電話號碼串進(jìn)行劃分,得到第一指定位數(shù)的號碼串;
[0245] 判斷模塊,適于判斷所述第一指定位數(shù)的號碼串是否符合第一類別電話號碼的屬 性特征;
[0246] 確定模塊,適于若所述判斷模塊判斷所述第一指定位數(shù)的號碼串符合第一類別電 話號碼的屬性特征,則根據(jù)所述第一類別電話號碼的屬性特征,確定至少兩個探測位數(shù);
[0247] 切分模塊,適于分別采用各個探測位數(shù)對所述目標(biāo)待識別電話號碼串進(jìn)行切分, 得到切分結(jié)果;
[0248] 補(bǔ)全模塊,適于根據(jù)所述切分結(jié)果,從所述至少兩個探測位數(shù)中選取最優(yōu)探測位 數(shù)對所述第一指定位數(shù)的號碼串進(jìn)行補(bǔ)全。
[0249] B13、根據(jù)B12所述的裝置,其中,所述切分模塊還適于:
[0250] 對于各個探測位數(shù),利用該探測位數(shù)對所述目標(biāo)待識別電話號碼串的、所述第一 指定位數(shù)的號碼串之后的電話號碼串進(jìn)行切分,得到第一切分號碼和第二切分號碼;
[0251] 比較所述第一切分號碼和所述第二切分號碼,確定兩者對應(yīng)位置上號碼相同的位 數(shù),作為該探測位數(shù)對應(yīng)的切分結(jié)果。
[0252] B14、根據(jù)B12或B13所述的裝置,其中,所述補(bǔ)全模塊還適于:
[0253] 比較所述各個探測位數(shù)對應(yīng)的號碼相同的位數(shù);
[0254] 從所述各個探測位數(shù)中,選取對應(yīng)號碼相同的位數(shù)最大的作為最優(yōu)探測位數(shù);
[0255] 對所述第一指定位數(shù)的號碼串補(bǔ)全所述最優(yōu)探測位數(shù)。
[0256] B15、根據(jù)B12-B14任一項(xiàng)所述的裝置,其中,
[0257] 所述劃分模塊,還適于若所述判斷模塊判斷第一指定位數(shù)的號碼串不符合第一類 別電話號碼的屬性特征,則選取新的符合電話號碼格式的劃分規(guī)則對所述目標(biāo)待識別電話 號碼串重新進(jìn)行劃分,得到第二指定位數(shù)的號碼串;
[0258] 所述判斷模塊,還適于判斷所述第二指定位數(shù)的號碼串是否符合第二類別電話號 碼的屬性特征;
[0259] 所述補(bǔ)全模塊,還適于若所述判斷模塊判斷所述第二指定位數(shù)的號碼串符合第二 類別電話號碼的屬性特征,則根據(jù)所述第二類別電話號碼的屬性特征,對所述第二指定位 數(shù)的號碼串進(jìn)行補(bǔ)全。
[0260] B16、根據(jù)B12-B15任一項(xiàng)所述的裝置,其中,所述劃分模塊包括:
[0261] 預(yù)處理單元,適于對所述目標(biāo)待識別電話號碼串進(jìn)行與電話號碼格式相關(guān)的預(yù)處 理操作,得到處理后的目標(biāo)待識別電話號碼串;
[0262] 劃分單元,適于從初始位置起,根據(jù)符合電話號碼格式的劃分規(guī)則對所述處理后 的目標(biāo)待識別電話號碼串進(jìn)行劃分。
[0263] B17、根據(jù)B12-B16任一項(xiàng)所述的裝置,其中,所述預(yù)處理單元還適于:
[0264] 確定所述目標(biāo)待識別電話號碼串中是否包含指定的分隔符;
[0265] 若所述目標(biāo)待識別電話號碼串中包含指定的分隔符,則按照該分隔符切分所述原 始待識別電話號碼串,得到切分后的至少兩個目標(biāo)待識別電話號碼串。
[0266] B18、根據(jù)B12-B17任一項(xiàng)所述的裝置,其中,所述指定的分隔符包括下列至少之 一:頓號、逗號、分號、斜杜、反斜杜、豎桿。
[0267] B19、根據(jù)B12-B18任一項(xiàng)所述的裝置,其中,所述預(yù)處理單元還適于:
[0268] 在得到切分后的至少兩個目標(biāo)待識別電話號碼串之后,對于各個目標(biāo)待識別電話 號碼串,確定該目標(biāo)待識別電話號碼串的頭部是否具有國家區(qū)號;
[0269] 若是,則去除該目標(biāo)待識別電話號碼串頭部的國家區(qū)號。
[0270] B20、根據(jù)B12-B19任一項(xiàng)所述的裝置,其中,所述預(yù)處理單元還適于:
[0271] 在去除該目標(biāo)待識別電話號碼串頭部的國家區(qū)號之后,分析去除了國家區(qū)號之后 的所述目標(biāo)待識別電話號碼串;
[0272] 若所述目標(biāo)待識別電話號碼串的頭部具有地區(qū)區(qū)號且該地區(qū)區(qū)號不完整,則補(bǔ)充 該地區(qū)區(qū)號使其完整;
[0273] 若所述目標(biāo)待識別電話號碼串的頭部具有地區(qū)區(qū)號且該地區(qū)區(qū)號重復(fù),則對該地 區(qū)區(qū)號進(jìn)行去重處理。
[0274] B21、根據(jù)B12-B20任一項(xiàng)所述的裝置,其中,還包括獲取模塊,適于通過以下步驟 獲取所述目標(biāo)待識別電話號碼串:
[0275] 從網(wǎng)頁中獲取興趣點(diǎn)Ρ0Ι信息;
[0276] 從所述Ρ0Ι信息中提取所述目標(biāo)待識別電話號碼串。
[0277] B22、根據(jù)B12-B21任一項(xiàng)所述的裝置,其中,還包括:
[0278] 遞歸模塊,適于若存在剩余的待識別電話號碼串,則觸發(fā)所述預(yù)處理單元再次執(zhí) 行預(yù)處理操作、所述劃分模塊再次執(zhí)行劃分操作、所述判斷模塊再次執(zhí)行判斷操作、所述確 定模塊再次執(zhí)行確定操作、所述切分模塊再次執(zhí)行切分操作以及所述補(bǔ)全模塊再次執(zhí)行補(bǔ) 全操作,直至剩余的待識別電話號碼串被全部識別完。
【主權(quán)項(xiàng)】
1. 一種電話號碼的識別方法,包括: 從初始位置起,根據(jù)符合電話號碼格式的劃分規(guī)則對目標(biāo)待識別電話號碼串進(jìn)行劃 分,得到第一指定位數(shù)的號碼串; 判斷所述第一指定位數(shù)的號碼串是否符合第一類別電話號碼的屬性特征; 若是,則根據(jù)所述第一類別電話號碼的屬性特征,確定至少兩個探測位數(shù); 分別采用各個探測位數(shù)對所述目標(biāo)待識別電話號碼串進(jìn)行切分,得到切分結(jié)果; 根據(jù)所述切分結(jié)果,從所述至少兩個探測位數(shù)中選取最優(yōu)探測位數(shù)對所述第一指定位 數(shù)的號碼串進(jìn)行補(bǔ)全。2. 根據(jù)權(quán)利要求1所述的方法,其中,所述分別采用各個探測位數(shù)對所述目標(biāo)待識別 電話號碼串進(jìn)行切分,得到切分結(jié)果,包括: 對于各個探測位數(shù),利用該探測位數(shù)對所述目標(biāo)待識別電話號碼串的、所述第一指定 位數(shù)的號碼串之后的電話號碼串進(jìn)行切分,得到第一切分號碼和第二切分號碼; 比較所述第一切分號碼和所述第二切分號碼,確定兩者對應(yīng)位置上號碼相同的位數(shù), 作為該探測位數(shù)對應(yīng)的切分結(jié)果。3. 根據(jù)權(quán)利要求1或2所述的方法,其中,根據(jù)所述切分結(jié)果,從所述至少兩個探測位 數(shù)中選取最優(yōu)探測位數(shù)對所述第一指定位數(shù)的號碼串進(jìn)行補(bǔ)全,包括: 比較所述各個探測位數(shù)對應(yīng)的號碼相同的位數(shù); 從所述各個探測位數(shù)中,選取對應(yīng)號碼相同的位數(shù)最大的作為最優(yōu)探測位數(shù); 對所述第一指定位數(shù)的號碼串補(bǔ)全所述最優(yōu)探測位數(shù)。4. 根據(jù)權(quán)利要求1-3任一項(xiàng)所述的方法,其中,在判斷所述第一指定位數(shù)的號碼串是 否符合第一類別電話號碼的屬性特征之后,還包括: 若所述第一指定位數(shù)的號碼串不符合第一類別電話號碼的屬性特征,則選取新的符合 電話號碼格式的劃分規(guī)則對所述目標(biāo)待識別電話號碼串重新進(jìn)行劃分,得到第二指定位數(shù) 的號碼串; 判斷所述第二指定位數(shù)的號碼串是否符合第二類別電話號碼的屬性特征; 若是,則根據(jù)所述第二類別電話號碼的屬性特征,對所述第二指定位數(shù)的號碼串進(jìn)行 補(bǔ)全。5. 根據(jù)權(quán)利要求1-4任一項(xiàng)所述的方法,其中,從初始位置起,根據(jù)符合電話號碼格式 的劃分規(guī)則對目標(biāo)待識別電話號碼串進(jìn)行劃分,包括: 對所述目標(biāo)待識別電話號碼串進(jìn)行與電話號碼格式相關(guān)的預(yù)處理操作,得到處理后的 目標(biāo)待識別電話號碼串; 從初始位置起,根據(jù)符合電話號碼格式的劃分規(guī)則對所述處理后的目標(biāo)待識別電話號 碼串進(jìn)彳丁劃分。6. 根據(jù)權(quán)利要求1-5任一項(xiàng)所述的方法,其中,對所述目標(biāo)待識別電話號碼串進(jìn)行與 電話號碼格式相關(guān)的預(yù)處理操作,得到處理后的目標(biāo)待識別電話號碼串,包括: 確定所述目標(biāo)待識別電話號碼串中是否包含指定的分隔符; 若所述目標(biāo)待識別電話號碼串中包含指定的分隔符,則按照該分隔符切分所述目標(biāo)待 識別電話號碼串,得到切分后的至少兩個目標(biāo)待識別電話號碼串。7. 根據(jù)權(quán)利要求1-6任一項(xiàng)所述的方法,其中,所述指定的分隔符包括下列至少之一: 頓號、逗號、分號、斜杜、反斜杜、豎桿。8. 根據(jù)權(quán)利要求1-7任一項(xiàng)所述的方法,其中,在得到切分后的至少兩個目標(biāo)待識別 電話號碼串之后,還包括: 對于各個目標(biāo)待識別電話號碼串,確定該目標(biāo)待識別電話號碼串的頭部是否具有國家 區(qū)號; 若是,則去除該目標(biāo)待識別電話號碼串頭部的國家區(qū)號。9. 根據(jù)權(quán)利要求1-8任一項(xiàng)所述的方法,其中,在去除該目標(biāo)待識別電話號碼串頭部 的國家區(qū)號之后,還包括: 分析去除了國家區(qū)號之后的所述目標(biāo)待識別電話號碼串; 若所述目標(biāo)待識別電話號碼串的頭部具有地區(qū)區(qū)號且該地區(qū)區(qū)號不完整,則補(bǔ)充該地 區(qū)區(qū)號使其完整; 若所述目標(biāo)待識別電話號碼串的頭部具有地區(qū)區(qū)號且該地區(qū)區(qū)號重復(fù),則對該地區(qū)區(qū) 號進(jìn)行去重處理。10. -種電話號碼的識別裝置,包括: 劃分模塊,適于從初始位置起,根據(jù)符合電話號碼格式的劃分規(guī)則對目標(biāo)待識別電話 號碼串進(jìn)行劃分,得到第一指定位數(shù)的號碼串; 判斷模塊,適于判斷所述第一指定位數(shù)的號碼串是否符合第一類別電話號碼的屬性特 征; 確定模塊,適于若所述判斷模塊判斷所述第一指定位數(shù)的號碼串符合第一類別電話號 碼的屬性特征,則根據(jù)所述第一類別電話號碼的屬性特征,確定至少兩個探測位數(shù); 切分模塊,適于分別采用各個探測位數(shù)對所述目標(biāo)待識別電話號碼串進(jìn)行切分,得到 切分結(jié)果; 補(bǔ)全模塊,適于根據(jù)所述切分結(jié)果,從所述至少兩個探測位數(shù)中選取最優(yōu)探測位數(shù)對 所述第一指定位數(shù)的號碼串進(jìn)行補(bǔ)全。
【專利摘要】本發(fā)明提供了一種電話號碼的識別方法及裝置。該方法包括:從初始位置起,根據(jù)符合電話號碼格式的劃分規(guī)則對目標(biāo)待識別電話號碼串進(jìn)行劃分,得到第一指定位數(shù)的號碼串;判斷所述第一指定位數(shù)的號碼串是否符合第一類別電話號碼的屬性特征;若是,則根據(jù)所述第一類別電話號碼的屬性特征,確定至少兩個探測位數(shù);分別采用各個探測位數(shù)對所述目標(biāo)待識別電話號碼串進(jìn)行切分,得到切分結(jié)果;根據(jù)所述切分結(jié)果,從所述至少兩個探測位數(shù)中選取最優(yōu)探測位數(shù)對所述第一指定位數(shù)的號碼串進(jìn)行補(bǔ)全。本發(fā)明實(shí)施例采用后向探測位數(shù)判定的方案,對目標(biāo)待識別電話號碼串進(jìn)行探測、識別,提高了電話號碼識別的準(zhǔn)確性。
【IPC分類】H04L29/08, H04M1/2745
【公開號】CN105227737
【申請?zhí)枴緾N201510643027
【發(fā)明人】馬健
【申請人】北京奇虎科技有限公司, 奇智軟件(北京)有限公司
【公開日】2016年1月6日
【申請日】2015年9月30日