一種針對疏密不均的號碼圖像識別的方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種針對疏密不均的號碼圖像識別的方法及系統(tǒng),其中,該方法包括:對輸入的疏密不均的號碼圖像進(jìn)行緊密化處理,獲得緊密化后的圖像;根據(jù)已學(xué)習(xí)到的號碼圖像的知識對所述緊密化后的圖像進(jìn)行單個數(shù)字或字符的分割,獲得單個數(shù)字或字符圖像;逐一判斷所述單個數(shù)字或字符圖像是否為預(yù)定的特殊字符;若是,則對該字符進(jìn)行模版匹配獲得對應(yīng)的匹配度;否則,根據(jù)圖像模板匹配方法對單個數(shù)字圖像進(jìn)行數(shù)字的識別,在前一個識別結(jié)果的基礎(chǔ)上繼續(xù)識別,并使用不同套模板進(jìn)行識別,取匹配度最高的識別結(jié)果作為正確的識別結(jié)果。通過采用本發(fā)明公開的方法及系統(tǒng),降低了人力資源,提高了信息爬取效率,為網(wǎng)絡(luò)信息爬取提供了便利。
【專利說明】-種針對疏密不均的號碼圖像識別的方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及圖像處理與字符識別領(lǐng)域,尤其涉及一種針對疏密不均的號碼圖像識 別的方法及系統(tǒng)
【背景技術(shù)】
[0002] 基于對網(wǎng)絡(luò)用戶信息的保護(hù),很多實名或者半實名網(wǎng)站如社交網(wǎng)站、分類信息平 臺將用戶的某些信息如電話號碼用圖片展現(xiàn)出來,這就給信息爬取帶來了很大困難。在此 背景下,如何盡量正確的識別出圖片中的內(nèi)容成為了需要關(guān)注的問題。
[0003] 然而,現(xiàn)有技術(shù)中信息爬取通常由人工方式進(jìn)行,不僅浪費了人力資源,且信息爬 取效率也較低。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的是提供一種針對疏密不均的號碼圖像識別的方法及系統(tǒng),針對在網(wǎng) 絡(luò)信息爬取過程中一些號碼圖片無法直接獲取信息的情況,降低了人力資源,提高了信息 爬取效率,為網(wǎng)絡(luò)信息爬取提供了便利。
[0005] 本發(fā)明的目的是通過以下技術(shù)方案實現(xiàn)的:
[0006] -種針對疏密不均的號碼圖像識別的方法,該方法包括:
[0007] 對輸入的疏密不均的號碼圖像進(jìn)行緊密化處理,獲得緊密化后的圖像;
[0008] 根據(jù)已學(xué)習(xí)到的號碼圖像的知識對所述緊密化后的圖像進(jìn)行單個數(shù)字或字符的 分割,獲得單個數(shù)字或字符圖像;
[0009] 逐一判斷所述單個數(shù)字或字符圖像是否為預(yù)定的特殊字符;
[0010] 若是,則對該字符進(jìn)行模版匹配獲得對應(yīng)的匹配度;否則,根據(jù)圖像模板匹配方法 對單個數(shù)字圖像進(jìn)行數(shù)字的識別;
[0011] 在前一個識別結(jié)果的基礎(chǔ)上繼續(xù)識別,并使用不同套模板進(jìn)行識別,取匹配度最 高的識別結(jié)果作為正確的識別結(jié)果。
[0012] 一種針對疏密不均的號碼圖像識別的系統(tǒng),該系統(tǒng)包括:
[0013] 緊密化處理模塊,用于對輸入的疏密不均的號碼圖像進(jìn)行緊密化處理,獲得緊密 化后的圖像;
[0014] 單個數(shù)字或字符圖像提取模塊,用于根據(jù)已學(xué)習(xí)到的號碼圖像的知識對所述緊密 化后的圖像進(jìn)行單個數(shù)字或字符的分割,獲得單個數(shù)字或字符圖像;
[0015] 特殊字符判斷模塊,用于逐一判斷所述單個數(shù)字或字符圖像是否為預(yù)定的特殊字 符;
[0016] 模版匹配及號碼識別模塊,用于在單個數(shù)字或字符圖像為預(yù)定的特殊字符時,對 該字符進(jìn)行模版匹配獲得對應(yīng)的匹配度;還用于在單個數(shù)字或字符圖像不為預(yù)定的特殊字 符時,根據(jù)圖像模板匹配方法對單個數(shù)字圖像進(jìn)行數(shù)字的識別;并在前一個識別結(jié)果的基 礎(chǔ)上繼續(xù)識別,并使用不同套模板進(jìn)行識別,取匹配度最高的識別結(jié)果作為正確的識別結(jié) 果。
[0017] 由上述本發(fā)明提供的技術(shù)方案可以看出,通過對疏密不均的號碼圖像進(jìn)行緊密化 處理后,再通過預(yù)先學(xué)習(xí)的知識對號碼圖像進(jìn)行分割及識別,可有效的解決部分網(wǎng)站的號 碼圖像的識別問題,識別正確率高,降低了人力資源,提高了信息爬取效率,為網(wǎng)絡(luò)信息爬 取提供了便利。
【專利附圖】
【附圖說明】
[0018] 為了更清楚地說明本發(fā)明實施例的技術(shù)方案,下面將對實施例描述中所需要使用 的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本 領(lǐng)域的普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 附圖。
[0019] 圖1為本發(fā)明實施例一提供的一種針對疏密不均的號碼圖像識別的方法的流程 圖;
[0020] 圖2為本發(fā)明實施例二提供的一種針對疏密不均的號碼圖像識別的系統(tǒng)的示意 圖。
【具體實施方式】
[0021] 下面結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整 地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本 發(fā)明的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施 例,都屬于本發(fā)明的保護(hù)范圍。
[0022] 實施例一
[0023] 圖1為本發(fā)明實施例一提供的一種針對疏密不均的號碼圖像識別的方法的流程 圖。如圖1所示,該方法主要包括如下步驟:
[0024] 步驟11、對輸入的疏密不均的號碼圖像進(jìn)行緊密化處理,獲得緊密化后的圖像。
[0025] 本發(fā)明實施例中,利用圖像本身縱向每列像素值進(jìn)行統(tǒng)計,找出沒有內(nèi)容的列,建 立緊密前與緊密后的列對照表,根據(jù)該對照表對輸入的疏密不均的號碼圖像進(jìn)行緊密化處 理。
[0026] 具體來說,對圖像像素進(jìn)行縱向投影,標(biāo)記全白色的列為0 ;對緊密前的圖像標(biāo)記 不為〇的列對應(yīng)該列號減去該列之前標(biāo)記為〇的列數(shù),即可得到緊密前的圖像與緊密后圖 像的列對照表。
[0027] 步驟12、根據(jù)已學(xué)習(xí)到的號碼圖像的知識對所述緊密化后的圖像進(jìn)行單個數(shù)字或 字符的分割,獲得單個數(shù)字或字符圖像。
[0028] 本發(fā)明實施例中,根據(jù)已學(xué)習(xí)到的對數(shù)字或字符的知識,即各度t_width ;對所述 緊密化后的圖像進(jìn)行等高切割,從〇列開始,切割寬度為t_width+l。
[0029] 步驟13、逐一判斷所述單個數(shù)字或字符圖像是否為預(yù)定的特殊字符;若是,則轉(zhuǎn) 入步驟14;否則,轉(zhuǎn)入步驟15。
[0030] 本發(fā)明實施例中,可以通過下述方法來進(jìn)行判斷:統(tǒng)計所述單個數(shù)字或字符圖像 像素白色與非白色的比例X,并比較該比例X與閾值T的大小;若x>T,則判定當(dāng)前數(shù)字或字 符為預(yù)定的特殊字符。
[0031] 本發(fā)明實施例中,所述預(yù)定的特殊字符通常為簡單的字符,例如通過本步驟, 則可排除所述預(yù)定的特殊字符對識別結(jié)果的干擾。
[0032] 步驟14、對該字符進(jìn)行模版匹配獲得對應(yīng)的匹配度。
[0033] 通過步驟13的判斷可知,當(dāng)前為預(yù)定的特殊字符,則要與相應(yīng)系列字體中的對應(yīng) 的特殊字符模板進(jìn)行匹配,得到匹配度。
[0034] 其中,特殊字符的匹配度需要與步驟15中數(shù)字的匹配度(同一字體系列模版下) 相累積。
[0035] 步驟15、根據(jù)圖像模板匹配方法對單個數(shù)字圖像進(jìn)行數(shù)字的識別。
[0036] 具體來說,本發(fā)明實施例利用一字體系列模版對所述單個數(shù)字圖像進(jìn)行識別,且 該字體系列模版包含多個(例如,10個)數(shù)字模版,記錄下每個數(shù)字模板匹配得到的匹配 度;并將匹配度最大的作為該字體系列下的最佳匹配結(jié)果,再將該結(jié)果加入識別結(jié)果序列。
[0037] 步驟16、在前一個識別結(jié)果的基礎(chǔ)上繼續(xù)識別,并使用不同套模板進(jìn)行識別,取匹 配度最高的識別結(jié)果作為正確的識別結(jié)果。
[0038] 本發(fā)明實施例中,根據(jù)得到的識別結(jié)果對余下圖像繼續(xù)進(jìn)行識別,直到完成整個 圖像的識別;本實施例中,所使用的模板不是完整的數(shù)字模板,而是可以代表該數(shù)字的模板 的一部分;
[0039] 再利用多套字體系列模版對所述單個數(shù)字或字符圖像進(jìn)行識別,取匹配度最高的 識別結(jié)果作為正確的識別結(jié)果。
[0040] 需要強調(diào)的是,計算某一字體系列模版的匹配度時,需要將步驟14中獲得的特殊 字符的匹配度與步驟15獲得的數(shù)字的匹配度相累積。
[0041] 示例性的,通常情況下不同的網(wǎng)站可能用不同的字體,一個網(wǎng)站也可能用不同的 字體,在對號碼圖像進(jìn)行學(xué)習(xí)后,需要準(zhǔn)備所有字體的模板。在號碼圖像識別過程中,使用 所有字體系列模板分別對整個圖像進(jìn)行識別,每一個字體系列模板可以得到累計匹配度, 在這些匹配度中尋找最高匹配度,認(rèn)為該匹配度下的字體是最接近號碼圖像的字體,該匹 配度下的識別結(jié)果序列L為最準(zhǔn)確的識別結(jié)果,輸入識別結(jié)果L。
[0042] 本發(fā)明實施例通過對疏密不均的號碼圖像進(jìn)行緊密化處理后,再通過預(yù)先學(xué)習(xí)的 知識對號碼圖像進(jìn)行分割及識別,可有效的解決部分網(wǎng)站的號碼圖像的識別問題,識別正 確率高,降低了人力資源,提高了信息爬取效率,為網(wǎng)絡(luò)信息爬取提供了便利。
[0043] 實施例二
[0044] 圖2為本發(fā)明實施例二提供的一種針對疏密不均的號碼圖像識別的系統(tǒng)的示意 圖。如圖2所示,該系統(tǒng)主要包括:
[0045] 緊密化處理模塊21,用于對輸入的疏密不均的號碼圖像進(jìn)行緊密化處理,獲得緊 密化后的圖像;
[0046] 單個數(shù)字或字符圖像提取模塊22,用于根據(jù)已學(xué)習(xí)到的號碼圖像的知識對所述緊 密化后的圖像進(jìn)行單個數(shù)字或字符的分割,獲得單個數(shù)字或字符圖像;
[0047] 特殊字符判斷模塊23,用于逐一判斷所述單個數(shù)字或字符圖像是否為預(yù)定的特殊 字符;
[0048] 模版匹配及號碼識別模塊24,用于在單個數(shù)字或字符圖像為預(yù)定的特殊字符時, 對該字符進(jìn)行模版匹配獲得對應(yīng)的匹配度;還用于在單個數(shù)字或字符圖像不為預(yù)定的特殊 字符時,根據(jù)圖像模板匹配方法對單個數(shù)字圖像進(jìn)行數(shù)字的識別;并在前一個識別結(jié)果的 基礎(chǔ)上繼續(xù)識別,并使用不同套模板進(jìn)行識別,取匹配度最高的識別結(jié)果作為正確的識別 結(jié)果。
[0049] 進(jìn)一步的,所述緊密化處理模塊21,還用于利用圖像本身縱向每列像素值進(jìn)行統(tǒng) 計,找出沒有內(nèi)容的列,建立緊密前與緊密后的列對照表,根據(jù)該對照表對輸入的疏密不均 的號碼圖像進(jìn)行緊密化處理。
[0050] 進(jìn)一步的,所述單個數(shù)字或字符圖像提取模塊22,還用于通過學(xué)習(xí)號碼圖像的知 識獲得單個數(shù)字或字符的寬度t_width ;
[0051] 對所述緊密化后的圖像進(jìn)行等高切割,從0列開始,切割寬度為t_width+l。
[0052] 進(jìn)一步的,所述特殊字符判斷模塊23,還用于統(tǒng)計所述單個數(shù)字或字符圖像像素 白色與非白色的比例X,并比較該比例 x與閾值T的大??;
[0053] 若x>T,則判定當(dāng)前數(shù)字或字符為預(yù)定的特殊字符。
[0054] 進(jìn)一步的,獲得正確的識別結(jié)果的步驟包括:
[0055] 利用一字體系列模版對單個數(shù)字圖像進(jìn)行識別,且該字體系列模版包含多個數(shù)字 模版,記錄下每個數(shù)字模板匹配得到的匹配度,并將匹配度最大的作為該字體系列下的最 佳匹配結(jié)果,再將該結(jié)果加入識別結(jié)果序列;根據(jù)得到的識別結(jié)果對余下圖像繼續(xù)進(jìn)行識 另IJ,直到完成整個圖像的識別;
[0056] 再利用多套字體系列模版丟所述單個數(shù)字或字符圖像進(jìn)行識別,取匹配度最高的 識別結(jié)果作為正確的識別結(jié)果。
[0057] 需要說明的是,上述系統(tǒng)中包含的各個功能模塊所實現(xiàn)的功能的具體實現(xiàn)方式在 前面的各個實施例中已經(jīng)有詳細(xì)描述,故在這里不再贅述。
[0058] 所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡潔,僅以上述各功能 模塊的劃分進(jìn)行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能模 塊完成,即將系統(tǒng)的內(nèi)部結(jié)構(gòu)劃分成不同的功能模塊,以完成以上描述的全部或者部分功 能。
[0059] 通過以上的實施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到上述實施例可 以通過軟件實現(xiàn),也可以借助軟件加必要的通用硬件平臺的方式來實現(xiàn)?;谶@樣的理解, 上述實施例的技術(shù)方案可以以軟件產(chǎn)品的形式體現(xiàn)出來,該軟件產(chǎn)品可以存儲在一個非易 失性存儲介質(zhì)(可以是⑶-ROM,U盤,移動硬盤等)中,包括若干指令用以使得一臺計算機 設(shè)備(可以是個人計算機,服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實施例所述的方法。
[0060] 以上所述,僅為本發(fā)明較佳的【具體實施方式】,但本發(fā)明的保護(hù)范圍并不局限于此, 任何熟悉本【技術(shù)領(lǐng)域】的技術(shù)人員在本發(fā)明披露的技術(shù)范圍內(nèi),可輕易想到的變化或替換, 都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求書的保護(hù)范 圍為準(zhǔn)。
【權(quán)利要求】
1. 一種針對疏密不均的號碼圖像識別的方法,其特征在于,該方法包括: 對輸入的疏密不均的號碼圖像進(jìn)行緊密化處理,獲得緊密化后的圖像; 根據(jù)已學(xué)習(xí)到的號碼圖像的知識對所述緊密化后的圖像進(jìn)行單個數(shù)字或字符的分割, 獲得單個數(shù)字或字符圖像; 逐一判斷所述單個數(shù)字或字符圖像是否為預(yù)定的特殊字符; 若是,則對該字符進(jìn)行模版匹配獲得對應(yīng)的匹配度;否則,根據(jù)圖像模板匹配方法對單 個數(shù)字圖像進(jìn)行數(shù)字的識別; 在前一個識別結(jié)果的基礎(chǔ)上繼續(xù)識別,并使用不同套模板進(jìn)行識別,取匹配度最高的 識別結(jié)果作為正確的識別結(jié)果。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述對輸入的疏密不均的號碼圖像進(jìn)行 緊密化處理包括: 利用圖像本身縱向每列像素值進(jìn)行統(tǒng)計,找出沒有內(nèi)容的列,建立緊密前與緊密后的 列對照表,根據(jù)該對照表對輸入的疏密不均的號碼圖像進(jìn)行緊密化處理。
3. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)已學(xué)習(xí)到的號碼圖像的知識對 所述緊密化后的圖像進(jìn)行單個數(shù)字或字符的分割包括: 通過學(xué)習(xí)號碼圖像的知識獲得單個數(shù)字或字符的寬度t_width ; 對所述緊密化后的圖像進(jìn)行等高切割,從〇列開始,切割寬度為t_width+l。
4. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述判斷所述單個數(shù)字或字符圖像中是 否為預(yù)定的特殊字符包括: 統(tǒng)計所述單個數(shù)字或字符圖像像素白色與非白色的比例X,并比較該比例X與閾值T的 大?。? 若χ>Τ,則判定當(dāng)前數(shù)字或字符為預(yù)定的特殊字符。
5. 根據(jù)權(quán)利要求1或3所述的方法,其特征在于,獲得正確的識別結(jié)果的步驟包括: 利用一字體系列模版對單個數(shù)字圖像進(jìn)行識別,且該字體系列模版包含多個數(shù)字模 版,記錄下每個數(shù)字模板匹配得到的匹配度,并將匹配度最大的作為該字體系列下的最佳 匹配結(jié)果,再將該結(jié)果加入識別結(jié)果序列;根據(jù)得到的識別結(jié)果對余下圖像繼續(xù)進(jìn)行識別, 直到完成整個圖像的識別; 再利用多套字體系列模版對所述單個數(shù)字圖像進(jìn)行識別,取匹配度最高的識別結(jié)果作 為正確的識別結(jié)果。
6. -種針對疏密不均的號碼圖像識別的系統(tǒng),其特征在于,該系統(tǒng)包括: 緊密化處理模塊,用于對輸入的疏密不均的號碼圖像進(jìn)行緊密化處理,獲得緊密化后 的圖像; 單個數(shù)字或字符圖像提取模塊,用于根據(jù)已學(xué)習(xí)到的號碼圖像的知識對所述緊密化后 的圖像進(jìn)行單個數(shù)字或字符的分割,獲得單個數(shù)字或字符圖像; 特殊字符判斷模塊,用于逐一判斷所述單個數(shù)字或字符圖像是否為預(yù)定的特殊字符; 模版匹配及號碼識別模塊,用于在單個數(shù)字或字符圖像為預(yù)定的特殊字符時,對該字 符進(jìn)行模版匹配獲得對應(yīng)的匹配度;還用于在單個數(shù)字或字符圖像不為預(yù)定的特殊字符 時,根據(jù)圖像模板匹配方法對單個數(shù)字圖像進(jìn)行數(shù)字的識別;并在前一個識別結(jié)果的基礎(chǔ) 上繼續(xù)識別,并使用不同套模板進(jìn)行識別,取匹配度最高的識別結(jié)果作為正確的識別結(jié)果。
7. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述緊密化處理模塊,還用于利用圖像本 身縱向每列像素值進(jìn)行統(tǒng)計,找出沒有內(nèi)容的列,建立緊密前與緊密后的列對照表,根據(jù)該 對照表對輸入的疏密不均的號碼圖像進(jìn)行緊密化處理。
8. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述單個數(shù)字或字符圖像提取模塊,還用 于通過學(xué)習(xí)號碼圖像的知識獲得單個數(shù)字或字符的寬度t_width ; 對所述緊密化后的圖像進(jìn)行等高切割,從〇列開始,切割寬度為t_width+l。
9. 根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述特殊字符判斷模塊,還用于統(tǒng)計所述 單個數(shù)字或字符圖像像素白色與非白色的比例X,并比較該比例X與閾值T的大??; 若x>T,則判定當(dāng)前數(shù)字或字符為預(yù)定的特殊字符。
10. 根據(jù)權(quán)利要求6或8所述的系統(tǒng),其特征在于,獲得正確的識別結(jié)果的步驟包括: 利用一字體系列模版對單個數(shù)字圖像進(jìn)行識別,且該字體系列模版包含多個數(shù)字模 版,記錄下每個數(shù)字模板匹配得到的匹配度,并將匹配度最大的作為該字體系列下的最佳 匹配結(jié)果,再將該結(jié)果加入識別結(jié)果序列;根據(jù)得到的識別結(jié)果對余下圖像繼續(xù)進(jìn)行識別, 直到完成整個圖像的識別; 再利用多套字體系列模版丟所述單個數(shù)字或字符圖像進(jìn)行識別,取匹配度最高的識別 結(jié)果作為正確的識別結(jié)果。
【文檔編號】G06K9/20GK104217204SQ201410484260
【公開日】2014年12月17日 申請日期:2014年9月19日 優(yōu)先權(quán)日:2014年9月19日
【發(fā)明者】朱明 , 邱瑞 申請人:中國科學(xué)技術(shù)大學(xué)