本發(fā)明屬于一種對(duì)經(jīng)過掃描得到的印刷體數(shù)字進(jìn)行自動(dòng)識(shí)別的技術(shù)領(lǐng)域,特別是應(yīng)用在對(duì)圖像上的印刷體數(shù)字來進(jìn)行自動(dòng)識(shí)別時(shí),適用于支票存檔,車牌掃描, 郵編識(shí)別,數(shù)字儀表監(jiān)控等數(shù)字圖像的自動(dòng)識(shí)別等相關(guān)的技術(shù)領(lǐng)域。
背景技術(shù):
目前對(duì)印刷體數(shù)字進(jìn)行自動(dòng)識(shí)別已得到廣泛應(yīng)用,如何更簡(jiǎn)單有效地識(shí)別掃描得到的圖像中的印刷體阿拉伯?dāng)?shù)字是自動(dòng)識(shí)別技術(shù)下一步所面臨的挑戰(zhàn)。由于印刷體數(shù)字的字體差別, 同時(shí)經(jīng)過再次掃描后每次掃描時(shí)的角度與方位的不確定性,因此會(huì)帶來不同程度的變形,同時(shí)背景模糊與實(shí)際打印質(zhì)量不佳的情況又客觀存在,因此如何有效地處理這一系列因素帶來的問題,如圖像上的數(shù)字被污染,斷筆和變形等問題,借此來提高數(shù)字識(shí)別的準(zhǔn)確率是自動(dòng)識(shí)別技術(shù)的關(guān)鍵所在。
技術(shù)實(shí)現(xiàn)要素:
1、一種應(yīng)用劃分法得到的面積比例來進(jìn)行印刷體數(shù)字識(shí)別的方法,其特征是:將被辨識(shí)的每一個(gè)印刷體數(shù)字所在的區(qū)域均分成三行三列大小相等的九個(gè)小區(qū)域塊,然后應(yīng)用于印刷體數(shù)字進(jìn)行自動(dòng)識(shí)別。
2、根據(jù)權(quán)利要求1所述的一種應(yīng)用劃分法得到的面積比例來進(jìn)行印刷體數(shù)字識(shí)別的方法,其特征是:計(jì)算每一個(gè)小區(qū)域塊中數(shù)字筆劃所占面積。
3、根據(jù)權(quán)利要求1所述的一種應(yīng)用劃分法得到的面積比例來進(jìn)行印刷體數(shù)字識(shí)別的方法,其特征是:計(jì)算每一個(gè)小區(qū)域塊中數(shù)字筆劃所占面積占本小區(qū)域塊總面積的比例并記錄下來。
4、根據(jù)權(quán)利要求1所述的一種應(yīng)用劃分法得到的面積比例來進(jìn)行印刷體數(shù)字識(shí)別的方法,其特征是:將由上述方法記錄每一個(gè)小區(qū)域塊中數(shù)字筆劃所占本小區(qū)域塊面積的比例以相同的順序與已知的數(shù)字模板的比例逐個(gè)進(jìn)行比對(duì)。
本發(fā)明提供了一種應(yīng)用劃分法得到的面積比例來進(jìn)行印刷體數(shù)字識(shí)別的方法,其目的是為了準(zhǔn)確和快速地實(shí)現(xiàn)印刷體數(shù)字的識(shí)別與匹配的過程。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種應(yīng)用劃分法得到的面積比例來進(jìn)行印刷體數(shù)字識(shí)別的方法,將被識(shí)別的印刷體數(shù)字通過掃描儀輸入到計(jì)算機(jī)中,然后對(duì)掃描得到的每個(gè)數(shù)字均進(jìn)行同樣的等分處理,即不直接使用每個(gè)數(shù)字筆劃本身所包含的信息進(jìn)行識(shí)別,而是首先將每個(gè)數(shù)字劃分成均等的九份,然后計(jì)算每一份中筆劃所占面積占本小區(qū)域塊總面積的比例,再以完全相同的順序依次與已知的數(shù)字模板進(jìn)行對(duì)比,如果某一區(qū)域塊的筆劃所占面積比例值之差的絕對(duì)值小于門限1的數(shù)值,則認(rèn)為這一區(qū)域塊匹配并記錄下來,然后進(jìn)行下一步的數(shù)字識(shí)別。
所述的每一個(gè)數(shù)字的九個(gè)區(qū)域塊中認(rèn)為匹配的區(qū)域塊的數(shù)目達(dá)到預(yù)先設(shè)定的門限值2則認(rèn)為這被識(shí)別數(shù)字與數(shù)字模板所對(duì)應(yīng)的數(shù)字是同一數(shù)字。
所述的預(yù)先設(shè)定的兩個(gè)門限值可以調(diào)節(jié),伴隨著門限值的調(diào)節(jié)也就改變了識(shí)別率和準(zhǔn)確率這兩個(gè)主要的數(shù)字識(shí)別指標(biāo)。
本發(fā)明的有益效果是:
本發(fā)明將被識(shí)別的印刷體數(shù)字劃分成小區(qū)域塊,然后借助于數(shù)字的筆劃所占每一小區(qū)域塊的面積比例來進(jìn)行數(shù)字識(shí)別對(duì)比,簡(jiǎn)單可靠地預(yù)處理每一個(gè)被識(shí)別印刷體數(shù)字所包含的信息,通過使用筆劃所占面積比例而不是筆劃本身來進(jìn)行數(shù)據(jù)識(shí)別在一定程度上抵消了不同字體與不同清晰度等因素帶來的筆劃絕對(duì)位置的改變,這樣就提高了印刷體數(shù)字識(shí)別的準(zhǔn)確率。與傳統(tǒng)的數(shù)字筆劃直接對(duì)比方法比較而言,由于使用了相對(duì)量來進(jìn)行比對(duì),因此對(duì)數(shù)字的變形辨析能力增加,同時(shí)提高了識(shí)別的準(zhǔn)確率。
具體實(shí)施方式
本發(fā)明是一種計(jì)算筆劃所占每一個(gè)獨(dú)立區(qū)域塊的面積比例值來進(jìn)行印刷體數(shù)字識(shí)別的方法,包括將掃描后的被識(shí)別印刷體數(shù)字首先等分成三行三列共計(jì)九個(gè)小區(qū)域塊,然后再對(duì)比每一區(qū)域塊的筆劃所占面積比例值這一要素,所述的九個(gè)面積比例序列代表了每一個(gè)數(shù)字的根本特征。
本發(fā)明通過首先將掃描后的被識(shí)別印刷體數(shù)字劃分成三行三列共計(jì)九個(gè)小區(qū)域塊,這九個(gè)小區(qū)域塊的所有邊長(zhǎng)與面積等相關(guān)參數(shù)均完全相同,并且這九個(gè)小區(qū)域塊將每個(gè)被識(shí)別印刷體數(shù)字完全包含在內(nèi)(如圖1所示)。
附圖說明
圖1是數(shù)字劃分區(qū)域示意圖。
然后針對(duì)每一小區(qū)域塊開始進(jìn)行獨(dú)立計(jì)算,首先獲得在本區(qū)域塊中被識(shí)別數(shù)字的筆劃所占區(qū)域,然后將筆劃所占面積計(jì)算出來,再計(jì)算出筆劃所占面積占本小區(qū)域塊總面積的比例,將這個(gè)比例存儲(chǔ)下來用于下一步的比對(duì)。在這一步驟中,同時(shí)完成了對(duì)面積比例這一模擬量的量化過程。
再以完全相同的小區(qū)域塊順序依次與已知的數(shù)字模板進(jìn)行對(duì)比,如果某一區(qū)域塊的筆劃所占面積比例值之差的絕對(duì)值小于門限1的數(shù)值,則認(rèn)為這一區(qū)域塊匹配并記錄下來,然后進(jìn)行下一步的數(shù)字識(shí)別。其中數(shù)字模板的獲得是選取若干種常見的印刷體字體,將它們按照上述相同的方法進(jìn)行處理后,取每一小區(qū)域塊的筆劃所占面積比例的數(shù)學(xué)平均值作為模板數(shù)值。門限1的大小可調(diào)節(jié),通過調(diào)整門限1的數(shù)值可以改變識(shí)別不同印刷體字體時(shí)該印刷體與數(shù)字模板之間的允許誤差,也就同時(shí)改變了識(shí)別率這一數(shù)值。
將上述的每一個(gè)數(shù)字的九個(gè)區(qū)域塊中所有認(rèn)為匹配的區(qū)域塊的數(shù)目記錄下來之后求和,如果這一數(shù)值達(dá)到預(yù)先設(shè)定的門限值2則認(rèn)為這個(gè)被識(shí)別的數(shù)字與數(shù)字模板所對(duì)應(yīng)的數(shù)字是同一數(shù)字。門限2的大小可調(diào)節(jié),通過調(diào)整門限2的數(shù)值可以改變識(shí)別不同印刷體字體時(shí)該印刷體與模板之間的允許容限,也就同時(shí)改變了識(shí)別的準(zhǔn)確率這一數(shù)值。
所述的預(yù)先設(shè)定的兩個(gè)門限值可以調(diào)節(jié),伴隨著門限值的調(diào)節(jié)也就改變了識(shí)別率和準(zhǔn)確率這兩個(gè)主要的數(shù)字識(shí)別指標(biāo)。
在執(zhí)行上述數(shù)字的識(shí)別過程時(shí),由于在實(shí)際的數(shù)字掃描過程中會(huì)存在漏掉數(shù)字細(xì)節(jié)或存在背景噪音或雜點(diǎn)的情況,對(duì)于這種情況,通過調(diào)整匹配的門限值1與門限值2即可以達(dá)到調(diào)整被識(shí)別數(shù)字與已知的數(shù)字模板匹配程度的目的,也就是同時(shí)改變了識(shí)別率和準(zhǔn)確率這兩個(gè)主要的數(shù)字識(shí)別指標(biāo)。同理,對(duì)于不同的印刷體字體,只要設(shè)置的門限值大于該字體與模板之間的誤差,也就能適應(yīng)相應(yīng)字體的識(shí)別,也可以同樣提高印刷體數(shù)字識(shí)別的準(zhǔn)確率。
本發(fā)明采用數(shù)字筆劃所占的面積比例為數(shù)字對(duì)比的主要判別點(diǎn),由于對(duì)比的主索引為面積比例而不是數(shù)字筆劃的絕對(duì)位置或數(shù)字筆劃面積本身,并且在這一過程中將面積比例進(jìn)行量化后進(jìn)行對(duì)比,這樣就在一定程度上抵消了不同字體,掃描過程及背景清晰度帶來的影響,從而提高了數(shù)字識(shí)別的準(zhǔn)確率。與此同時(shí),由于全過程只執(zhí)行簡(jiǎn)單的數(shù)學(xué)運(yùn)算步驟,因此減少了處理器的工作負(fù)但,提升了印刷體數(shù)字識(shí)別與對(duì)比的速度。